在人工智能的浩瀚宇宙中,一個名為VLA(視覺-語言-動作)的新星域在2018年悄然升起,這一變革性的領域由澳大利亞機器人視覺研究中心(ACRV)的博士后研究員吳琦及其團隊率先點亮。吳琦,這位在學術界屢獲殊榮的科學家,與中國計量大學、英國巴斯大學及澳大利亞阿德萊德大學有著深厚的學術淵源,他的研究足跡遍布圖像描述、視覺問答,并最終引領至VLA的廣闊天地。
2018年,吳琦與博士生Peter Anderson及Abhishek Das在CVPR 2018上首次將視覺-語言(VL)與機器人導航相結合,發表了VLN(視覺-語言-導航)的開山之作。緊接著,Abhishek Das的“EmbodiedQA(具身問答)”研究更是讓“Embodied”概念深入人心。同年,NLP領域的頂級會議ACL在墨爾本召開,吳琦團隊借此機會舉辦了一場題為“將語言和視覺與動作聯系起來”的tutorial,正式拉開了VLA研究的序幕。
在這場tutorial中,吳琦團隊不僅分享了CNN、RNN等基礎方法,還深入探討了機器人數據、環境仿真器以及強化學習在VLA研究中的應用。吳琦意識到,要使機器真正解決實際問題,除了學習和理解多模態信息外,還需與真實環境進行交互。因此,他在原有的VL基礎上加入了“動作(Action)”,提出了“V3A”概念,即視覺(Vision)、提問(Ask)、回答(Answer)和行動(Act)。
吳琦的學術生涯充滿了前瞻性和創新性。早在MS COCO數據集發布之初,他便敏銳地捕捉到了圖像描述方向的研究潛力,并迅速跟進。隨后,他又在視覺問答(VQA)新方向上發表了“Ask Me Anything”工作。七年間,VLA從最初的萌芽狀態發展成為具身智能領域內的熱門話題,吸引了全球科研人員的廣泛關注。英偉達、Figure AI、Physical Intelligence及清華大學等國內外知名機構紛紛推出了各自的VLA模型。
作為VLA領域的開拓者,吳琦并未止步于理論探索,而是選擇在VLN方向上繼續深耕,并著手進行真機研究。如今,他已在澳大利亞阿德萊德大學擔任副教授,領導著“V3A Lab”實驗室,并在澳大利亞機器學習研究中心(AIML)擔任視覺與語言研究方向的實驗室主任。在談到具身智能與VLA時,吳琦表示,VLA不應局限于上半身的操作任務,導航問題仍有待突破。
回顧VLA的發展歷程,吳琦團隊的工作無疑起到了關鍵作用。他們不僅提出了R2R數據集和任務,還推動了VLN研究的興起。隨后,王鑫在CVPR 2019上利用模仿學習和強化學習解決VLN的工作更是讓這一領域大放異彩。而GPT系列的出現則進一步加速了VLA的發展,解決了許多VL難以解決的問題,為VLA的研究奠定了堅實基礎。
在吳琦看來,VLA的大熱是產業和學術發展的雙重結果。從產業視角來看,任何落地場景都需要處理多模態輸入,并依賴一個高水平的推理模型輔助完成復雜的規劃與行為決策。而從學術研究趨勢而言,自然語言處理(NLP)與計算機視覺(CV)領域的核心任務已取得顯著進展,研究者正積極探索新的前沿方向。VLA領域的研究者需要精準定位應用場景,弄清楚語言(L)的核心價值,即為機器人提供一種更簡便的人機交互方式。
對于導航的難點和重要性,吳琦有著深刻的認識。他認為,視覺導航作為任務本身可能并不復雜,但視覺語言導航(VLN)卻極具挑戰性。VLN能夠實現根據指令導航到指定位置并完成特定任務的功能,這在過去是無法想象的。而VLA中的action則更加廣泛,VLN只是其中一個子集。吳琦強調,家用場景下的導航問題尤為復雜,需要機器人不斷移動并處理動態場景中的挑戰。
在VLA領域的研究中,數據問題一直是制約發展的關鍵因素之一。吳琦認為,雖然數據是最大的難題,但同時也是最容易突破的。他提出了多種技術路徑來解決數據問題,包括真人操控采集、Sim2Real模擬生成以及視頻數據驅動等。同時,他也強調了模擬器在VLA研究中的重要性,認為模擬器需要大廠來推動發展,并具備場景仿真、物理仿真和高效運行等關鍵特性。
隨著具身智能的不斷發展,VLA領域的研究將越來越深入。吳琦表示,他將繼續在VLN方向上扎根,并著手進行更多真機研究,以推動VLA技術的實際應用和落地。他的工作不僅為VLA領域的發展奠定了堅實基礎,也為人工智能的未來探索提供了無限可能。