国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

具身智能新紀(jì)元:VLA領(lǐng)域的開(kāi)拓者與他們的導(dǎo)航探索

   時(shí)間:2025-04-29 19:27 來(lái)源:ITBEAR作者:顧雨柔

在人工智能的浩瀚宇宙中,一個(gè)名為VLA(視覺(jué)-語(yǔ)言-動(dòng)作)的新星域在2018年悄然升起,這一變革性的領(lǐng)域由澳大利亞機(jī)器人視覺(jué)研究中心(ACRV)的博士后研究員吳琦及其團(tuán)隊(duì)率先點(diǎn)亮。吳琦,這位在學(xué)術(shù)界屢獲殊榮的科學(xué)家,與中國(guó)計(jì)量大學(xué)、英國(guó)巴斯大學(xué)及澳大利亞阿德萊德大學(xué)有著深厚的學(xué)術(shù)淵源,他的研究足跡遍布圖像描述、視覺(jué)問(wèn)答,并最終引領(lǐng)至VLA的廣闊天地。

2018年,吳琦與博士生Peter Anderson及Abhishek Das在CVPR 2018上首次將視覺(jué)-語(yǔ)言(VL)與機(jī)器人導(dǎo)航相結(jié)合,發(fā)表了VLN(視覺(jué)-語(yǔ)言-導(dǎo)航)的開(kāi)山之作。緊接著,Abhishek Das的“EmbodiedQA(具身問(wèn)答)”研究更是讓“Embodied”概念深入人心。同年,NLP領(lǐng)域的頂級(jí)會(huì)議ACL在墨爾本召開(kāi),吳琦團(tuán)隊(duì)借此機(jī)會(huì)舉辦了一場(chǎng)題為“將語(yǔ)言和視覺(jué)與動(dòng)作聯(lián)系起來(lái)”的tutorial,正式拉開(kāi)了VLA研究的序幕。

在這場(chǎng)tutorial中,吳琦團(tuán)隊(duì)不僅分享了CNN、RNN等基礎(chǔ)方法,還深入探討了機(jī)器人數(shù)據(jù)、環(huán)境仿真器以及強(qiáng)化學(xué)習(xí)在VLA研究中的應(yīng)用。吳琦意識(shí)到,要使機(jī)器真正解決實(shí)際問(wèn)題,除了學(xué)習(xí)和理解多模態(tài)信息外,還需與真實(shí)環(huán)境進(jìn)行交互。因此,他在原有的VL基礎(chǔ)上加入了“動(dòng)作(Action)”,提出了“V3A”概念,即視覺(jué)(Vision)、提問(wèn)(Ask)、回答(Answer)和行動(dòng)(Act)。

吳琦的學(xué)術(shù)生涯充滿了前瞻性和創(chuàng)新性。早在MS COCO數(shù)據(jù)集發(fā)布之初,他便敏銳地捕捉到了圖像描述方向的研究潛力,并迅速跟進(jìn)。隨后,他又在視覺(jué)問(wèn)答(VQA)新方向上發(fā)表了“Ask Me Anything”工作。七年間,VLA從最初的萌芽狀態(tài)發(fā)展成為具身智能領(lǐng)域內(nèi)的熱門(mén)話題,吸引了全球科研人員的廣泛關(guān)注。英偉達(dá)、Figure AI、Physical Intelligence及清華大學(xué)等國(guó)內(nèi)外知名機(jī)構(gòu)紛紛推出了各自的VLA模型。

作為VLA領(lǐng)域的開(kāi)拓者,吳琦并未止步于理論探索,而是選擇在VLN方向上繼續(xù)深耕,并著手進(jìn)行真機(jī)研究。如今,他已在澳大利亞阿德萊德大學(xué)擔(dān)任副教授,領(lǐng)導(dǎo)著“V3A Lab”實(shí)驗(yàn)室,并在澳大利亞機(jī)器學(xué)習(xí)研究中心(AIML)擔(dān)任視覺(jué)與語(yǔ)言研究方向的實(shí)驗(yàn)室主任。在談到具身智能與VLA時(shí),吳琦表示,VLA不應(yīng)局限于上半身的操作任務(wù),導(dǎo)航問(wèn)題仍有待突破。

回顧VLA的發(fā)展歷程,吳琦團(tuán)隊(duì)的工作無(wú)疑起到了關(guān)鍵作用。他們不僅提出了R2R數(shù)據(jù)集和任務(wù),還推動(dòng)了VLN研究的興起。隨后,王鑫在CVPR 2019上利用模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)解決VLN的工作更是讓這一領(lǐng)域大放異彩。而GPT系列的出現(xiàn)則進(jìn)一步加速了VLA的發(fā)展,解決了許多VL難以解決的問(wèn)題,為VLA的研究奠定了堅(jiān)實(shí)基礎(chǔ)。

在吳琦看來(lái),VLA的大熱是產(chǎn)業(yè)和學(xué)術(shù)發(fā)展的雙重結(jié)果。從產(chǎn)業(yè)視角來(lái)看,任何落地場(chǎng)景都需要處理多模態(tài)輸入,并依賴一個(gè)高水平的推理模型輔助完成復(fù)雜的規(guī)劃與行為決策。而從學(xué)術(shù)研究趨勢(shì)而言,自然語(yǔ)言處理(NLP)與計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域的核心任務(wù)已取得顯著進(jìn)展,研究者正積極探索新的前沿方向。VLA領(lǐng)域的研究者需要精準(zhǔn)定位應(yīng)用場(chǎng)景,弄清楚語(yǔ)言(L)的核心價(jià)值,即為機(jī)器人提供一種更簡(jiǎn)便的人機(jī)交互方式。

對(duì)于導(dǎo)航的難點(diǎn)和重要性,吳琦有著深刻的認(rèn)識(shí)。他認(rèn)為,視覺(jué)導(dǎo)航作為任務(wù)本身可能并不復(fù)雜,但視覺(jué)語(yǔ)言導(dǎo)航(VLN)卻極具挑戰(zhàn)性。VLN能夠?qū)崿F(xiàn)根據(jù)指令導(dǎo)航到指定位置并完成特定任務(wù)的功能,這在過(guò)去是無(wú)法想象的。而VLA中的action則更加廣泛,VLN只是其中一個(gè)子集。吳琦強(qiáng)調(diào),家用場(chǎng)景下的導(dǎo)航問(wèn)題尤為復(fù)雜,需要機(jī)器人不斷移動(dòng)并處理動(dòng)態(tài)場(chǎng)景中的挑戰(zhàn)。

在VLA領(lǐng)域的研究中,數(shù)據(jù)問(wèn)題一直是制約發(fā)展的關(guān)鍵因素之一。吳琦認(rèn)為,雖然數(shù)據(jù)是最大的難題,但同時(shí)也是最容易突破的。他提出了多種技術(shù)路徑來(lái)解決數(shù)據(jù)問(wèn)題,包括真人操控采集、Sim2Real模擬生成以及視頻數(shù)據(jù)驅(qū)動(dòng)等。同時(shí),他也強(qiáng)調(diào)了模擬器在VLA研究中的重要性,認(rèn)為模擬器需要大廠來(lái)推動(dòng)發(fā)展,并具備場(chǎng)景仿真、物理仿真和高效運(yùn)行等關(guān)鍵特性。

隨著具身智能的不斷發(fā)展,VLA領(lǐng)域的研究將越來(lái)越深入。吳琦表示,他將繼續(xù)在VLN方向上扎根,并著手進(jìn)行更多真機(jī)研究,以推動(dòng)VLA技術(shù)的實(shí)際應(yīng)用和落地。他的工作不僅為VLA領(lǐng)域的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ),也為人工智能的未來(lái)探索提供了無(wú)限可能。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群

主站蜘蛛池模板: 欧美激情精品久久久久久久 | 亚洲精品一级片 | 中文字幕热久久久久久久 | 九九电影在线免费完整版 | 伊人婷婷色香五月综合缴激情 | 日韩精品专区 | 羞羞视频网站在线观看 | 电影网站在线观看 | 国产亚洲精品电影 | 色婷婷社区 | 免费污污视频网站 | 婷婷丁香在线观看 | 五月天丁香花婷婷视频网 | 亚洲国产成人在人网站天堂 | 男人天堂avav | 国产综合色在线视频播放线视 | 亚洲美女视频一区二区三区 | 亚洲专区一 | a级毛片免费 | 最新高清无码专区 | 亚洲国产第一页 | 一区二区三区视频 | 玖玖精品国产 | 久久精品店 | 六月激情婷婷 | 国产精品v欧美精品∨日韩 国产黄色免费看 | 亚洲夜色| 久热免费 | 五月激情五月婷婷 | 五月天激情丁香 | 永久免费在线观看视频 | 国产亚洲精品视频中文字幕 | 男人天堂色男人 | 亚洲成人综合网站 | 在线视频 一区二区 | 久久久久青草 | 婷婷五月情| 欧美日皮 | 自拍偷拍 亚洲 | 黄色福利影院 | 国产综合久久 |