銀河通用公司近期震撼發布了一款名為TrackVLA的全球首創產品級端到端具身FSD大模型。這款模型集成了純視覺環境感知、語言指令驅動、自主推理及零樣本泛化能力,標志著人工智能領域的一大突破。
TrackVLA是一款專為機器人導航設計的產品級大模型,它結合了“視覺-語言-動作”(VLA)訓練框架,通過仿真合成動作數據進行訓練。這一創新使機器人能夠形成“聽 → 看 → 懂 → 走”的閉環運動能力,無需預先建圖或依賴遙控操作,僅需語言指令即可驅動。
這款大模型的八大核心能力令人矚目:
首先,TrackVLA具備出色的自然語言理解和目標識別能力。用戶只需簡單發出指令,如“跟著媽媽”,機器人便能迅速鎖定目標,并根據用戶的新指令,如“換成跟孩子”,立即切換跟隨對象。這種能力不僅限于人類,甚至還能跟蹤寵物。
其次,在人流密集的場景中,TrackVLA展現出卓越的空間理解和視覺記憶機制。它能準確識別并持續跟隨目標,即便在多變環境和多個相似穿著的人中,也能避免“認錯人”。
第三,當目標走出視野范圍時,TrackVLA不會停滯不前,而是利用實時空間智能和大模型推理能力,分析目標運動軌跡,重新規劃路徑找回目標。
第四,TrackVLA不依賴建圖,僅憑純視覺輸入理解環境。這意味著它可以在未經訓練的陌生環境中,如商場、電梯、游樂區等,實現長時穩定自主跟隨。
第五,在復雜場景中,如兒童游樂區和狹窄通道,TrackVLA能實時識別障礙物,分析可通行區域,并根據自身構型自主推理出合理路線,靈活避障。
第六,TrackVLA展現出極強的環境適應性,無論室外陽光還是室內昏暗,從電梯鏡面反射到超市貨架夾縫,都無需專門調參或切換模式。
第七,用戶可通過App實時查看機器人視角,掌握家人動態,系統還能主動提醒風險行為,如小朋友奔跑或老人跌倒,提供“移動守護”。
最后,TrackVLA的技能涌現能力令人驚嘆。它不僅能穩定跟隨人類,還能泛化至任意移動目標。例如,在視頻中,機器狗成功跟隨一只偶遇的動物狗狗,盡管目標形態、運動方式和遮擋情況都非常不確定,但TrackVLA仍表現出穩定的跟隨能力。
目前,TrackVLA已搭載于宇樹機器狗,化身“二寶保鏢”,實現兒童看護,并在未訓練過的真實場景中完成了嚴格的長程驗證。在超市、電梯、服裝店等環境中,它成功穿梭于人流和貨架之間,準確跟隨母子,根據語音指令切換目標,并在兒童玩耍時發出提醒,展現出卓越的性能。