在智能駕駛技術的最新進展中,理想汽車CEO李想在近期的AI Talk上宣布了一個引人注目的方向——VLA(Vision-Language-Action,視覺語言動作)模型。這一技術概念,最早由谷歌Deepmind提出,并迅速在具身智能領域嶄露頭角,成為與“端到端”技術并列的新趨勢。
VLA模型與ChatGPT、Sora等視覺語言模型(VLM)的主要區別在于,它不僅具備理解和解釋環境的能力,還能直接輸出控制指令,如指揮機器人動作或駕駛決策。這種將理解與行動結合的能力,使得智能駕駛和具身智能兩大領域有了更緊密的結合。
盡管VLA模型的技術實現和工程落地仍處于早期階段,但已經吸引了眾多科技巨頭的關注和實踐,包括Open AI和字節跳動等。而在國內,一個由小米汽車智駕技術負責人劉方創立的具身機器人項目——阿米奧機器人,也在積極探索這一技術路徑。
阿米奧機器人成立于2024年,專注于將VLA模型應用于3C消費電子領域的機器人柔性生產。劉方表示,傳統的自動化產線部署成本高、周期長,而基于VLA模型的通用機器人則能快速適應不同的生產任務,提高生產效率和靈活性。
劉方強調,GPT等大模型的出現為AI技術的發展帶來了革命性的變化。通過大數據喂養和模仿學習,AI模型能夠產生智能,并理解人類知識。這種能力使得具身智能的實現成為可能,而VLA模型則是實現具身智能的關鍵。
在阿米奧機器人的探索中,VLA模型的應用不僅限于生產線的自動化,還包括對機器人的強化學習訓練。劉方指出,強化學習是一種通過獎勵機制優化AI行為的策略,它能夠在VLA模型的基礎上進一步提升機器人的性能和適應性。
然而,自動駕駛領域的強化學習面臨更大的挑戰。由于自動駕駛涉及復雜的交通環境和競爭對手的反應,因此需要更加精確和全面的模擬環境進行訓練。劉方認為,世界模型仿真器是解決這一問題的關鍵,但它需要與駕駛模型一起迭代優化。
對于VLA模型的未來發展,劉方表示仍處于創新迷茫階段,各家公司的實現路徑不盡相同。但他相信,隨著技術的不斷進步和應用的深入探索,VLA模型將在智能駕駛和具身智能領域發揮越來越重要的作用。
阿米奧機器人目前已經在與北京大學搭建聯合實驗室,共同推進VLA基座模型的研究和開發。同時,阿米奧機器人也在工廠進行數據采集和模型訓練,計劃在今年三四季度實現一條大的通用機器人產線整體落地。
在談及為何選擇消費電子產線機器人領域創業而非自動駕駛時,劉方表示,他更看重具身智能的長期發展潛力。他認為,如果VLA模型能夠成功應用于機器人領域,那么自動駕駛將成為一個相對低維度的問題。
劉方還分享了阿米奧機器人在商業模型上的思考。他表示,代工機器人的成本包括實體機器人的固定資產和算法模型的前期投入。雖然初期投入較大,但機器人可以三班倒工作,替換人力成本,從而實現盈利。
在阿米奧機器人的探索中,VLA模型的應用不僅提高了生產效率,還為機器人帶來了更強的學習能力和適應能力。這種能力使得機器人能夠快速適應不同的生產任務,為3C消費電子領域的柔性生產提供了新的解決方案。
隨著技術的不斷進步和應用的深入探索,阿米奧機器人有望在未來的市場競爭中占據領先地位。同時,VLA模型的發展也將為智能駕駛和具身智能領域帶來更多的創新和突破。