在近日舉辦的“理想AI Talk第二季”活動中,理想汽車董事長兼CEO李想深度剖析了人工智能的發(fā)展現(xiàn)狀與未來趨勢,特別是其最新推出的VLA司機大模型,這一創(chuàng)新技術(shù)被視為交通領(lǐng)域的一大突破。
李想將AI工具劃分為信息工具、輔助工具和生產(chǎn)工具三大層級。他指出,當前AI主要作為信息工具存在,但信息冗雜、無效結(jié)果頻現(xiàn),僅能提供有限的參考價值。進入輔助工具階段,如輔助駕駛技術(shù),雖能提升效率,但仍需人類參與。而未來,當AI進化為生產(chǎn)工具時,將能夠獨立完成專業(yè)任務(wù),顯著提升效率與質(zhì)量。李想強調(diào),判斷AI是否真正智能,關(guān)鍵在于其能否成為生產(chǎn)工具。
理想汽車的VLA(Vision-Language-Action Model,視覺語言行動模型)正是朝著這一目標邁進的關(guān)鍵一步。VLA旨在讓AI成為真正的司機,成為交通領(lǐng)域的專業(yè)生產(chǎn)工具。李想表示,VLA的實現(xiàn)并非一蹴而就,而是經(jīng)歷了從依賴規(guī)則算法和高精地圖的輔助駕駛,到端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,再到VLA司機大模型的逐步進化。
在VLA的研發(fā)過程中,理想汽車注重模擬人類學(xué)習(xí)的方式,將訓(xùn)練分為預(yù)訓(xùn)練、后訓(xùn)練和強化訓(xùn)練三個環(huán)節(jié)。預(yù)訓(xùn)練相當于人類學(xué)習(xí)物理世界和交通領(lǐng)域的常識,后訓(xùn)練則類似于人類去駕校學(xué)習(xí)開車的過程,而強化訓(xùn)練則類似于人類在社會中實際開車練習(xí),旨在讓VLA司機大模型更加安全、舒適,并與人類價值觀相契合。
VLA司機大模型不僅具備強大的專業(yè)能力,還通過超級對齊增強了職業(yè)能力,以及通過理解自然語言、具備記憶能力提升了構(gòu)建信任的能力。李想指出,判斷司機Agent是否是個好司機,關(guān)鍵在于其專業(yè)能力、職業(yè)能力和構(gòu)建信任的能力,而VLA司機大模型在這三個方面都取得了顯著進展。
在安全性方面,理想汽車投入大量資源于強化訓(xùn)練環(huán)節(jié),組建了超級對齊團隊,為司機Agent注入職業(yè)素養(yǎng),確保其能夠?qū)崿F(xiàn)職業(yè)司機般的安全和舒適。同時,為解決模型的黑盒問題,理想汽車打造了真實、符合物理世界規(guī)律的世界模型,使VLA能夠在其中低成本、準確地驗證現(xiàn)實問題,有效應(yīng)對模型黑盒帶來的挑戰(zhàn)。
李想還分享了理想汽車在自研技術(shù)方面的堅持與成果。面對英偉達Orin-X芯片無法直接運行語言模型的挑戰(zhàn),理想汽車依托自有編譯團隊和自研底層推理引擎,成功使芯片能夠通過INT4量化的方式運行VLM。憑借芯片、控制器設(shè)計和自研汽車操作系統(tǒng)等綜合能力,理想汽車實現(xiàn)了讓雙Orin-X芯片和Thor-U芯片運行同等規(guī)模的VLA司機大模型。
在談及個人成長與企業(yè)發(fā)展時,李想表示,創(chuàng)業(yè)路上雖苦多于甜,但他選擇保留那些有價值的美好片段,用來激勵自己保持正能量。他強調(diào),成長帶來能量,關(guān)注自我、接受自身的優(yōu)點和不足,并用成長替代改變是關(guān)鍵。同時,親密關(guān)系同樣重要,家人和同事能夠形成互補,相互支撐。
最后,李想回顧了自己的創(chuàng)業(yè)經(jīng)歷,并表示從高中創(chuàng)辦個人網(wǎng)站至今,自己的思維方式始終未變:遇到問題解決問題,解決別人不愿解決的難題,解決用戶的痛點,不斷向他人學(xué)習(xí)。面對AI的發(fā)展,他認為在AI面前所有的人性都應(yīng)被保留,因為一切人性都是文化、生命、性格、能力的特質(zhì),也是人類真正的生命力所在。