近期,科技界迎來了一項關(guān)于人工智能的新突破。英偉達(dá)公司推出了一款名為Cosmos-Reason1的系列模型,該模型專注于物理推理任務(wù),旨在提升AI在物理常識和具身推理方面的能力,為機(jī)器人技術(shù)和自動駕駛車輛等領(lǐng)域帶來了實際應(yīng)用的廣闊前景。
長久以來,人工智能在語言處理、數(shù)學(xué)計算和代碼生成方面取得了顯著成就,但將其功能擴(kuò)展到物理環(huán)境中卻是一個棘手的問題。Physical AI,即物理AI,不同于傳統(tǒng)的AI技術(shù),它依賴于視頻等感官輸入,并結(jié)合現(xiàn)實世界的物理法則來生成反應(yīng)。這類AI需要執(zhí)行導(dǎo)航、操作和交互等任務(wù),這就要求它具備常識推理以及對空間、時間和物理規(guī)律的深刻理解。
然而,當(dāng)前的AI模型在連接物理世界方面存在明顯的不足。它們難以直觀理解重力或空間關(guān)系,導(dǎo)致在具身任務(wù)中的表現(xiàn)不盡如人意。直接在物理世界中訓(xùn)練AI不僅成本高昂,而且風(fēng)險巨大,這極大地阻礙了開發(fā)進(jìn)程。
為了應(yīng)對這一挑戰(zhàn),英偉達(dá)推出了Cosmos-Reason1系列模型。該模型包括Cosmos-Reason1-7B和Cosmos-Reason1-56B兩個版本,通過Physical AI的監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)兩個階段進(jìn)行訓(xùn)練。這一創(chuàng)新性的方法為物理推理提供了新的解決方案。
研究團(tuán)隊引入了雙本體系統(tǒng)來增強(qiáng)模型的能力。一個分層本體將物理常識劃分為空間、時間和基礎(chǔ)物理三大類,并進(jìn)一步細(xì)化為16個子類。另一個二維本體則映射了人類、機(jī)械臂、人形機(jī)器人等五種具身代理的推理能力。這種設(shè)計使得模型能夠更好地理解和處理物理世界中的復(fù)雜情況。
Cosmos-Reason1模型采用了僅解碼器的大型語言模型(LLM)架構(gòu),并結(jié)合視覺編碼器來處理視頻數(shù)據(jù)。這使得模型能夠同步推理文本和視覺數(shù)據(jù),從而提高了其在物理推理任務(wù)中的表現(xiàn)。訓(xùn)練數(shù)據(jù)集包含了約400萬條標(biāo)注的視頻-文本對,涵蓋了動作描述和復(fù)雜推理任務(wù)。
為了評估Cosmos-Reason1模型的性能,研究團(tuán)隊構(gòu)建了針對物理常識的三個基準(zhǔn)和針對具身推理的六個基準(zhǔn)。這些基準(zhǔn)測試包含了604個問題、426個視頻以及610個問題、600個視頻,分別用于評估模型在物理常識和具身推理方面的能力。
實驗結(jié)果表明,Cosmos-Reason1模型在物理常識和具身推理基準(zhǔn)測試中均表現(xiàn)出色。特別是在經(jīng)過RL訓(xùn)練后,模型在預(yù)測下一步行動、驗證任務(wù)完成和評估物理可行性等方面取得了顯著進(jìn)步。這一突破為物理AI的發(fā)展注入了新的活力。