近日,人工智能開發(fā)領(lǐng)域的巨頭Hugging Face發(fā)布了一款名為SmolVLA的開源機(jī)器人AI模型,引起了廣泛關(guān)注。這款模型在虛擬與現(xiàn)實(shí)環(huán)境中均展現(xiàn)出了超越許多大型機(jī)器人模型的能力。
Hugging Face在官方博客中提到,SmolVLA致力于推廣視覺(jué)-語(yǔ)言-行動(dòng)(VLA)模型的應(yīng)用,并推動(dòng)通用機(jī)器人智能體的研究進(jìn)程。它不僅是一個(gè)輕量級(jí)且功能強(qiáng)大的模型,更是一種全新的方法,用于訓(xùn)練和評(píng)估通用機(jī)器人技術(shù)。
作為Hugging Face低成本機(jī)器人軟硬件生態(tài)系統(tǒng)的一部分,SmolVLA的推出進(jìn)一步豐富了該公司在機(jī)器人領(lǐng)域的布局。此前,Hugging Face已經(jīng)推出了LeRobot,這是一套專注于機(jī)器人的模型、數(shù)據(jù)集和工具。近期,該公司還收購(gòu)了法國(guó)的機(jī)器人初創(chuàng)公司Pollen Robotics,并推出了一系列價(jià)格親民的機(jī)器人系統(tǒng),包括人形機(jī)器人。
SmolVLA擁有4.5億個(gè)參數(shù),這些參數(shù)被稱為模型的“權(quán)重”,決定了模型的行為。該模型基于LeRobot社區(qū)數(shù)據(jù)集進(jìn)行訓(xùn)練,這一數(shù)據(jù)集是專門為機(jī)器人標(biāo)注的,并在Hugging Face AI開發(fā)平臺(tái)上共享。Hugging Face表示,SmolVLA的規(guī)模足夠小,可以在單個(gè)消費(fèi)級(jí)GPU甚至MacBook上運(yùn)行,并且可以在經(jīng)濟(jì)實(shí)惠的硬件上進(jìn)行測(cè)試和部署。
SmolVLA還支持異步推理堆棧功能,這一功能使模型能夠?qū)C(jī)器人行動(dòng)的處理與視覺(jué)和聽覺(jué)的處理分離。這種分離使得機(jī)器人能夠在快速變化的環(huán)境中更快地做出響應(yīng),從而提高了機(jī)器人的效率和性能。
目前,SmolVLA已經(jīng)在Hugging Face官方網(wǎng)站上開放下載。一些用戶已經(jīng)在社交平臺(tái)上分享了他們的使用體驗(yàn),聲稱利用該模型成功控制了第三方機(jī)械臂。這一成果進(jìn)一步證明了SmolVLA的實(shí)用性和潛力。
在開放機(jī)器人領(lǐng)域,Hugging Face并非孤軍奮戰(zhàn)。英偉達(dá)也推出了一套用于開放機(jī)器人的工具集,而初創(chuàng)公司K-Scale Labs正在開發(fā)所謂的“開源人形機(jī)器人”組件。該領(lǐng)域的其他實(shí)力公司還包括Dyna Robotics、杰夫·貝索斯支持的Physical Intelligence以及RLWRLD等。這些公司和組織的共同努力,將進(jìn)一步推動(dòng)機(jī)器人技術(shù)的發(fā)展和普及。