Hugging Face近期發布了一款名為SmolVLA的開源機器人模型,該模型擁有4.5億參數,主打高普適性,旨在降低開發者進入機器人智能領域的門檻。尤為引人注目的是,SmolVLA能夠在如MacBook Pro這樣的消費級硬件上運行,無需依賴昂貴的專業設備。
在機器人模型領域,業界通常采用“視覺-語言-行動”(VLA)框架,試圖在單一架構內整合感知、理解和決策能力,以實現機器人的自主復雜任務執行。然而,這類模型訓練成本高昂,且多為閉源項目,依賴于高性能硬件、龐大的工程資源和私有數據集。
為了打破這一現狀,Hugging Face推出了SmolVLA,一個輕量級且開源的模型。它使用公開數據集進行訓練,旨在推動通用機器人智能體的研究發展,并降低愛好者的入門成本。這一舉措有望吸引更多開發者參與到機器人智能的研究與應用中來。
SmolVLA在模型架構上進行了創新,結合了Transformer結構與flow-matching解碼器,并采用了四項關鍵優化技術。首先,通過跳過視覺模型中的一半層數,提升了推理速度并減小了模型體積。其次,交替融合自注意力與交叉注意力模塊,提高了多模態信息的整合效率。減少視覺Token數量以提升處理效率,并采用更輕量的SmolVLM2作為視覺編碼器,進一步降低了硬件要求。
在訓練策略上,SmolVLA采用了預訓練與微調相結合的方法。首先通過通用操作數據進行預訓練,然后針對特定任務進行微調,以提升模型的適應能力。盡管SmolVLA的訓練數據遠少于現有其他VLA模型,但Hugging Face表示,該模型在模擬環境和真實場景中的表現與大型模型相當,甚至在部分任務上實現了超越。
SmolVLA還引入了“異步推理架構”(Asynchronous Inference Stack),將感知處理(如視覺和語音理解)與動作執行進行解耦,使機器人在面對快速變化的環境時能夠做出更及時的響應,從而大幅提升了其實用性。
Hugging Face強調,用戶無需花費高昂成本采購專用AI訓練服務器,只需使用如MacBook Pro等消費級硬件即可運行SmolVLA-450M模型。同時,用戶還可以考慮采購Hugging Face推出的低成本機器人平臺(如SO-100、SO-101和LeKiwi),以進一步降低成本。
為了驗證SmolVLA的性能,Hugging Face進行了多項基準測試。在LIBERO與meta-World等模擬測試平臺上,SmolVLA的表現優于Octo、OpenVLA等業界競品。而在使用真實機器人SO-100和SO-101進行抓取、放置、堆疊與分類任務時,SmolVLA也展現出了卓越的性能。
目前,SmolVLA的基礎模型已在Hugging Face平臺上上線,完整的訓練方法也已在GitHub上公開。感興趣的開發者可以訪問Hugging Face的項目頁面(https://huggingface.co/lerobot/smolvla_base),獲取更多關于SmolVLA的信息和資源。