在近期舉辦的世界機器人大會上,阿里巴巴達摩院宣布了一項重大舉措:開源三大核心組件,旨在推動具身智能的全面發展。這些組件包括VLA(視覺-語言-動作)模型RynnVLA-001-7B、世界理解模型RynnEC,以及創新的機器人上下文協議RynnRCP。
達摩院首次提出的RCP(Robotics Context Protocol)協議,被視為具身智能領域的一次革新。這一協議不僅是一套完整的機器人服務框架,更像是一個“超級適配器”,能夠無縫連接傳感器數據采集、模型推理以及機器人的動作執行。目前,RynnRCP已經成功適配了多款熱門模型和機械臂,如Pi0、GR00T N1.5等。
RynnRCP框架主要由兩大模塊構成:RCP框架和RobotMotion。RCP框架負責抽象機器人及其傳感器的功能,并通過標準協議進行交互;而RobotMotion則作為云端與機器人本體之間的橋梁,將低頻的推理命令轉換為高頻的連續控制信號,確保機器人能夠準確執行動作。它還包含了一套運動規劃與控制的工具包,為具身智能融入物理世界提供了有力支持。
RynnVLA-001-7B是達摩院自研的視覺-語言-動作模型,具備從第一人稱視角視頻中學習人類操作技能的能力,并能將這些技能隱式遷移到機器人手臂的操控上。在一個演示中,當指令要求機械臂將草莓放到手掌上時,它能夠準確識別出草莓,并成功完成放置動作,展現了出色的理解和執行能力。
在對比測試中,RynnVLA-001-7B在多項撿拾物品放置測評中均取得了最高分,證明了其卓越的性能。達摩院還提供了詳細的指南,指導開發者如何使用自己的數據對模型進行微調,以便更好地適應特定應用場景。
另一款開源組件是世界理解模型RynnEC,它將多模態大語言模型引入了具身世界,使機器人能夠理解物理世界。RynnEC能夠從多個維度全面解析場景中的物體,并在復雜環境中精準定位和分割目標物體。此次開源的RynnEC-2B模型在對象認知和空間認知測試中均超越了多個頂尖模型,展現了強大的認知能力。
為了評估模型的性能,達摩院還推出了RynnEC-Bench基準測試,涵蓋對象認知和空間認知兩大領域,共22項認知能力評估。這一基準測試為開發者提供了全面、客觀的評估標準,有助于推動具身智能技術的不斷進步。
達摩院的這次開源行動,為具身智能開發者提供了一套“樂高式”的工具包。通過標準化連接、擬人化控制與空間認知三大突破,這些組件打通了機器人從感知到執行的完整鏈路。這不僅有望降低開發門檻,還將加速具身智能在工業、家庭等場景的規模化落地,讓機器人更加智能、靈活,更好地服務于人類社會。