人形機器人領域的熱潮在北京亦莊得到了進一步的推動,首屆“人形機器人半程馬拉松”賽事成功舉辦,吸引了20支隊伍參與。這場“鋼鐵生命競賽”不僅讓人形機器人從實驗室走向真實場景,更是一次對機器人性能和穩定性的嚴峻考驗,最終6支隊伍成功完成比賽,完賽率達到了30%。
隨著賽事的圓滿落幕,關于具身智能是否只是行業泡沫的討論也隨之而來。對此,千尋智能具身智能部的負責人解浚源表達了他的看法。他認為,人形機器人目前仍處于發展的初級階段,盡管賽道熱度高漲,但相較于大模型公司,具身智能領域的規模和估值都相對較低。他強調,制約該領域發展的主要因素并非算力和資本投入,而是硬件迭代的客觀周期,即量產可靠機器人和管理大規模數據采集工廠所需的時間。
解浚源在朋友圈正式宣布加入千尋智能,全面負責具身大模型的研發,這一決定標志著他再次跨界。他在深度學習框架和系統領域深耕十余年,曾任亞馬遜資深科學家,負責深度學習算法和系統研發,是開源深度學習框架MXNet的主要開發者之一。他還曾在字節跳動應用機器學習部門擔任AI高級專家。
解浚源的跨界經歷并非首次。他在本科階段就展現出了卓越的研究能力,以第一作者的身份在頂級會議NeurIPS上發表論文,用深度神經網絡對圖像進行去噪與修復,該論文至今已被引用超過1900次。赴美深造期間,他先是進行了一段時間的理論研究,隨后主動找到了艾倫人工智能研究所(AI2)的CEO Ali Farhadi,提出進行與計算機視覺應用相關的研究,并與meta FAIR的Ross Girshick合作,共同探索深度學習算法。
在亞馬遜AWS任職期間,解浚源主要負責MXNet相關的算法和系統研發。他帶領團隊整理了已有文獻資料中的技巧,整合并優化了ResNet-50模型,取得了顯著的效果。后來,他加入字節跳動AML部門,負責優化推薦系統、搭建聯邦學習平臺以及大模型的ToB業務。
今年,解浚源決定再次跨界,進入具身智能領域。他表示,機器人快速發展的時刻即將來臨,他不想錯失這個機會。在千尋智能,他帶領具身智能部負責機器學習、AI相關的算法、系統和平臺。他認為,盡管機器人領域仍處于發展的初級階段,但已經展現出了非常好的性能,未來的發展前景廣闊。
解浚源表示,他加入千尋智能是因為千尋的能力較強,且理念相合。他帶領的團隊在算法、系統、平臺等方面都具備豐富的經驗,能夠互補彼此的不足。他強調,機器人領域的發展需要跨學科的合作,而千尋智能正是這樣一個匯聚了各領域人才的平臺。
在談到具身大模型的技術路線時,解浚源認為,雖然目前關于具身大模型的討論很多,但技術路線已經收斂至VLA路線。他解釋說,VLA路線的基礎方向是端到端,這一方向在自動駕駛領域也得到了廣泛應用。通過端到端的訓練方式,機器人可以模仿人的行為,從而快速進步。他預計,未來一到三年內,機器人將在操作簡單物體的流暢度和能執行的任務數量上取得顯著提升。
在數據采集方面,解浚源認為,這是目前機器人技術最核心的難點。與以往的AI數據標注工作相比,機器人數據采集涉及物理世界的問題,需要管理整個供應鏈的機器人和數采員,以確保數據的高效采集和多樣化。他強調,數據的多樣化是非常重要的,因為重復的標準動作對于機器人的學習來說沒有意義。
千尋智能近期披露了VLA Spirit v1版本,在疊衣服任務上取得了顯著成果。解浚源表示,他們對機器人疊衣服的成功率要求很高,只有實現較高的成功率,才能實現連續疊三件衣服并一鏡到底的拍攝效果。他還透露,千尋智能正在建設和完善數采的pipeline,以提升機器人的性能和成功率。
在談到具身智能的落地場景時,解浚源認為,短期內機器人將主要應用在工廠場景中;中期來看,更大的機會在服務業領域,如物流、商場貨架上貨、酒店服務等;而長期的愿景則是讓機器人走進家庭,協助人們完成日常任務。
解浚源還表示,他不太相信仿真在機器人領域的應用。他認為,柔性物體的仿真是一個非常難的問題,而且仿真器的學習效果受限于其工程量。相比之下,使用真機數據進行采集和訓練更加高效和經濟。他強調,中國擁有強大的供應鏈和熟練工人,這使得使用真機數據進行大規模采集成為可能。