五年前,浙江大學控制科學與工程學院的一間會議室里,剛從劍橋微軟研究院歸來的葉琦,向課題組成員描繪了一個令人振奮的長聘愿景:五年后,她希望讓機器人出現在答辯會現場,親自為在座的評委們端茶倒水。這一想法在當時顯得頗具挑戰性,尤其是對這位非機器人科班出身的學者來說。
葉琦的學術旅程始于北京師范大學的本科學習,她選擇了計算機視覺作為自己的研究方向。隨后,她進入清華大學攻讀碩士學位,并在英國帝國理工學院完成了博士學位。在博士期間,她因手勢識別研究在學術會議上嶄露頭角,吸引了劍橋微軟研究院微混合現實與人工智能實驗室負責人Jamie Shotton的注意。
Jamie Shotton的邀請讓葉琦有機會進入微軟研究院交流,這次交流最終演變為一場“招賢令”。面對學術大牛Jamie Shotton和計算機視覺經典教材作者Christopher M. Bishop,葉琦最終決定加入微軟團隊,投身于當時正升溫的MR/VR技術研究。2019年,微軟發布的第二代Hololens頭戴MR設備,正是葉琦團隊的研究成果之一。
然而,一年多后,出于對自由探索前沿技術的熱愛,葉琦選擇回到浙江大學任職。浙大給予了她充分的學術自由,讓她能夠自主選擇研究方向。最終,葉琦決定轉向機器人領域,聚焦于靈巧手研究,盡管這意味著她需要從頭開始學習新知識。
葉琦的選擇并非沒有挑戰。機器人領域的研究在當時相對冷清,尤其是靈巧手研究,更是鮮有人問津。但葉琦看到了機會,她相信未來機器人與計算機視覺、計算機圖形學的融合將催生新的研究領域。這一預言如今正在成為現實,隨著具身智能熱潮的興起,不同學科背景的研究者開始匯聚在這一新的交叉點上。
葉琦課題組的研究進展迅速。2024年,他們發布并開源了大規模靈巧手抓取動作數據集GraspM3,包含超過100萬條抓取軌跡和8000多個物體,為機器人抓取研究提供了豐富的數據資源。隨后,他們又推出了視觸預訓練與靈巧操作的數據集與基準,進一步推動了靈巧手領域的發展。
葉琦的研究聚焦于靈巧操作的智能化技術,她希望實現的目標是:讓任何配備觸覺傳感器或其他傳感器的靈巧手都能自主完成各類操作任務。為了實現這一目標,她和團隊正在努力降低靈巧手領域的進入門檻,通過開源代碼和平臺,讓更多人能夠參與到這一領域的研究中來。
在談及研究經歷時,葉琦表示,她的興趣始于本科階段的圖像處理課程。她發現圖像處理能夠給予明確的反饋,這讓她對計算機視覺產生了濃厚的興趣。在清華讀研期間,她繼續深入研究圖像處理算法和算子。到了博士階段,她則開始從事手勢跟蹤研究,這一研究對手勢交互具有重要意義。
葉琦在微軟亞洲研究院的實習經歷也讓她對圖像安全領域有了更深入的了解。她參與了研究網站利用扭曲字符圖片防止惡意訪問的項目,這一經歷讓她對圖像識別技術的安全性和魯棒性有了更深刻的認識。
在談及為何選擇從產業界轉向學術界時,葉琦表示,她在微軟研究院工作期間發現,做產品與開展前沿技術研究之間存在很大的差距。她更喜歡在高校從事研究工作,因為這里能夠給予她更多的學術自由和研究方向選擇權。
對于為何選擇靈巧手作為研究方向,葉琦表示,她看到了機器人與計算機視覺、計算機圖形學融合的趨勢。她相信未來靈巧手將成為這一融合領域的重要組成部分。盡管靈巧手研究在當時面臨諸多挑戰,但葉琦認為正是這些挑戰讓她看到了機會。
葉琦課題組的研究進展不僅體現在數據集的構建上,還體現在算法的創新上。他們通過引入觸覺模態和自監督學習方式,顯著提升了靈巧手對復雜操作任務的執行效果。這一研究成果讓他們更加堅定了從觸覺-動作態關聯入手的研究方向。
葉琦表示,未來他們將繼續推進靈巧手研究,降低進入門檻,吸引更多人參與到這一領域中來。她相信在不久的將來,靈巧手將在各種應用場景中發揮重要作用,為人類生活帶來更多便利。