国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領先的互聯網科技媒體

Meta攜手高校,ExploreToM能否為大語言模型解鎖“心智理論”新篇章?

   時間:2024-12-20 13:17 來源:ITBEAR作者:顧雨柔

meta公司近期宣布了一項重大科研合作,攜手學術界的佼佼者——華盛頓大學與卡內基梅隆大學,共同推出了一個名為ExploreToM的創新框架。這一合作項目的核心目標,是提升大型語言模型(LLM)在心智理論(Theory of Mind,簡稱ToM)方面的能力。

心智理論,作為人類社會智能的關鍵組成部分,使我們能夠洞悉他人的想法、意圖和信念。這種深刻的認知能力,是有效溝通與協作的基石,支撐著我們進行復雜的社交互動。然而,當前的大型語言模型在ToM方面仍顯不足,這成為了實現AI與人類無縫互動的一大障礙。

現有的基準測試方法,往往因缺乏足夠的復雜性和多樣性,而高估了模型的實際能力。這些測試大多基于預設的簡單場景,無法復現人類在進行心理狀態推斷時所采用的復雜推理過程。因此,meta及其合作伙伴決定通過ExploreToM框架,來打破這一瓶頸。

ExploreToM框架的核心優勢,在于其能夠生成多樣化且可擴展的對抗性數據集。這一創新方法,不僅揭示了當前模型的局限性,還展現了高質量訓練數據在彌補這些差距方面的巨大潛力。在數據集構建方面,ExploreToM采用了A*搜索算法和特定領域語言,生成了一系列高難度的測試場景,這些場景模擬了復雜的社會情境,挑戰著LLM的認知極限。

與現有的基準測試相比,ExploreToM通過創建對抗性的故事場景,旨在揭示LLM在ToM推理中的盲點和不足之處。這一做法,不僅有助于更準確地評估模型的能力,還為后續的改進提供了明確的方向。

ExploreToM框架還引入了一項創新機制——非對稱信念更新。這一機制能夠模擬不同角色對同一情況持有不同觀點的復雜社交互動,從而進一步提升了模型的ToM能力。在實驗中,研究人員發現,主流模型如GPT-4o和Llama-3.1-70B,在ExploreToM數據集上的表現并不理想,準確率分別僅為9%和0%。這一結果,再次凸顯了現有LLM在處理復雜ToM推理方面的不足。

然而,令人鼓舞的是,當在ExploreToM數據集上進行微調后,這些模型在經典的ToMi基準測試中的準確率有了顯著提升,高達27個百分點。這一成果,不僅證明了ExploreToM框架的有效性,也為未來AI在ToM能力上的進一步突破奠定了堅實基礎。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

主站蜘蛛池模板: 久久综合九色综合欧美就去吻 | 久久国产精品最新一区 | 亚洲丁香婷婷综合久久小说 | 欧美日韩在线播放 | 女男羞羞视频网站免费 | 亚洲免费视频网 | 91精品综合久久久久久五月天 | 美女被爆羞羞视频网站视频 | 四虎最新网址 | 婷婷激情丁香 | 免费电视剧在哪里看 | 在线观看亚洲国产 | 一级欧美视频 | 男人社区天堂 | 日韩成人免费观看 | 久久精品国产在热久久2019 | 亚洲视频在线观看免费 | 国产精品高清全国免费观看 | 久热国产在线 | 高清欧美不卡一区二区三区 | 亚洲综合激情九月婷婷 | 性欧美激情在线观看 | 久久久久亚洲 | 桃子在线 | 午夜欧美福利 | 国产高清自拍视频 | 精品自拍一区 | 五月婷婷社区 | 自拍偷拍欧美 | 国产男女视频 | 亭亭五月天激情 | 亚洲欧洲日韩国产一区二区三区 | 久久久高清 | 妖精视频免费观看正片 | a级日本 | 黑人一区 | a级免费看 | 自偷自拍亚洲欧美清纯唯美 | 黄色污污视频网站 | 最新国产福利 | 国产精品资源网站在线观看 |