国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領先的互聯網科技媒體

大模型基準測試國際標準出爐,中國信通院引領制定

   時間:2025-04-11 16:07 來源:ITBEAR作者:楊凌霄

近日,國際電信聯盟電信標準分局(ITU-T)正式公布了由中國信息通信研究院(簡稱“中國信通院”)主導制定的全新國際標準——ITU-T F.748.44,該標準聚焦于大模型基準測試評估體系,命名為“基準測試/Assessment criteria for foundation models: Benchmark”。這一里程碑式的成就標志著大模型技術評估領域邁向了國際化標準化的新篇章。

該國際標準深入規范了大模型基準測試的各項關鍵要素,包括測試維度、數據集、方法及工具,旨在構建一個全球公認的大模型能力評估框架。通過系統性研究全球產學研界超過500項基準測試,標準確立了四大核心測試維度,即測試場景、測試能力、測試任務和測試指標,為全面、客觀地衡量大模型性能提供了科學依據。

隨著人工智能技術的飛速發展,如何準確評估大模型的綜合能力及其潛在缺陷,已成為學術界與產業界共同關注的焦點。模型基準測試作為目前最為認可的評估手段,通過精心設計的測試任務和評價數據集,實現了對模型性能的公正、量化評估。然而,由于缺乏統一標準,當前市場上存在眾多基準測試方法和數據集,評測結果的公正性備受質疑。

為了破解這一難題,中國信通院自2023年起便著手布局大模型基準測試研究,并于年底推出了“方升”大模型基準測試體系,創新性地引入了自適應動態測試方法,積累了600萬條數據集,并構建了FactTeting測試工具,實現了大模型測試流程的自動化。這一系列的努力為國際標準的制定奠定了堅實基礎。

自2024年起,中國信通院參照已發布的ITU大模型基準測試國際標準,對國內外眾多標桿大模型進行了持續監測,涵蓋了OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max以及百度文心大模型X1等上百個模型。通過每兩個月一次的周期性評測,發布了涵蓋大語言通用能力、推理能力、代碼能力、多模態理解能力、文生圖能力以及文生視頻能力等多個方面的評測結果,為行業提供了權威、全面的參考。

ITU-T F.748.44國際標準的發布,不僅為大模型技術的提供方和應用方提供了高質量的能力評估依據,還促進了大模型基準測試體系架構的國際共識,引導大模型技術及產業健康有序發展。這一標準化成果對于推動技術創新、引領行業趨勢以及加強國際合作與交流具有重要意義,標志著大模型測試領域邁出了堅實的一步。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

主站蜘蛛池模板: 欧美日韩精品一区二区三区视频 | 综合五月天堂 | 日本免费二区三区久久 | 一区二区三区亚洲视频 | 视频一区欧美 | 正在播放国产伦理片 | 1000部羞羞视频在线看视频 | 亚洲免费成人在线 | 成人欧美精品一区二区不卡 | 欧美成亚洲 | 亚洲自偷精品视频自拍 | 亚洲精品国产福利在线观看 | 亚洲福利视频一区 | 一区二区三区高清不卡 | 三妻四妾完整版免费观看韩国电影 | 国产精品毛片久久久久久久 | 自拍偷拍网 | 亚洲成人综合网站 | 一级欧美一级日韩 | 玖玖国产精品 | 在线人成精品免费视频 | 久久久久免费视频 | 久久久久久亚洲精品中文字幕 | 四虎亚洲国产成人久久精品 | 亚洲国产99 | 欧日韩一区二区三区 | 国产欧美一区二区精品久久久 | 亚洲国产精品婷婷久久 | 久久精品国产一区二区三区 | 自拍视频第一页 | 国产综合亚洲欧美日韩一区二区 | 国产网站麻豆精品视频 | 亚洲精品第一国产麻豆 | 国产日韩视频 | 一区二区精品视频 | 自拍偷拍第一页 | 亚洲免费看片 | 国产高清不卡视频 | 男人的天堂2017 | 亚洲精品视频观看 | 在线观看亚洲成人 |