国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領先的互聯網科技媒體

OpenAI新模型性能提升卻頻現“幻覺”,錯誤率為何反增?

   時間:2025-04-19 08:03 來源:ITBEAR作者:馮璃月

近期,OpenAI推出了兩款新型模型——o3與o4-mini,這兩款模型在多個領域展示了卓越的性能,然而,它們卻面臨著一個棘手的問題:幻覺現象愈發嚴重。

據TechCrunch報道,幻覺問題一直是生成式AI領域難以攻克的一大難關,即便是業內頂尖的模型也難以完全擺脫其困擾。以往,每一代新模型的發布都會帶來幻覺頻率的小幅降低,但o3與o4-mini卻打破了這一規律。

OpenAI的內部測試結果顯示,作為推理模型的o3與o4-mini,在幻覺問題的出現頻率上不僅超過了前代推理模型o1、o1-mini和o3-mini,甚至高于傳統的“非推理”模型,如GPT-4o。這一現象引發了業內的廣泛關注與討論。

OpenAI在發布的技術報告中指出,隨著推理模型規模的擴大,幻覺問題反而變得更加嚴重,這一原因尚需進一步的研究。盡管o3與o4-mini在編程、數學等任務上的表現有所提升,但由于模型輸出的答案總量增加,導致準確判斷與錯誤、幻覺現象并存。

在OpenAI設計的內部基準測試PersonQA中,o3回答問題時出現幻覺的比例高達33%,幾乎是前代推理模型o1和o3-mini的兩倍。而o4-mini的表現更為糟糕,幻覺率高達48%。這一數據無疑為業界敲響了警鐘。

不僅如此,第三方機構Transluce的測試也證實了這一問題。該非營利AI研究實驗室發現,o3在回答問題時經常會虛構一些“過程操作”。例如,o3曾聲稱在一臺2021款MacBook Pro上“在ChatGPT之外”運行了代碼,并將結果復制進了答案中。然而,實際上o3并不具備執行這種操作的能力。

面對這一問題,OpenAI發言人Niko Felix表示:“解決幻覺問題一直是我們研究的重點方向。我們將繼續努力提升模型的準確性與可靠性,為用戶提供更加優質的AI服務。”盡管面臨挑戰,但OpenAI并未放棄對完美模型的追求。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

主站蜘蛛池模板: 草逼片 | 欧美噜噜噜 | 丁香花成人 | 日韩一区二区精品久久高清 | 国产视频97 | 日在线视频 | 中文免费视频 | 欧美乱妇高清无乱码在线观看 | gogo大胆高清免费视频 | 婷婷色香五月激情综合2020 | 国产小视频在线 | 伊人网视频在线 | 国产99热在线观看 | 性船在线观看未删减版bd | 久热香蕉在线爽青青 | 亚洲欧美日韩久久一区 | 波多野结衣免费在线 | 亚洲特一级毛片 | 亚洲男人天堂2021 | 久热精品在线观看 | 九九影视网| 免费国产最新进精品视频 | 羞羞视频在线观看视频 | 色婷婷六月丁香七月婷婷 | 国产一二三四区中 | 一级片在线观看 | 99精品欧美一区二区三区综合在线 | 久久99精品一区二区三区 | 羞羞视频网站在线观看 | 亚洲品质自拍视频网站 | 欧美一区二区三区久久久 | 国产剧情自拍 | 国产综合亚洲欧美日韩一区二区 | 国产精品久久久久久久人热 | 亚洲无圣光一区二区 | a级在线看 | 亚洲欧美一区二区三区九九九 | 综合激情在线 | 成人97在线观看免费高清 | 亚洲国产成人久久一区二区三区 | 亚洲综合色丁香婷婷六月图片 |