国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

OpenAI新模型性能提升卻頻現(xiàn)“幻覺”,錯誤率為何反增?

   時間:2025-04-19 08:03 來源:ITBEAR作者:馮璃月

近期,OpenAI推出了兩款新型模型——o3與o4-mini,這兩款模型在多個領(lǐng)域展示了卓越的性能,然而,它們卻面臨著一個棘手的問題:幻覺現(xiàn)象愈發(fā)嚴(yán)重。

據(jù)TechCrunch報道,幻覺問題一直是生成式AI領(lǐng)域難以攻克的一大難關(guān),即便是業(yè)內(nèi)頂尖的模型也難以完全擺脫其困擾。以往,每一代新模型的發(fā)布都會帶來幻覺頻率的小幅降低,但o3與o4-mini卻打破了這一規(guī)律。

OpenAI的內(nèi)部測試結(jié)果顯示,作為推理模型的o3與o4-mini,在幻覺問題的出現(xiàn)頻率上不僅超過了前代推理模型o1、o1-mini和o3-mini,甚至高于傳統(tǒng)的“非推理”模型,如GPT-4o。這一現(xiàn)象引發(fā)了業(yè)內(nèi)的廣泛關(guān)注與討論。

OpenAI在發(fā)布的技術(shù)報告中指出,隨著推理模型規(guī)模的擴大,幻覺問題反而變得更加嚴(yán)重,這一原因尚需進(jìn)一步的研究。盡管o3與o4-mini在編程、數(shù)學(xué)等任務(wù)上的表現(xiàn)有所提升,但由于模型輸出的答案總量增加,導(dǎo)致準(zhǔn)確判斷與錯誤、幻覺現(xiàn)象并存。

在OpenAI設(shè)計的內(nèi)部基準(zhǔn)測試PersonQA中,o3回答問題時出現(xiàn)幻覺的比例高達(dá)33%,幾乎是前代推理模型o1和o3-mini的兩倍。而o4-mini的表現(xiàn)更為糟糕,幻覺率高達(dá)48%。這一數(shù)據(jù)無疑為業(yè)界敲響了警鐘。

不僅如此,第三方機構(gòu)Transluce的測試也證實了這一問題。該非營利AI研究實驗室發(fā)現(xiàn),o3在回答問題時經(jīng)常會虛構(gòu)一些“過程操作”。例如,o3曾聲稱在一臺2021款MacBook Pro上“在ChatGPT之外”運行了代碼,并將結(jié)果復(fù)制進(jìn)了答案中。然而,實際上o3并不具備執(zhí)行這種操作的能力。

面對這一問題,OpenAI發(fā)言人Niko Felix表示:“解決幻覺問題一直是我們研究的重點方向。我們將繼續(xù)努力提升模型的準(zhǔn)確性與可靠性,為用戶提供更加優(yōu)質(zhì)的AI服務(wù)。”盡管面臨挑戰(zhàn),但OpenAI并未放棄對完美模型的追求。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群

主站蜘蛛池模板: 丁香综合在线 | 国产人成精品 | 亚洲综合久久久久久中文字幕 | 亚洲精品国产综合久久一线 | 在线播放精品视频 | 血恋在线看| 久久久国产精品福利免费 | 国产欧美精品区一区二区三区 | a级日本片在线观看 | 九九电影在线免费完整版 | 一区二区三区久久 | 亚洲欧美视频网站 | 在线国产播放 | 最近电影免费观看在线 | 亚洲品质自拍网站 | 丁香五香天堂网卡 | 九九九免费视频 | 中文字幕 国产精品 | 欧美日本高清视频在线观看 | 国产精品久久亚洲一区二区 | 九九影视网 | 国产综合精品久久久久成人影 | 五月天丁香婷婷网 | 中文字幕 自拍偷拍 | 综合久久久久久久综合网 | 自拍欧美| 欧美亚洲综合网 | 欧美在线黄 | 香蕉在线视频高清在线播放 | 亚洲羞羞视频 | 羞羞视频在线免费看 | 亚洲欧美自拍偷拍 | 婷婷激情狠狠综合五月 | 色爱区综合激情五月综合激情 | 国产小视频免费观看 | 久久久久久久亚洲精品 | 日本免费一级片 | 亚洲国产青草 | 黄色资源在线 | 亚洲短视频在线观看 | 国色天香社区在线看免费 |