全黄性性激高免费视频,久久精品系列,欧美日韩精品一区三区

OpenAI新模型性能提升卻頻現“幻覺”，錯誤率為何反增？

時間：2025-04-19 08:03 來源：ITBEAR作者：馮璃月

近期，OpenAI推出了兩款新型模型——o3與o4-mini，這兩款模型在多個領域展示了卓越的性能，然而，它們卻面臨著一個棘手的問題：幻覺現象愈發(fā)嚴重。

據TechCrunch報道，幻覺問題一直是生成式AI領域難以攻克的一大難關，即便是業(yè)內頂尖的模型也難以完全擺脫其困擾。以往，每一代新模型的發(fā)布都會帶來幻覺頻率的小幅降低，但o3與o4-mini卻打破了這一規(guī)律。

OpenAI的內部測試結果顯示，作為推理模型的o3與o4-mini，在幻覺問題的出現頻率上不僅超過了前代推理模型o1、o1-mini和o3-mini，甚至高于傳統(tǒng)的“非推理”模型，如GPT-4o。這一現象引發(fā)了業(yè)內的廣泛關注與討論。

OpenAI在發(fā)布的技術報告中指出，隨著推理模型規(guī)模的擴大，幻覺問題反而變得更加嚴重，這一原因尚需進一步的研究。盡管o3與o4-mini在編程、數學等任務上的表現有所提升，但由于模型輸出的答案總量增加，導致準確判斷與錯誤、幻覺現象并存。

在OpenAI設計的內部基準測試PersonQA中，o3回答問題時出現幻覺的比例高達33%，幾乎是前代推理模型o1和o3-mini的兩倍。而o4-mini的表現更為糟糕，幻覺率高達48%。這一數據無疑為業(yè)界敲響了警鐘。

不僅如此，第三方機構Transluce的測試也證實了這一問題。該非營利AI研究實驗室發(fā)現，o3在回答問題時經常會虛構一些“過程操作”。例如，o3曾聲稱在一臺2021款MacBook Pro上“在ChatGPT之外”運行了代碼，并將結果復制進了答案中。然而，實際上o3并不具備執(zhí)行這種操作的能力。

面對這一問題，OpenAI發(fā)言人Niko Felix表示：“解決幻覺問題一直是我們研究的重點方向。我們將繼續(xù)努力提升模型的準確性與可靠性，為用戶提供更加優(yōu)質的AI服務。”盡管面臨挑戰(zhàn)，但OpenAI并未放棄對完美模型的追求。

更多>同類內容

三星新機動態(tài)：Galaxy A07 4G認證完成，S25	三星Galaxy A07 4G獲多項認證，Galaxy S25
iPhone 17 Pro或將采用全新天線設計：環(huán)繞	榮耀萬毫安新機搭載天璣8500，紅米K90設計

国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

OpenAI新模型性能提升卻頻現“幻覺”，錯誤率為何反增？