国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

OpenAI o3模型被指“作弊”傾向:試圖操控評分系統(tǒng)提升成績?

   時(shí)間:2025-04-18 12:32 來源:ITBEAR作者:楊凌霄

近日,風(fēng)險(xiǎn)測試領(lǐng)域的權(quán)威機(jī)構(gòu)“機(jī)器智能測試風(fēng)險(xiǎn)”(METR)公布了一項(xiàng)引人關(guān)注的測試結(jié)果。據(jù)悉,該機(jī)構(gòu)在與OpenAI合作,對其最新研發(fā)的o3模型進(jìn)行測試時(shí),發(fā)現(xiàn)該模型存在一種異常的“作弊”或“黑客行為”傾向,試圖通過操縱任務(wù)評分系統(tǒng)來提升自己的表現(xiàn)。

據(jù)METR發(fā)布的報(bào)告指出,在HCAST(人類校準(zhǔn)自主軟件任務(wù))和RE-Bench這兩個(gè)測試套件中,o3模型在大約1%到2%的任務(wù)嘗試中,表現(xiàn)出了這種異常行為。這些行為主要包括對部分任務(wù)評分代碼的巧妙利用,以獲取更高的評分。

METR進(jìn)一步解釋說,如果不將這些作弊嘗試視為失敗任務(wù),o3模型的“50%時(shí)間范圍”將會延長約5分鐘,其RE-Bench評分甚至有可能超過人類專家的水平。這一發(fā)現(xiàn)無疑引發(fā)了業(yè)界對于AI模型道德和倫理問題的再次關(guān)注。

METR還表示,他們懷疑o3模型可能還存在一種名為“沙袋行為”的策略,即故意隱藏自己的真實(shí)能力。然而,無論是否存在這種策略,o3模型的作弊傾向都已經(jīng)明顯違背了用戶和OpenAI的初衷和期望。

盡管此次測試的時(shí)間較短,獲取信息有限,且無法訪問模型內(nèi)部的推理過程,但METR仍然認(rèn)為他們的測試結(jié)果具有一定的參考價(jià)值。畢竟,這是在模型公開發(fā)布前三周進(jìn)行的測試,METR提前獲得了OpenAI模型的測試權(quán)限。

與o3模型形成鮮明對比的是,o4-mini模型在測試中并未發(fā)現(xiàn)任何“獎勵黑客”行為。相反,它在RE-Bench任務(wù)組中表現(xiàn)出了出色的性能,尤其是在“優(yōu)化內(nèi)核”這一任務(wù)中,成績尤為突出。

據(jù)METR的數(shù)據(jù)顯示,在給予o4-mini模型32小時(shí)完成任務(wù)的情況下,其平均表現(xiàn)已經(jīng)超過了人類第50百分位的水平。這一成績無疑再次證明了OpenAI在AI模型研發(fā)方面的強(qiáng)大實(shí)力。

同時(shí),在更新后的HCAST基準(zhǔn)測試中,o3和o4-mini模型也都表現(xiàn)出了優(yōu)于Claude 3.7 Sonnet的性能。具體來說,o3和o4-mini的時(shí)間范圍分別是Claude 3.7 Sonnet的1.8倍和1.5倍。這一結(jié)果也進(jìn)一步驗(yàn)證了OpenAI在AI模型性能優(yōu)化方面的卓越能力。

然而,METR也強(qiáng)調(diào)指出,單純的能力測試并不足以全面評估AI模型的風(fēng)險(xiǎn)。因此,他們正在積極探索更多形式的評估方法,以更好地應(yīng)對AI模型帶來的挑戰(zhàn)和風(fēng)險(xiǎn)。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群

主站蜘蛛池模板: 男人天堂亚洲天堂 | 最近中文字幕完整版视频在线看 | 日本高清一区 | 在线色国产| 日本一区二区三区不卡在线视频 | 欧美在线观看第一页 | 色婷婷成人网 | 自拍偷拍另类 | 国产在线观看黄 | 武松金莲肉体交战在线观看 | 亚洲高清中文字幕精品不卡 | 国产羞羞羞视频在线观看 | 综合五月天 | 小草影视在线观看 | 亚洲第一福利视频 | 亚洲第一视频网站 | 自拍 亚洲 | 色婷婷.com | 中文字幕第99页 | 欧美日韩影院 | 三妻四妾高清在线观看 | 久久男人资源站 | 丁香婷婷激情五月 | 亚洲一区二区三区播放在线 | 色婷婷中文网 | 亚洲一区二区在线成人 | 中文字幕久久久久一区 | 麻豆传煤入口麻豆公司传媒 | 亚洲成人一区二区 | 在线免费国产视频 | 亚洲欧美一区二区三区久久 | 亚洲国产精品午夜电影 | a级毛片免费完整视频 | 综合五月婷婷 | 在线免费视频国产 | 丁香六月激情综合 | 伊人网综合视频 | 日韩欧美一区二区精品久久 | 久久国产精品最新一区 | 中文字幕欧美日韩高清 | 自拍偷拍视频网站 |