国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

Llama 4 作弊風(fēng)波:20萬顯卡集群訓(xùn)練的超級(jí)大模型真的不行嗎?

   時(shí)間:2025-04-23 12:40 來源:ITBEAR作者:朱天宇

近日,meta公司震撼發(fā)布了其最新研發(fā)的Llama 4系列大模型,包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth三款產(chǎn)品,這一消息迅速在人工智能領(lǐng)域掀起了波瀾。據(jù)meta透露,這些模型經(jīng)過海量未標(biāo)注文本、圖像及視頻數(shù)據(jù)的訓(xùn)練,視覺理解能力實(shí)現(xiàn)了質(zhì)的飛躍,仿佛在大模型領(lǐng)域獨(dú)領(lǐng)風(fēng)騷。

meta GenAI部門負(fù)責(zé)人Ahmad Al-Dahle自信地表示,他們的開放系統(tǒng)將能夠產(chǎn)出最優(yōu)的小型、中型以及前沿大模型,并附上了一張Llama 4的性能對(duì)比測(cè)試圖。在這張圖表中,Llama 4 Maverick的排名迅速攀升至第二位,成為第四個(gè)突破1400分的大模型,并在開放模型排行榜上超越了DeepSeek,坐上了頭把交椅。

然而,就在Llama 4系列備受贊譽(yù)之際,一些細(xì)心的網(wǎng)友卻發(fā)現(xiàn)了一些問題。他們通過讓模型直接生成幾何程序的方式對(duì)Llama 4進(jìn)行測(cè)試,結(jié)果卻發(fā)現(xiàn),在繪制包含受重力影響球的六角形集合圖像時(shí),Llama 4連續(xù)8次嘗試均告失敗,而DeepSeek R1和Gemini 2.5 Pro則一次成功。這一發(fā)現(xiàn)引發(fā)了網(wǎng)友們的廣泛討論和質(zhì)疑。

不少網(wǎng)友對(duì)Llama 4的表現(xiàn)感到失望,認(rèn)為新版本模型在性能上并未取得顯著突破,反而在某些測(cè)試中表現(xiàn)不如現(xiàn)有大模型。甚至有網(wǎng)友將Llama 4系列的能力與其他模型進(jìn)行了對(duì)比,認(rèn)為L(zhǎng)lama 4 Maverick的402B大模型與Qwen QwQ 32B的寫代碼水平相當(dāng),而Llama 4 Scout則接近于Grok2或文心4.5的水平。

隨著網(wǎng)友們的深入測(cè)試,更多關(guān)于Llama 4的問題逐漸浮出水面。有網(wǎng)友發(fā)現(xiàn),在官方數(shù)據(jù)中表現(xiàn)卓越的Llama 4,在實(shí)際測(cè)試中卻頻頻失利。這引發(fā)了網(wǎng)友們對(duì)meta是否存在刷榜行為的懷疑。經(jīng)過多方證實(shí),網(wǎng)友們發(fā)現(xiàn),在Ahmad Al-Dahle發(fā)布的Llama性能對(duì)比測(cè)試圖的最下方,有一行小字注明“Llama 4 Maverick針對(duì)對(duì)話進(jìn)行了優(yōu)化”,而meta早已為自己留下了“圖片僅供參考”的余地。

網(wǎng)友們紛紛帶著Llama 4參與各大測(cè)試榜單,結(jié)果在code測(cè)試榜單Aider ployglot中,Llama 4的得分甚至低于qwen-32B。在另一個(gè)代碼評(píng)測(cè)榜單中,Llama 4的成績(jī)也只能排在中間位置。在EQBench測(cè)評(píng)基準(zhǔn)的長(zhǎng)文章寫作榜上,Llama 4系列更是直接墊底。即便是最基礎(chǔ)的翻譯任務(wù),Llama 4的表現(xiàn)也不盡如人意,甚至不如Gemma 3的27B模型。

更令人震驚的是,一則發(fā)布在海外求職平臺(tái)的信息透露,Llama 4的訓(xùn)練存在嚴(yán)重問題,內(nèi)部模型的表現(xiàn)遠(yuǎn)未達(dá)到開源SOTA水平,而Llama 4的高分很可能是領(lǐng)導(dǎo)層為了交差而做出的“努力”。這一爆料很可能來自meta公司內(nèi)部,進(jìn)一步加劇了網(wǎng)友們的質(zhì)疑。

此次Llama 4的翻車事件不僅讓網(wǎng)友們對(duì)meta的技術(shù)實(shí)力產(chǎn)生了懷疑,更讓meta失去了社區(qū)的信任和支持。在人工智能領(lǐng)域,技術(shù)創(chuàng)新和誠(chéng)信是至關(guān)重要的。meta如果想要在激烈的市場(chǎng)競(jìng)爭(zhēng)中站穩(wěn)腳跟,就必須摒棄急功近利的心態(tài),專注于技術(shù)創(chuàng)新和用戶體驗(yàn)的提升。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群

主站蜘蛛池模板: | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |