五月天色区,亚洲成a人v欧美综合天堂麻豆,七月婷婷丁香

AI評(píng)測(cè)新招：讓AI在《我的世界》中比拼建筑創(chuàng)意

時(shí)間：2025-03-22 16:24 來(lái)源：ITBEAR作者：鐘景軒

在探索人工智能（AI）能力邊界的過(guò)程中，傳統(tǒng)的基準(zhǔn)測(cè)試方法正面臨挑戰(zhàn)。為了更全面、直觀地評(píng)估AI模型的能力，開(kāi)發(fā)者們正轉(zhuǎn)向一些非傳統(tǒng)途徑，其中，《我的世界》這款沙盒建造游戲成為了備受矚目的測(cè)試平臺(tái)。

據(jù)TechCrunch報(bào)道，一位名叫阿迪·辛格的高三學(xué)生，憑借對(duì)AI評(píng)測(cè)的獨(dú)到見(jiàn)解，創(chuàng)建了名為Minecraft Benchmark（簡(jiǎn)稱MC-Bench）的網(wǎng)站。該網(wǎng)站利用《我的世界》作為競(jìng)技場(chǎng)，讓AI模型在相同的提示下生成建筑作品，并通過(guò)用戶投票的方式評(píng)選出優(yōu)秀作品。投票結(jié)束后，才會(huì)揭曉每幅作品的創(chuàng)作者——即哪款A(yù)I模型。

辛格表示，選擇《我的世界》并非因?yàn)槠溆螒蛐?，而是其廣泛的知名度和獨(dú)特的方塊風(fēng)格。這種風(fēng)格使得即便是非玩家也能輕松分辨出哪個(gè)方塊狀的建筑更加逼真?！啊段业氖澜纭窞槲覀兲峁┝艘粋€(gè)直觀的窗口，讓我們能夠清晰地看到AI發(fā)展的進(jìn)步。大家對(duì)這款游戲的視覺(jué)風(fēng)格非常熟悉，這使得評(píng)估過(guò)程更加直接和有效?！?/p>

目前，MC-Bench網(wǎng)站已經(jīng)吸引了8名志愿貢獻(xiàn)者的加入。Anthropic、谷歌、OpenAI和阿里巴巴等科技巨頭為該項(xiàng)目提供了寶貴的AI計(jì)算資源支持，盡管他們并未直接參與網(wǎng)站的開(kāi)發(fā)工作。

辛格進(jìn)一步解釋說(shuō)，MC-Bench目前的測(cè)試還處于基礎(chǔ)階段，主要用于觀察AI從GPT-3時(shí)代到現(xiàn)在的進(jìn)步。然而，他展望了未來(lái)可能的拓展方向：“我們或許可以將測(cè)試擴(kuò)展到更復(fù)雜的目標(biāo)導(dǎo)向任務(wù)和長(zhǎng)期規(guī)劃能力評(píng)估。游戲作為一種測(cè)試平臺(tái)，具有安全性和可控性的優(yōu)勢(shì)，是評(píng)估AI智能體推理能力的理想選擇?！?/p>

從嚴(yán)格意義上講，MC-Bench屬于編程基準(zhǔn)測(cè)試的一種變體，因?yàn)锳I模型需要編寫(xiě)代碼來(lái)生成建筑，如“霜雪人”或“熱帶風(fēng)情的海濱小屋”等。這種測(cè)試方式相較于傳統(tǒng)的代碼分析更具直觀性，因?yàn)榇蠖鄶?shù)用戶更容易通過(guò)作品本身來(lái)評(píng)判AI的表現(xiàn)。

盡管關(guān)于這些測(cè)試結(jié)果是否能真正反映AI的實(shí)際應(yīng)用價(jià)值仍存在爭(zhēng)議，但辛格認(rèn)為這些數(shù)據(jù)仍然具有重要的參考價(jià)值?！癕C-Bench的排行榜與我在實(shí)際使用中的體驗(yàn)高度一致，這在許多傳統(tǒng)的文本基準(zhǔn)測(cè)試中并不常見(jiàn)。因此，我相信它能夠幫助AI開(kāi)發(fā)者判斷自己是否正在朝著正確的方向前進(jìn)?！?/p>

更多>同類內(nèi)容

AI評(píng)測(cè)新招：讓AI在《我的世界》中比拼建筑	vivo進(jìn)軍機(jī)器人領(lǐng)域，成立LAB專注家務(wù)機(jī)器
家電以舊換新熱潮！近9000萬(wàn)臺(tái)換新，國(guó)補(bǔ)政	地平線財(cái)報(bào)揭秘：營(yíng)收大漲五成，凈虧損為何

国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

AI評(píng)測(cè)新招：讓AI在《我的世界》中比拼建筑創(chuàng)意