视频一区精品,丁香婷婷激情五月,成人精品一区二区三区

AI推理模型受熱捧，基準測試費用為何水漲船高？

時間：2025-04-13 11:15 來源：ITBEAR作者：陸辰風

隨著人工智能技術日新月異的發展，推理AI模型逐漸成為了科研領域的熱門焦點。這類模型能夠模擬人類的思考過程，尤其在物理學等專業領域，展現出了超越非推理模型的卓越能力。然而，高昂的測試成本卻成為了驗證這些模型性能的一大障礙。

據第三方AI測試機構“人工智能分析”提供的數據，評估不同推理模型的費用差異顯著。以OpenAI的o1推理模型為例，在七個主流的AI基準測試中的評估費用高達2767.05美元，折合人民幣約20191元。相比之下，Anthropic的Claude 3.7 Sonnet混合推理模型的評估費用為1485.35美元，折合人民幣約10839元。而OpenAI的o3-mini-high模型評估則僅需344.59美元，折合人民幣約2514元。盡管存在費用較低的模型，如OpenAI的o1-mini評估費用僅為141.22美元，折合人民幣約1030元，但整體來看，推理模型的測試成本依然偏高。

“人工智能分析”機構已投入約5200美元，折合人民幣約37945元，用于評估十幾種推理模型，這一投入幾乎是非推理模型評估費用2400美元的兩倍。OpenAI在2024年5月發布的非推理GPT-4o模型評估成本僅為108.85美元，而Claude 3.6 Sonnet的評估成本更是低至81.41美元。該機構的聯合創始人喬治·卡梅倫表示，隨著推理模型的開發日益增多，測試預算也將相應增加。

AI初創公司“通用推理”的首席執行官羅斯·泰勒也面臨著測試成本上升的挑戰。他透露，為評估Claude 3.7 Sonnet，使用了約3700個獨特的提示詞，費用高達580美元。泰勒估計，僅對MMLU Pro進行一次完整測試的成本就可能超過1800美元。他擔憂地指出，隨著資源投入的差異，學者可能無法復制實驗室的報告結果。

推理模型測試成本高昂的主要原因在于其生成的token數量龐大。Token是原始文本的片段，如將單詞“fantastic”拆分為多個音節。據“人工智能分析”稱，在基準測試中，OpenAI的o1模型生成了超過4400萬個token，是GPT-4o生成量的八倍。由于大多數AI公司按token收費，因此成本迅速累積。

現代基準測試包含復雜、多步驟任務的問題，導致模型生成大量token。Epoch AI的高級研究員讓-斯坦尼斯拉斯·德內恩指出，盡管每個基準測試的問題數量總體減少，但問題本身更加復雜，旨在評估模型執行現實世界任務的能力，如編寫和執行代碼、瀏覽互聯網等。最昂貴的模型每百萬輸出token的成本也在不斷增加。例如，Anthropic發布的Claude 3 Opus模型每百萬輸出token的成本為75美元，而OpenAI的GPT-4.5和o1-pro模型的成本則分別為150美元和600美元。

德內恩表示，盡管隨著技術進步，模型的性能提升且成本有所下降，但評估最大最好的模型仍需支付高昂費用。部分AI實驗室，包括OpenAI，為測試目的向基準測試組織提供免費或補貼的模型訪問權限，但一些專家擔憂這可能影響測試結果的公正性。

更多>同類內容

AI推理模型受熱捧，基準測試費用為何水漲船	美教育部長峰會發言出錯，竟將AI誤喊成A1牛
《圍攻》VR版來襲！經典策略物理游戲下月登	三星Galaxy S24國行版下周將迎One UI 7正式

国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

AI推理模型受熱捧，基準測試費用為何水漲船高？