近日,Anthropic公司在其舉辦的一場活動中,震撼發(fā)布了Claude Opus 4與Claude Sonnet 4兩款新一代語言模型,標(biāo)志著人工智能在結(jié)構(gòu)化推理、軟件工程及自主代理行為等領(lǐng)域取得了顯著突破。
Claude Opus 4,被譽(yù)為Anthropic迄今為止的巔峰之作,專為應(yīng)對復(fù)雜推理流程和軟件開發(fā)場景而生。據(jù)官方博文介紹,該模型在SWE-bench基準(zhǔn)測試中表現(xiàn)卓越,解決真實(shí)GitHub問題的能力達(dá)到了72.5%的準(zhǔn)確率;在TerminalBench測試中,其多步驟終端代碼生成任務(wù)的準(zhǔn)確率也高達(dá)43.2%。尤為Opus 4在軟件環(huán)境中展現(xiàn)出了驚人的自主行為能力,得益于其改進(jìn)的內(nèi)存管理、更廣泛的上下文保留以及增強(qiáng)的內(nèi)部規(guī)劃機(jī)制,據(jù)Rakuten測試數(shù)據(jù)顯示,它能夠連續(xù)進(jìn)行近7小時(shí)的代碼生成和任務(wù)執(zhí)行,這一成績不僅刷新了AI世界紀(jì)錄,更是遠(yuǎn)超其前代Claude 3 Opus的不足1小時(shí)表現(xiàn)。
Anthropic公司強(qiáng)調(diào),其AI模型并非旨在取代人類工作崗位,而是作為日常工作的自動化工具存在。然而,marktechpost媒體卻認(rèn)為,Claude 4系列的問世,將徹底改變AI的使用方式,使AI從以往單一任務(wù)的輔助工具,轉(zhuǎn)變?yōu)楣δ芨鼜?qiáng)、應(yīng)用范圍更廣的“AI同事”,幾乎能夠勝任一個(gè)完整工作班次的任務(wù)。
與此同時(shí),Claude Sonnet 4也以其穩(wěn)定的架構(gòu)、提升的速度與質(zhì)量,以及未顯著增加的計(jì)算成本,成功接替了前代Claude 3.5 Sonnet。該模型針對中規(guī)模部署進(jìn)行了優(yōu)化,適合在成本與性能之間尋求平衡的場景應(yīng)用。盡管在推理能力上稍遜于Opus 4,但Sonnet 4同樣繼承了眾多架構(gòu)升級,支持多文件代碼導(dǎo)航、中間工具使用以及結(jié)構(gòu)化文本處理,且延遲表現(xiàn)更佳。目前,它已成為Claude.ai免費(fèi)用戶的默認(rèn)模型,并通過API提供服務(wù),廣泛應(yīng)用于輕量開發(fā)工具、用戶助手和分析流程等領(lǐng)域。
兩款模型均具備混合推理能力,提供了“快速模式”與“擴(kuò)展思考模式”兩種選擇。快速模式適用于低延遲的簡短對話任務(wù),而擴(kuò)展思考模式則專為需要深度推理和多輪代理行為的復(fù)雜任務(wù)設(shè)計(jì)。這種雙模式策略使用戶能夠根據(jù)任務(wù)復(fù)雜度靈活分配計(jì)算資源,提高了工作效率。
Claude Opus 4和Sonnet 4還可通過Anthropic的Claude API、Amazon Bedrock和Google Cloud Vertex AI等多個(gè)云平臺進(jìn)行訪問,支持從自主代理到代碼分析等多種企業(yè)應(yīng)用場景。這一特性進(jìn)一步拓寬了它們的應(yīng)用范圍,使得更多企業(yè)能夠享受到AI技術(shù)帶來的便利與效率提升。