在科技界的一次重大飛躍中,OpenAI宣布推出三款全新模型:GPT-4.1、GPT-4.1 mini及GPT-4.1 nano。這些最新力作不僅在性能上遠超前輩GPT-4o系列,更在編碼能力和指令遵循方面實現了顯著提升。尤為引人注目的是,它們配備了前所未有的大上下文窗口,能夠處理多達100萬個上下文tokens,這一數字相當于整個React代碼庫的8倍以上。
在SWE-bench Verified這一衡量編碼能力的權威測試中,GPT-4.1以54.6%的得分傲視群雄,相較于GPT-4o的33.2%和GPT-4.5的表現,分別提升了21.4%和26.6%。這一成績無疑確立了GPT-4.1在編碼模型領域的領先地位。
在指令遵循方面,GPT-4.1同樣表現出色,以38.3%的得分超越了GPT-4o的27.8%,彰顯了其在理解和執行復雜指令上的卓越能力。而在Video-MME多模態長上下文理解基準測試中,GPT-4.1在無字幕長篇類別中取得了72.0%的高分,較GPT-4o提升了6.7%,進一步證明了其在處理復雜信息方面的強大實力。
為了優化用戶體驗,GPT-4.1系列模型在確保高性能的同時,還實現了成本的有效控制。這些模型在延遲曲線的各個節點上都實現了性能提升,為用戶提供了更為流暢和高效的服務。與此同時,OpenAI還透露,GPT-4.1在代碼任務、指令遵循以及長上下文理解等多個領域均超越了GPT-4o,展示了其全面的技術優勢。
與此同時,國內AI領域也傳來了振奮人心的消息。智譜AI宣布開源其32B/9B系列GLM模型,這些模型在代碼生成、指令遵循等方面與GPT-4.1形成了直接競爭。用戶現已可通過全新平臺Z.ai免費體驗這批涵蓋基座、推理、沉思模型的AI產品,同時,它們也已在智譜MaaS平臺上同步上線。
在代碼生成方面,GPT-4.1展現出了卓越的能力。無論是解決復雜的編碼任務、進行前端編碼,還是在減少無關編輯、遵循差異格式等方面,GPT-4.1的表現均優于GPT-4o。在SWE-bench Verified測試中,GPT-4.1完成了54.6%的任務,而GPT-4o的完成率僅為33.2%。GPT-4.1在跨多種格式的代碼差異分析方面也更加準確,為API開發者提供了更為高效和準確的代碼編輯工具。
指令遵循方面,GPT-4.1同樣表現出色。在OpenAI開發的內部教學跟蹤評估系統中,GPT-4.1在困難提示方面的表現尤為突出。它能夠更好地從過往對話中識別信息,實現更自然的對話。在MultiChallenge基準測試中,GPT-4.1的表現較GPT-4o提升了10.5%。而在IFeval測試中,GPT-4.1的得分也高達87.4%,超越了GPT-4o的81.0%。智譜的GLM-Z1-32B-0414在IFeval上也取得了84.5%的優異成績。
長上下文理解是GPT-4.1的另一大亮點。它能夠處理多達100萬個上下文tokens,這一能力在處理大型代碼庫或大量長文檔時尤為關鍵。GPT-4.1能夠準確地從長上下文中提取相關信息,并忽略干擾項。在OpenAI-MRCR評估平臺上,GPT-4.1展現出了卓越的信息理解能力。同時,在Graphwalks基準測試中,GPT-4.1也取得了61.7%的準確率,輕松擊敗了GPT-4o。
智譜AI在小模型性能上也取得了突破。其GLM-Z1-9B-0414模型雖然參數量較少,但在數學推理及通用任務上仍表現出色。在AIME基準測試中,它以76.4%的高分擊敗了DeepSeek-R1-Distill-Qwen-7B。
在圖像理解方面,GPT-4.1系列同樣不容小覷。尤其是GPT-4.1 mini,在圖像基準測試中經常擊敗GPT-4o。在Video-MME測試中,GPT-4.1以72.0%的得分超越了GPT-4o的65.3%,展示了其在視頻理解方面的強大實力。
在定價方面,GPT-4.1的成本較GPT-4o降低了26%,而GPT-4.1 nano更是成為了OpenAI迄今為止最便宜且速度最快的模型。除了標準的per-token成本外,OpenAI還提供了無需額外付費的長上下文請求服務。相比之下,智譜Z.ai的定價整體低于GPT-4.1。其推出的GLM-Z1系列推理模型包括極速版、高性價比版和免費版等多個版本,旨在滿足不同用戶的需求。