在人工智能大模型浪潮的推動下,英偉達的數據中心GPU出貨量在2023年實現了顯著增長,總計達到了約376萬臺,相較于前一年的264萬臺,增幅超過百萬臺。這一增長使英偉達成為歷史上硬件公司中規模增長最快的之一。據行業預測,到2025年,英偉達的GPU銷量有望達到650萬至700萬塊。
盡管英偉達在GPU市場上的壟斷地位依舊穩固,但圍繞其長期持久性(超過6年)的討論卻從未停歇。面對這一形勢,谷歌、微軟、亞馬遜和meta等海外科技巨頭正積極整合AI需求,力圖成為NPU的主要消費者,并紛紛自研具備競爭力且高度可靠的芯片。
與此同時,計算需求的急劇增加已經觸及了資本支出、電力供應和基礎設施建設的極限。這一現狀正促使行業轉向分布式、垂直集成和協同優化的系統,包括芯片、機架、網絡、冷卻、基礎設施軟件及電源等方面。然而,英偉達在這一轉型過程中顯得準備不足。
據英偉達透露,在2025財年第四季度,公司交付了價值110億美元的Blackwell芯片,這些芯片主要銷售給云巨頭,占據了英偉達數據中心業務收入的相當一部分。然而,業內分析認為,云巨頭在英偉達的市場份額可能會縮減,同時,小型或短期GPU租賃廠商的利用率和投資回報率也普遍較低。
隨著前沿模型的成本降低、性能和泛化能力提升,尤其是借助有效的RAG和廣泛可用的微調機制,許多使用特定數據訓練專有模型的公司面臨價值點不明確的問題,這些長尾買家的需求也變得不穩定。與此同時,一些小型獨立云廠商的未來前景也不明朗,盡管英偉達曾給予他們資金和GPU支持,但這些廠商在產品多樣性、基礎設施和人才方面仍然匱乏。
相比之下,云巨頭的需求卻迅速增長。外部開發者面臨長期資源短缺,交付周期長達數月,而內部需求也加劇了這一趨勢。云巨頭憑借其規模和基礎設施經驗,在攤銷折舊和停機成本方面具有優勢,同時提供高靈活性、安全性和可靠性,從而獲得了高AI服務利潤率和客戶信任度。
谷歌就是一個典型的例子。自2013年以來,谷歌一直在內部開發TPU。盡管開發周期長達數年,但在預算、人才和架構有限的情況下,TPU v1從啟動到部署僅用了15個月。并且,歷屆TPU在性能和能耗上相較于GPU都展現出優勢。如今,TPU已經發展到第六代Trillium,能效和HBM容量提高了一倍,峰值性能提高了三倍以上。而谷歌也在迭代其軟件堆棧,由TensorFlow過渡到JAX,用于處理編譯和低級部署優化。TPU和JAX的組合幾乎完全取代了谷歌內部用于AI工作負載的英偉達GPU。
本月初,谷歌發布了第七代TPU“Ironwood”,作為谷歌首款面向AI推理時代的TPU,單芯片峰值算力可達4614 TFLOPs。Ironwood可擴展至9216片芯片集群,性能是第六代TPU Trillium的兩倍,并且能效較之于第一款Cloud TPU高出近30倍。HBM帶寬也有所提升,單顆Ironwood芯片的內存帶寬達7.2Tbps,是Trillium的4.5倍。
除了谷歌,亞馬遜也在加速芯片開發。自2015年收購Annapurna Labs后,亞馬遜推出了第二代Inferentia和新的Trainium芯片。預計到2026年,相關支出將達到25億美元。微軟則推出了自研AI芯片Maia 100芯片和相關的Cobalt 100 CPU,并推出了兼容Pytorch的編譯器Maia SDK,依靠OpenAI的Triton框架來取代CUDA。
meta同樣在布局ASIC。早期,meta芯片主要為Instagram和Reels提供DLRM。隨著第二代MTIA芯片發布和支持定制軟件堆棧,meta已開始在Facebook和Instagram的新聞推送推薦系統中使用推理芯片。meta還在合成數據生成方面擴大芯片使用,并據外媒報道,已經在小規模部署測試其首款用于AI訓練的自研芯片。
當前,AI的工作負載偏向于訓練。即使在微軟,訓練也約占算力需求的六成。然而,隨著重心由訓練轉向推理,英偉達面臨的壓力也在增大。業內分析認為,在許多情況下,尤其是對于中型模型,上一代A100的性價比都高于H100。而AMD也正在成為更具競爭力的替代品。甚至從長遠來看,尤其是對于小模型而言,基于CPU的推理或為最佳選擇。
分布式系統帶來的挑戰同樣不容忽視。盡管英偉達B100的單芯片性能相當于3個Trillium TPU,但有觀點認為,單芯片性能并不重要。云巨頭能夠垂直整合并利用其規模和專業打造總體上更經濟、性能更高的分布式系統。這對于英偉達而言,將是一個難以競爭或適應的結構性趨勢。
微軟的數據中心設計就是一個例證。他們規劃了自己的電信光纖網絡,并推出新的ColorZ可插拔光收發器+DSP,以支持長距離數據傳輸,通過連接數據中心有效提高峰值集群性能。而谷歌則放棄了大型芯片,轉而采用體積更小、成本更低、且具有深度互連的ASIC集群。這些努力都顯著提高了系統的整體性能和效率。
基礎設施正在變得愈發分布式。以meta為例,Llama 3的訓練并非集中于單一數據中心。由于需要在包括AWS、Oracle等云上進行訓練,meta正在通過與HammerSpace合作將多云多數據中心的數據完全統一起來。微軟也正在為OpenAI連接遍布全國的集群。海外巨頭都在積極探索實現真正的異步分布式訓練。
分布式基礎設施是繼續擴展和計算新OOM的唯一途徑。目前,算力仍舊是前沿模型發展的最大制約因素。而多數據中心訓練允許使用規模較小、互聯互通的數據中心,這不僅降低了成本,而且提高了吞吐量。同時,也加速了基礎設施的建設。
然而,盡管分布式系統為非傳統但資金雄厚的參與者創造了一些機會,但基礎設施專業知識至關重要。巨頭必須不斷擴展以訓練出更優秀的模型。長期來看,關鍵區別在于訓練將在x00MW-xGW數據中心的“小型”聯網園區中進行,而不是在xxGW級的單體數據中心中進行。
基于前述趨勢,業內分析認為,英偉達將很難在性能或成本上競爭。其既無法與云深度集成,也無法定制硬件。除非發展出規模較小的客戶,否則英偉達本身并不適合服務于跨集群或百億億次級的情況。英偉達面臨著前所未有的長期挑戰。