華為創(chuàng)始人任正非近期在深圳接受了《人民日?qǐng)?bào)》的專訪,深入探討了華為在芯片技術(shù)領(lǐng)域的現(xiàn)狀與策略。面對(duì)芯片技術(shù)的挑戰(zhàn),任正非坦誠地表示,華為的單芯片技術(shù)相較于美國仍有一代的差距。但他緊接著提出了華為的創(chuàng)新策略:“我們通過數(shù)學(xué)強(qiáng)化物理、非摩爾定律補(bǔ)充摩爾定律、系統(tǒng)補(bǔ)充單點(diǎn),從而在最終結(jié)果上達(dá)到實(shí)用水平。”
近年來,華為技術(shù)團(tuán)隊(duì)圍繞“數(shù)學(xué)補(bǔ)物理”、“非摩爾補(bǔ)摩爾”、“系統(tǒng)補(bǔ)單點(diǎn)”三大核心理念,成功研發(fā)出“超節(jié)點(diǎn)+集群”系統(tǒng)算力解決方案。這一方案的核心是華為的昇騰CloudMatrix 384超節(jié)點(diǎn),作為全球最大的全棧100%國產(chǎn)化自研AI超節(jié)點(diǎn),它打破了英偉達(dá)的市場壟斷。
在2025年4月的華為云生態(tài)大會(huì)上,華為常務(wù)董事、云計(jì)算CEO張平安正式介紹了CloudMatrix 384。這個(gè)由384張昇騰算力卡組成的超節(jié)點(diǎn)集群,單集群算力高達(dá)300PFlops,比英偉達(dá)NVL72的180PFlops高出67%,在內(nèi)存帶寬、互聯(lián)帶寬以及斷點(diǎn)恢復(fù)時(shí)間等多項(xiàng)指標(biāo)上均創(chuàng)下全球商用AI算力集群的新紀(jì)錄。
盡管單顆昇騰芯片的性能約為英偉達(dá)Blackwell架構(gòu)GPU的三分之一,但華為通過超大規(guī)模集群設(shè)計(jì),實(shí)現(xiàn)了系統(tǒng)級(jí)的突破。依托6812個(gè)400G光模塊構(gòu)建的超高速互聯(lián)網(wǎng)絡(luò),數(shù)據(jù)在384張卡之間近乎無損流動(dòng),訓(xùn)練效率接近單卡性能的90%,遠(yuǎn)超傳統(tǒng)架構(gòu)60%-70%的水平。
據(jù)SemiAnalysis披露,華為云CM384基于384顆昇騰芯片,可提供高達(dá)300 PFLOPs的密集BF16算力,性能接近英偉達(dá)GB200 NVL72系統(tǒng)的兩倍。這一技術(shù)突破是在美國持續(xù)技術(shù)封鎖的背景下取得的,硅基流動(dòng)基于該平臺(tái)部署的DeepSeek-R1模型,實(shí)現(xiàn)了單卡解碼吞吐1920Tokens/s,與英偉達(dá)H100部署性能相當(dāng)。
華為CloudMatrix 384的迅猛崛起引起了英偉達(dá)高層的警覺。英偉達(dá)CEO黃仁勛多次提及華為,并將其視為最大的競爭對(duì)手之一。黃仁勛甚至公開承認(rèn):“從技術(shù)參數(shù)來看,華為的CloudMatrix 384超節(jié)點(diǎn)性能已經(jīng)超越了英偉達(dá),我們必須高度重視這家實(shí)力雄厚的公司。”這一表態(tài)被業(yè)界視為美國AI芯片巨頭首次公開認(rèn)可中國競爭對(duì)手的技術(shù)實(shí)力。
華為CloudMatrix 384的野心不僅在于技術(shù)上的對(duì)標(biāo),更在于推動(dòng)中國科技產(chǎn)業(yè)參與全球規(guī)則制定的深層戰(zhàn)略。華為計(jì)劃通過超節(jié)點(diǎn)架構(gòu),引導(dǎo)行業(yè)從關(guān)注單卡性能轉(zhuǎn)向關(guān)注集群效率、總擁有成本和生態(tài)協(xié)同度。這意味著,未來算力市場的競爭焦點(diǎn)將發(fā)生變化,先進(jìn)工藝將不再是唯一關(guān)注點(diǎn),算力集群的有效利用率、斷點(diǎn)恢復(fù)速度和生態(tài)協(xié)同度將成為新的競爭焦點(diǎn)。
華為正利用集群優(yōu)勢吸引AI企業(yè)加入昇騰體系,形成硬件、軟件和模型的閉環(huán)。目前,華為的開發(fā)者規(guī)模已超過1200萬,合作伙伴數(shù)量達(dá)到4.5萬,云商店應(yīng)用數(shù)量達(dá)到1.2萬。華為正在打造可與CUDA抗衡的替代方案,全球算力市場的格局有望因此發(fā)生重構(gòu)。