華為在2025年的鯤鵬昇騰開發(fā)者大會(huì)上,正式揭曉了其最新的技術(shù)創(chuàng)新——昇騰超節(jié)點(diǎn)技術(shù)。這一技術(shù)不僅實(shí)現(xiàn)了業(yè)界前所未有的384卡高速總線互聯(lián)規(guī)模,更為AI大模型的未來發(fā)展開辟了新路徑。
當(dāng)前,AI大模型的發(fā)展正處于參數(shù)規(guī)模與運(yùn)行效率交替提升的關(guān)鍵階段。一方面,Scaling Law持續(xù)推動(dòng)模型能力的邊界拓展;另一方面,諸如DeepSeek等創(chuàng)新架構(gòu)與技術(shù),正加快模型在各行各業(yè)的落地應(yīng)用步伐。在此背景下,MoE模型結(jié)構(gòu)逐漸成為主流,但其復(fù)雜的混合并行策略給計(jì)算帶來了巨大挑戰(zhàn),單次通信量高達(dá)GB級別且難以通過技術(shù)手段掩蓋。
隨著模型并行規(guī)模的日益擴(kuò)大,傳統(tǒng)服務(wù)器跨機(jī)帶寬的限制愈發(fā)凸顯,成為制約訓(xùn)練效率的關(guān)鍵因素。傳統(tǒng)服務(wù)器主要依賴以太網(wǎng)絡(luò)實(shí)現(xiàn)跨機(jī)互聯(lián),通信帶寬有限。實(shí)踐表明,當(dāng)分布式策略的混合并行域超過8卡時(shí),跨機(jī)通信帶寬便成為明顯的性能瓶頸,導(dǎo)致整體性能顯著下滑。
為了突破這一瓶頸,華為推出了昇騰超節(jié)點(diǎn)技術(shù)。該技術(shù)打破了傳統(tǒng)的以CPU為中心的馮諾依曼架構(gòu),創(chuàng)新性地提出了對等計(jì)算架構(gòu)。通過高速總線互聯(lián)技術(shù),華為成功將總線從服務(wù)器內(nèi)部擴(kuò)展至整機(jī)柜乃至跨機(jī)柜,實(shí)現(xiàn)了通信性能的重大飛躍。在超節(jié)點(diǎn)范圍內(nèi),高速總線互聯(lián)替代了傳統(tǒng)的以太網(wǎng),通信帶寬提升了15倍,單跳通信時(shí)延從2微秒降低至200納秒,降幅達(dá)10倍。這一變革使得集群內(nèi)的各節(jié)點(diǎn)能夠像一臺(tái)計(jì)算機(jī)一樣協(xié)同工作,從而有效突破了系統(tǒng)性能的限制。
據(jù)悉,此次推出的昇騰384超節(jié)點(diǎn)由12個(gè)計(jì)算柜和4個(gè)總線柜組成,是當(dāng)前業(yè)界規(guī)模最大的超節(jié)點(diǎn)。依托華為在ICT領(lǐng)域的深厚積累與卓越技術(shù)實(shí)力,該超節(jié)點(diǎn)通過最佳負(fù)載均衡組網(wǎng)方案,可進(jìn)一步擴(kuò)展為包含數(shù)萬卡的Atlas 900 SuperCluster超節(jié)點(diǎn)集群,為未來更大規(guī)模模型的演進(jìn)提供了堅(jiān)實(shí)支撐。
性能測試數(shù)據(jù)顯示,在昇騰超節(jié)點(diǎn)集群上運(yùn)行LLaMA 3等千億級稠密模型時(shí),性能相比傳統(tǒng)集群提升了2.5倍以上。而在通信需求更高的Qwen、DeepSeek等多模態(tài)、MoE模型上,性能提升更是達(dá)到了3倍以上,相較于業(yè)界其他集群,性能高出1.2倍,彰顯了華為昇騰超節(jié)點(diǎn)在AI計(jì)算領(lǐng)域的領(lǐng)先地位。