商湯科技與華為近日宣布,其聯(lián)合研發(fā)的商湯大裝置SenseCore已與華為昇騰384超節(jié)點完成深度適配,在功能與性能驗證中達到預(yù)期目標。此次合作標志著國產(chǎn)AI算力基礎(chǔ)設(shè)施在跨平臺協(xié)同與效率優(yōu)化方面取得重要突破。
昇騰384超節(jié)點(Atlas 900 A3 SuperPoD)是華為推出的全球最大規(guī)模超節(jié)點方案,其核心創(chuàng)新在于“全對等架構(gòu)”。該架構(gòu)突破傳統(tǒng)服務(wù)器總線限制,將高速互聯(lián)總線擴展至整機柜及跨機柜層級,實現(xiàn)CPU、NPU、DPU、存儲及內(nèi)存資源的全域互聯(lián)與池化,構(gòu)建出單臺“超級計算機”。這種設(shè)計顯著提升了算力密度與互聯(lián)帶寬,為AI大模型訓練提供了更高效的底層支持。
商湯大裝置SenseCore針對超節(jié)點特性進行了多項技術(shù)優(yōu)化。在調(diào)度層面,平臺不僅支持單機、多機及跨超節(jié)點(POD)的靈活調(diào)度,還通過模型并行策略實現(xiàn)邏輯超節(jié)點的自動劃分。這一創(chuàng)新使EP/TP等大通信策略能夠充分利用靈衢網(wǎng)絡(luò),大幅縮短模型訓練周期。例如,在跨POD訓練場景中,SenseCore團隊通過修復(fù)多POD環(huán)境下master/work任務(wù)rank亂序問題,從根本上解決了訓練任務(wù)概率性失敗的技術(shù)瓶頸。
在系統(tǒng)可靠性方面,SenseCore構(gòu)建了多維度故障檢測與恢復(fù)體系。該體系覆蓋服務(wù)器硬件、高速互聯(lián)總線、RoCE網(wǎng)絡(luò)及任務(wù)進程等軟硬件層級,結(jié)合Job/Pod/進程三級恢復(fù)機制,顯著提升了昇騰384超節(jié)點在長周期訓練任務(wù)中的穩(wěn)定性。據(jù)技術(shù)文檔顯示,這一優(yōu)化使超節(jié)點在復(fù)雜訓練場景下的容錯能力提升超過40%。
雙方技術(shù)團隊透露,下一步將重點拓展三大應(yīng)用方向:一是開發(fā)大模型推理加速方案,降低AI應(yīng)用部署成本;二是構(gòu)建智能體應(yīng)用部署框架,支持復(fù)雜AI系統(tǒng)的快速落地;三是針對醫(yī)療、金融等垂直行業(yè),優(yōu)化大模型訓練與推理的專用算法。這些探索有望推動國產(chǎn)AI算力平臺在更多產(chǎn)業(yè)領(lǐng)域的規(guī)模化應(yīng)用。