華為在AI領域再度邁出重要一步,正式推出了其最新研發的盤古 Ultra MoE模型,該模型的參數規模驚人,達到了7180億。這款準萬億級別的混合專家(MoE)模型,全程在華為的昇騰AI計算平臺上進行訓練。
據悉,盤古團隊為了確保模型訓練的穩定性和效率,提出了兩項創新技術:Depth-Scaled Sandwich-Norm(DSSN)穩定架構和TinyInit小初始化方法。這兩項技術的結合,使得在昇騰平臺上,超過18TB的數據能夠進行長期且穩定的訓練。
在訓練方法上,華為團隊首次公開了在昇騰CloudMatrix 384超節點上實現大稀疏比MoE強化學習(RL)后訓練框架的關鍵技術。這一突破意味著,RL后訓練正式進入了超節點集群的新時代,為AI模型的訓練效率和效果帶來了顯著提升。
華為團隊在短短不到一個月的時間內,對預訓練系統加速技術進行了迭代升級。這些升級包括:針對昇騰硬件的自適應流水掩蓋策略,通過優化算子執行序,降低Host-Bound,并提升EP通信的掩蓋效果;開發自適應管理內存優化策略,有效管理內存資源;通過數據重排實現DP間Attention負載均衡,避免資源過載;以及針對昇騰硬件的算子優化,這些技術共同作用下,使得萬卡集群預訓練MFU的性能從30%大幅提升至41%。
這些技術上的突破和創新,不僅展示了華為在AI領域的深厚積累,也預示著AI技術未來在更多領域的應用前景。隨著AI技術的不斷發展,華為盤古 Ultra MoE模型的推出,將為各行各業提供更加智能、高效的解決方案。
盤古團隊的創新精神和技術實力,不僅體現在模型的參數規模和訓練效率上,更在于他們不斷挑戰技術極限,推動AI技術向前發展的決心和勇氣。未來,我們有理由相信,華為將在AI領域取得更多突破,為人類社會帶來更多福祉。
對于AI技術的未來發展,華為始終保持著開放和包容的態度。他們相信,只有不斷與業界同仁合作,共同推動技術的創新和發展,才能讓AI技術真正造福于人類社會。因此,華為也歡迎更多合作伙伴加入他們的行列,共同探索AI技術的無限可能。
最后,對于想要深入了解華為盤古 Ultra MoE模型和相關技術的讀者,可以通過相關鏈接獲取技術報告和項目文件預覽。這些資料將幫助讀者更深入地了解華為在AI領域的最新成果和創新技術。