在第四屆828 B2B企業節盛大開幕的當天下午,華為云傳來了一則令人矚目的消息:其Tokens服務已成功全面融入CloudMatrix384超節點,這一融合標志著華為云在AI算力領域的又一次重大突破。
得益于xDeepServe架構的創新應用,華為云Tokens服務的性能得到了顯著提升。具體而言,該服務在單芯片上實現了2400TPS的吞吐量,同時保持了50ms的TPOT(Token處理時延),這一成績無疑為AI算力的應用樹立了新的標桿。
近年來,中國AI算力需求呈現出爆炸式增長。數據顯示,從2024年初至2025年6月底,中國的日均Token消耗量從1000億激增到30萬億,短短一年半時間內增長了300多倍。這一趨勢對算力基礎設施提出了前所未有的挑戰。為了滿足這一需求,華為云在2025年3月推出了基于MaaS(模型即服務)的Tokens服務,提供了多種規格以滿足不同應用場景的需求。
此次Tokens服務與CloudMatrix384超節點的結合,更是將這一服務的性能推向了新的高度。依托超節點的xDeepServe框架,Tokens服務的吞吐量從年初的1920TPS躍升至2400TPS。這一提升的背后,是華為云對于大算力構建全棧創新的深刻理解,包括硬件、軟件、算子、存儲、推理框架及超節點等各個環節的協同優化。
xDeepServe架構作為CloudMatrix384超節點的原生服務,其創新之處在于采用了Transformerless極致分離架構。這一架構將MoE大模型拆解為Attention、FFN、Expert三個可獨立伸縮的微模塊,并通過微秒級XCCL通信庫與FlowServe自研推理引擎進行高效整合。經過這樣的優化,單卡的吞吐量從非超節點的600tokens/s大幅提升至2400tokens/s。
華為云還透露了xDeepServe架構的未來發展計劃。目前,該架構已經實現了MA分離,未來還將進一步將Attention、MoE、Decode改造為數據流,并擴展至多臺超節點,以實現推理吞吐的線性提升。
在應用層面,華為云Tokens服務已經支持了包括DeepSeek、Kimi、Qwen等在內的主流大模型,以及versatile、Dify等主流Agent平臺。同時,華為云還與超過100家合作伙伴攜手,在多個領域開發AI Agent,如調研分析、內容創作、智慧辦公、智能運維等。這些應用不僅提升了服務效率與客戶滿意度,還推動了政企辦公的智能化轉型。
例如,基于MaaS平臺的今日人才數智員工解決方案,通過集成自然語言處理、機器學習等技術,為企業提供了智能化的人才管理服務。而北京方寸無憂科技開發的無憂智慧公文解決方案,則利用AI技術實現了公文的自動化處理,大大提高了辦公效率。