久久久青草,欧美视频一区在线观看,成人在线一区二区三区

華為云Tokens服務接入384超節點，突破AI算力增長瓶頸

時間：2025-08-29 14:59 來源：ITBEAR作者：馮璃月

在第四屆828 B2B企業節盛大開幕的當天下午，華為云傳來了一則令人矚目的消息：其Tokens服務已成功全面融入CloudMatrix384超節點，這一融合標志著華為云在AI算力領域的又一次重大突破。

得益于xDeepServe架構的創新應用，華為云Tokens服務的性能得到了顯著提升。具體而言，該服務在單芯片上實現了2400TPS的吞吐量，同時保持了50ms的TPOT（Token處理時延），這一成績無疑為AI算力的應用樹立了新的標桿。

近年來，中國AI算力需求呈現出爆炸式增長。數據顯示，從2024年初至2025年6月底，中國的日均Token消耗量從1000億激增到30萬億，短短一年半時間內增長了300多倍。這一趨勢對算力基礎設施提出了前所未有的挑戰。為了滿足這一需求，華為云在2025年3月推出了基于MaaS（模型即服務）的Tokens服務，提供了多種規格以滿足不同應用場景的需求。

此次Tokens服務與CloudMatrix384超節點的結合，更是將這一服務的性能推向了新的高度。依托超節點的xDeepServe框架，Tokens服務的吞吐量從年初的1920TPS躍升至2400TPS。這一提升的背后，是華為云對于大算力構建全棧創新的深刻理解，包括硬件、軟件、算子、存儲、推理框架及超節點等各個環節的協同優化。

xDeepServe架構作為CloudMatrix384超節點的原生服務，其創新之處在于采用了Transformerless極致分離架構。這一架構將MoE大模型拆解為Attention、FFN、Expert三個可獨立伸縮的微模塊，并通過微秒級XCCL通信庫與FlowServe自研推理引擎進行高效整合。經過這樣的優化，單卡的吞吐量從非超節點的600tokens/s大幅提升至2400tokens/s。

華為云還透露了xDeepServe架構的未來發展計劃。目前，該架構已經實現了MA分離，未來還將進一步將Attention、MoE、Decode改造為數據流，并擴展至多臺超節點，以實現推理吞吐的線性提升。

在應用層面，華為云Tokens服務已經支持了包括DeepSeek、Kimi、Qwen等在內的主流大模型，以及versatile、Dify等主流Agent平臺。同時，華為云還與超過100家合作伙伴攜手，在多個領域開發AI Agent，如調研分析、內容創作、智慧辦公、智能運維等。這些應用不僅提升了服務效率與客戶滿意度，還推動了政企辦公的智能化轉型。

例如，基于MaaS平臺的今日人才數智員工解決方案，通過集成自然語言處理、機器學習等技術，為企業提供了智能化的人才管理服務。而北京方寸無憂科技開發的無憂智慧公文解決方案，則利用AI技術實現了公文的自動化處理，大大提高了辦公效率。

更多>同類內容

vivo Y500官宣9月1日發布：續航、防水全面	vivo Y500發布在即：8200mAh大電池續航王者
華為Mate XTs非凡大師三折疊新機預約開啟，	小米澎湃OS 3 Beta版8月29日起分批推送，新

国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

華為云Tokens服務接入384超節點，突破AI算力增長瓶頸