在第四屆828 B2B企業(yè)節(jié)的盛大開(kāi)幕式上,華為云公布了一項(xiàng)重大進(jìn)展:其Tokens服務(wù)已成功融入CloudMatrix384超節(jié)點(diǎn)體系。這一融合得益于xDeepServe架構(gòu)的革新,使得單芯片的處理能力突飛猛進(jìn),達(dá)到了前所未有的2400TPS(每秒事務(wù)處理數(shù)),同時(shí)保持了50ms的TPOT(任務(wù)處理總時(shí)間),這一成績(jī)遠(yuǎn)超當(dāng)前行業(yè)標(biāo)準(zhǔn)。
面對(duì)中國(guó)AI算力需求的爆炸式增長(zhǎng),華為云展現(xiàn)出其“全棧創(chuàng)新”的實(shí)力。數(shù)據(jù)顯示,從2024年初至2025年6月底,中國(guó)日均Token消耗量從1000億飆升至30萬(wàn)億,這一300多倍的增長(zhǎng)凸顯了人工智能應(yīng)用的迅猛擴(kuò)張,也對(duì)算力基礎(chǔ)設(shè)施提出了更高要求。
早在今年3月,華為云便推出了基于MaaS(模型即服務(wù))的Tokens服務(wù),旨在滿(mǎn)足不同應(yīng)用與場(chǎng)景的性能和時(shí)延需求。該服務(wù)提供多種規(guī)格,如在線(xiàn)版、進(jìn)線(xiàn)版、離線(xiàn)版及尊享版,為大模型和Agent智能體等AI工具提供了靈活、高效且成本優(yōu)化的算力解決方案。
此次,Tokens服務(wù)與CloudMatrix384超節(jié)點(diǎn)的結(jié)合,通過(guò)xDeepServe框架的再次升級(jí),將吞吐量從年初的1920TPS提升至2400TPS,TPOT則縮短至50ms。這一成就背后,是華為云從硬件到軟件、從算子到存儲(chǔ)、從推理框架到超節(jié)點(diǎn)的全方位技術(shù)創(chuàng)新。
CloudMatrix384超節(jié)點(diǎn)以其獨(dú)特的計(jì)算架構(gòu),打破了性能瓶頸,奠定了堅(jiān)實(shí)的算力基礎(chǔ)。同時(shí),CANN(昇騰計(jì)算架構(gòu))硬件使能技術(shù)優(yōu)化了算子與通信策略,使得云端算力得以高效調(diào)用。EMS彈性?xún)?nèi)存存儲(chǔ)則打破了AI內(nèi)存墻,實(shí)現(xiàn)了“以存強(qiáng)算”,進(jìn)一步釋放了芯片算力。而xDeepServe分布式推理框架,則通過(guò)Transformerless的極致分離架構(gòu),讓超節(jié)點(diǎn)能夠釋放出更高效的算力。
xDeepServe將MoE大模型拆解為可獨(dú)立伸縮的Attention、FFN、Expert三個(gè)微模塊,這些“積木”被分配到不同的NPU上同步處理任務(wù),然后通過(guò)高效的XCCL通信庫(kù)與FlowServe自研推理引擎重新組合,形成超高吞吐量的LLM服務(wù)平臺(tái)。這一創(chuàng)新架構(gòu),使得單卡吞吐量從600tokens/s躍升至2400tokens/s。
XCCL作為專(zhuān)為超節(jié)點(diǎn)上的大語(yǔ)言模型服務(wù)設(shè)計(jì)的高性能通信庫(kù),充分發(fā)揮了CloudMatrix384的UB互聯(lián)架構(gòu)潛力,為T(mén)ransformerless的全面分離提供了堅(jiān)實(shí)的帶寬與時(shí)延支持。而FlowServe作為“去中心”式分布式引擎,將CloudMatrix384劃分為完全自治的DP小組,每個(gè)小組自給自足,確保了千卡并發(fā)時(shí)的流暢運(yùn)行。
華為云MaaS服務(wù)目前已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify等主流Agent平臺(tái)。通過(guò)大量的模型性能優(yōu)化與效果調(diào)優(yōu),華為云實(shí)現(xiàn)了“源于開(kāi)源,高于開(kāi)源”,讓大模型在昇騰云上展現(xiàn)出更卓越的性能。例如,在文生圖大模型上,通過(guò)量化與融合算子等技術(shù),華為云MaaS平臺(tái)在輕微損失畫(huà)質(zhì)的情況下,實(shí)現(xiàn)了出圖速度的兩倍提升,最大支持2K×2K尺寸。在文生視頻大模型上,則通過(guò)量化與通算并行等方式,大幅提升了視頻生成速度,相較于競(jìng)爭(zhēng)對(duì)手實(shí)現(xiàn)了3.5倍的性能優(yōu)勢(shì)。
在應(yīng)用層面,華為云已與超過(guò)100家合作伙伴攜手,深入行業(yè)場(chǎng)景,共同開(kāi)發(fā)豐富的Agent應(yīng)用。這些應(yīng)用覆蓋了調(diào)研分析、內(nèi)容創(chuàng)作、智慧辦公、智能運(yùn)維等多個(gè)領(lǐng)域,解決了眾多產(chǎn)業(yè)難題,幫助企業(yè)更便捷地?fù)肀I創(chuàng)新,加速智能化轉(zhuǎn)型。例如,基于MaaS平臺(tái)推出的今日人才數(shù)智員工解決方案,集成了先進(jìn)的自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),能夠智能交互并處理任務(wù),顯著提升服務(wù)效率與客戶(hù)滿(mǎn)意度。而北京方寸無(wú)憂(yōu)科技開(kāi)發(fā)的無(wú)憂(yōu)智慧公文解決方案,則提升了公文處理效能,推動(dòng)了政企辦公的智能化轉(zhuǎn)型。