在全球人工智能技術的快速發展浪潮中,AI的應用重心正悄然向邊緣設備轉移,其中端側AI語音技術已逐漸滲透到人們的日常生活中,為用戶的工作與生活帶來了前所未有的便捷與高效。近日,榮耀公司與上海交通大學的聯合研究成果在國際音頻領域頂級會議INTERSPEECH 2025上大放異彩,兩篇聚焦端側多語種任務的研究論文被成功錄用,這標志著中國在端側AI語音技術領域的國際影響力顯著提升。
榮耀MagicOS副總裁孫建發強調:“AI技術的核心價值在于更好地服務于用戶,而端側AI則是實現隱私安全與極致體驗平衡的最佳途徑。”他進一步指出,此次研究成果入選INTERSPEECH,不僅是對榮耀技術創新能力的肯定,也驗證了榮耀始終堅持的“以用戶需求為導向”的研發理念。通過這一技術,用戶即使在沒有網絡的環境下,也能享受到精準、實時的多語種翻譯服務,這正是端側AI技術的普惠價值所在。
在語音交互領域,長期以來,高精度語音識別與翻譯的實時性和隱私保護之間存在著難以調和的矛盾。云端處理雖然能提供強大的算力支持,但往往伴隨著延遲高和隱私泄露的風險。而端側處理雖然能保障隱私和實時性,卻受限于設備的算力與存儲,難以實現復雜場景下的多語種、高準確率處理。尤其是面對全球多樣的語種和復雜的口音環境,傳統端側方案往往力不從心,用戶體驗割裂且繁瑣。
為了破解這一行業難題,榮耀與上海交通大學在聯合研究中提出了兩項創新技術——“單調有限前瞻注意力機制”與“鍵-值寄生投機網絡”。前者使得AI能夠在用戶說話的同時進行流式識別與轉寫,極大降低了交互延遲;后者則通過巧妙的模型結構設計,實現了在不損失精度的情況下,推理速度額外提升40%。實測數據顯示,這兩項技術將內存占用從傳統方案的3-4GB降低至僅800MB,翻譯準確率提升16%,推理速度提升38%。
榮耀基于這些研究成果構建的全球首個端側語音大模型,參數量僅為0.8B,卻已內置中、英、德、法、西、意六種語言能力。用戶無需單獨下載任何語種包,即可實現離線、實時互譯,帶來了“即開即用”的極致體驗。榮耀CEO李健曾表示:“榮耀阿爾法戰略的第一步,是將以人為本的AI技術深度融入智能手機,旨在全面激發人類潛能。”此次端側語音大模型的落地,正是這一戰略理念的生動體現。
榮耀與上海交通大學的合作,不僅加速了技術創新,更縮短了從實驗室到產品的轉化路徑。這種產學研深度融合的創新模式,為端側AI技術的突破帶來了顯著的乘法效應。自阿爾法戰略發布以來,榮耀持續深化AI技術領域布局,從AI應用落地、技術開源到端側語音大模型的關鍵突破,展現了清晰的AI戰略演進脈絡。
在WAIC 2025期間,榮耀發布的自研多模態感知大模型MagicGUI,作為榮耀首個開源GUI大模型,以70億參數的規模,支撐了底層AI智能體的多模態環境感知與自動執行規劃能力,綜合性能已達到行業領先水平。此次端側語音大模型的落地,進一步豐富了榮耀的AI技術矩陣,為MagicOS用戶帶來了更加高效、自然的AI體驗。
隨著端側AI技術在手機上的加速落地,全球AI手機的市場份額也在迅速增長。Canalys發布的報告顯示,2024年全球16%的智能手機出貨為AI手機,預計到2028年,這一比例將激增至54%。在阿爾法戰略的指引下,榮耀將集結生態力量,持續推動AI技術創新,不斷突破人機交互的體驗邊界,讓智能設備真正成為用戶可靠的數字助手,為用戶創造更多新價值。
榮耀正通過扎實的技術創新,讓AI真正“聽懂”世界——不僅聽清語音,更聽懂用戶在不同場景下的實時需求、隱私關切以及無縫交流的期待。這一過程的實現,離不開對技術創新的堅持、對用戶需求的深入洞察以及對產業合作的開放態度。隨著榮耀等企業的不斷努力,一個更智能、更安全、更無縫的人機語音交互時代正在加速到來。