近日,亞馬遜震撼發(fā)布了其最新一代生成式AI模型——Nova Sonic,這款模型在語音處理領(lǐng)域?qū)崿F(xiàn)了重大突破,能夠生成自然流暢的語音,為語音交互技術(shù)樹立了新的標桿。
據(jù)亞馬遜官方介紹,Nova Sonic在速度、語音識別以及對話質(zhì)量等多個關(guān)鍵指標上,表現(xiàn)與OpenAI和谷歌的前沿語音模型不相上下。這一成就標志著亞馬遜在AI語音技術(shù)上的顯著進步,也是對近年來新興AI語音模型的有力回應。
與亞馬遜早期的Alexa等模型相比,Nova Sonic在語音交互時更加自然流暢,用戶體驗得到了顯著提升。這一轉(zhuǎn)變得益于Nova Sonic強大的語音處理能力,它不僅能夠準確識別用戶的語音指令,還能在對話中展現(xiàn)出更加自然的語言風格。
為了讓更多開發(fā)者能夠利用Nova Sonic的強大功能,亞馬遜將其通過Bedrock開發(fā)者平臺向用戶開放。該平臺是專為構(gòu)建企業(yè)級AI應用而設(shè)計的工具,而Nova Sonic則通過一個全新的雙向流式API接入,使得開發(fā)者能夠輕松地將該模型集成到自己的應用中。
在價格方面,亞馬遜聲稱Nova Sonic是市場上“最具成本效益”的AI語音模型。與OpenAI的GPT-4o相比,Nova Sonic的價格便宜了約80%,這無疑將吸引更多開發(fā)者選擇該模型。
亞馬遜高級副總裁兼人工通用智能(AGI)部門首席科學家羅希特·普拉薩德透露,Nova Sonic的部分組件已經(jīng)為亞馬遜升級版數(shù)字語音助手Alexa+提供了動力支持。這一消息進一步證明了Nova Sonic的強大實力。
普拉薩德還表示,與競爭對手的AI語音模型相比,Nova Sonic在將用戶請求路由到不同API方面表現(xiàn)出色。它能夠根據(jù)上下文信息判斷何時需要從互聯(lián)網(wǎng)獲取實時信息、解析專有數(shù)據(jù)源或在外部應用程序中采取行動,并使用合適的工具來完成任務(wù)。
在雙向?qū)υ捴校琋ova Sonic展現(xiàn)出了出色的等待“合適時機”發(fā)言的能力。它能夠準確判斷說話者的停頓和打斷情況,確保對話的流暢性和自然性。Nova Sonic還能夠為用戶的語音生成文本記錄,這些文本記錄可以被開發(fā)者用于各種應用場景。
在語音識別方面,Nova Sonic的表現(xiàn)同樣令人矚目。據(jù)普拉薩德介紹,該模型在語音識別錯誤方面比其他AI語音模型更少。即使在用戶咕噥、說錯話或處于嘈雜環(huán)境中時,Nova Sonic也能夠準確理解用戶的意圖。在一項跨語言和方言的語音識別基準測試中,Nova Sonic在英語、法語、意大利語、德語和西班牙語上的平均單詞錯誤率僅為4.2%。
在衡量多人參與的高音量互動的基準測試中,Nova Sonic也展現(xiàn)出了出色的表現(xiàn)。與OpenAI的GPT-4o-transcribe模型相比,Nova Sonic在單詞錯誤率方面準確率高出46.7%。同時,Nova Sonic還擁有行業(yè)領(lǐng)先的速度,其平均感知延遲為1.09秒,比OpenAI的GPT-4o模型更快。
普拉薩德強調(diào),Nova Sonic是亞馬遜構(gòu)建人工通用智能(AGI)這一更廣泛戰(zhàn)略的一部分。未來,亞馬遜計劃推出更多能夠理解不同模態(tài)(包括圖像、視頻和語音)的AI模型,以及“其他在將事物引入物理世界時相關(guān)的感官數(shù)據(jù)”。
由普拉薩德負責的亞馬遜AGI部門在公司產(chǎn)品戰(zhàn)略中扮演著越來越重要的角色。上周,亞馬遜剛剛推出了Nova Act的預覽版,該模型似乎為Alexa+和亞馬遜的“代我購買”功能的部分元素提供了支持。從Nova Sonic開始,亞馬遜希望將更多內(nèi)部的AI模型提供給開發(fā)者使用,以助力他們構(gòu)建各種創(chuàng)新應用。