在AI技術(shù)日新月異的今天,OpenAI再次引領(lǐng)潮流,于近日凌晨正式推出了專為開發(fā)人員設(shè)計(jì)的語(yǔ)音轉(zhuǎn)語(yǔ)音模型——GPT-RealTime。與此同時(shí),OpenAI還對(duì)其API功能進(jìn)行了全面升級(jí),新增了遠(yuǎn)程MCP服務(wù)器支持、圖像輸入功能以及SIP電話呼叫支持。
據(jù)OpenAI官方介紹,GPT-RealTime是其迄今為止最先進(jìn)的語(yǔ)音合成模型,該模型在遵循復(fù)雜指令、精確調(diào)用工具以及生成自然、富有表現(xiàn)力的語(yǔ)音方面取得了顯著進(jìn)步。GPT-RealTime不僅能夠流暢地朗讀重復(fù)的字母和數(shù)字,還能無縫切換語(yǔ)言,甚至能夠捕捉到笑聲等非語(yǔ)言信號(hào),為用戶帶來更加真實(shí)、生動(dòng)的對(duì)話體驗(yàn)。
除了技術(shù)上的突破,OpenAI還為用戶帶來了兩個(gè)全新的語(yǔ)音選項(xiàng)——Cedar和Marin,這兩個(gè)語(yǔ)音將在Realtime API中獨(dú)家提供,為用戶帶來更多樣化的選擇。
在定價(jià)方面,OpenAI也展現(xiàn)出了極大的誠(chéng)意。通用版Realtime API和全新的GPT-RealTime模型即日起向所有開發(fā)者開放。GPT-RealTime的定價(jià)策略為每百萬token音頻輸入32美元,緩存輸入每百萬token僅需0.4美元,而每百萬token音頻輸出的價(jià)格為64美元。相較于之前的gpt-4o-realtime-preview版本,GPT-RealTime的價(jià)格下調(diào)了20%,這無疑將吸引更多開發(fā)者加入到GPT-RealTime的應(yīng)用開發(fā)中。
OpenAI此次還增加了對(duì)對(duì)話上下文的細(xì)粒度控制,允許開發(fā)者設(shè)置智能token限制,并一次截?cái)喽鄠€(gè)回合,這一改進(jìn)將顯著降低長(zhǎng)會(huì)話的成本,為開發(fā)者提供更加靈活、高效的開發(fā)環(huán)境。
自去年10月OpenAI發(fā)布Realtime API公開測(cè)試版以來,已有數(shù)千名開發(fā)者使用該API并提出了寶貴的建議。此次GPT-RealTime的推出,無疑是對(duì)這些開發(fā)者反饋的積極回應(yīng)。
然而,盡管GPT-RealTime受到了廣泛關(guān)注和期待,但也有一些開發(fā)者對(duì)其表現(xiàn)提出了質(zhì)疑。有用戶認(rèn)為,雖然GPT-RealTime在語(yǔ)音合成方面取得了顯著進(jìn)步,但其聲音仍然帶有一定的機(jī)械感,且舊的語(yǔ)音角色在表現(xiàn)力上只是略有提升。
為了提升GPT-RealTime的性能,OpenAI在音頻質(zhì)量、理解用戶指令以及遵循指令等方面進(jìn)行了大量改進(jìn)。GPT-RealTime能夠產(chǎn)出更自然的高質(zhì)量語(yǔ)音,并能遵循細(xì)粒度的指令,如“快速專業(yè)地說話”或“用法國(guó)口音富有同情心地說話”。同時(shí),該模型還能捕捉笑聲等非語(yǔ)言線索,在句子中切換語(yǔ)言,并調(diào)整語(yǔ)氣,為用戶提供更加愉悅的對(duì)話體驗(yàn)。
在構(gòu)建語(yǔ)音轉(zhuǎn)語(yǔ)音應(yīng)用時(shí),開發(fā)者通常需要向模型提供一系列行為指令。OpenAI此次專注于改進(jìn)模型對(duì)這些指令的遵循程度,使得即使是微小的指令也能為模型傳遞更多信息。這一改進(jìn)將使得GPT-RealTime在處理復(fù)雜的多步驟請(qǐng)求時(shí)更加得心應(yīng)手。
OpenAI還改進(jìn)了異步函數(shù)調(diào)用功能。長(zhǎng)時(shí)間運(yùn)行的函數(shù)調(diào)用將不再中斷會(huì)話流程,模型可以在等待結(jié)果時(shí)繼續(xù)流暢地對(duì)話。這一功能的提升將使得GPT-RealTime在處理需要等待外部響應(yīng)的場(chǎng)景時(shí)更加自然、流暢。
與傳統(tǒng)將語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音的多模型鏈?zhǔn)搅鞒滩煌琑ealtime API通過單個(gè)模型和API直接處理和生成音頻。這一創(chuàng)新的設(shè)計(jì)減少了延遲,保留了語(yǔ)音中的細(xì)微差別,并使得其響應(yīng)更加自然、富有表現(xiàn)力。同時(shí),Realtime API還新增了遠(yuǎn)程MCP服務(wù)器支持、圖像輸入功能以及SIP電話呼叫支持等實(shí)用功能,為開發(fā)者提供了更加便捷、高效的開發(fā)體驗(yàn)。
為了防止實(shí)時(shí)語(yǔ)音對(duì)話被濫用,Realtime API包含了多層安全防護(hù)和緩解措施。OpenAI對(duì)Realtime API會(huì)話采用主動(dòng)分類器進(jìn)行監(jiān)控,一旦檢測(cè)到有害內(nèi)容,將立即中止對(duì)話。開發(fā)者還可以使用Agents SDK添加自己的額外安全防護(hù)措施,確保對(duì)話的安全性和合規(guī)性。