在社交媒體上瀏覽,不難發(fā)現(xiàn),許多制作精良的視頻已經(jīng)不再單純依賴于人力創(chuàng)作,AI技術(shù)已經(jīng)悄然滲透到了這一領(lǐng)域。然而,對(duì)于創(chuàng)作者而言,盡管AI能夠輕松生成美輪美奐的畫面,但在對(duì)白的處理上卻始終是一道難以逾越的坎。
想象一下,當(dāng)你希望AI為你生成一段雨中分手的戲碼,畫面中的男女主角情感糾葛、雨水滂沱,但他們對(duì)白生硬、語調(diào)不自然,瞬間就將你從劇情中拉了出來。這,就是當(dāng)前AI視頻生成面臨的最大挑戰(zhàn)之一——如何處理包含復(fù)雜情緒的中文對(duì)白。
近日,百度發(fā)布的蒸汽機(jī)(MuseSteamer)視頻模型2.0似乎正是為了解決這一痛點(diǎn)而來。其最大的亮點(diǎn)在于,這是全球首個(gè)中文音視頻一體化生成技術(shù),號(hào)稱是吃“中文語料”長(zhǎng)大的,能夠一步到位地生成音畫同步、口型精準(zhǔn)、情感自然的中文對(duì)話視頻。
為了驗(yàn)證這一技術(shù)的真實(shí)性,筆者決定親自上陣,設(shè)計(jì)幾個(gè)貼近日常創(chuàng)作需求的場(chǎng)景進(jìn)行測(cè)試。從一張圖開始,輸入想要生成的視頻內(nèi)容和主題臺(tái)詞,蒸汽機(jī)2.0有聲版便能在短短幾秒內(nèi)生成一段有聲有色的視頻。
在測(cè)試中,筆者上傳了一張馬斯克和奧特曼的合照,并配上提示詞:“兩個(gè)人針鋒相對(duì),左邊的人先說,‘你做的AI毫無底線’;右邊的人說,‘你的營(yíng)銷才是沒有底線’。”生成的視頻中,靜態(tài)的照片被賦予了生命,兩人的面部表情和肢體動(dòng)作流暢自然,更重要的是,中文對(duì)白的口型同步做得相當(dāng)精準(zhǔn),沒有出現(xiàn)明顯的延遲或錯(cuò)位。
不僅如此,蒸汽機(jī)2.0在處理多角色對(duì)話、方言以及復(fù)雜情感表達(dá)方面也展現(xiàn)出了驚人的能力。筆者嘗試用東北話為甄嬛和沈眉莊配音,盡管這一組合有些奇葩,但生成的視頻中,人物的表情、嘴唇的動(dòng)作以及中文語音的細(xì)節(jié)還原度都非常高,真正做到了中文語境的深度適配。
除了中文對(duì)話的生成,蒸汽機(jī)2.0在電影級(jí)畫質(zhì)和大師級(jí)復(fù)雜運(yùn)鏡方面也實(shí)現(xiàn)了突破。在測(cè)試中,筆者提供了一張首幀圖,并附上提示詞:“一個(gè)鏡頭,從書桌上的翻開的書本特寫開始,慢慢向上拉起,最終定格在窗外下著雨的街景上。”生成的視頻中,整個(gè)運(yùn)鏡過程流暢自然,沒有出現(xiàn)鏡頭亂晃或指令理解錯(cuò)誤的問題,展現(xiàn)出了蒸汽機(jī)2.0對(duì)攝影術(shù)語的深刻理解。
百度蒸汽機(jī)2.0的發(fā)布,無疑為視頻創(chuàng)作領(lǐng)域帶來了新的轉(zhuǎn)折點(diǎn)。它繞開了單純比拼畫質(zhì)和時(shí)長(zhǎng)的內(nèi)卷,將更多力氣花在了解決最本土化的問題上——讓AI視頻真正“開口說中國(guó)話”,而且說得比真人還溜。這一轉(zhuǎn)變已經(jīng)在真實(shí)的創(chuàng)作和商業(yè)領(lǐng)域得到了驗(yàn)證,無論是專業(yè)大神還是中小創(chuàng)作者與品牌方,都獲得了前所未有的創(chuàng)作便利。
然而,蒸汽機(jī)2.0也并非完美無缺。在非對(duì)話的純視覺特效上,生成視頻的時(shí)長(zhǎng)還有限制;在音色風(fēng)格的選擇上,也可以更加豐富多樣。但正如所有快速迭代的AI產(chǎn)品一樣,蒸汽機(jī)2.0選擇了一條更務(wù)實(shí)、更貼近市場(chǎng)的路。它就像一個(gè)專注于把釘子敲好的錘子,雖然不能刨木頭,但在“敲釘子”這件事上,它確實(shí)做到了極致。
看著AI生成的角色在屏幕前侃侃而談,那種真實(shí)感讓人不禁感嘆。工具終將隱形,而創(chuàng)意永遠(yuǎn)閃耀。蒸汽機(jī)2.0所做的,就是將那個(gè)曾經(jīng)無比昂貴、屬于少數(shù)人的導(dǎo)演夢(mèng),還給了每一個(gè)有話想說的人。現(xiàn)在,我們已經(jīng)不缺好的工具,只是缺少新鮮的創(chuàng)意;而與眾不同的創(chuàng)意,往往源自于不斷的嘗試和探索。