近期,科技界傳來(lái)了一項(xiàng)引人注目的創(chuàng)新消息,谷歌DeepMind團(tuán)隊(duì)與布朗大學(xué)攜手,為視頻生成領(lǐng)域帶來(lái)了一項(xiàng)名為“力提示”的突破性技術(shù)。這項(xiàng)技術(shù)能夠在不依賴3D模型或物理引擎的前提下,生成極為逼真的動(dòng)態(tài)效果。
通過(guò)“力提示”技術(shù),用戶只需簡(jiǎn)單指定力的方向和強(qiáng)度,即可操控AI生成的視頻內(nèi)容。這項(xiàng)技術(shù)支持全局力和局部力兩種類型,全局力如風(fēng)吹過(guò)整個(gè)畫面,局部力則像是特定點(diǎn)的敲擊。這些力以矢量場(chǎng)的形式輸入系統(tǒng),隨后被轉(zhuǎn)化為自然且流暢的運(yùn)動(dòng)。
研究團(tuán)隊(duì)基于CogVideoX-5B-I2V視頻模型,融入了ControlNet模塊來(lái)處理物理控制數(shù)據(jù)。信號(hào)通過(guò)Transformer架構(gòu)生成視頻,每段視頻包含49幀,整個(gè)訓(xùn)練過(guò)程僅使用了4臺(tái)Nvidia A100 GPU,并在一天內(nèi)完成。
尤為訓(xùn)練數(shù)據(jù)完全由合成數(shù)據(jù)構(gòu)成。全局力數(shù)據(jù)涵蓋了1.5萬(wàn)段不同風(fēng)力下旗幟飄動(dòng)的視頻,而局部力數(shù)據(jù)則包括了1.2萬(wàn)段滾動(dòng)球體和1.1萬(wàn)段花朵受沖擊反應(yīng)的視頻。
在視頻生成過(guò)程中,當(dāng)文本描述中加入“風(fēng)”或“氣泡”等物理術(shù)語(yǔ)時(shí),模型能夠自動(dòng)建立起正確的力與運(yùn)動(dòng)關(guān)系。訓(xùn)練樣本結(jié)合了文本提示、起始圖像和物理力,全局力以完整矢量場(chǎng)形式呈現(xiàn),局部力則以方向、位置和強(qiáng)度的動(dòng)態(tài)信號(hào)形式存在。為了增加多樣性,背景、光線和視角都被隨機(jī)化處理。
盡管訓(xùn)練數(shù)據(jù)相對(duì)有限,但模型展現(xiàn)出了令人驚嘆的泛化能力。它能夠適應(yīng)新物體、材質(zhì)和場(chǎng)景,甚至掌握了簡(jiǎn)單的物理規(guī)則,例如在同一力度下,輕物移動(dòng)的距離會(huì)比重物更遠(yuǎn)。
在用戶測(cè)試中,“力提示”技術(shù)在運(yùn)動(dòng)匹配度和真實(shí)感方面表現(xiàn)優(yōu)異,超越了純文本或運(yùn)動(dòng)路徑控制的基準(zhǔn)模型,甚至在某些方面超過(guò)了依賴真實(shí)物理模擬的PhysDreamer,僅在圖像質(zhì)量上略遜一籌。然而,在復(fù)雜場(chǎng)景中仍存在一些缺陷,例如煙霧有時(shí)會(huì)無(wú)視風(fēng)力,人體手臂的移動(dòng)偶爾顯得像布料一樣不自然。
DeepMind的首席執(zhí)行官Demis Hassabis近期表示,新一代AI視頻模型(如Veo 3)正在逐步理解物理規(guī)則,不再局限于文本或圖像處理,而是開始表征世界的物理結(jié)構(gòu)。他認(rèn)為,這是通向更通用AI的關(guān)鍵一步,未來(lái)AI或許將不再僅僅依賴數(shù)據(jù),而是能夠在模擬環(huán)境中通過(guò)經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。