百度近日正式推出了其蒸汽機2.0大模型,這一創新技術標志著全球首個支持中文音視頻一體化生成的大模型的問世。蒸汽機2.0在原有圖像生成視頻的基礎上,新增了“有聲版”,實現了環境音效、人聲對白及嘴型同步的全方位支持,真正做到了畫面與聲音的同步生成。
該模型的最大亮點在于其“形神音容”一體化生成能力,將以往需要分別完成的視頻畫面、配音效與對白同步三個步驟,整合為一次生成完成,極大地提升了效率。這一突破性的技術革新,被形象地比喻為“三步并一步”。
在價格方面,蒸汽機2.0 Turbo有聲版的定價為每5秒1.4元,據百度透露,這一價格相較于行業平均成本,大約低了三成,顯示出其強大的競爭力。
從技術細節上看,蒸汽機2.0模型引入了更為復雜的鏡頭語言,如“繞鏡”等動態運鏡方式,同時配合大規模提示詞理解能力的升級,使得用戶即使輸入簡短的自然語言,也能生成畫面流暢、鏡頭調度自然的視頻內容。這一改進,無疑為用戶提供了更加便捷和高效的使用體驗。
在聲音方面,蒸汽機2.0模型不僅同步生成環境聲與人聲,還努力做到人物動作與唇形的精準匹配。該模型支持“多人對話、嘴型對齊、角色情緒同步”等多模態生成任務,背后由“多模態潛在空間規劃”機制支撐,能在建模階段統一規劃角色身份、語氣、對話內容與視覺呈現,確保生成的視頻內容整體感強、敘事一致。
百度還特別強調了蒸汽機2.0在中文場景下的適配能力,包括中文發音結構的唇形匹配、語境識別與本地化音色模擬,使得生成的中文視頻內容在語境下具備更高的擬真度。
在實際體驗中,蒸汽機2.0展現了其多樣化的生成能力。無論是沖浪者與巨浪共舞的震撼場景,還是海底世界美麗魚群的細膩描繪,蒸汽機2.0都能以逼真的畫面和流暢的動作呈現。同時,在創意簡單表達、極速生成的Lite版本中,雖然背景人物動作偶爾有些僵硬,但整體畫面氛圍和細節處理仍令人印象深刻。
在有聲版體驗中,蒸汽機2.0對于音效和對話的生成也展現出了不俗的實力。盡管在初次嘗試中,模型對于提示詞的理解存在些許偏差,但在調整提示詞后,模型能夠準確地還原角色的臺詞、音色和語氣,同時嘴型同步效果也十分清晰,聲音生成與畫面的銜接自然流暢。
百度蒸汽機2.0的推出,無疑為音視頻生成領域帶來了新的突破。雖然聲音生成的準確性和口型協調仍有待進一步提升,但其在“形神音容”一體化生成方向上邁出的這一步,無疑為未來的技術發展奠定了堅實的基礎。