近日,阿里巴巴正式推出了其通義千問系列中的首個圖像生成基礎模型——Qwen-Image。這款模型的問世,標志著國產圖像生成技術邁上了一個新的臺階,以其卓越的復雜文本渲染能力,引起了業界的廣泛關注。
Qwen-Image的核心競爭力在于其強大的文本處理能力。無論是在何種場景中,它都能精準地生成多種語言和風格的文字。尤為它甚至能夠模擬毛筆書法,或是直接生成包含文本和圖像的PPT頁面。這一特性,無疑為圖像生成技術在各類實際應用中開辟了更廣闊的空間。
在實際測試中,Qwen-Image展現出了令人驚艷的表現。例如,在根據提示詞生成“宮崎駿”風格的圖像時,它不僅準確捕捉到了風格要求,還巧妙地結合了構圖的景深變化,將“云存儲”、“云計算”等字樣自然地融入畫面。這種文字與畫面的完美融合,充分展示了Qwen-Image在復雜文本渲染方面的實力。
除了文本處理,Qwen-Image在通用圖像生成方面也同樣出色。從照片級的寫實場景到印象派的繪畫風格,從動漫風格到極簡設計,它都能游刃有余地應對。這種多元化的藝術風格支持,使得Qwen-Image在圖像生成領域具有極高的靈活性和適用性。
據了解,Qwen-Image采用了MMDiT(多模態擴散Transformer)架構,其中“MM”代表模型的多模態內容生成能力,“DiT”則代表其基于擴散的Transformer結構。這一架構的采用,為Qwen-Image提供了強大的技術支撐,使其在多個公開基準測試中取得了優異的成績。
在與全球頭部的開源、閉源圖像生成模型的對比中,Qwen-Image共獲得了12項SOTA(最佳表現)認證。特別是在通用圖像生成測試、圖像編輯測試以及文本渲染測試上,它都展現出了超越其他模型的實力。尤其是在中文文本渲染方面,Qwen-Image更是大幅領先現有的最先進模型。
目前,Qwen-Image已在魔搭、Hugging Face等社區開源,用戶可以在QwenChat平臺中直接體驗這款模型。同時,Qwen-Image的技術報告也已同步開源,詳細揭秘了這款模型的具體技術實現。
在圖像編輯方面,Qwen-Image同樣表現出色。它能夠根據用戶的提示詞,對原始圖像進行精準的修改,同時保持視覺一致性和語義連貫性。這一特性,使得Qwen-Image在圖像編輯領域具有極高的應用價值。
Qwen-Image的架構由三個核心組件構成:Qwen2.5-VL多模態大語言模型作為條件編碼器,負責提取文本特征;Wan-2.1視頻生成模型的分自編碼器作為圖像分詞器,負責將圖像壓縮為潛在表示;多模態擴散Transformer作為主干擴散模型,負責在文本引導下建模噪聲與圖像潛在表示之間的復雜聯合分布。
為了提升模型的性能,Qwen團隊在數據工程、漸進式學習策略、增強的多任務訓練范式以及可擴展的基礎設施優化等方面進行了大量的工作。他們構建了一套涵蓋大規模數據采集、標注、過濾、合成增強與類別平衡的數據處理流程,為模型的訓練提供了高質量的數據支撐。
通過采用課程學習策略,Qwen-Image從基礎的文本渲染任務起步,逐步過渡到段落級和布局敏感型描述的生成,顯著提升了模型對多樣化語言的理解與生成能力。同時,他們還引入了強化學習進一步優化生成偏好,使得Qwen-Image的輸出更加符合人類的審美標準。
可以預見的是,隨著Qwen-Image的開源和廣泛應用,圖像生成技術將在更多領域發揮其獨特的價值。無論是海報制作、PPT生成還是精準圖像編輯等領域,Qwen-Image都將為用戶帶來更加便捷、高效和智能的體驗。