在人工智能領域,一場關于預訓練技術是否仍占主導地位的辯論正如火如荼地進行。這一話題已成為AI行業的焦點,引發了廣泛討論。
近年來,預訓練技術一直被視為AI發展的第一性原理。然而,隨著OpenAI前首席科學家Ilya的公開質疑,以及強化學習模型DeepSeek R1的嶄露頭角,預訓練技術的地位似乎開始動搖。
預訓練技術的命運轉變,是AI行業共識與非共識不斷交織的縮影。為了深入探討這一話題,螞蟻集團在2025年5月27日的“技術開放日”上組織了一場圓桌對話。
參與對話的嘉賓包括Sand.AI創始人曹越、阿里通義千問技術負責人林俊旸,以及香港大學助理教授孔令鵬。他們各自在AI領域取得了顯著成就,為對話帶來了豐富視角。
曹越和孔令鵬在非共識探索中取得了顯著成果。曹越將語言模型主流的自回歸路線應用于視頻模型訓練,實現了視頻長度的無限擴展。而孔令鵬則通過引入擴散模型,用僅7B的參數量在語言任務上超越了671B的DeepSeek V3。
他們的經歷展現了AI行業最具創新性的一面:勇于擁抱非共識,不斷探索未知領域。
相比之下,阿里給人的印象似乎更加保守,長期專注于Dense模型的發展。直到2025年2月,千問才推出了首個MoE模型。面對外界的質疑,林俊旸在圓桌上澄清道:“我們并不保守,只是經過大量實驗后未能取得預期成果。”
林俊旸還分享了阿里在Transformer架構上的探索歷程。他們曾嘗試多次改進,但最終發現Transformer仍是最優解。這一經歷揭示了共識在AI行業中的重要性:共識往往代表著經過驗證的成功經驗。
然而,三位嘉賓都感受到了行業的變化。去年還在堅守共識的他們,今年開始積極尋找非共識。林俊旸比喻道:“現在的行業就像是在不同的方向上摸彩票,看誰能中大獎。”
孔令鵬也表達了類似的觀點。他認為,無論是語言模型上的擴散模型,還是視頻模型上的自回歸路線,都是為了平衡模型偏差和數據偏差,達到更好的效果。這一觀點揭示了非共識探索背后的共同目標。
在預訓練技術方面,美國近期又涌現了新的非共識:預訓練還未結束。林俊旸站在了這一新非共識的一方,透露阿里仍有大量數據未用于千問模型,每次加入新數據都能帶來性能提升。
在圓桌對話中,嘉賓們還分享了各自在模型優化、架構創新等方面的見解。曹越強調了稀疏化在提升多模態領域效率方面的重要性;林俊旸則關注了MOE模型的進一步探索以及訓練穩定性的優化;孔令鵬則探討了模型可解釋性和幻覺問題,并提出了將創造視為搜索問題的新視角。
通過這場對話,我們可以深刻感受到AI行業的多元性和創新性。在這個快速變化的領域里,共識與非共識不斷交織碰撞,推動著技術的不斷前行。