蘋果公司在最新研究中取得突破性進展,推出了一項名為“多token預測”(MTP)的技術。這項技術旨在顯著提升大語言模型的響應速度,同時保持輸出質量不受影響。據科技媒體9to5Mac報道,MTP技術能夠將大語言模型的響應速度提高2至3倍,在特定場景下甚至可以達到5倍的提升。
傳統的大語言模型在生成文本時,通常采用自回歸方式,即逐個輸出token。這種方式雖然保證了文本的連貫性,但每一步都依賴于前序內容,導致生成速度受限。例如,在生成句子“The cat is black”時,模型需要在輸出“is”后,基于上下文和訓練經驗,從詞匯表中計算“black”等候選詞的概率,再選擇最合適的詞。這種串行機制在移動設備上尤為影響用戶體驗。
然而,蘋果的研究團隊在最新論文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中發現,盡管模型被訓練為預測下一個詞,但其內部實際上具備對后續多個詞的潛在判斷能力?;谶@一發現,研究團隊提出了MTP框架,支持模型一次生成多個詞,從而大幅提升生成效率。
MTP技術的核心在于引入“掩碼”(Mask)token作為占位符,并讓模型并行推測后續多個詞。每個推測結果會立即與標準自回歸解碼結果進行對比,如果不符,則自動回退到逐詞生成模式,以確保輸出質量不受影響。這種“推測-驗證”機制在提速的同時,保留了傳統方法的準確性,實現了速度與質量的平衡。
為了驗證MTP技術的有效性,研究團隊基于開源模型Tulu3-8B進行了實驗。實驗中,蘋果訓練模型最多推測8個后續token。結果顯示,在問答和對話等通用任務中,響應速度平均提升了2至3倍;在代碼生成、數學推理等結構化場景中,提速更是達到了5倍。這一性能提升并未以犧牲生成質量為代價,關鍵在于采用了“門控LoRA適配”技術,動態調節參數,僅在需要時激活推測模塊。
MTP技術的推出為設備端大模型部署提供了新的路徑。相比依賴云端計算,MTP技術可以在iPhone、Mac等本地設備上實現更快響應,降低延遲和能耗。這一技術兼容現有模型架構,具備較強的落地潛力。未來,蘋果或將MTP技術集成至Siri、Apple Intelligence等產品中,進一步提升用戶交互體驗。