微軟近期在人工智能領域邁出了重要一步,于4月30日正式發布了Phi-4-reasoning系列推理模型。這一系列模型專為應對復雜推理任務而設計,通過監督微調Phi-4,并利用o3-mini生成的高質量“可教導”提示數據集進行訓練,實現了推理能力的顯著提升。
本次發布的Phi-4-reasoning系列包含三款模型:Phi-4-reasoning、Phi-4-reasoning-plus以及Phi-4-mini-reasoning。據微軟官方介紹,這些模型不僅繼承了小型模型的高效特性,還在推理能力上取得了重大突破。它們通過推理時間擴展技術,能夠處理需要多步驟分解和內部反思的復雜任務,尤其在數學推理和代理型應用中表現卓越。
Phi-4-reasoning模型是一款擁有140億參數的開源推理模型。它結合了OpenAI o3-mini的高質量推理演示數據,通過監督微調Phi-4,并利用額外計算資源,生成了詳細的推理鏈條。這一特性使得Phi-4-reasoning在處理復雜推理任務時,能夠展現出強大的解析和推理能力。
而Phi-4-reasoning-plus增強版則進一步通過強化學習技術提升了性能。與標準版相比,它的tokens用量增加了1.5倍,從而支持更高精度的推理任務。兩款模型在數學推理和博士級科學問題測試中,均超越了OpenAI o1-mini和DeepSeek-R1-Distill-Llama-70B等模型,甚至在AIME 2025(美國數學奧林匹克資格賽)中擊敗了擁有6710億參數的DeepSeek-R1滿血模型。
針對計算資源有限的環境,微軟還推出了Phi-4-mini-reasoning模型。這是一款基于Transformer的緊湊型語言模型,專門優化用于數學推理。它通過DeepSeek-R1生成的合成數據進行了微調,能夠在低延遲場景下提供高質量的逐步問題解決方案。這款模型覆蓋了從中學到博士級的百萬級多樣化數學問題,非常適合教育應用、嵌入式輔導以及邊緣設備部署。
在多項數學基準測試中,Phi-4-mini-reasoning模型憑借其3.8億參數的表現,超越了OpenThinker-7B和Llama-3.2-3B-instruct等更大模型,甚至在部分測試中接近了OpenAI o1-mini的水平。這一成績充分展示了Phi-4-mini-reasoning在高效性和準確性方面的卓越表現。
微軟Phi-4-reasoning系列的發布,無疑為人工智能領域注入了新的活力。這一系列模型不僅在推理能力上取得了重大突破,還兼顧了高效性和實用性,為未來的應用和發展提供了廣闊的空間。