小米大模型團隊在“Xiaomi MiMo”公眾號上宣布了一項重大進展:4月30日,他們正式開源了首個專為推理設計的大模型——Xiaomi MiMo。這一舉措標志著小米在AI領域邁出了堅實的一步,旨在通過聯(lián)動預訓練與后訓練,全面提升模型的推理能力。
MiMo是小米大模型Core團隊這一新興力量的初步探索成果。該團隊致力于推動AI技術(shù)的創(chuàng)新與應用,而MiMo正是他們交出的第一份答卷。
在公開測評中,MiMo的表現(xiàn)令人矚目。在數(shù)學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)兩大領域,MiMo僅憑7B的參數(shù)規(guī)模,便超越了OpenAI的閉源推理模型o1-mini以及阿里更大規(guī)模的開源推理模型QwQ-32B-Preview。這一成績無疑是對小米大模型團隊實力的有力證明。
小米官方透露,MiMo推理能力的提升得益于預訓練和后訓練階段中數(shù)據(jù)與算法等多層面的創(chuàng)新。在預訓練階段,團隊注重讓模型接觸更多推理模式,以拓寬其視野。在數(shù)據(jù)層面,他們深入挖掘富含推理元素的語料,并合成了約200B tokens的推理數(shù)據(jù),為模型提供了豐富的訓練素材。訓練過程則分為三個階段,逐步提升難度,總共訓練了25T tokens,確保了模型的扎實基礎。
在后訓練階段,小米團隊引入了高效穩(wěn)定的強化學習算法和框架。他們提出了Test Difficulty Driven Reward策略,以緩解困難算法問題中的獎勵稀疏問題,并引入了Easy Data Re-Sampling策略,以穩(wěn)定強化學習訓練過程。他們還設計了Seamless Rollout系統(tǒng),使得強化學習訓練加速2.29倍,驗證加速1.96倍,大大提高了訓練效率。
對于廣大開發(fā)者和技術(shù)愛好者而言,這無疑是一個振奮人心的消息。小米開源MiMo大模型,不僅為他們提供了一個強大的推理工具,更為他們探索AI技術(shù)的無限可能提供了寶貴的資源。目前,MiMo大模型已可在Hugging Face平臺上獲取,技術(shù)報告也已在GitHub上公開,供感興趣的人士深入研究和應用。
在小米大模型團隊的持續(xù)努力下,我們有理由相信,未來將有更多創(chuàng)新性的AI技術(shù)和產(chǎn)品涌現(xiàn),為人們的生活和工作帶來更多便利和驚喜。讓我們共同期待小米在AI領域的更多精彩表現(xiàn)吧!