近日,快手Kwaipilot團(tuán)隊(duì)宣布了一項(xiàng)技術(shù)突破,他們開(kāi)源了一款名為KwaiCoder-AutoThink-preview的自動(dòng)思考大模型。這款模型是團(tuán)隊(duì)針對(duì)當(dāng)前深度思考大模型普遍存在的“過(guò)度思考”問(wèn)題,進(jìn)行深入研究后取得的成果。
為了解決這一問(wèn)題,Kwaipilot團(tuán)隊(duì)提出了一種創(chuàng)新的自動(dòng)思考模型訓(xùn)練范式,并基于傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法GRPO,進(jìn)一步研發(fā)了帶有過(guò)程監(jiān)督的強(qiáng)化學(xué)習(xí)方法Step-SRPO。這一新方法旨在提升模型在復(fù)雜任務(wù)中的表現(xiàn),使其能夠更加智能地應(yīng)對(duì)各種挑戰(zhàn)。
KwaiCoder-AutoThink-preview模型的最大特點(diǎn)在于,它融合了“思考”與“非思考”兩種能力,被形象地稱為“DeepSeek-V3 & R1 合體”。這款模型能夠根據(jù)問(wèn)題的難易程度,自動(dòng)切換思考形態(tài),從而在不同類(lèi)型的任務(wù)中展現(xiàn)出卓越的性能。在多個(gè)評(píng)測(cè)榜單上,這款模型在“思考”和“非思考”模式下均取得了顯著的性能提升,特別是在代碼和數(shù)學(xué)類(lèi)任務(wù)上,自動(dòng)思考模式下的模型得分提高了近20分。
值得注意的是,即使在未開(kāi)啟思考模式的情況下,這款模型也展現(xiàn)出了不俗的性能。這得益于其更優(yōu)的推理形態(tài),使得模型在部分榜單中的性能有了小幅度的提升。這一發(fā)現(xiàn)無(wú)疑為深度學(xué)習(xí)領(lǐng)域帶來(lái)了新的啟示,也展示了Kwaipilot團(tuán)隊(duì)在技術(shù)研發(fā)方面的深厚實(shí)力。
據(jù)快手技術(shù)團(tuán)隊(duì)介紹,他們將繼續(xù)基于preview版本模型進(jìn)行研發(fā),進(jìn)一步增強(qiáng)其推理能力和支持更完善的思考中工具使用能力。同時(shí),他們也承諾將全部技術(shù)細(xì)節(jié)和訓(xùn)練方法開(kāi)源,為深度學(xué)習(xí)領(lǐng)域的研究者提供更多的參考和借鑒。這一舉措無(wú)疑將推動(dòng)深度學(xué)習(xí)技術(shù)的進(jìn)一步發(fā)展,為人工智能領(lǐng)域的創(chuàng)新注入新的活力。