近日,面壁智能公司正式揭曉了其最新研發成果——端側大模型MiniCPM 4.0,這一發布在科技圈內引起了廣泛關注。據官方消息,該模型在6月6日晚間正式亮相,通過其自主研發的CPM.cu推理框架,實現了前所未有的性能提升。
此次發布的MiniCPM 4.0系列包含兩款不同規格的LLM模型,分別為8B和0.5B參數規模。其中,8B版本被命名為“閃電稀疏版”,采用了創新的稀疏架構,旨在提供高效且強大的處理能力。而0.5B版本則以其小巧靈活著稱,被形象地稱為“最強小小鋼炮”。
面壁智能在解決長、短文本處理難題上取得了顯著進展。MiniCPM 4.0-8B版本引入了“高效雙頻換擋”機制,能夠根據任務特性自動調整注意力模式。在處理復雜的長文本和深度思考任務時,該模型會啟用稀疏注意力模式以降低計算成本;而在處理短文本時,則切換至稠密注意力模式,以確保結果的準確性。這一機制使得MiniCPM 4.0在長、短文本處理之間切換自如,實現了高效響應。
MiniCPM 4.0還憑借其內置的CPM.cu推理框架,在模型壓縮、量化以及端側部署等方面實現了重大創新。據官方介紹,這些創新使得模型體積縮小了90%,同時提升了運行速度。特別是在極限場景下,MiniCPM 4.0的推理速度甚至達到了之前的220倍,而在常規場景下也有5倍的提升。這一突破性的性能提升,使得MiniCPM 4.0在端側推理領域具備了顯著的競爭優勢。
MiniCPM 4.0還支持在多個開源框架上部署,包括vLLM、SGLang、LlamaFactory和XTuner等。這一兼容性使得用戶能夠根據自己的需求選擇合適的框架,進一步拓展了MiniCPM 4.0的應用場景。