小紅書,這家以“種草”文化著稱的社交平臺,近期在AI技術自研領域邁出了重要步伐,連續兩個月內發布了三款開源模型,引起了業界的廣泛關注。最新亮相的多模態大模型dots.vlm1,憑借其強大的視覺理解和推理能力,展現了接近Gemini 2.5 Pro閉源模型的實力。
在競爭激烈的AI領域,各大科技公司紛紛推出自家模型,OpenAI的Claude升級至4.1版本,谷歌則推出了用于生成游戲世界的Genie 3,引發社區熱議。國產模型也不甘示弱,HuggingFace平臺上的前十名開源模型中,已有多個來自國內團隊。然而,仔細觀察這些排名靠前的模型,不難發現,大多數仍為文本模型,缺乏多模態能力。
小紅書的人文智能實驗室(Humane Intelligence Lab,簡稱hi lab)近日低調開源了其首個多模態大模型dots.vlm1,為視覺語言模型(VLM)領域帶來了新氣象。這款模型基于小紅書自研的12億參數NaViT視覺編碼器和DeepSeek V3大語言模型構建,不僅在視覺理解和推理任務上表現出色,還保持了純文本任務中的競爭力。
hi lab此前開源的dots.ocr文檔解析模型已在Huggingface平臺上獲得熱榜第七的好成績,盡管其基礎模型參數僅為17億,但性能卻達到了業界領先水平。這一成就顯示了hi lab團隊在AI技術自研方面的認真態度和強大實力。
dots.vlm1在多個視覺評測集上的表現接近當前領先的Gemini 2.5 Pro與Seed-VL1.5 Thinking模型,顯示出強大的圖文理解與推理能力。在文本推理任務上,dots.vlm1的表現與DeepSeek-R1-0528相當,盡管在數學和代碼能力上已具備一定的通用性,但在更多樣化的推理任務上仍有提升空間。
在實際測試中,dots.vlm1展現了令人驚艷的能力。面對復雜圖表和數獨問題,模型能夠逐步分析并給出正確答案,甚至在長時間思考過程中出現了類似DeepSeek的“啊哈時刻”,體現了其真正的思考和推理能力。dots.vlm1還能解決紅綠色盲數字問題,進行數學計算,甚至模仿李白詩風創作詩詞,展現了其全面的多模態能力。
dots.vlm1的技術架構由三個核心組件構成:全自研的NaViT視覺編碼器、輕量級的MLP適配器以及DeepSeek V3 MoE大語言模型。這一架構通過三階段流程進行訓練,包括視覺編碼器預訓練、VLM預訓練和VLM后訓練,旨在提升模型對多樣視覺數據的感知能力和泛化能力。
NaViT視覺編碼器是dots.vlm1的核心之一,它完全從零開始訓練,原生支持動態分辨率,專為視覺語言模型設計。通過兩階段的訓練策略,NaViT編碼器在基礎視覺和語義感知以及高分辨率輸入處理方面均表現出色。
在預訓練數據方面,hi lab為dots.vlm1準備了跨模態互譯數據和跨模態融合數據兩大類別,旨在構建一個全譜系的數據分布,覆蓋所有可被人類理解且可轉化為離散token序列的視覺信息。這些數據包括普通圖像、復雜圖表、OCR場景圖像、視頻幀以及Grounding監督數據等,為模型的多模態能力提供了有力支持。
小紅書之所以在AI大模型領域加大自研力度,是因為多模態能力已成為通向通用人工智能(AGI)的必經之路。通過模擬人類利用多種感官綜合感知世界的方式,多模態AI能夠形成更全面、細致的理解,對復雜場景作出更整體化的判斷。在自動駕駛、具身智能等領域,VLM正成為機器人理解和融入人類社會的重要工具。
小紅書hi lab在AI技術自研上的決心和投入不僅體現在dots.vlm1上,還體現在其不斷壯大的dots模型家族中。從dots.llm1到dots.ocr再到dots.vlm1,小紅書正逐步構建起自己的AI技術生態。未來,隨著AI技術的不斷發展,小紅書有望在內容理解、個性化推薦以及社區交互等方面實現更多創新應用。