阿里通義團隊近日宣布了一項重要開源成果——通義千問3向量模型系列Qwen3-Embedding(簡稱千問3向量模型)。這一全新系列模型的推出,標志著阿里在AI技術領域的又一次重大突破。
千問3向量模型以千問3大模型為基礎,經過精心優化訓練,專門針對文本表征、檢索和排序等核心任務。相較于前代模型,新模型在文本檢索、聚類、分類等關鍵性能指標上實現了顯著提升,部分提升幅度高達40%以上。這一改進無疑將為用戶帶來更加高效、準確的文本處理體驗。
在業界知名的MTEB等專項榜單中,千問3向量模型表現搶眼。其中,Qwen3-Embedding-8B模型更是力壓群雄,超越了谷歌的Gemini Embedding、OpenAI的text-embedding-3-large以及微軟的multilingual-e5-large-instruct等頂尖模型,成功奪得同類模型的最佳性能SOTA稱號。這一榮譽不僅是對千問3向量模型實力的認可,也是阿里在AI領域深厚技術底蘊的體現。
向量模型作為AI的“翻譯器”,扮演著將非結構化信息(如文本、圖片等)轉化為機器更易理解的向量空間的重要角色。基于這一原理,千問3向量模型能夠實現對信息的高效分類、檢索和排序。為了滿足不同用戶的需求,通義團隊通過對比訓練、SFT、模型融合等多種方法,精心打造出包含文本嵌入模型Qwen3-Embedding和文本排序模型Qwen3-Reranker在內的全新千問3向量模型系列。
得益于千問3大模型的多語言能力,千問3向量模型系列也具備了強大的多語言、跨語言及代碼檢索能力。目前,該系列模型已率先支持超過100種語言,并涵蓋多種編程語言,為用戶提供了更加便捷、高效的跨語言信息檢索服務。
此次開源的千問3向量模型系列共包含9款不同尺寸的模型,包括0.6B、4B、8B等多種規格,以及GGUF版本。開發者可以根據自己的需求選擇合適的模型,并自由組合模塊,甚至自定義向量或指令,以實現特定任務、語言和場景的深度優化。這一靈活性無疑將大大拓寬千問3向量模型的應用場景和范圍。
目前,千問3 Embedding和Reranker模型均已在魔搭社區、Hugging Face和GitHub等平臺上開源。開發者可以直接通過這些平臺獲取模型資源,并利用阿里云百煉提供的API服務進行開發和應用。這一舉措無疑將大大降低開發者的門檻,推動AI技術的普及和應用。
自4月29日千問3大模型開源以來,該模型已在Artificial Analysis、LiveBench、LiveCodeBench、SuperClue等多個榜單上奪得全球開源冠軍。這一連串的榮譽不僅彰顯了千問3大模型的強大實力,也預示著阿里在AI領域將持續保持領先地位。