本站6月6日消息,阿里正式開源了通義千問3全新的向量模型系列Qwen3-Embedding(簡稱千問3向量模型)。
該模型以千問3為底座,專門為文本表征、檢索和排序等核心任務進行優化訓練,相較于上一個版本,在文本檢索、聚類、分類等核心任務上提升最高40%以上的性能。
在MTEB等專項榜單中,Qwen3-Embedding-8B超越谷歌的Gemini Embedding 、Open AI的 text-embedding-3-large及微軟的multilingual-e5-large-instruct等頂尖模型,拿下同類模型的最佳性能SOTA。
向量模型可以看做是AI的“翻譯器”,它可以將文本、圖片等非結構化信息,映射(embedding)到機器更易理解的向量空間,再基于這些向量實現高效的信息分類、檢索或排序。
基于千問3模型,通義團隊通過對比訓練、SFT、模型融合等方法,打造出全新的千問3向量模型,包含文本嵌入模型Qwen3-Embedding 以及文本排序模型Qwen3-Reranker。
同時,得益于千問3的多語言能力,千問3向量模型系列率先支持超100種語言,并涵蓋多種編程語言,可實現強大的多語言、跨語言及代碼檢索能力。
此次共有9款千問3向量模型開源,涵蓋0.6B、4B 、8B等不同尺寸及GGUF版本,開發者可從中找到最符合需求的模型,自由組合模塊,還可自定義向量或指令,實現特定任務、語言和場景的深度優化。
目前,千問3 Embedding和Reranker模型均已在魔搭社區、 Hugging Face和GitHub等平臺上開源,開發者也可直接通過阿里云百煉使用API服務。
據了解,千問3大模型自4月29日開源以來,已攬獲Artificial Analysis、LiveBench、LiveCodeBench、SuperClue多個榜單的全球開源冠軍。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。