6 月 6 日消息,阿里巴巴宣布開(kāi)源 Qwen3-Embedding 系列模型,包括 Embedding 及 Reranker,該系列模型基于 Qwen3 基礎(chǔ)模型訓(xùn)練,專為文本表征、檢索與排序任務(wù)而打造。
在多項(xiàng)基準(zhǔn)測(cè)試中,Qwen3-Embedding 系列展現(xiàn)出了卓越性能。其泛化性尤為突出,8B 參數(shù)規(guī)模的 Embedding 模型在 MTEB 多語(yǔ)言 Leaderboard 榜單中位居首位(截至 2025 年 6 月 6 日,得分 70.58),性能超越眾多商業(yè) API 服務(wù)。排序模型在各類(lèi)文本檢索場(chǎng)景中表現(xiàn)優(yōu)異,顯著提升了搜索結(jié)果的相關(guān)性,在多個(gè)下游任務(wù)評(píng)估中達(dá)到行業(yè)領(lǐng)先水平。
該系列具備靈活的模型架構(gòu),提供 0.6B、1.7B、8B 三種參數(shù)規(guī)模的模型配置,開(kāi)發(fā)者可依據(jù)不同場(chǎng)景下對(duì)性能與效率的需求,靈活選用并組合表征與排序模塊,輕松實(shí)現(xiàn)功能擴(kuò)展。同時(shí),模型支持定制化特性,允許用戶自定義表征維度,降低應(yīng)用成本;還能通過(guò)自定義指令模板,提升特定任務(wù)、語(yǔ)言或場(chǎng)景下的性能。
值得一提的是,Qwen3-Embedding 系列對(duì)多語(yǔ)言的支持極為全面,涵蓋超過(guò) 100 種語(yǔ)言,其中既包含主流自然語(yǔ)言,也囊括多種編程語(yǔ)言。這使其具備強(qiáng)大的多語(yǔ)言、跨語(yǔ)言及代碼檢索能力,能夠有效處理多語(yǔ)言場(chǎng)景下的數(shù)據(jù),滿足復(fù)雜的數(shù)據(jù)處理需求。
從運(yùn)行機(jī)制來(lái)看,Embedding 模型接收單段文本輸入,以模型最后一層「EOS」標(biāo)記對(duì)應(yīng)的隱藏狀態(tài)向量作為輸入文本的語(yǔ)義表示;Reranker 模型則接收文本對(duì)(如用戶查詢與候選文檔),借助單塔結(jié)構(gòu)計(jì)算并輸出兩個(gè)文本的相關(guān)性得分。
阿里開(kāi)源的 Qwen3-Embedding 系列模型,為相關(guān)領(lǐng)域開(kāi)發(fā)者提供了有力工具,有望推動(dòng)文本處理及多語(yǔ)言應(yīng)用等領(lǐng)域進(jìn)一步發(fā)展 。
來(lái)【龍頭AI網(wǎng)】了解最新AI資訊!
暫無(wú)評(píng)論
發(fā)表評(píng)論