近日,小紅書在大模型領(lǐng)域扔下 “重磅炸彈”,其首次開源的大模型 dots.llm1 正式亮相,迅速引發(fā)行業(yè)關(guān)注。
dots.llm1 為 1420 億參數(shù)的 MoE(混合專家)模型,推理時僅激活 140 億參數(shù),卻在性能上與阿里 Qwen3-32B 接近,在中英文、數(shù)學(xué)、對齊等任務(wù)中表現(xiàn)不俗。尤為亮眼的是,在中文表現(xiàn)方面,該模型在 C-Eval 測試中斬獲 92.2 分,超越包括 DeepSeek-V3 在內(nèi)的一眾模型,CLUEWSC 測試也獲得 92.6 分,達到行業(yè)領(lǐng)先的中文語義理解水平。
數(shù)據(jù)是小紅書開源大模型的一大亮點。dots.llm1.ins 預(yù)訓(xùn)練階段使用了 11.2 萬億非合成數(shù)據(jù),來自通用爬蟲與自有爬蟲抓取的 Web 數(shù)據(jù)。為產(chǎn)出高質(zhì)量、多樣化數(shù)據(jù),小紅書 hi lab 團隊提出可擴展、細粒度的三階段數(shù)據(jù)處理框架,其 Web 雜亂清除模型能有效清理樣板、重復(fù)內(nèi)容,類別平衡方法則優(yōu)化了 Web 數(shù)據(jù)比例,增加知識類內(nèi)容占比。經(jīng)處理的數(shù)據(jù)質(zhì)量顯著優(yōu)于開源 Txt360 數(shù)據(jù)。
在模型架構(gòu)上,dots.llm1 采用僅限解碼器的 Transformer 架構(gòu),以 MoE 層替換 FFN。注意力層使用普通多頭注意力機制,MoE 層含 128 個路由專家和 2 個共享專家,均以 SwiGLU 激活實現(xiàn)為兩層 FFN。訓(xùn)練時采用輔助無損方法與序列平衡損失,保障負載均衡。參數(shù)設(shè)置上,模型共 62 層,首層為普通密集 FFN,后續(xù)層為 MoE,使用 AdamW 優(yōu)化器,預(yù)訓(xùn)練最大序列長度設(shè)為 8k,經(jīng)退火階段后擴展至 32k。
后訓(xùn)練階段,團隊基于約 400k 指令調(diào)優(yōu)實例對模型監(jiān)督微調(diào),涵蓋多語言對話、知識問答、指令跟隨、數(shù)學(xué)編碼推理等領(lǐng)域。微調(diào)分兩階段,先對實例上采樣、多會話連接后微調(diào) 2 個 epoch,再通過拒絕采樣微調(diào)結(jié)合驗證器系統(tǒng),強化數(shù)學(xué)、編碼等特定領(lǐng)域能力。
小紅書通過 dots.llm1,展現(xiàn)出利用高效設(shè)計與高質(zhì)量數(shù)據(jù)拓展大模型能力邊界的決心。此次開源,不僅為開發(fā)者提供了新的選擇,也為大模型開源社區(qū)注入新活力,未來其在實際應(yīng)用中的表現(xiàn),值得持續(xù)關(guān)注。
來【龍頭AI網(wǎng)】了解最新AI資訊!
暫無評論
發(fā)表評論