DeepSeek最新提出的SPCT(Self-Principled Critique Tuning,自我原則化批判調優(yōu))技術通過以下創(chuàng)新機制顯著提升了獎勵模型的通用性

DM_20250411104543_009.jpg

一、動態(tài)原則生成機制

SPCT突破傳統(tǒng)獎勵模型的靜態(tài)評價框架,讓模型學會根據具體任務動態(tài)生成評價原則。這種"在線立法"能力體現在:

  1. 原則自進化:模型通過兩階段訓練(拒絕式微調+在線規(guī)則強化學習),逐步掌握根據不同輸入自動生成適配評價標準的能力。例如在創(chuàng)意寫作任務中,會生成"敘事連貫性""情感共鳴度"等原則權重,而在代碼生成任務中則側重"語法正確率""執(zhí)行效率"。

  2. 權重動態(tài)分配:通過注意力機制,模型能自動調節(jié)不同原則的權重占比。實驗顯示,在處理倫理困境問題時,"安全性"原則權重可達42%,遠超常規(guī)任務的15%基準。

二、推理時擴展架構

SPCT引入的生成式獎勵建模(GRM)范式支持:

  1. 多視角采樣:對同一輸入進行多次獨立采樣,生成差異化的評價原則和批判分析。例如生成5組不同原則側重(如技術準確性30%、可解釋性25%等),通過投票機制降低單次判斷偏差。

  2. 元獎勵過濾:增設的輕量級標量獎勵模型(Meta RM)會評估每次采樣的質量,僅保留置信度高于0.7的優(yōu)質結果參與最終決策,有效規(guī)避16.3%的低質量采樣干擾。

三、統(tǒng)一評價框架

相較于傳統(tǒng)方法,SPCT實現三大突破:

  1. 輸入兼容性:支持單回答評分(pointwise)、多回答對比(pairwise)、群體排序(listwise)等多種評估模式。測試顯示,在1000條多模態(tài)輸入(含文本/代碼/數學公式)中的處理準確率達92.7%。

  2. 跨領域遷移:通過語義森林(365個分類節(jié)點)構建的通用原則庫,使模型在未見領域(如法律文書生成)的評估準確率提升至78.4%,較傳統(tǒng)方法提高31%。

  3. 可解釋增強:生成的批判文本平均包含3.2個具體改進建議,如"建議在第三段增加過渡句以提升邏輯連貫性",顯著優(yōu)于傳統(tǒng)標量評分。

    DM_20250411104543_010.jpg

四、技術效果驗證

在RewardBench、RMB等基準測試中,基于SPCT訓練的DeepSeek-GRM-27B模型: ? 在創(chuàng)意寫作評估中超越GPT-4o 7.2個百分點 ? 處理倫理困境類問題的評分一致性提高42% ? 推理時采樣3次的成本僅增加17%,但性能提升達28%

這項技術突破為構建真正通用的AI評估體系奠定基礎,未來或將推動醫(yī)療診斷、法律文書審核等專業(yè)領域的智能化進程。目前DeepSeek已公開論文并承諾將開源模型權重,開發(fā)者可通過Hugging Face平臺體驗該技術。