據(jù)科技媒體 marktechpost 發(fā)布消息,英偉達聯(lián)合推出了 Nemotron-Research-Tool-N1 系列模型。該系列受 DeepSeek-R1 啟發(fā),采用新型強化學習(RL)范式,旨在強化模型的推理能力,為大型語言模型(LLMs)運用外部工具帶來新突破。
當下,借助外部工具提升 LLMs 性能成為熱門趨勢,這些工具助力 LLMs 在搜索引擎、計算器、視覺工具及 Python 解釋器等領域表現(xiàn)優(yōu)異。然而,現(xiàn)有研究多依賴合成數(shù)據(jù)集,難以捕捉清晰推理步驟,致使模型僅能模仿表面模式,無法真正理解決策流程。
為提升 LLMs 運用工具的能力,過往方法主要從兩方面探索:一是進行數(shù)據(jù)集整理和模型優(yōu)化,研究者創(chuàng)建大規(guī)模監(jiān)督數(shù)據(jù)集,運用監(jiān)督微調(SFT)和直接偏好優(yōu)化(DPO)強化學習等技術,將 LLMs 與外部工具整合以拓展功能;二是改進推理過程,從傳統(tǒng)訓練時擴展轉變?yōu)闇y試時采用復雜策略,早期方法依靠步驟級監(jiān)督和學習獎勵模型來引導推理軌跡。但這些方法受限于合成數(shù)據(jù),LLMs 雖能處理單輪或多輪工具調用,卻缺乏自主推理深度。
有鑒于此,英偉達聯(lián)合賓夕法尼亞州立大學、華盛頓大學組建專業(yè)團隊,開發(fā) Nemotron-Research-Tool-N1 系列模型。該系列針對現(xiàn)有局限,借鑒 DeepSeek-R1 的成功經(jīng)驗,開發(fā)出輕量級監(jiān)督機制,著重關注工具調用的結構有效性與功能正確性。它不依賴顯式標注的推理軌跡,而是采用二元獎勵機制,促使模型自主發(fā)展推理策略。
研究者統(tǒng)一處理了 xLAM 和 ToolACE 等數(shù)據(jù)集的子集,設計輕量級提示模板指導工具生成過程。模板利用...標簽指示中間推理,<tool_call>...</tool_call > 標簽封裝工具調用,避免模型過度擬合特定提示模式。以 Qwen2.5-7B / 14B 為主干模型,并對 LLaMA 系列變體展開測試以評估泛化能力。在 BFCL 基準測試中,Nemotron-Research-Tool-N1-7B/14B 模型表現(xiàn)卓越,超越了 GPT-4o 等封閉源模型,以及 xLAM-2-70B 和 ToolACE-8B 等專用微調模型。與相同數(shù)據(jù)源的 SFT 基準相比,優(yōu)勢顯著,在 API-Bank 基準上,Tool-N1-7B / 14B 的準確率分別比 GPT-4o 高出 4.12% 和 5.03%,有力驗證了新 RL 范式幫助 LLMs 自主生成推理策略的潛力 。

來【龍頭AI網(wǎng)】了解最新AI資訊!