據(jù)科技媒體 marktechpost 發(fā)布消息,英偉達(dá)聯(lián)合推出了 Nemotron-Research-Tool-N1 系列模型。該系列受 DeepSeek-R1 啟發(fā),采用新型強(qiáng)化學(xué)習(xí)(RL)范式,旨在強(qiáng)化模型的推理能力,為大型語(yǔ)言模型(LLMs)運(yùn)用外部工具帶來(lái)新突破。
當(dāng)下,借助外部工具提升 LLMs 性能成為熱門(mén)趨勢(shì),這些工具助力 LLMs 在搜索引擎、計(jì)算器、視覺(jué)工具及 Python 解釋器等領(lǐng)域表現(xiàn)優(yōu)異。然而,現(xiàn)有研究多依賴(lài)合成數(shù)據(jù)集,難以捕捉清晰推理步驟,致使模型僅能模仿表面模式,無(wú)法真正理解決策流程。
為提升 LLMs 運(yùn)用工具的能力,過(guò)往方法主要從兩方面探索:一是進(jìn)行數(shù)據(jù)集整理和模型優(yōu)化,研究者創(chuàng)建大規(guī)模監(jiān)督數(shù)據(jù)集,運(yùn)用監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)強(qiáng)化學(xué)習(xí)等技術(shù),將 LLMs 與外部工具整合以拓展功能;二是改進(jìn)推理過(guò)程,從傳統(tǒng)訓(xùn)練時(shí)擴(kuò)展轉(zhuǎn)變?yōu)闇y(cè)試時(shí)采用復(fù)雜策略,早期方法依靠步驟級(jí)監(jiān)督和學(xué)習(xí)獎(jiǎng)勵(lì)模型來(lái)引導(dǎo)推理軌跡。但這些方法受限于合成數(shù)據(jù),LLMs 雖能處理單輪或多輪工具調(diào)用,卻缺乏自主推理深度。
有鑒于此,英偉達(dá)聯(lián)合賓夕法尼亞州立大學(xué)、華盛頓大學(xué)組建專(zhuān)業(yè)團(tuán)隊(duì),開(kāi)發(fā) Nemotron-Research-Tool-N1 系列模型。該系列針對(duì)現(xiàn)有局限,借鑒 DeepSeek-R1 的成功經(jīng)驗(yàn),開(kāi)發(fā)出輕量級(jí)監(jiān)督機(jī)制,著重關(guān)注工具調(diào)用的結(jié)構(gòu)有效性與功能正確性。它不依賴(lài)顯式標(biāo)注的推理軌跡,而是采用二元獎(jiǎng)勵(lì)機(jī)制,促使模型自主發(fā)展推理策略。
研究者統(tǒng)一處理了 xLAM 和 ToolACE 等數(shù)據(jù)集的子集,設(shè)計(jì)輕量級(jí)提示模板指導(dǎo)工具生成過(guò)程。模板利用...標(biāo)簽指示中間推理,<tool_call>...</tool_call > 標(biāo)簽封裝工具調(diào)用,避免模型過(guò)度擬合特定提示模式。以 Qwen2.5-7B / 14B 為主干模型,并對(duì) LLaMA 系列變體展開(kāi)測(cè)試以評(píng)估泛化能力。在 BFCL 基準(zhǔn)測(cè)試中,Nemotron-Research-Tool-N1-7B/14B 模型表現(xiàn)卓越,超越了 GPT-4o 等封閉源模型,以及 xLAM-2-70B 和 ToolACE-8B 等專(zhuān)用微調(diào)模型。與相同數(shù)據(jù)源的 SFT 基準(zhǔn)相比,優(yōu)勢(shì)顯著,在 API-Bank 基準(zhǔn)上,Tool-N1-7B / 14B 的準(zhǔn)確率分別比 GPT-4o 高出 4.12% 和 5.03%,有力驗(yàn)證了新 RL 范式幫助 LLMs 自主生成推理策略的潛力 。
來(lái)【龍頭AI網(wǎng)】了解最新AI資訊!
暫無(wú)評(píng)論
發(fā)表評(píng)論