新加坡國立大學(xué)、清華大學(xué)和 Salesforce AI Research 的研究者們,提出了一項名為 “元能力對齊” 的創(chuàng)新性訓(xùn)練框架,旨在解決 AI 在復(fù)雜問題推理中穩(wěn)定性不足的難題,賦予模型可靠且可控的推理能力。
在運用純強化學(xué)習(xí)訓(xùn)練大模型時,會出現(xiàn) “啊哈時刻”,即模型偶然展現(xiàn)出如自我糾正、回溯和驗證等高級推理行為,DeepSeek - R1 便是例證。但這些行為的出現(xiàn)頻率與一致性難以預(yù)測和掌控,嚴重限制了大模型推理能力的拓展與可靠性。
為突破這一困境,研究者借鑒心理學(xué)家皮爾斯提出的經(jīng)典推理三元組理論,將人類推理能力拆分為假設(shè)、觀察和規(guī)則三個組件,兩兩組合可得出第三個組件?;诖?,他們構(gòu)建程序自動生成演繹、歸納、溯因這三類推理的訓(xùn)練實例,對大模型輸出結(jié)果自動驗證。生成的任務(wù)由常見數(shù)據(jù)組合而成,卻不在原訓(xùn)練數(shù)據(jù)集中,以此訓(xùn)練模型的元推理能力。
舉例而言,演繹推理中,模型依據(jù)給定的邏輯規(guī)則和假設(shè),驗證觀察結(jié)果是否成立;歸納推理時,模型基于可觀察項和不完整輸入,抽象出底層生成規(guī)則;溯因推理里,模型根據(jù)觀察結(jié)果和規(guī)則圖,反向追蹤得出能解釋結(jié)論的最小隱藏假設(shè)集。每個訓(xùn)練實例由自動化生成器產(chǎn)出,并經(jīng)驗證器篩選,全程無需人工標注,即可生成大規(guī)模、自我校驗的訓(xùn)練數(shù)據(jù)。
該框架下的大模型類似混合專家模型架構(gòu),不同推理類型的 “專家” 利用訓(xùn)練數(shù)據(jù)提升各自能力。演繹推理 “專家” 能進行假設(shè)生成、邏輯推論傳播等;歸納專家增強模型抽象與泛化能力;溯因?qū)<覄t以目標為導(dǎo)向,高效進行假設(shè)形成、驗證和修訂。之后,研究者通過參數(shù)空間融合合并這些專家,并在數(shù)學(xué)、編程和社交互動場景中,分別運用強化學(xué)習(xí)訓(xùn)練專家模型,再融合訓(xùn)練好的模型。
研究針對任務(wù)難度分級,采用循序漸進策略訓(xùn)練模型。實驗結(jié)果顯示,相比指令微調(diào)基線(Qwen - 2.5),基于元能力對齊的訓(xùn)練方法,使模型在數(shù)學(xué)、編程和科學(xué)問題的 7 個未見基準測試上,準確率提升超 10%,經(jīng)特定領(lǐng)域強化學(xué)習(xí)后增益更明顯。在 7B 和 32B 規(guī)模下,該模型表現(xiàn)均優(yōu)于指令微調(diào)基線模型,尤其在數(shù)學(xué)任務(wù)上,合并三種推理模式后,模型性能提升 11.1%。這表明此框架為提升 AI 在多領(lǐng)域的推理能力,提供了可擴展、可推廣且可控的有效途徑。
來【龍頭AI網(wǎng)】了解最新AI資訊!
暫無評論
發(fā)表評論