時(shí)間,這一日常生活中再基礎(chǔ)不過的概念,對于大語言模型(LLM)而言,卻成為難以跨越的理解障礙。由于訓(xùn)練語料庫的靜態(tài)性,存在知識截?cái)鄷r(shí)間,且在非時(shí)間順序的語料訓(xùn)練中,模型難以在事件與對應(yīng)時(shí)間間建立可靠邏輯映射,即便現(xiàn)有時(shí)間對齊、外部知識庫等方法,也無法實(shí)現(xiàn)全鏈路突破。

3B 小模型 Time-R1 突破大模型時(shí)間理解難題,性能超越 DeepSeek.jpg

如今,伊利諾伊大學(xué)香檳分校研究人員帶來新突破,發(fā)布 Time-R1 模型。令人驚嘆的是,它基于僅 3B 的小模型,通過三階段課程強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)對過去的理解、未來的預(yù)測以及創(chuàng)造性生成的大一統(tǒng)。


Time-R1 的實(shí)現(xiàn)分為三個(gè)階段:第一階段通過時(shí)間戳推理、時(shí)間差計(jì)算、事件排序、時(shí)間實(shí)體補(bǔ)全等四個(gè)子任務(wù)強(qiáng)化微調(diào),構(gòu)建時(shí)間認(rèn)知基礎(chǔ);第二階段在隔離未來數(shù)據(jù)前提下,基于第一階段模型繼續(xù)微調(diào),訓(xùn)練預(yù)測未來能力;第三階段則直接進(jìn)行零樣本創(chuàng)意生成,推演未來場景。


Time-R1 成功的關(guān)鍵,在于精心打磨的獎(jiǎng)勵(lì)機(jī)制。研究人員為每個(gè)子任務(wù)定制了超 1200 行代碼的獎(jiǎng)勵(lì)函數(shù),涵蓋通用獎(jiǎng)懲設(shè)計(jì),如格式遵循獎(jiǎng)勵(lì)、標(biāo)簽結(jié)構(gòu)獎(jiǎng)勵(lì)、長度與重復(fù)懲罰等,以及針對各任務(wù)特性的精準(zhǔn)獎(jiǎng)勵(lì)。例如,時(shí)間戳推斷獎(jiǎng)勵(lì)基于推斷日期與真實(shí)日期差距的指數(shù)衰減函數(shù),并動(dòng)態(tài)調(diào)整;時(shí)間差估計(jì)綜合事件日期與時(shí)間差準(zhǔn)確性,引入不一致性懲罰;事件排序考慮日期推斷與排序準(zhǔn)確性,設(shè)置不一致性和多樣性懲罰;掩碼時(shí)間實(shí)體補(bǔ)全綜合日期與實(shí)體補(bǔ)全準(zhǔn)確性,對月份計(jì)算 “循環(huán)差異”。此外,第一階段還引入動(dòng)態(tài)獎(jiǎng)勵(lì)機(jī)制,依據(jù)任務(wù)難度和訓(xùn)練進(jìn)程,動(dòng)態(tài)調(diào)整日期準(zhǔn)確性獎(jiǎng)勵(lì)部分的衰減系數(shù) α,助力模型 “冷啟動(dòng)”。


實(shí)驗(yàn)結(jié)果令人矚目,Time-R1 (3B) 在第一階段基礎(chǔ)時(shí)間理解任務(wù)綜合表現(xiàn)超越參數(shù)量超其 200 倍的 DeepSeek-V3-0324 模型。后續(xù)訓(xùn)練中,在未來事件時(shí)間預(yù)測、創(chuàng)造性場景生成任務(wù)上,Time-R1 也領(lǐng)先多數(shù)基線模型,展現(xiàn)強(qiáng)大泛化能力。


這一成果標(biāo)志著大模型在時(shí)間推理能力上取得重大進(jìn)展,為實(shí)現(xiàn)真正具備時(shí)間意識的人工智能提供實(shí)用且可擴(kuò)展路徑。目前,研究團(tuán)隊(duì)已全面開源,發(fā)布 Time-Bench 大型多任務(wù)時(shí)間推理數(shù)據(jù)集、Time-R1 完整訓(xùn)練代碼及各階段模型檢查點(diǎn),推動(dòng)相關(guān)研究進(jìn)一步發(fā)展 。

來【龍頭AI網(wǎng)】了解最新AI資訊!