如何讓 AI 在 3D 環(huán)境中如人類(lèi)般思考,一直是具身智能領(lǐng)域亟待攻克的難題。如今,加州大學(xué)洛杉磯分校(UCLA)與谷歌研究院的聯(lián)合研究團(tuán)隊(duì)取得重大突破,研發(fā)出 3DLLM - MEM 模型與 3DMEM - BENCH 基準(zhǔn),首次賦予 AI 在復(fù)雜 3D 環(huán)境中構(gòu)建、維護(hù)和運(yùn)用長(zhǎng)時(shí)記憶的能力。

3DLLM - MEM 模型與 3DMEM - BENCH 基準(zhǔn).jpg

人類(lèi)能在陌生房屋里,依靠強(qiáng)大的空間 - 時(shí)間長(zhǎng)時(shí)記憶,記住房間物品特征與位置關(guān)系,據(jù)此完成任務(wù)。反觀現(xiàn)有大語(yǔ)言模型(LLMs),雖在文本理解方面表現(xiàn)出色,但面對(duì)動(dòng)態(tài) 3D 環(huán)境卻困難重重。在多房間任務(wù)中,模型常因無(wú)法關(guān)聯(lián)不同時(shí)空觀察、缺失空間表征,以及難以動(dòng)態(tài)管理環(huán)境變化導(dǎo)致的記憶過(guò)時(shí)等問(wèn)題,致使任務(wù)失敗。究其根本,是缺乏針對(duì) 3D 空間 - 時(shí)間的記憶建模。


為解決這一困境,研究團(tuán)隊(duì)構(gòu)建了 3DMEM - BENCH,這是首個(gè) 3D 長(zhǎng)時(shí)記憶評(píng)估基準(zhǔn)。其規(guī)模龐大且任務(wù)多樣,涵蓋 26,000 + 軌跡、1,860 個(gè)具身任務(wù),涉及從簡(jiǎn)單物品收集到復(fù)雜跨房間推理,覆蓋 182 個(gè) 3D 場(chǎng)景(平均每個(gè)場(chǎng)景 18 個(gè)房間)。該基準(zhǔn)從具身任務(wù)、時(shí)空問(wèn)答(EQA)、場(chǎng)景描述等多維度進(jìn)行評(píng)估,任務(wù)難度分簡(jiǎn)單、中等、困難,并設(shè)有 “野外挑戰(zhàn)”,用于考察模型泛化能力,與以往基準(zhǔn)相比,首次聚焦 “長(zhǎng)時(shí)記憶” 與 “3D 空間理解” 結(jié)合。


同時(shí),研究團(tuán)隊(duì)提出由雙記憶系統(tǒng)驅(qū)動(dòng)的具身智能體 ——3DLLM - MEM 模型。該模型借鑒人類(lèi)認(rèn)知結(jié)構(gòu),擁有工作記憶存儲(chǔ)當(dāng)前觀察,情景記憶以密集 3D 表征留存歷史觀察與交互,二者通過(guò)記憶融合模塊,利用注意力機(jī)制,依據(jù)任務(wù)選擇性提取情景記憶特征,避免記憶過(guò)載又保障關(guān)鍵信息留存。并且,模型具備動(dòng)態(tài)更新機(jī)制,環(huán)境變化時(shí)自動(dòng)同步記憶。


實(shí)驗(yàn)數(shù)據(jù)顯示,在 3DMEM - BENCH 上,3DLLM - MEM 優(yōu)勢(shì)顯著。在 “野外困難任務(wù)” 中成功率達(dá) 27.8%,遠(yuǎn)超 “最近記憶” 等基線模型;“野外任務(wù)” 整體成功率比最強(qiáng)基線高出 16.5%。在 EQA 任務(wù)的 “空間關(guān)系” 等子任務(wù)上,準(zhǔn)確率超 60%,遠(yuǎn)高于傳統(tǒng) 3D - LLM。此外,模型通過(guò) “動(dòng)態(tài)融合” 降低計(jì)算成本,保持高推理精度。例如在 “準(zhǔn)備早餐” 任務(wù)中,能靈活調(diào)用記憶調(diào)整策略完成任務(wù)。


盡管 3DLLM - MEM 取得重大突破,但研究團(tuán)隊(duì)也指出,目前模型依賴(lài)模擬器高層動(dòng)作預(yù)設(shè),未來(lái)需與底層導(dǎo)航和控制融合,以實(shí)現(xiàn)更廣泛應(yīng)用 。

來(lái)【龍頭AI網(wǎng)】了解最新AI資訊!