【2025 年 6 月 25 日訊】 谷歌正式推出旗下首款端側(cè)視覺語(yǔ)言動(dòng)作(VLA)模型 Gemini Robotics On-Device,首次將 Gemini 2.0 的多模態(tài)推理能力延伸至機(jī)器人設(shè)備端,引發(fā)科技圈高度關(guān)注。這款被業(yè)內(nèi)稱為 "機(jī)器人版安卓" 的基礎(chǔ)模型,僅需 50-100 次演示即可讓機(jī)器人掌握新動(dòng)作,標(biāo)志著通用機(jī)器人智能進(jìn)入設(shè)備端部署的新階段。

Gemini Robotics On-Device 基于今年 3 月發(fā)布的旗艦?zāi)P?Gemini Robotics 優(yōu)化而來(lái),通過(guò)輕量化架構(gòu)設(shè)計(jì)實(shí)現(xiàn)本地機(jī)器人設(shè)備的低延遲推理。谷歌在官方演示視頻中展示,搭載該模型的雙臂機(jī)器人可流暢完成疊衣服、拉開拉鏈袋等精細(xì)操作,甚至能處理工業(yè)場(chǎng)景中的皮帶組裝任務(wù)。這一突破使得機(jī)器人無(wú)需依賴云端連接,即可在離線環(huán)境下執(zhí)行復(fù)雜指令,解決了傳統(tǒng)機(jī)器人系統(tǒng)對(duì)網(wǎng)絡(luò)的強(qiáng)依賴問(wèn)題。
社交平臺(tái)數(shù)據(jù)顯示,該模型發(fā)布后 24 小時(shí)內(nèi)即吸引超 30 萬(wàn) X 用戶圍觀。有行業(yè)觀察人士評(píng)論:"Gemini Robotics On-Device 讓機(jī)器人擁有了標(biāo)準(zhǔn)化的 ' 智能操作系統(tǒng) ',未來(lái) OEM 廠商只需專注硬件設(shè)計(jì),軟件層面可通過(guò)該模型實(shí)現(xiàn)通用化智能。"
模型內(nèi)置針對(duì)雙臂協(xié)作的優(yōu)化算法,可直接處理 80% 以上的日常操作任務(wù)。在谷歌的實(shí)測(cè)中,未經(jīng)微調(diào)的 Gemini Robotics On-Device 在 MuJoCo 模擬器中完成了包括 "將葡萄裝入密封盒"、"折疊襯衫" 等 20 項(xiàng)復(fù)雜任務(wù),其中涉及變形物體操作的任務(wù)成功率達(dá) 72%,較前代設(shè)備端模型提升 40%。
開發(fā)者只需提供 50-100 次演示數(shù)據(jù),即可通過(guò) Gemini Robotics SDK 完成模型微調(diào)。在七項(xiàng)不同難度的任務(wù)測(cè)試中(包括拉鏈午餐盒、傾倒沙拉醬等),該模型僅用 80 次演示就實(shí)現(xiàn)了 92% 的任務(wù)完成率,較傳統(tǒng)強(qiáng)化學(xué)習(xí)方法減少 90% 的訓(xùn)練數(shù)據(jù)需求。谷歌機(jī)器人團(tuán)隊(duì)負(fù)責(zé)人表示:"這種 ' 演示即編程 ' 的模式,讓機(jī)器人部署效率提升 10 倍以上。"
通過(guò)遷移學(xué)習(xí)技術(shù),模型可快速適配不同硬件架構(gòu)。目前已成功部署于 ALOHA 雙臂機(jī)器人、Franka FR3 工業(yè)機(jī)械臂及 Apptronik Apollo 人形機(jī)器人。在 Franka 平臺(tái)上,模型不僅能完成 "懸掛工具帶" 等精細(xì)操作,還可處理工業(yè)場(chǎng)景中的皮帶組裝任務(wù),展現(xiàn)出從消費(fèi)級(jí)到工業(yè)級(jí)應(yīng)用的全覆蓋能力。
Gemini Robotics On-Device 采用 "云端骨干 + 本地解碼器" 的混合架構(gòu):
云端骨干網(wǎng)絡(luò):基于 Gemini 2.0 蒸餾而來(lái),保留多模態(tài)理解核心能力,推理延遲優(yōu)化至 160ms
本地動(dòng)作解碼器:運(yùn)行于機(jī)器人車載計(jì)算機(jī),負(fù)責(zé)將抽象指令轉(zhuǎn)換為實(shí)時(shí)控制信號(hào),端到端延遲控制在 250ms,實(shí)現(xiàn) 50Hz 的控制頻率
這種設(shè)計(jì)使得模型在保持 90% 以上旗艦?zāi)P托阅艿耐瑫r(shí),將計(jì)算資源需求降低 60%,適配主流邊緣計(jì)算硬件。
谷歌同步推出的 Gemini Robotics SDK 包含三大核心組件:
模擬器測(cè)試套件:支持在 MuJoCo 中進(jìn)行虛擬環(huán)境驗(yàn)證
數(shù)據(jù)標(biāo)注工具:簡(jiǎn)化演示數(shù)據(jù)的采集與標(biāo)注流程
安全策略引擎:集成語(yǔ)義安全檢查(如避免危險(xiǎn)操作)和物理安全控制(如力反饋限制)
據(jù)官方透露,已有 20 家機(jī)器人廠商接入該 SDK,涵蓋物流、醫(yī)療、家庭服務(wù)等領(lǐng)域。
分析認(rèn)為,Gemini Robotics On-Device 的推出可能重塑機(jī)器人產(chǎn)業(yè)格局:
硬件與軟件解耦:OEM 廠商可專注硬件創(chuàng)新,智能層面通過(guò)標(biāo)準(zhǔn)化模型實(shí)現(xiàn)
降低開發(fā)門檻:小樣本學(xué)習(xí)能力讓中小企業(yè)也能快速定制機(jī)器人應(yīng)用
推動(dòng)行業(yè)標(biāo)準(zhǔn)化:類似安卓系統(tǒng)在智能手機(jī)中的角色,該模型可能成為機(jī)器人領(lǐng)域的通用智能底座
谷歌表示,下一步將重點(diǎn)優(yōu)化模型在復(fù)雜環(huán)境中的魯棒性,并探索多機(jī)器人協(xié)同場(chǎng)景。隨著端側(cè)智能的普及,未來(lái)家庭、工廠、醫(yī)院等場(chǎng)景的機(jī)器人部署速度有望迎來(lái)指數(shù)級(jí)增長(zhǎng)。
報(bào)告鏈接:https://arxiv.org/pdf/2503.20020
來(lái)【龍頭AI網(wǎng)】了解最新AI資訊!
暫無(wú)評(píng)論
發(fā)表評(píng)論