【2025 年 6 月 25 日訊】 谷歌正式推出旗下首款端側(cè)視覺語(yǔ)言動(dòng)作(VLA)模型 Gemini Robotics On-Device,首次將 Gemini 2.0 的多模態(tài)推理能力延伸至機(jī)器人設(shè)備端,引發(fā)科技圈高度關(guān)注。這款被業(yè)內(nèi)稱為 "機(jī)器人版安卓" 的基礎(chǔ)模型,僅需 50-100 次演示即可讓機(jī)器人掌握新動(dòng)作,標(biāo)志著通用機(jī)器人智能進(jìn)入設(shè)備端部署的新階段。

谷歌推出端側(cè) VLA 模型 Gemini Robotics On-Device,開啟 "機(jī)器人安卓" 時(shí)代.png

端側(cè)智能突破:從云端到設(shè)備的 "機(jī)器人大腦"

Gemini Robotics On-Device 基于今年 3 月發(fā)布的旗艦?zāi)P?Gemini Robotics 優(yōu)化而來(lái),通過(guò)輕量化架構(gòu)設(shè)計(jì)實(shí)現(xiàn)本地機(jī)器人設(shè)備的低延遲推理。谷歌在官方演示視頻中展示,搭載該模型的雙臂機(jī)器人可流暢完成疊衣服、拉開拉鏈袋等精細(xì)操作,甚至能處理工業(yè)場(chǎng)景中的皮帶組裝任務(wù)。這一突破使得機(jī)器人無(wú)需依賴云端連接,即可在離線環(huán)境下執(zhí)行復(fù)雜指令,解決了傳統(tǒng)機(jī)器人系統(tǒng)對(duì)網(wǎng)絡(luò)的強(qiáng)依賴問(wèn)題。


社交平臺(tái)數(shù)據(jù)顯示,該模型發(fā)布后 24 小時(shí)內(nèi)即吸引超 30 萬(wàn) X 用戶圍觀。有行業(yè)觀察人士評(píng)論:"Gemini Robotics On-Device 讓機(jī)器人擁有了標(biāo)準(zhǔn)化的 ' 智能操作系統(tǒng) ',未來(lái) OEM 廠商只需專注硬件設(shè)計(jì),軟件層面可通過(guò)該模型實(shí)現(xiàn)通用化智能。"

三大核心能力定義機(jī)器人端側(cè)智能新標(biāo)準(zhǔn)

1. 開箱即用的靈巧操作泛化能力

模型內(nèi)置針對(duì)雙臂協(xié)作的優(yōu)化算法,可直接處理 80% 以上的日常操作任務(wù)。在谷歌的實(shí)測(cè)中,未經(jīng)微調(diào)的 Gemini Robotics On-Device 在 MuJoCo 模擬器中完成了包括 "將葡萄裝入密封盒"、"折疊襯衫" 等 20 項(xiàng)復(fù)雜任務(wù),其中涉及變形物體操作的任務(wù)成功率達(dá) 72%,較前代設(shè)備端模型提升 40%。

2. 高效的小樣本學(xué)習(xí)能力

開發(fā)者只需提供 50-100 次演示數(shù)據(jù),即可通過(guò) Gemini Robotics SDK 完成模型微調(diào)。在七項(xiàng)不同難度的任務(wù)測(cè)試中(包括拉鏈午餐盒、傾倒沙拉醬等),該模型僅用 80 次演示就實(shí)現(xiàn)了 92% 的任務(wù)完成率,較傳統(tǒng)強(qiáng)化學(xué)習(xí)方法減少 90% 的訓(xùn)練數(shù)據(jù)需求。谷歌機(jī)器人團(tuán)隊(duì)負(fù)責(zé)人表示:"這種 ' 演示即編程 ' 的模式,讓機(jī)器人部署效率提升 10 倍以上。"

3. 跨形態(tài)機(jī)器人適配能力

通過(guò)遷移學(xué)習(xí)技術(shù),模型可快速適配不同硬件架構(gòu)。目前已成功部署于 ALOHA 雙臂機(jī)器人、Franka FR3 工業(yè)機(jī)械臂及 Apptronik Apollo 人形機(jī)器人。在 Franka 平臺(tái)上,模型不僅能完成 "懸掛工具帶" 等精細(xì)操作,還可處理工業(yè)場(chǎng)景中的皮帶組裝任務(wù),展現(xiàn)出從消費(fèi)級(jí)到工業(yè)級(jí)應(yīng)用的全覆蓋能力。

技術(shù)架構(gòu)揭秘:輕量化與高性能的平衡之道

Gemini Robotics On-Device 采用 "云端骨干 + 本地解碼器" 的混合架構(gòu):


  • 云端骨干網(wǎng)絡(luò):基于 Gemini 2.0 蒸餾而來(lái),保留多模態(tài)理解核心能力,推理延遲優(yōu)化至 160ms

  • 本地動(dòng)作解碼器:運(yùn)行于機(jī)器人車載計(jì)算機(jī),負(fù)責(zé)將抽象指令轉(zhuǎn)換為實(shí)時(shí)控制信號(hào),端到端延遲控制在 250ms,實(shí)現(xiàn) 50Hz 的控制頻率


這種設(shè)計(jì)使得模型在保持 90% 以上旗艦?zāi)P托阅艿耐瑫r(shí),將計(jì)算資源需求降低 60%,適配主流邊緣計(jì)算硬件。

開發(fā)者生態(tài)布局:SDK 與安全體系同步落地

谷歌同步推出的 Gemini Robotics SDK 包含三大核心組件:


  • 模擬器測(cè)試套件:支持在 MuJoCo 中進(jìn)行虛擬環(huán)境驗(yàn)證

  • 數(shù)據(jù)標(biāo)注工具:簡(jiǎn)化演示數(shù)據(jù)的采集與標(biāo)注流程

  • 安全策略引擎:集成語(yǔ)義安全檢查(如避免危險(xiǎn)操作)和物理安全控制(如力反饋限制)


據(jù)官方透露,已有 20 家機(jī)器人廠商接入該 SDK,涵蓋物流、醫(yī)療、家庭服務(wù)等領(lǐng)域。

行業(yè)影響:開啟機(jī)器人 "安卓時(shí)代" 的可能性

分析認(rèn)為,Gemini Robotics On-Device 的推出可能重塑機(jī)器人產(chǎn)業(yè)格局:


  1. 硬件與軟件解耦:OEM 廠商可專注硬件創(chuàng)新,智能層面通過(guò)標(biāo)準(zhǔn)化模型實(shí)現(xiàn)

  2. 降低開發(fā)門檻:小樣本學(xué)習(xí)能力讓中小企業(yè)也能快速定制機(jī)器人應(yīng)用

  3. 推動(dòng)行業(yè)標(biāo)準(zhǔn)化:類似安卓系統(tǒng)在智能手機(jī)中的角色,該模型可能成為機(jī)器人領(lǐng)域的通用智能底座


谷歌表示,下一步將重點(diǎn)優(yōu)化模型在復(fù)雜環(huán)境中的魯棒性,并探索多機(jī)器人協(xié)同場(chǎng)景。隨著端側(cè)智能的普及,未來(lái)家庭、工廠、醫(yī)院等場(chǎng)景的機(jī)器人部署速度有望迎來(lái)指數(shù)級(jí)增長(zhǎng)。


報(bào)告鏈接:https://arxiv.org/pdf/2503.20020


來(lái)【龍頭AI網(wǎng)】了解最新AI資訊!