【2025 年 6 月 25 日訊】 谷歌正式推出旗下首款端側(cè)視覺語言動作(VLA)模型 Gemini Robotics On-Device,首次將 Gemini 2.0 的多模態(tài)推理能力延伸至機器人設備端,引發(fā)科技圈高度關注。這款被業(yè)內(nèi)稱為 "機器人版安卓" 的基礎模型,僅需 50-100 次演示即可讓機器人掌握新動作,標志著通用機器人智能進入設備端部署的新階段。

谷歌推出端側(cè) VLA 模型 Gemini Robotics On-Device,開啟 "機器人安卓" 時代.png

端側(cè)智能突破:從云端到設備的 "機器人大腦"

Gemini Robotics On-Device 基于今年 3 月發(fā)布的旗艦模型 Gemini Robotics 優(yōu)化而來,通過輕量化架構設計實現(xiàn)本地機器人設備的低延遲推理。谷歌在官方演示視頻中展示,搭載該模型的雙臂機器人可流暢完成疊衣服、拉開拉鏈袋等精細操作,甚至能處理工業(yè)場景中的皮帶組裝任務。這一突破使得機器人無需依賴云端連接,即可在離線環(huán)境下執(zhí)行復雜指令,解決了傳統(tǒng)機器人系統(tǒng)對網(wǎng)絡的強依賴問題。


社交平臺數(shù)據(jù)顯示,該模型發(fā)布后 24 小時內(nèi)即吸引超 30 萬 X 用戶圍觀。有行業(yè)觀察人士評論:"Gemini Robotics On-Device 讓機器人擁有了標準化的 ' 智能操作系統(tǒng) ',未來 OEM 廠商只需專注硬件設計,軟件層面可通過該模型實現(xiàn)通用化智能。"

三大核心能力定義機器人端側(cè)智能新標準

1. 開箱即用的靈巧操作泛化能力

模型內(nèi)置針對雙臂協(xié)作的優(yōu)化算法,可直接處理 80% 以上的日常操作任務。在谷歌的實測中,未經(jīng)微調(diào)的 Gemini Robotics On-Device 在 MuJoCo 模擬器中完成了包括 "將葡萄裝入密封盒"、"折疊襯衫" 等 20 項復雜任務,其中涉及變形物體操作的任務成功率達 72%,較前代設備端模型提升 40%。

2. 高效的小樣本學習能力

開發(fā)者只需提供 50-100 次演示數(shù)據(jù),即可通過 Gemini Robotics SDK 完成模型微調(diào)。在七項不同難度的任務測試中(包括拉鏈午餐盒、傾倒沙拉醬等),該模型僅用 80 次演示就實現(xiàn)了 92% 的任務完成率,較傳統(tǒng)強化學習方法減少 90% 的訓練數(shù)據(jù)需求。谷歌機器人團隊負責人表示:"這種 ' 演示即編程 ' 的模式,讓機器人部署效率提升 10 倍以上。"

3. 跨形態(tài)機器人適配能力

通過遷移學習技術,模型可快速適配不同硬件架構。目前已成功部署于 ALOHA 雙臂機器人、Franka FR3 工業(yè)機械臂及 Apptronik Apollo 人形機器人。在 Franka 平臺上,模型不僅能完成 "懸掛工具帶" 等精細操作,還可處理工業(yè)場景中的皮帶組裝任務,展現(xiàn)出從消費級到工業(yè)級應用的全覆蓋能力。

技術架構揭秘:輕量化與高性能的平衡之道

Gemini Robotics On-Device 采用 "云端骨干 + 本地解碼器" 的混合架構:


  • 云端骨干網(wǎng)絡:基于 Gemini 2.0 蒸餾而來,保留多模態(tài)理解核心能力,推理延遲優(yōu)化至 160ms

  • 本地動作解碼器:運行于機器人車載計算機,負責將抽象指令轉(zhuǎn)換為實時控制信號,端到端延遲控制在 250ms,實現(xiàn) 50Hz 的控制頻率


這種設計使得模型在保持 90% 以上旗艦模型性能的同時,將計算資源需求降低 60%,適配主流邊緣計算硬件。

開發(fā)者生態(tài)布局:SDK 與安全體系同步落地

谷歌同步推出的 Gemini Robotics SDK 包含三大核心組件:


  • 模擬器測試套件:支持在 MuJoCo 中進行虛擬環(huán)境驗證

  • 數(shù)據(jù)標注工具:簡化演示數(shù)據(jù)的采集與標注流程

  • 安全策略引擎:集成語義安全檢查(如避免危險操作)和物理安全控制(如力反饋限制)


據(jù)官方透露,已有 20 家機器人廠商接入該 SDK,涵蓋物流、醫(yī)療、家庭服務等領域。

行業(yè)影響:開啟機器人 "安卓時代" 的可能性

分析認為,Gemini Robotics On-Device 的推出可能重塑機器人產(chǎn)業(yè)格局:


  1. 硬件與軟件解耦:OEM 廠商可專注硬件創(chuàng)新,智能層面通過標準化模型實現(xiàn)

  2. 降低開發(fā)門檻:小樣本學習能力讓中小企業(yè)也能快速定制機器人應用

  3. 推動行業(yè)標準化:類似安卓系統(tǒng)在智能手機中的角色,該模型可能成為機器人領域的通用智能底座


谷歌表示,下一步將重點優(yōu)化模型在復雜環(huán)境中的魯棒性,并探索多機器人協(xié)同場景。隨著端側(cè)智能的普及,未來家庭、工廠、醫(yī)院等場景的機器人部署速度有望迎來指數(shù)級增長。


報告鏈接:https://arxiv.org/pdf/2503.20020


來【龍頭AI網(wǎng)】了解最新AI資訊!