【2025 年 6 月 25 日訊】 谷歌正式推出旗下首款端側(cè)視覺語言動作(VLA)模型 Gemini Robotics On-Device,首次將 Gemini 2.0 的多模態(tài)推理能力延伸至機器人設備端,引發(fā)科技圈高度關注。這款被業(yè)內(nèi)稱為 "機器人版安卓" 的基礎模型,僅需 50-100 次演示即可讓機器人掌握新動作,標志著通用機器人智能進入設備端部署的新階段。

Gemini Robotics On-Device 基于今年 3 月發(fā)布的旗艦模型 Gemini Robotics 優(yōu)化而來,通過輕量化架構設計實現(xiàn)本地機器人設備的低延遲推理。谷歌在官方演示視頻中展示,搭載該模型的雙臂機器人可流暢完成疊衣服、拉開拉鏈袋等精細操作,甚至能處理工業(yè)場景中的皮帶組裝任務。這一突破使得機器人無需依賴云端連接,即可在離線環(huán)境下執(zhí)行復雜指令,解決了傳統(tǒng)機器人系統(tǒng)對網(wǎng)絡的強依賴問題。
社交平臺數(shù)據(jù)顯示,該模型發(fā)布后 24 小時內(nèi)即吸引超 30 萬 X 用戶圍觀。有行業(yè)觀察人士評論:"Gemini Robotics On-Device 讓機器人擁有了標準化的 ' 智能操作系統(tǒng) ',未來 OEM 廠商只需專注硬件設計,軟件層面可通過該模型實現(xiàn)通用化智能。"
模型內(nèi)置針對雙臂協(xié)作的優(yōu)化算法,可直接處理 80% 以上的日常操作任務。在谷歌的實測中,未經(jīng)微調(diào)的 Gemini Robotics On-Device 在 MuJoCo 模擬器中完成了包括 "將葡萄裝入密封盒"、"折疊襯衫" 等 20 項復雜任務,其中涉及變形物體操作的任務成功率達 72%,較前代設備端模型提升 40%。
開發(fā)者只需提供 50-100 次演示數(shù)據(jù),即可通過 Gemini Robotics SDK 完成模型微調(diào)。在七項不同難度的任務測試中(包括拉鏈午餐盒、傾倒沙拉醬等),該模型僅用 80 次演示就實現(xiàn)了 92% 的任務完成率,較傳統(tǒng)強化學習方法減少 90% 的訓練數(shù)據(jù)需求。谷歌機器人團隊負責人表示:"這種 ' 演示即編程 ' 的模式,讓機器人部署效率提升 10 倍以上。"
通過遷移學習技術,模型可快速適配不同硬件架構。目前已成功部署于 ALOHA 雙臂機器人、Franka FR3 工業(yè)機械臂及 Apptronik Apollo 人形機器人。在 Franka 平臺上,模型不僅能完成 "懸掛工具帶" 等精細操作,還可處理工業(yè)場景中的皮帶組裝任務,展現(xiàn)出從消費級到工業(yè)級應用的全覆蓋能力。
Gemini Robotics On-Device 采用 "云端骨干 + 本地解碼器" 的混合架構:
這種設計使得模型在保持 90% 以上旗艦模型性能的同時,將計算資源需求降低 60%,適配主流邊緣計算硬件。
谷歌同步推出的 Gemini Robotics SDK 包含三大核心組件:
模擬器測試套件:支持在 MuJoCo 中進行虛擬環(huán)境驗證
數(shù)據(jù)標注工具:簡化演示數(shù)據(jù)的采集與標注流程
安全策略引擎:集成語義安全檢查(如避免危險操作)和物理安全控制(如力反饋限制)
據(jù)官方透露,已有 20 家機器人廠商接入該 SDK,涵蓋物流、醫(yī)療、家庭服務等領域。
分析認為,Gemini Robotics On-Device 的推出可能重塑機器人產(chǎn)業(yè)格局:
硬件與軟件解耦:OEM 廠商可專注硬件創(chuàng)新,智能層面通過標準化模型實現(xiàn)
降低開發(fā)門檻:小樣本學習能力讓中小企業(yè)也能快速定制機器人應用
推動行業(yè)標準化:類似安卓系統(tǒng)在智能手機中的角色,該模型可能成為機器人領域的通用智能底座
谷歌表示,下一步將重點優(yōu)化模型在復雜環(huán)境中的魯棒性,并探索多機器人協(xié)同場景。隨著端側(cè)智能的普及,未來家庭、工廠、醫(yī)院等場景的機器人部署速度有望迎來指數(shù)級增長。
報告鏈接:https://arxiv.org/pdf/2503.20020
來【龍頭AI網(wǎng)】了解最新AI資訊!
暫無評論
發(fā)表評論