谷歌DeepMind推出新的机器人AI模型

谷歌DeepMind推出新的机器人AI模型

2025-03-14 00:10 点击:19

日前，谷歌DeepMind推出了两款基于Gemini 2.0的新AI模型，旨在通过利用大语言模型的推理能力，完成复杂的现实世界任务，帮助机器人适应复杂环境。

第一款模型名为Gemini Robotics。据官方介绍，这是一个视觉-语言-动作模型。第二款模型是Gemini Robotics-ER（即具身推理）。该模型具备增强的空间理解能力，能让机器人专家利用Gemini的具身推理（ER）能力运行自有程序。

谷歌DeepMind认为，要成为对人类有用的机器人AI模型，必须具备三大核心特质：通用性，能适应不同场景；交互性，能快速理解并响应指令或环境变化；以及灵巧性，能完成类似人手般精细的操作。新发布的这两款模型能让多种机器人执行比以往更广泛的现实任务。

第一款模型Gemini Robotics在通用性、交互性和灵活性三个关键领域表现出色。它不仅能概括新场景，还更善于与人和环境互动，并且能够执行更精确的物理任务，比如折叠一张纸或拧下瓶盖。与前代模型相比，这款模型能理解更广泛的自然语言指令范围，并能根据输入调整行为。

此外，它还能持续监控周边环境，检测环境或指令的变化，从而调整动作。谷歌DeepMind称，这种可操作性将帮助人类在家庭、职场等场景中更好地与机器人协作。技术报告显示，这款模型的综合泛化性能是现有最先进视觉-语言-动作模型的两倍以上。

第二款模型Gemini Robotics-ER（即具身推理）是一款先进的视觉-语言模，这款模型能够“理解我们复杂而动态的世界”。例如，当你打包午餐盒并将食物放在面前的桌子上时，你需要知道所有东西的位置，以及如何打开午餐盒、抓取食物并将它们放在合适的位置。这正是Gemini Robotics-ER所要完成的推理过程。

在安全性方面，谷歌DeepMind研究人员维卡斯·辛德瓦尼（Vikas Sindhwani）在接受采访时说，该公司正在开发一种“分层方法”，并称Gemini Robotics-ER模型正在“被训练用于评估在特定情境下潜在行为是否安全”。此外，该公司还在发布新的基准和框架，以助力人工智能行业的安全研究。去年，谷歌DeepMind推出了“机器人宪法”，这是一套受艾萨克·阿西莫夫启发的规则，供机器人遵循。

谷歌DeepMind正在与Apptronik合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了Gemini Robotics-ER模型，包括Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools。

打赏