日前,谷歌DeepMind推出了两款基于Gemini 2.0的新AI模型,旨在通过利用大语言模型的推理能力,完成复杂的现实世界任务,帮助机器人适应复杂环境。
第一款模型名为Gemini Robotics。据官方介绍,这是一个视觉-语言-动作模型。第二款模型是Gemini Robotics-ER(即具身推理)。该模型具备增强的空间理解能力,能让机器人专家利用Gemini的具身推理(ER)能力运行自有程序。
谷歌DeepMind认为,要成为对人类有用的机器人AI模型,必须具备三大核心特质:通用性,能适应不同场景;交互性,能快速理解并响应指令或环境变化;以及灵巧性,能完成类似人手般精细的操作。新发布的这两款模型能让多种机器人执行比以往更广泛的现实任务。
第一款模型Gemini Robotics在通用性、交互性和灵活性三个关键领域表现出色。它不仅能概括新场景,还更善于与人和环境互动,并且能够执行更精确的物理任务,比如折叠一张纸或拧下瓶盖。与前代模型相比,这款模型能理解更广泛的自然语言指令范围,并能根据输入调整行为。
此外,它还能持续监控周边环境,检测环境或指令的变化,从而调整动作。谷歌DeepMind称,这种可操作性将帮助人类在家庭、职场等场景中更好地与机器人协作。技术报告显示,这款模型的综合泛化性能是现有最先进视觉-语言-动作模型的两倍以上。
第二款模型Gemini Robotics-ER(即具身推理)是一款先进的视觉-语言模,这款模型能够“理解我们复杂而动态的世界”。例如,当你打包午餐盒并将食物放在面前的桌子上时,你需要知道所有东西的位置,以及如何打开午餐盒、抓取食物并将它们放在合适的位置。这正是Gemini Robotics-ER所要完成的推理过程。
在安全性方面,谷歌DeepMind研究人员维卡斯·辛德瓦尼(Vikas Sindhwani)在接受采访时说,该公司正在开发一种“分层方法”,并称Gemini Robotics-ER模型正在“被训练用于评估在特定情境下潜在行为是否安全”。此外,该公司还在发布新的基准和框架,以助力人工智能行业的安全研究。去年,谷歌DeepMind推出了“机器人宪法”,这是一套受艾萨克·阿西莫夫启发的规则,供机器人遵循。
谷歌DeepMind正在与Apptronik合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了Gemini Robotics-ER模型,包括Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools。