用于机器人对象操作的开源通用模型
2025-01-11 14:52

用于机器人对象操作的开源通用模型

  

  An open-source generalist model for robot object manipulation

  ChatGPT和其他大型语言模型(llm)的公开发布已经允许世界各地的开发人员开始试验这些模型,以增强他们自己系统的交互能力。然而,类似的可推广的机器人操作模型仍然很少。

  加州大学伯克利分校(UC Berkeley)、斯坦福大学和CMU的研究人员最近推出了Octo,这是一个开源的机器人操作通用模型,可以让不同的机器人系统有效地操作各种各样的物体。该模型在服务器arXiv上预先发表的一篇论文中提出,可以为开发可以处理手动任务的机器人开辟新的途径。

  Dibya Ghosh、Homer walker、Karl Pertsch、Kevin Black和Oier Mees在接受Tech Xplore采访时表示:“目前人工智能的大部分进展都是由大型数据集和大型模型驱动的。“在机器人社区,我们最近组装了Open X-Embodiment数据集,这是一个汇集了许多研究机构数据的大型操作数据集。虽然这个新数据集是一个非常令人兴奋的资源,但当时还没有很多模型可以利用它。”

  这个研究小组最近的工作有两个主要目标。第一个目标是开发一个良好的通用机器人模型,可以应用于各种机器人,第二个目标是创建开源代码,以便其他研究人员在未来建立类似的模型。

  高希、沃克、珀奇、布莱克和米斯解释说:“Octo是我们所说的‘通才’机器人模型,它是一个神经网络,可以控制许多不同类型的机器人,让它们完成‘拿起勺子’、‘关上抽屉’、‘擦桌子’等要求。”

  “成为一个多面手,研究许多机器人是关键,因为如果你看看世界各地的研究实验室,他们中的许多人使用不同的机器人,所以确保Octo可以被许多研究人员使用的唯一方法是支持广泛的机器人。”

  在技术研究和开发社区中,可以跨多个系统应用的高性能计算工具通常被称为基础模型。这些模型的一个例子是ChatGPT,它可以用来为各种代理和系统配备自然语言处理(NLP)功能。

  Ghosh, Walke, Pertsch, Black和Mees说:“我们想建立类似的基础模型,但用于机器人控制,或者换句话说,可以控制许多机器人并使它们解决许多不同任务的模型。”

  “Octo是迈向这个目标的第一步。它的训练看起来与ChatGPT等模型非常相似:我们管理一个庞大而多样化的数据集,在我们的案例中是机器人数据而不是文本,并训练一个大型模型来预测机器人在当前机器人状态和任务指令下应该执行的下一个动作。”

  由Ghosh, walker, Pertsch, Black和Mees开发的Octo模型基于与ChatGPT相同类型的神经网络,称为变压器。与之前开发的其他机器人模型相比,Octo的一个关键优势是用于训练它的数据的规模和它的灵活性。

  该模型是在迄今为止编制的最大的机器人操作轨迹数据集上训练的;开放x化身数据集。Octo还可以处理各种各样的感官输入,包括不同类型的图像、机器人关节读数、语言指令、目标相关图像等等。

  高希、沃克、珀奇、布莱克和米斯说:“Octo还可以控制许多不同类型的机械臂,从几乎不能拿起汽水罐的小型单臂,到更大、更有力的机械臂,甚至是双手动装置。”“这种灵活性使Octo更适用于世界各地机器人专家实际拥有的各种设置。”

  研究人员在一系列初步实验中评估了他们的模型,将其部署在加州大学伯克利分校、斯坦福大学和CMU开发的九个不同的机器人系统上。Octo成功地控制了这些机器人,并允许它们完成各种操作任务,即使在训练过程中没有遇到这些机器人传感器收集的数据或它们独特的设计。

  研究人员说:“看到我们可以用Octo模型来控制许多不同的机器人,这真的很酷。”“自从我们发布这个模型以来,我们看到很多人尝试在他们自己的机器人上运行它,我们也一直在我们的下一个项目中使用我们为Octo构建的代码库。这些都是一些令人鼓舞的迹象,表明Octo确实有助于培养下一代改进的机器人基础模型。”

  对于研究人员来说,Octo的开发只是他们为机器人操作建立通用模型的一个小小的里程碑。在接下来的研究中,他们计划继续朝着这一目标努力,并希望其他研究所的研究小组也能开始试验他们的代码。

  An open-source generalist model for robot object manipulation

  他们补充说:“现在,这个模型很可能无法在你的机器人上开箱即用,你需要收集一些你想让机器人解决的任务的例子来教它Octo,即使是像在新厨房里捡可乐罐这样的平凡任务。”

  “也就是说,目前模型的泛化能力仍然非常有限,我们正在研究新的模型,将这一点推向更远。我们还没有达到你可以下载一个模型给你的机器人,告诉你的机器人你想要它做什么,它会成功十分之九,但我们正在朝着这个目标努力。”

  更多信息:Dibya Ghosh等人,Octo:一个开源的通才机器人政策,arXiv(2024)。期刊信息:arXiv .2405.12213

  ?2024 Science X Network

  引用:机器人对象操作的开源通才模型(2024年6月10日),检索自https://techxplore.com/news/2024-06-source-generalist-robot.html本文档

  作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司

  内容仅供参考之用。

本内容为作者翻译自英文材料或转自网络,不代表本站立场,未经允许不得转载
如对本稿件有异议或投诉,请联系本站
想要了解世界的人,都在 九九叭

相关推荐