编辑:LRS
【新智元导读】Google机器人最近实现了在开放词汇的条件下执行自然语言命令,真正实现了「听懂人话」,相关数据集已开源!注意看,眼前的这个男人正在对着一个机器人不断发出自然语言指令,如「把绿色的星推到红色块之间」、「把蓝色的方块移动到左下角」,机器人对每一次输入的指令都可以实时完成。
自上世纪60年代开始,机器人专家就开始尝试让机器人听懂人的「自然语言指令」,并执行具体的行动。
理想情况下,未来的机器人将对用户能够用自然语言描述的任何相关任务做出实时反应。
特别是在开放的人类环境中,用户可能需要在机器人行为发生时自定义行为,提供快速纠正,比如「停止,将手臂向上移动一点」或是指定限制「慢慢向右移动」。
此外,实时语言可以使人和机器人更容易在复杂的长期任务中进行协作,人们可以迭代和交互式地指导机器人操作,偶尔会有语言反馈。
目前的相关工作大体可以分为以下三部分:
1、机器人本体需要存在于现实世界;
2、能够响应大量且丰富的自然语言命令;
3、能够执行交互式的(interactive)语言命令,即机器人需要在任务执行的过程中接受新的自然语言指令。
对于第三点来说,目前机器人领域在交互式方面的发展速度仍然非常缓慢,也让机器人缺乏「生命感」。
最近Google发表了一篇论文,提出了一个全新的框架,可以生产真实世界的、实时交互的、执行自然语言指令的机器人,并且相关数据集、环境、基准测试和策略都已开放使用。
论文链接:https://arxiv.org/pdf/2210.06407.pdf
项目主页:https://interactive-language.github.io/
通过对几十万个语言标注轨迹的数据集进行行为克隆训练,产生的策略可以熟练地执行比以前的工作实现了多一个数量级的命令。在现实世界中,研究人员估计该方法在87000个不同的自然语言字符串上有93.5%的成功率。