科技资讯媒体中国电商报

首页 电商 互联网 硬件 创投 生活

Google AI研究人员希望通过自我监督的逆向工程教授机器人任务

一个预印本由斯坦福大学和谷歌的研究人员发表的论文提出了一种人工智能技术,预测目标如何得以实现,有效地学习逆向工程的任务。他们说,它使自治代理能够通过自我监督来学习,一些专家认为,自我监督是迈向真正智能系统的关键一步。

学习复杂任务的一般策略通常需要处理不熟悉的对象和场景,并且许多方法依赖于监督形式,例如专家演示。但是,这需要进行重大调整。例如,示范必须由专家多次完成,并由特殊基础设施记录下来。

这不同于研究人员提出的方法-时间逆转为自我监督(TRASS)-该方法预测“反向轨迹”以创建导致目标的监督源。一个家庭机器人可以利用它来学习任务,如打开一台计算机上,转动旋钮,还是打开抽屉,或如设置餐桌,做一张床,和清洁房间家务。

“一个人要解决的大多数操纵任务都需要对对象及其交互方式有一定的了解。然而,了解特定任务环境中的对象关系并非易事,”合著者解释说。“考虑一下任务(铺床)。从制成的床开始,对床的随机扰动可能会使毯子折皱,而当翻转时,这将监督如何展平和展开毯子。类似地,在一个干净的[或]有条理的房间中随机扰动物体会在房间周围散布这些物体。这些轨迹反向将显示物体被放回到正确的位置,对房间清洁进行有力监督。”

TRASS通过收集给定目标状态的数据,施加随机作用力破坏场景并仔细记录每个后续状态来进行工作。TRASS驱动的业务代表无需任何专业知识即可向外探索,收集一条轨迹,该轨迹在逆转时可以教给业务代表返回目标状态。这样,TRASS实质上进行训练以反向预测轨迹,从而使训练后的模型可以将当前状态作为输入,以帧的引导轨迹(而不是动作)的形式提供对目标的监视。

在测试时,由TRASS驱动的业务代表的目标是达到满足某些指定目标条件的场景中的状态。在每个步骤中,都会重新计算轨迹以生成高级指导轨迹,并且该指导轨迹将高级计划和低级控制分离开,从而可以用作间接监督,以通过模型和无模型技术来生成策略。

在实验中,研究人员将TRASS应用于配置类似Tetris的物理块的问题。借助现实世界的机器人Kuka IIWA和经过仿真训练的TRASS视觉模型,然后将其转移到机器人,他们发现TRASS成功地将其在训练中看到的块与未看到的块配对了75%每次进行20次试验的过程中有50%的时间。

TRASS的局限性在于它不能用于无法解决的物体变形的情况下(例如,将鸡蛋弄碎,混合两种成分或将两个零件焊接在一起)。但是研究人员认为,除其他外,可以通过使用由国家新颖性驱动的探索方法来扩展它。

他们写道:“ [我们的方法...能够预测未知的目标状态和达到目标的轨迹。”“这种与视觉模型预测控制一起使用的方法能够仅使用视觉输入,而无需进行演示或明确监督,就可以与物理机器人组装俄罗斯方块式块。”