先说明一点,这个叫做 SFV 的增强学习框架,目前还没实际应用到波士顿动力的机器人上。但在测试中,团队用了 Atlas 的机器人模型。
至少从目前论文和视频的效果看,人类是该发抖了。
SFV,即 Skills from Videos。全名,从视频中学习身体动作的增强学习框架。
我们常看的科幻片里,每个栩栩如生的虚拟人物背后,都有一个真人演员。使用特效技术捕捉到演员的动作,再同步到电脑中的虚拟角色上。但这种系统用起来相当麻烦,不仅需要大量的辅助仪器,还只能在室内用。
但有了 SFV 框架,就省钱省力多了。结合计算机视觉和强化学习技术,模拟角色就能学会各种姿势,无需任何手动姿势注释。
看个视频,学会 20 种杂技动作不是梦。侧手翻,前手翻,直体后空翻…简直是要做体操运动员的节奏啊,或许不久的将来可以举办人工智能奥运会了。
Atlas学空翻,必须分三步那么如此逆天的框架是怎么进行的呢?
要让 Atlas 学会后空翻,必须分三步:姿势估计、动作重建和动作模仿。
SFV框架的运作阶段
输入视频首先接受段姿势估计的处理,预测每一帧中角色的姿势。接下来,动作重建阶段将姿势估计结果固化为参考动作,并修复姿势估计结果可能带来的失真。最后,将参考动作输入到动作模仿阶段,利用强化学习训练模拟角色模仿动作。
我们详细来说~
姿势估计姿势估计就像是照相机。在一个给定的视频中,基于视觉的姿势,估计器会预测动作执行者在每一帧的姿势,并且脑补出该运动如何执行合理的结果。