RL 微调 VPT 模型制作钻石鹤嘴锄
该研究发现,从随机初始化(标准 RL 方法)训练的 RL 策略几乎没有获得任何奖励。与之形成鲜明对比的是,VPT 模型的微调不仅可以(它在 10 分钟的《我的世界》中有 2.5% 会这样做),而且它在收集所有物品以获得钻石镐方面的成功率甚至达到了人类的水平。这是人类首次展示计算机智能体能够在《我的世界》中制作钻石工具,而人类平均需要 20 多分钟(24000 次操作)。
VPT 让智能体通过观看互联网上的大量视频就可以进行学习铺平了道路。与只会产生表征先验的生成视频建模或对比方法相比,VPT 提供了在更多领域可以直接学习大规模行为先验的可能性,而不仅仅是语言。虽然该研究只在 《我的世界》中进行实验,但该游戏开放的,并且原生人机界面(鼠标和键盘)非常通用,因此这项研究也会给其他领域带来益处,例如电脑使用。
此外,该研究还开源了数据、《我的世界》所需环境、模型代码、模型权重,他们希望这些开源有助于未来 VPT 的研究。
原文链接:
https://openai.com/blog/vpt/