在训练中,OpenAI 团队使用了奖惩机制来定义每名英雄获得的“得分”:补刀和破塔等行为被视为奖励,而死亡被视为惩罚。
有意思的是,在 GitHub 开源的奖励机制文档中,*死对方英雄的比重是-0.6,这是因为“击*”所得到的金钱和经验会增加很多分数,为了平衡“击*”带来的奖励,故而将其行为本身设为“惩罚”,降低其带来的分数收益,防止 AI 过分追求击*。
图丨AI系统计算个人奖励比重
以上的种种机制不仅印证了 Dota 2 的本质是“推塔”,而不是“击*”,更重要的是向我们展现了一个理智的决策机制,是如何进行短期利益和长期利益之间的博弈的。
本质上讲,通过强化学习训练的AI系统是在不断寻找和计算一个“最优解”,可以是局部最优,亦或是全局最优。而比赛中的细节显示,AI系统的确会放弃当下的利益,转而为局势和整体发展着想。
因此 OpenAI 认为,“我们的系统确实在向着长远的方向优化。”
纵观全局,AI 系统展现的战术成长、沟通、协调和取舍可以简单地概括为“为达最终目标的长期规划”。无论是 OpenAI Five 之于 Dota 2,还是 DeepMind Alpha Go之于围棋,人工智能都做出了一些人类难以理解的举动,其中不乏完全没有意义和必要的操作,这归根结底是从零开始学习的结果,AI 系统仍然在摸索并逐步完善。不过事实已经证明,无数个类似的举动最终带来了胜利,也启发了人类。
国外解说 Purge 和 Pixel 在比赛中多次提到,人类选手可以从 AI 身上学到很多技巧,比如仇恨分担和转移。这也是 OpenAI 系统的正确使用方式,人类目前对AI 系统的套路和策略并不了解,相信在多次练习和对战中,人类对抗 AI 的能力一定会有所提高。这反过来也可以用来提升人类玩家的水平。
正如 OpenAI 联合创始人兼 CTO Greg Brockman 所说,因为 OpenAI 背后也是人类智慧的结晶,“无论结果如何,胜利(受益)的一方都是人类。”