在很多人机大战中,经常会出现这样一种情况:AI在一开始表现得不错,但随着人类玩家发现它的弱点,就变得很智障。
为了全方位评估Pluribus的能力,测试持续了十几天,打了几万手牌。目的是让人类高手能够有充分的时间去适应AI的策略,寻找AI的弱点。
此外,虽然德扑是一种技巧性很强的游戏,但运气也是其中非常重要的影响成分。对于顶尖的德扑职业选手来说,仅仅是因为运气不好,在一万手牌局中输钱是很常见的。
研究者表示,为了减少运气对比赛的影响,他们在一个版本中采取了“AIVAT”算法,在保持样本无偏差的情况下,用每种情况的基线估计值来减少方差。
比如说,如果AI拿到的是一手非常强的牌,AIVAT将从它赢的钱总中减去一个基线估计值来抵消运气成分。
四、5个人类和一个AI
这种牌局一共打了12天,玩了10000手。
每天,都会从高手中选出五名参加。根据他们的表现,会分配给他们5万美元奖金,从而激励他们发挥最佳水平。
应用了AIVAT后,Pluribus的赢率估计约为每100手牌5个大盲注(5 bb/100),在人类顶尖高手的对决中,是非常好的成绩(p值为0.021)。
如果每个筹码一美元,Pluribus平均每手能赢5美元,每小时能赚1000美元。这一战绩,已经超过了职业选手在与职业选手和业余选手的混合比赛中的获胜率。
“Pluribus是一个很难对付的对手,”Ferguson 在实验结束后说。“无论用什么手段,都很难吃定他。他也非常擅长在河牌(最后一张牌)上下小额赌注。他非常善于用自己的一手好牌获取更大的价值。”
五、5个AI和一个人类
参与这一牌局的是三位顶尖高手中的顶尖高手。
分别是2000年世界扑克锦标赛冠军Chris “Jesus” Ferguson、四届世界扑克巡回赛锦标赛冠军Darren Elias,以及Linus Loeliger——在六人无限注德扑中,他是公认的世界第一。
他们每个人都与5个Pluribus玩了5000手牌。Pluribus并不会根据对手来调整自己的策略, 所以不会存在AI相互勾结的情况。
整体情况是,每100手牌人类选手损失了2.3个大盲注(2.3 bb/100)。
其中Elias为每100手4个大盲注(4.0 bb/100,标准误差为2.2 bb/100),Ferguson为每100手2.5个大盲注(2.5bb/100,标准误差为2.0 bb/100),Loeliger为每100手0.5个大盲注(0.5bb/100,标准误差为1.0 bb/100)。
下面这张图,呈现了Pluribus在10000手牌实验中对职业扑克玩家的平均赢率。直线表示实际结果,虚线表示标准偏差。
“它的主要优势在于运用混合策略的能力,”Elias说。“这和人类试图做的事情是一样的。对于人类来说,这是一个执行的问题——以一种完全随机的方式去做,并且始终如一。大多数人类很难做到。”
由于Pluribus的策略,完全是在没有任何人类数据的情况下通过自我博弈决定的,因此它也为寻找多玩家无限制的德扑的最佳玩法提供了一个外部视角。
Pluribus证实了传统的人类智慧,即跟进(跟进大盲注,而不是弃牌或加注),对任何玩家来说都是次优的。只有小盲注玩家是例外,他们已经有一半的大盲注在底池中,因此只需投入其他玩家一半的资金即可。
尽管Pluribus在最初通过自我博弈时尝试过跟进策略,但随着自我博弈继续下去,它逐渐放弃了这一策略。
但Pluribus在一个人类公认的策略上提出了不同的意见:即不下注(在一轮下注结束时跟注,开始一轮下注)是一个错误;与顶尖人类高手相比,Pluribus这样做的频率更高。
“在于扑克机器人的比赛中,看到它选择的一些策略,非常令人难以置信,也令人着迷。”Gagliano表示,“有几个策略是人类根本想不到的,特别是与赌注大小有关的。”
下面的这张图,显示了Pluribus和职业选手比赛时的筹码数量。实线表示实际结果,虚线表示标准偏差。
值得注意的是,Pluribus是一种研究人工智能的工具。研究者表示,选取扑克只是为了评估在不完全信息的场景中,人工智能在多智能*互中与人类最高水平的差距。
也就说,他们的征途不仅仅限于德扑,而是星辰大海。
毕竟,现实世界很复杂,也不是只有两方对战,也不是非输既赢。走向通用的人工智能,学习多人复杂游戏是非常重要的一步。
当然,作为“Libratus接下军用订单”事件的回应,Facebook说这项研究不会做军事用途。
特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。