当前位置:首页 > 娱乐 >

上分的机器是什么意思

来源:原点资讯(www.yd166.com)时间:2024-06-06 07:07:18作者:YD166手机阅读>>

2021 世界人工智能大会(WAIC2021)在上海开幕。

王者荣耀和腾讯AI Lab一同携手,带来了一个耀眼的小伙——“王者绝悟”,它是什么呢?其实是一款可以和人对战的智能机器人。会上,腾讯董事会主席马化腾也表示了“欢迎来战!(不服来战![机智])”。

王者绝悟和五位来自KPL的明星选手进行了四场比赛,最终以3:1的比分战胜了五位职业选手,真是机如其名,悟性超绝啊!

上分的机器是什么意思,(1)

王者绝悟终极挑战

其实,人工智能在近些年来的在一些人类的游戏里,已经屡创纪录,例如当年的alphaGo下赢了世界围棋冠军李世石和柯洁,AlphaStar在星际争霸中无情碾压人类选手,众多职业选手折戟旗下。不得不说,机器背后的人工智能技术确实突飞猛进,令人叹服!

上分的机器是什么意思,(2)

AlphaStar 争霸

那么这些游戏AI机器人背后,用到了什么技术呢?正是强化学习。

强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏或者惩罚来学习到底如何行为。其实很类似人类儿童学习一样,做对了,父母给一颗糖,做错了,就打一巴掌。强化学习的目标是使智能体获得最大的奖赏,通过奖赏和惩罚,不断调整智能体的行为策略,来获取最大奖赏。

上分的机器是什么意思,(3)

基于这种技术思想,游戏AI通过强化学习,打成千上万局游戏,它的目标奖赏就是赢下游戏。AI在此过程不断学习,最终形成一套全面完善的策略模式,仔细一想,一个人大概打几百上千局,可能就成高手王者了,换成机器刷个几十万局,怪不得恐怖如斯...

话说回来,强化学习具体技术原理是怎么运行呢,就先从最简单的Q-learning算法说起吧。

上分的机器是什么意思,(4)

flappy bird 小鸟跳着飞过去

想必大家都玩过Flappy Bird这个游戏,就是通过控制前进的小鸟向上跳跃,来躲过参差不齐的管道障碍物。如果交给机器来打游戏,这就是一个典型的强化学习过程。

强化学习中,定义了状态(state)、动作(action)、奖赏(reward)这三个要素。智能体(Agent,也就是小鸟)会根据当前状态来采取动作(向上跳一下),并记录被反馈的奖赏,以便下次再到类似的状态时能采取更优的动作。那么机器人是如何学习的呢?下面就来介绍这一学习算法Q-learning。

我们依次给出如下定义:

小鸟状态(state):S=<x,y>,分别代表小鸟距离水管的水平距离和小鸟所处的高度。 小鸟动作(action):向上跳一下或者不动 小鸟奖赏(reward):小鸟每前进一步,奖赏 1;小鸟穿过水管,奖赏 2;若小鸟撞柱死亡,奖赏-10000。

Q-learning算法,其中Q的含义就是动作效用函数,简言之,就是用于衡量小鸟在某个状态下采用某个动作的好坏。我们将Q函数定义为一个三维数组: Reward = Q[x][y][action]

其中,x和y代表小鸟的状态,action为小鸟的动作,Reward是小鸟的奖赏。Q函数即,在某个状态下,小鸟选择跳或不跳获得的奖赏。通过这个函数,我们就能知道,小鸟在当前状态下,应该选择什么动作会使得获得奖励最大。在游戏中,就是让小鸟成功穿过水管,并一直活下去。Q-learning的目标就是通过不断的游戏,来学习这个函数。

那么这个函数如何得到呢,下面就是具体算法过程。

1. 首先,初始化Q函数这个三维数组 2. 重复以下过程,直到Q函数收敛: a:初始化状态S b:根据某个策略,根据概率p执行当前最大奖赏对应动作 c:执行完动作后,观察获得的奖赏R(S,a)和下一个状态S’ d:更新Q函数,Q[S,A] ←α*(R(S,a) γ* max Q[S’,a]) (1-α)*Q[S,A]

其中,在b步骤,通常会采用一个概率来决定小鸟是否上跳,那么这个概率如何决定呢?通常,我们会根据执行此动作的奖赏来看,选择奖赏大的动作,但是这样会导致一个问题,就是当前最优动作不代表全局最优动作,也就是说,当前这个动作奖励虽然少,但后面的奖励有可能会很多。

为了防止陷入眼前利益陷阱,所以我们设定一个随机概率,例如p=0.7的概率来执行最大奖赏的动作,那么就有30%的概率来执行另一个动作,来探索后面的步骤是否能带来更大的奖励。这个p是人工设定的,取决于你想让小鸟保守一点还是激进一点[奸笑]。

在执行完动作后进入d步骤,算法会更新Q函数。其中,α为学习率,α越大,Q函数更新换代的速度越快。R(S,a)为当前奖赏,max Q[S',a] 为下一状态获取的历史的最大奖赏,它是小鸟记忆里,在下一个位置S'能给出的最大效用值。

如果小鸟在过去的游戏中在位置S'的某个动作上得到过很大的奖赏,这个公式就可以让它提早地得知这个消息,并作出能吃到这个奖赏的动作[机智]。γ代表了折扣因子,越大代表小鸟越重视历史经验,越小则越重视眼前利益。这个γ也是人工设定的,依旧取决于你想让小鸟更相信过去还是更相信眼见为实[奸笑]。

算法不断重复2的动作,也就是不断重复游戏,来不断完善Q函数,最终收敛到一个理想状态,Q函数包含了所有的情况。如此,智能的小鸟就像人类一样,通过不断的学习来不断完善它的行为策略,最终可以飞很远很远。

上分的机器是什么意思,(5)

Q-learning的算法讲完了,是不是发现强化学习就是这么神奇。

当然,Q-learning在强化学习领域中只是最基础和简单的算法,而真正的在王者荣耀、星际争霸中,AI机器人面临的环境会更加复杂多变,智能体的状态会更多,可执行的动作也是成千上万种组合,远不止单纯的小鸟只有两种。这时候就需要更加复杂的算法和策略来训练这个AI机器人了。篇幅有限,暂且不表,后续的文章再一探究竟吧。

,

栏目热文

最迷人小妖精的星座(最可怕小妖精的星座)

最迷人小妖精的星座(最可怕小妖精的星座)

想要吸引一个异性的注意,那么除了自己过硬的颜值,还需要有一定的手段。有的人天生长着一张讨喜的人,他们能够很轻松的接近异性...

2024-06-06 07:26:46查看全文 >>

红色痘印消失一般要多久(红色痘印一般要多久才能自行消失)

红色痘印消失一般要多久(红色痘印一般要多久才能自行消失)

有好多人都有这种情况,就是自己的青春期已经过去了,可是青春痘依然还存在,更有些人就是青春痘好不容易不在了,可是痘印却是怎...

2024-06-06 07:08:56查看全文 >>

工具人是什么(工具人是什么意思的网络用语)

工具人是什么(工具人是什么意思的网络用语)

把男生当工具人的女人太多了。我为什么要说是工具人?工具人具备多种功能,远比备胎的定义范围更大,这个可能不是新词了,可能以...

2024-06-06 07:18:15查看全文 >>

工具人梗的出处(工具人工具魂什么梗)

工具人梗的出处(工具人工具魂什么梗)

《三十而已》中林有有这个角色,最近实在很火,上热搜次数比人气明星都高。这不,今就有“林有有工具人”的热搜,引起不少网友的...

2024-06-06 07:28:42查看全文 >>

游戏里面的工具人是什么意思(游戏中的工具人什么意思)

游戏里面的工具人是什么意思(游戏中的工具人什么意思)

工具人,也就是我们常说的功能型法师,吃到较多经济的时候对输出的增益不明显,反而技能机制像个辅助,此类法师我们称之为工具人...

2024-06-06 07:11:56查看全文 >>

上分工具啥意思(王者上分工具人是啥意思)

上分工具啥意思(王者上分工具人是啥意思)

cp就是一个变相的提款机 上分工具锦某人OL昨天 09:21 · 优质游戏领域创作者何为“cp”!几乎所有的网络游戏(锦...

2024-06-06 07:03:06查看全文 >>

游戏排位是什么意思官方解释(玩游戏的段位有什么意思)

游戏排位是什么意思官方解释(玩游戏的段位有什么意思)

《小兵潮资讯,每天新鲜事》,我是秦启。王者荣耀的排位匹配机制是所有网友一直吐槽的问题,比如说为何普通玩家连胜之后就会连败...

2024-06-06 07:45:31查看全文 >>

上分是什么意思网络用语(我昨晚上分是什么意思网络语)

上分是什么意思网络用语(我昨晚上分是什么意思网络语)

【网络世界中国风情】作者:赵丽瑾(西北师范大学传媒学院教授)网络文艺因“网”而生,倚“网”而盛,追求“文”的底蕴和“艺”...

2024-06-06 07:07:46查看全文 >>

上分机器什么意思(上分机器啥意思)

上分机器什么意思(上分机器啥意思)

大家好,我是阿凉。为什么有的英雄,看主播玩疯狂连胜,自己玩的时候能把自己坑哭?为什么有的英雄,热门程度巨高,对局表现也不...

2024-06-06 07:41:02查看全文 >>

辅助的意思和含义(用什么可以表达辅助的意思)

辅助的意思和含义(用什么可以表达辅助的意思)

相信很多新手车主开车上路,看到一些交通标志会深深地怀疑“我科一科四真的过了吗?”,既然遇到了这些很难懂的标志,那就让我们...

2024-06-06 07:41:42查看全文 >>

文档排行