TTG水果爆破游戏多臂老
多臂老虎机简单说就是老虎机有多个臂,每一次摇动一个臂,机器就会给你一个奖赏(游戏币),这个奖赏遵循某一中概率分布,即每一个臂按照一定的概率返回奖赏值。现在问题是,根据历史的一些反馈信息,如何进行最佳决策(获得更多的奖赏)。这个简单,如果我们事先知道没一个臂的奖赏分布情况,每一次都是摇最大的,但是吧。。TTG水果爆破游戏。怎么可能事先知道这个分布。于是我们使用如下几种策略选择最佳的action。第一种方法称为: Action-Value Methods。该方法仅考虑历史时刻的平均回报值,每一次选择平均回报最大的那一个action,每一次都选择当前步骤的最佳action;第二种策略是在第一种方法的基础之上,基于一定的概率让其随机选择一个action,有一定的概率随机选择。这种成为ε-greedy方式,TTG水果爆破游戏具体逻辑如下:这里的代码来源于ShangtongZhang/reinforcement-learning-an-introduction,TTG水果爆破游戏TTG水果爆破游戏作为一个有节操的程序员,就必须要人人真真的读读别人的代码,这里我就贴出部分代码来简单的加一些注释信息说明问题(具体的代码大家还是去github上面看看吧,尊重原作者),我真的不是照搬啊。TTG水果爆破游戏TTG水果爆破游戏。。:>>上图当中画红线的部分是计算均值的一种方式,比如下式的这种表达方式,t时刻reward的平均值:最后的最后解释一下子关于梯度优化的一些问题,这里的求梯度部分有些类似softmax的公式求导,其实都是一个套路,我相信凡是做这行或者是打算往这行工作的人都会记得这个公式的推导,所以直接解释解释结果吧:上面几个公式的意思是,选择某种action遵循softmax分布,在更新action的评估值得时候,TTG水果爆破游戏采取如下策略。若选择a做为当前最佳action,并且实际的reward高于baseline(这里就是历史的平均reward),则增加对应的评估值,其它未选择的action评估值对应减少。若reward低于baseline,则减少对应的评估值,其它未选择的action评估值对应增加。 都是套路啊。TTG水果爆破游戏TTG水果爆破游戏。。 |
下一篇:没有了
TTG水果爆破游戏的相关游戏攻略文章
- 06-03TTG水果爆破游戏多臂老
- 06-03TTG水果爆破游戏在赌博网站中玩老虎
- 05-25TTG水果爆破游戏老虎机玩转华尔
- 05-25TTG水果爆破游戏12岁小男孩被老虎机