bet365:Dota2败给OpenAI-Five究竟是为什么?

  • 时间:
  • 浏览:51
  • 来源:盈乐博-盈乐博官网

  OpenAI昨日发布研究成果,宣布Dota2 5v5在限定条件下(英雄阵容固定,部分道具和功能禁用)战胜人类半职业选手。本文主要对其模型技术架构做一些分析总结。

  模型的输入是使用RAM(内存信息),如位置坐标,技能血量数值状态等,而不是图像像素信息。

  bet365官方

  模型输入主要分为两个部分:

  直接观测的信息:场面其他英雄的绝对位置,相对距离,相对角度,血量,状态等。

  人工定义抽象的信息:是否被攻击以及正在被谁攻击,炮弹距离命中的时间,朝向的cos与sin,最近12帧内的英雄的血量变化等。

  模型的输出即是指AI所选择的动作,包括移动,攻击释放技能等。OpenAI将连续的动作,离散化对应到网格,并对各种技能定制化释放动作,以减少动作空间的大小。以下图为例,AI要释放一个攻击技能,需要选取这个技能,并选择一个目标单位周围网格内的一个位置:

  

  值得注意的是,在Dota2游戏内还有其他动作,例如操控信使,购买装备,技能升级与天赋等,这些都是人工定义好,而不需AI决策的。而操控幻象分身,召唤物等涉及更复杂的多单位操作,则未在OpenAI当前版本的考虑范围内。

  网络架构架构局部如下图:

  

  bet365

  模型大图下载链接:https://d4mucfpksywv.cloudfront.net/research-covers/openai-five/network-architecture.pdf

  总的来看,大量信息通过连接(concatenate)与全连接层(dense)层进行综合,作为1024维的LSTM的输入。LSTM综合时序信息,并输出决策向量,再用决策向量解构出详细动作。

  训练方式:

  纯自我对弈训练。

  随机化训练:随机初始状态(血量速度移动等)的训练,以增强泛化能力。

  使用很高的γ=0.9997。γ为奖励衰减值,一般在其他环境中设置为0.98,0.998。

  大量计算:128,000CPU+256GPU,能做到每天模拟玩180年的游戏。

  奖励(reward)设计:

  总体奖励:当前局面评估(塔的情况等),KDA(个人战绩),补兵表现等。

  合作奖励:全队的表现作为自己奖励的一部分。

  分路对线的奖励与惩罚:最开始分配一条路,前期发育时如果偏离就会惩罚。

  用强化学习玩Dota2需要面对4个挑战:状态空间大,局面不完全可见(有视野限制),动作空间大,时间尺度大。

  近期论文中提出的解决方案,大致有以下几个方向:

  状态空间大:解决方法如先用World Models抽象,再进行决bet365官方策。

  局面不完全可见:一般认为需要进行一定的搜索,如AlphaGo的MCTS(蒙特卡洛树搜索)。

  动作空间大:可以使用模仿学习(Imitation Learning),或者与层次强化学习结合的方法。

  时间尺度大:一般认为需要时间维度上的层次强化学习(Hierarchical Reinforcement Leanring)来解决这个问题。

  而神奇的是,OpenAI没有使用上述任一方法,而仅仅使用高γ值的PPO基础算法,就解决了这些问题。这说明凭借非常大量的计算,强化学习的基础算法也能突破这些挑战。

  OpenAI没有使用的WorldModels,MCTS,IL,HRL等方法,既是学术界研究的重点方向,也是OpenAI-Five潜在的提升空间。这些更高效的方法若被合理应用,可以加快模型的学习速度,增强模型的迁移能力,并帮助模型突破当前的限制。


bet365 bet365官方

猜你喜欢

2019年,腾讯百度阿里……在重庆有大动作

3月18日《重庆日报》发布报道《唐良智会见百度公司李彦宏小米公司雷军国药集团郭建新中国化工杨兴强》,李彦宏和雷军表达了对重庆大数据智能化产业发展的期待。在2019年,这些走在大

2019-08-24

bet365:E3 2019:体育动作游戏《马力欧&索尼克 AT 2020东京奥运》公布预告片 今年11月发售

SEGAGamesCo.,Ltd.宣布,NintendoSwitch专用体育动作游戏《马力欧&索尼克AT2020东京奥运》预告网站现已开放,同时公布E3前导影片!此外也同步公开

2019-06-27

bet365官方:DOTA2更新 全新英雄玛尔斯加入 卓尔游侠模型更新

北京时间3月6日凌晨,DOTA2发布更新,此前公布的新英雄玛尔斯千呼万唤终于加入遗迹战场,战神携他的矛与盾加入旷世大战。此外,无意成为众人焦点的卓尔游侠原本打算瞒下模型重制的消

2019-06-27

2019年比特币大涨45%,数字黄金打败实体黄金!巨鲸也动作不断

免责声明:本文不构成任何投资建议。小编:记得关注哦比特币仍处于低估值区域,新一轮牛市正在启动。文|林中路出品|火星财经(ID:hxcj24h)比特币扭转了它2018全球表现最差

2019-06-27

TVM: Deep Learning模型的优化编译器(强烈推荐, 附踩坑记录)

(前排提醒,本文的人文内容部分稍稍带有艺术加工,请保持一定的幽默感进行阅读)关注我最近想法的同学应该知道我最近都在把玩TVM,今天终于使用TVM得到了非常满意的结果,而专栏也很

2019-06-27