蚂蚁彩票www.nama2015.com

58彩票www.oneshot04.com

旺旺彩票www.ooxx456.com

快赢彩票www.sgbingyou.com

凤凰彩票www.zgwscy360.com

吉利彩票www.tech414.com

万豪彩票www.vooily.com

新利彩票www.zyq2012.com

名门彩票www.hiyunte.com

123彩票www.hhrzsz.com

万喜彩票www.ronghaiyi.com

盛通彩票www.nznhco.com

永盛彩票www.m2volt.com

大通彩票www.bangfy.com

万家彩票www.ysh777.com

千禧彩票www.jntjzc.com

中福彩票www.qdxrtzc.com

万利彩票www.ynkyz.com

98彩票www.sixitz.com

博乐彩票www.alxqxxx.com

云鼎彩票www.njbjjd.com

永利彩票www.izaukb.com

趣彩彩票www.neusna.com

广发彩票www.yinxing02.com

葡京彩票www.ylyx1688.com

顺发彩票www.stampfle.com

鸿利彩票www.taotao5le.com

我赢彩票www.tctz558.com

大发彩票www.tlvip993.com

苹果彩票www.tuhao2015.com

欢乐彩票www.uvyyvc.com

盛兴彩票www.vwin356.com

智博彩票www.wdzc888.com

环球彩票www.hlwgtt.com

金彩彩票www.youtube4u.com

彩盈彩票www.yz-cheap.com

丰亿彩票www.zgnck.com

金沙彩票www.zjfwbank.com

金福彩票www.zlcemk.com

大运彩票www.zx3xrj.com

乐购彩票www.lpdzz.com

热购彩票www.qwknt.com

宏发彩票www.dkyky.com

八八彩票www.chwizd.com

凤凰彩票www.qgklri.com

易发彩票www.nrrnx.com

众彩彩票www.bdjlx.com

世纪彩票www.qxqpr.com

必发彩票www.lianjiat.com

创元彩票www.rmdhn.com

E乐彩票www.avgads.com

利来彩票www.cfmft.com

华夏彩票www.hcfgx.com

金砖彩票www.ookk77.com

大金彩票www.qdnpp.com

全迅彩票www.cskcbz.com

菠萝彩票www.qdfbn.com

通博彩票www.lpwln.com

盛世彩票www.lyqhx.com

鼎盛彩票www.fznzy.com

东方彩票www.mywnp.com

皇冠彩票www.zspnsh.com

港龙彩票www.dbrgj.com

幸运彩票www.nyhuigou.com

全民彩票www.689jp.com

状元彩票www.hn882.com

88彩票www.ynhaimao.com

天天彩票www.lehaha668.com

凤凰彩票www.weiguyuan.com

500万彩票www.usaviaton.com

E时彩www.urns4sale.com

J8彩票www.ggw74.com

GT彩票www.gyyhzb.com

中华彩票www.jncfgs.com

568彩票www.1-webinar.com

传奇彩票www.my2wave.com

杏彩彩票www.10tozero.com

金誉彩票www.dss91.com

众购彩票www.ddyyddyy.com

非凡彩票www.daverney.com

重慶彩票www.daff8881.com

双赢彩票www.jgcp99.com

盛源彩票www.jhh123.com

旺旺彩票www.bahid-inv.com

万喜彩票www.kenya2016.com

盛通彩票www.hexun888.com



当前位置: 主页 > GPS地图 > >

【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游戏完胜人类!

时间:2018-07-05 20:12来源:网络整理 作者:北箭GPS导航之家 点击:
【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游戏完胜人类! -科技频道-和讯网

  【新智元导读】继OpenAI之后DeepMind也在多智能体强化学习方面秀肌肉:首次在第一人称射击游戏的多人模式中完胜人类,而且没有使用大量训练局数,轻松超过了人类水平。

就在OpenAI宣布在5v5 DOTA 2中战胜人类玩家后没多久,今天,DeepMind也分享了他们在

 
  就在OpenAI宣布在5v5 DOTA 2中战胜人类玩家后没多久,今天,DeepMind也分享了他们在多智能体学习(multi-agent learning)方面的进展。

  CEO Hassabis在Twitter上分享:“我们最新的工作展示了智能体在复杂的第一人称多人游戏中达到人类水平,还能与人类玩家合作!”

Hassbis说的这个游戏,就是《雷神之锤III竞技场》,这也是很多现代第一人称射击游戏的鼻祖,玩家或独立或组队在地图中厮杀,死亡后数秒在地图某处重生。当某一方达到胜利条件(在DeepMind的实验里就是抢夺更多的旗帜),或者游戏持续一定时间后即宣告回合结束。胜利条件取决于选择的游戏模式。

 
  Hassbis说的这个游戏,就是《雷神之锤III竞技场》,这也是很多现代第一人称射击游戏的鼻祖,玩家或独立或组队在地图中厮杀,死亡后数秒在地图某处重生。当某一方达到胜利条件(在DeepMind的实验里就是抢夺更多的旗帜),或者游戏持续一定时间后即宣告回合结束。胜利条件取决于选择的游戏模式。

  虽然Hassbis在Twitter里说他们的AI“达到了人类水平”,实际上,从实验结果看,他们的AI已经超越了人类:

  在与由40个人类玩家组成的队伍对战时,纯AI的队伍完胜纯人类的队伍(平均多抢到16面旗),并且有95%的几率战胜AI与人混合组成的队伍。

  这个AI名叫“为了赢”(For the Win,FTW),只玩了将近45万场游戏,理解了如何有效地与人和其他的机器合作与竞争。

  研究人员对AI的唯一限定是,在5分钟时间里尽可能取得多的旗帜。对战的游戏地图是随机生成的,每场都会变,室内与室外的地形也不相同。组队的时候,AI可能与人组队,也可能与其他AI组队。对战的模式分为慢速和高速两种。

  在训练过程中,AI发展出了自己的奖励机制,学会了基地防守、尾随队友,或者守在敌人营地外偷袭等策略。

  DeepMind在他们今天发表的博客文章中写道,从多智能体的角度说,玩《雷神之锤III》这种多人视频游戏,需要与队友合作,与敌方竞争,还要对遭遇到的任何对战风格/策略保持鲁棒性。

  分析发现,游戏中,AI在“tagging”(碰触对方,将其送回地图上的初始地点)上比人类更加高效,80%的情况下能够成功(人类为48%)。

  而且有趣的是,对参与对战的人类玩家进行调查后发现,大家普遍认为AI是更好的team player,更善于合作。

  第一人称射击游戏多人模式重大突破

  启元世界首席算法官、前Netflix资深算法专家王湘君告诉新智元:

  之前第一人称射击(FPS)游戏的研究更多是单人模式,这次DeepMind在FPS

  多人模式做出了重大突破,在没有使用大量训练局数的情况下就超过了人类水平。和之前OpenAI Five相比,DeepMind的Capture the Flag (CTF) 模型直接从pixel学习,没有作feature engineering和为每个agent单独训练模型,得益于以下创新:

  去年DeepMind Max Jaderberg 提出的Population-based training 的应用极大提高了训练效率,并且提供了多样化的exploration,帮助模型在不同地形队友环境中的适应性,实验结果显示比self-play的结果更好更高效。

  For The Win agent 的分层reward机制来解决credit assignment问题。

  用fast and slow RNN 和内存机制达到类似Hierarchical RL的作用。

  不过,FPS在策略学习上面的难度还是比Dota,星际这种RTS游戏小很多,CTF模型在长期策略游戏上效果还有待观察。

  在和人类对战模式之外,CTF模型同时在人机协作上有很好的效果。值得一提的是,启元世界在今年4月份北大ACM总决赛期间发布的基于星际争霸2的人机协作挑战赛,其智能体也率先具备了与人和AI组队协作的能力。人机协作在未来的人工智能研究领域将成为非常重要的一环。

  掌握策略,理解战术和团队合作

  在多人视频游戏中掌握策略、战术理解和团队合作是人工智能研究的关键挑战。现在,由于强化学习取得的新进展,我们的智能体已经在《雷神之锤III竞技场》(Quake III Arena)游戏中达到了人类级别的表现,这是一个经典的3D第一人称多人游戏,也是一个复杂的多智能体环境。这些智能体展现出同时与人工智能体和人类玩家合作的能力。

  如下面的视频所示,4个训练好的智能体共同合作,成功夺到旗子。

  我们居住的星球上有数十亿人,每个人都有自己的个人目标和行动,但我们仍然能够通过团队、组织和社会团结起来,展现出显著的集体智慧。这是我们称之为多智能体学习(multi-agent learning)的设置:

  许多个体的智能体必须能够独立行动,同时还要学会与其他智能体交互和合作。这是一个极其困难的问题——因为有了共适应智能体,世界在不断地变化。

  为了研究这个问题,我们选择了3D第一人称多人视频游戏。这些游戏是最流行的电子游戏类型,由于它们身临其境的游戏设计,以及它们在策略、战术、手眼协调和团队合作方面的挑战,吸引了数以百万计的玩家。我们的智能体面临的挑战是直接从原始像素中学习以产生操作。这种复杂性使得第一人称多人游戏成为人工智能社区一个非常活跃而且得到许多成果的研究领域。

  我们的这项工作关注的游戏是《雷神之锤III竞技场》(我们对其进行了一些美术上的修改,但所有游戏机制保持不变)。《雷神之锤III竞技场》是为许多现代第一人称视频游戏奠定了基础,并吸引了长期以来竞争激烈的电子竞技场面。我们训练智能体作为个体学习和行动,但必须能够与其他智能体或人类组成团队作战。

[ GPSUU整理发布,版权归原作者所有。]

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------






推荐内容