您好、欢迎来到现金彩票网!
当前位置:秒速时时彩登录 > 搜索博弈树 >

AlphaGo算法论文《精通围棋博弈的深层神经网络和树搜索算法》汉

发布时间:2019-05-31 02:10 来源:未知 编辑:admin

  的学科知识、技术应用、产业科研、人物机构、新闻活动等信息。欢迎大家积极参与投稿,为数据科学产学研做贡献,使国人尽快提高人类信息管理能力,提高社会信息流通效率。AlphaGo算法论文《精通围棋博弈的深层神经网络和树搜索算法》汉译(DeepMind

  弗1*,②黄士杰1*,③克里斯·J.·麦迪逊1,④亚瑟·格斯1,⑤劳伦特·西弗瑞1,⑥乔治·范登·德里施1,⑦朱利安·施立特威泽1,⑧扬尼斯·安东诺娄1,⑨吠陀·潘聂施尔万1,⑩马克·兰多特1,?伞德·迪勒曼1,?多米尼克·格鲁1,?约翰·纳姆2,?纳尔卡尔克布伦纳1,?伊利亚·萨茨基弗2,?蒂莫西·李烈克莱普1,?马德琳·里奇1,?科瑞·卡瓦口格鲁1,?托雷·格雷佩尔1,和?戴密斯·哈萨比斯1作者单位说明:1谷歌DeepMind,英国伦敦EC4A3

  TW,新街广场5号。2谷歌,美国加利福尼亚州94043,景山,剧场路1600号。*这些作者对这项工作作出了同等贡献。

  《自然》2016年1月28日第529卷,484-489页,保留所有权利。?英国麦克米伦出版公司2016版权。本文汉语译者基于“忠于原文”原则全文翻译。同时参考自然杂志官网,由十五部分组成:摘要、导言、策略网络的监督学习、策略网络的强化学习、估值网络的强化学习、基于策略网络和估值网络的搜索算法、AlphaGo博弈算力评估、讨论、方法、参考文献、致谢、作者信息、扩展数据图像和表格、补充资料和网站评论。本文翻译到算力评估。网站提示:邮件可发至戴维·斯尔弗()或DemisHassabis戴密斯·哈萨比斯(.com)。欢迎读者阅读原文,加强学习理解、掌握应用核心信息技术。时间仓促,疏漏之处难免,敬请提出宝贵意见。中文译者:秦陇纪-数据简化DataSimp(贡献3/5以上),

  姬向军-陕西师范大学,杨武霖-中国空间技术研究院,池绍杰-北京工业大学。(转载本公号文章请注明作者、出处、时间等信息,如“此文转自:数据简化DataSimp英译组秦陇纪等人;?微信公号:数据简化DataSimp;2016.3.15Tue译著?。”字样,详情邮件咨询,本文正在投稿,转载请保留本信息。欢迎数据科学和人工智能学界、产业界同仁赐稿。)

  海量搜索空间、评估棋局和落子行为的难度,围棋长期以来被视为人工智能领域最具挑战的经典游戏。这里,我们介绍一种新的电脑围棋算法:使用“价值网络”评估棋局、“策略网络”选择落子。这些深层神经网络,是由人类专家博弈训练的监督学习和电脑自我博弈训练的强化学习,共同构成的一种新型组合。没有任何预先搜索的情境下,这些神经网络能与顶尖水平的、模拟了千万次随机自我博弈的蒙特卡洛树搜索程序下围棋。我们还介绍一种新的搜索算法:结合了估值和策略网络的蒙特卡洛模拟算法。用这种搜索算法,我们的程序AlphaGo与其它围棋程序对弈达到99.8%的胜率,并以5比0击败了人类的欧洲围棋冠军。这是计算机程序第一次在标准围棋比赛中击败一个人类职业棋手——以前这被认为是需要至少十年以上才能实现的伟业。

  都有一种最优值函数v*(s),从所有游戏者完美对弈时每一棋盘局面或状态s,判断出游戏结果。这类游戏可以通过递归计算一个约含bd种可能落子情况序列的搜索树,求得上述最优值函数来解决。这里,b是游戏广度(每个局面可合法落子的数量),d是游戏深度(对弈步数)。在国际象棋(b≈35,d≈80)1,特别是围棋(b≈250,d≈150)1等大型游戏中,虽然穷举搜索并不可取2,3,但有两种常规方法可以减少其有效搜索空间。第一种方法,搜索深度可以通过局面评估来降低:用状态s截断搜索树,将s的下级子树用预测状态s结果的近似值函数v(s)≈v*(s)代替。这种做法在国际象棋4,跳棋5和奥赛罗6中取得了超过人类的性能;但由于围棋7的复杂性,这种做法据信在围棋中变得棘手。第二种方法,搜索广度可以用局面s中表示可能落子a的策略函数p(as)产生的概率分布的弈法抽样来降低。例如,蒙特卡洛走子算法8搜索到最大深度时无任何分支,而是用策略变量p为对弈双方的长弈法序列采样。大体上,这些走子行为提供了一种有效的局面评估,在五子棋8、拼字游戏9和低水平业余围棋比赛10中均实现了超越人类水平的性能。蒙特卡洛

  树搜索(MCTS)11,12用蒙特卡洛走子来估算一个搜索树中每个状态的值。随着更多模拟情况的执行,该搜索树生长变大、相关值变得更加准确。随着时间的推移,通过选择那些较高估值的子树,搜索过程中选择弈法的策略也得到了提高。该策略渐进收敛于最优弈法,对应的估值结果收敛于该最优值函数12。当下最强的围棋程序都基于MCTS,通过预测人类高手落子情况而训练的一些策略,来增强性能13。这些策略大都把此搜索过程限制在高概率弈法,以及走子时的弈法采样。该方法已经在很强的业余博弈中取得了成功13–15。然而,以前的做法仅限于浅层策略13–15,或某些基于一种带输入型特征值的线性函数组合的估值函数。近来

  ,深度卷积神经网络在视觉领域达到前所未有的高性能:例如图像分类17、人脸识别18、雅达利游戏19。他们用重叠排列的多层神经元,逐步构建图像的局部抽象表征20。我们在围棋中采用类似架构:通过把棋局看做为一个19×19的图像,使用若干卷积层构造该局面的表征值。用这些神经网络,我们来减少有效深度及搜索树广度:用一个估值网络评估棋局,用一个策略网络做弈法取样。我们用一种由

  机器学习若干阶段组成的管道来训练这些神经网络(图1)。开始阶段,我们直接使用人类高手的落子弈法训练一种有监督学习(SL)型走棋策略网络pσ。此阶段提供快速、高效的带有即时反馈和高品质梯度的机器学习更新数据。类似以前的做法13,15,我们也训练了一个快速走棋策略pπ,能对走子时的弈法快速采样。接下来的阶段,我们训练一种强化学习(RL)型的走棋策略网络pρ,通过优化那些自我博弈的最终结果,来提高前面的SL策略网络。此阶段是将该策略调校到赢取比赛的正确目标上,而非最大程度的预测准确性。最后阶段,我们训练一种估值网络Vθ,来预测那些采用RL走棋策略网络自我博弈的赢家。我们的程序AlphaGo,用MCTS有效结合了策略和估值网络。图1:神经网络训练管道和架构

  按以前的做法用监督学习预测围棋中高手的落子情况13,21–24。此SL策略网络pσ(as)在带有权重数组变量σ和整流器非线性特征值数组的卷积层间交替使用。最终的softmax层输出一个所有合法落子情况的概率分布a。此策略网络的输入变量s是一个棋局状态的简单标识变量(见扩展数据表2)。策略网络基于随机采样的棋盘情形-操作对(s,a)做训练:采用随机梯度升序法,在选定状态s时,取人类落子a的最大相似度,

  用KGS围棋服务器上的3000万种棋局,训练了一个13层策略网络,称之为SL策略网络。对比其他研究团体提交的44.4%顶尖水准,该网络在一个公开测试数据集上预测高手落子情况:采用全部输入型特征值可达57.0%精度,只采用原始棋局和落子历史数据做为输入可达55.7%(全部结果在扩展数据表3)24。准确性上小的改进,可导致算力大幅提高(图2a);较大网络亦可实现更好的精度,但在搜索过程中的评价会变慢。我们也训练了一个快速、但低准确度的走子策略pπ(as),采用一种带权重π的小图式特征量的线性softmax层(参见扩展数据表4),这样,仅用2微秒选择一种弈法可以达到24.2%的精确度,而不是此策略网络的3毫秒。图2:策略和估值网络的算力和准确性。

  ,标尺图展示作为一个他们训练精确性函数的策略网络博弈算力。每个卷积层分别有128,192,256和384个过滤器的策略网络在训练期间被定期评估;此图显示AlphaGo运用那种策略网络与比赛版AlphaGo对战的胜率。图2b,该估值网络和不同策略走子弈法之间的估值精度比较。从人类专家博弈中做局面和结果采样。每局都由一个单一向前传递的估值网络vθ,或100步走子情况的平均结果做评估,用均匀随机走子,快速走子策略pπ,SL策略网络pσ或RL策略网络pρ等使局面充分被评估。此预测值和实际博弈间的均方差,绘制在博弈阶段(多少落子已经在给定局面)。

  旨在用策略梯度型增强学习(RL)来提高之前的策略网络25,26。这种RL策略网络pρ在结构上与SL策略网络相同,其权重ρ被初始化为相同值:ρ=σ。我们使其在当前策略网络pρ和某个随机选择的上次迭代产生的策略网络之间进行对弈。这种方法的训练,要用随机化的存有对手稳定态的数据池,来防止对当前策略的过度拟合。我们使用报酬函数r(s),对所有非终端时间步长tT时,赋值为0。其结果值zt?=?±?r(sT)是博弈结束时的终端奖励:按照当前博弈者在时间步长t时的预期,给胜方1、败方?1。权重在每一次步长变量t时,按照预期结果最大值的方向,进行随机梯度升序更新25。

  训练管道聚焦在对棋局的评估,用一个估值函数vp(s)做估计,给棋局s中两个使用策略p的博弈者预测结果28,29,30。

  数据集,来预测对弈结果的幼稚做法,会导致过度拟合。其错误在于:连续棋局是紧密相关的,不同处只有一枚棋子,但其回归目标被该完整对弈所共用。我们用这种方法在KGS数据集做过训练,该估值网络记住了那些博弈结果,并没有推广到新棋局,相比此训练集上的0.19,此测试集上达到了0.37的最小均方差(MSE)。为了缓解这个问题,我们生成了一个新的含有3000万明显不同棋局的自我博弈数据集,其每个采样都来自于某一单独对弈。每一场对弈都是在上述RL策略网络与自身之间进行,直到博弈结束。在该数据集上的训练,采用训练和测试数据集分别可达到0.226和0.234的均方差,这表明最小的过拟合。图2b显示了上述估值网络的棋局评估精度,相比使用快速走子策略pπ的蒙特卡洛走子程序,此估值函数一贯都是更加准确。一种vθ(s)单一评价函数也接近使用RL策略网络Pρ的蒙特卡洛程序的精度,且使用少于15000次的计算量。

  时,遍历过的所有边界其弈法值和和访问计数就会被更新。每个边界累加其访问计数值,和所有经过该边界做的模拟的平均估值:

  3a,每次模拟都遍历带最大弈法值Q的那个边界节点,与一个由那个边界节点存储的前驱概率产生的奖励值u(P)相加。图3b,此叶节点可能被展开;新节点采用策略网络pσ,其输出概率值P被存储在每个弈法的前驱概率P中。图3c,模拟结束后,此叶节点被两种方法评估:采用估值网络vθ;和博弈最后用快速落子策略pπ进运行一次走子,然后用函数r计算此赢家的估值。图3d,弈法值Q被更新,用来追踪所有估值r(·)的中间值和那个弈法下面的子树vθ(·)。值得注意的是,此

  传统启发式搜索相比,策略和估值网络需要高出几个数量级的计算量。为了有效结合MCTS和深度神经网络,AlphaGo采用异步多线程搜索,在多CPU上执行模拟、多GPU并行计算策略和估值网络。本最终版AlphaGo使用了40个搜索线个GPU。我们也应用了一种分布式AlphaGo版本,部署在多台机器上、40个搜索线个GPU。方法章节提供异步和分布式MCTS全部细节。5.AlphaGo博弈算力评估为了

  在几个版本的AlphaGo和其它几种围棋程序之间运行了一场内部竞赛,包括最强商业软件CrazyStone13,和Zen,和最强开源程序Pachi14和Fuego15。所有这些程序基于高性能MCTS算法。此外,我们纳入了开源程序GnuGo,一种使用优于MCTS的顶级水平搜索算法的围棋程序。在比赛中,所有软件每一步都只有5s中的计算时间。(未完待续。感谢翻译过程中Dr何万青Dr余凯ETS颜为民等人的译文建议。欢迎大家关注译文质量,我们共同提高。)

  产学研论文和新闻,如数据产业现状、信息和数据的流程简化、数据标准化、小数据和大数据关联简化等方面。未来推送数据科学、人工智能、大数据技术顶级团队和技术信息;推往全球主要数据科学家所在地,中英文同步直播最新产学研信息。谋求尽快达到创业层次做数据行业实业。公号用户2016.2.29Mon预览(包括附件新闻等1.5k字)首日关注43人,第2篇(6.7k字)正式亮相3.1Tue群发关注54人!第3

  篇(12.8k字)第三天总新增79总关注78人;3.2Wed净增关注人数11,累积关注人数96。第4篇约13k字,突破100人关注。第5篇约14.4k字,统计新增关注170人,晚上总用户302人以上。第6篇(9.7k字)3.7Mon净增49关注人数,累计关注311人,总用户数329人。第7篇(4.8k字)3.10Thu新增32人关注,总用户数361人;3.11Fri新增53人关注,总用户数414人,新消息295人。第8篇(9.8k字)3.15Tue总用户数471。各群已发红包几十次感谢大家关注,每增百级关注发红包,欢迎大家关注并请分享朋友圈!数据简化DataSimp公众号合伙人:

  1)具备研究生学历和能力,身处数据科学相关行业;2)对数据科学和数据简化相关研究有浓厚兴趣和充裕时间,每天可投入半小时,或每周有2、3次发文编辑时间;3)从美国、英国、德法、新加坡、日韩等地文章和活动出发,各国均可以找到本地兼职编辑合伙人一起翻译整理;4)接受有数据科学和AI基础的科技媒体记者、新媒体爱好者投稿撰稿。目前6位合伙人(中美韩),尚缺图像美工、网页设计、英德法日韩翻译各一位。1、设计公众号LOGO、文末

  二维码及打赏码组合位图:1)数据简化(datasimplification)LOGO要求显示中英文字:数据Data。LOGO可采用数据“Data”、“DataSimp”变体或缩写DS为基础,简单明了勾勒出对数据做简化的内涵和形象,做成双色组合(静态)和动画(三色)2个版本的。静态位图版可参考新智元标志的布局(其布局颜色设计太模糊不可取),动态有光影闪过效果即可。LOGO用在微信公众号图标尺寸8cm,12cm,15cm,30cm,50cm的正方形二维码中心的图片位。2)二维码及打赏码组合位图:公号二维码(正中是LOGO)及打赏码(小图,大概是公号二维码的3/4左右)组合位图包含位图和图下说明文字,用在文末提醒和吸引读者关注和打赏。优秀者邀请为创始美工设计合伙人,欢迎网页设计师参与投稿。2、跨平台H5网页设计:用于

  跨多种操作系统终端平台(PC桌面电脑、苹果电脑、平板电脑、安卓手机、苹果手机端等)的H5页面设计优化,需要有大量设计素材和经验。目前阶段“数据简化DataSimp”微信公众号页面单调、配图不到位。未来公号全面推向微博、博客、知乎、豆瓣等门户网站及BAT科技类媒体,需要加强兼容各平台的页面设计。我们的口号是:有了数据简化,信息变得简单。

  行业方面文章(关于本领域专家、技术论文、公司产品、事务活动的),抑或你有什么好的想法,都可以发邮件写信给我。原创者投稿发文章时署名(笔名亦可),翻译、整理文章需注明出处和译者、编辑,高质量主力文源作者可加入数据简化DataSimp公号合伙人。投稿邮箱,欢迎大家投稿。如果觉得本号文章有价值,请及时

  科学知识,欢迎关注,回复语音、文字、图片可对话聊天提问,挑战比阿尔法狗AlphaGo更厉害的语音图文多媒体数据人工智能。欢迎关注,回复,点赞,分享朋友圈,转发,转载本公众号文章。(请注明作者、出处、时间等信息,如“此文转自:数据简化DataSimp英译组秦陇纪等人;微信公号:数据简化DataSimp;2016.3.15Tue译著。”字样,详情邮件咨询)本公号文章保留一切权利,如有引文出处不明或遗漏、版权问题等请给公号回复消息留言;投稿邮箱,欢迎数据科学和人工智能学界、业界同仁赐稿。

  陈经:从人机大战前两局推测AlphaGo算法的重大进展陈经:从人机大战前两局推测AlphaGo算法的重大进展。2016年3月10日人机大战第二局,Al...

  AlphaGo这种人工智能算法用在股票市场可以吗?那么问题来了,AlphaGo算法如此强大用在股票市场会如何?AlphaGo对于围棋与股票市场的差异...

  连胜三场,关于 AlphaGo 你需要了解的事。就在刚刚,AlphaGo 以 3:0 的战绩完胜李世石,取得了这次「世纪人机大战」的胜利,无论在围棋...

  A:使用围棋大师着法记录的数据集训练的快速部署策略和SL策略网络,RL策略网络首先被初始化为SL策略网络,然后通过策略梯度来不断改进:...

  为何谷歌围棋AI AlphaGo可能会把李世石击溃?有了上面的三个深度学习策略,AlphaGo把这三个策略引入到蒙特卡洛搜索树中,所以它的总体架...

http://oodlesalootle.com/sousuoboyishu/95.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有