AlphaGo是如何战胜围棋高手的?深度学习告诉你

alphago(阿尔法狗)战胜了柯洁,人工智能赢了,赢家仍然是人类!
深度强化学习drl,其中一个最最经典的应用就是谷歌deepmind团队研发的围棋程序alphago(阿尔法狗)。alphago的胜利将深度强化学习推上新的热点和高度,成为ai人工智能历史上一个新的里程碑。
有必要跟大家一起探讨一下alphago(阿尔法狗),了解一下alphago背后神奇的ai力量。
围棋的程序设计:
围棋是一个完美的、有趣的数学问题。
围棋棋盘是19x19路,所以一共是361个交叉点,每个交叉点有三种状态,可以用1表示黑子,-1表示白字,0表示无子,考虑到每个位置还可能有落子的时间、这个位置的气等其他信息,可以用一个361 * n维的向量来表示一个棋盘的状态。则把一个棋盘状态向量记为s。
当状态s下,暂时不考虑无法落子的地方,可供下一步落子的空间也是361个。把下一步的落子的行动也用361维的向量来表示记为a。
于是,设计一个围棋人工智能的程序,就转变为:任意给定一个s状态,寻找最好的应对策略a,让程序按照这个策略走,最后获得棋盘上最大的地盘。
谷歌deepmind的围棋程序alphago(阿尔法狗)就是基于这样思想设计的。
alphago概述:
alphago(阿尔法狗)创新性地将深度强化学习drl和蒙特卡罗树搜索mcts相结合, 通过价值网络(value network)评估局面以减小搜索深度, 利用策略网络(policy network)降低搜索宽度, 使搜索效率得到大幅提升, 胜率估算也更加精确。
mcts必要性:
alphago(阿尔法狗)系统中除了深度强化学习drl外,为什么还需要蒙特卡罗树搜索?
围棋棋面总共有19 * 19 = 361个落子位置。假如计算机有足够的计算能力,理论上来说,可以穷举黑白双方所有可能的落子位置,找到最优或次优落子策略。如果穷举黑白双方所有可能的落子位置,各种组合的总数,大约是 250^150 数量级,即围棋的计算复杂度约为250的150次方。假如采用传统的暴力搜索方式(遍历搜索方式),用当今世界最强大云计算系统,算几十年也算不完。按照现有的计算能力是远远无法解决围棋问题的。早期计算机围棋软件通过专家系统和模糊匹配缩小搜索空间, 减轻计算强度, 但受限于计算资源和硬件能力, 实际效果并不理想。
但是到了2006年,蒙特卡罗树搜索的应用标志着计算机围棋进入了崭新阶段。
alphago系统组成:
alphago(阿尔法狗)系统主要由几个部分组成:
1.策略网络(policy network):给定当前围棋局面,预测/采样下一步的走棋。
2.快速走子(fast rollout):目标和策略网络一样,只不过围棋有时间限制,需要在规定时间内适当牺牲走棋质量情况下,快速落子,速度要比策略网络要快1000倍。
3.价值网络(value network):给定当前围棋局面,估计是白胜还是黑胜。
4.蒙特卡罗树搜索(monte carlo tree search):不穷举所有组合,找到最优或次优位置。
把以上这四个部分结合起来,形成一个完整的alphago(阿尔法狗)系统。
蒙特卡洛树搜索 (mcts) 是一个大框架,许多博弈ai都会采用这个框架。强化学习(rl)是学习方法,用来提升ai的实力。深度学习(dl)采用了深度神经网络 (dnn),它是工具,用来拟合围棋局面评估函数和策略函数的。蒙特卡洛树搜索 (mcts) 和强化学习rl让具有自学能力、并行的围棋博弈算法成为可能。深度学习(dl)让量化地评估围棋局面成为了可能。
小结:
可以说 alphago 最大优势就是它应用了通用算法,而不是仅局限于围棋领域的算法。alphago胜利证明了像围棋这样复杂的问题,都可以通过先进的ai人工智能技术来解决。

高通中国区董事长孟樸:共创5G新生态,共赢智能互连新时代
嵌入式技术学习分享如何系统提升技能
腾讯院士专家工作站助力2021浦江创新论坛 科技创新青年峰会
中国移动TD五期难改配角地位
NSK研发驱动电机用高速球轴承,具有优异抗咬粘性的润滑脂
AlphaGo是如何战胜围棋高手的?深度学习告诉你
Imagination 和明导国际扩大合作伙伴关系,其开放源嵌入式工具可支持所有MIPS CPU
联想小新Pro 13s故宫文创联名版将于12月25日开启预约 售价6999元
郭台铭在美国正式宣告交棒,路透社点名为出线接班机率最高的人选
回顾vivo成2018及2022年两届FIFA世界杯全球官方赞助商详细消息
LED防爆路灯的性能_LED防爆路灯的优缺点
硬件电路设计之STM32最小系统电路设计
华为运动健康科学实验室投入使用,华为首次对外展示相关顶级研究设备
脉冲式快速充电器电路设计
放大电路中直流电源的两大作用
杉木生物基于微流控和AI算法,研发尿液“连续无感”健康监测技术
微雪电子0.96inch OLED (A) 带SPI/I2C驱动模块简介
打造物联网的未来需要依靠什么
ai语音助手测试结果出炉,谷歌智商领先苹果
琴川嘉安电能管理系统的设计与应用(安科瑞 王琪)