《超级马里奥兄弟》你能玩到第几关?说起这款fc时代的经典游戏,大家可能再熟悉不过了,大鼻子、留胡子,永远穿着背带工装服的马里奥大叔,成为了很多80/90后的童年回忆。看着画面中熟悉的马里奥大叔一路跌跌撞撞,躲避半路杀出来的毒蘑菇,锤子乌龟,头盔兔子、食人花,感觉又回到了小时候。
最早发行的这版《超级马里奥兄弟》设置8个场景,每个场景分为4关,共32个关卡,相信很多朋友至今还没有完全通关。
viet nguyen就是其中一个。这位来自德国的程序员表示自己只玩到了第9个关卡。因此,他决定利用强化学习ai算法来帮他完成未通关的遗憾。
现在他训练出的ai马里奥大叔已经成功拿下了29个关卡。
不过,遗憾的是第4、7、8场景中的第4关卡未通过。viet nguyen解释说,这与游戏规则的设置有关。在一场游戏结束后,玩家可以自行选择通关路径,但这可能出现重复访问同一关卡的情况,所以ai未成功进入到这三关游戏之中。
viet nguyen使用的强化学习算法正是openai研发的近端策略优化算法(proximal policy optimization,简称ppo),他介绍,此前使用a3c代码训练马里奥闯关,效果远不及此,这次能够达到29关也是超出了原本的预期。
现在viet nguyen已经将基于ppo编写的完整python代码发布到了github上,并给出了详细的使用说明,感兴趣的朋友可以体验一下:
github地址:https://github.com/uvipen/super-mario-bros-ppo-pytorch
还会玩dota的ai算法:ppo
据了解,ppo是openai在2017年开发的算法模型,主要用来训练虚拟游戏玩家openai five,这位虚拟玩家在2018年的dota2人机对抗赛中,战胜过世界顶级职业选手,同时能够打败99.95%的普通玩家。
复杂的游戏环境一直被研究人员视为ai训练的最佳场景。为了让ai掌握游戏规则,学会运用策略,强化学习是研究人员常用的机器学习方法之一,它能够描述和解决ai智能体(agent)在与环境交互过程中通过学习策略实现特定目标的问题。
近端策略优化算法(ppo)已成为深度强化学习基于策略中效果最优的算法之一。有关该算法的论文已经发布在arxiv预印论文库中。
论文中指出,ppo是一种新型的策略梯度(policy gradient)算法,它提出新的“目标函数”可以进行多个训练步骤,实现小批量的更新,解决pg算法中步长难以确定的问题。固定步长的近端策略优化算法如下:
(每次迭代时,n个actor中的每个都收集t个时间步长的数据。 然后在这些nt时间步长的数据上构建替代损失,并使用 minibatch sgd 进行k个epochs的优化。)
研究人员表明,该算法具有信任区域策略优化(trpo)的一些优点,但同时比它实施起来更简单,更通用,具有更好的样本复杂性(凭经验)。为了证实ppo的性能,研究人员在一些基准任务上进行了模拟测试,包括人形机器人运动策略和atari游戏的玩法。
ppo算法的基准任务测试
在游戏角色的ai训练中,一种基本的功能是具备连续性的运行和转向,如在马里奥在遇到诸如地面或者空中障碍时,能够以此为目标进行跳转和躲避。论文中,研究人员为了展示ppo的高维连续控制性能,采用3d人形机器人进行了测试,测试任务分别为:
(1)仅向前运动;(2)每200个时间步长或达到目标时,目标位置就会随机变化;(3)被目标击倒后,需要从地面站起来。以下从左至右依次为这三个任务的学习曲线。
研究人员从以上学习曲线中,随机抽取了任务二在某一时刻的性能表现。如下图,
可以看出,在第六帧的放大图中,人形机器人朝目标移动,然后随机改变位置,机器人能够跟随转向并朝新目标运行。说明ppo算法在连续转控方面具备出色的性能表现。
那么它在具体游戏中“获胜率”如何呢?研究人员运用atari游戏合集(含49个)对其进行验证,同时与a2c和acer两种算法进行了对比。为排除干扰因素,三种算法全部使用了相同的策略网络体系,同时,对其他两种算法进行超参数优化,确保其在基准任务上的性能最大化。
如上图,研究人员采用了两个评估指标:(1)在整个训练期间每集的平均获胜数;(2)在持续100集训练中的每集的平均获胜数。 前者更适合快速学习,后者有助于最终的比赛表现。可以看出ppo在指标一种的获胜次数达到了30,在小样本下有更高的胜率。
最后研究人员还强调,ppo近端策略优化的优势还在于简洁好用,仅需要几行代码就可以更改为原始策略梯度实现,适用于更常规的设置,同时也具有更好的整体效果。
BP网络在蓄电池电压监测模块设计与应用
意法半导体(ST)推出全新Cartesio+处理器
杨杰:移动与广电5G共建共享明年落地 5G网络共建共享细节仍待确定
隆达MiniLED产品已开始量产出货 预估明年相关产品占新事业部门比重将达50%
理论性能远超SiC?GaN功率二极管的发展历程
基于PPO强化学习算法的AI应用案例
索尼全新的PS VR控制器曝光,可实现Index控制器中单个手指追踪技术
汽车全景影像系统的发展及市场规模
HMI-Board开发板工程在添加新组件时LVGL组件会报错的解决办法
Chemtronics:电子+化学+车辆通信(V2X)三大组合助力业绩反弹
维修电路板时快速寻找GND的几种方式
一帧CAN报文多少字节
智慧公安大数据平台针对数据的处理可做到哪些方面
华人人工智能专家李飞飞加盟谷歌 领导机器学习部门
三星LCD产线停产的计划再次延后
存储系统的硬件层是怎样的情况
行人分析工具PP-Human重磅升级!
物联网的未来将会怎样来改变我们的生活
珠海超声波塑焊机厂家介绍埋植工艺
8K电视走向全整合大战,Micro LED走模块化灵活应用