强化学习(rl)能通过奖励或惩罚使智能体实现目标,并将它们学习到的经验转移到新环境中。但强化学习存在众所周知的缺陷:由于数据科学家在它们接受训练的环境中对这个系统进行基准测试,所以产生了过拟合,即训练数据拟合程度过当的情况。非营利性人工智能研究公司openai正在通过人工智能训练环境(coinrun)来解决这个问题,该环境为智能体将其经验转移到不熟悉的场景的能力提供了一项衡量指标,它本质上就像一个拥有敌人、目标和不同难度关卡等完备信息的经典平台游戏。
openai表示coinrun在复杂性方面取得了理想的平衡效果,其训练环境比《刺猬索尼克》等传统游戏平台简单得多,但它仍然对最先进的算法提出了一个有价值的泛化问题。coinrun的训练级别是程序生成的,可为智能体提供大量易于量化的训练数据。
正如openai所解释的那样,之前在强化学习环境中所做的工作主要集中在程序生成的迷宫、像一般电子游戏ai框架这样的社区项目以及像《刺猬索尼克》这样的游戏上,通过在不同等级上的训练和测试智能体来衡量泛化效果。相比之下,coinrun在每个等级训练结束时都会为智能体提供一个奖励。
在传统的训练中,ai智能体必须应对碰撞以后会导致死亡的固定或者移动的障碍。当收集完硬币,或者走1000步之后,训练就结束了。
似乎这还不够,所以openai开发了两个额外的环境来探索过拟合的问题:coinrun-platforms和randommazes。coinrun-platforms包括随机分散在平台上的几个硬币,促使智能体积极探索关卡并时不时做一些回溯。randommazes是一个简单的迷宫导航任务。
为了验证coinrun、coinrun-platforms和randommazes,openai培训了9个智能体,每个智能体具有不同数量的训练等级。前8个接受了100到16000个等级的训练,最后一个接受了不受限制的等级训练——实际上大约是200万个——这样它就不会两次看到相同的等级。
智能体在4000训练等级处出现了过拟合,甚至在16000的训练等级处也是这样。表现最佳的智能体竟然是那些受到无限制水平训练的。在coinrun-platforms和randommazes中,智能体在所有情况下都过拟合了。
openai称,使用程序生成的coinrun环境可以精确地量化这种过拟合,可以更好地评估关键架构和算法决策。openai相信从这种环境中汲取的经验教训将适用于更复杂的环境,也希望利用这一基准,以及其他类似的基准来迭代开发更通用的智能体。
国内首款高性能LCOS芯片正式发布
电磁阀性能测试方法的详细说明
英飞凌为世界注入无限绿色能源,助力零碳转型
DRAM价格触底反弹,专家曝真实原因
VR/AR行业遭遇寒流 企业如何迎接新挑战?
如何测试强化学习智能体适应性
西安邮电大学在8寸硅片氧化镓外延片取得重要进展
88E2040LA1-BUT4C000以太网收发器Marvell
内置分频, 倍频电路超小型PLL时钟发生器
各芯片巨头入局,欲抢占机器人市场这块大“蛋糕”,动作频频
三星利用容器化技术在5G网络软件开发水平云原生平台
MSO/DS2302A、MSO2302A-S示波器
安森美公布破纪录2022年第1季度 收入、毛利率和non-GAAP每股收益
新迪数字承担的工信部工业互联网创新发展工程项目顺利验收!
SigmaStar芯片的应用,不止于智慧生活
iFixit“依照惯例”来拆解iPhone XR新机
苹果iPhone13真香?五筒后置设计辣眼睛
韩国将追加提供470MHz的5G频率
索尼Z9G评测 如此定义8K电视足以让后来者仰视
磐石测控:深圳扭力测试仪精度的因素影响有哪些?