来自英特尔ai实验室和俄勒冈州立大学工程学院协作机器人和智能系统研究所的研究人员结合了多种方法,制作了性能更好的强化学习系统,可应用于机器人控制,控制自主车辆功能的系统和其他复杂系统。
协同进化强化学习(cerl)可以在类人、hopper、swimmer、halfcheetah和walker2d等基准测试中获得更好的性能。使用cerl方法,研究人员能够基于openai的humanoid基准测试使3d人形机器人直立行走。
这些成果在一定程度上是通过训练系统实现的,该系统探索了更多的强化学习训练环境,以寻求奖励并完成特定的任务。
环境探索对于确保记录各种经验并考虑行动方案非常重要。研究人员在一篇解释cerl工作原理的论文中说,与环境探索相关的问题已经出现,特别是在使用深度强化学习来完成具有挑战性的现实任务越来越普及的情况下。该论文写道,“神经进化将整个过程结合在一起,产生了一个超越任何个体学习者能力的学习者。”
cerl将基于策略梯度的强化学习和进化算法相结合,然后在每批或每一代训练系统中选择表现最佳的神经网络。这样,研究人员可以就可以使用最强大的神经网络来创建新一代的系统,并且可以将计算资源分配给实现最佳性能的算法。
cerl还结合了重放缓冲区,用于存储学习者在环境中的体验,以便创建单个重放缓冲区并在系统之间共享体验,从而实现比以前方法更高的样本效率。
当前,人工智能正在从多个方面赋予机器人越来越多的能力,相信随着相关技术的不断增强,人形机器人的应用场景也将会大大拓展。
富捷电子,实力发展打造自主品牌崛起之路
苹果正测试把音乐和播客引入微软商店
三星Galaxy Fold 2使用的是什么处理器
Meta AI重磅推出LIMA!媲美GPT-4、无需RLHF就能对齐!
无风高低温试验箱与传统高低温试验箱的测试对比
如何让3D人形机器人学会行走
为什么电脑会掉电重启或隔段时间重启
中国联通与中物联合作,助力数字供应链快速发展
泰克混合域示波器巡展拉开帷幕
直击新一轮中美贸易战,看谁将赢得这场博弈?
物联网平台探秘之何为物联网平台
黑莓手机再出新旗舰,搭载骁龙625,售价3000+?莓友霉如何评价这款手机?
中国机器人行业细分领域投融资情况分析
更换电容器增大整流器负载能力
人工神经网络中语音分析与图像识别的研究
浅谈LTCC技术的工艺流程及特点
镍氢电池充放电工作原理
IBM发布2nm芯片,它能否实现量产
华为目标:鸿蒙生态的市场份额达到16%
Agilent安捷伦E8257D射频发生器E8267A