教导人工智能做出正确的行为

在经历了几十年起起伏伏的发展后,人工智能终于开始为公司企业带来实实在在的价值了。近日,麦肯锡发布了报告指出,新进入人工智能领域的公司将学习到早期进入这一领域的巨头在投资以及创造价值上面的丰富经验。新技术开启新应用,但也会带来新的风险。应用高新技术,必须注意新技术带来的危险。因此,最近openai和deepmind的研究人员希望利用一种能从人工反馈中学习的新算法,使人工智能更安全。
这两家公司都是强化学习领域的专家。强化学习是机器学习的一个分支,即在给定的环境下,如果人工智能系统做出正确行为,那么就给予奖励。目标通过算法来制定,而人工智能系统通过编程去寻求奖励,例如在游戏中赢得高分。
在教会机器玩游戏,或是通过模拟来驾驶无人车的场景下,强化学习非常成功。这种方法在探索人工智能系统的行为时非常强大,但如果编死的算法出现错误,或是产生不必要的副作用,那么也可能非常危险。
发表至arxiv的一篇论文描述了一种新方法,有助于预防此类问题。首先,人工智能系统在环境中产生随机行为,预期的奖励基于人工判断,而这将被反馈至强化学习算法,以改变人工智能系统的行为。
研究人员将这种技术应用至一项训练任务。关于人工智能行为的两段视频被发给人工,而人工将判断哪种行为干得更好。
通过这种方式,人工智能系统可以逐渐学会如何追逐奖励,通过更好地解释人工的评判来学会达成目标。这样的强化学习算法会调整自身的行为,并不断寻求人工的认同。
在这项任务中,人工评判者只花了不到1小时时间。然而对于更复杂的任务,例如做饭或发送电子邮件,那么还需要更多的人工反馈。这样做可能是不经济的。
论文的共同作者、openai研究员达里奥。阿莫德伊(darioamodei)表示,减少对人工智能系统的监督是未来可能专注的一个研究领域。
他表示:“从广义上说,半监督学习技术在这里可能会有帮助。另一种可能的选择是提供信息密集的反馈形式,例如语言,或者让人工指向屏幕的特定部分,以代表良好行为。信息更密集的反馈或许将帮助人工减少与算法沟通的时间。”
研究员在其他模拟机器人和atari游戏中测试了他们的算法。结果表明,机器某些时候可能取得超人的成绩。不过,这在很大程度上依赖人工的评判能力。
openai在博客中表示:“关于什么行为是正确的,我们算法的表现与人工评判者的直觉一样好。但如果人工对于任务没有很好的把握,那么可能就无法提供较多有帮助的反馈。”
阿莫德伊表示,目前的结果仅限于非常简单的环境。不过,对于那些奖励难以量化的任务,例如驾驶、组织活动、写作,以及提供技术支持,这可能会很有帮助。

IBM成为上海张江人工智能岛的首家进驻企业
用于医疗应用的微型2 瓦DC-DC转换器
荣誉资质 | 润和软件入选中国电子工业标准化技术协会RISC-V工作委员会成为首届委员单位
Nordic Semiconductor 推出全球首款ANT+与蓝牙低功耗 (BLE) 整合芯片
中控智慧科技考勤机M980简介
教导人工智能做出正确的行为
dfrobot8x8 RGB LED Matrix 点阵模块简介
获6亿巨额融资,智能家居行业的前景广阔
PCIe引脚定义和PCIe协议层介绍
商汤与本田共同深耕自动驾驶技术,加速智能汽车的研发进程
详解二极管单项导电特性
小米Play水滴屏手机机身重量只有150g轻到了极致
快讯:天舟三号从空间站后端绕前端对接 特斯拉发布Q1财报
2021年哪些蓝牙耳机好?适合送礼的高性价比耳机评测!
2024年国内新型储能市场十大趋势
8位单片机NY8A054E概述、功能及特点
音叉物位开关与震棒式物位开关的区别
CS7530CC支持PD3.0,双C口协议芯片,20-35W功率
PCB设计基础-原理图的绘制-2
碧玉年华的Wi-Fi如何解决成长的烦恼