加拿大创业公司 dessa 开发出一个语音合成系统 realtalk,与以往基于语音输入学习人声的系统不同,它可以仅基于文本输入生成完美逼近真人的声音。不过,出于伦理、社会影响等方面的考虑,dessa 并未公布该项目的研究细节、模型和数据集。
加拿大创业公司 dessa 近日发布了一项新研究:利用其最新开发的 realtalk 系统,仅利用文本输入即可生成完美逼近真人的声音。其 demo 中展示了美国著名脱口秀喜剧演员、主持人 joe rogan 的声音(joe rogan 就是那个让马斯克在节目中嗨了的主持人)。
所有音频均为机器学习模型使用文本输入生成的。音频中包括换气声、「um」「ah」等词语和噪声。
视频中,「joe rogan」用他一贯的语调和风格,谈论黑猩猩曲棍球队、快速说绕口令,甚至模拟了一段「joe rogan 被人工智能研究者困在机器中」的情境……
joe rogan 本人在听了模拟音频后表示:「it's terrifyingly accurate」。有 twitter 网友评论道「你应该和 ai joe rogan 来一次访谈,lol」……
joe rogan 发 ins 表示:「我的立场就是惊讶地耸肩摇头,然后接受它。未来越来越奇怪了,朋友们。」
复制 rogan 声音这一项目是由 dessa 公司机器学习工程师 hashiam kadhim、joe palermo 和 rayhane mama 组成的团队创造的,他们使用了一个文本转语音的深度学习系统 realtalk,可以仅基于文本输入生成逼真的语音。
是不是很疯狂?dessa 首席机器学习架构师 alex krizhevsky (是的没错,他就是 alexnet 的发明者)认为这是「我所看到的人工智能领域最酷也最恐怖的事件之一。与理论上 40100 年后才会出现的奇点不同,语音合成已经成为现实。」也许大家和他的想法是一样的。
这意味着什么?会产生什么社会影响?
想想看,dessa 的工程师用 ai 合法地创建了 joe rogan 声音的逼真复制品,多么不可思议。而且,该模型能够复制任何人的声音,只要能够获得足够的训练数据。
而作为构建现实世界应用的 ai 从业者,dessa 也考虑到了这一点:这项技术会带来什么影响?
很明显,语音合成等技术的社会影响是巨大的。它会影响到每一个人:不管有钱没钱,不管是企业还是政府。
目前,要创建像 realtalk 这样性能良好的模型需要技术知识、独创性、计算能力和数据。所以,不是任何人都可以实现它。但是在接下来的几年里(甚至更短的时间内),技术可能会发展到只需要几秒钟的音频就能复制出世界上任何人的声音。
这样就很恐怖了。
如果这种技术落入坏人之手,可能会发生下面的情况:
垃圾邮件发送者假冒你母亲或者爱人来获取你的个人信息;
以霸凌或骚扰为目的冒充别人;
冒充政府官员进入绝密区域;
利用政客的「audio deepfake」来操纵选举或引发社会暴动;
……
除了消极影响之外,dessa 也考虑了这项技术的积极一面。
如果这项技术被正确利用的话,则:
和语音助手说话的时候感觉很自然,就像与朋友聊天一样。
可以定制语音应用程序,比如,健身 app 里鼓励大家锻炼的个性化话语来自阿诺·施瓦辛格。
为只能通过文本-语音设备进行交流的人提供了一种交流选项,比如患有卢·格里克病(渐冻人症,als)的人。
用任何语言为任意媒体文件自动配音。
正如牛津大学人类未来研究所在最近发布的一份报告《the malicious use of artificial intelligence》中所提到的那样:人工智能领域的进步不仅扩大了现有威胁,还带来了新的威胁。
如何从伦理方面考虑来构建这个技术,dessa 还没有完全得出答案。但未来几年里,这项技术将不可避免地建立起来并应用到现实世界中。因此,除了提高意识和承认问题以外,dessa 表示希望这项研究能够开启关于语音合成技术的对话和讨论。
每个人都应该知道,随着语音合成技术的发展,可能会发生什么样的情况。正如 deepfake 技术出现时我们看到的那样,公众意识和对话促使政府、政策制定者、立法者迅速采取行动并制定对策。
dessa 在相关博客中表示:作为应用人工智能公司,dessa 的一个重要责任是,了解在研究领域探索 ai 和在现实中应用 ai 有着巨大的差别。为了负责任地对待这种技术,他们认为在开源该项目之前,应该让公众首先意识到语音合成模型的影响。
也因此,dessa 目前没有公开研究细节、模型或数据集。
dessa 表示后续将发布博客,介绍 realtalk 的工作原理和构建过程。
3D-AI多目标检测器有效帮助规划道路和城市未来
最清晰华为P10渲染图再曝光:分屏设计+麒麟960!
中美两国在人工智能领域应当怎么做
分享一个有趣的LED装饰项目
电池电极的纳米级电路详解
RealTalk系统利用文本输入生成逼近真人声音 社会影响巨大
互动投影是什么,有什么作用
怎么使用python提取华为交换机的接口IP信息保存到excel中呢?
磐石测控:非标定制-轴承扭力试验机的内容结构?
IP网络监控摄像机安装事项
中兴axon 20评测 中兴屏下摄像头手机评测 拆解首款量产屏下摄像5G手机
电动拖把什么牌子好?清洁高效快速!
安全积分超市落地工地安全生产大变化
赛灵思推出两种实时视频转码解决方案,专为实现高质量直播视频而开发
对比韩企存储技术,长江存储发展如何
采用RS-485总线方式实现视频字符叠加器的设计方案
ZETag云标签_日本索喜即将量产支持纵行科技Advanced M-FSK标准的物联网芯片
2018年华为智能手机出货突破2亿台:Mate系列和P系列出货近3000万台
想要使用 Linux 命令,但又不想离开 Windows?
每日一课 | 在智慧灯杆里,边缘计算具体是指什么?