语音领域的GPT时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务

继开源 llama 之后,meta 在生成式 ai 方向又公布一项重大研究。
 我们知道,gpt、dall-e 等大规模生成模型彻底改变了自然语言处理和计算机视觉研究。这些模型可以生成高保真文本或图像,而且它们有个重要特点就是「通才」,可以解决没训过的任务。相比之下,语音生成模型在规模和任务泛化方面一直没有「突破性」成果。  今日,meta 介绍了一种「突破性」的生成式语音系统,它可以合成六种语言的语音,执行噪声消除、内容编辑、转换音频风格等。meta 称之为最通用的语音生成 ai。  
 相关研究论文也已公布。接下来我们具体看下这下项研究。  
 论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/  meta 表示,voicebox 是第一个没有经过专门针对语音生成的训练,却可以泛化到语音生成任务的模型。      与图像和文本的生成一样,voicebox 可以创建多种样式的语音输出,包括从头开始创建输出和修改给定的样本。voicebox 可以合成六种语言的语音,以及执行噪声去除、内容编辑、风格转换和多样化样本生成。  在 voicebox 出现之前,生成语音的 ai 需要使用精心准备的训练数据对每项任务进行特定训练。而 voicebox 仅需要从原始音频和随附的转录文本中学习,并且 voicebox 可以修改给定样本的任何部分。  voicebox 基于一种称为流匹配(flow matching)的方法,该方法已被证明可以改进扩散模型。  在生成效果方面,voicebox 的可懂度(词错率:1.9% vs 5.9%)和音频相似度(0.681 vs 0.580)优于当前英文语音生成 sota 模型 vall-e,并且速度快了 20 倍。在跨语言风格迁移任务上,voicebox 优于 yourtts,将平均词错率从 10.9% 降低到 5.2%,将音频相似度从 0.335 提高到 0.481。  
voicebox 在词错率指标上的表现优于 vall-e 和 yourtts,实现新的 sota。  

原文标题:语音领域的gpt时刻:meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务
文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

电刷的作用及工作原理 电刷材质哪个好
Python条件和条件语句
腾讯科技(深圳)有限公司新增多项量子处理器等专利
MAX5400, MAX5401 低漂移数字电位器,256抽
变压器的绕组用线是不是越粗越好
语音领域的GPT时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务
气体传感器加入到锂离电池热失控检测报警应用的案例分析
基于STM32F105RE和W5500的双CAN及硬件TCP通讯设计
怪物级芯片拆解:苹果A10为什么可以与英特尔CPU抗衡?
苹果推出特定版iPhoneXS 免费赠送安全研究人员来帮助他们发现iOS系统的Bug
漏洞扫描原理及程序
rpm命令参数列表
浅谈离子电池分容技术的二种解释
环网柜和开关柜的区别
液压系统的组成及优缺点_液压系统的维护
几种特殊的函数宏封装方式,你会吗?
基于DM1105TS芯片实现数字电视接收PCI卡的应用设计
电脑水分测定仪的工作原理是什么
线性稳压器介绍
工信部开展新能源汽车安全隐患排查