语音领域的GPT时刻：Meta 发布「突破性」生成式语音系统，一个通用模型解决多项任务

继开源 llama 之后，meta 在生成式 ai 方向又公布一项重大研究。
我们知道，gpt、dall-e 等大规模生成模型彻底改变了自然语言处理和计算机视觉研究。这些模型可以生成高保真文本或图像，而且它们有个重要特点就是「通才」，可以解决没训过的任务。相比之下，语音生成模型在规模和任务泛化方面一直没有「突破性」成果。今日，meta 介绍了一种「突破性」的生成式语音系统，它可以合成六种语言的语音，执行噪声消除、内容编辑、转换音频风格等。meta 称之为最通用的语音生成 ai。
相关研究论文也已公布。接下来我们具体看下这下项研究。
论文：https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/ meta 表示，voicebox 是第一个没有经过专门针对语音生成的训练，却可以泛化到语音生成任务的模型。与图像和文本的生成一样，voicebox 可以创建多种样式的语音输出，包括从头开始创建输出和修改给定的样本。voicebox 可以合成六种语言的语音，以及执行噪声去除、内容编辑、风格转换和多样化样本生成。在 voicebox 出现之前，生成语音的 ai 需要使用精心准备的训练数据对每项任务进行特定训练。而 voicebox 仅需要从原始音频和随附的转录文本中学习，并且 voicebox 可以修改给定样本的任何部分。 voicebox 基于一种称为流匹配（flow matching）的方法，该方法已被证明可以改进扩散模型。在生成效果方面，voicebox 的可懂度（词错率：1.9% vs 5.9%）和音频相似度（0.681 vs 0.580）优于当前英文语音生成 sota 模型 vall-e，并且速度快了 20 倍。在跨语言风格迁移任务上，voicebox 优于 yourtts，将平均词错率从 10.9% 降低到 5.2%，将音频相似度从 0.335 提高到 0.481。
voicebox 在词错率指标上的表现优于 vall-e 和 yourtts，实现新的 sota。

原文标题：语音领域的gpt时刻：meta 发布「突破性」生成式语音系统，一个通用模型解决多项任务
文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

电刷的作用及工作原理电刷材质哪个好
Python条件和条件语句
腾讯科技（深圳）有限公司新增多项量子处理器等专利
MAX5400, MAX5401 低漂移数字电位器，256抽
变压器的绕组用线是不是越粗越好
语音领域的GPT时刻：Meta 发布「突破性」生成式语音系统，一个通用模型解决多项任务
气体传感器加入到锂离电池热失控检测报警应用的案例分析
基于STM32F105RE和W5500的双CAN及硬件TCP通讯设计
怪物级芯片拆解：苹果A10为什么可以与英特尔CPU抗衡？
苹果推出特定版iPhoneXS 免费赠送安全研究人员来帮助他们发现iOS系统的Bug
漏洞扫描原理及程序
rpm命令参数列表
浅谈离子电池分容技术的二种解释
环网柜和开关柜的区别
液压系统的组成及优缺点_液压系统的维护
几种特殊的函数宏封装方式，你会吗？
基于DM1105TS芯片实现数字电视接收PCI卡的应用设计
电脑水分测定仪的工作原理是什么
线性稳压器介绍
工信部开展新能源汽车安全隐患排查