大家应该都知道声音克隆技术,通俗的来说就是借助深度学习算法,可以完全模拟某个人的声音,而且由机器合成的语音连情绪都能够完美表达出来,基本可以以假乱真,只要不见面,你根本就察觉不出来向你发出声音的知识一个机器。
语音克隆最大的创新之一是减少创建语音所需的原始数据量。过去,该系统需要数十甚至数百小时的音频。但是,今天猿妹要和大家分享的这个工具5秒钟就可以克隆成功,这个工具名叫——mockingbird。
mockingbird已经登上github热榜,收获3.5k的star,累计分支 303(github地址:https://github.com/babysor/mockingbird)
mockingbird具有如下特性:
支持普通话并使用多种中文数据集进行测试
适用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,gpu tesla t4 和 gtx 2060
支持 windows + linux
仅使用新训练的合成器(synthesizer)就有良好效果,复用预训练的编码器/声码器
mockingbird如何使用
mockingbird的安装要求如下:
首先,mockingbird需要python 3.7 或更高版本
安装 pytorch
安装 ffmpeg。
运行pip install -r requirements.txt 来安装剩余的必要包。
安装 webrtcvad 用 pip install webrtcvad-wheels。
接着,你需要使用数据集训练合成器:
下载 数据集并解压:确保您可以访问 train 文件夹中的所有音频文件(如.wav)
使用音频和梅尔频谱图进行预处理:python synthesizer_preprocess_audio.py 《datasets_root》 可以传入参数 --dataset {dataset} 支持 adatatang_200zh, magicdata, aishell3
预处理嵌入:python synthesizer_preprocess_embeds.py 《datasets_root》/sv2tts/synthesizer
训练合成器:python synthesizer_train.py mandarin 《datasets_root》/sv2tts/synthesizer
当你在训练文件夹 synthesizer/saved_models/ 中看到注意线显示和损失满足您的需要时,请转到下一步。
使用预先训练好的合成器,如果没有设备或者不想慢慢调试,可以使用网友贡献的模型。
训练声码器
预处理数据: python vocoder_preprocess.py 《datasets_root》
训练声码器: python vocoder_train.py mandarin 《datasets_root》
启动工具箱
然后你可以尝试使用工具箱:python demo_toolbox.py -d 《datasets_root》
Buck电路电感的最大值峰值是在什么电压下面的
浅谈高通与联发科在5G智能手机市场的竞争
Nginx文件强制下载的配置方法
一份非常详尽的PyTorch教程,从如何安装PyTorch开始
铜电镀应用广泛 光伏方案多元化
借助深度学习算法实现5秒内克隆你的声音
高精度低功耗稳压器PC57L0XX参数概述 600ma待机电流
899元,3G+32G+8核处理器,宝石蓝,颜值年度最高!
哪种耳机运动时比较好用,运动蓝牙耳机性价比高推荐
手机射频典型电路分析
小米6首发骁龙835处理器受三星节制,或换黑科技替代
在S7中FB520如何触发RFID控制
IPv6公共DNS DoT/DoH开启公测
基于数字信号处理器DSP2106X实现雷达信号处理系统的设计
智能家居行业未来前景无限,将逐步演化为家电行业的下一个百亿级市场
联通混改方案猜想:借力BAT 引入外部资本
iOS13.3正式版发布 修复大量bug
探索智能电池保护器的功能与优势
魅族MX7什么时候上市最新消息:良心配置,还有黑科技!对垒小米6!
dfrobot半柔性太阳能电池板 (5V@2A)简介