Google研究人员发现黑科技只听你想听的声音

google 的研究人员创建了一个视听模型，可以通过算法将视频中的多个声音分离，得到一个清晰的单个语音。
一位二次元朋友说他有一种能力，就是在 b 站开弹幕看视频时，想看视频就看视频，想看弹幕就看弹幕，两者可以自动分离，不会互相干扰。类似的，人类在听觉上也有一种选择能力，就是人在集中注意力听某个声音时，可以自动忽略其他声音或噪音，感觉像是把要听的声音放大了一样，这种现象叫做鸡尾酒会效应。
这种能力对我们来说好像很自然，但对于计算机可是个不小的挑战。最近，google 的研究人员创建了一个视听模型，可以通过算法将视频中的多个声音分离，得到一个清晰的单个语音。简单来说，你可以选择只听视频中某个人讲话的声音，而不用担心被干扰。
结合视觉听觉信号，识别并分离音轨
利用这种技术制作的视频可以将特定人物的声音增强，把其他无关的声音去掉。在普通的单音轨视频中，用户可以点击自己想关注的人物，或者算法会结合上下段内容来自动选择突出谁的声音。这项技术可以用于增强视频中的语音，提高视听效果。
这项技术的原理是结合视频中的听觉和视觉信号，以此来识别并分离语音。就像识别唇语的原理一样，一个人说话时发出的声音和他嘴部的运动存在某种关联，所以可以利用这一点，来辨别某段声音是谁发出的。在视觉信号的帮助下，即使是在多种声音混杂的环境中，单个声音的特征也变得更明显，更重要的是，你还可以在听到清晰声音的同时看到人嘴部的运动，更容易接收并理解信息。
研究人员用 10 万个高质量的 youtube 视频为样本，从视频中提取清晰的演讲片段，没有背景音乐、没有观众鼓掌、没有噪音，并且视频中只有一个说话的人。他们共提取出 2000 个小时的训练数据，用这些干净的视频来合成“鸡尾酒会”的效果。这样就可以训练一个卷积神经网络模型，将合成的视频分离出多个单独的音轨，也就是每个人单独的声音。将每一帧中嘴部运动的视觉信息提取出来，然后找到声谱图中对应的部分。这样就可以训练神经网络，从声音混杂的视频中，根据人的嘴部运动来提取对应的声音碎片，最后输出成具有单独声音轨道的视频，每一个人的声音都可以进行单独播放。
可以提高语音识别能力
这个黑科技在语音识别中尤其有用，比如 youtube 自己的自动字幕，如果视频中有多种声音混合，字幕就很难准确显示，而如果这几种声音能够单独分离播放，对应的字幕也就更准确，用户也更容易理解。再往远处想，这项技术可以运用到 google glass 这样的智能眼镜中，即使是在纷杂世界，你也可以只关注想关注的人，只听 ta 的声音。除此之外，带视频能力的智能音箱可能是未来的大趋势，有了语音分离能力，语音识别的能力也会更精准、更强大。
这种强大的能力也可能带来隐私问题，比如间谍电影中经常见到的天眼系统，如果再搭配语音分离的能力，岂不是可以做到视听上的全能？不过想达到那样的效果，识别能力就要很精准了。在此之前它的应用可能只是 google 自己的产品，比如增强视频智能音箱的语音识别能力，还有让 youtube 的自动字幕更智能。

再创历史新高，上汽集团11月销售新能源汽车超15万辆
什么是汽车的乘员头颈保护系统(WHIPS)
人工鱼眼检测不够用薄膜鱼眼检测仪应运而生
燃气热水器点火器的原理分析_燃气热水器电路原理图
【直播预告】第二届“绿色能源暨功率器件技术论坛”
Google研究人员发现黑科技只听你想听的声音
解析显色指数CRI参数
工业自动化进入数字化虚拟现实时代
ADI推出高性能雷达AFE(模拟前端)IC AD8283
为什么驱动电压5V以下的继电器很少
荣耀9发布会回顾：荣耀9发布，胡歌代言，四大超实用功能，2599元，不贵值得买
DC/DC和LDO电源的差异关系
机械传感器式电子水表的工作原理及设计
步进电机驱动电路图大全（六款二相步进电机/三相反应式/LT2221驱动电路）
如何设置新路由设置多频合一是什么意思
5G将开启无限流量大战 WiFi会消失吗？
Microchip以太网PHY获通信技术创新奖
绕线型异步电动机的基本结构
英特尔取消实景智能手机将推增强现实眼镜？
杰和科技G1568专为多屏拼接打造高性能主机

Google研究人员发现黑科技 只听你想听的声音

Google研究人员发现黑科技只听你想听的声音