Google研究人员发现黑科技 只听你想听的声音

google 的研究人员创建了一个视听模型,可以通过算法将视频中的多个声音分离,得到一个清晰的单个语音。
一位二次元朋友说他有一种能力,就是在 b 站开弹幕看视频时,想看视频就看视频,想看弹幕就看弹幕,两者可以自动分离,不会互相干扰。类似的,人类在听觉上也有一种选择能力,就是人在集中注意力听某个声音时,可以自动忽略其他声音或噪音,感觉像是把要听的声音放大了一样,这种现象叫做鸡尾酒会效应。
这种能力对我们来说好像很自然,但对于计算机可是个不小的挑战。最近,google 的研究人员创建了一个视听模型,可以通过算法将视频中的多个声音分离,得到一个清晰的单个语音。简单来说,你可以选择只听视频中某个人讲话的声音,而不用担心被干扰。
结合视觉听觉信号,识别并分离音轨
利用这种技术制作的视频可以将特定人物的声音增强,把其他无关的声音去掉。在普通的单音轨视频中,用户可以点击自己想关注的人物,或者算法会结合上下段内容来自动选择突出谁的声音。这项技术可以用于增强视频中的语音,提高视听效果。
这项技术的原理是结合视频中的听觉和视觉信号,以此来识别并分离语音。就像识别唇语的原理一样,一个人说话时发出的声音和他嘴部的运动存在某种关联,所以可以利用这一点,来辨别某段声音是谁发出的。在视觉信号的帮助下,即使是在多种声音混杂的环境中,单个声音的特征也变得更明显,更重要的是,你还可以在听到清晰声音的同时看到人嘴部的运动,更容易接收并理解信息。
研究人员用 10 万个高质量的 youtube 视频为样本,从视频中提取清晰的演讲片段,没有背景音乐、没有观众鼓掌、没有噪音,并且视频中只有一个说话的人。他们共提取出 2000 个小时的训练数据,用这些干净的视频来合成“鸡尾酒会”的效果。这样就可以训练一个卷积神经网络模型,将合成的视频分离出多个单独的音轨,也就是每个人单独的声音。将每一帧中嘴部运动的视觉信息提取出来,然后找到声谱图中对应的部分。这样就可以训练神经网络,从声音混杂的视频中,根据人的嘴部运动来提取对应的声音碎片,最后输出成具有单独声音轨道的视频,每一个人的声音都可以进行单独播放。
可以提高语音识别能力
这个黑科技在语音识别中尤其有用,比如 youtube 自己的自动字幕,如果视频中有多种声音混合,字幕就很难准确显示,而如果这几种声音能够单独分离播放,对应的字幕也就更准确,用户也更容易理解。再往远处想,这项技术可以运用到 google glass 这样的智能眼镜中,即使是在纷杂世界,你也可以只关注想关注的人,只听 ta 的声音。除此之外,带视频能力的智能音箱可能是未来的大趋势,有了语音分离能力,语音识别的能力也会更精准、更强大。
这种强大的能力也可能带来隐私问题,比如间谍电影中经常见到的天眼系统,如果再搭配语音分离的能力,岂不是可以做到视听上的全能?不过想达到那样的效果,识别能力就要很精准了。在此之前它的应用可能只是 google 自己的产品,比如增强视频智能音箱的语音识别能力,还有让 youtube 的自动字幕更智能。

再创历史新高,上汽集团11月销售新能源汽车超15万辆
什么是汽车的乘员头颈保护系统(WHIPS)
人工鱼眼检测不够用 薄膜鱼眼检测仪应运而生
燃气热水器点火器的原理分析_燃气热水器电路原理图
【直播预告】第二届“绿色能源暨功率器件技术论坛”
Google研究人员发现黑科技 只听你想听的声音
解析显色指数CRI参数
工业自动化进入数字化虚拟现实时代
ADI推出高性能雷达AFE(模拟前端)IC AD8283
为什么驱动电压5V以下的继电器很少
荣耀9发布会回顾:荣耀9发布,胡歌代言,四大超实用功能,2599元,不贵值得买
DC/DC和LDO电源的差异关系
机械传感器式电子水表的工作原理及设计
步进电机驱动电路图大全(六款二相步进电机/三相反应式/LT2221驱动电路)
如何设置新路由设置 多频合一是什么意思
5G将开启无限流量大战 WiFi会消失吗?
Microchip以太网PHY获通信技术创新奖
绕线型异步电动机的基本结构
英特尔取消实景智能手机 将推增强现实眼镜?
杰和科技G1568专为多屏拼接打造高性能主机