计算机视觉与语音处理的交叉增强

跟大家分享一篇非常有意思也很有用的文章，是wacv 2021的录用论文visual speech enhancement without a real visual stream。该文研究涉及计算机视觉与语音处理的交叉。
论文信息：
作者来自：印度 iiit hyderabad 和英国巴斯大学。
语音增强是语音处理的经典研究内容，以往的语音增强往往只将语音作为输入信号，这在现实世界的嘈杂环境中往往效果不佳。
近年来一种视觉辅助的语音增强技术取得了突破，通过跟踪视频中人物口型，可以较好的辅助过滤环境噪声。但其需要人物正脸在视频中，使用场景较为狭窄，毕竟大多数场景下，没有人物正脸，甚至没有视觉信息辅助。
该文学者指出，实际上根据语音进行唇语合成已经是一个较为成熟的技术，在现有框架下，可以直接使用语音信号本身合成人物口型的视频，进而辅助语音增强。
以下视频展示了最终语音增强的效果：
该文在多个数据集上取得了sota的结果，并且该技术可以用于任何语言的语音增强，但由于其中含有视觉生成部分，估计相比传统算法时间开销较大。作者已经开源了代码，感兴趣的朋友可以试一下。
原文标题：无中生有！没有视觉信号的视觉语音增强
文章出处：【微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

LK162A LCD模块与电容式HMI工业控制组合
FR场景下的4x200G技术分析
小米9 Pro的30W无线快充70分钟就能充满电
默克完成对Versum Materials公司的收购
疯狂比特币冲破3万大关，已到了疯狂尽头？还会继续涨耐心等待吧
计算机视觉与语音处理的交叉增强
UPS的选择 UPS的使用注意事项
单点登录的实现方式有哪些
英特尔新推Xeon E7 v2处理器:具有15颗处理核心
高通5G基带芯片毫米波技术再创新，将迎来万兆级5G时代
IGBT是干嘛的_igbt损坏现象
搞清六类网线和超六类网线区别配对不发愁-科兰
OPPOR17Pro拍照到底怎么样
华为终端部门谋求上市？
基于i.MX RT1170的两轮车数字仪表盘参考设计全面的技术解读
MySQL关系数据库管理系统的使用技巧
共享充电宝市场规模未来四年复合增长率可达到40％
单片模糊控制器NLX230的设计特点与应用分析
森海塞尔CX 500BT 真无线耳机：好音质不妥协
国产工控主板：工业互联网下制造业智能化升级的引擎与助推器