AI使用音频剪辑对与语音匹配的真实感面部建模

您是否曾经仅仅根据他们的声音来构造一个从未见过的人的心理形象?人工智能(ai)现在可以做到这一点,仅使用简短的音频剪辑作为参考即可生成人脸的数字图像。
这个名为“ speech2face” 的神经网络(一种以类似于人脑的方式“思考”的计算机)经过科学家培训,接受了来自互联网的数百万个教育视频,显示了100,000多个不同的人在说话。
研究人员在一项新研究中写道,speech2face通过该数据集学习了语音提示与人脸某些物理特征之间的关联。然后,ai使用音频剪辑对与语音匹配的真实感面部建模。
值得庆幸的是,人工智能还不能仅仅根据他们的声音确切地知道特定的人是什么样。研究作者报告说,神经网络识别语音中的某些标记,这些标记指向性别,年龄和种族,是许多人共有的特征。
科学家写道:“因此,该模型只会产生看上去普通的面孔。” “它不会产生特定个人的图像。”
尽管坦率地说,对猫的解释有点让人恐惧,但ai已经证明它可以产生出异常准确的人脸。
由speech2face生成的脸部-均面向正面并具有中性表情-与声音背后的人并不完全匹配。但是,根据这项研究,这些图像通常确实可以捕捉到正确的年龄范围,种族和性别。
但是,该算法的解释远非完美。当面对语言变化时,speech2face表现出“混合表现”。例如,当ai收听亚洲人讲中文的音频片段时,该程序会产生亚洲人脸的图像。然而,据科学家报道,当同一个人用不同的音频片段讲英语时,人工智能产生了白人的面孔。
该算法还显示出性别偏见,将低音调的声音与男性面孔相关联,将高音调的声音与女性面孔相关联。研究人员写道,由于训练数据集仅代表youtube上的教育视频,因此“并不代表整个世界人口。”

理解数字签名和加密通信等技术的关键算法哈希算法的介绍
CC2640R2F软件开发的整体过程
恒压恒流电源能否代替锂电池充电器
Saas 服务为什么在中国一直做不强大
什么是数字电视?
AI使用音频剪辑对与语音匹配的真实感面部建模
基于PXI和cRIO的ESP硬件在环仿真平台
量子物理让科学家们产生了许多有趣的创意
科普解读“碳达峰、碳中和、碳汇、碳配额、碳交易”的概念
对于手机的隐私安全,魅族安全手机做了哪些努力
基于智能手机的miRNA多色荧光成像传感平台
几家欢喜几家忧?芯片短缺致车企销量下降,晶圆代工厂成“大赢家”
人工智能花样玩法,芯片厂商如何接招
谷物硬度计在测量谷物硬度中具有着十分重要的意义
射频功率校准提高无线发射器的性能
APM32 MCU助力推动新型工业化发展
联想S5手机评测 更超值的联想手机
从芯片到平台,以开放的心态推动家电智能化联动
新六边形硅有望超过金刚石硅的新型晶体硅
贸泽电子恭祝同济翼驰车队在FSAEJ赛事中获得油车组季军的优异成绩