Google Brain推出语音识别新技术助力商业发展

受先前语音和视觉领域增强成功的启发,google brain最近提出了specaugment,一种数据增强方法,它操作输入音频的对数mel光谱图,而不是原始音频本身。specaugment方法不但非常简单,计算成本也很低,因为它直接作用于对数mel光谱图,而不需要额外的数据。这种简单的方法非常有用,并使研究人员能够训练端到端的监听参与和拼写asr网络。
通过使用简单的手工策略增加训练集,即使没有语言模型的帮助,研究人员也能够在端到端的las网络上获得librispeech 960h和switchboard 300h超越混合系统的性能。它优于复杂的混合系统,通过使用更大的网络和更长的训练时间,specaugment能够达到最先进的效果。
全球自动语音识别(asr)市场预计在2016年至2024年间以超过15%的复合年增长率增长。随着先进电子设备的飞速使用,人们对开发尖端功能和效率的需求越来越大,这样的功能和效率提高了应用的asr精度。specaugment显著提高了asr的性能,并可能成为人工智能工程师驱动下一代asr应用程序所需的必要条件,这些应用程序包括机器人、交互式语音响应、自定义词典、视频游戏、语音验证、家用电器等。
使用一维cnn的端到端环境声音分类模型,加拿大的一组研究人员最近提出了一个端到端的一维cnn环境声音分类模型。根据音频信号的长度,该模型由3-5个卷积层组成。与许多传统方法实现二维表示的传统模型不同,这一模型是直接从音频波形中学习分类器。
在对包含8732个音频样本的数据集进行评估时,新方法演示了几种相关的分类器表示,其结果超越了现有的基于二维实例和二维cnn的最优效果。此外,在环境声音分类方面,该模型比大多数其他cnn体系结构的参数都要少,与传统的二维体系结构相比,平均精度要高出11%到27%。
根据这篇论文的评价结果,该方法在提供高度鲁棒的环境声音分类应用上具有很好的应用前景。
对于初学者来说,它的效率很高,与传统的2d cnn相比,它只需要很少的训练数据(后者需要数百万个训练参数)。它还实现了最先进的性能,可以通过实现滑动窗口处理任意长度的音频信号。最后,它紧凑的体系结构大大降低了计算成本。

物联网平台将可协助零售业进一步提升效率
华为云在推动工业APP发展方面提供核心技术及诸多支撑工作
NI推出全新基于LabVIEW的 GPS接收器测试工具包
物联网行业市场的最新发展趋势分析
好消息 东芝650V超级结功率提高大电流设备效率的MOSFET问市
Google Brain推出语音识别新技术助力商业发展
供不应求压力缓解,NAND Flash价格续跌
联发科正式推出HelioG90系列芯片 专门为极致游戏体验而准备
python中input怎么输入3个值
赛灵思Virtex-7 H580T FPGA常见问题解答
车规MCU中的触控类芯片和方案
研究人员发明微型昆虫机器人,离全自主微型机器人更近一步
什么是JSON劫持 JSON和XML的区别
长虹发布人工智能电视 开启智能新时代
SunPower的转型战略
电机的铁损怎么降低
实现嵌入式Linux的新方法-ramdisk
智能网联的未来谁能得天下
PCB板覆铜板的常见种类及特点
荣耀8Pro海外发布,任正非:赚外国人的钱去!