Alexa耳语模式——AI技术更显人性化

上周,亚马逊在美国西雅图举行的发布会上一口气推出了十余款alexa设备,大部分设备主要由alexa语音平台驱动。其中部分设备将增添“耳语模式”功能,使alexa设备用耳语来回应用户的低声说话。日前,亚马逊alexa语音系统小组的一位专家zeynab raeesy在其博文中揭秘了这一功能的ai基础。
raeesy在博文中介绍:“如果你在一个有小孩睡觉的房间,当有人走进来时,你会马上低声说话,提醒进来的人你希望房间内能保持安静,而进来的人意识到这一点之后,很可能也会压低声音讲话。”
raeesy指出,alexa的耳语模式令人难以理解的地方在于它是清音的,也就是说,它不涉及声带振动,往往比普通的语音在低频段具有更少的能量。她与小组的同事研究了两种能区分正常语音和耳语音的神经网络。
两种神经网络主要在结构上有所区别,一个是mlp(多层感知器),另一个是能进行时间递归的lstm(长短期记忆)网络,这两者用来做训练的数据是一样的,这些数据包括(1)对数滤波器组能量,或者是用来记录不同频率范围信号能量的语音信号表示;(2)能区别耳语音与正常语音之间信号差异的一组特征。
在测试中,他们发现lstm的表现结果比mlp更好,具备许多优势。raeesy解释道,alexa语音识别引擎的其他组件完全依赖对数滤波器组能量,并给不同的组件提供相同的输入数据,进而使整个系统更加紧凑。
alexa耳语模式的开发并非一帆风顺,至少在最初阶段是这样的。由于alexa是通过短时间的沉默(一种被称为“结束指向”的技术)来识别指令的结束或者进行回复,lstm往往在话语即将结束时降低置信度。为解决这个问题,研究人员将lstm的输出校准成整个话语的平均值,最终,降低最后1.25秒的语音数据成为维持“耳语模式”性能的关键。
美式英语的耳语模式功能将在今年11月份推出,对耳语模式具体工作原理的介绍将以论文的形式在12月份的ieee语音技术研讨会上发表。

快充功率翻倍,充电速度就一定能翻倍吗?
乐天移动布局进军全球市场,对外提供销售其在日本构建的云平台
台积电生产第一个7纳米芯片,到2020年将占其近25%营收
索尼有望引领小屏手机重返市场
支持多种输入电压的电源解决方案
Alexa耳语模式——AI技术更显人性化
5月全球智能手机最新报告出炉,华为再次赶超三星!
华为发布稳健网络服务,助力运营商迈进智能化维护新时代
自动体外除颤器(AED)的发展可赢取电容器的新发展
基于ECB存储单元的信号量管理的硬件设计与实现
高压直流电源将占据80%UPS市场份额
TC-PD系列模拟宽带光探测器
SmartGreen以Zigbee模块推展巴西的路灯自动化
腾讯云自研光传输设备TPC-4平台开始部署
2021年前三季度光伏装机发布,9月新增2.14GW
北极圈高烧引关注 配电行业被暗示
PCB激光切割具备哪一些特点
三星对图像传感器的雄心勃勃的计划
OLED的制造与其分类,OLED的产品特性特点
鼎桥行业5G新产品发布会重磅亮相2019世界物联网博览会