企业培训资讯_企业培训干货

当前位置:首页 > 名师团队 > 落地导师

亚马逊首席科学家:揭秘Alexa语音识别技术|AINEXT

发布时间:2020-12-22    来源:亚博最新版网站55185

本文摘要:按:本月18日,由美中技术和创造协会主办的第一届AINEXT大会在西雅图召开。

亚博最新网站

按:本月18日,由美中技术和创造协会主办的第一届AINEXT大会在西雅图召开。本次会议的主要嘉宾包括微软公司首席AI科学家邓力、微软公司院士黄学东、Uber深度自学负责人LumingWang等。

除了中国人之外,亚马逊的Alexa首席科学家Nikko还有Strom、微软公司的小娜架构师Savasparastatidis的着名专家。大会主题是探索AI的潜力,将AI技术应用于简单的项目和服务,对CV、NLP、智能助手、深度自学框架进行了专题报告。其中,亚马逊首席科学家NikoStrom以Alexa是怎样的炼金师为主题描写了Alexa深度自学的基本结构、声学模型、语音合成等内容,整理了NikoStrom、现任亚马逊首席科学家、Echo和Alexa项目的创立成员,在语音识别技术相关领域有资深的研究和就业经验:1997年前在瑞典皇家理工学院的语音通信实验室获得博士学位,之后兼任MIT计算机科学实验室的研究员,在语音识别技术相关领域获得了新的研究和从业者200年前的Netrotrotrow的研究以下是Nikko、Strom在本次大会上的演说,(公共编号:)在不改变不愿意的基础上有删改和补充。

再简单说明一下我们的产品。如果你买了AmazonEcho,这意味着你可以通过Alexa的语音识别系统来控制它并与它交谈,你不需要遥控器。左(右图)是HolidaySeason,是我们新加入的白色Echo和Dot,相信应该有很多人喜欢白色的电子产品。

Echo还可以连接没有内置Alexa系统的家电,如照明器具、咖啡机、恒温器等,只要唤醒Alexa,这些家电设备就可以继续执行命令。另外,开发者还可以通过工具包Alexa,SkilsKit,创造个性化的功能。

现在Echo已经搬到数百万用户家里,每天都被大量使用,得到了无法想象的数据量。|深度自学的基础框架实际上,耳朵并不总是收集语音信息,确实听的时间约占10%,一个人茁壮成长到16岁,他/她听到的语音训练时间约为14016小时。回到Alexa,我们将数千小时的现实语音训练数据存储在S3上,用于在EC2云上的分布式GPU集团训练深度自学模型。在训练模型的过程中,使用MapReduce的方法效果不理想。

节点之间必须频繁维持实时改版,因此不能通过减少更好的节点来加快运算。GPU集团改版模型的计算速度非常慢,每秒多次改版,每次改版约为模型本身的大小。

也就是说,所有线程都必须与其他线程实时改版数百兆的量,这在一秒钟内再次发生。因此,MapReduce的方法效果不太好。

我们在Alexa中解决问题的方法是增加一些接近算法的改版规模,输给三个水平。这里是我们2015年论文中的图表随着GPU线程的减少,训练速度变慢了。

到了40,GUP线程,完全直线下降,成长速度有点上升。80GPU线程对应于约55.万帧/秒的速度,每秒的语音约包括100帧,也就是说这时的每秒可以处理约90分钟的语音。前面提到一个人花了16年的时间自学1.4万小时的声音,用我们的系统,约3小时就能自学完成。

这就是Alexa大体的深度自学基础设施。声学模型主要包括信号处理、声学模型、解码器和后处理四个块。首先,我们不会从麦克风中收集的声音,开展一些信号处理,将声音信号转换到频域,从每次10分钟的声音中明确提出特征向量,获得后面的声学模型。

声学模型负责管理将音频分类为不同的音素。其次是解码器,结论概率最低的单词串,最后一步是后处理,单词组合成更容易加载的文本。在这些步骤中,在某种程度上使用机器学习和深入自学的方法。今天主要说说声学模型的部分。

声学模型是分类器,输出向量,输入语音类别的概率。这是一个典型的神经网络。

亚博最新版网站

底部是输出的信息,隐蔽层将向量转化为最后一层的音素概率。这里是美国英语的Alexa语音识别系统,不输入美国英语的各种音素。在Echo最初发表的时候,我们记住了数千小时的美国英语声音,训练了神经网络模型,这个成本很高。

当然,世界上还有很多其他语言。例如,2016年9月发售德语版的Echo,再次用数千小时的德语语音训练的话,成本很高。

因此,这个神经网络模型的有趣之处是转入自学,可以保持原来的网络中其他层的一定,只能把最后一层换成德语。两种语言不同,音素有很多不同,但仍有很多完全相同的部分。因此,只用于少量的德语训练数据,可以在稍微变化的模型中最后得到粗俗的德语结果。

|锚定映射在很多人的空间里,Alexa必须弄清楚谁在说话。开始的部分比较简单,用户说醒来的话Alexa,Echo对应方向的麦克风不会打开,但下一部分很困难。例如,在鸡尾酒舞会上,一个人说Alexa,爵士乐来了一点,但是如果他/她旁边和伙伴一起聊天,在短时间内说话的话,就很难明确谁接到指令。

该问题的解决方案来自2016年的论文锚定语音检查。最初,我们得到了觉醒词Alexa,用于RNN提取锚定映射,表示觉醒词包括语音特征。

其次,我们使用另一个不同的RNN,从以前的催促语言中提取语音特征,在此基础上得出结论。这就是我们解决问题的方法。|双连音段Alexa的语音合成技术也用于Polly。

亚博最新网站

语音合成的步骤一般包括第一步,规范文本。如果你仍然忘记,这一步是语音识别中最后一步的逆向操作者。

第二步,将字素转换成音素,从而获得音素串。第三步是关键的一步,也是最好的一步,就是把音素分解成波形,也就是确实的声音。最后,你可以播放音频。

Alexa享有倒数的语音合成。我们录制了几个小时的自然发音声音,把它切成非常小的片段,构成了数据库。这些被切断的段落被称为双连声段(Di-phonesegment),双连声由一个音素的后半部分和另一个音素的前半部分构成,最后统一声音时,声音一起听的效果很好。

建立该数据库时,必须高度细致,确保整个数据库片段的一致性。另一个重要环节是算法方面,如何自由选择最佳片段序列融合构成最后波形。首先,明确目标函数是什么,以确保获得合适的双连声段和如何从相当大的数据库中找到这些段落。例如,我们不会在这些片段上标记属性。

我今天会见了三个属性。它们分别是高音、长度和密度。我们也应该用RNN为这些特征寻找目标值。

之后,我们在数据库中搜索最佳片段人群序列,播放。本文是独家编译器,允许不能刊登。

版权文章允许禁止发布。下一篇文章发表了注意事项。


本文关键词:亚博最新网站,亚博网站登录,亚博最新版网站

本文来源:亚博最新网站-www.cxht-ic.com

分享到:
窗帘的制作方法有哪些?_亚博最新网站 亚博最新网站_60平米旧房翻新多少钱?
热门文章
京东组建三大事业群王笑松闫小兵胡胜利领导并升任高级副总裁:亚博网站登录
正信光电与印度最大的IPP公司签订300MW组件供应协议|亚博网站登录
亚博最新版网站-战斗民族有“炮”可打Ulmart网售情趣用品
社科院发布2018百度社会价值报告:培养55万AI人才,堪比10所AI大学
亚博最新版网站-阿里巴巴宣布全新AliOS系统重心投入汽车/loT等
Google收购CaskData,进一步强化大数据分析能力
【亚博网站登录】小米迎来上市后第一次重大人事变动:要狠抓产品服务质量
【亚博最新网站】2017阿里巴巴18周年年会流程内容:明星嘉宾+晚会节目名单
高德地图发布清明出行预测:自驾游古城古镇成热门:亚博最新版网站
【亚博网站登录】微信支付进军美国,可直接用人民币结算
亚博最新版网站_汽车共享创业热遭遇倒春寒:如何生存是问题
亚博网站登录-李彦宏乘百度无人驾驶汽车上路违法已展开调查
翻遍“微信小程序”的所有知乎问答,我们整理了大家最关注几个话题【亚博网站登录】
澳大利亚计划成立国家航天局:亚博最新版网站
Dropbox上市首日股价涨幅高达36%,市值超过120亿美元_亚博网站登录
客户案例
×