百度语音首席架构师贾磊：让语音技术可靠流畅，具备亲情和温暖

发布时间：2020-12-18 13:37:30 所属栏目：动态来源：站长网

导读：在国内，谈到智能语音技术，肯定绕不开一个人，那就是现任百度语音首席架构师贾磊，他是智能语音界举足轻重的AI大牛，于2010年加入百度，组建了百度语音团队，主导研发了百度语音识别和语音合成等一系列百度自有知识产权的语音核心技术。2016年短暂创业后

在2003年贾磊毕业的时候，基本上人们对于语音输入的产业期望已经很低了，各大公司都降低了语音技术的投入和预期。贾磊刚毕业就立刻迎来了语音技术的第一个低潮期，当时很多做语音专业的学生都转换方向，不少人做语音也是选择留校，而不是工业届。当时国内各大公司比较多见的语音需求是手机上的数字和人名拨号系统、以及车载语音导航等嵌入式产品研发，技术也大都集中在设备端侧的单通道语音识别或者是语音合成。技术上讲，这些应用都是嵌入式孤立词语音识别系统，其特点是只能识别特定的指令词和句式。之后的几年，除了零星的嵌入式设备应用外，语音技术在工业界的拓展乏陈可新，语音产业持续低迷。

语音技术的产业应用迎来第二波高潮

痛苦的日子总算没有太长。在2007年，微软公司收购语音识别技术企业Tellme Networks，并开始组建自己的语音团队，语音技术的产业应用又重新回到大公司的关注热点中。很快，谷歌于2008年在美国发布了英文语音搜索服务Voice Search,并应用于Android、诺基亚S60、黑莓、iPhone 等多个系列的手机。之后，谷歌又在 2009 年发布了中文语音搜索，语音的产业应用迎来了新一波高潮。这一波热潮的核心特点是以互联网需求和实现为基础，此时模型处在云端，所以体积可以更大。例如语言模型，由于位于云端，语言模型体积可以达到上G,这是之前2000年左右的ViaVoice 语音系统所不可能达到的（2000年的比较好的PC计算机内存才256M，那是语言模型位于终端，也只有几十M）。语言模型位于云端后，热词新词的信息更新也更加及时，同时大的模型体积意味着对支持的语言领域更加广泛。同时，技术上虽然声学模型仍然是以 HMM 框架 GMM 建模为主体，但是可以采用更多更大的训练语料。数千小时乃至上万小时的声学训练语料库已经开始进入工业界。因此从 2000 年到 2010 年左右的十年期间，虽然语音识别的核心算法技术仍然是 HMM、GMM 和 Ngram 统计语言模型，但是因为互联网技术的引入，可以采用云端体积更大的声学模型和语言模型，训练这些模型的语料库也显著增加，最终导致语音交互的用户体验得到很大提升，语音技术的云端应用逐渐开始流行。

百度语音首席架构师贾磊：让语音技术可靠流畅，具备亲情和温暖

深度学习首次应用语音识别的系统框图

2011年, 微软的邓力和俞栋两位学者通力合作, 把深度学习技术应用于工业级的大词汇量连续语音识别实验, 获得相对于传统基线系统 23% 的显著提升，这标志着语音识别技术最先迎来深度学习革命。深度学习应用于语音识别，最初的整体建模框架仍然是 HMM，但是声学输出分布 GMM 模型被替换成了深度学习 DNN 模型。这时候的语音识别系统是一种 HMM 和 DNN 混合 (hybrid) 的语音识别系统。随着深度学习技术在语音技术中越来越深入的应用，从 DNN 到 CNN，再到 CNN+LSTM，语音识别系统的字错误率以每年 10%- 15% 的相对错误率降低。再后来伴随着 CTC 技术的引入，更大粒度的建模单元（WordPiece 模型，音节和字）开始逐渐越来越多的被采用，应用于语音识别几十年的 HMM 框架逐渐被淘汰。

语音识别技术进入端到端时代

从 2015 年开始到 2020 年这段时间，注意力建模技术的研究，又让语音识别技术开始进入端到端的时代。2019 年之前，Attention(注意力) 技术早已经广泛应用于 NLP、图像等商业产品领域。但是语音识别领域，从 2015 年开始，实验室内就广泛进行了基于 Attention 的声学建模技术，也获得了广泛的成功。国际上通常用于语音识别的注意力模型有两种，一种是谷歌的以 LSTM 为基础的 LAS(listening attention and spelling) 模型。另外一种是基于 self attention 的 transformer 模型。这两种注意力模型在实验室的各种实验中，都能够显著提升语音识别系统的识别率，同时实现了一套深度学习模型，语音语言一体化的端到端建模。虽然注意力模型在实验室范围内获得巨大成功，但是应用于工业界的实际在线语音交互产品，还存在一系列的技术障碍。核心难题就是在线需要识别系统需要流式解码，而注意力模型需要拿到整段语音才能进行解码，会造成用户无法接受的识别延迟问题。所以注意力模型直到 2019 年初，都没有在工业在线语音交互中使用注意力模型做语音识别的成功案例。2019年1月，百度发布率先发布了基于流式置信度建模技术的语音输入法产品，首次提出流式多级截断的注意力模型 (SMLTA)，这是国际上注意力模型在在线语音识别领域的大规模工业应用的首个成功案例。之后，流式注意力模型在学术界也开始进入广泛的研究。最近，语音识别应用中的逐渐集中到流式的 self-attention 建模，包括流式的 transformer 等。人类对于语音识别的核心技术提升的脚步从来没有停止过。

百度语音首席架构师贾磊：让语音技术可靠流畅，具备亲情和温暖

基于注意力机制的语音识别端到端建模的通用框架

2015-2020年期间，智能音箱产业在中国乃至世界范围内，都得到巨大的发展和普及。在智能音箱使用场景下，目标声源距离拾音器较远，致使目标信号衰减严重，加之环境嘈杂干扰信号众多，最终导致信噪比较低，语音识别性能较差。为了提升远场语音识别准确率，一般会使用麦克风阵列作为拾音器，然后利用数字信号处理领域的多通道语音信号处理技术，增强目标信号，最终产生一路清晰信号，送给后面的语音识别系统进行语音识别。这时候数字处理信号系统和语音识别系统相互级联是主流的远场语音识别技术，这种级联技术也成为第一代智能音箱远场语音交互技术的主流技术。随后，语音学术界开始进行一系列的技术创新，从数字信号处理到语音识别一体化的端到端建模成为热点。这是一种创新的远场语音交互技术，一套深度学习模型打穿数字信号处理和语音识别两个领域。国际上，Google 最先试图解决这个问题。谷歌的解决方案采用的深度学习模型结构，来自于类似于 filtering and sum 的数字信号处理思想，模型底部的结构设计，模拟了数字信号处理的多路麦克处理过程。在此之上，模型仍然是采用传统的近场语音识别的深度学习模型。该模型直接建立了从远场语音多路信号到识别文字之间的端到端的进行。百度团队针对远场语音识别的特殊需求，也提出了自己的基于复数 CNN 的远场端到端建模方案，并大规模应用于工业产品。

语音技术从之前的云端竞争开始逐渐向端侧芯片延伸

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/5

首页

尾页

比亚迪成弟弟！交付时	不喝水最长能活7个月！
工具箱中爱马仕！小米	小米有品众筹水上动力