百度语音首席架构师贾磊：让语音技术可靠流畅，具备亲情和温暖

发布时间：2020-12-18 13:37:30 所属栏目：动态来源：站长网

导读：在国内，谈到智能语音技术，肯定绕不开一个人，那就是现任百度语音首席架构师贾磊，他是智能语音界举足轻重的AI大牛，于2010年加入百度，组建了百度语音团队，主导研发了百度语音识别和语音合成等一系列百度自有知识产权的语音核心技术。2016年短暂创业后

在国内，谈到智能语音技术，肯定绕不开一个人，那就是现任百度语音首席架构师贾磊，他是智能语音界举足轻重的AI大牛，于2010年加入百度，组建了百度语音团队，主导研发了百度语音识别和语音合成等一系列百度自有知识产权的语音核心技术。2016年短暂创业后又回归百度，主持研发了小度智能音箱的远场语音交互系统、小度车载语音交互、百度鸿鹄语音芯片、百度智能语音呼叫中心系统等一系列百度语音类产品并将相关技术推向中国社会，他还于2015年获得了全国劳模称号（互联网业首位全国劳动模范）。

作为 AI 落地的一个关键组成部分，智能语音交互技术这一路是如何发展起来并日趋成熟的？在2020魔幻的一年，智能语音技术的最新发展是什么？伴随着5G、AI算力等技术的快速发展，未来智能语音技术又将在哪些方向进行突破和创新？本文将分为上下两部分，结合贾磊的从业经历，从个人侧和技术侧详谈智能语音技术的过去、现在和未来，肯定能让你收获颇多。另外，贾磊老师也将于2021年1月8-9日QCon北京站上带来智能语音的更多精彩分享，欢迎大家现场面基，共同探讨、交流。

（上）

作为最早关注智能语音的业界大咖之一，贾磊是在什么契机下选择走上智能语音之路的？他对语音交互认知的本源是如何理解的？短暂创业经历又给他带来了哪些收获？接下来，本文上篇将你深入认识一下贾磊，全面了解下大牛成长记。

兴趣驱动，开启近20年的智能语音技术追求之旅

贾磊选择语音是兴趣驱动的。贾磊硕士毕业后，考入中科院自动化所攻读博士学学位。他最初的研发方向是图像处理，广泛涉猎了模式识别各学科方方面面的知识，也综合比较了图像、语音和NLP等学科的学科差异等。这时候逐渐开始对语音技术产生了浓厚的兴趣，很好奇人是怎么发出声音、感知声音、并且理解声音内容的。当时IBM的ViaVoice软件也是风靡世界，人们依靠声音来实现人机交互的梦想的实现就摆在眼前，语音产业化应用的明天一片大好。这时候正巧贾磊中科院自动化所的第一任导师因为工作调动问题，允许他们调换专业，最终他根据个人兴趣发展，申请从图像处理方向转到语音识别的技术方向上。从那时候开始，贾磊就开始了他近20年的语音技术追求之旅。

短暂创业让贾磊明白了伙伴间的“可依赖”关系

贾磊曾在2016年有过一段短暂的创业经历，谈及创业带给他的最大收获，贾磊坦言，创业使他懂得了创业伙伴之间需要的是“可依赖”，而不是简单的“可信赖”。大家因为信赖走到一起，“信赖”只是彼此结缘的开始。创业伙伴们之间需要维护的是一种可依赖关系，这种关系需要长期存在，是一个过程。创业过程中，经常舍死忘生，人力物力财力都有限，大家各自需要 120% 的投入解决眼前的问题。大家需要把后背交给对方，无条件的信任对方。大家背靠背的去战斗，背靠背的一起拼。每个人都拼死守住自己前方的战场，把自己的后背托付给一起创业的伙伴和兄弟。一个人败了，其实也是大家都败了，再说谁的责任已经毫无意义。创业会让人更加认识到团队协作的价值和团队的作用。除了对创业伙伴之间的关系理解外，创业带给贾磊最大的冲击是对资本的敬畏。之前一直在大公司打工做技术，从来没有意识到资本对于技术发展的可持续是如此的重要。经过创业之后，他深刻的理解到，技术要想有进步，不单单是技术人员的个人努力，更重要的是技术人员所属平台的持续长期投入。这些投入不单单是技术人员的工资、实验以及各种研发要件的投入，更为具体的是技术应用场景的投入，后者的投入更为巨大。因此创业之后再回到百度，贾磊更加感恩，百度的长期不计回报的投入，才让语音技术这个小草，在百度内能够长成参天大树。贾磊个人也从语音技术的普通专业技术人才，变成语音行业的技术领军人物。

如何理解语音交互认知本源

创业回到百度后，贾磊从之前侧重语音算法技术创新，变成算法创新和产业拓展兼顾。也许是认识到了资本对于技术的推动作用，贾磊要求团队成员都要有成本意识和营收意识（当然技术团队的营收都是概念上的，而不都是绝对实际的营业流水），都要具备业务整体推进能力，而不是单体算法创新。这也是他们投入做百度鸿鹄芯片的一个背景。讲这些乍一听，好像和人类认知没有关系，但是真正的把技术应用到实际的应用过程，贾磊越来越发现，人类的认知过程，不是一个简单的学科划分过程。不是说学语音的就只解决语音的认知，很多时候认知是视觉、听觉、理解一体化的一个过程，比如任何人交流中的肢体语言，就对人的意图理解起到举足轻重的作用，再比如语义理解过程和语音识别过程，在具体的产业应用中，是密不可分的。学科划分有边界，但是人的认知本源可能是一体的。解决语音交互的问题，不能单单从语音技术出发，要放在产业应用中，语音、图像和NLP一体化的规划和解决问题。

时间就像海绵里的水，努力挤才能平衡工作和家庭

贾磊曾在2015年荣获全国劳模称号（互联网业首位全国劳动模范），可以想见工作强度非常大，关于怎样平衡工作和家庭，他认为互联网的工作强度都很大，互联网工作的朋友们都牺牲了很多自己的生活休息时间。“我个人而言和从事互联网行业的伙伴们一样，都是全身心的投入工作，家庭生活感觉确实参与的少一些。陪孩子的时间也比较少，有时候工作忙了，早晨一大早出来，晚上很晚回去，回去后孩子也早就睡了。早晚两头都见不到孩子，非常想她。每次见到孩子冲着我笑的小脸，我都觉得很自责。如果不是很忙的话，我都尽量早晨早一点起来。陪她吃早饭，送她上学。上学路上，我会教她看红绿灯、走斑马线以及避让绿灯时候右转的车辆。之后，我赶紧开车奔向公司，正好能赶上大清早开始工作。我觉得时间就像海绵里面的水，只要你使劲挤，总是能挤出来的。不要错过陪伴孩子长大的时间，他们长大的很快，一晃就不再需要我们的陪伴了。”

（下）

上篇我们聊到了贾磊老师与智能语音技术的情结，下篇我们将着重从技术侧和你聊聊智能语音的过去、现在和未来，干货满满。

智能语音行业发展历程解析

IBM ViaVoice 时代的语音技术

语音行业在2000年左右，迎来了第一个产业高潮，也就是IBM的ViaVoice 语音录入软件。当时人们把这个软件安装到PC机器上，就可以在计算机前面朗读报纸或者新闻内容，或者录入一些简单的日常用语，识别率也还不错。于是工业界有了一次大规模连续语音识别的产业化应用的热潮。当时，ViaVoice时代的语音技术还是以HMM建模和混合高斯系统 (GMM) 为声学建模核心的建模技术，语言模型采用的是基于 Ngram 的统计语言模型。因为 PC 上的内存限制，语言模型体积也只有几十 M。另外，当时可以获得的文本语料也是有限的，所以语言模型能覆盖的内容范围很小，当时主要集中在新闻报纸和日常用语领域。因为 HMM 系统和混合高斯系统建模能力有限，这时的连续语音声学训练语料库也就只有数百小时。这个时候的语音识别系统对说话方式和口音的要求也很严格，说话方式必须是朗读方式，口音也要求必须是标准普通话，否则，识别率迅速下降。很快的，人们发现 ViaVoice 难以满足人们在 PC 上把声音转成文字的产业需要。慢慢地，ViaVoice 的产业热情就逐渐降温了。

百度语音首席架构师贾磊：让语音技术可靠流畅，具备亲情和温暖

早期Windows上的ViaVoice软件

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页

比亚迪成弟弟！交付时	不喝水最长能活7个月！
工具箱中爱马仕！小米	小米有品众筹水上动力