百度语音首席架构师贾磊：让语音技术可靠流畅，具备亲情和温暖

发布时间：2020-12-18 13:37:30 所属栏目：动态来源：站长网

导读：在国内，谈到智能语音技术，肯定绕不开一个人，那就是现任百度语音首席架构师贾磊，他是智能语音界举足轻重的AI大牛，于2010年加入百度，组建了百度语音团队，主导研发了百度语音识别和语音合成等一系列百度自有知识产权的语音核心技术。2016年短暂创业后

2020 年，百度在智能音箱、车载导航和智能电视控制方面，落地了百度鸿鹄语音芯片。研发了以远场语音交互为核心的鸿鹄芯片解决方案，一颗芯片解决远场阵列信号处理和语音唤醒的问题，打造了云端芯一体化的语音交互解决方案。百度鸿鹄语音芯片设计，变革传统芯片设计方法，推出 AI 算法即软件定义芯片的全新设计思路。百度鸿鹄芯片采用双核 Hifi4 架构自定义指令集，2M 以上超大内存，台积电 40nm 工艺，在此硬件规格上，100mw 左右平均工作功耗，即可同时支持远场语音交互核心的阵列信号处理和语音唤醒能力，满足车规可靠性标准。同时，百度鸿鹄芯片为远场语音交互算法量身定制了芯片架构，完全契合 AI 算法需求的核内内存结构设计、分级的内存加载策略、依据 AI 算法调教的 Cache 设计和灵活的双核通信机制，最终实现了深度学习计算过程和数据加载的高度并行。百度鸿鹄芯片是中国行业内唯一一颗能够承载全部远场阵列信号处理和智能音箱唤醒技术的语音芯片，也已经完成了业内首个支持电视熄屏唤醒的 AI 芯片解决方案并实现工业产品落地。

百度鸿鹄芯片之后，贾磊团队又将整个语音交互的复杂算法、逻辑和数据模型耦合的语音交互技术，利用百度全新研发的端到端语音建模技术，抽象成多个单纯的深度学习计算过程，从而可以几乎在性能无损的情况下将整个语音识别过程从云端搬到客户端。基于以上思路的百度鸿鹄芯片二代也正在紧锣密鼓的研发中，一颗芯片解决远场语音识别和合成问题将不再遥远。5G 时代的云端定义语音交互功能，端侧执行语音交互功能，云端一体的语音交互，很快会成为现实。

百度智能语音全景图

在语音技术的产业化过程中，贾磊认为核心关键的要素是技术创新要把握产业需求，而不是闭门造车。比如百度的语音语言一体化的流式多级截断的注意力建模技术 (SMLTA)，核心就是针对性的解决注意力（Attention）建模技术不能进行流式识别的问题，后者是在线语音识别技术必须的关键要求。再比如百度研发鸿鹄芯片，核心就是解决一颗芯片集成远场信号处理和远场唤醒，从而提升智能音箱的远场交互体验，降低智能音箱的成本。“文以载道”，技术提升的首要目标是产品体验提升，而非纯粹的学术创新。管理上要集中优势兵力优先解决技术工业应用时的痛点问题，要基于用户感知体验提升去迭代技术，而非单纯的技术指标提升。

端到端语音交互的技术挑战和难点

贾磊认为最大的挑战是对跨学科端到端的模拟数据的生成和大规模工业训练的深度学习训练平台的把握。端到端建模，目前越来越倾向于跨学科的端到端建模，这时候首先需要解决跨学科的数据模拟问题。每一个学科，都有一个学科假设的学科边界。之前几十年的研究成果，都是在学科边界的假设范围内进行的，所积累的各种训练数据，也是基于学科边界假设的。一旦学科边界被打破，每个学科的假设都不成立了，训练数据往往需要重新积累。所以，通常需要用模拟的方法产生跨学科的端到端的训练数据。如何模拟跨学科的场景数据，是端到端建模的第一个难题。端到端建模的第二个难题，是如何应对数据倍增时候的深度学习训练，这些问题，对通常的语音团队，会成为一个很大的挑战。比如在做信号和声学一体化建模的时候，要在近场语音识别建模的训练数据量上，叠加一个远场信号的声场模拟。这样的话，模拟的数据量会有一个成倍的增加。考虑到大规模工业训练的要求，上面提到的模拟数据的生成，还通常需要在 GPU 上进行。同时，数据成倍增加后，还要在 GPU 上进行高速有效的训练。这里面对深度学习训练平台的把握是至关重要的，否则跨学科端到端建模时候的训练数据模拟和训练速度优化中任何一个问题，都会是压垮端到端建模的最后一根稻草。

解决上述问题的核心是要有对深度学习算法技术和工程技术都要有深刻的理解，对深度框架有全面的把握。有能力修改深度学习框架的内核，解决 GPU 上的训练加速、内存优化问题和算法调优的问题。如果只是泛泛的理解国外开源框架的算法技术，只是跑脚本训练模型，那么再遇到上述训练数据模拟和训练速度优化的时候，就无从下手，最终难以解决跨学科的端到端建模问题。

AI 发展是否进入瓶颈期？如何破局 AI 落地难?

贾磊认为，人工智能近 10 年的发展是伴随着 GPU 算力、数据增加和深度学习算法创新的发展而发展的。目前训练数据的增加和深度学习算法的创新速度确实是变慢了，但是AI算力这个维度，还有很大的增长潜力。无论是云端的GPU服务器，还是端侧的AI芯片，都有很大的增长空间。2018 年，OpenAI 的研究人员发布了一份分析报告显示，从2012年到 2018 年，在最大规模的人工智能训练中使用的算力增长了30多万倍，3.5 个月的时间就翻一番，远远超过了摩尔定律的速度。未来5年，GPU的算力将达到CPU算力的1000倍。这些都将对语音交互产生巨大的推动作用。比如端侧 AI 芯片的发展，很快将使得端侧芯片具备完成和现在云端服务一样的语音交互能力，在一些场合比如汽车智能座舱等领域，语音交互的主体都将是由端上芯片在不需要联网情况下独立完成，大大提升了汽车行驶过程中的语音交互的可靠性和流畅性。

百度语音首席架构师贾磊：让语音技术可靠流畅，具备亲情和温暖

GPU 算力增长趋势图

贾磊认为智能语音交互技术落地作为 AI 落地的一个关键组成部分，破局的关键点是从简单的识别和合成的能力提升，到更加场景化聚焦发展、更加综合性发展。之前我们提到的 AI 能力提升，都是单体的 AI 技术，比如语音识别技术、语音合成技术等单体技术的学科发展。但是综合语音、视觉、NLP 和知识图谱等 AI 综合能力，在特定场景下的 AI 体验打磨，将使得 AI 技术从“旧时王谢堂前燕，飞入寻常百姓家”，这是以语音交互为代表 AI 能力破局的关键。语音交互的发展也不单单是单一的从语音这个维度进行发展，而是在具体场景下，综合视觉、语义、对话、通讯等技术在内的综合性技术。在这一发展过程中，场景化数据的积累和用户反馈的收集将成为成败的关键。贾磊认为语音交互的算法能力，针对特定的个人和特定的场景，做充分的打磨，应该是能够满足特定需要的。“打磨”的过程，需要我们更清楚的理解用户的场景，同时反馈个性化场景化数据。未来语音交互的成熟，一定是伴随着个性化和场景化的聚焦而实现的。

谈谈新冠疫情给 AI 行业带来的影响

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/5

首页

尾页

比亚迪成弟弟！交付时	不喝水最长能活7个月！
工具箱中爱马仕！小米	小米有品众筹水上动力