关于语音识别技术在会议中的应用

发布时间：2020-08-21 15:32:00 所属栏目：产品来源：中证网 |0

导读：文 / 王唯上海云思智慧信息技术有限公司产品研发中心副总经理 1. 语音识别技术的现状语言是人类最自然的交互方式。数万年来人类通过进化获得的语言交流能力，相比其他的交互方式具有更多的优势。当计算机发明之后，人类与机器的交流虽然暂时受限于鼠标

　　文 / 王唯上海云思智慧信息技术有限公司产品研发中心副总经理

　　1. 语音识别技术的现状

　　语言是人类最自然的交互方式。数万年来人类通过进化获得的语言交流能力，相比其他的交互方式具有更多的优势。当计算机发明之后，人类与机器的交流虽然暂时受限于鼠标键盘等面向机器的交互方式，但却从不阻挡人类让机器能够听懂人类的语言、理解语言中的内在含义、做出正确回答的探索。这些场景反复出现在科幻电影中，那些智能先进的机器人助手，通过语言与人类完成自由地交流。

　　纵观计算机模拟人类语言交流的整个过程，包括倾听-理解-思考-表达四个阶段。当前计算机领域，按照技术难易度及普及顺序，大致也可以分为以下四类与之相对应的技术研究：

　　自然语言生成——将大脑产生的思想转换成语言

　　语言合成——将语言转换为相应的语音

　　语音识别——识别语言中表达的语音内容

　　自然语言理解——理解语音表达的语言含义

　　其中，语音识别技术是指机器自动将人的语言转成文字，又称 Automatic Speech Recognition，即ASR技术。它是一门涉及声学、语音学、语言学、情感学、心理学、信息理论、模式识别理论、数字信号处理、人工智能、数理统计学等多学科交叉的科学。近年来，随着人工智能的兴起，语音识别技术在理论和应用方面都取得大突破，不仅开始从实验室走向市场，并且已逐渐走进我们的日常生活。

　　语音识别的本质是一种基于语音特征参数的模式识别，即通过学习，系统能够把输入的语音按一定模式进行分类，进而依据判定准则找出最佳匹配结果。

基于模式匹配原理的语音识别系统框图

　　从语音识别算法的发展来看，语音识别技术主要分为三大类，第一类是模型匹配法，包括矢量量化(VQ) 、动态时间规整(DTW)等；第二类是概率统计方法，包括高斯混合模型(GMM) 、隐马尔科夫模型(HMM)等；第三类是辨别器分类方法，如支持向量机(SVM) 、人工神经网络(ANN)和深度神经网络（DNN）等。

　　目前语音识别技术已经是相对成熟（商用）的技术，各家主流公司均宣称语音识别率达到了97%，甚至98%。现在语音识别已用于许多领域，主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台，智能客服等。但需要指出的是，主流公司宣称的语音识别率一般是需要用户在安静环境下，近距离、原地不动、慢慢地、认真清晰发音时测试的结果。在实际场景，往往有很多种异常情况都会导致语音识别的效果大打折扣，比如距离太远、发音不标准、环境嘈杂、中间有时不时的打断等等。

　　所以语音识别技术在实际应用中，受限于特定的场景，同时还需要有各种解决方案来配合。这虽然是一个应用落地比较现实的问题，但并不影响我们做产品demo和初步的产品化工作，反而是我们AI产品经理的发挥机会——用产品体验设计来优化（弥补）纯技术效果的不足。

　　2. 语音识别技术的发展与挑战

　　在协作工作模式下，我们常常通过开会来布置、协调、研讨工作，以达成集思广益、信息交流、加强领导、协调矛盾等目的。虽然现代办公中，部分工作场景可以通过邮件、电话、工作群、OA系统、博客讨论组、远程视频会议等在线方式替代，但面对面的会议沟通仍然是办公行为中非常重要的方式。这也是在生产工具私有化后，共享移动办公未能占据办公模式中绝对地位的重要因素。

　　正是由于会议的重要性，在基础建设中会议区单位面积的投资比例数倍于办公区域。会议室建设的早期阶段，其建设目标集中定位在电子会议室。大家更关注从电子设备角度实现会议内容电子化、会议设施自动化：

　　会议内容电子化——通过显示、扩声等技术实现多媒体会议，丰富会议的表现形式。

　　会议设施自动化——通过会议中控技术实现会议设施自动化管理，方便会议操作。

　　会议室建设接下来的阶段，人们将视线投向会议组织过程，通过人、物、场、过程的在线，重构优化会前、会中、会后全会议生命周期过程：

　　人的在线——通过手机应用、人员定位、人脸识别等方式显示人员的在线状态。

　　物的在线——全面集成会议设施，从关注管理切换到关注使用面场景，面向最终使用者在线开放能力单元。

　　场的在线——基于IoT技术，结合空间管理类应用，实现会议室及其相关配套场所的在线。

　　过程在线——结合人、物、场镜像构建的虚拟孪生世界，重构优化会前、会中、会后全会议生命周期过程，提升效率并为更深层次的大数据衍生应用打下基础。

　　走到这一步，很自然地就能发现下一步要做的事情就是会议内容的在线。会议参与者是通过内容作为媒介促成了会议目的的达成。因此在一场会议中，我们将会议内容定义成灵魂一样重要毫不为过。在第一步中，我们通过显示、扩声设备确实实现了会议内容的信息化。但记录下来的内容仅仅是诸如音视频录像为主的非结构化内容，难于查阅、分享、检索，更无法形成知识点分段利用。这种大块的非结构数据就犹如一潭静态的死水不具有流动性特征，因此不满足在线使用对任意时间、任意地点、任意方式等特点的要求。

　　虽然以前做不到内容的真在线，但伴随着AI技术在语音识别领域的长足发展，未来会议信息化也逐渐进入了应用的深水区。人类通过阅读获取信息的速度远远高于通过收听方式接受信息。一场两小时的会议录像，如果采用会议纪要形式传阅，仅仅需要很短的时间就能遍历、快速发现重点，并通过精读方式获取有效信息。于是主流厂商都将精力投向于会议纪要的转写应用。

　　目前语音识别AI算法建立的基础是在近距离、安静环境上的，同时发言人的语速、普通话标准程度等因素也对识别率影响较大。因此目前主推的会议纪要转写仅仅适合于单人话筒发言、发言内容有精心准备、发言者语言表达能力优秀的场景，例如新闻发布会。而大多数会议环境中，由于环境噪音、多人交互重叠发言、发言内容需要现场组织存在停顿、重读、缩略等特点，导致最终生成的会议转写纪要可读性非常差。笔者曾试用过大多数一线厂商会议纪要转写产品，从主观上看，这些纪要甚至不如直接听录音。更麻烦的是目前主流公司均宣称语音识别率已经高达97%，未来不太可能有太多进一步提升的空间。而且就算还能提升，也无法解决因外部环境干扰对纪要可读性的影响。会议纪要转写产品似乎走入了死胡同。

　　3. 语音识别技术在会议中的运用

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页

小米史上首代徕卡联名	国产封测第一长电科技
动作不停乐视推Y1Pro	iPhone开售15周年 34款