关于语音识别技术在会议中的应用
文 / 王唯 上海云思智慧信息技术有限公司 产品研发中心 副总经理 1. 语音识别技术的现状 语言是人类最自然的交互方式。数万年来人类通过进化获得的语言交流能力,相比其他的交互方式具有更多的优势。当计算机发明之后,人类与机器的交流虽然暂时受限于鼠标键盘等面向机器的交互方式,但却从不阻挡人类让机器能够听懂人类的语言、理解语言中的内在含义、做出正确回答的探索。这些场景反复出现在科幻电影中,那些智能先进的机器人助手,通过语言与人类完成自由地交流。 纵观计算机模拟人类语言交流的整个过程,包括倾听-理解-思考-表达四个阶段。当前计算机领域,按照技术难易度及普及顺序,大致也可以分为以下四类与之相对应的技术研究: 自然语言生成——将大脑产生的思想转换成语言 语言合成——将语言转换为相应的语音 语音识别——识别语言中表达的语音内容 自然语言理解——理解语音表达的语言含义 其中,语音识别技术是指机器自动将人的语言转成文字,又称 Automatic Speech Recognition,即ASR技术。它是一门涉及声学、语音学、语言学、情感学、心理学、信息理论、模式识别理论、数字信号处理、人工智能、数理统计学等多学科交叉的科学。近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,不仅开始从实验室走向市场,并且已逐渐走进我们的日常生活。 语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。 基于模式匹配原理的语音识别系统框图 从语音识别算法的发展来看,语音识别技术主要分为三大类,第一类是模型匹配法,包括矢量量化(VQ) 、动态时间规整(DTW)等;第二类是概率统计方法,包括高斯混合模型(GMM) 、隐马尔科夫模型(HMM)等;第三类是辨别器分类方法,如支持向量机(SVM) 、人工神经网络(ANN)和深度神经网络(DNN)等。 目前语音识别技术已经是相对成熟(商用)的技术,各家主流公司均宣称语音识别率达到了97%,甚至98%。现在语音识别已用于许多领域,主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台,智能客服等。但需要指出的是,主流公司宣称的语音识别率一般是需要用户在安静环境下,近距离、原地不动、慢慢地、认真清晰发音时测试的结果。在实际场景,往往有很多种异常情况都会导致语音识别的效果大打折扣,比如距离太远、发音不标准、环境嘈杂、中间有时不时的打断等等。 所以语音识别技术在实际应用中,受限于特定的场景,同时还需要有各种解决方案来配合。这虽然是一个应用落地比较现实的问题,但并不影响我们做产品demo和初步的产品化工作,反而是我们AI产品经理的发挥机会——用产品体验设计来优化(弥补)纯技术效果的不足。 2. 语音识别技术的发展与挑战 在协作工作模式下,我们常常通过开会来布置、协调、研讨工作,以达成集思广益、信息交流、加强领导、协调矛盾等目的。虽然现代办公中,部分工作场景可以通过邮件、电话、工作群、OA系统、博客讨论组、远程视频会议等在线方式替代,但面对面的会议沟通仍然是办公行为中非常重要的方式。这也是在生产工具私有化后,共享移动办公未能占据办公模式中绝对地位的重要因素。 正是由于会议的重要性,在基础建设中会议区单位面积的投资比例数倍于办公区域。会议室建设的早期阶段,其建设目标集中定位在电子会议室。大家更关注从电子设备角度实现会议内容电子化、会议设施自动化: 会议内容电子化——通过显示、扩声等技术实现多媒体会议,丰富会议的表现形式。 会议设施自动化——通过会议中控技术实现会议设施自动化管理,方便会议操作。 会议室建设接下来的阶段,人们将视线投向会议组织过程,通过人、物、场、过程的在线,重构优化会前、会中、会后全会议生命周期过程: 人的在线——通过手机应用、人员定位、人脸识别等方式显示人员的在线状态。 物的在线——全面集成会议设施,从关注管理切换到关注使用面场景,面向最终使用者在线开放能力单元。 场的在线——基于IoT技术,结合空间管理类应用,实现会议室及其相关配套场所的在线。 过程在线——结合人、物、场镜像构建的虚拟孪生世界,重构优化会前、会中、会后全会议生命周期过程,提升效率并为更深层次的大数据衍生应用打下基础。 走到这一步,很自然地就能发现下一步要做的事情就是会议内容的在线。会议参与者是通过内容作为媒介促成了会议目的的达成。因此在一场会议中,我们将会议内容定义成灵魂一样重要毫不为过。在第一步中,我们通过显示、扩声设备确实实现了会议内容的信息化。但记录下来的内容仅仅是诸如音视频录像为主的非结构化内容,难于查阅、分享、检索,更无法形成知识点分段利用。这种大块的非结构数据就犹如一潭静态的死水不具有流动性特征,因此不满足在线使用对任意时间、任意地点、任意方式等特点的要求。 虽然以前做不到内容的真在线,但伴随着AI技术在语音识别领域的长足发展,未来会议信息化也逐渐进入了应用的深水区。人类通过阅读获取信息的速度远远高于通过收听方式接受信息。一场两小时的会议录像,如果采用会议纪要形式传阅,仅仅需要很短的时间就能遍历、快速发现重点,并通过精读方式获取有效信息。于是主流厂商都将精力投向于会议纪要的转写应用。 目前语音识别AI算法建立的基础是在近距离、安静环境上的,同时发言人的语速、普通话标准程度等因素也对识别率影响较大。因此目前主推的会议纪要转写仅仅适合于单人话筒发言、发言内容有精心准备、发言者语言表达能力优秀的场景,例如新闻发布会。而大多数会议环境中,由于环境噪音、多人交互重叠发言、发言内容需要现场组织存在停顿、重读、缩略等特点,导致最终生成的会议转写纪要可读性非常差。笔者曾试用过大多数一线厂商会议纪要转写产品,从主观上看,这些纪要甚至不如直接听录音。更麻烦的是目前主流公司均宣称语音识别率已经高达97%,未来不太可能有太多进一步提升的空间。而且就算还能提升,也无法解决因外部环境干扰对纪要可读性的影响。会议纪要转写产品似乎走入了死胡同。 3. 语音识别技术在会议中的运用 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |