左5G右AIoT 讯飞输入法准备好开启下一个十年
2010年10月28日,在中国,一个由学生创业起家的公司推出了第一款专为智能手机设计的中文语音输入法,讯飞输入法,开启了一个语音交互时代。在它发布大约一年后,谷歌、QQ、搜狗、百度等巨头才相继推出自己的语音输入法。可以说,讯飞输入法的出现,引领和推动了输入和交互模式的变革。 10年时间,移动互联和AI(人工智能技术)的发展,进一步改变了人与机器的交互方式,促进了语音输入的普及。今年赛诺市场研究对外发布的《2020年中国第三方手机输入法秋季报》显示,语音输入的频率明显增加,成为增长最快的输入方式,而且语音输入方面的创新,已经成为一款输入法新增用户的牵引力。 今天,语音输入,与AI一起,被看作是将从根本上改变人和机器的关系,给下一代软件创造巨大价值的技术。 讯飞输入法面世10年之际,科大讯飞副总裁章继东表示:“过去十年里,讯飞输入法秉持着技术顶天,引领语音交互落地的理念,不断革新产品,努力让让亿万用户高效输入,乐享沟通。下一个十年,随着5G和AIoT时代的到来,讯飞输入法将继续以过硬的技术实力直面行业发展的挑战与机遇,不断提高语音输入的行业天花板。” 中国人的技术要掌握在中国人手中 2013,中国相声演员方清平用20.5秒快速说完了《木兰辞》的前三段,获吉尼斯世界纪录《讲中文速度最快》证书,被称为世界上讲中文速度最快的人。 就在最近,这个纪录被再次刷新。10月20日,方清平在公证人员的公证下,再次挑战快语速朗读《木兰辞》,仅用17.81秒时间读出182字。而在此语速下,讯飞输入法识别准确率达到100%。 实际上,讯飞输入法的输入速度已经突破了1分钟识别600个字。人们惊讶于讯飞输入法的快与准。而这背后,是科大讯飞语音和人工智能的积累。 时光回到10年前,当时中国的语音技术几乎还全部掌握在IBM、微软等外企手里。正在中国科技大学读博士的刘庆峰,收到了李开复的邀请。李开复正在创建微软亚洲研究院,希望刘庆峰加入智能语音团队。 但刘庆峰的博士导师吴宗纪一直给学生们传递一个理念,中国人的技术一定要掌握在中国人的手上。因此,刘庆峰拒绝了李开复的邀请,与几个同学一起创建了科大讯飞,并于2008年在深交所上市,也是中国在校大学生创业第一个上市公司。 公司创立伊始,语音就被确立为讯飞的核心发展方向,以语音为入口的人工智能技术也成为科大讯飞发展的关键。“很多的技术是看不见的,但是我们相信相应技术会改变世界。”科大讯飞副总裁章继东说。每一次技术革新,讯飞都会快速的应用在自己的产品上。 2010年,讯飞AI研究院就将GMM-hmm-隐马尔可夫模型应用到语音识别系统中,通过运用WFST解码器,提高复杂的语言模型,达到了70%识别率。2012年,讯飞又在输入法中使用了深度神经网络技术,把全球首个中文云识别的DNA上线到产品中,使得语音识别率一下子提升了到80%。2018年 ,讯飞又开始使用Hybrid-CNN 算法,通过结构优化大幅提升并发路数,语音识别准确率突破98%。今年,讯飞又在产品中加入了动态自适应编解码语音识别引擎 ,进一步实现了多模态输入和领域个性化识别。 “在这10年里,讯飞秉承了一个很朴素的理念,就是提升整个社会的效率。”科大讯飞输入法业务总经理程坤说。 今天,当你拨打各大运营商、银行等客服电话,很多客服不是真人,而是机器发出的声音,背后运用的就是讯飞的技术;你出行中使用的打车软件、导航软件,导航中林志玲、郭德纲、TFBOYS等等的合成音,也是出自讯飞之手。每年的国家普通话评测、中高考的口语评测,机器评测技术也来源于讯飞……科大讯飞以这样的方式“隐行”在无数个终端的背后。数据显示,科大讯飞占据了中文语音市场70%以上的份额。 个性化语音:让技术有温度 2020年2月,全国各地的众多医生、护士驰援武汉抗击新冠疫情。但很多人也遇到了一个小问题,听不太懂武汉话。为此,讯飞输入法团队经过10天的紧急技术攻关,上线了武汉话转普通话功能,并开放给广大用户,助力医患沟通,在短短的时间里,累计服务了3万人。 方言,其实也是讯飞输入法团队在2011年就遇到的一个难题。中国有太多人说的是方言,如果无法准确进行方言的识别,那么语音输入终将沦为鸡肋。 经过用户调查和数据分析后,讯飞输入法选择从需求排名最高的粤语、四川话和河南话入手。2012年的一次版本更新后,上线了粤语语音输入,成为首款支持粤语语音输入的输入法,紧接着上线了四川话和河南话的语音输入。截止到目前,讯飞输入法的粤语语音识别准确率已经超过95%,陆续上线了23种方言的语音识别。 语言是很奇妙的东西,承载了民族和族群几千年的文化。但如果保护不及时,语言消失了,文化也就随之消失了。数据显示,世界上大约有6000 ~ 10000多种语言,大部分将于本世纪末消失。 人文内容的载体,需要现代技术的加持。2017年,讯飞输入法发起“方言保护计划”公益行动,通过智能语音技术保护方言;截至目前,方言库的珍贵语料近140万条,并通过A.I.语言复制实现23种方言识别。“科大讯飞一系列核心技术的不断突破,有利于拓展方言保护的新方法、新思路。”讯飞输入法业务部总经理程坤表示。 语音识别的终极目标,就是让用户便利自然的输入文字或发送指令。当语音识别率越高,相应的用户体验也就越好,社会价值就更大。为了用户体验的极致,讯飞在“个性化语音”功能上下足功夫,通过拓展人工智能技术,解决输入环境复杂、表达习惯差异、方言等问题。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |