每个周五夜晚,都有几十万个智能音箱被同时唤醒
还是李开复的自传里的一个故事,有一年愚人节,苹果的同事把他做的语音识别系统做进电梯,用话说控制电梯,很酷吧,可大家走到电梯里,没人敢打招呼了,一说“Fine thank you and you?”五楼的电梯灯就亮起来——Fine被识别成了Five。 远场识别会带来太多不太可控的因素。 声学领域有个概念叫“信噪比”,简单理解就是,你要听的那个声音,和噪声的比例。 近场识别时,信噪比很高,你要听的那个声音是鹤,噪音是一群鸡,当然一眼就能把它拎清。 远场识别时,信噪比很低,你要听的那个声音是鸡,噪音还是鸡,再要从中间挑出来就很难。 为了解决低信噪比的问题,智能音箱除了在算法模型层面下功夫,还得在硬件上下功夫,比如,用多个麦克风组成一个麦克风阵列。 你应该有过类似体验:当你认真听一个声音时,大脑会自动调集资源,辨别声音的方位,然后集中处理这个方向上的声音,抑制其他方向传来的噪音。 麦克风阵列的作用类似,每个麦克风只负责一个方向的声音,它们先对声音进行“声源定位”,再用“波束形成”技术集中收听这一个方向的声音,抑制其他方向的声音,从而达到降噪的目的。 虽然这个方法能解决一部分环境噪音,但如果有多个人同时说话,还离得很近,这种技术就会大打折扣。 此时,又需要一种叫“语音分离”的技术来把重叠在一起的声音分开。 远场识别需要处理的情况太多太复杂,所以它是一个细活,需要一点一点慢慢打磨。 文章前面,我把语音识别比作一个工厂,里头有一个长长的流水线,旁边站着葫芦七兄弟。按照真实的处理流程之复杂,葫芦七兄弟恐怕远远不够,得梁山一百单八将都出动才行。 4.再给它一些时间 回过头来一想,我就觉得其实没必要对智能音箱太苛刻。毕竟,即便是你,听见电视里好像有人提到自个儿名字,也会一愣神。 人类已经进化了几十万年,而动物听觉诞生的时间更久远。 据说,当人类“还是一条鱼”的时候,听觉就已经产生。声波冲击鱼鳔,引起鱼鳔扩大或收缩,造成的震动刺激内耳的灵敏感觉细胞,产生听觉。 相比之下,计算机的语音识别能力诞生不过百年,语音助手出现不过30年,智能音箱从2015年开始流行,如今才几年? 也许我们应该多给它一些时间。 在写这篇文章时,我想起2017年天猫精灵刚上市时,我做过一期调戏天猫精灵的视频。 和当时相比,如今的天猫精灵已经聪明太多太多,可我有时竟会怀念它当年的蠢萌带给我们的快落。 就像一个总是不分场合乱说话的蠢萌朋友,多年以后,他变得成熟、深沉、冷静,你竟有些怀念当年的那个他。 也许几十年以后,人工助手变得极度聪明,再也不犯错。那时我们也老了,也许会跟儿女、孙子吹牛:“当年我们的智能音箱,可蠢可逗了,冷不丁就蹦出一句骚话,比段子还搞笑……哈哈哈哈。” (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |