每个周五夜晚，都有几十万个智能音箱被同时唤醒

发布时间：2020-07-16 10:42:33 所属栏目：评论来源：站长网

导读：愉快的周五晚上10点，我打开芒果台，依照节目的广告植入设定，何炅他们每一期都会命令小度音箱做点什么事，而每当电视里的何炅喊“小度小度”，我家的小度音箱就跟着响应：“在呢

还是李开复的自传里的一个故事，有一年愚人节，苹果的同事把他做的语音识别系统做进电梯，用话说控制电梯，很酷吧，可大家走到电梯里，没人敢打招呼了，一说“Fine thank you and you？”五楼的电梯灯就亮起来——Fine被识别成了Five。

远场识别会带来太多不太可控的因素。

声学领域有个概念叫“信噪比”，简单理解就是，你要听的那个声音，和噪声的比例。

近场识别时，信噪比很高，你要听的那个声音是鹤，噪音是一群鸡，当然一眼就能把它拎清。

每个周五夜晚，都有几十万个智能音箱被同时唤醒

远场识别时，信噪比很低，你要听的那个声音是鸡，噪音还是鸡，再要从中间挑出来就很难。

为了解决低信噪比的问题，智能音箱除了在算法模型层面下功夫，还得在硬件上下功夫，比如，用多个麦克风组成一个麦克风阵列。

你应该有过类似体验：当你认真听一个声音时，大脑会自动调集资源，辨别声音的方位，然后集中处理这个方向上的声音，抑制其他方向传来的噪音。

麦克风阵列的作用类似，每个麦克风只负责一个方向的声音，它们先对声音进行“声源定位”，再用“波束形成”技术集中收听这一个方向的声音，抑制其他方向的声音，从而达到降噪的目的。

每个周五夜晚，都有几十万个智能音箱被同时唤醒

虽然这个方法能解决一部分环境噪音，但如果有多个人同时说话，还离得很近，这种技术就会大打折扣。

此时，又需要一种叫“语音分离”的技术来把重叠在一起的声音分开。

远场识别需要处理的情况太多太复杂，所以它是一个细活，需要一点一点慢慢打磨。

文章前面，我把语音识别比作一个工厂，里头有一个长长的流水线，旁边站着葫芦七兄弟。按照真实的处理流程之复杂，葫芦七兄弟恐怕远远不够，得梁山一百单八将都出动才行。

每个周五夜晚，都有几十万个智能音箱被同时唤醒

4.再给它一些时间

回过头来一想，我就觉得其实没必要对智能音箱太苛刻。毕竟，即便是你，听见电视里好像有人提到自个儿名字，也会一愣神。

人类已经进化了几十万年，而动物听觉诞生的时间更久远。

据说，当人类“还是一条鱼”的时候，听觉就已经产生。声波冲击鱼鳔，引起鱼鳔扩大或收缩，造成的震动刺激内耳的灵敏感觉细胞，产生听觉。

相比之下，计算机的语音识别能力诞生不过百年，语音助手出现不过30年，智能音箱从2015年开始流行，如今才几年？

也许我们应该多给它一些时间。

在写这篇文章时，我想起2017年天猫精灵刚上市时，我做过一期调戏天猫精灵的视频。

和当时相比，如今的天猫精灵已经聪明太多太多，可我有时竟会怀念它当年的蠢萌带给我们的快落。

就像一个总是不分场合乱说话的蠢萌朋友，多年以后，他变得成熟、深沉、冷静，你竟有些怀念当年的那个他。

也许几十年以后，人工助手变得极度聪明，再也不犯错。那时我们也老了，也许会跟儿女、孙子吹牛：“当年我们的智能音箱，可蠢可逗了，冷不丁就蹦出一句骚话，比段子还搞笑……哈哈哈哈。”

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

社区团购仍然一团浆糊	复盘 5G时代，中国时刻
iOS15.2Beta4现已推送	低调中爆发？165W+骁龙