大数据驱动的开放知识计算
后面有一个简单的小小的案例,语义的搜索,我们现在更希望不仅仅是我们给一堆关键词,我们希望给一堆自然语言,我们不知道要什么的情况下,机器也能知道我们要什么。可以通过自然语言搜索,怎么通过语言、语义的输入,让计算机知道我们要什么,便给我们相应的结果。我们整个的工作是很系统性的,比如自然语言的处理,我们要做很多分词,要做很多表示,还要有语音的识别、文字的合成、语音的合成等等,但是它的核心就是前面讲到的这样一个知识体系的构建,尤其在很多开放式问答的时候,开放网络知识库尤为重要。我们要构建这个一般问答体系、语义搜索体系,一方面会从底层,从实体层、短语层、问题体,很简单的就是三个方面,第一方面要建一个库,把所有可能的知识都存起来,第二方面我需要了解问题是什么,对问题进行理解,第三个方面通过对问题的理解和定位在里面找可能是你要的信息。第四个方面,我们把这些可能的信息变成人化给你输出出来。否则给你250个词你也不知道表达什么含义,这就是基本的语义搜索所解决的问题。 简单讲,有点偏技术,我们可以理解为首先是命令实体的识别和链接,我们要找到关键词,我们问一个问题说王元卓在讲什么,里面有一个定语是王元卓,他在讲什么,对于这种实体的识别之后会去库里面,已有的体系里面找,找到这样一些词的定位,同时我们还会有很多问题不是直接能够给出答案的,不是像章网络的客服,我们在很多电话也好,或者是客服也好,他通过自动语音可以回答,为什么?因为那个问题的答案基本是确定的,会有很少的偏移。而我们在实际的问题当中很可能我问的问题在实际的库里面是不存在的,我们就要做相应的路径的推理和推断。后面举这样一个简单的例子,时间的关系就不详细讲了。 通过前面语义的问答,我们可以快速地找到我们想要的结果,可能在库里面没有完全存在,我们通过各种组合的方式获得。我们做一个复杂的语义搜索,我们可以实现对上下位的推理,比如我要寄一个快递,我要找最近的能寄带鱼的配送站的揽件的服务的最晚的时间是多少,让机器可以理解我,他要在库里面找到带鱼,上位推理出它是海鲜,最近的服务是4很地理位置有关,通过这样知识的计算可以给出这样一个问题最直接的答案。 目前我所在的或者我所领导的中科院计算技术研究所大数据研究院,目前我们研究院就是致力于大数据在行业的应用,我们可以看到,我们一共有下设了十个中心,其中有一个大数据的创新平台中心,就是把我们现在讲到各个领域的知识、各个领域的数据都能够结构化、知识化、体系化之后放在我们这样的平台里面,通过各种算法的支持产生更高的效果。我们所有的研究中心都是面应用的,我们有政府的数据、科技的数据、环保的数据、交通的数据、物流的数据、金融的数据等等,我们把已有的大数据知识跟行业应用紧密结合起来之后,让它能够发挥更多更有效的作用。前面讲到很多案例、很多信息都是通过这样一个创新平台完成的,同时这个平台还应该有这样的功能,我们数据的来源,如果我们空谈大数据的技术,没有数据的来源还是无源之水,所以我说我们目前的应用,百万的信源,十亿级的网页数据,包括每天增量千万的规模标签,有了这样的数据获取和数据处理能力,就可以支持各个行业的大数据应用,这就是我们正在打造的大数据大脑,通过我们的物联网和互联网,两个渠道来为我们的大脑输入我们的数据,通过我们的开放知识网络的构建,把我们前面讲的各个行业的数据都能够知识化、体系化,并且能够分领域组织好,并且通过我们上面数千个计算的工具,比如说我们的各种算法、各种模型,让它们应用到各个行业里面去,这是我们目前正在着力打造的工具。 前面讲到的知识如果大家感兴趣可以翻一翻我去年3月份在清华大学出版社出版的《开放网络知识计算》一书,下面有两个二维码,左下角是我目前在做科普的一个微博,大家如果感兴趣的话也欢迎大家在上面跟我互动,《流浪地球》手绘这个事件对我冲击很大,从那个时候开始我一直着力通过手绘的方式对青少年,包括大众做科普式的教育和科普的讲解决目前我已经完成了包括《流浪地球》、包括《星际穿越》等多部科幻电影的手绘工作,后面还会做八部,包括我们讲的大数据、量子、人工智能等等,我都希望通过简单的手绘的方式能向大众、青少年传播这样的一些科学知识。 谢谢大家。 【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】 延伸阅读:
(编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |