大数据驱动的开放知识计算

发布时间：2019-06-03 20:56:50 所属栏目：模式来源：PingWest品玩

导读：大家好，我是王元卓。开始正式分享之前给大家分享一点我进门之后的心情，我刚进到这个房间里面来的时候，我们的CEO正在做非常精彩的演讲，我坐在嘉宾席上的时候越听心里越沉，我发现今天大会的定位、大会的风格好像跟我之前来的时候，和我准备的演讲不太一

大家好，我是王元卓。开始正式分享之前给大家分享一点我进门之后的心情，我刚进到这个房间里面来的时候，我们的CEO正在做非常精彩的演讲，我坐在嘉宾席上的时候越听心里越沉，我发现今天大会的定位、大会的风格好像跟我之前来的时候，和我准备的演讲不太一致，我非常担心我会成为今天最另类的一个讲者，因为我讲得太学术了，真的是心里面一直在打鼓，怎么办？可是当我听完前面两位专家在讲宇宙空间、讲天体科学之后我的心情马上就好了很多，大家知道为什么吗？因为我之前被主办方邀请来是跟他们一样的，是要讲宇宙空间的，讲天体科学的。大家要知道我的心情，可能是由于年初的时候我给女儿画过几幅《流浪地球》的手绘图，很多人都误以为中科院的王元卓是搞天体物理研究的，这是一个很大的误会，我本人是做信息科学，大数据和智能计算相关的研究工作，大家可以想象我的心情，如果我在两位大专家之后去讲天体科学，那我无异在印证一句古老的成语——班门弄斧，所以我现在心情好了很多，我马上要开始我本专业的分享，大数据驱动的智能计算或者开放知识计算下面的一些研究工作。

首先要提一下大数据，近些年，应该说从2012年开始，大数据被很多人、很多业界、很多学者所熟知，并且在助力推动，我作为中科院计算所的科研人员，我很自豪地讲，我们中国科学院计算技术研究所是大数据的发起者和主要推动者之一，我作为其中一员也担任了很多的工作。

目前大数据要产生大的价值是业界很多人驱动的动力，但是我国虽然拥有很大量的数据，大数据主要有两类，一类是来自物理空间、物理社会，我们的这样一些可以通过感知、采集所获得的，还有一类来自于我们的社交，来自于我们人，我国是地大物博、人口众多，大数据无论从哪个方面我们都是具有全球最大量数据的国家。但是由于技术的限制，由于各方面行业应用的限制，目前我国大数据的利用率仅仅不到0.4%，应该说还有大量的工作可以做。

要想让大数据真正能够产生价值，计算是一个很重要的途径。这里面我们举一个典型的案例：我们每天都会经历的大数据，比如说网络上的大数据，我们每天都会刷微信，现在还有人看抖音、刷微博等等，我们说网络大数据纷繁复杂，要想让它得到这样的价值，很关键就通过两个方法、两个阶段、两个步骤，一个是对这些数据进行统一的表示，让机器能够了解它，就是建模的过程。还有计算，怎么通过算法的方式能够产生这样的价值。我们还是用网络大数据来做例子，要想研究好网络大数据，把它当中的有效价值能够提炼出来，我们要做什么样的工作？我们要找到研究对象，我们说网络当中有几类非常重要的信息，一类信息是内容信息，我们要发各种邮件，我们可能会发微博，我们会发朋友圈，里面有很多很多的内容信息，有的是长文本，有的是短文本，还有结构信息，谁跟我是好友，我关注了谁，我跟某个机构的隶属关系是什么样的，我们有很多结构信息，同时这些结构信息又在发生着各种各样的变化，根据时间的变化，它在发生各种推移。还有一类信息是目前大家都担心的，说你们搞大数据的就是窃取我们的隐私来变现作为商业价值，很多隐私信息聚集在一起也是目前大数据重点关注的方向。

我们对大数据的研究，从这三个方面来讲是非常关注的，三个研究领域，一个是做开放知识的计算，怎么把内容当中的信息提取出来，第二方面是做演化的计算，怎么能够把我们的这种社交的关系，并且能够关注到这些关系发展变化的情况，今天我们两个是好友，明天我们两个反目了，第三个方面就是我们怎么能够通过数据的分析，能够更好地保护我们的隐私，防止我们的隐私泄露。在这个方面其实我本人也是有一个工作，在中国中文的期刊论文，目前是我国大数据领域下载量最高的一篇文章，应该有七万多次下载，如果大家感兴趣的话可以去了解。

我今天要讲的内容其实主要就是针对开放知识的计算，我们说大数据当中有很多开放的知识，我们都知道网络上面有大量的知识，我们怎么通过检索，通过搜索引擎找到这些开放的知识，把它变成以实际为中心的知识可以去共享、可以去分享的这样一个形式，并且把这些知识整体化、系统化之后能够给我们一些我们想要的知识经过整理之后的答案。我们说一个很重要的方法就是构建知识库，我们现在说的知识库可能跟80年代时候讲的知识库有那么一点点不同，什么不同呢？

如果说早期的，从一九八几年开始的知识库，更多的是小规模的，是我们把很多书本上的信息电子化、数字之后存在计算机里，是给人用的，人工构建服务于人的。在现阶段，在2010年前后的时候，更多做的是用算法来构建，让机器可以理解，而不是给人看的，机器要把这个知识做了精化处理之后，给我们更多加工后的信息。引用这样一句话，我们说知识库现在的构建需要机器可读、算法驱动和自动知识体系的构建方法。

大数据怎么产生价值？一方面要统一表述，要有一个统一的模型，不用管模型是什么，另外我们要解决多源异购不完整的这种网络数据当中怎么去让它计算的精度和速度都能够保证起来，这就是我们要解决的问题。我们在模型的基础上又做了很多的算法，可以让它比已有的应用技术，在很多方面都有提升，比如说准确率、比如说融合的准确率、比如推断的准确率等等。简单来讲，开放知识网络就是构建一个网络，这个网络游点、有边，点就是我们的实体，比如王元卓就是一个实体，中科院是一个实体，中国也可以是一个实体，边就是关系，我跟中科院是一种工作关系，或者说隶属关系，中科院在中国也是这样的一些关系，每个点、每个边又有若干的属性，比如说我是性别男，我有我的年龄、我有我的师承、毕业院校和学生等等，通过这样的网络让它赋予时间和空间的属性，就可以把现在很多的数据当中的知识有效地提取出来。

虽然有一点学术，但是我试图给大家解释这个问题，大家要做开放知识计算，要把网络建立起来，要发挥它的作用，不用看细节，通过四个部分，每一个步骤做得好都可能比别人得到更好的结果，你的产品都可能会更加畅销。什么部分？第一个，同样是表示我怎么能让机器理解得更好？怎么能让后面不明白我们语言的系统依然能够跟我们兼容，所以首先就是要提出这种表示的方法，要找到这样一种传统不同的，比如说传统的更多的是对这种内容信息做表示，我们就提出把结构信息和内容信息融合在一起进行表示，比如说我们这样的工作在已有的系统当中得到非常好的效果。我们一旦有了好的表示方法之后，我们就想知识哪儿来？光有好的语言，语言承载什么样的内容呢？知识就要抽取出来，有三个主要的方面，一个方面，能不能在那么多的文章当中找到“王元卓”这三个字，要把实体抽取出来。第二，能不能找出关系，我跟在座各位的关系，我在讲，大家在听，可能是一个授课的关系，但是如果离开这个房间，可能在座的某些人可能跟我成为朋友的关系，也可能成为合作的关系，这个关系怎么抽取出来？第三个非常重要的方面，就是概念的体系，什么是概念的体系？我经常举一个例子，比如生物学，我们都学过生物，生物里面有界门纲目，一级比一级大，我们各行各业都需要这样的分级体系，比如医疗大数据，我们搞大数据的人懂医疗吗？不懂，我需要通过这样的概念、分类体系构建，使技术人员能够了解在医疗方面大数据应用的需求和知识。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页