加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 模式 > 正文

大数据驱动的开放知识计算

发布时间:2019-06-03 20:56:50 所属栏目:模式 来源:PingWest品玩
导读:大家好,我是王元卓。开始正式分享之前给大家分享一点我进门之后的心情,我刚进到这个房间里面来的时候,我们的CEO正在做非常精彩的演讲,我坐在嘉宾席上的时候越听心里越沉,我发现今天大会的定位、大会的风格好像跟我之前来的时候,和我准备的演讲不太一

在所有的可以有的抽取的知识,可以进行表示之后,我们涉及到的就是融合,我们怎么能够让两类不同来源的知识能够有效地融合起来?比如我们说英文跟说中文的怎么能够很好的交流,比如不同企业和领域的知识怎么能够很好地融合,这解决我们第二个要解决的问题。

第三个方面,我们光把知识可以融合了,就可以了吗?我们说很多基于大数据获得的知识都是显性的知识,什么叫显性的知识?在某一个文本当中说王元卓就职于中国科学院,王元卓和中国科学院是两个个体,关系是就职于,但是有一些知识不知道,比如我在清华大学读书,作的某些人也在清华大学读书,我们可以推理出来,但是机器不行,但是我们还有更多更深层次的推理关系,我们这里面有这样的数据,比如把80年代到现在信息领域、计算机领域的论文做了分析,我们发现如果我们用这种合作作为人与人之间的关系,这些都是显性的,我们如果再通过这种推理的方法来对它进行深度的挖掘之后会发现,有80%的信息是可以通过我们的深度推理里获得的。换句话说,我们有了很好的知识推理,我们可以让大数据拥有更多的知识。

另外一个方面,我们说大数据它有两个非常重要的应用,或者是应用的需求,一个方面我们叫感知现在,就像体检一样,我们通过很多数据的参数化,包括跟阈值的对比,我们知道我们是不是健康还是亚健康。另外一个非常重要的驱动就是我们的预测未来,通过我们已有的知识怎么能够预测知识未来发展的趋势?在这里面重点提到两个方面,一个方面是关系预测,我现在看到了,这边有一位朋友一直在拍照、一直在录像,我们下面有可能成为合作关系或者朋友关系,这边有朋友一直在低头看手机,我觉得我们之间可能认识的可能性不大,通过一些已有的信息、已有的迹象,我们可以对未来知识的发展和走向做这样的预测。这些不是我们去凭空而谈的,我们有成果、有专利、有各种各样国际顶级的论文支持,所以大数据从2012年发展到今天已经开始进入到可以实用的阶段。

前面讲了这么多的技术,很多的算法、很多的公式,我没有讲内容,大家理解一下,要做一个大数据知识化的计算,那要把开放知识构建成知识库,刚才讲了那么多的技术,它要有实现的方式,比如开放知识库,知识库的构建只有把知识真正存在库里面才能发挥作用。这个库什么叫作好?三个维度定义它,一个维度是快,一个维度是全,一个维度是准,这就是我们构建一个面向领域的知识库我们非常关注的三个方向。

首先知识库能否快速构建?如果大家了解,我们之前在80年代做知识库的时候是怎么建的?一个技术人员,或者更多的就是录入,手要快,旁边要跟着一个业务人员,一个老专家,比如医疗领域的大数据,我们一定要有一个主治医师,有一个老专家在这边,他会告诉我们糖尿病跟什么是有关系的,不能吃什么,要用什么药。这种录入方式的好处就是准,准确率达到98%,为什么还有2%的误差?第一个是他记错了,第二个是我听错了,通过现阶段的需求,大数据量太大了,我们构建一个大规模的知识库,比如几十亿的关系,我们需要多少人力做这件事情?在这时候我们开放网络知识库面向领域的构建就非常重要,我们可以通过已有领域简单的关键词输入,我们可以不断迭代自学习的构建,从而实现知识库的自我构建。同样还是医疗领域,作为中年人都了解一些常识,都知道如果高血压你可能不能太吃咸的东西,你要注意休息,你可能吃芹菜会降压,我们会有一些基本的常识,通过这些仅有的碎片化的常识知识,不断地在网络上自我滚动和更新,我们就可以快速地在没有,或者很少的监督或者领域知识的情况下,就能构建准确率达到70%以上的知识库,规模很大,速度很快,同时又可以不断迭代,让它达到精确的效果。

通过信息的领域、通过技术化的手段,可以从网上获得各种各样的知识,我们的通道可以配置,我们的新闻、论坛、博客可以各个渠道配置,所以我们的大数据可以非常全面地获得。还有一个方面就是准,我们刚才讲到在没有领域专家的情况下,很多领域知识的构建其实很难达到非常精准,我们基本可用,但是怎么能够在这个前提下,让它尽量准,这个方面其实我们也做了很多工作,从2014年开始,我们的很多规律在国际顶级技术评测上都获得了国际排名第一的成绩。我们拿来了一个构建好的开放领域的知识库怎么评价它?我们有多维的指标来通过这样的一些方式判断。

下面有很多业界的学者要讲,我就把前面说的,我们能够把这种领域知识构建出来,体系化、结构化之后,能够产生什么样的应用,简单地跟大家做一个分享。首先我们说新闻语义的推荐,传统在网上搜索,或者我们业务部门,我们有很多工具,比如说新华社、媒体的文字编辑部门,他们需要在大量的网络媒体或者大量的数据当中找到完整的新闻要素做完整的整面,但是通过关键词搜索的情况下,比如人物、地点、组织,可能会漏掉很多的信息。我们现在基于这个开放知识网络可以通过体系化、结构化的对语义进行搜索,就可以较好地弥补这样的问题。通过数据说话,我们实际的应用,我们可以看到,我们可以获得超过已有的基于关键词搜索25%的增量的结果,换句话说我可以得到的结果更多,跟大家很多的想法是不一样的,大家想我在百度上搜一个文章、搜一个信息给了我几万个结果,我想要一个就够了。还有很多要找到更多的信息,从中找到更全面的结果。第二个方面,前面讲了,很多的关系、很多的线索是可以推理出来的,这里面就举一个简单的例子,也是系统可以直接完成的例子,这是当年暴恐的例子,里面人物、关系都可以推理出来的。还可以通过前面结构化、组织化之后的知识,尤其是领域知识对一个领域的事件进行很好的表示,比如说股市熔断,这个词有各个方面,包括国家政务、外交、金融、法律监测、监督等等,不同的人收到的信息可能是不同的角度,我怎么能够快速地定位到我想要的信息?这就是我们通过体系化知识的知识所能完成的。

大数据驱动的开放知识计算

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读