2020 WAIC明略科技吴信东深度解读知识图谱的自动构建

发布时间：2020-07-13 16:29:41 所属栏目：动态来源：站长网

导读：2020年7月11日,世界人工智能大会WAIC开发者日:开发开源社区主题论坛召开,全球有影响力的图灵奖得主、顶级技术专家和开发者代表云聚一堂,对当下人工智能前沿理论技术和开发实践进行深度解读。明略科技首席科学家、明略科学院院长吴信东受邀发表主题演讲,分

2020年7月11日,世界人工智能大会WAIC·开发者日:开发·开源·社区主题论坛召开,全球有影响力的图灵奖得主、顶级技术专家和开发者代表云聚一堂,对当下人工智能前沿理论技术和开发实践进行深度解读。明略科技首席科学家、明略科学院院长吴信东受邀发表主题演讲,分享知识图谱自动构建的方法论和实践,并宣布明略科技HAO图谱开放Text2KG API能力,赋能开发者和企业级用户。

数据图谱不是知识图谱

吴信东认为,大多数情况下,我们所说的、所用到的图谱并没有后台知识,只是数据图谱,而不是知识图谱。知识图谱应该有三个组成部分,首先是概念,即图谱的节点。概念跟概念之间是连接,是关系,即图谱的边。只有概念和关系还不够,还需要背景知识解释概念,和连接的语义。如果只有概念、关系,是数据图谱,而不是具有背景知识的知识图谱。

从数据图谱到知识图谱的构建,可分成三个阶段。第一阶段,人工阶段。对当前问题充分理解,把概念、关系形成节点和边,用计算机程序的方式进行连接、沟通。第二阶段,众包构建。当实体太多,关系类型非常复杂时,需要涉及到群体,形成分布式的开发环境进行集成。第三阶段,自动构建。自动构建,始于美国的华盛顿大学,卡内基梅隆大学,Google的一些早期项目,采取计算机辅助,做自动融合、自动容错的检测机制。

知识图谱的构建,首先要有数据来源。数据类型可分成结构化数据,例如,表格数据,一个成型的数据库,关系型数据库,或者其他层次化的数据;非结构化数据,包括新闻网页,手写的字段,图片,视频,中间可能是根据需要、场景采集到的数据片段;半结构化数据,例如,网络文章,虽然不是完全结构化的,但一般而言都有标题、作者、摘要,分段落以及结束语,所以具备一定的形式,即半结构化数据。

知识图谱的构建,要考虑到三种不同的数据类型。其中,非结构化数据,由于语言、描述形式呈现了多样性或灵活性,因此抽取实体、语义关系是知识图谱自动构建面临的挑战。具体而言,信息抽取,需要判断哪些信息的短语、动词是和知识图谱构建相关的。知识融合,需要把每个句子里面存储的不同片段的信息,形成一个整体,所形成的描述形式用于其他的知识处理。

无论是从信息抽取做知识融合,还是做知识处理,最核心的三部分,一是实体涉及到的名词,二是涉及到中间的关系,三是实体和关系之间,可能有同名,有共线(Co-references),如何冲突消解。

知识图谱的构建方法

图谱构建主要有三大挑战:第一,在构建中间可能做了一些信息搜索;第二,后台的知识库可能做了一些信息冗余;第三,随着时间和空间的变化,信息要进行更新迭代。那么,如何构建知识图谱?方法主要有四大类。

第一类是逻辑建模,用逻辑描述所要抽取的知识图谱包含了哪些概念、关系和背景知识。目前,大多数知识图谱都是逻辑+概率。逻辑,是名词跟名词的关系。当涉及到日常生活、社会经济系统,这些名词的关系不是确定的,所以要加上概率的描述方式。概率+逻辑,通常是用来描述知识图谱的第一种技术手段。其中涉及到一些技术问题,如,逻辑变量、逻辑规则,当量非常大时,使用马尔可夫逻辑网对问题进行简化处理。对问题求解关注度比较高的一些描述形式,把马尔可夫逻辑网介入到概念衍生过程中,达到高效的知识图谱构建和利用。

第二类知识图谱的构建方法是隐含空间,涉及隐含变量,即有哪些背景知识来解释文本。文本包含的社会背景、人物关系、组织结构,没有在文本中体现,但是要进行了解、梳理。隐含空间分析有多种方法,第一种方法是距离模型,一个三元组,一个head,通过一个relation,推演将来tail究竟是什么。例如,我走到哪一个大楼,到了具体哪一层,中间可能涉及到隐含的变量。假设我今天的目标是要去访问客户,或者做一个项目答辩。根据当前的情况,背景的隐含空间,可以映射我的目标,要到什么地方去,这就涉及到背景知识。所以隐含变量和隐变量模型,核心都是有一些变量是无法看到的,文本没有进行具体刻画的隐含信息。这就涉及到神经网络经常用到的张量模型,张量是全方位的,是三维空间的描述,用像机、二维模型刻画,有些变量、特征不容易展现出来。由此引出矩阵分解,一个矩阵中间可能有一个隐含矩阵,从M到N,中间让它变成N×K的矩阵的描述形式。所以,隐含变量带来了很多的空间和机会,相对困难。现在国内用的比较多的是TransE翻译模型,是从当前的一个变量,翻译到一定程度。

第三类知识图谱的构建方法是人机交互,通过人在回路,以计算机和人交互的方式,完成对信息的搜集、聚合、消解。核心是一个交互接口。人机交互的图谱构建,基本上有三种不同的模式。第一种模式是通过设计一个计算机程序,让计算机程序对人类专家进行提问,一旦把这些问题进行完整的回答,就把该问题涉及到的概念和关系建立模型,生成知识图谱。人机交互的范式里有Structured Interactive Knowledge Transfer(SIKT),即结构化的交互知识牵引,通过计算机交互,把人脑中存在的关于问题的描述,形成知识图谱。面向对象,把实体里面关于知识的描述、知识的牵引进行刻画,形成Knowledge Object的表示方法,这是第二种模式。第三种模式,是明略科技近两年所做的一种尝试,把人类智能、人工智能、组织智能所涉及的概念、关系进行描述,通过人在回路进行问题的刻画。这三种模式,都涉及人机交互,也涉及一些特定的行业知识。

第四类知识图谱的构建方法是本体模型。本体模型的意思是,我们在读一个文本的同时,后台有一个词典,或者是有一个知识库,帮助我们理解当前的问题描述。国际上比较经典、成功的是Cyc循环获取方法,基本上有七个步骤,从问题领域的界定,到创建实例,来形成知识图谱。Ontology Development七步法中间也涉及本体的半自动构建,利用一些专业词典、叙词表,缺点是在复用本体的概念和关系时,对当前的问题不一定能够做到完全匹配。而自动构建则有基于语言规则的方法和基于机器学习的方法。基于语言的方法,涉及到一些语义的模式。基于统计学的机器学习方法,涉及到数据的聚类,还有一些模式数据的挖掘。

图谱的自动构建涉及两个核心要素,第一,要有一个领域知识库,第二,对数据和知识库进行匹配时,需要自动纠错、自主学习,因此强化学习和人机交互是关键。

HAO图谱的核心技术和应用场景

明略科技的HAO图谱,基于HAO智能框架。其中“HAO”,指代的是Human intelligence,Artificial intelligence,Organizational intelligence。目前,以明略科技HAO智能理论框架为基础,形成了从感知到认知,再到决策的三个能力阶段的HAO技术体系,包括HAO感知、HAO数据一体机,HAO交互、HAO图谱、HAO模型、HAO情报、HAO预测,HAO代理、HAO排序等系列基础软件模型、应用工具和解决方案。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页

比亚迪成弟弟！交付时	不喝水最长能活7个月！
工具箱中爱马仕！小米	小米有品众筹水上动力