2019大数据产业峰会|百度资深研发工程师冯智:安全多方计算在数据协同中的实践
为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重开幕。6月5日,数据流通技术与法律论坛隆重举行。百度资深研发工程师冯智以“安全多方计算在数据协同中的实践”为主题进行了演讲”。 百度资深研发工程师 冯智
各位来宾下午好,接下来由我给大家带来“安全多方计算在数据当中的实践”。首先自我介绍一下,我来自百度大数据库,最近几年做的方向都是数据治理、数据流通相关的工作,也算是我自己亲身参与的一些事情,我也很有幸在这里给大家进行一些分享。 首先我介绍一下背景,数据已经成为这个时代的石油资源,成为当今世界上最有价值的资源之一。随着我们大数据技术相关的落地和应用,大数据当中所蕴含的价值越来越为人们所熟知,利用数据可以提升产品效果、落地应用、挖掘其中的价值,数据协同也越来越旺盛,各个企业都需要数据,但是如何合法、合规、有效的去使用这些数据,一直存在着巨大的风险。 所以法案逐渐出台且日趋严格,从法律法规层面大家可以看到欧盟2018年5月GDPR法律正式生效,之后各国法律界一直跟进,也陆续出台了相关的法律文件。从行业需求来说数据隐私安全已经成为制约大数据企业应用的重要因素,成为一个关键问题了。大家怎么样使用数据,合法合规的使用数据,如果不了解的话可能带来一些问题。从行业趋势上来看,Gartnre将数据隐私列为2019年十大战略技术趋势之一,我们要拥抱变化,面对数据协同的需求越来越旺盛,法律法规越来越严格,我们如何同时应对两方面的问题。 讲了一些背景,我们具体看一下实际的具体数据合作的案例,在数据协同的场景下,一般会有很多方进行参与,最简单的情况是两方,一方是数据的拥有者,另外一方是数据的需求方,他们是两个人,他们存在数据协同的需求。 对于这个图来说艾丽斯拥有自己的数据,鲍勃拥有自己的数据,两个数据源形成数据的孤岛,希望进行数据协同提升业务效果。鲍勃这个数据以后拿到艾丽斯的数据进行联合的建模和输出结果,但是艾丽斯不想给他原始数据,为了完成这个合作又不得不给他原始数据。大家可以看到数据源直接提供原始数据给鲍勃,鲍勃这一方进行数据生产加工建设。所以这个地方会存在一些潜在的风险,包括数据所有权发生的转移。 这部分数据艾丽斯给鲍勃之后,鲍勃是不是应用在跟艾丽斯约定的数据使用场景呢,艾丽斯没有办法在鲍勃这一方进行审计和监控,具体这个数据到底做了什么,最后会不会有二次分发的问题,对于数据拥有者一无所知,所以对我们来说会带来巨大的风险。我们先记住这个例子,一会回来讲。 接下来进行总结,讲完了背景进行总结,上面的案例抽象的数据协同过程,其实有三方的角色参与过程,包括数据生产方、数据需求方和潜在的数据监管方,他们彼此之间会有什么期望呢。在这里可以看到对于数据生产方担心高价值、高敏感的数据安全的风险问题,他也希望发挥自己数据的价值,他的诉求是安全融合,合规协作。对于数据需求方他的诉求是什么呢,他希望能够获取到更多高价值的数据提升业务效果,他的诉求是能够发现有价值的诉求,能够助力他的业务。对于监管方的诉求是什么呢,他希望这个过程有所监管,做到有证可查,有法可依,这个过程是合法合规的。这三方的期望如何能够做到有所建构,他们之间的矛盾根本在于什么地方呢。 数据根本的问题在于,传统的方案当中很难做到数据使用权和所有权的分离,数据的所有权从生产方转移到了数据需求方。这三者其实都是难以接受的,发生原始数据的转移,对于这一矛盾和冲突我们希望致力于研究这样一种技术,能够去解决这样的问题。安全多方计算就是能够实现数据所有权和使用权分离,实现数据可用不可得的技术手段。这种技术有两种解决方案,接下来会一一介绍,第一个解决方案是基于可信硬件的可信第三方的方案,第二个是去中心化的密码学的方案。 首先介绍一下可信硬件可信第三方TEE的方案,假设艾丽斯和鲍勃互相不信任,最简单的做法是引入公正的第三方。有公正的第三方可以解决数据的协同问题,这个可信硬件的第三方相当于公正的第三方,在第三方的环境下艾丽斯跟鲍勃他们同时认证,这在可信第三方里面的环境是安全的。可信第三方保证只做一件事情,按照他们约定的流程,在不泄露原始数据的情况下进行数据生产加工的处理流程,最后产出的计算结果,原始数据是没有办法被双方任何一方进行获取的。具体流程上来说,艾丽斯和鲍勃通过管理生成计算环境和计算区域,通过交互管理,在计算过程当中修改需要调节的环境参数,包括算法参数,最后他们通过流程控制,比如打通两方的IT、数据合并,最后做数据结合的过程。包括我们这个计算环境当中,提供数据分析的库和机器学习的库,在硬件的环境上完成彼此的一个数据融合的加工,最后产出结果。 讲完了可信的第三方方案,还有一个基于密码学多方协同EPC的方案。去中心的密码学方案是指在这个方案当中不用引入第三方,两方彼此启动一个程序,他们经过多轮的交互最终完成交互的过程。密码学是指,可以用到代码可以混淆电路,秘密分享等等密码学的手段,来把代码实现的编译在多方进行加密、拆分之后的结果等价于原始数据在单方本地执行的结果,是有数学和程序算法上保证中间这个数据和最终的结果无法反推回原始的数据。 在这个过程当中我也稍微进行简单的介绍,首先艾丽斯和鲍勃,首先把他们要计算的数据进行加密的拆分,分成分片。同时计算两方的程序同时启动,经过多次的通讯,按照协议去交换中间的结果数据。最后产出这个结果,经过秘密分享阶段拿到能够恢复的结果数据,中间的计算过程和结果数据,通过程序无法反推回原始数据。 对比一下两个方案各有什么优缺点,第一个方案需要依赖于一个硬件,我们部署一个硬件资源。在硬件资源上提供,能在硬件上需要跑的软件,强依赖硬件资源。而且需要有一个两方的数据同时加密离开本地并放到可信硬件执行。第二个方案需要大量的通讯和技术,而且是基于密码学的方案,这会带来性能的下降。他们本质上来说都各有优缺点。我们也希望能够探索这样的技术,来回避技术上的优缺点,能够应用在产品当中。 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |