从原理到落地,支付宝如何打造保护隐私的共享智能
这里面有几个关键技术点,怎么样搭建出来可信异构计算集群,第二怎么在可信计算环境实现各式各样机器学习的框架,从而达到实现机器学习的完整工作流。它的优势是集中式部署,所以部署计算效率相对比较高,第二安全性比较高,即使集群里存在恶意的服务器也有比较好的防护能力,并且支持所有算法,这是TEE共享智能的优势。 如何搭建TEE可信集群呢?我们的目标是对普通用户提供和单机一样的可信执行环境,通过原来方式进行管理,将数据通过认证方式传到可信执行环境进行相应计算。里面有几个点,一是密钥同步中心,通过密钥同步中心用户只需要和同步中心做认证,由同步中心完成集群中其他节点的认证,而不需要用户自己与集群中所有节点做认证。第二,Kubernetes云原生技术,可以很好的实现负载均衡、故障转移的机制,使得可信执行环境本身具备负载均衡,动态扩缩容特性,从而更好支持复杂计算和大数据计算能力,有了复杂计算和大数据计算能力,从而更好实现各式各样分布式AI计算能力。 有了可信计算环境之后,我们看一下怎么实现大规模分布式XGB的算法。在上图中,首先数据提供方通过两个飞地将数据传到可信计算集群里,在集群里对XGB进行了相应的改造,一是所以模型训练的计算都在飞地中完成,保证计算时数据安全;第二飞地之间的通讯通过TLS进行加密,保证了通信的安全;第三对飞地中的内存访问做了Oblivious加固,以防御侧信道攻击。通过这样方式得到分布式XGB模型,在模型发布的时候同样通过权限控制方式,使模型发布也是安全的。 所以从数据提供到训练最后到模型发布,整个端到端的过程都是高安全的。我们通过构造了分布式可信质量空间跟算法进行加固之后,使得大规模数据在这样一个框架里可以实现多种机器学习算法,比如神经网络等方法都可以,同时因为中间每一步都进行了安全加固,所以整个过程是安全可信的。 基于MPC的共享智能 第二是基于MPC的共享智能技术,它主要通过多个协作方之间传递随机数和加密数的方式完成神经网络或者模型构建,所有模型本身都是加密,在密态计算空间完成计算,主要会涉及秘密分享、同态加密和混淆电路等技术。 这里关键技术是密态存储和计算,并且确保这些机器学习算法的安全性,不会泄露信息,在确保安全性之后高效实现大规模深度学习算法。它的优势是数据不需要出域,安全性非常高,这里由于算法复杂度比较高,对于加密函数的性能消耗是非常高的,部分实现难度也很大,因为party A和party B都需要进行部署,降低部署成本也是需要解决的问题。 为了解决这个问题,我们搭出了这样一个架构。主要分了这么几层,最底层是密码学的原语,通过秘密分享、同态加密、混淆电路密码学的原语,同时对底下密码学原语进行了工程效率优化,使得原语本身有更高的效率。基于密码学原理之上,测算出来像矩阵加法、矩阵乘法、数值比较、安全求交的安全算子层,在这之上通过DSL的分装提供了类似Python语言给算法层实现类似于线性模型、树模型、深度模型和图神经网络先进模型,从而更好利用底下三层能力,实现安全版本保护的隐私学习。 我们来看一个具体神经网络的例子,业界在这个问题上主要有两种做法。一种称为安全神经网络,这种方法把训练数据转成密态存储,所有的训练过程都由密态完成,这个方法当然很安全,但是计算效率非常低,不具实用性。另一种方法称为拆分学习,这个方法是数据提供方基于自己的数据单独训练几层网络,之后集中到一个中心化节点上做后续网络的联合训练,这个方法虽然效率高,但是由于浅层网络由数据提供方自己训练,无法联通全局数据,所以在模型效果上大打折扣。 我们提出的基于共享智能的神经网络学习框架方案能够更好保护隐私,并且效率也比较高,在安全、效率、效果之间取得比较好的折中。 具体方式是,数据拥有方之间通过多方计算能够更安全计算出一个中间结果,对这个中间结果能够比较好实现特征之间交互,有了特征之间交互放到一个服务器上,进行隐层相关计算。 我们提出了基于对抗学习的防御机制。该防御机制目的是让数据拥有者自己训练一个防御者模型,目的是模拟攻击者的行为,即尽可能的训练一个模型用于恢复出各自的输入,如上图所示。基于这个框架能搭出DNN、CNN、RNN、GNN等深度学习的模型,并且也有多篇高质量顶会论文产出,有了这个框架之后能够更好实现隐私保护神经网络。 前面讲了MPC下共享智能主要依赖于混合协议密态计算,怎么设计出来更高效的混合协议密态计算呢?这是我们设计出来相应密态计算协议框架,相对已经有框架如ABY框架,一是比较灵活,可以在同态加密和秘密分享之下进行相应转换。第二比较高效,提供DSL的语言提高开发效率,自动进行转换,不需要关注在哪个协议进行转换,这样算法开发同学可以很好屏蔽密态计算特性。第三,给出算法分析和证明,有了这样一个设计之后能够很好支持各式各样机器学习的算法。 介绍完共享智能技术架构进展后,下面来介绍一下共享智能在技术影响力方面的一些进展。 首先是专利方面,今年5月份第三方机构发布全球新兴隐私技术发明专利数量,可以看到阿里巴巴加上支付宝有419个专利,共享智能团队贡献了其中的165个。同时,这两年共享智能受到中国计算机协会、世界人工智能大会等专业机构、权威学术团队和科研机构的认可,在国际标准和联盟标准,以及国家层面取得相关认证,让技术更好的在行业落地。 共享智能落地案例探讨 (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |