腾讯云云产品部工程师张雄:安全多方计算助力数字赋能

阅读:2719 2019-06-07 14:51:21 来源:中国IDC圈 作者:腾讯云云产品

为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重开幕。6月5日,数据流通技术与法律论坛隆重举行。腾讯云云产品部工程师张雄以“安全多方计算助力数字赋能”为主题进行了演讲”。

 

W020190606500495625510

腾讯云云产品部工程师 张雄

大家好,很高兴在这里和大家分享腾讯云在数字赋能上安全多方计算对我们业务的帮助,主要从业务层面介绍一下我们用到的安全多方计算技术,希望给大家建立自己数字生态的时候带来帮助,欢迎大家和我们一起在数字赋能的道路上合作。

我先介绍一下我们的团队前期工作,主要集中在腾讯的神盾推荐系统,大概服务了500多家机构,从推荐系统深刻感受到数据对我们的重要性,高质量的数据和高纬度的数据对推荐效果非常重要。再后来我们通过商业数据分析做了深入的合作,发现数据流通的趋势越来越明显,随之而来的安全问题也是我们迫切面对的,我们推出了神盾沙箱的产品,来赋能更多的业务和场景。

首先看一下数字赋能和发现数据流通的价值所在,以及我们面临的挑战。互联网行业和各行各业产生了交流,数字本身被划分成不同的属性和维度,和不同的行业产生了不同的交叉分支,比如教育、医疗或者游戏。各个行业机构往往会在他们自己对应的数据维度上构建一个比较完整的数据体系,在其他数据体系上相对有所欠缺。在数字赋能的驱动下,单单只有自己行业的维度是明显不够的,这里面数据流通所带来的价值是非常可观的。通过一些数据来看一下数据流通对我们业务所带来的一些帮助。

第一在个性化推荐上的探索,包括游戏、直播和电商各个行业,基于丰富的人群画像做数据流通,将不同的数据合到一起做推荐,取得了一些非常满意的效果。像手Q游戏提高了50%的转化率,直播可以提高100%的转化率,从这里可以看出通过高纬度和高质量的数据融合,可以给推荐带来非常可观的效果。

第二个是金融行业和投放的效益,可以对应四类人群。高端消费人群、信用卡用户、收入浮动人群、工作稳定人群,这些人群的划分依赖于数据标签和数据挖掘,这个过程当中高质量的数据对这些人群的划分非常重要。同时对应到四个业务场景,包括保险投放、信用卡拉新、小额贷款、理财。金融产品可以进一步扩充自己的业务能力,进一步提高自己的业务生态发展,我们相信在产业互联网的过程当中不同的行业也可以借助数据流通来提高自己的业务质量。

在其他行业中应用数据流通的技术往往会遇到四个问题,第一个是数据少,除了金融行业数据体系比较完善以外,其他的行业像教育和旅游数据相对来说比较缺,难以构建比较成体系的数据平台,业务孤岛的情况比较严重,这是数据流通需要解决的现状。第二个要搭建数据应用体系,需要有大量基础设施的建设,网络存储、弹性和容灾的技术,需要有技术应用的要求。这些问题可以在腾讯的一些服务上解决。第三和第四是经验和人才的培养,不仅仅有数字营销的思维,也要有数字营销的手段,还要培养一些顶级的AI团队来完成数据的应用。

这个过程当中最难解决的就是第一个问题,数据流通过程当中数据的拥有方或者数据中心的安全性非常高,数据流通过程当中防范一切的安全风险。为什么说数据风险,数据安全是数据防范的第一要务。这从一方面来说腾讯强调的是数据保护,而不是打通数据和算法,另一方面来说有太多的法规,或者数据泄露警示着我们,要把数据安全放在第一要位。要拥抱产业互联网,数据价值就非常可观,就要保证我们的数据安全,或者说我们需要一个真正的数据安全应用,需要在数据安全的前提下丰富完整的应用体系,包括数据的管理体系、应用体系和业务体系、渠道体系来实现数字赋能,实现更加满意的数字生态。

这种背景下就会遇到一些业务上的问题,我们看一下安全多方计算是怎么来解决这些问题的。以往我们讨论到数据融合时最直观的想法,就是选择一个可信的数据环境,不同的数据方将数据输入到环境以后,辅助一些其他的安全技术,对环境做保护性的防护,来保证整个数据融合整个模式的安全。但是这个数据合作的方式下是不是真的就能够达到一个没有风险的数据保护呢。在信通院发布的安全多方计算的标准里面,有一些对安全模型的定义,这里面有一个定义叫不同时,这个风险模型中,数据传输和数据存储都是安全的,如果有不诚实的行为,恶意的供给其中一个参与方,或者制造假数据,这种计算合作下数据结果要输出到渠道,只要有一方不诚实,数据就有泄露的可能。这种风险存在的根本原因在于各个数据方或者平台方拥有的权利不均等,例如计算环境的控制权在哪一方手里,这个权重就有偏差,把自己的数据交到一个自己没有办法控制的环境当中,数据就有泄露的可能。

因此我们希望提出更加安全的计算应用模式,这种模式下它会以原有的数据保障作为基础。数据的融合仅仅只是虚拟的融合,数据结合信息的融合,这个时候数据仍然存在数据方用户自己的平台上。应用根据数据所在的环境下发任务到不同的环境中执行操作,这个时候数据方对自己的数据有绝对的拥有权。当然一般的数据应用是必须涉及中间参数交互的,这个时候我们的重点就在于如何保护这些中间参数,比如一些统计信息可能涉及到泄露用户信息,比如算法的功能参数也可能泄露用户隐私,这个时候要用安全多方计算技术来保护用户隐私。数据本身也做了虚拟融合以方便计算,数据方对几方的数据仍旧没有绝对的控制权。目前的场景下中国参数的计算形式有许多种,一种是做匹配,一种是做计算,这两种都可以通过安全多方计算技术来做保障。

接下来,结合业务场景分析一下两种不同场景下的技术以及实际的业务。

第一种就是不经意传输。有两种,一种是out-of-2的OT:发送方发送2条信息,接收方从中选择自己想要的第i条信息,而另一条信息保密。另一种是K-out-of-n的OT:不经意传输的N条信息中选择已方想获得的K条数据,同时保护其他N-K条信息。这样一种协议具体的应用场景是什么呢,我们看一下业务拉新的场景。业务拉新是非常普遍的场景,任何产品都需要做拉新的操作,这个业务中的业务方是一个教育机构,他的数据体系相对来说比较欠缺,只局限于自身的用户和比较粗的目标用户群体。这个时候会委托一个数据挖掘方针对业务特性做数据挖掘,数据挖掘方挖掘出适合拉新的目标人群以后,就会出现一个问题,挖掘出来的目标群体里面有一部分用户是已经注册的用户。这个信息是属于教育机构存放的,他并不知道这个用户有没有注册,这个时候教育机构他的大盘用户是商业秘密,他并不想分享给任何一个人,数据挖掘方挖掘出来的用户群体带有自己的数据标签,也涉及到隐私信息的保护也不愿意把挖掘出来的人群暴露给业务方。这个时候就出现了秘密求交的问题,就基于OT实现,在有限的查询中数据挖掘方只要查询自己想获取的信息是否注册了,其他的信息都可以保密,教育方也不知道他查询了什么用户。

第二个场景是同态加密。可以说同态是非常神奇的存在,如果有一个计算存储是同态加密存在的话,数据流通的问题就可以很方便的解决了,云数据市场也可以收益颇多。什么是全同态加密呢,这里简单介绍一下。以往的计算都是基于明文空间做的计算,同态加密除了提供正常的加密,或者说解密成明文以外,还提供了各种运算法则的映射。这里的加法可能映射成乘法,也可能是原来的加法,没有做改变。这种情况下比如说通过一个例子来看,如果说要计算1+2等于3等于9,明文计算上非常简单,如果说有这样一个F的全同态加密的算法存在,如果到密文空间来说所有的操作都是在密文上操作,不会对明文有任何的接触,整个过程当中所有的操作都可以基于密文操作,不需要接触到明文,同态加密完全不用担心原始数据的泄露,全同态的实现复杂度是非常高的,性能也没有办法完全落地,但是有一些算法可以满足加法上的映射,或者仅仅满足乘法上的映射,这个时候就变成半同态。这种半同态的算法性能可以直接落地到应用中,而且适用性也非常广,可以说只需要,这个场景中能够有半同态的算法就可以解决很多的问题了。

比如机器学习里面有一个非常典型的机器学习算法AI,它详细的步骤不介绍了,里面最核心的公式涉及到Y和X,X属于其中某一个数据方,Y属于另外一个数据方。正常情况下把这两个数据融合成一起计算,但是X和Y不能做数据流通的话我们怎么样完成计算,X不知道Y是0和1,会计算两个值的计算,这个时候会交给Y做求和,所以X对外方分别做加法传输给Y方,Y方做加法然后传给X,全部流程没有接触到密文,都是在明文上做映射。

金融风控就是这里要讲的AI的实际场景,金融风控对数据的质量要求非常高,前面我们介绍过金融行业对数据的敏感可以说是最敏感的行业之一。数据流通管控非常严,风控需要一系列的操作,整个过程都需要有质量的数据做保证。因此从小的技术应用像同态加密应用到大的场景,安全多方计算的应用模型可以在数据安全的前提下做到这三个主要方向,最终提供一个时时查询多标签给业务方使用。

前面讲到了游戏、教育、金融等各个行业和互联网结合的业务场景,对数据流通安全的尝试,这些场景都是我们神盾沙箱产品当中的一个业务,接下来介绍一下神盾沙箱产品。

神盾沙箱是为了同时满足前面提到的数据安全第一重要性,解决企业在数据运用上的难题研发的产品。数据层面来看神盾沙箱形成了一个全行业数据的聚合,整合了人和各个行业维度的画像,同时提供了超强的服务,是解决数据安全难题和数据难题的关键。从计算层面来看,神盾沙箱支持TB级的数据训练,提供超强的算力,多基于安全多方计算提供种算法模型,解决算法团队的难题,最后是尊发安全标准,规避隐私风险,数据可用不可见,解决五个难题,保证数据流通,数据赋能营销。

整体业务上来看,神盾沙箱将业务分成三个场景,第一个是人群洞察,指定人群输出洞察报告,可以实现数据优势,实现更加全面的报告使用到场景。第二个是标签筛选,安全求交集的数据融合方式,规则简单高效,可以直接输出人群适用的广告消费和精简经销目标。第三类是模型计算,基于安全多方计算技术实现各种计算模型,或者说机器学习的模型,可以灵活应用于各种计算模式,形成一个数据闭环,更加有利于生态的建立。渠道,包括资讯广告、微信小程序和公众号等等。

相关文章
{{ v.title }}
{{ v.description||(cleanHtml(v.content)).substr(0,100)+'···' }}
你可能感兴趣
推荐阅读 更多>
推荐商标

{{ v.name }}

{{ v.cls }}类

立即购买 联系客服