源码家族
当前位置:首页 > 资讯中心

资讯中心

【 数据流通与数据安全的博弈 】

发布时间:2021-06-16 09:37:17 阅读次数:174

2021年6月份由算力智库主办,中国信息通信研究院云计算与大数据研究所、隐私计算联盟、隐私计算技术联盟联合主办的2021第二届隐私计算产业与应用论坛在上海圆满收官。作为国内首个聚焦隐私计算领域的年度行业权威盛会,本届论坛再度召集众多政府机构代表、业界及学界大咖,畅谈数据智能时代隐私计算的广泛应用前景及巨大商业价值。

本届论坛的成功召开恰逢我国数据安全领域法律法规深入推进落地,今年以来相关立法动态呈现三大趋势:首先是横向延伸,《数据安全法》和《个人信息保护法》草案二审稿出炉,将进一步完善数据安全相关法律体系。其次是纵向深入,如《汽车数据安全管理若干规定(征求意见稿)》成为国内汽车数据领域的首次立法尝试。最后是数据流通价值备受关注,不仅上述两法二审稿明确数据应在安全前提下得到开发应用,最新发布的《全国一体化大数据中心协同创新体系算力枢纽实施方案》更直接提到:“试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建数据可信流通环境,提高数据流通效率。”

现实中,数据使用方需要将各方数据融合在一起,建立模型进行数据挖掘;数据拥有者出于数据安全保密的顾虑而不愿共享数据,结果导致不同企业、不同机构间难以获取对方数据进行联合分析或建模,数据价值无法充分发挥。这就是数据流通不畅的真实写照。目前,它已经成为制约大数据行业发展的重要问题。

简单说,多方安全计算技术解决的是“一组互不信任的参与方之间在保护隐私信息以及没有可信第三方的前提下的协同计算问题”。

在华控清交副总裁黄斌看来,多方安全计算技术可以实现“数据可用不可见”,让数据流通。据悉,自上世纪八十年代姚期智等人提出多方安全计算以来,这项技术更多停留在学术研究层面。当时,相对于传统的加密和传输,使用多方安全计算技术进行加密相对于不加密而言,其计算耗时大约要上升十万至百万倍。这在工程实践中是难以接受的。而近年来,随着算法协议的优化和计算能力的增强,计算耗时已经从数十万倍下降至 100 倍以内。

多方安全计算技术目标是解决数据流通共享中的安全保密问题。在无可信第三方的条件下,多方安全计算通过同态加密、混淆电路、不经意传输和秘密分享等技术环节,保障各个参与方数据输入的隐私性和计算结果的准确性。


自 20 世纪 80 年代以来,多方安全计算经过理论研究阶段、实验室阶段、应用初创阶段,目前正处于规模化发展阶段。


黄斌表示,目前,一方面,多方安全计算理论本身在发展;另一方面,多方安全计算的工程实践也在向前发展。比如,一个密码学算法,它在数学上可能早已被证明,但是在工程落地上还有很多事情要做。

如何同时满足高吞吐和低延迟?

据了解,多方安全计算技术的一大难点在于工程实践。黄斌指出,工程上主要难点在于要同时满足高吞吐和低延迟。既要满足大数据量下的查询、统计、训练,又要满足一些诸如人脸特征比对的实时性应用。“这需要架构上在保障数据安全的同时,对计算、传输、序列化等做很多的优化”。


多方安全计算从理论到落地有两个阶段:一是理论到实验室科研原型;二是从实验室原型再到实际应用落地。


他坦言,“第二个阶段更难,因为需要投入更多的人。同时,在实际落地过程中,还要考虑商业化、传播技术和教育市场。此外,工程实践难点也很多。实验室做一个原型,跑完 100 个数据,甚至把 1+1=2 做完就行了。但是现在,我们要计算上亿条数据,还要跟客户一起测试。计算 100 条数据相加,这很容易;如果拓展到上亿条数据,这个事情就难了。”


一旦处理上亿条数据,就要按照大数据的方式做,这需要调度的机器资源量完全不一样,复杂度急剧增加。


为解决这个工程难题,“要做好亿级 MPC 数据处理”。一方面,优化算法,比如 MapReduce 阶段,明密文混合计算不同阶段的拆分;另一方面,做好调度,把数据的读取、加密、传输、计算、解密、存储等各个阶段协调好,在做好安全、容错的基础上无缝衔接各个阶段,来充分利用计算资源。

调度怎么做?

如果数据量少,调度完全没问题。事实上,他们遇到的单个数据流通会达到上亿,比如 A 方与 B 方各有几亿条数据求交集。


一旦数据量太大,调度就会遇到挑战。“因为你任务量大了后,我加机器,机器堆到一定程度,调度可能调不过来。所以,这个时候还是要去优化调度的东西”。


黄斌指出,这里面有几个瓶颈点。最大的瓶颈是磁盘,第二个瓶颈是网络。然后,配合从磁盘读数据,网络传输数据,还有计算数据。“这三个动作是非常关键的:读数据、传数据、算数据”。


调度系统的理想情况是“这边刚刚算完,数据就传到那边,中间没歇着。然后,就把这个瓶颈点变成读磁盘了。因为读写磁盘是最慢的,其次是网络,最快是计算。最好是让计算节点在刚好算完一批数据的时候,下一批要算的东西就到那里了。这样,这个系统没有空闲”。


在黄斌看来,多方安全计算技术落地成功的关键是业务。如果没有业务驱动,这个技术最终只能成为“水中月、镜中花”。而事实上,在金融、政务等领域已经有多方安全计算的落地和应用。


以多头借贷为例。跨国银行一般遍布全球,在亚洲、欧洲、北美等都有业务,这些地方对数据安全和合规的要求比较高。如果一个人拿着一张货运单到跨国银行香港分行的柜台,去抵押货运单,来获得一笔贷款。可能几天后,他又跑到欧洲,拿着这张货运单干同样的事。因此货运单可能被重复抵押。为避免出现这种情况,跨国银行需要通过一些手段进行确认。传统上,可能通过打电话确认,但这样的方式效率很低,因此就可以使用多方安全计算技术。

因为形成DT的条件正在成熟。DT是数据技术,它首先需要大量的数据,其次需要强大的计算能力,大数据加大算力是DT的保证。IT二十年我们在互联网上积累了海量的数据。同时,5G物联网的到来,不仅把人还把万物的连接在一起,产生了全新的数据生产能力。芯片技术的发展,不仅产生了每秒几亿亿次的超级计算机,同时也产生了装在一部手机或者一支牙刷上的芯片,算力无处不在。人一百年才能做完的数学题,计算机一秒就能答完。在这种情况下,让数据技术来帮助人类认知世界,解决思考决策就成为必然。

在 DT 时代,数据应用与隐私保护的矛盾日益突出。如何化解这个矛盾,势必是人们长期面临的问题。某种意义上,兼具理论研究和实际应用价值的多方安全计算,为解决这个问题提供了一条重要的技术路径。DT时代,对我们大家是个挑战,也是一个机会。


下一篇:618客服的正确打开方式