百亿隐私计算市场,何以可能?何以可为?

  • 时间: 2021-09-25 05:30:22

两个百万富翁在街上相遇,他们都想知道谁更富有,但又不愿意让对方知道自己拥有的真正财富。如何在没有第三方的情况下,让对方知道谁更有钱?

这是姚期智院士在 1982 年提出的“百万富翁”设想。

这个设想的背后,本质上反映了基于用户数据挖掘的服务。目前整个互联网的服务默认开放自己的数据,服务提供者必须得到你的数据才能提供服务。放到这个“百万富翁”设想中,即互联网服务一定要拿到两位富翁的财产数据,才能计算出“谁更有钱”。数据的使用权和所有权之间的矛盾显而易见。 .......

信息时代,“数据”既如丰饶之角的宝藏,也犹如潘多拉魔盒,掌握着庞大的数据意味着拥有“数字霸权”与宝藏,因此,数据的拥有者必然会受到制约。在政策的加持下,隐私计算作为数据治理的重要解决方案,未来发展有哪些机遇和挑战?

近日,雷锋网与安恒信息高级副总裁、首席科学家刘博展开对话,从目前隐私计算的一些技术以及商业角度进行一些观点分享,以飨读者。

隐私计算厂家扎堆,是好是坏?

隐私计算这个概念在最近两年迅速升温,大批的厂商涌入隐私计算领域,市场迅速被炒热。

一方面是因为政策趋向,另一方面是市场需求。刘博表示:“隐私计算以前就有,但是从2019年开始,公民和政府都意识到数据泄露的危害性,开始对涉及数据源的问题进行整肃。像买卖用户画像、征信类的信息还有广告推送的用户信息等问题层出不穷。随着《网络安全法》《个人信息保护法》《数据安全法》的发布,促使企业在数据采集、使用、流通全环节中重视及投入数据保护,隐私计算行业也因此迎来重大利好。同时,数据作为参与分配的生产要素,如何在不泄露数据的前提下把数据的价值释放出来,像政府数据的对外开放以及运营商释放数据价值、数据交易市场等,一系列数字经济的市场需求都在推动隐私计算的发展。”

在这样的背景下,以互联网大厂、大数据公司、运营商、金融机构和金融科技企业、隐私计算初创企业为代表的五大类玩家相继入局。

但是也带来了一些问题。市场上鱼龙混杂,一些厂商用开源的框架,没有形成自己的技术优势,而开源框架有很多不确定性,技术的成熟度也还有待提升。

刘博对此表示:“现在这个赛道已经非常拥挤了,如果想要加入赛道一定要清楚自己的技术优势在什么地方。想清楚自己的商业模式以及应用的行业,这是非常关键的。”

以微众银行、百度、头条为代表的的巨头,开源了自己的学习框架,对提升行业的热度、让行业产生更多积极变化,产生了很大的作用。但是目前隐私计算还处于发展初期,技术和产品的成熟度还有提升的空间,因此会让采用这些开源技术框架的厂商面临很多挑战,工程的完成度都有待考量。一方面会影响影响用户对隐私计算的信任度以及认可度;另一方面导致用户对隐私计算技术的应用效果的预期过度,从而阻碍行业的健康发展。

同时,隐私计算的提出,本意在消除“数据孤岛”、合规避险、弥合“信任鸿沟”,但在实际应用中却会形成新的数据孤岛。数据由不同的途径产生,厂商难以统计完整的数据资源,而且各厂商依赖的底层架构不同,厂商之间的数据互联不一定能实现,因此可能用户需要安装好几个厂商的软件才可以解决问题,厂家与厂家之间的数据互联互通成为新的问题。

本身更多的企业涌入隐私计算行业,对于提升用户对行业认知以及市场的活跃具有重要意义,但是如果造成另一轮恶性竞争,相信这是任何一个企业都不想看到的。

刀光剑影之间,可信执行环境技术地位如何?

目前隐私计算核心技术主要包括联邦学习、可信执行环境和多方安全计算。其中业界应用隐私计算的最成功的领域莫过于联邦学习(FL)。联邦学习商业化更为成熟,通过这一方法,参与者无需上传原始数据,在每个参与者的本地执行计算,对于机器学习建模以及打破数据孤岛具有重要意义。应用该算法比较有代表性的企业和平台有微众银行、蚂蚁金服、富数科技、平安科技、数牍科技等。

多方安全计算(MPC)便是文章开头提到的“姚氏百万富翁问题”,解决了互不信任的参与方,能够协同计算得出一个既定值,既要保证结果的正确,又要保证参与方对数据拥有绝对的控制权。在这个方面比较有代表性的是华控清交、蚂蚁金服、富数科技、百度(点石)等。 .

目前市场上很多厂商是联邦学习和多方安全计算两种技术相结合。那么可信执行环境(TEE)还有应用环境吗?相比其他两种算法它的方向如何?

据刘博介绍,虽然使用联邦学习比较多,但是也只是在特定场景下,因为联邦学习的本质是分布式机器学习,机器学习的兼容性会比较差,相对来说应用场景非常有限。

同时,联邦学习的训练模型是需要共享的,这就为攻击者根据模型信息倒推隐私数据提供可能。因此有隐私泄露的风险。

TEE是通过软硬件隔离安全机制建立一个安全隔离的执行环境,从而防止外部攻击者窃取TEE内部运行的数据。

刘博向雷锋网(公众号:雷锋网)透露,安恒用的技术就是TEE,BDTee 为安恒信息首创大数据环境下的可信执行环境。他表示,“目前在国内安恒是第一个支持分布式的大数据场景下运用TEE的公司,这是安恒核心的技术点。因为在数据交易、数据开放、数据隐私的业务场景下,TEE的适配能力和兼容性更强,用户从非隐私计算到隐私计算演进的过程中,体验感更好一点,迁移成本更低一些。”

安恒信息作为网络安全信息行业领军者之一,前瞻性的布局隐私计算领域,发布AiLand数据安全岛平台,这是一个专注于保障数据安全流通,致力于解决数据共享过程中的安全、信任和隐私保护问题的隐私计算平台。主要应用大数据可信执行环境,辅以MPC,联邦学习等多种隐私计算前沿技术,实现共享数据的所有权和使用权分离,确保原始数据的“可用不可见”、“可用不可取”,保障多方数据联合计算过程的可靠、可控和可溯。主要应用于政务数据开放、运营商数据释放、监管中心、金融、医疗等领域。

根据相关数据统计,可信执行环境技术专利申请受到众多科技公司的青睐,数量明显高于其它两个。截至2021年8月,中国有181家公司申请了相关专利,合计815件,是隐私计算领域公司参与度最高、专利申请数量最多的技术。其次,是联邦学习和多方安全计算。

可能由于可信执行环境具有通用性高、开发难度低、算法实现上更加灵活等特点,在专利申请上略胜一筹。

价值百亿的隐私计算市场,未来走向何方?

近年来,关于用户隐私泄露、数据违规的负面事件频频登上热搜,公众对于数据安全和隐私保护越发关注。法律的监管也愈加严明,这表明国家也在逐步引导科技企业要健康发展。技术存在的本身是让生活更美好,而不是给人类制造问题。伴随着科技的发展过程必然出现新的难题,那么就需要创新新技术来解决现有的问题。隐私计算就是科技向善的重要存在。

隐私计算受到大数据融合应用与隐私保护的双重需求驱动,以及国内外政策的影响,市场正处于大爆发的阶段,未来三年可能达到100—200亿人民币的营收,但在这过程中还存在很多挑战。

目前主要的商业模式分为四种:第一种就是搭建软件系统,收取一次性系统搭建费;第二种是收取隐私计算软件系统的维护服务费;第三种是收取数据使用费,相当于替数据方收取费用,赚取中介费;第四种是根据业务运行效果获取收益分成。当然在实际应用中,有些企业可能会几种模式是混搭的。

刘博向雷锋网表示,隐私计算是大数据交易不可或缺的底层支撑技术,但除此之外,要合法合规的进行大数据交易,还需解决一些非技术的难题,比如数据的确权、定价以及数据监管单位如何对这些进行监管,数据的商业化之路还需要走一段很长的路。

如何在保障数据安全的前提下,充分发挥数据的价值。如何平衡数据共享开放和数据安全隐私保护的关系,是国家、行业和企业层面都需要考虑的问题。

在这个过程中还有很多法律未明确以及企业未达成共识的地方,处于盲区。

所以,国家应该加紧建立数据资源的确权、开放、流通以及交易相关的制度,促进以安全为前提条件的数据流通和融合。而在行业和组织层面,应该在国家法律法规的框架下,各自建立相应的行业制度和规范,推动行业企业内外的数据协作,打破不同组织、不同系统之间的数字壁垒,为数据分析和人工智能应用奠定基础。

刘博认为,隐私计算的终极目标是在有限的条件下获得最大化的数据交易自由。在数据交易上,实现可用不可见;在商业上,能够让企业、政府、社会、科研机构在短时间内找到自己需要的数据,帮助他们解决现实中的问题。

数据赋能,不只是刺激经济增长,也不止是行业之声发展需要,归根结底是服务于推动社会治理能力和体系的现代化。确保数据安全的同时,提升社会的运行效率和质量,推动社会的进步,提升每个人的价值和社会福祉。

与此同时,隐私计算也面临着硬件支持和能源消耗等方面的挑战。在目前的联邦学习训练中,数据传输的耗时远远大于数据处理,算法和算力还有许多盈余。而对于企业的本地数据训练来说,算力依旧是人工智能实践的”老大难“。而在中国和国际对环保、尤其是碳中和的重视程度越来越高的过程中,如何在提升运算性能和安全性以优化资源利用和节省能源消耗之间找到平衡,还需要全行业一起来共同探索。

在技术尚未成熟、法规尚未明确、实践场景和效果尚未标准化的过程中,关于隐私计算还有许多发展的机遇和时间的可能。留给隐私计算厂商的也将是更多的机会。


雷锋网原创文章,未经授权禁止转载。详情见转载须知