机器学习模型选型（机器学习模型思路）

隐私计算作为一个快速发展的领域，其技术复杂发展快，其技术和应用还不被很多期望采用隐私计算的机构和个人熟知，而隐私计算技术和产品的选型并不是一个简单事情。目前，隐私计算技术有密码学、可信执行环境、信息混淆脱敏、分布式计算四大类型，每种类型的技术适用的场景也有所差异。同时，在隐私计算产品方面，每种产品都有集成多种技术的趋势，而且隐私计算产品除了要具备隐私保护的功能外，还需要具备高性能、可审计、易集成、易交付、安全可信等特征。针对市面上复杂的技术和产品的出现，用户将面临不知如何选择的问题。本文主要节选自Gartner和蚂蚁集团出版的《隐私计算最佳实践》，探讨隐私计算技术的分类、技术的选型以及产品的选型等话题，给隐私计算潜在使用者提供实践的参考和建议。

机器学习模型选型,机器学习模型思路(1)

一、隐私计算三大类型

满足数据安全、隐私保护和监管合规前提下，链接数据孤岛，实现多方协同释放数据要素价值，是当前大数据技术发展应用的一大难题，而隐私计算正是解决这一难题的技术方案。隐私计算又称为隐私增强计算、隐私保护计算，是目前业界认可的、能在数据要素流通融合中有效保护数据隐私的信息技术。

随着各国隐私保护法规的陆续出台、隐私保护意识的觉醒，近年来欧洲、美国、中国、日本、韩国等国家和地区加快了对隐私计算的研发和商用步伐。隐私计算在业内已经应用于金融、科研、医疗等一多个行业，在联合机器学习、联合统计、联合科研、数据发布、外包数据计算、外包数据查询等应用中保护数据隐私。

机器学习模型选型,机器学习模型思路(2)

隐私计算可用于数据流通的三大类典型应用(联合计算、数据发布、云计算)，保护其中的敏感数据。在联合计算中，多方联合基于他们的数据完成指定的计算，如基干多方数据的建模、统计分析。在数据发布中，数据方将其数据提供给一个或多方使用方，使用方可以对数据进行各种分析和计算。在云计算中，数据方将其数据交给云,利用云端丰富的计算和存储资源对其数据进行加工处理。这里，数据和计算都是广义的概念，数据包括数据集、查询条件、机器学习模型参数、计算逻辑等，计算包括机器学习建模推理、统计、查询等。

隐私计算的这三大类应用中，联合计算由于其需求广，隐私保护的难度大，是近年来业内最为关注的。本文将重点介绍联合计算中的隐私计算。

二、隐私计算技术选型推荐

隐私计算并非单一的技术，而是包含多种隐私保护技术,涉及密码学、安全硬件、信息论、分布式计算等多个学科。隐私计算基于其实现隐私保护的原理可分为密码学、可信执行环境、信息混淆脱敏、分布式计算四类路线，其中的主要代表技术有多方安全计算、差分隐私、匿名化、联邦学习等。这些技术在可支持的计算，隐私保护的维度、隐私保护强度、安全性、性能等方面有较大差异，分别适合不同的应用和场景。有时也需要结合使用两种或多种技术来满足应用需求。

密码学路线代表技术是多方安全计算MPC，这一路线是在密态下进行数据的计算、检索等处理，这一过程中输入数据、中间结果处于密态不暴露，只输出最终结果，

可信执行环境TEE其方法是通过可信的抗篡改的软硬件构建一个可信的安全环境，数据在该环境中由可信的程序进行处理。

信息混淆脱敏路线的主要代表是匿名化和差分隐私。其方法是通过加噪、删除、泛化等信息处理手段对数据处理后再输出。

分布式计算路线的代表是联邦学习。大多分布式计算任务原始数据不需要对外输出，只需输出本地基于原始数据计算的中间结果。与把各方数据汇聚在一起再计算的集中式计算方法相比，大为减少了原始信息的泄露，但仍有中间结果信息泄露。

MPC和TEE是用于联合计算的主要技术。他们都可以支持多方数据的各种计算，除了可以保护各方数据隐私，还可以只让指定方获得计算结果或结果的一部分。而且每次计算都需要各方的配合协作，因此各方可以很好控制数据的用途(参与了什么计算任务)、用量(参与了几次计算、哪些字段参与了计算)，容易实施数据最小化使用原则，防止数据滥用和非授权使用。

下面总结对比隐私计算各技术路线代表技术，并给出技犬选型推荐。

机器学习模型选型,机器学习模型思路(3)

总体而言，多方安全计算，可信执行环境可用干各种米型的联合计算，外包计算，两者在安全强度和性能上名有取舍:联邦学习适用于对结果管控无要求的联合建模:混淆脱敏可用于数据发布，还可辅助多方安全计算。可信执行环境用于联合计算。

技术路线建议。从联合计算的功能丰富性出发，联合计算的隐私计算产品必须采用MPC或TEE技术路线，辅以信息脱敏和混淆技术，增强隐私保护。在某些建模情况下(模型不需要控制，可接受信息泄露)，可以采用联邦学习作为补充。如何在MPC和TFF之间选择?MPC和TFF在安全强度和性能方面各有优势。MPC的安全强度更高，但性能比TEE差。为了灵活支持各种场合，理想的PPC产品应该支持MPC和TFF双引整。允许用户灵活选择引整，并以相同的方式操作PPC产品。

三、隐私计算产品选型

随着《数据安全法》、《个人信息保法》陆续出台，很多机构都开始关注隐私计算，希望借助隐私计算解决机构间联合计算中的隐私保护问题。面对市场上参差不齐的隐私计算产品，该如何选择?下文从功能、技术路线、审计、集成交付、性能、安全5个维度给出选型建议。

（1）功能是否覆盖常见联合计算

联合机器学习:需要关注隐私计算产品是否有特征处理与分析能力、模型算法支持情况、模型效果评估指标。对模型文件有保护诉求机构需关注模型文件是否能加密保护防止被窃取。以及模型预测针对模型结果以及底层变量稳定性监控，保障模型服务稳定性，

联合统计分析:需关注支持算子是否满足需求，有在线调度需求机构需关注定时调度能力。另外，SQL灵活度非常高，SQL安全校验非常关键，需关注产品是否有安全校验能力。

自定义脚本:针对多样定制化计算需求，需关注隐私计算产品是否支持自定义计算逻辑，编译成安全计算脚本执行。

匹配撞库:需关注支持的数据量以及性能，计算结果对接能力。

（2）是否支持审计

在很多应用场景，需要对计算数据、过程、结果进行追踪审计。例如央行21年3月发布的《人工智能算法金融应用评价规范》中要求银行人工智能算法中用到的数据、采用的模型、模型的参数以及计算结果等具备可追溯可审计。另外在个人信息使用场景，使用个人信息必须获得个人授权，机构如何证明数据使用已获得个人权限。诸如此类需要进行多方共识或是监管审计的场景，机构在进行隐私计算选型的时候，需关注是否具备区块链存证审计能力。

（3）系统集成与交付能力

账号对接:机构内部一般都有自己的账号管理系统，机构内部账号是否能方便的与隐私计算产品对接，并能对账号操作进行审计。一是提升机构内部使用体验，而是对账号进行安全管控。

日志对接:针对机构内部对操作员产品操作和业务日志进行管理、监控和运维需求，隐私计算产品应支持方便的日志对接能力，方便机构根据自身需求搭建日志管理审计平台。

数据对接:在进行数据合作时，机构数据如何方便对接到隐私计算产品，并能对不同级别数据进行不同授权管理，隐私计算产品应支持数据库、文件、API等多种数抿接入形式。

交付能力:对机构不同交付诉求，隐私计算产品是否具备多样化交付能力。例如针对有自建隐私计算平台的

机构，是否有封装好的隐私计算AP，有安全性以及性

能有更高要求机构，是否有一体机交付。

（4）性能

离线计算性能:离线隐私计算功能一般包含联合机器学习、联合统计分析、联合策略、安全匹配等功能，随着隐私计算场景越来越丰富，以及对计算时效要求越来越高，隐私计算产品是否能支持大规模分布式安全计算和硬件加速。

在线计算性能:模型预测、策略服务、匿名查询等隐私计算在线生产应用场景，需关注请求量以及时延，同时关注隐私计算产品在线配套监控预警机制是否完善，确保在线服务稳定。

（5）隐私保护

只要使用了隐私计算技术，就可以高枕无忧，不担心隐私数据泄露吗?事实并非如此，主要有以下4方面的原因:

采用的隐私计算技术的隐私保护能力与需求不匹配。如前文所述，每种隐私计算技术的隐私保护能力各不相同。需要采用合适的技术，有时还需要结合采用多种技术。
采用的隐私计算算法的安全强度不足，易被攻破，例如，一些隐私计算算法不能抵抗参与方的合谋攻击，任两个参与方合谋就可获得其他参与方的输入数据。如果参与方合谋的可能性大，需要采用技术手段防范这一攻击，或者换用安全强度更高的算法，权限控制不严，如果管控不严，合作方有可能超范围超期限发起联合计算任务。
缺乏对恶意脚本、恶意输入的防范。以通过SQL脚本进行联合统计为例。由于SQL的灵活性，脚本可能输出的是对方的原始数据而非基于双方数据的统计结果，即使以隐私计算的方式执行该SQL，也破坏了数据隐私。
针对上述风险，隐私计算产品应合理选择隐私计算技术和算法，实施严格精细的权限控制，并采用技术手段检测和防范恶意脚本、恶意输入。

四、总结与展望

隐私计算应用的行业和场景广泛，然而其应用也面临巨大的挑战。隐私计算技术复杂，包含多种技术路线和具体算法，他们在功能、性能、隐私保护强度、安全强度上各不相同，需要合理进行技术选型。作为链接数据孤岛的工具，隐私计算产品要服务好应用，只具备除私保护能力是不够的，还需要具备计算类型丰富、高性能、可审计、易集成、易交付、安全可信等特性。要同时达到这些特性挑战非常巨大，尤其是想同时达到计算类型丰富、高性能、高安全几平是不可能的。为了提升这些特性，业内除了继续改进和发展隐私计算技术外，也在积极结合多种隐私计算技术，引入区块链、分布式集群加速、一体机软硬件加速等技术。

机器学习模型选型,机器学习模型思路(4)