基于人工智能的消费者隐私数据保护刍议＊

时间：2023-04-12 06:29:50

张权

（天津交通职业学院，天津 300380）

人工智能（AI）是第四次工业革命的关键驱动力，人工智能技术的高速发展，依托于“算法、算力和数据”三要素的快速发展。在2020 年，每个人每秒都会创建1.7 MB 的新数据，这些数据需要通过设备收集、处理和共享数据。计算、数据和物理实体网络实现了新型的用户服务。具体而言，服务可以将其操作基于AI 模型，以便更好地为用户提供个性化支持，需要广泛而持续的个人数据流，即有关个人的数据。个性化AI 服务可以解决各种与用户相关的问题，为个人带来巨大利益。同时，这些人工智能服务需要这些个体的相应个人数据（例如位置、麦克风或摄像头数据），并且可以找到有关他们的新的（部分高度敏感的）数据（例如抑郁状态、饮食习惯）。这使得数据保护以及防止侵犯隐私变得越来越具有挑战性。

保护用户隐私的方法是多方面的，然而，这些方法通常没有得到充分的讨论，并且在社区中也存在很大差异：有些假设是受信任的底层系统或设备，其他人假设可信的AI 服务或提供商，其他人甚至假设两者兼而有之。可以说，对于数据保护方法的鲜明特征缺乏共识，特别是在AI 服务中，因此很难比较和理解它们各自的优势[1]。许多数据保护方法还只考虑一方的利益，而忽略了另一方的利益，这使得他们无法开展业务。

1 消费者数据隐私保护的需求

1.1 数据的完整性和私密性

保护机制应该能够确保（共享）数据在其生命周期内的准确性和一致性，即未经授权或不受信任的实体不应能够修改或篡改AI 服务中使用的（共享）个人数据。保护机制应保护个人数据以及元数据，防止泄露、盗窃以及无意、非法或未经授权的访问。我们认为，当个人数据未经适当修改离开用户时，它不能可靠地保密。重要的是要注意，我们没有明确考虑通信元数据，此类数据的匿名化在在线社交网络中更为相关。

1.2 数据的有效性和效率

消费者隐私数据保护应当保证数据的有效性和数据效率，具体要求包括：①性能。保护机制不应对AI服务的最终性能产生负面影响，例如在准确性方面。②个性化能力。保护机制应继续为AI 服务提供对充足和准确的个人数据的访问权限，使其能够适应用户。③个人数据参与度低。数据保护AI 服务应该需要更少的个人数据，从而最大限度地降低泄露敏感数据的风险和固有的冷启动问题。④低标签工作量。数据保护AI 服务应要求用户标记较少的个人数据，从而减轻用户的负担并改善用户体验。⑤本地资源使用率低。数据保护AI 服务应尽可能节省本地资源，从而减轻个人设备的负担并改善用户体验。前2 个是指个性化的有效性，后3 个是指个性化的效率。

1.3 数据的适用性

数据适用性的具体要求包括以下几个方面：①支持任何数据类型。保护机制应设计为支持所有类型的数据，以便提供商在其AI 服务中不受限制。②支持任何AI 算法。保护机制应设计为支持所有底层AI 算法，以便提供商可以轻松部署其未修改的AI 服务。③算法特定依赖性低。保护机制的设计应使AI 服务不需要集成特定算法。④适用性的复杂性低。保护机制应易于被提供者部署，即架构和基础设施的复杂性应较低。⑤GM 学习/改进能力。应设计保护机制，以支持学习和改进通用模型，从而缓解冷启动问题。

2 消费者隐私数据的保护方法

我们根据以下4 种增强用户隐私的特定数据处理技术，在AI 级别对不同的数据保护方法进行了分类。

2.1 数据修改方法

此类别中的方法修改或清理用户数据，使其无法链接到特定个人，从而导致隐私和有效性这两个目标之间的固有冲突。一个早期的关键概念是k-anonymity，它解决了数据集中个人重新识别的风险，例如，通过删除或隐藏个人身份信息。k-anonymity 也可以用于隐私保证的质量衡量标准：数据集中包含的个人数据无法与其他数据区分开来。例如，GEDIK 等使用k-anonymity 在2007 年提出了一种仅保护位置隐私的方法，允许用户根据其个人隐私偏好指定。然而，这种匿名技术已经证明容易受到组合攻击。差分隐私在数学上保证查询的输出对数据集中是否存在个人数据不敏感。

数据集中差异变化时的隐私损失可以通过隐私参数来衡量，值越小，隐私保护越好，但扰动噪声越大。Google 的RAPPOR 就是一个例子，它支持在实际设置中的差异隐私，允许使用随机响应从具有强大隐私保护的最终用户收集统计数据，从而消除了对受信任的第三方的需求。所有这些数据修改方法都适合以或多或少的隐私友好方式学习一般模型。然而，这些方法在学习个性化AI 模型时在有效性方面表现不佳（因为它们需要修改个人数据，例如添加噪声）。

2.2 数据加密方法

此类别包括适用于加密用户数据的保护方法，可确保共享数据时的完整性和机密性。特别是，两种互补的加密技术塑造了这一类别，即同态加密（HE）和安全多方计算（MPC）。前者使得在不泄露数据的情况下分析或操作加密数据成为可能，但计算效率低下和操作有限限制了其适用性。后者是一种加密协议，可以对分布式数据进行安全和私有的计算，而不会将其泄露或移动到相关方的领域之外，但MPC 需要很高的通信和计算开销。

现在我们简要调查了AI 服务的相关方法，其中许多都是基于上述两种加密技术。例如，BARNI 等提出了一种基于HE 和乱码电路组合的混合协议，以对来自用户的加密心电图（ECG）信号进行分类。另一种方法CryptoImg，依赖于HE，允许对加密图像进行处理（例如图像调整、空间过滤、边缘锐化）。但是，这两种方法都仅限于特定的数据类型和AI 算法。ML Confidential 和CryptoNets 更通用，使用不同的数据类型，但仅适用于特定的AI 算法。前者为AI 任务提出了一种基于HE 的机密协议，并根据其多项式近似值开发了适当的机密AI 算法进行二元分类。后者进一步证明了HE 在训练有素的神经网络中的应用，但效率对两者来说仍然是一个挑战。

2.3 数据最小化方法

此类别中的方法旨在通过最大限度地减少所需的个人数据量来提高效率。根据设置的不同，当前通用模型（GM）训练的实践在训练期间不需要个人的数据。如果需要，则仅在推理阶段。虽然这种做法实现了高效率，并且适用性的复杂性很低，因为它通常依赖于自愿数据并在云中执行，生成的一般模型可能具有较低的有效性，因此它虽然适用于许多用户，但并非适用于所有人——我们使用此做法作为此类别的基线（BL）。

为了解决效率问题，基于此类别中的第一种方法提出了AI 算法的分区。例如，Neurosurgeon 是一种将神经网络训练拆分为云和具有层粒度的用户的方法，它进一步确定了这种分裂的最佳点，同时考虑到个人设备的延迟和能耗。类似的，OSIA 等提出了混合深度学习，其中层分离的、预先训练的暹罗神经网络的第一层在本地训练，输出（中间层）被发送到云共享以补充其余层。但是，这两种方法仍然需要标记数据，这会导致新用户出现冷启动问题。

为了克服通用模型的低效性和

提醒您：因为《基于人工智能的消费者隐私数据保护刍议＊》一文较长还有下一页，点击下面数字可以进行阅读！

《基于人工智能的消费者隐私数据保护刍议＊》在线阅读地址：基于人工智能的消费者隐私数据保护刍议＊