美国NIST发布保护AI系统免受对抗性攻击最新指南

责编：gltian ｜2025-03-28 15:48:32

编者按

美国国家标准与技术研究所（NIST）3月24日正式发布保护AI系统免受对抗性攻击的最新指南《对抗性机器学习：攻击和缓解的分类和术语》（NIST AI 100-2e2025）。

该指南描述了对抗性机器学习（AML）的分类法和术语，有助于保护AI应用免受对抗性操纵和攻击；为分类攻击，区分了预测性人工智能系统和生成式人工智能系统，并介绍了与两类系统相关的攻击；探讨了人工智能系统的组成部分，包括数据、模型本身、训练、测试和部署模型的过程，以及模型可能嵌入的更广泛的软件和系统环境。该指南分五个维度对攻击进行分类：一是人工智能系统类型；二是发起攻击的机器学习生命周期过程阶段；三是攻击者试图破坏的系统属性方面的目标和目的；四是攻击者的能力和访问权限；五是攻击者对学习过程及其他方面的了解。该指南还提供了在AI系统生命周期中缓解和管理相关攻击后果的相应方法，并概述了广泛使用的缓解技术的局限性，以提高认识并帮助提高AI风险缓解工作的有效性。

在预测性性人工智能系统方面，该指南围绕“可用性故障”“完整性破坏”“隐私泄露”三个目标以及“学习阶段”“攻击者目标和目的”“攻击者能力”“攻击者知识”四个维度对攻击进行了分类。基于学习阶段，“训练时攻击”可能会控制部分训练数据、标签、模型参数或机器学习算法的代码，从而导致不同类型的投毒攻击；“部署时攻击”可以发起规避攻击来造成完整性破坏并更改机器学习模型的预测，以及发起隐私攻击来推断有关训练数据或机器学习模型的敏感信息。基于攻击者目标和目的，“可用性故障攻击”故意干扰预测性人工智能系统，以破坏其他用户或进程及时可靠地访问其服务的能力；“完整性破坏攻击”故意干扰预测性人工智能系统，迫使其违背预期目标并产生与对手目标一致的预测；“隐私泄露攻击”会导致预测性人工智能系统中的受限或专有信息意外泄露。基于攻击者能力，可区分为控制训练数据、控制模型、控制测试数据、限制标签、控制源代码、访问查询等六种类型；基于攻击者知识，可区分为“白盒攻击”“黑盒攻击”“灰盒攻击”三种类型。

该指南针对预测性人工智能系统审查了规避攻击、数据投毒攻击和隐私攻击及相应的缓解措施。在规避攻击方面，攻击者的目标是生成对抗性样本，例如通过“白盒规避攻击”确定添加到测试样本中的扰动、通过“黑客规避攻击”查询各种数据样本并获取模型的预测来与经过训练的机器学习模型进行交互、利用“攻击的可转移性”转移在不同机器学习模型上构建的攻击。规避攻击的有效缓解措施包括：开展对抗性训练，使用在训练过程中使用正确标签迭代生成的对抗性示例来增强训练数据；利用随机平滑方法为测试样本的子集提供经过认证的预测；通过形式化验证提高神经网络对抗稳健性。

在投毒攻击方面，攻击者在机器学习算法训练阶段实施对抗性攻击，可导致可用性或完整性受损，具体可分为可用性投毒、有针对性投毒、后门投毒和模型投毒攻击。其中，可用性投毒攻击通常会导致所有样本的机器学习模型无差别降级，方式包括标签翻转、清洁标签投毒等，缓解措施包括清理训练数据、通过训练提高模型稳健性等；有针对性的投毒攻击会导致机器学习模型对少数目标样本的预测发生变化，方式包括标签翻转、亚群毒害攻击等，缓解措施是通过传统的网络安全措施来保护训练数据，如访问控制、使用数据清理和验证方法以及使用数据集来源和完整性证明机制；后门投毒攻击会导致目标模型对包含特定后门模式或触发器的样本进行错误分类，缓解措施包括清理训练数据、重建触发器、检查和清理模型、采用经过认证的防御等；模型投毒攻击试图直接修改经过训练的机器学习模型以向其中注入恶意功能，可能导致联合模型的可用性和完整性受损，缓解措施包括采用拜占庭弹性聚合规则、实施梯度剪裁和差分隐私、检查和清理模型、运用程序验证技术等。

在隐私攻击方面，主要涉及数据重建、成员推断、属性推断和模型提取四类隐私攻击。其中，数据重建攻击能够从已发布的汇总信息中恢复个人数据；成员推断攻击目标是确定特定记录或数据样本是否是用于统计或机器学习算法的训练数据集的一部分，可能会泄露个人的隐私信息，并可用作发起数据提取攻击的基础；属性推断攻击试图通过与机器学习模型交互来了解有关训练数据分布的全局信息；模型提取攻击通过三类技术进行模型提取，包括基于深度神经网络中执行的操作的数学公式、使用学习方法和利用侧通道信息。隐私攻击的缓解措施包括采用差分隐私、限制用户对模型的查询、检测对模型的可疑查询或创建更强大的架构以防止旁道攻击等。

奇安网情局编译有关情况，供读者参考。

NIST值得信赖且负责任的AI

NIST AI 100-2e2025

对抗性机器学习:

攻击和缓解的分类和术语

执行摘要

此份美国国家标准与技术研究所（NIST）可信和负责任的AI报告描述了对抗性机器学习（AML，利用机器学习系统的统计和基于数据的特性进行的攻击。）的分类法和术语，可能有助于保护AI应用免受对抗性操纵和攻击。

统计和数据的特性为这些系统的安全、隐私和安保带来了新的潜在攻击途径，而传统软件系统面临的威胁则远远不止这些。这些挑战涵盖了机器学习操作的不同阶段，例如对抗性操纵训练数据的可能性；提供对抗性输入以对人工智能系统的性能产生不利影响；甚至恶意操纵、修改或与模型交互以从模型的训练数据或模型可以访问的数据中窃取敏感信息。此类攻击已在现实条件下得到证实，其复杂性和影响一直在稳步增加。

AML领域与研究这些攻击有关。它必须考虑攻击者的能力、攻击者为实现其目标可能试图破坏的模型或系统属性，以及利用机器学习生命周期开发、训练和部署阶段漏洞的攻击方法的设计。它还与能够承受这些安全和隐私挑战的机器学习算法和系统的设计有关，这一属性通常称为稳健性。

为了对这些攻击进行分类，本报告区分了预测性人工智能系统和生成式人工智能系统，并介绍了与每种系统相关的攻击。报告探讨了人工智能系统的组成部分，包括数据、模型本身、训练、测试和部署模型的过程，以及模型可能嵌入的更广泛的软件和系统环境，例如部署生成式人工智能（GenAI）模型时可以访问隐私数据或配备工具来采取行动，从而产生现实世界的后果。

因此，此分类法中的攻击根据以下方面进行分类：（1）人工智能系统类型；（2）发起攻击的机器学习生命周期过程阶段；（3）攻击者试图破坏的系统属性方面的目标和目的；（4）攻击者的能力和访问权限；（5）攻击者对学习过程及其他方面的了解。

本报告采用了NIST AI风险管理框架中ML系统的安全性、弹性和稳健性概念。安全性、弹性和稳健性通过风险来衡量，风险是衡量实体（例如系统）受潜在情况或事件（例如攻击）威胁的程度以及此类事件发生时结果的严重程度的指标。但是，本报告并未就风险承受能力（即组织或社会可接受的风险水平）提出建议，因为它高度依赖于具体情况，并且特定于应用程序和用例。

针对ML的有效攻击范围很广，发展迅速，涵盖了ML生命周期的所有阶段——从设计和实施到训练、测试和在现实世界中的部署。这些攻击的性质和威力各不相同，其影响可能不仅取决于ML模型的漏洞，还取决于部署AI系统的基础设施的弱点。AI系统组件还可能受到设计和实施缺陷的不利影响，这些缺陷会导致对抗使用环境之外的故障，例如不准确。然而，这些类型的缺陷不属于AML文献或本报告中的攻击范围。

除定义攻击分类法外，本报告还提供了在AI系统生命周期中缓解和管理这些攻击后果的相应方法，并概述了广泛使用的缓解技术的局限性，以提高认识并帮助组织提高其AI风险缓解工作的有效性。本报告中使用的术语与AML文献一致，并附有词汇表，其中定义了与AML领域相关的关键术语，以帮助非专业读者。总而言之，分类法和术语旨在为快速发展的AML领域建立通用语言，为评估和管理人工智能系统安全性的其他标准和未来实践指南提供参考。与分类法一样，术语和定义并非详尽无遗，而是作为理解和协调AML文献中出现的关键概念的起点。

一、简介

多年来，人工智能（AI）系统一直处于全球扩张的轨迹上。许多国家的经济体正在开发和广泛部署这些系统，人们在生活的许多领域使用人工智能系统的机会越来越多。本报告区分了两大类人工智能系统：预测性人工智能（PredAI）和生成式人工智能（GenAI）。尽管人工智能系统的大多数行业应用仍然以PredAI系统为主导，但最近在商业和消费者环境中采用GenAI系统的情况有所增加。随着这些系统渗透到数字经济并成为日常生活的重要组成部分，对其安全、稳健和有弹性运行的需求也日益增长。这些运行属性是美国NIST人工智能风险管理框架和英国国家网络安全中心（NCSC）机器学习原则中可信人工智能的关键要素。

对抗性机器学习（AML）领域研究针对机器学习系统的攻击，这些攻击利用了机器学习系统的统计和基于数据的特性。尽管人工智能（AI）和机器学习（ML）在不同应用领域取得了重大进展，但这些技术仍然容易受到可能导致严重故障的攻击。当机器学习系统在可能受到新奇或对抗性交互的环境中使用时，发生此类故障的可能性会增加，而且随着这些系统在越来越高风险的领域中使用，后果会变得更加可怕。例如，在用于对象检测和分类的PredAI计算机视觉应用中，输入图像的对抗性扰动的著名案例已导致自动驾驶汽车转向相反方向的车道，停车标志被错误分类为限速标志，甚至戴眼镜的人在高安全环境中被错误识别。类似地，随着越来越多的ML模型被部署到医学等领域，对抗性输入诱使ML模型泄露隐藏信息的可能性变得更加紧迫，医疗记录泄露可能会暴露敏感的个人信息。

在GenAI中，大语言模型（LLM）正日益成为软件应用程序和互联网基础设施不可或缺的一部分。LLM被用于创建更强大的在线搜索工具，帮助软件开发人员编写代码，并为每天有数百万人使用的聊天机器人提供支持。LLM也正在得到增强，以创建更有用的AI系统，包括通过与企业数据库和文档的交互来实现强大的检索增强生成，以及通过训练或推理时间技术使LLM能够采取现实世界的行动，例如浏览网页或使用bash终端作为基于LLM的代理。因此，GenAI系统中的漏洞可能会暴露出广泛的攻击面，威胁敏感用户数据的隐私或有关模型架构或训练数据的专有信息，并对广泛使用的系统的完整性和可用性造成风险。

随着GenAI的采用不断增长，这些系统不断增强的功能也给模型开发人员带来了另一个挑战：如何管理因不必要或有害地使用这些系统功能而产生的风险。随着模型开发人员越来越多地寻求应用技术干预来降低模型被滥用的可能性，试图规避或破坏这些保护措施的攻击为高风险AML攻击提供了另一种可能。

从根本上讲，许多人工智能系统既容易受到AML攻击，也容易受到更类似于传统网络安全攻击的攻击，包括针对部署它们的平台的攻击。本报告重点关注前者，并将后者视为传统网络安全分类法的范畴。

PredAI和GenAI系统在整个开发和部署生命周期中都容易受到攻击者利用一系列功能发起的攻击。攻击者可以操纵训练数据，包括用于大规模模型训练的互联网数据，或者可以通过添加对抗性扰动或后缀来修改测试时推理数据和资源。攻击者还可以通过插入特洛伊木马功能来攻击用于构建AI系统的组件。随着各机构和组织越来越依赖可以直接使用或使用新数据集进行微调以实现不同任务的预训练模型，它们对这些攻击的脆弱性也随之增加。

现代密码学通常依赖于信息论意义上的安全算法，即那些可以正式证明在特定条件下确保安全的算法。然而，现代人工智能系统中广泛使用的机器学习算法没有信息论安全性证明。此外，文献中开始出现信息论不可能性结果，限制了广泛使用的缓解技术的有效性。因此，在开发针对不同类别的AML攻击的缓解措施方面取得的许多进展往往是经验性的和有限的，之所以采用这些措施是因为它们在实践中似乎有效，而不是因为它们提供了信息论安全保证。因此，许多这些缓解措施本身可能容易受到攻击者技术的新发现和演变的影响。

本报告为以下方面的发展提供了指导：

为AML术语制定标准化术语，供相关ML和网络安全界使用。不同利益相关者社区的术语存在显著差异，随着AI在企业和消费者环境中得到越来越广泛的应用，努力弥合这些差异非常重要。
对AML领域中研究最广泛且目前最有效的攻击进行分类，包括：

PredAI系统的规避、投毒和隐私攻击
GenAI系统的投毒、直接提示和间接提示注入攻击

讨论这些攻击的潜在缓解措施以及现有缓解技术的局限性

随着AML攻击和缓解措施出现新的发展，NIST打算更新此报告。

本报告对PredAI和GenAI系统的常见攻击类别及其缓解措施进行了分类。本报告并非旨在详尽调查所有可用的AML文献，其中包括自2021年以来截至2024年7月在arXiv.org上发表的超过11354篇参考文献。

本报告分为三个部分。

第二章探讨PredAI系统。第（一）节介绍了PredAI系统的攻击分类，定义了攻击者目标和目的的广泛类别，并确定了攻击者必须利用的能力以实现相应目标。还介绍了每种能力类型的特定攻击类别。第（二）（三）（四）节分别讨论了主要的攻击类别：规避、投毒和隐私。攻击类别部分提供了针对每类攻击的一组相应的缓解措施。
第三章探讨GenAI系统。第（一）节介绍了GenAI系统的攻击分类，并定义了与这些系统相关的攻击者目标和对手能力的广泛类别。介绍了每种能力类型的特定攻击类别以及相关的缓解措施。
第四章讨论了该领域仍然存在的挑战，包括广泛使用的缓解技术的局限性。目的是提高人们对AML领域未解决问题的认识，并提请关注可能影响未来风险和风险管理实践的趋势。

二、预测性人工智能分类法

（一）攻击分类

图1介绍了基于攻击者目标、能力和知识的AML对预测性人工智能（PredAI）系统的攻击分类。

图1：预测性人工智能系统攻击的分类

攻击者的目标以不连贯的圆圈表示，每个圆圈的中心代表攻击者的目标：可用性故障、完整性破坏和隐私泄露。攻击者为实现其目标必须利用的能力显示在目标圆圈的外层。攻击类别显示为与发动每次攻击所需能力相关的标注。需要相同能力才能达到相同目标的多个攻击类别显示在单个标注中。这些攻击根据以下维度进行分类：（1）发动攻击时的学习方法和学习过程阶段；（2）攻击者的目标和目的；（3）攻击者的能力；（4）攻击者对学习过程的了解。先前的研究中已经介绍了几种对抗性攻击分类框架，这里的目标是创建一个统一现有研究的机器学习对抗性攻击的标准术语。

1、学习阶段

预测机器学习涉及训练阶段（在此阶段学习模型）和部署阶段（在此阶段将模型部署在新的未标记数据样本上以生成预测）。在监督学习的情况下，标记的训练数据在训练阶段作为训练算法的输入，并且ML模型经过优化以最小化特定的损失函数。ML 模型的验证和测试通常在模型部署到现实世界前进行。常见的监督学习技术包括：分类，其中预测的标签或类别是离散的；回归，其中预测的标签或响应变量是连续的。

ML文献中的其他学习范式包括：无监督学习，它在训练时使用未标记的数据训练模型；半监督学习，其中一小部分示例带有标签，而大多数样本未标记；强化学习，其中代理与环境交互并学习最佳策略以最大化其奖励；联合学习，其中一组客户端通过与执行模型更新聚合的服务器通信来联合训练ML模型；集成学习，这是一种通过组合多个模型的预测来寻求更好预测性能的方法。

大多数PredAI模型都是判别性的，即只学习决策边界，例如逻辑回归、支持向量机器和卷积神经网络。GenAI 模型也可用于预测任务，例如情绪分析。

AML文献主要考虑在训练阶段或部署阶段可能发生的针对人工智能系统的对抗性攻击。在训练阶段，攻击者可能会控制部分训练数据、其标签、模型参数或机器学习算法的代码，从而导致不同类型的投毒攻击。在部署阶段，机器学习模型已经过训练，攻击者可以发起规避攻击来造成完整性破坏并更改机器学习模型的预测，以及发起隐私攻击来推断有关训练数据或机器学习模型的敏感信息。

训练时攻击。投毒攻击发生在 ML 训练阶段。在数据投毒攻击中，攻击者通过插入或修改训练样本来控制训练数据的子集。在模型投毒攻击中，攻击者控制模型及其参数。数据投毒攻击适用于所有学习范式，而模型投毒攻击在联合学习中最为普遍，其中客户端将本地模型更新发送到聚合服务器，以及在供应链攻击中，模型技术供应商可能会将恶意代码添加到模型中。

部署时攻击。可以针对已部署的模型发起其他类型的攻击。规避攻击会修改测试样本以创建对抗性示例，这些对抗性示例与原始样本相似（例如，根据某些距离度量），但会根据攻击者的选择更改模型预测。具有已部署ML模型查询权限的攻击者还可以发起其他攻击，例如可用性攻击和隐私攻击（包括成员推理和数据重建）。

2、攻击者目标和目的

根据分析系统安全性时考虑的三种主要安全破坏类型，攻击者的目标可分为三个维度：可用性破坏、完整性破坏和隐私泄露。图1根据攻击目标将攻击分为三个不相交的圆圈，攻击者的目标显示在每个圆圈的中心。

可用性故障。可用性破坏攻击是对PredAI系统的故意干扰，以破坏其他用户或进程及时可靠地访问其服务的能力。这种攻击类型可能在训练或部署时发起，但其影响通常在部署时才会显现。当攻击者控制一小部分训练集时，可用性攻击可以通过数据投毒发起；当攻击者控制模型参数时，通过模型投毒发起；或者通过查询访问发起能量延迟攻击。数据投毒可用性攻击已被提议用于支持向量机、线性回归甚至神经网络，而模型投毒攻击则已设计用于神经网络和联合学习。

能量延迟攻击。最近，能量延迟攻击是一种只需要黑盒访问模型的可用性攻击，已针对计算机视觉和自然语言处理中的许多不同任务的神经网络开发。

完整性破坏。完整性破坏攻击是对PredAI系统的故意干扰，迫使其违背预期目标并产生与对手目标一致的预测。攻击者可以通过在部署时发起规避攻击或在训练时发起投毒攻击来导致完整性破坏。规避攻击需要修改测试样本以创建对抗性示例，这些示例被模型错误分类，但通常保持隐秘且人类无法察觉。通过投毒进行的完整性攻击可分为有针对性的投毒攻击、后门投毒攻击和模型投毒。有针对性的投毒试图破坏一些目标样本的完整性，并假设攻击者拥有训练数据控制权来插入投毒样本。后门投毒攻击需要生成后门模式，该模式会添加到中毒样本和测试样本中，从而导致错误分类。后门攻击是文献中唯一需要同时控制训练和测试数据的攻击。模型投毒攻击可能导致有针对性的攻击或后门攻击，攻击者会修改模型参数以导致完整性破坏。它们专为集中学习和联合学习而设计。

隐私泄露。隐私泄露攻击会导致PredAI系统中的受限或专有信息意外泄露，包括有关模型训练数据、权重或架构的详细信息。虽然“机密性”一词在传统网络安全攻击分类法中得到更广泛的使用，但AML领域倾向于使用顶级术语“隐私”来涵盖针对模型机密性的攻击（例如，提取有关模型权重或架构的信息的攻击）和导致破坏模型输出预期隐私属性的攻击（例如，通过暴露模型训练数据）。机器学习训练期间的数据机密性可以通过基于加密技术的安全计算方法实现，从而确保训练数据和模型参数在训练阶段受到保护。然而，即使是使用强制数据保密的范式训练的模型也可能容易受到隐私攻击，在这种情况下，与模型交互的攻击者可以提取有关其训练数据或参数的信息。本报告重点关注部署时可能发生的隐私泄露，无论使用何种训练方法，也无论在训练期间是否保持了数据保密性。

在隐私攻击中，攻击者可能有兴趣了解有关训练数据（导致数据隐私攻击）或机器学习模型（导致模型隐私攻击）的信息。攻击者可能有不同的目标来破坏训练数据的隐私，例如数据重建（推断训练数据的内容或特征）、成员推理攻击（推断训练集中数据的存在）、训练数据提取（从生成模型中提取训练数据）、属性推理攻击（推断训练记录的敏感属性）和性质推理（推断有关训练数据分布的属性）。模型提取是一种模型隐私攻击，攻击者旨在提取有关模型的信息。

3、攻击者能力

针对PredAI系统的AML攻击可以根据攻击者控制的功能进行分类。如图1中目标圈的外层所示，攻击者可能利用六种类型的能力来实现其目标：

训练数据控制：攻击者可能通过插入或修改训练样本来控制训练数据的子集。此功能用于数据投毒攻击（例如，可用性投毒、有针对性或后门投毒）。

模型控制：攻击者可能通过生成特洛伊木马触发器并将其插入模型中或在联合学习中发送恶意本地模型更新来控制模型参数。
测试数据控制：攻击者可能会在模型部署时对测试样本添加扰动，就像在规避攻击中生成对抗性示例或在后门投毒攻击中执行的那样。
标签限制：此功能与限制对抗性控制监督学习中的训练样本标签有关。清洁标签投毒攻击假设攻击者不控制中毒样本的标签，而常规投毒攻击则假设对中毒样本进行标签控制。
源代码控制：攻击者可能会修改ML算法的源代码，例如随机数生成器或任何第三方库，这些库通常是开源的。
查询访问：攻击者可能会向模型提交查询并接收预测（即标签或模型置信度），例如在与云提供商托管的作为机器学习即服务（MLaaS）产品的AI系统交互时。黑盒规避攻击、能量延迟攻击以及所有不需要了解模型的训练数据、架构或参数的隐私攻击都会使用此功能。

即使攻击者无法修改训练/测试数据、源代码或模型参数，访问这些数据对于发起需要了解ML系统的更强大的白盒攻击仍然至关重要。

图1将每个攻击类别与发起攻击所需的功能联系起来。例如，导致完整性破坏的后门攻击需要控制训练和测试数据以插入后门模式。后门攻击也可以通过源代码控制进行，特别是当训练外包给更强大的实体时。除后门攻击所需的能力外，清洁标签后门攻击还不允许对中毒样本进行标签控制。

4、攻击者知识

攻击分类的另一个维度是攻击者对ML系统有多少了解。攻击主要有三种类型：

白盒攻击。这些攻击假设攻击者完全了解ML系统，包括训练数据、模型架构和模型超参数。虽然这些攻击是在非常强的假设下进行的，但分析它们的主要原因是测试系统对最坏情况对手的脆弱性并评估潜在的缓解措施。这个定义更为通用，涵盖了自适应攻击的概念，其中明确跟踪对模型或系统应用的缓解措施的知识。

黑盒攻击。这些攻击假设攻击者对ML系统知之甚少，有时甚至一无所知。对手可能具有对模型的查询权限，但他们没有关于模型如何训练的其他信息。这些攻击是最实际的，因为它们假设攻击者不了解AI系统，并使用可供正常使用的系统接口。

灰盒攻击。有一系列灰盒攻击可以捕获黑盒攻击和白盒攻击间的对抗性知识。攻击者可能知道模型架构但不知道其参数，或者攻击者可能知道模型及其参数但不知道训练数据。灰盒攻击的其他常见假设是攻击者可以访问与训练数据相同分布的数据并知道特征表示。后一种假设对于在训练ML模型前使用特征提取的应用（例如网络安全、金融和医疗保健）很重要。

5、数据模态

直到最近，对抗性机器学习中的大多数攻击和防御都是在单一模态下进行的，但该领域的一个新趋势是使用多模态数据。图1中定义的攻击分类与特定应用中的数据模态无关。AML文献中最常见的数据模态包括：

图像：图像数据的对抗性示例具有连续域的优势，并且可以直接应用基于梯度的方法进行优化。后门投毒攻击最初是针对图像发明的，许多隐私攻击都是在图像数据集上运行的。图像模态包括其他类型的成像（例如，LIDAR、SAR、IR、高光谱）。
文本：文本是一种流行的模态，针对文本模型提出了各种类型的攻击，包括规避、投毒和隐私。
音频：音频系统和由音频信号生成的文本也受到攻击。
视频：视频理解模型在视觉和语言任务中表现出越来越强的能力，但此类模型也容易受到攻击。
网络安全：第一次投毒攻击是在网络安全领域发现的，用于蠕虫签名生成（2006 年）和垃圾邮件分类（2008 年。从那时起，投毒攻击已被证明可用于恶意软件分类、恶意PDF检测和Android恶意应用程序分类。针对类似数据模式的规避攻击也已被提出：恶意软件分类、PDF恶意软件分类、Android恶意应用程序检测和网络入侵检测。投毒无监督学习模型已被证明可用于恶意软件分类和网络流量异常检测中使用的聚类。基于以数据为中心的方法的异常检测允许通过ML算法进行自动特征学习。然而，将ML应用于此类问题会带来特定的挑战，这些挑战与需要非常低的假阴性和假阳性率（例如，捕获零日攻击的能力）有关。试图将所有这些因素结合在一起会使ML模型容易受到对抗性攻击，这使得这一挑战变得更加复杂。
表格数据：针对处理表格数据的ML模型的攻击层出不穷，例如针对医疗保健和商业应用程序的投毒可用性攻击、针对医疗保健数据的隐私攻击以及针对金融应用程序的规避攻击。

最近，使用多模态数据训练的ML模型越来越受到关注，尤其是图像和文本数据模态的组合。几篇论文表明，多模态模型可能具有一定的抵御攻击的能力，但其他论文表明，多模态模型本身可能容易受到同时针对所有模态的攻击。

（二）规避攻击和缓解措施

过去十年，针对ML模型的规避攻击的发现推动了AML研究的显著发展。在规避攻击中，攻击者的目标是生成对抗性样本：样本的分类可以更改为攻击者选择的任意类别 – 通常只需最小的扰动。例如，在图像分类的背景下，原始样本的扰动可能很小，以至于人类无法观察到输入的变化；虽然ML模型可以被欺骗将对抗性样本归类为攻击者选择的目标类别，但人类仍然将其识别为原始类别的一部分。

1、白盒规避攻击

在白盒威胁模型中，攻击者完全了解模型架构和参数。在这种情况下，创建对抗性示例的主要挑战是找到添加到测试样本中的扰动，该扰动会改变其分类标签，通常会对扰动的可感知性或大小等属性进行约束。在白盒威胁模型中，通常通过解决从攻击者的角度编写的优化问题来制作对抗性示例，该优化问题指定了优化的目标函数（例如将目标标签更改为某个类），以及用于测量测试样本和对抗性示例间相似性的距离度量。

2、黑盒规避攻击

黑盒规避攻击是在现实对抗模型下设计的，攻击者对模型架构或训练数据一无所知。相反，攻击者可以通过在各种数据样本上查询并获取模型的预测来与经过训练的ML模型进行交互。公共云提供商提供的机器学习即服务（MLaaS）也提供了类似的API，用户可以在其中获取模型对选定查询的预测，而无需了解模型的训练方式。

3、攻击的可转移性

在限制性威胁模型下生成对抗性攻击的另一种方法是转移在不同ML模型上构建的攻击。通常，攻击者训练替代ML模型，对替代模型生成白盒对抗性攻击，并将攻击转移到目标模型。各种方法在替代模型的训练方式上有所不同。

4、现实世界中的规避攻击

虽然本节讨论的许多攻击仅在研究环境中得到证明，但现实世界中已经证明了几种规避攻击，NIST讨论了人脸识别系统、网络钓鱼网页检测和恶意软件分类中的突出实例。

5、缓解措施

从针对对抗性规避攻击的各种防御措施来看，有三类主要措施已被证明具有弹性，并有可能减轻规避攻击的影响：

（1）对抗性训练：对抗性训练是一种通用方法，它使用在训练过程中使用正确标签迭代生成的对抗性示例来增强训练数据。用于生成对抗性示例的对抗性攻击越强，训练后的模型就越有弹性。对抗性训练产生的模型比标准模型具有更多的语义含义，但这种好处通常是以降低干净数据的模型准确性为代价的。此外，由于在训练过程中迭代生成对抗性示例，对抗性训练的成本很高。

（2）随机平滑：随机平滑是一种通过在高斯噪声扰动下产生最可能的预测，将任何分类器转换为可认证的稳健平滑分类器的方法。随机平滑通常为测试样本的子集提供经过认证的预测，其确切数量取决于潜在扰动的大小或训练数据和模型的特征等因素。

（3）形式化验证：另一种证明神经网络对抗稳健性的方法是基于形式化方法中的技术。形式化验证技术在证明神经网络稳健性方面具有巨大潜力，但受限于其可扩展性不足、计算成本高以及支持的代数运算类型（如加法、乘法等）受限。

所有这些提议的缓解措施都表现出稳健性和准确性间的固有权衡，并且在训练过程中会带来额外的计算成本。因此，设计能够抵抗规避同时保持准确性的ML模型仍然是一个悬而未决的问题。

（三）投毒攻击及缓解措施

投毒攻击被广泛定义为机器学习算法训练阶段的对抗性攻击。投毒攻击威力强大，可导致可用性或完整性受损。可用性投毒攻击通常会导致所有样本的ML模型无差别降级，而有针对性和后门投毒攻击会导致一小部分目标样本的完整性受损。投毒攻击利用了广泛的对抗能力（例如，数据投毒、模型投毒、标签控制、源代码控制和测试数据控制），从而产生了几种投毒攻击子类别。它们是在白盒、灰盒和黑盒环境中开发的。本节根据对抗目标对可用性投毒、有针对性投毒、后门投毒和模型投毒攻击进行了分类。对于每个投毒攻击类别，还讨论了发起攻击的技术、现有的缓解措施及其局限性。

1、可用性投毒

在网络安全应用中发现的第一个中毒攻击是针对蠕虫签名生成和垃圾邮件分类器的可用性攻击，这种攻击会不加区分地降低整个ML模型的性能，以有效阻止其使用。这两次攻击都是在白盒设置下进行的，其中攻击者知道ML训练算法、特征表示、训练数据集和ML模型。对于检测针对工业控制系统的网络安全攻击的基于机器学习的系统，也有人提出了可用性投毒攻击。

一种简单的黑盒投毒攻击策略是标签翻转，其中攻击者生成带有不正确或更改的标签的训练示例。此方法可能需要大量中毒样本才能发起可用性攻击。

清洁标签投毒。监督学习的一个现实威胁模型是清洁标签投毒攻击，其中攻击者只能控制训练示例，而不能控制其标签。

可用性投毒攻击也被设计用于针对基于质心的异常检测和恶意软件行为聚类的无监督学习。在联合学习中，攻击者可以发起模型中毒攻击，从而导致全局训练模型的可用性破坏。

缓解措施。可用性投毒攻击通常可以通过监控ML模型的标准性能指标（例如，精度、召回率、准确率、F1分数和曲线下面积）来检测，因为它们会导致分类器指标大幅下降。但是，在ML的测试或部署阶段检测这些攻击可能不太可取，许多现有的缓解措施旨在在训练阶段主动防止这些攻击，以生成强大的ML模型。现有的可用性中毒攻击缓解措施包括：

训练数据清理：这些方法利用了中毒样本通常与不受对手控制的常规训练样本不同的见解。因此，数据清理技术旨在在进行ML训练前清理训练集并删除中毒样本。
稳健训练：减轻可用性投毒攻击的另一种方法是修改ML训练算法，以提高生成模型的稳健性。防御者可以训练多个模型的集合，并通过模型投票生成预测。

2、有针对性的投毒

与可用性攻击相比，有针对性的投毒攻击会导致ML模型对少数目标样本的预测发生变化。如果攻击者可以控制训练数据的标记函数，那么标签翻转是一种有效的有针对性的投毒攻击：攻击者只需插入几个带有目标标签的中毒样本，模型就会学习错误的标签。因此，有针对性的投毒攻击大多是在干净标签环境中进行研究的，在这种环境中，攻击者无法控制训练数据标签。

亚群毒害攻击旨在毒害整个亚群中的样本，亚群的定义是匹配特征子集或在表示空间中创建聚类。中害样本是使用标签翻转（用于自言语言处理和表格模态）或一阶优化方法（用于连续数据，例如图像）生成的。攻击会推广到亚群中的所有样本，并且需要对ML模型有最低限度的了解，以及与亚群大小成比例的少量中毒样本。

针对半监督学习算法也引入了有针对性的投毒攻击，例如 MixMatch、FixMatch和无监督数据增强（UDA），其中攻击者毒害一小部分未标记的训练数据集，以在部署时改变对目标样本的预测。

缓解措施。针对性投毒攻击的防御难度极大。为了减轻与此类攻击相关的一些风险，模型开发人员可以通过传统的网络安全措施（如访问控制、使用数据清理和验证方法以及使用数据集来源和完整性证明机制）来保护训练数据

3、后门投毒

后门投毒攻击是一种投毒攻击，它会导致目标模型对包含特定后门模式或触发器的样本进行错误分类。近几年来，后门攻击愈发复杂和隐秘，更难被发现和缓解。潜在后门攻击被设计成即使在使用干净数据对最后几层进行模型微调后仍能存活。

其他数据模式。虽然大多数后门中毒攻击都是针对计算机视觉应用而设计的，但这种攻击媒介在具有不同数据模式的其他应用领域也很有效，例如音频、自然语言处理（NLP）和网络安全设置。

缓解措施。与其他投毒攻击相比，后门攻击缓解方面的文献非常丰富。NIST讨论几类防御措施，包括数据清理、触发器重建以及模型检查和清理，并提出了它们的局限性。

训练数据清理：与投毒可用性攻击类似，训练数据清理可用于检测后门中毒攻击。例如，潜在特征空间中的异常值检测对于用于计算机视觉应用的卷积神经网络非常有效。激活聚类将表示空间中的训练数据聚类，以将后门样本隔离在单独的聚类中。当投毒攻击控制了相对较大一部分训练数据时，数据清理会取得更好的效果，但对隐蔽的投毒攻击则不那么有效。总的来说，这导致了攻击成功率和恶意样本的可检测性间的权衡。
触发器重建：此类缓解措施旨在重建后门触发器，假设它位于中毒训练样本中的固定位置。
模型检查和清理：模型检查在部署前分析经过训练的ML模型，以确定它是否被毒害。
经过认证的防御：文献中提出了几种针对数据中毒攻击的经过认证的防御方法。BagFlip是一种与模型无关的防御方法，它扩展了随机平滑，并将训练数据装袋与向训练和测试样本添加噪声相结合。深度分区聚合和深度有限聚合是经过认证的防御方法，它们将训练数据划分为不相交的子集，并在每个分区上训练集成方法，以减少中毒样本的影响。最近，FCert提供了一种经过认证的防御方法，用于视觉和文本数据的少样本分类设置中的数据中毒。

4、模型投毒

模型投毒攻击试图直接修改经过训练的ML模型，以向其中注入恶意功能。大多数模型投毒攻击都是在联合学习环境中设计的，其中客户端将本地模型更新发送到服务器，服务器将它们聚合成全局模型。受感染的客户端可以发送恶意更新来毒害全局模型。模型中毒攻击可能导致联合模型的可用性和完整性受损：

降低全局模型准确性的投毒可用性攻击是有效的，但它们通常需要大量客户端处于对手的控制之下。
有针对性的模型投毒攻击会在测试时对一小部分样本造成完整性破坏。它们可以通过模型替换或模型增强攻击来发起，其中受感染的客户端会根据目标替换本地模型更新。
后门模型投毒攻击通过恶意客户端更新引入触发器，在测试时用触发器诱导所有样本错误分类。如果受感染的客户端不定期参与训练，大多数后门都会被遗忘，但如果在最低使用的模型参数中注入后门，则会变得更加持久。

供应链模型投毒。供应链场景中也可能发生模型投毒攻击，其中供应商提供的模型或模型组件被恶意代码毒害。

缓解措施。已经设计和评估了各种拜占庭弹性聚合规则，以保护联合学习免受模型投毒攻击。它们中的大多数试图在服务器上执行聚合时识别和排除恶意更新。然而，有动机的对手可以通过在攻击生成优化问题中添加约束来绕过这些防御。梯度剪裁和差分隐私有可能在一定程度上缓解模型中毒攻击，但它们通常会降低准确性并且不能提供完全的缓解。

对于特定的模型中毒漏洞，例如后门攻击，有一些模型检查和清理技术。然而，减轻供应链攻击（攻击者可能控制训练算法或ML超参数的源代码）仍然具有挑战性。其他领域使用的程序验证技术（例如，加密协议验证）可能适用于这种情况，但ML算法具有内在的随机性和非确定性行为，这增加了验证的难度。

设计能够抵御供应链模型中毒漏洞的稳健机器学习模型是一个关键的未解决的问题。

5、现实世界中的投毒攻击

聊天机器人、垃圾邮件过滤器和恶意软件分类服务的真实投毒攻击案例被记录在案。在所有这些事件中，攻击者都在初始模型发布后制作了中毒样本，因为他们相信模型会不断更新。

（四）隐私攻击及缓解措施

伊利特·迪努尔和科比·尼西姆的开创性工作引入了数据重构攻击，这种攻击试图通过访问经过训练的模型来逆向工程有关个人用户记录或其他敏感输入数据的私人信息。最近，数据重构攻击已被设计用于二分类和多分类神经网络分类器。利用成员推理攻击，攻击者可以确定特定记录是否包含在用于训练ML模型的数据集中。成员推理攻击最早由尼尔斯·霍默等人针对基因组数据引入。最近的文献主要关注在黑盒环境中对ML模型的成员攻击，其中攻击者可以查询经过训练的ML模型。属性推断攻击旨在提取有关训练数据集的全局信息，例如具有特定敏感属性的训练示例的比例。机器学习即服务（MLaaS）的另一种隐私侵犯是模型提取攻击，旨在提取有关 ML 模型的信息，例如其架构或模型参数

本节讨论与数据重建、训练数据记忆、成员推断、属性推断和模型提取相关的隐私攻击，以及针对其中一些攻击的缓解措施和设计一般缓解策略中存在的未解决的问题。

1、数据重建

数据重建攻击能够从已发布的汇总信息中恢复个人数据。伊利特·迪努尔和科比·尼西姆首次引入了从线性统计数据中恢复用户数据的重建攻击。他们最初的攻击需要指数级的查询才能进行重建，但后续工作表明如何用多项式次数的查询进行重建。在机器学习分类器中，马特·弗雷德里克森等人引入了模型反转攻击，即从机器学习模型的训练数据中重建类别代表。虽然模型反转会生成与训练集中语义相似的图像，但它无法直接重建模型的训练数据。最近，博尔哈·巴勒等人训练了一个重建网络，该网络可以从神经网络模型中恢复数据样本，假设强大的对手掌握了所有其他训练样本的信息。尼夫·海姆等人展示了如何利用关于神经网络中隐性偏差的理论见解，从访问模型参数中重建二元神经网络分类器的训练数据。

2、成员推断

成员推断攻击可能会泄露个人的隐私信息，就像重建或记忆攻击一样，在发布汇总信息或基于用户数据训练的ML模型时，成员推断攻击会引起极大担忧。此外，成员推断可以用作发起数据提取攻击的基础。在成员推理中，攻击者的目标是确定特定记录或数据样本是否是用于统计或机器学习算法的训练数据集的一部分。与AML中的其他攻击类似，成员推断可以在白盒设置中执行，其中攻击者了解模型的架构和参数，但大多数攻击都是针对黑盒设置开发的，其中对手会对经过训练的ML模型生成查询。攻击者在成员推理方面的成功已使用受密码启发的隐私博弈正式定义，在该博弈中，攻击者与挑战者交互，并需要确定目标样本是否用于训练所查询的ML模型。

3、属性推断

在属性推断攻击（也称为分布推断）中，攻击者试图通过与ML模型交互来了解有关训练数据分布的全局信息。属性推理攻击在白盒设置中设计为攻击者可以访问完整的ML模型，在黑盒设置中设计为攻击者向模型发出查询并了解预测标签或类概率。这些攻击已在隐马尔可夫模型、支持向量机、前馈神经网络、卷积神经网络、联合学习、生成对抗网络和图神经网络中得到证实。

4、模型提取

在机器学习即服务（MLaaS）场景中，云提供商通常使用专有数据训练大型ML模型，并希望对模型架构和参数保密。执行模型提取攻击的攻击者的目标是通过向MLaaS提供商训练的ML模型提交查询来提取有关模型架构和参数的信息。文献中介绍了几种发起模型提取攻击的技术：第一种方法是基于深度神经网络中执行的操作的数学公式进行直接提取，这允许攻击者以代数方式计算模型权重；第二种技术是使用学习方法进行提取；第三种技术使用侧通道信息进行模型提取。模型提取通常不是最终目标，而是迈向其他攻击的一步。随着模型权重和架构为人所知，攻击者可以发起更强大的攻击，这些攻击是白盒或灰盒设置的典型特征。因此，阻止模型提取可以减轻依赖于攻击者了解模型架构和权重的下游攻击。

5、缓解措施

针对聚合信息的重构攻击的发现促使人们严格定义差分隐私（DP），这是一种非常强的隐私定义，它保证了有权访问算法输出的攻击者可以了解数据集中每条记录的程度有一个上限。DP 因其多种有用的特性而被广泛采用：群组隐私（即，将定义扩展到两个在 k 条记录上不同的数据集）、后处理（即，即使在处理输出后也能保留隐私）和组合（即，如果对数据集执行多次计算，隐私就会组合）。用于统计计算的DP机制包括高斯机制、拉普拉斯机制和指数机制。用于训练ML模型的最广泛使用的DP算法是DP-SGD，最近的改进包括 DP-FTRL和DP矩阵分解。

根据定义，DP可以缓解数据重建和成员推理攻击。事实上，DP的定义立即暗示了攻击者发起成员推理攻击的成功率的上限。然而，DP不能保证能够抵御模型提取攻击，因为这种方法旨在保护训练数据，而不是模型。在实践中使用DP的主要挑战之一是设置隐私参数以在隐私级别和实现的效用间取得权衡，这通常以机器学习模型的准确性来衡量。

DP提供了严格的隐私概念，并防止成员推断和数据重建攻击。为在隐私和实用性间实现最佳平衡，建议进行实证隐私审计，以补充隐私训练算法的理论分析。

还有其他针对模型提取的缓解技术，例如限制用户对模型的查询、检测对模型的可疑查询或创建更强大的架构以防止旁道攻击。但是，这些技术可以被有动机且资源充足的攻击者规避，应谨慎使用。

声明：本文来自奇安网情局，稿件和图片版权均归原作者所有。所涉观点不代表东方安全立场，转载目的在于传递更多信息。如有侵权，请联系rhliu@skdlabs.com，我们将及时按原作者或权利人的意愿予以更正。

上一篇：国家安全部：服务外包并非“一包了之”

下一篇：客户遭勒索攻击，软件供应商被罚超2800万元