聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

FIA:基于中间特征不可区分性的对抗攻击

2022-01-10 10:45 浏览: 3334938 次 我要评论(0 条) 字号:

深度神经网络极易受到对抗样本的安全威胁,围绕对抗样本展开的攻防成为了近年来人工智能安全领域的研究热点。近来有研究者提出了基于“陷阱”的对抗防御(Trapdoor-enabled Defense, TeD),TeD利用后门攻击植入“陷阱”并以此捕获和拦截对抗样本,它能够有效地检出多种最先进的对抗攻击,在此之前未有能够有效规避该防御的对抗攻击。为此,我们提出了一种针对TeD的新型黑盒对抗攻击,称为基于中间特征不可区分性的对抗攻击(Feature-Indistinguishable Attack, FIA),它通过构造中间特征空间上和目标类别中的正常样本不可区分的对抗样本以规避TeD。实验结果证明,FIA能够有效规避原有及各种加强设定下的TeD。

该成果 “Feature-Indistinguishable Attack to Circumvent Trapdoor-enabled Defense” 发表在信息安全领域顶级国际会议计算机与通信安全大会(ACM Conference on Computer and Communications Security, ACM CCS 2021),ACM CCS与IEEE S&P、USENIX Security、NDSS并称为网络与信息安全领域的“四大顶级会议”,是中国计算机学会(CCF)推荐的A类会议。

  • 论文链接:

    https://dl.acm.org/doi/10.1145/3460120.3485378


背景与动机

深度神经网络极易受到对抗样本的安全威胁,围绕对抗样本展开的攻防成为了近年来的人工智能安全领域的研究热点。对抗样本是一种在原始正常样本上添加难以察觉的微小噪声后使得模型产生错误输出的特殊构造的样本,它的出现使得人工智能热潮下深度模型在安全至关重要的场景(如自动驾驶、人脸识别等)的落地受到了质疑和延缓。如图1所示,自动驾驶汽车将加有对抗噪声的停止标志牌错认成限速,从而构成巨大的交通安全威胁。

图1  对抗攻击示例

伴随着对抗攻防的热潮,许多防御措施被提出,包括加固模型、破坏梯度的计算、在推断时检测对抗样本等。然而大多数防御措施后来被验证对更强大或自适应的对抗性攻击无效。

在ACM CCS 2020上有研究者提出了基于“陷阱”的对抗防御(Trapdoor-enabled Defense, TeD),TeD利用后门攻击植入“陷阱”并以此捕获和拦截对抗样本。后门攻击通常通过数据注毒的手段介入模型训练,在不影响模型原有性能的前提下,制造一条从任意输入到特定输出的“捷径”。在防御者向模型中植入此类“捷径”作为“陷阱”后,对抗攻击者在向该受保护的特定输出的优化过程中,往往会陷入此 “陷阱”并呈现出类似的异常的中间特征,从而被防御者捕获。我们提出了一种基于投影的TeD变种(P-TeD),通过移除原始陷阱门特征在目标类别的正常样本的期望方向的投影,使得陷阱门特征和受保护类别的正常样本之间分离更开,从而提高其检测性能。

TeD能够有效地检出多种最先进的对抗攻击,此之前未有能够有效规避该防御的对抗攻击。

图2  基于陷阱的对抗防御(TeD)示意

然而TeD的有效性依赖于:1)针对受保护的目标类别生成的对抗样本大概率被困于TeD所创造的陷阱门捷径中;2)在中间特征空间中,陷阱门与正常样本的特征向量明显可区分。针对TeD并利用其对这两点因素的依赖,我们提出了一种新型黑盒对抗攻击——基于中间特征不可区分性的对抗攻击(Feature-Indistinguishable Attack, FIA),通过在中间特征空间上构造和目标类别中的正常样本不可区分的对抗样本,FIA实现了对TeD的规避。


方法设计

本研究假设防御模型TeD是一个黑盒。另一方面,和传统白盒对抗攻击一样,我们假设DNN模型是一个白盒:攻击者在生成对抗样本时具有该模型完整的访问权限。

基础FIA方案:

基础的FIA方案确保生成的对抗样本和目标类别的正常样本的中间特征同分布。为了实现中间特征同分布的目标,FIA假设一个训练良好的模型的同一类别的正常样本在特征空间中存在凸区域。基于此假设,FIA在中间特征空间中朝着密集聚集的目标类别的正常样本的特征向量的期望值优化,同时约束生成的对抗本与该期望值的余弦距离在阈值之内。式1列举了基础方案的优化问题。

(式1)

优化的第一项保证能够优化到目标类别,而第二项旨在规避TeD。

完整FIA方案:

基本方案可能由于以下原因无法有效规避TeD:1)生成层和检测层之间不匹配;2)过度简化的凸区域假设。为此我们提出了包含两个阶段的完整FIA方案——在准备阶段中,少量的对抗样本由基础方案生成并用来试探TeD以1)调整要优化到的目标和余弦相似度的阈值;2)收集检出的对抗样本作为检出区域,以在生成对抗样本时主动规避;3)倒序依次搜索每一层以确定合适的生成层。具有最小检测率的层被选为生成层,一般来说,该搜索的时间非常短,生成层在搜索一个或少量的层后得以快速确定。式2列举了完整方案的优化问题。

(式2)

其中,前两项沿用基础FIA方案,最后一项是检出区域的规避损失。

图3  基于中间特征不可区分性的对抗攻击(FIA)示意

此外,TeD可以通过多后门和神经元随机采样进行增强。为了应对多后门,我们在准备阶段将完整方案应用多轮,以激活并搜集所有有效的陷阱门特征。每一轮都会产生少量的对抗样本并用以试探TeD,直到检出率低于一个阈值或不再下降为止。为了应对神经元随机采样,我们随机选中多个神经元子集,并与在每个子集上都检查并保证中间特征的不可分性。


实验结果

我们采用了和TeD相同的数据集(包括MNIST、CIFAR10、GTSRB和YouTube Face)和DNN模型(包括一个4层的CNN,一个8层的CNN,ResNet20和ResNet50)对FIA进行了评估。

图4展示了植入单个陷阱门保护单个目标类别的ROC曲线。上下两行分别对应采用原始TeD和基于投影的TeD(P-TeD)的实验结果。从中可以得出以下结论:1)TeD可以有效地检测传统对抗攻击(如C&W和PGD);2)P-TeD比原始TeD有更好的检测性能;2)我们的FIA可以有效规避原始TeD和P-TeD。

图4  用单个陷阱门防御单个类别的ROC曲线

陷阱门特征已知攻击(OSA)是一种白盒攻击,它假设攻击者拥有陷阱门特征的完整知识,通过最大化与已知陷阱门特征的余弦距离同时最小化与目标类别的交叉熵的优化过程来生成对抗样本。图5在多陷阱门和神经元随机采样增强的TeD下比较了我们的FIA和OSA的攻击成功率。从中可以看到,当使用5%的随机采样神经元时,OSA的攻击成功率下降到40%以下,而我们的FIA则保持在80%或以上。

图5  多陷阱门和神经元随机采样增强下的攻击成功率

图6比较了对受TeD保护模型的用FIA和对正常模型用PGD攻击所产生的对抗样本的视觉效果——从视觉感知质量上,FIA相似或略好。

图6  对抗样本示例与比较


总结

本研究首次基于中间特征的不可区分性提出了一种能够有效规避基于陷阱的对抗防御TeD的对抗样本的构造方法FIA——在中间特征空间上对特定类别的正常样本分布进行建模,并将与该分布不可区分作为优化的目标和约束条件构造对抗样本。实验结果证明,FIA能够有效规避原有及各种加强设定下的TeD。FIA为构造更强大的对抗样本提供了新思路。



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复