实验室在深度学习的数据投毒攻击泛化界、3D点云的数据投毒攻击、基于贝叶斯优化的黑箱对抗攻击方面取得重要进展,3篇论文被机器学习顶会ICML2024接受。
1. 深度学习后门数据投毒攻击的泛化界[1]. 后门攻击是一种数据投毒攻击,其目的是通过在部分训练数据中加入后门(Backdoor Trigger),使得在投毒数据上训练的深度神经网络在干净数据上任然具有很好的预测精度,但是在包含后门的数据上给出攻击者所希望的预测。已有关于后门投毒攻击的工作主要是基于实验的,其数学理论尚未建立。本工作通过建立后门数据投毒攻击泛化界首次建立了数据投毒攻击的数学理论。具体讲,给出了干净标签后门攻击的算法无关的泛化边界,包括(1)泛化误差可以被投毒数据上的经验误差与模型空间的复杂性限制,(2)投毒数据的总体误差可以被投毒数据上的交叉熵风险与模型空间的复杂性限制。基于这些理论结果,提出了一种新的干净标签后门攻击,该攻击通过结合对抗性噪声(adversarial)和快捷噪声(shortcuts)生成投毒数据。
2. 3D点云的可用性数据投毒攻击 [2]. 可用性攻击(Availability Attack) 是一种数据投毒攻击,其目的是通过对训练数据进行不易察觉的修改,使得在投毒数据上训练的深度神经网络失去可预测性。可用性攻击可用于数据隐私保护,防止未经授权的深度模型非法学习数据。本工作发现,2D图像的可用性攻击不能直接用于3D点云。为解决该问题,我们提出了特征碰撞误差最小化(FC-EM)方法,证明了FC-EM攻击的有效性,并在典型点云数据集、三维颅内动脉瘤医学数据集和三维人脸数据集上进行大量实验验证了方法的优越性和实用性。
3. 基于函数先验贝叶斯优化的黑箱对抗攻击 [3]. 黑箱对抗性攻击是指将神经网络模型作为一个黑箱,仅使用其对查询的输出,生成针对黑箱模型的对抗样本。本工作提出了一种先验引导贝叶斯优化(P-BO)算法,利用代理模型作为黑箱对抗性攻击的全局函数先验,进一步提出了一种自适应积分策略,通过最小化遗憾界来自动调整函数先验上的系数。在图像分类器和大型视觉语言模型(ViT)上进行的大量实验表明,与基线方法相比,所提出的算法在减少查询和提高攻击成功率方面具有优势。
[1] Lijia Yu, Shuang Liu, Yibo Miao, Xiao-Shan Gao, Lijun Zhang. Generalization Bound and New Algorithm for Clean-Label Backdoor Attack. ICML 2024.
[2] Yifan Zhu, Yibo Miao, Yinpeng Dong, Xiao-Shan Gao. Toward Availability Attacks in 3D Point Clouds. ICML 2024.
[3] Shuyu Cheng, Yibo Miao, Yinpeng Dong, Xiao Yang, Xiao-Shan Gao, Jun Zhu. Efficient Black-box Adversarial Attacks via Bayesian Optimization Guided by a Function Prior.
ICML 2024.