实验室在深度学习安全与过参数神经网络泛化数学理论取得进展
副标题:
鲁棒泛化且最优鲁棒深度学习[1]。深度学习具有固有的安全或鲁邦问题,如何得到可证明安全神经网络是深度学习一个核心问题。我们引入一种训练神经网络的鲁邦优化方法SR-WDRO,即通过Wasserstein距离控制对抗噪声、通过KL散度控制统计误差。我们证明该方法是鲁棒泛化的,即神经网络高概率在整体数据分布的邻域内是准确的。将该学习做为一个Stackelberg博弈,证明其均衡点存在且给出最优鲁棒损失。以上结果提供了一种有效算法,可以在一定条件下实现鲁棒泛化且最优鲁棒深度学习。
过参数化神经网络的泛化性[2]。深度学习最令人惊讶的“谜团”之一是过参数化神经网络具有好的泛化能力,而经典统计学习理论却无法解释这一现象。我们建立了使得经验风险近似最小的神经网络的泛化理论,以此为基础给出了新型样本复杂度:当训练样本数量和网络规模各自独立地充分大时,神经网络具有泛化性,从而为过参数化神经网络的泛化能力建立了理论基础。
[1] S. Liu, Y. Wang, X.S. Gao. Mitigating Robust Overfitting in Wasserstein Distributionally Robust Optimization, ICLR 2025.
[2] L. Yu, Y. Miao, Y. Zhu, X.S. Gao, L. Zhang, Generalizability of Neural Networks Minimizing Empirical Risk Based on Expressive Power, ICLR 2025.