ON THE INTEGRITY OF DEEP LEARNING SYSTEMS IN ADVERSARIAL SETTINGS

未来工作

这个架构可以用于监督学习也可以用于非监督学习，但目前只能用于前馈神经网络，不能用于循环神经网络
探索在更多对抗设置中的攻击

研究现状

攻击测试时间 - 探索性攻击[2] - 不会篡改目标模型，而是要么直接行为不端或者只是简单地使用攻击来收集关于模型特征的证据。这是我们在本手稿的前几章中所描述的攻击类型。 Biggio等人[6]在测试时引入了对二进制分类器（例如用于检测）的攻击，并将恶意样本分类为良性的目标考虑为攻击者。假设对手具有（至少部分）目标分类器的知识。他们将对手的攻击策略制定为一个最小化问题，以找到最接近敌对目标的归类为良性的输入（归类为恶意）。为了帮助处理非线性和潜在的非凸性问题，他们使用了一种启发式方法来支持合法点集合（称为模仿）的密集区域中的攻击点。他们使用单个隐藏层对线性分类器，SVM和低维神经网络进行攻击。同样假设目标分类器的知识，Fogla等人详细描述了一个多态混合攻击来规避网络异常检测系统[24,25]。他们的攻击是基于将入侵检测系统建模为常规语法，并发现该语法所接受的突变攻击实例。生成这样的实例是一个NP完全问题，但作者表明，可以找到接近最优的解决方案，使用减少SAT可满足性问题及其相关的求解器