关于对抗样本的思考。
References
深度学习的几何观点(1) - 流形分布定律- bhneo的博客- CSDN博客
学界 | 三维对抗样本的生成方法MeshAdv,成功欺骗真实 …
生成对抗网络简介(包含TensorFlow代码示例)【翻译 …
强化学习在生成对抗网络文本生成中扮演的角色(Role of RL in Text Generation by GAN)(上)
Introduction
对抗样本(Adversarial Examples),这一概念在Szegedy et al. (2014b)中提出:
- 对输入样本故意添加一些人无法察觉的细微的干扰,导致模型以高置信度给出一个错误的输出。
主要的干扰类型有:
- 全图微干扰
- 单像素宏干扰
- 随机图片干扰
所以大体来说,对抗性样本的存在是因为数据维度通常过高,即使考虑所在的子区域,往往还是过高,对整个(数据分布的)空间的搜索是不可行的。在训练样本没有覆盖的区域,无论该区域是否属于数据分布所在的区域,无论模型的capacity够不够,都有出现对抗性样本的可能。尽管深度学习中一直主张
distributed representation
已大幅优于局部泛化,维度的诅咒仍是一个无法摆脱的难题。
风景无限好-广阔的高维空间
雾里看花-手写识别
让我们来看看手写识别的例子:
- 一张手写数字的图片由
28x28
个二值像素(784)组成,训练数据为420k
。
一张示意图片文件如下:(数字6
)
1 | 0000000000000011100000000000 |
我们估算一下图片空间究竟有多大:
- 784个二值像素,则整个图片空间相当于$2^{784}\approx 10^{80}$。
而训练数据有多少呢?
420k
$\approx 10^{5}$。- 只相当于整个图片空间的$\cfrac{1}{10^{75} }$。(几乎可以忽略不计)
这简直退化成为了异常检测问题。因为图片是数字的概率几乎与图片出现某种异常的概率接近。
这就是一个正样本空间相对于总空间极度稀疏的问题了。
首先我们必须认识到,一个$2^{784}\approx 10^{80}$大小的空间容量甚至可以与宇宙的基本粒子总数等量齐观。
天涯海角-欧式距离的膨胀
欧式距离,曼哈顿距离。
继续在图片中沿用欧氏距离度量是非常不明智的,因为相似的图片可以在高维空间中存在极大的欧氏距离。这使得分类器很难产生合理的决策超平面。
心意相通-同余类引理
在深度学习的几何观点(1) - 流形分布定律中提到了:
- 流形分布定律:自然界中同一类别的高维数据,往往集中在某个低维流形附近。
- 聚类分布定律:这一类别中不同的子类对应着流形上的不同概率分布,这些分布之间的距离大到足够将这些子类区分。
如果给的对抗样本集合不符合上述两个定律,即不与原数据构成低维流形,且不聚类。那么理论上,是绝然没有办法可以有效地与对抗样本进行处理的。
因此,给定一个测试样本,首先还要看看它是否是原数据集的一个低位流形拓展。如果不是,那么这个测试数据应当被认为失效。
高维同余类。
在图像处理中,加入同余修正可以大幅提高维度分布对聚类分布定律的适用性。