思维之海

——在云端,寻找我的星匙。

关于对抗样本的思考

关于对抗样本的思考。

References

对抗样本Adversarial Examples - 知乎

一文详解深度神经网络中的对抗样本与学习| 雷锋网

对抗样本的基本原理| 雷锋网

深度学习的几何观点(1) - 流形分布定律- bhneo的博客- CSDN博客

学界 | 三维对抗样本的生成方法MeshAdv,成功欺骗真实 …

生成对抗网络简介(包含TensorFlow代码示例)【翻译 …

强化学习在生成对抗网络文本生成中扮演的角色(Role of RL in Text Generation by GAN)(上)

GAN+文本生成:让文本以假乱真

Introduction

对抗样本(Adversarial Examples),这一概念在Szegedy et al. (2014b)中提出:

  • 对输入样本故意添加一些人无法察觉的细微的干扰,导致模型以高置信度给出一个错误的输出。

主要的干扰类型有:

  • 全图微干扰
  • 单像素宏干扰
  • 随机图片干扰

所以大体来说,对抗性样本的存在是因为数据维度通常过高,即使考虑所在的子区域,往往还是过高,对整个(数据分布的)空间的搜索是不可行的。在训练样本没有覆盖的区域,无论该区域是否属于数据分布所在的区域,无论模型的capacity够不够,都有出现对抗性样本的可能。尽管深度学习中一直主张distributed representation已大幅优于局部泛化,维度的诅咒仍是一个无法摆脱的难题。

风景无限好-广阔的高维空间

雾里看花-手写识别

让我们来看看手写识别的例子:

  • 一张手写数字的图片由28x28个二值像素(784)组成,训练数据为420k

一张示意图片文件如下:(数字6

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
0000000000000011100000000000
0000000000000111111000000000
0000000000111111111110000000
0000000000111111111110000000
0000000011111111000000000000
0000000111111100000000000000
0000000111110000000000000000
0000001111110000000000000000
0000000111110000000000000000
0000001111110000000000000000
0000001111100000000000000000
0000001111000001111000000000
0000001111100011111110000000
0000011111101111111111000000
0000011111111111111111110000
0000011111111111111111110000
0000011111111110001111110000
0000001111111110000111111000
0000001111111100000011111000
0000011111110000000001111000
0000001111100000000001111000
0000000111110000000000111100
0000000111111000000001111100
0000000111111000000011111100
0000000011111111111111111000
0000000000111111111111111000
0000000000001111111111100000
0000000000000000111000000000

我们估算一下图片空间究竟有多大:

  • 784个二值像素,则整个图片空间相当于$2^{784}\approx 10^{80}$。

而训练数据有多少呢?

  • 420k$\approx 10^{5}$。
  • 只相当于整个图片空间的$\cfrac{1}{10^{75} }$。(几乎可以忽略不计)

这简直退化成为了异常检测问题。因为图片是数字的概率几乎与图片出现某种异常的概率接近。

这就是一个正样本空间相对于总空间极度稀疏的问题了。

首先我们必须认识到,一个$2^{784}\approx 10^{80}$大小的空间容量甚至可以与宇宙的基本粒子总数等量齐观。

天涯海角-欧式距离的膨胀

欧式距离,曼哈顿距离。

继续在图片中沿用欧氏距离度量是非常不明智的,因为相似的图片可以在高维空间中存在极大的欧氏距离。这使得分类器很难产生合理的决策超平面。

心意相通-同余类引理

深度学习的几何观点(1) - 流形分布定律中提到了:

  • 流形分布定律:自然界中同一类别的高维数据,往往集中在某个低维流形附近。
  • 聚类分布定律:这一类别中不同的子类对应着流形上的不同概率分布,这些分布之间的距离大到足够将这些子类区分。

如果给的对抗样本集合不符合上述两个定律,即不与原数据构成低维流形,且不聚类。那么理论上,是绝然没有办法可以有效地与对抗样本进行处理的。

因此,给定一个测试样本,首先还要看看它是否是原数据集的一个低位流形拓展。如果不是,那么这个测试数据应当被认为失效。

高维同余类。

在图像处理中,加入同余修正可以大幅提高维度分布对聚类分布定律的适用性。