Large scale GAN training for high fidelity natural image synthesis

问题

GAN生成图像的过程是一个敏感的过程。虽然相比于VAE，其优化目标从Elmo最优损失函数的一个下界，变为直接优化生成结果和目标之间差异损失本身，直觉上是一种更好的方法，但是由于动态地交叉训练生成器与判别器，导致对网络设计、训练方法、参数设置等非常敏感。

尽管有研究表明在经验和理论上，获得了在多种设置中可以实现稳定训练的结论。但是GAN生成网络的效果始终有点差强人意。

当前在Image Net建模上的最佳结果仅达到了52.5的IS，而真实数据有233的IS。

Is( inception score)：用来衡量GAN网络的两个指标: 生成图片的质量和多样性

entropy = -sum(p_i * log(p_i))

The conditional probability captures our interest in image quality.

KL (C || M) : KL divergence = p(y|x) * (log(p(y|x)) – log(p(y)))

The average of the KL divergence for all generated images. C for conditional and M for marginal distributions.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# calculate inception score in numpy
from numpy import asarray
from numpy import expand_dims
from numpy import log
from numpy import mean
from numpy import exp
 
# calculate the inception score for p(y|x)
def calculate_inception_score(p_yx， eps=1E-16):
	# calculate p(y)
	p_y = expand_dims(p_yx.mean(axis=0)， 0)
	# kl divergence for each image
	kl_d = p_yx * (log(p_yx + eps) - log(p_y + eps))
	# sum over classes
	sum_kl_d = kl_d.sum(axis=1)
	# average over images
	avg_kl_d = mean(sum_kl_d)
	# undo the logs
	is_score = exp(avg_kl_d)
	return is_score
但是有一个缺陷，概率计算是建立在Inception数据集限制的1000种类别中的，不在其中的类别则无法评估，同时要达到较好的效果，计算score时，不同类别中的数据分布最好是比较均匀的。

《Large scale GAN training for high fidelity natural image synthesis》的研究正是探索生成效果的一项成果，作者成功地将GAN生成图像和真实图像之间的保真度和多样性gap大幅降低。

方法

高分辨率能够带来更为真实的生成图像，在这样的思想的指导下，本论文结合了GAN的各种新技术，并且分析了训练难的原因，最后提出自己的模型。

本文展示了GAN可以从训练规模中显著获益，并且能在参数数量很大和八倍Batch size于之前最佳结果，的条件下，仍然能以2倍到4倍的速度进行训练。

作者引入了两种简单的生成架构变化，提高了可扩展性，并修改了正则化方案以提升conditioning，通过实验说明了这样可以提升性能。

这篇论文没有提出新的模型，只是将原有的GAN的模型：

用8倍原有的batch size大小
将隐层的变量数量扩充到原有模型的4倍

训练获得了很好的图片生成的效果。与此同时，在扩充了变量数量和 batch size大小后，模型出现了不稳定的现象。

文章中对出现的不稳定现象，采用现有的比较有效的稳定训练GAN的方法，但是文中发现这样确实会稳定GAN的训练，但是同时会栖牲生成图片的质量。

实验结果

研究表明按8的倍数增加批大小可以将当前最佳的IS提高46%。

研究者假设这是由于每个批量覆盖了更多的模式，为生成器和鉴别器都提供了更好的梯度信息。

这种扩扆带来的值得注意的副作用是，模型以更少的迭代次数达到了更好的性能，但变得不稳定并且遭遇了完全的训练崩溃。

因此在实验中，研究者在崩溃刚好发生之后立刻停止训练，并从之前保存的检查点进行结果报告。

增加了每个层50%的宽度(通道数量)，进一步的21%的IS提升。

生成器和鉴别器中的参数数量几乎翻倍。研究者假设这是由于模型相对于数据集复杂度的容量的增加。将深度翻倍，在ImageNet Based模型上，反而会降低性能。

其他技巧

截断技巧

生成器的随机噪声输入一般使用正态分布或者均匀分布的随机数。

本文采用了截断技术，对正态分布的随机数进行截断处理，实验发现这种方法的结果最好。

对此的直观解释是，如果网络的随机噪声输入的随机数变动范围越大，生成的样本在标准模板上的变动就越大，因此样本的多样性就越强，但真实性可能会降低。

首先用截断态分布N（0，1）随机数产生噪声向量Z，具体做法是如果随机数超出一定范围，则重新采样，使得其落在这个区间里。

这种做法称为截断技巧：向量Z的模超过某一指定阈值的随机数进行重釆样，这样可以提高单个样本的质量，但代价是降低了样本的多样性。

实验后分析

生成器的不稳定性

本文着重对小规模时稳定，大规模时不稳定的问题进行分析。

实验中发现，权重矩阵的前3个奇异值σ0，σ1，σ2蘊含的信息最丰富。

在训练中，G的大部分层的谱范数都是正常的，但有一些是病态的，这些谱范数随着训练的进行不断的增长，最后爆炸，导致训练坍塌。

结论

本文证明了将GAN用于多类自然图像生成任务时，加大模型的规模可以显著的提高生成的图像的质量，对生成的样本的真实性和多样性都是如此。
通过使用一些技巧，本文提出的方法的性能较之前的方法有了大度的提高。
另外，还分析了大规模GAN在训练时的机制，用它们的权重矩阵的奇异值来刻画它们的稳定性。
讨论了稳定性和性能即生成的图像的质量之间的相互作用和影响

参考链接：

百度论文复现课程：https://aistudio.baidu.com/aistudio/education/group/info/1340

Notes DL

gan

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

神经网络normalization 上一篇

C++ Project使用外部库下一篇