今天看到这么一个论文题目“A Novel Framework for Selection of GANs for an Application ”,这名字有、6啊,好久没有出厉害的GAN的变体了吧?新颖的GAN框架?决定下载下来看!引入眼帘的是摘要:
生成对抗网络(GAN)是当前的研究焦点。但由于其知识体系零散,导致在为给定应用场景选择合适GAN模型时可能尝试多次不合适的算法模型。本文从GAN的诞生到发展至今的变体做较全面的总结,包括如何解决模式崩溃,梯度消失,不稳定的训练和不收敛等问题。从应用的角度,对其表现和实现细节方面提供了比较。提出了一个新的框架,在特定场景下,用于从网络架构、损失、正则化手段和散度衡量等方面去辨别备选GAN。通过一个简单示例的讨论,证明可以显著减少GAN的变体搜索空间。这种方法可以降低AI开发成本。
额,这不就是一个综述吗,2333
行吧,都来了,就做个记录吧,新手学习GAN也可概览一波GAN这个领域。【后面的几个表格总结,可以仔细看看~
其实之前也写了两篇综述导读,均有配套相应论文下载:
简介
生成对抗网络(GAN)是基于博弈论构建的一类生成模型。这种模型的典型架构包括两个神经网络-鉴别器和生成器:发生器将输入噪声转换为潜在的高维数据;判别器评估所生成的数据是否源自原始分布。根据结果,生成器学习生成与原始分布相似的样本。
在计算机视觉[2] [3] [4] [5],时序合成[6] [7] [8] [9],自然语言处理[10] [11] [12] [13]等一些领域,GAN是一类可生成多样好、逼真数据的有效手段。它们属于隐式模型[14]。这些模型从学习到的分布中采样生成图像,并不表示出数据样本的潜在分布。与其他显式生成模型相比,GAN具有诸如并行生成,通用逼近,更好的质量,清晰的密度估计以及对样本结构层次的理解等优点。这些特性有助于GAN在深度学习社区中的广泛普及,尤其是在计算机视觉领域。
尽管取得了成功,但GAN仍然难以训练。每次更新网络的任何参数(判别器或生成器)时,都会导致不稳定。当前的研究致力于为各种应用(例如图像和视频生成[15] [16] [17],领域自适应[3] [18] [19] [20],语音合成[21] [22] [23],语义图像编辑[2] [24]等)寻找【稳定的架构,损失和超参数组合】。尽管这些模型在特定应用中获得了有趣的结果,但尚无透彻的共识或研究可用来参考、了解哪种GAN的性能更优。在本文中旨在缓解上述问题,并通过技术框架缩小备选GAN的范围。
本文的组织如下:
第2节定义整个框架:最常用的网络结构、损失函数、正则化和散度方案。
第3节重点介绍了训练GAN时出现的问题,
第4节概述了GAN流行的损失函数。
第5节基于应用、表现和实现等方面进行GAN之间的对比,
第6节通过示例说明了框架的使用。
第7节强调了未来的研究范围,总结。
第6节
以使用CIFAR-10数据集生成图像为应用场景,来说明框架
的使用。考虑到该应用要求生成的质量良好且具有多样性。如果没有本文理清的逻辑框架,就必须搜索爆炸性的组合空间。例如,完成这一任务可能有近5000种潜在的GAN组合:基于网络架构,损失,差异等。而在该框架的帮助下,可以缩小到5-6种候选的GAN。这相当于搜索空间减少了1000倍。为了减少组合搜索空间,提出以下四个问题,答案根据表1-7得出。
1、鉴别器和生成器使用什么网络结构?
根据表1,可选的方案包括全连接、卷积、反卷积网络,或DCGAN的修改。
2、哪些损失函数合适?
在表2-7的应用、实现和表现的详细比较中,有关于在该数据集上的研究细节。由于该应用任务需要多样性和质量良好,所以表格建议使用WGAN-GP,最小二乘LSGAN,RSGAN和SNGAN模型。LSGAN与RSGAN结合可以生成更高质量的图像。正则化模型例如Loss Sensitive GAN和SNGAN展示了更好的泛化能力。
3、GAN是否需要正则化?如果需要,那么哪个有效?
本文研究表明梯度惩罚可以提高图像质量但不能稳定训练。谱归一化与梯度惩罚相比,计算效率更高。【47】表明生成器中的BN可提高模型质量而在鉴别器中使用的话则表现糟糕。
4、GAN是否需要与KL散度不同的衡量方式?如果是,哪儿个最合适?
[48]介绍并尝试了各种方式,包括GAN,Kullback-Leibler和Squared-Hellinger,都可以生成同样逼真的效果。
附上表1-7如下:
Comparison of various GANs