论文标题:Large scale GAN training for high fidelity natural image synthesis
论文复现课程链接:https://aistudio.baidu.com/aistudio/education/group/info/1340
论文链接:https://openreview.net/pdf?id=B1xsqj09Fm
论文主要内容:
论文建立了大规模GAN模型(简称BIGGAN)用于生成高分辨率的、多样的图像,结果表明他们建立的模型在ImageNet上以128x128分辨率进行训练,将原本的Inception Score(IS) 和 Frechet Inception Distance(FID)最好记录分数分别提升到了166.5 and 7.4
论文方法:
1.作者将batch size分别提高到了2倍、4倍、8倍并用了正则化方法来训练模型
从表中第1到4行可以看出batch size从256分别扩大到了512、1024、2048,对应当前IS从52.52增加到了76.85(增加了46%),作者假设假设这个是因为增加batch size会覆盖更多模式,这样会为生成器及判别器提供了一个更好的梯度信息,也就是说,随着batch size增大,模型每次训练都能得到更多,更全面的信息。但这也随之存在一个问题,那就是在数据量不变的情况下batch size的增大会使模型能更快达到更好的性能,但这样容易导致训练崩塌。
从表中第5行开始,作者将模型的宽度(通道数)提高了50%,结果使IS提高了21%,提高模型的广度也会使模型更加复杂但这容易造成过拟合,会降低性能。
2.作者是使用了“截断技巧”(即提前停止训练)来控制生成图片的分辨率和多样性
作者对数据集进行了截断处理,这样提高了样本的质量但会导致样本的多样性降低,从图中可以看出,改变截断阈值,图片的多样性也随之降低
3.作者发现大规模的GAN是不稳定的,使用一些现有技术可以降低不稳定性但是必须以降低图片质量为代价
作者对小规模稳定,大规模不稳定的现象进行了分析,发现权重矩阵前三个奇异值蕴含的有信息最丰富的从图中发现大多数 G 层(左图)具有良好的光谱范式,但有些层表现不佳,光谱范式(图中红色曲线)在整个训练过程中增长,在崩溃时爆炸,D(右图)中光谱噪声更大,但是其他方面表现更好。
论文总结:
论文作者证明了将GAN用于多分类自然图像生成任务时,加大GAN的规模可以显著提高生成的图像的质量,但是在提高规模的同时也要使用一些技巧避免训练时发生一些不稳定现象的情况。
上海
http://xasgkfp.diytrade.com/
https://xasgkfp.diytrade.com/
http://cdfapiao.simplesite.com/
http://xakfp.simplesite.com/