生成对抗网络

首页版块访问AI主站注册发帖

生成对抗网络

商家的春天发布于2020-08 浏览:2741 回复:2

生成对抗网络

快速回复

StarGANv2: Diverse Image Synthesis for Multiple Domains
论文精读总结（石建国）

论文目标：多领域间的多样化图像转换(image-to-image translation)
（1）生成图像多样化（2）不同域上应具有可扩展性
在生成对抗网络方面主要有三种网络模型，分别是cGAN、CycleGAN和StarGAN，本论文是属StarGAN方面对创新性拓展。在应用中应用到了风格迁移和人脸对齐技术。
作者主要考虑到（1）每个域中的不同风格样式的图像。设计和学习此类模型会变得很复杂，因为数据集中可能有大量的style和domain；（2）目前已有许多图像转换方法，但这些方法大都仅考虑两个域之间的映射。如果有K个域，这些方法需要训练K（K-1）生成器来处理每个域与每个域之间的转换。（3）StarGan缺乏多样性。从以上三个方面出发，作者提出了StarGanv2 网络结构，（1）使用所提出的domain-specific style code替换域标签，前者可表示特定领域的各种风格样式。引入两个模块，一个映射网络mapping network和一个样式编码器style encoder。（2）映射网络学习将随机高斯噪声转换为样式码(style code)，而编码器则学习从给定的参考图像中提取样式码。两个模块都具有多个输出分支，每个分支都提供特定域的样式码，训练时将选取其中对应domain的一个。（3）生成器Generator：将输入图像x转换为G(x,s)，s为样式码style code，可以由映射网络F或者样式编码器E提供。使用adaptive instance normalization (AdaIN) 引入s。（4）生成器Generator：删除了上采样residual blocks中的所有shortcut，并使用基于adaptive wing based heatmap添加了跳跃连接。（5）映射网络Mapping network：网络包括k个输出分支，表示有k个域，给定隐变量z和对应的域y，生成样式码=（）
训练目标如下：
（1）对抗目标adversarial loss
（2）风格重构Style reconstruction4
（3）风格多样性Style diversification
（4）保留源图特性Preserving source characteristics
论文成果如下：
（1）发布了一个新的动物面孔数据集Animal FacesHQ（AFHQ）
（2）其中包括512×512分辨率的15,000张高质量图像。数据集包括猫，狗和野生动物的三个域，每个域提供5000张图像。
量化评价：
（1）Frechétinception distance (FID)衡量真实图像和生成图像之间的差异性通过加载经过预训练的Inception v3模型，使用最后一个池化层的激活函数输出值作为特征向量，计算出真实图像和生成图像在特征层面的距离。FID 越低，图像质量越好；反之，得分越高，质量越差。
（2）Learned perceptual image patch similarity (LPIPS) 衡量生成图像的多样性计算生成图像从预训练的AlexNet中提取的特征之间的距离LPIPS越大，生成图像多样性越高。
数据见表3所示：

生成图像效果如下：