生成对抗网络
商家的春天 发布于2020-08 浏览:3017 回复:2
1
收藏
快速回复

StarGANv2: Diverse Image Synthesis for Multiple Domains
                           论文精读总结 (石建国)

论文目标:多领域间的多样化图像转换(image-to-image translation)
(1)生成图像多样化 (2)不同域上应具有可扩展性
在生成对抗网络方面主要有三种网络模型,分别是cGAN、CycleGAN和StarGAN,本论文是属StarGAN方面对创新性拓展。在应用中应用到了风格迁移和人脸对齐技术。
作者主要考虑到(1)每个域中的不同风格样式的图像。设计和学习此类模型会变得很复杂,因为数据集中可能有大量的style和domain;(2)目前已有许多图像转换方法,但这些方法大都仅考虑两个域之间的映射。如果有K个域,这些方法需要训练K(K-1)生成器来处理每个域与每个域之间的转换。(3)StarGan缺乏多样性。从以上三个方面出发,作者提出了StarGanv2 网络结构,(1)使用所提出的domain-specific style code替换域标签,前者可表示特定领域的各种风格样式。引入两个模块,一个映射网络mapping network和一个样式编码器style encoder。(2)映射网络学习将随机高斯噪声转换为样式码(style code),而编码器则学习从给定的参考图像中提取样式码。两个模块都具有多个输出分支,每个分支都提供特定域的样式码,训练时将选取其中对应domain的一个。(3)生成器Generator:将输入图像x转换为G(x,s),s为样式码style code,可以由映射网络F或者样式编码器E提供。使用adaptive instance normalization (AdaIN) 引入s。(4)生成器Generator:删除了上采样residual blocks中的所有shortcut,并使用基于adaptive wing based heatmap添加了跳跃连接。(5)映射网络Mapping network:网络包括k个输出分支,表示有k个域,给定隐变量z和对应的域y,生成样式码=( )
训练目标如下:
(1)对抗目标adversarial loss
(2)风格重构Style reconstruction4
(3)风格多样性Style diversification
(4)保留源图特性Preserving source characteristics
论文成果如下:
(1)发布了一个新的动物面孔数据集Animal FacesHQ(AFHQ)
(2)其中包括512×512分辨率的15,000张高质量图像。数据集包括猫,狗和野生动物的三个域,每个域提供5000张图像。
量化评价:
(1)Frechétinception distance (FID)衡量真实图像和生成图像之间的差异性通过加载经过预训练的Inception v3模型,使用最后一个池化层的激活函数输出值作为特征向量,计算出真实图像和生成图像在特征层面的距离。FID 越低,图像质量越好;反之,得分越高,质量越差。
(2)Learned perceptual image patch similarity (LPIPS) 衡量生成图像的多样性计算生成图像从预训练的AlexNet中提取的特征之间的距离LPIPS越大,生成图像多样性越高。
数据见表3所示:

生成图像效果如下:

               
总结:论文对图像生成多样化和在多目标域上的可扩展性进行了分析研究,以StarGAN为例,分析了在多领域进行风格样式转换的方法和可行性,并对该方法的性能进行了量化评估,证明了所使用的方法的有效性。

收藏
点赞
1
个赞
共2条回复 最后由用户已被禁言回复于2022-04
#3wangwei8638回复于2020-08

真真假假

0
#2鹿鼎记肯定回复于2020-08

可以啊

0
TOP
切换版块