AI智能
改变未来

论文解读:StarGAN v2: Diverse Image Synthesis for Multiple Domains【PaddlePaddle】【论文复现】


论文解读:StarGAN v2: Diverse Image Synthesis for Multiple Domai【PaddlePaddle】【论文复现】

论文地址:https://arxiv.org/pdf/1912.01865.pdf
第一次写博客,可能有些地方有不对的地方,希望大佬们指出错误,互相学习。公式原理什么的就不过多的阐述(这种东西估计也没人想看)

论文要解决的问题

优秀的图像-图像转换模型需要学习不同视觉域之间的映射,要同时满足以下属性:1)生成图像的多样性和 2)在多个域上的可扩展性。现有方法一般只能解决这两个问题的其中一个,即要么对于所有域,其呈现的多样性有限,要么需要使用多个模型。

GAN网络简介

在这里我先简单的介绍一下什么GAN,GAN又被称之为生成对抗网络,其模型如下图所示:

首先我们应该对现在的神经网络模型有个相关的了解,现代神经网络的迅猛发展都是以反向传播算法为基础。我们可以简单的理解神经网络是一个可以不断自动调参的函数,只不过这个函数拥有很多的参数需要调整。生成性对抗网络就是基于此,首先生成对抗网络包含两个部分,一部分是生成器,一部分是判别器。生成器是将产生的随机的向量输入到神经网络,用于生成图片。判别器则是判断生成的图片是否是真实的图片。在这里我们可以将生成的所有的随机向量,理解为一个集合A。所有的真实图片同样存在一个集合B。我们的目的就是将生成器训练成为一个函数,能够实现A—->B的这种映射。

具体实现

这时候我们看StarGAN v2是如何实现生成图像的多样性和在多个域上的可扩展性。
StarGAN v2由四个模块组成。(a)生成器将输入图像转换为反映域特定样式代码的输出图像。(b)映射网络将潜在代码转换为多个域的样式代码,其中一个是在训练期间随机选择的。(c)样式编码器提取图像的样式代码,允许生成器执行参考引导的图像合成。(d)判别器从多个域中区分真实图像和虚假图像。
简单的来讲就是说,第一个网络是将产生的随机向量A映射到一个特征空间B,第二个网络是将特征空间B映射到不同的真实数据集的空间C1,C2,C3,第三个网络则是将真实的数据空间再进行细分为不同的风格,将C分为不同的风格D1,D2,D3。这样网络就可以实现生成图像的多样性和在多个域上的可扩展性。生成的效果如下:
原理是这个原理,代码还是那个代码,感谢大佬的StarGAN v2,让每个人都可以成为女装大佬,还可以实现不同的风格,总有一款适合你。

赞(0) 打赏
未经允许不得转载:爱站程序员基地 » 论文解读:StarGAN v2: Diverse Image Synthesis for Multiple Domains【PaddlePaddle】【论文复现】