本文为论文 Generative Adversarial Nets 的翻译文
论文原文链接: https://arxiv.org/abs/1406.2661
Ian J. Goodfellow∗, Jean Pouget-Abadie†, Mehdi Mirza, Bing Xu, David Warde-Farley,
Sherjil Ozair‡, Aaron Courville, Yoshua Bengio§
Departement d’informatique et de recherche op´ erationnelle´
Universite de Montr´ eal´
Montreal, QC H3C 3J7´
摘要
我们提出了一个通过对抗过程来估计生成模型的新框架,在该框架中,我们同时训练两个模型:一个捕获数据分布的生成模型 G,一个判别模型 D,估计样本来自训练数据而不是 G的概率。G 的训练过程是最大化 D 出错的可能性。此框架相当于一个极小化极大的双方博弈。在任意函数G 和 D的空间中,存在一种独特的解决方案,G恢复的训练数据分布,D在任何位置每次都等于1/2 。在G和D由多层感知器定义的情况下,整个系统可以通过反向传播进行训练。在训练或生成样本期间,无需任何马尔科夫链或展开的近似推理网络。实验通过对生成的样本进行定性和定量评估,证明了该框架的潜力。
1 简介
深度学习的承诺是发现丰富的分层模型 [2],这些模型表示人工智能应用中遇到的数据类型(如自然图像、包含语音的音频波形)和自然语言中的符号。到目前为止,深度学习最明显的成功主要是判别模型,通常是那些将高维、丰富的感官输入映射到类标签[14,20]的模型。这些惊人的成功主要基于反向传播和dropout算法,使用分段线性单元[17,8,9],具有特别表现良好的梯度。深度“生成”模型的影响较小,因为逼近许多棘手的概率计算的困难出现在了极大似然估计和相关策略中,以及利用生成上下文中的分片线性单元的优势的困难。我们提出了一种新的生成模型估计程序,可以回避这些困难。 1
在建议的对抗网络框架中,生成模型与一个对手竞争:一种判别模型,用于学习和确定样本是来自模型分布还是数据分布。生成模型可以被认为是类似于一个团队的造假者,试图生产假货币,并且没有检测就使用它,而判别模型类似于警察,试图检测假币。这个游戏的竞争驱使两支队伍改进他们的方法,直到假货无法与真货区分。
该框架可以产生多种模型和优化算法的特定训练算法。在本文中,我们探讨了生成模型通过多层感知机传递随机噪声生成样本的特殊情况,而判别模型也是多层感知机。我们把这个特殊情况称为“对抗网络”。在这种情况下,我们可以只使用高度可分离的反向传播和dropout算法 [16] 训练两个模型,并且仅使用正向传播从生成模型采样。无需近似推论或马尔科夫链。
2 相关工作
直到最近,大多数深度生成模型的工作都集中在模型上,这些模型提供了概率分布函数的参数化规范。然后,可以通过最大化对数似然来训练模型。在这个系列的模型,也许最成功的是深度玻尔兹曼机[25]。这种模型具有难以处理的似然函数,因此需要大量近似的似然梯度。这些困难促使了”生成机器”的开发——这些模型没有明确表示可能性,但可以从所需的分布中生成样本。生成随机网络 [4] 是生成机器的一个示例,可以通过精确的反向传播进行训练,而不是使用玻尔兹曼机器所需的大量近似值进行训练。通过消除生成随机网络中使用的马尔科夫链,扩展了生成机器的概念。
我们的工作通过生成过程反向传播衍生物,通过使用观察,
–
\( \mathop{lim}\limits_{\sigma \rightarrow 0}{ \bigtriangledown _x \mathbb{E}_{ \epsilon \sim N(0,\sigma^2 I)}f(x+\epsilon) }=\bigtriangledown_x f(x).\)
我们当时并不知道我们发展了金玛和韦林[18]和雷赞德等人的工作[23],他们已经开发了更一般的随机反向传播规则,允许一个人通过具有有限方差的高斯分布反向传播,并反向传播到协方差参数和平均值。这些反向传播规则可以允许人们了解生成器的条件方差,我们在这项工作中将其视为超参数。金玛和韦林[18]和雷赞德等人。[23] 使用随机反向传播来训练可变自动编码器 (VAEs)。与生成对抗网络一样,可变自动编码器将可区分的生成器网络与第二个神经网络配对。与生成对抗网络不同,VAE 中的第二个网络是执行近似推理的识别模型。GAN 需要通过可见单元进行区分,因此无法对离散数据进行建模,而 VAEs 需要通过隐藏单元进行区分,因此不能具有离散的潜在变量。其他类似VAE的方法也有[12,22],但与我们的方法不太密切。
以前的工作也采用了使用判别标准来训练生成模型的方法[29,13]。这些方法使用的标准是难以解决的深度生成模型。这些方法甚至很难近似于深度模型,因为它们涉及概率比率,无法使用低约束概率的变异近似值进行近似。噪声对比估计(NCE)[13]包括通过学习权重,使模型可用于区分固定噪声分布数据,来训练生成模型。使用以前训练的模型作为噪声分布,可以训练一系列增加质量 y 的模型。这可以被看作是一种非正式的竞争机制,在精神上类似于对抗性网络游戏中使用的正式竞争。NCE 的主要限制是其”判别器”由噪声分布和模型分布的概率密度的比率定义,因此需要通过这两个密度进行评估和反向传播的能力。
以前的一些工作已经使用了两个神经网络竞争的一般概念。最相关的工作是可预见性最小化[26]。在可预测性最小化中,神经网络中的每个隐藏单元被训练为不同于第二个网络的输出,该输出根据所有其他隐藏单元的值预测该隐藏单元的值。 这一点与可预见性最小化有三个重要方面的不同:1)在这项工作中,网络之间的竞争是唯一的训练标准,并且本身足以训练网络。可预见性最小化只是一个正则器,它鼓励神经网络的隐藏单元在完成其他任务时是统计上独立的;它不是主要的训练标准。2)竞争是不同的。在可预测性最小化中,比较两个网络的输出,一个网络试图使输出相似,另一个网络试图使输出不同。问题的输出是单尺度的。在 GAN 中,一个网络生成一个丰富的高维向量,用作另一个网络的输入,并尝试选择另一个网络不知道如何处理的输入。3)这个过程是不同的。可预测性最小化被描述为一个优化问题,目标函数会被最小化,学习接近目标函数的最小值。GAN 基于最小化最大游戏而不是优化问题,并且具有一个代理寻求最大化,另一个代理寻求最小化的值函数。这个游戏在一个鞍点上结束,这是相对来说,一个玩家的最小值,另一个玩家的最大值。
生成对抗网络有时会与”对抗样本”的相关概念混淆[28]。对抗样本是直接在分类网络输入上使用基于梯度的优化找到的样本,以便查找与数据相似但分类错误的样本。这与目前的工作不同,因为对抗样本不是训练生成模型的机制。相反,对抗样本主要是一种分析工具,用于以有趣的方式展示神经网络的表现,通常自信地以高置信度的方式对两个图像进行不同的分类,即使它们之间的区别是人类观察者无法察觉的。这种对抗样本的存在确实表明,生成对抗网络的训练可能效率低下,因为它们表明,使现代判别网络自信地识别一个类别,而不用效仿人类那种感知属性,是很可能的。
3 对抗网络
当模型都是多层的感知器时,对抗模型框架是最直接的。为了了解生成器在数据 x上的分布pg,我们先对输入噪声变量pz( z)定义一个先验,表示到数据空间的映射作为 G(z; [g)》,其中 G是一个可区分的函数,由具有参数 μ g 的多层感知器表示。我们还定义了第二个输出一个标量的多层感知器D(x;θ d )。D(x)表示x 来自数据而不是 pg的概率。 我们训练 D以最大化为训练样本和来自 G的样本分配正确标签的概率。我们同时训练G以尽量最小化log(1 – D(G(z))。换句话说,D和G玩以下具有值函数V (G,D)的两人最小化最大值游戏:
–\( \min\limits_{G} \max\limits_{D} V(D,G)=\mathbb{E}_{x \sim p_{data}(x)} [log D(x)] + \mathbb{E}_{z \sim p_z(z)} [log (1-D(G(z)))]. \tag{1}\)
在下一节中,我们将对对抗网络进行理论分析,主要表明训练标准允许恢复生成分布的数据,因为G 和 D 具有足够的容量,即非参数限制。有关该方法的不太正式、更具教学意义的解释,请参阅图 1。在实践中,我们必须使用迭代的数值方法实现游戏。在竞争的内部循环中优化 D 到完成在计算上是令人望而却步的,在有限数据集上将导致过度拟合。相反,我们在优化D 的 k 步和优化G的一个步之间交替。这将导致 D 保持在其最佳解决方案附近,只要 G 变化足够缓慢。该过程在算法 1 中正式呈现。
实际上,方程 1 可能无法为 G 提供足够的梯度来学习。在学习的早期,当G不好时,D可以高信心地拒绝样本,因为它们与训练数据的区别很明显。在这种情况下,log(1 + D(G(z)) ) 饱和。我们可以训练 G 以最大化logD(G(z)),而不是训练G 最小化log( 1+ D(z) ) – D(G(z)).此目标函数产生相同的动态G 和 D的固定点,却在学习早期提供了更强的梯度。
4 理论结果
生成器G隐式定义概率分布 pg作为当z = p时获得的样本G(z) 的分布。因此,如果给出足够的容量和训练时间,我们希望算法1收敛到pdata 的好估计。本节的结果在非参数设置中完成,例如,通过研究概率密度函数空间中的收敛,我们表明模型具有无限容量。
我们将在第 4.1 节中显示,此 minimax 游戏具有 pg = pdata全局最佳值。然后,我们将在第 4.2 节中展示算法 1 优化 Eq 1,从而获得所需的结果。
下面的水平线是从中采样 z的区域,在这种情况下是均匀的。上面的水平线是 x 域的一部分,向上箭头显示映射x = G(z)如何在转换后的样本上施加非均匀的分布 pg。G在pg高密度区域收缩,并在 p g 的低密度区域扩展。(a) 考虑接近收敛的对抗对:p g与pdata相似,D 是部分准确的分类器。 (b)在算法D的内部循环中,D 被训练从数据中区分样本,并收敛到
–\( D^*(x)= \frac{p_{data}(x)}{p_{data}(x)+p_g(x)} \tag{2}\)
(c) 在更新G后,D的梯度引导G(z)流向更有可能被分类为数据的区域。(d) 经过若干步的训练后,如果G和D有性能足够,它们将达到一个点,两者都不能继续改善,因为p g = pdata。判别器无法区分训练数据的分布和生成数据的分布,即\(D(x)=\frac{1}{2}\)。
算法1 生成对抗网络的minibatch随机梯度下降训练。应用于判别器 k的步骤数是一个超参数。我们在实验中使用了k= 1,这是成本最低的选择。 |
for number of training iterations do for k step do • 在噪声先验分布为 pg(z)的m个 噪声样本[z(1),…,z(m)]中采集一个minibatch。 • 在数据分布为pdata(x)的m个训练样本 [x( 1),…x(m)]中采集一个minibatch。 • 通过随机梯度上升来更新判别器: \(\bigtriangledown_{\theta_d} \frac{1}{m} \sum\limits_{i=1}^m{[\log D(x^{(i)}) + \log (1-D(G(z^{(i)})))]}\). end for • 在噪声先验分布为pg(z)的m 个噪声样样本[z(1),…,z(m)] 中采集一个minibatch。 • 通过通过随机梯度下降来更新生成器: \(\bigtriangledown_{\theta_g} \frac{1}{m} \sum\limits_{i=1}^m {\log(1-D(G(z^{(i)})))}\). end for 基于梯度的更新可以使用任何基于梯度的标准学习规则。我们在实验中使用了动量。 |
4.1 pg = pdata 的全局最优性
我们首先考虑任意给定生成器G的最优判别器D。 命题1.G 是固定的,最佳判别器D 是
–\( D^*_G(x)=\frac{p_{data}(x)}{p_{data}(x)+p_g(x)} \tag{2}\)
证明。任何生成器G,判别器 D 的训练标准是最大化目标函数V (G,D)
\(\tag{3}\)
对于任何(a,b) = \(\mathbb{R}\)2 \ {0,0},函数y → log(y)= b log(1 | y) 在\([0,1]中的 \frac{a}{a+b}\)处达到其最大值。 判别器不需要在Supp(pdata)和 Supp(pg)之外定义,完成证明。
请注意,D 的训练目标可以解释为条件概率P(Y = y | x)最大似然估计,当y=1时,x来自于pdata;当y=0时,x来自pg。公式 1 中的极小化极大问题现在可以变形为:
定理1. 当且仅当pg=pdata时, C(G)达到全局最小。此时, C(G)的值为−log4。
证明:pg=pdata时,D∗G(x)=1/2(公式2)。再根据公式4可得,C(G)=log1/2+log1/2=−log4。为了看仅当pg=pdata时C(G)是否是最优的,观测:
\( \mathbb{E}_{x\sim p_{data}} [\log2 ] = \mathbb{E}_{x \sim p_g} [\log2 ]=-\log 4 \).
通过从C(G)= V (D* G ,G)中减去上式,我们得到:
\(\tag{5}\)
其中KL为Kullback–Leibler散度。我们在表达式中识别出了模型判别和数据生成过程之间的Jensen–Shannon散度:
\( C(G) = −\log(4) + 2 · JSD(p_{data} \| p_g ) \tag{6}\)由于两个分布之间的Jensen–Shannon散度总是非负的,并且当两个分布相等时,值为0。因此C∗=−log(4)为C(G)的全局极小值,并且唯一解为pg=pdata,即生成模型能够完美的复制数据的生成过程。
4.2 算法 1 的收敛性
命题2. 如果G和D有足够的性能,对于算法1中的每一步,给定G时,判别器能够达到它的最优,并且通过更新pg来提高这个判别准则。
–\(\mathbb{E}_{x \sim p_{data}} [\log D^*_G(x)] + \mathbb{E}_{x \sim p_g}[\log(1-D^*_G(x))]\)
然后pg 收敛到 pdata。
证明. 将V (G, D)= U(pg,D)视为pg 的函数,如上述标准所示。请注意, U(pg,D)在pg中是凸的. 该凸函数上确界的一次导数包括达到最大值处的该函数的导数。换句话说,如果\(f(x)=sup_{α∈A}{f_α(x)}\)且对于每一个α,fα(x) 是关于x的凸函数,那么如果 \( β=\arg \mathop{sup}_{α∈A}f_α(x) \) ,则∂fβ(x)∈∂f。这等价于给定对应的G和最优的D,计算pg的梯度更新。如定理1所证明,\(sup_{D}U(p_g,D)\)是关于pg的凸函数且有唯一的全局最优解,因此,当pg的更新足够小时,pg收敛到px,证毕。
实际上,对抗的网络通过函数G(z;θg)表示pg分布的有限簇,并且我们优化θg而不是pg本身。使用一个多层感知机来定义G在参数空间引入了多个临界点。然而,尽管缺乏理论证明,但在实际中多层感知机的优良性能表明了这是一个合理的模型。
模型 | MNIST | TFD |
DBN[3] | 138 \( \pm \) 2 | 1909\( \pm \)66 |
堆叠式 CAE [3] | 121 \( \pm \) 1.6 | 2110 \( \pm \) 50 |
深 GSN [5] | 214 \( \pm \) 1.1 | 2890 \( \pm \) 29 |
对抗网络 | 225 \( \pm \) 2 | 2057 \( \pm \) 26 |
表1.基于Parzen窗口的对数似然估计。MNIST上报告的数字是测试集上的平均对数似然以及在样本上平均计算的标准误差。在TFD上,我们计算数据集的不同折之间的标准误差,在每个折的验证集上选择不同的σ。在TFD上,在每一个折上对σ进行交叉验证并计算平均对数似然函数。对于MNIST,我们与真实值(而不是二进制)版本的数据集的其他模型进行比较
5 实验
我们在一系列数据集上训练了对抗网络,包括MNIST、多伦多人脸数据库(TFD)和CIFAR-10。生成器的激活函数包括修正线性激活(ReLU)和sigmoid 激活,而判别器使用maxout激活。Dropout被用于判别器网络的训练。虽然理论框架可以在生成器的中间层使用Dropout和其他噪声,但是这里仅在生成网络的最底层使用噪声输入。
我们将测试集数据在pg下的概率估计,将高斯 Parzen 窗口拟合到使用 G 生成的样本,并计算此分布下的对数似然。高斯的σ参数是通过对验证集的交叉验证获得的。这一程序是由Breuleux等人中引入的,并用于各种不同的似然难解的生成模型上,结果在表 1 中报告。该方法估计似然的方差较大且高维空间中表现不好,但确实目前我们认为最好的方法。生成模型的优点是可采样而不直接估计似然,从而促进了该模型评估的进一步研究。在图 2 和图 3 中,我们显示了训练后从生成网络中提取的样本。尽管我们不声称这些样本比现有方法生成的样本更好,但我们相信这些样本至少与文献中更好的生成模型相比具有竞争力,并突出了对抗性框架的潜力。
图2. 来自模型的样本的可视化。最右边的列示出了相邻样本的最近训练样本,以便证明该模型没有记住训练集。样品是完全随机抽取,而不是精心挑选。与其他大多数深度生成模型的可视化不同,这些图像显示来自模型分布的实际样本。此外,这些样本是完全不相关的,因为,采样过程并不依赖马尔科夫链混合。a) MNIST;b) TFD;c) CIFAR-10(全连接模型);d) CIFAR-10(卷积判别器和“解卷积”生成器)
图3. 通过在完整模型的z空间的坐标之间进行线性内插获得的数字。
6 优点和缺点
新框架相比以前的模型框架有其优缺点。缺点主要为pg(x)的隐式表示,且训练期间,D和G必须很好地同步(尤其,不更新D时G不必过度训练,为避免“Helvetica情景”。否则,x值相同时G丢失过多z值以至于模型pdata多样性不足),正如Boltzmann机在学习步间的不断更新。其优点是无需马尔科夫链,仅用反向传播来获得梯度,学习间无需推理,且模型中可融入多种函数。表2总结了生成对抗网络与其他生成模型方法的比较。
深度定向图形模型 | 深度无向图形模型 | 生成自动编码器 | 对抗模型 | |
训练 | 训练期间需要推理 | 训练期间需要推理 MCMC需要近似分区函数的梯度 | 混合和生成器之间的强制权衡 重新生成 | 将判别器与生成器同步 |
推理 | 已学到近似推理 | 变异推理 | 基于MCMC推理 | 已学到近似推理 |
采样 | 无困难 | 需要马尔可夫链 | 需要马尔可夫链 | 无困难 |
评估p(x) | 难以解决,可以近似 | 难以解决,可以近似 | 非明确表示,可以近似于parzen密度估计 | 非明确表示,可以近似于paren密度估计 |
模型设计 | 模型需要设计为使用所需的推理方案 – 某些推理方案支持与 GAN 类似的模型系列 | 需要仔细设计以确保多个属性 | 理论上允许任何可区分的功能 | 理论上允许任何可区分的功能 |
表 2. 生成建模方面的挑战:对涉及模型的每个主要操作的深层生成建模的不同方法所遇到的困难的摘要。
上述优势主要在计算上。对抗的模型也可能用数据实例,仅用流过判别器的梯度,从间接更新的生成模型中获得一些统计优势。这意味输入部分未直接复制进生成器的参数。对抗的网络的另一优点是可表示很尖,甚至退化的分布,而基于马尔科夫链的方法为混合模式而要求模糊的分布。
7 结论及今后工作
此框架允许许多直接扩展:
- 条件生成模型p(x∣c)可以通过将c作为G和D的输入来获得。
- 给定x,可以通过训练一个任意的模型来学习近似推理,以预测z。这和wake-sleep算法训练出的推理网络类似,但是它具有一个优势,就是在生成器训练完成后,这个推理网络可以针对固定的生成器进行训练。
- 能够用来近似模型所有的条件概率p(xS∣xS̸),其中S通过训练共享参数的条件模型簇的关于x索引的一个子集。本质上,可以使用生成对抗网络来随机拓展MP-DBM。
- 半监督学习:当标签数据有限时,判别网络或推理网络的特征不会提高分类器效果。
- 效率改善:为协调G和D设计更好的方法,或训练期间确定更好的分布来采样z,能够极大的加速训练。
本文论证了对抗性建模框架的可行性,表明这些研究方向是有用的。
答谢
我们要感谢帕特里斯·马科特、奥利维尔·德拉洛、赵京贤、纪洛姆·阿兰和杰森·约辛斯基进行的有益的讨论。扬·道芬与我们分享了他的Parzen窗口评估代码。我们要感谢Pylearn2[11]和Theano[6,1]的开发者,特别是弗雷德·埃里克·巴斯蒂安,他特意为这个项目而紧急使用Theano功能。Ar- naud Bergeron 为 LATEX 排版提供了急需的支持.我们还要感谢CIFAR,加拿大研究院主席的资助,以及计算加拿大和魁北克计算所提供的计算资源。Ian Goodfellow 获得 2013 年 Google 深度学习奖学金的支持。最后,我们要感谢勒特罗斯·布拉瑟斯激发了我们的创造。
参考文献
- Bastien, F., Lamblin, P., Pascanu, R., Bergstra, J., Goodfellow, I. J., Bergeron, A., Bouchard, N., and Bengio, Y. (2012). Theano: new features and speed improvements. Deep Learning and Unsupervised Feature Learning NIPS 2012 Workshop.
- Bengio, Y. (2009). Learning deep architectures for AI. Now Publishers.
- Bengio, Y., Mesnil, G., Dauphin, Y., and Rifai, S. (2013). Better mixing via deep representations. In ICML’13.
- Bengio, Y., Thibodeau-Laufer, E., and Yosinski, J. (2014a). Deep generative stochastic networks trainable by backprop. In ICML’14.
- Bengio, Y., Thibodeau-Laufer, E., Alain, G., and Yosinski, J. (2014b). Deep generative stochastic networks trainable by backprop. In Proceedings of the 30th International Conference on Machine Learning (ICML’14).
- Bergstra, J., Breuleux, O., Bastien, F., Lamblin, P., Pascanu, R., Desjardins, G., Turian, J., Warde-Farley, D., and Bengio, Y. (2010). Theano: a CPU and GPU math expression compiler. In Proceedings of the Python for Scientific Computing Conference (SciPy). Oral Presentation.
- Breuleux, O., Bengio, Y., and Vincent, P. (2011). Quickly generating representative samples from an RBM-derived process. Neural Computation, 23(8), 2053–2073.
- Glorot, X., Bordes, A., and Bengio, Y. (2011). Deep sparse rectifier neural networks. In AISTATS’2011. [9] Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013a). Maxout networks. In ICML’2013.
- Goodfellow, I. J., Mirza, M., Courville, A., and Bengio, Y. (2013b). Multi-prediction deep Boltzmann machines. In NIPS’2013.
- Goodfellow, I. J., Warde-Farley, D., Lamblin, P., Dumoulin, V., Mirza, M., Pascanu, R., Bergstra, J., Bastien, F., and Bengio, Y. (2013c). Pylearn2: a machine learning research library. arXiv preprint arXiv:1308.4214.
- Gregor, K., Danihelka, I., Mnih, A., Blundell, C., and Wierstra, D. (2014). Deep autoregressive networks. In ICML’2014.
- Gutmann, M. and Hyvarinen, A. (2010). Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In Proceedings of The Thirteenth International Conference on Artificial Intelligence and Statistics (AISTATS’10).
- Hinton, G., Deng, L., Dahl, G. E., Mohamed, A., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T., and Kingsbury, B. (2012a). Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine, 29(6), 82–97.
- Hinton, G. E., Dayan, P., Frey, B. J., and Neal, R. M. (1995). The wake-sleep algorithm for unsupervised neural networks. Science, 268, 1558–1161.
- Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R. (2012b). Improving neural networks by preventing co-adaptation of feature detectors. Technical report, arXiv:1207.0580.
- Jarrett, K., Kavukcuoglu, K., Ranzato, M., and LeCun, Y. (2009). What is the best multi-stage architecture for object recognition? In Proc. International Conference on Computer Vision (ICCV’09), pages 2146–2153. IEEE.
- Kingma, D. P. and Welling, M. (2014). Auto-encoding variational bayes. In Proceedings of the International Conference on Learning Representations (ICLR).
- Krizhevsky, A. and Hinton, G. (2009). Learning multiple layers of features from tiny images. Technical report, University of Toronto.
- Krizhevsky, A., Sutskever, I., and Hinton, G. (2012). ImageNet classification with deep convolutional neural networks. In NIPS’2012.
- LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278–2324.
- Mnih, A. and Gregor, K. (2014). Neural variational inference and learning in belief networks. Technical report, arXiv preprint arXiv:1402.0030.
- Rezende, D. J., Mohamed, S., and Wierstra, D. (2014). Stochastic backpropagation and approximate inference in deep generative models. Technical report, arXiv:1401.4082.
- Rifai, S., Bengio, Y., Dauphin, Y., and Vincent, P. (2012). A generative process for sampling contractive auto-encoders. In ICML’12.
- Salakhutdinov, R. and Hinton, G. E. (2009). Deep Boltzmann machines. In AISTATS’2009, pages 448– 455.
- Schmidhuber, J. (1992). Learning factorial codes by predictability minimization. Neural Computation, 4(6), 863–879.
- Susskind, J., Anderson, A., and Hinton, G. E. (2010). The Toronto face dataset. Technical Report UTML TR 2010-001, U. Toronto.
- Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I. J., and Fergus, R. (2014). Intriguing properties of neural networks. ICLR, abs/1312.6199.
- Tu, Z. (2007). Learning generative models via discriminative approaches. In Computer Vision and Pattern Recognition, 2007. CVPR’07. IEEE Conference on, pages 1–8. IEEE.
本文为论文 Generative Adversarial Nets 的翻译文
论文原文链接: https://arxiv.org/abs/1406.2661
版权声明本博客的文章除特别说明外均为原创,本人版权所有。欢迎转载,转载请注明作者及来源链接,谢谢。本文地址: https://blog.ailemon.net/2019/12/16/translation-generative-adversarial-nets/ All articles are under Attribution-NonCommercial-ShareAlike 4.0 |