基于卷积神经网络的图像样式转换外文翻译资料

 2022-12-19 06:12

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


基于卷积神经网络的图像样式转换

LeonA.Gatys

德国图宾根大学综合神经科学中心

德国图宾根伯恩斯坦计算神经科学中心

德国图宾根大学神经信息处理研究生院

leon.gatys@bethgelab.org

AlexanderS.Ecker

德国图宾根大学综合神经科学中心

德国伯根斯坦计算神经科学中心

德国图宾根马克斯普朗克生物控制论学会

美国德克萨斯州休斯顿贝勒医学院

Matthias Bethge

德国图宾根大学综合神经科学中心

德国图宾根伯根斯坦计算神经科学中心

德国图宾根马克斯普朗克生物控制论研究所

摘要:

以不同样式呈现图像的语义内容的图像处理任务是困难的。可以说,以前的主要限制因素是缺乏明确表示语义信息的图像表示。在这里,我们使用从针对对象反射优化的卷积神经网络导出的图像表示,这使得高级图像信息显式化。我们介绍了一种艺术风格的神经算法,可以分离和重新组合自然图像的图像内容和风格。该算法允许我们产生高感知质量的新图像,其结合了多位照片的内容与众多知名艺术品的外观。我们的结果为卷积中性网络学习的深度图像表示提供了新的见解,并展示了它们对高级图像合成和操作的潜力 。

1.简介

将样式从一个图像转移到另一个图像可以被认为是纹理转移的问题。在纹理转换中,目标是在限制纹理合成的同时从源图像合成纹理以便保留目标图像的语义内容。用于纹理合成存在大范围的功能强大的非参数ALGO-rithms可以由重新采样给定的源的纹理[的前作像素合成真实感天然纹理[7,30,8,20]。大多数先前的纹理转移算法依赖于这些非参数方法进行纹理合成,同时使用不同的方法来保留目标图像的结构。例如,Efros和Freeman引入了一个对应图,其中包括目标图像的特征,如图像强度,以约束纹理合成程序[8]。Hertzman等人使用图像类比将纹理从已经风格化的图像转移到目标图像上[13]。Ashikhmin专注于传输高频纹理信息,同时保留目标图像的粗略尺度[1]。Lee 等人通过附加地通过边缘方向信息通知纹理转移来改进该算法[22]。

尽管这些算法取得了显着的成果,但它们都受到相同的基本限制:它们仅使用目标图像的低级图像特征来形成纹理转移。然而,理想情况下,样式转移算法应该能够从目标图像(例如,对象和一般场景)中提取语义图像,然后通知纹理转移过程以渲染目标图像的语义内容。在源图像的风格。因此,一个基本的先决条件是找到独立模拟语义图像内容和样式的图像表示。

图1.卷积神经网络(CNN)中的图像表示。给定输入图像在CNN中的每个处理阶段表示为一组滤波图像。虽然不同过滤器的数量沿着处理层级增加,但是过滤图像的大小通过一些下采样机制(例如,最大池化)而减小,导致每层网络的单元总数减少。内容重建。我们可以通过仅知道网络在特定层中的响应来重建输入图像,从而在CNN中的不同处理阶段可视化信息。我们从层conv12(a),conv22(b),conv32(c),conv42(d)和conv52(e)重建输入图像。原始VGG网络。我们发现从较低层重建几乎是完美的(a-c)。在网络的较高层中,丢失详细的像素信息,同时保留图像的高级内容(d,e)。风格重建。在原始CNN激活之上,我们使用一个捕获输入图像纹理信息的特征空间。样式表示计算CNN的不同层中的不同特征之间的相关性。我们从构建在CNN层的不同子集上的样式表示重建输入图像的样式(conv11(a),conv11和conv21(b),conv11,conv21和conv31(c),conv11,conv21,conv31和conv41(d),conv11,conv21,conv31,conv41和conv51(e)。这样可以创建与给定图像的样式相匹配的图像,同时丢弃场景的全局排列信息。

这种分解表示只是为了控制自然图像的子集,例如不同光照条件下的人脸和不同字体[29]或手写数字和门牌号[17]的字符。

通常将内容与自然图像中的风格分开仍然是一个极其困难的问题。然而,深度卷积神经网络[18]的最新进展产生了强大的计算机视觉系统,学习从自然图像中提取高级语义信息。结果表明,卷积神经网络与诸如对象识别在特定任务上足够标记数据训练学习在跨数据集[概括通用的特征表示,以提取高级别图像内容[6],甚至其它视觉信息处理任务[19,4,2,9,23],包括纹理识别[5]和艺术风格分类[15]。

在这项工作中,我们展示了高性能卷积神经网络学习的通用特征表示如何用于独立处理和控制自然图像的内容和风格。我们介绍一种新的算法-艺术风格的神经算法执行图像样式传输。从概念上讲,它是一种纹理转移算法,它通过来自最先进的卷积神经网络的特征表示来约束纹理合成方法。由于纹理模型也基于深度图像表示,因此样式转移方法优雅地减少到单个神经网络内的优化问题。通过执行预图像搜索来生成新图像以匹配示例图像的特征表示。这种一般方法已在纹理合成上下文之前使用[12,25,10],并改善深图像表示的理解[27,24]。实际上,我们的样式转换算法结合了基于卷积神经网络的参数化纹理模型[10]和反转其图像表示的方法[24]。

2.深度图像表示

下面给出的结果是在VGG网络的基础上生成的[28],它被训练以执行对象识别和定位[26],并在原始工作[28]中进行了详细描述。我们使用了19层VGG网络的16个汇聚层和5个汇聚层的标准化版本提供的特征空间。我们通过缩放权重来标准化网络,使得每个卷积滤波器在图像和位置上的平均激活等于1。这种重新缩放可以在不对其输出进行查询的情况下对VGG网络进行,因为它仅包含整流线性激活函数并且不对特征映射进行归一化或汇集。我们不使用任何完全连接的层。该型是公开的,可以在caffe框架中进行探索[14]。对于图像合成,我们发现用平均合并代替最大合并操作会产生更具吸引力的结果,这就是为什么显示的图像是平均合并的。

2.1 内容表示

通常,网络中的每个层定义非线性滤波器组,其复杂性随着网络中层的位置而增加。因此,通过对该图像的滤波器响应,在卷积神经网络的每个层中对给定的输入图像~x进行编码。具有Nl个不同滤波器的层具有Nl特征映射,每个特征映射的大小为Ml,其中Ml是高度乘以特征映射的宽度。因此,l层中的响应可以存储在矩阵F l RNL times;ML 其中Fijl为 ith 滤波器的位置j在l层中的活化。为了可视化在层次结构的不同层编码的图像信息,可以在白噪声图像上执行梯度下降,以找到与原始图像的特征响应匹配的另一图像(图1,内容重建)[24]。设p~和~x为原始图像和生成的图像,P l和 F l其l层中的相应特征表示。然后我们定义两个特征表示之间的平方误差损失

相对于l层中的激活,该损失的导数等于

从中可以使用标准误差反向传播来计算关于图像~x的梯度(图2,右)。因此,我们可以改变最初的随机图像~x,直到它在卷积神经网络的某个层中产生与原始图像p~相同的响应。

当卷积神经网络在对象识别上进行训练时,他们开发了一种图像表示,使对象信息在处理层次时越来越明显[10]。因此,沿着网络的处理层次结构,输入图像被转换为对图像的实际内容越来越敏感的表示,但是对于其精确的外观变得相对不变。因此,网络中的较高层根据对象及其在输入图像中的排列捕获高级内容,但不会非常约束重建的行为像素值(图1,内容重建d,e)。相反,来自较低层的重建简单地再现原始图像的精确像素值(图1,内容重建a-c)。因此,我们将网络的较高层中的特征响应称为内容表示。

2.2 风格表示

为了获得输入图像样式的表示,我们使用了一个用于捕获纹理信息的特征空间[10]。此功能空间可以构建在网络任何层的过滤器响应之上。它由不同滤波器响应之间的相关性组成,其中期望取自特征映射的空间范围。这些特征相关性由 格拉姆矩阵Gl RNL times;NL,其中Glij 是l层中矢量化特征映射i和j之间的内积:

通过包括多个层的特征相关性,我们获得输入图像的静态多尺度表示,其捕获其纹理信息而不是全局布置。同样,我们可以想象这些由不同构建的样式特征空间捕获的信息通过构建匹配的图像来构建网络层给定输入图像的样式表示(图1,样式重建)。 这是通过使用梯度下降来完成的从白噪声图像中最小化均方Gram矩阵的条目之间的距

图2.样式传输算法。提取并存储第一个内容和样式特征。样式图像~a通过网络传递,并且计算并存储(左)所包括的所有层上的样式表示Al。内容图像p~1通过网络和内容表示Pl存储一层(右)。然后一个随机白噪声图像〜x被通过网络传送和其样式FEA功能克L-和内容特征F是计算的。在样式表示中包括的每个层上,计算Gl和Al之间的元素均方差,以给出样式损失Lstyle(左)。也是F之间的均方差的d。P个计算l以给出内容丢失Lcontent(右)。总损失 Ltotal则是内容和风格损失之间的线性组合。可以使用误差反向传播(中间)来计算其关于像素值的导数。他的梯度用于迭代地更新所述图像〜X,直到它同时匹配的样式图像的风格特征〜a和内容图像P〜(中部,下部)的含量特性。

离原始图像和图像的Gram矩阵生成[10,25]。让~a和~x为原始图像,图像为生成,和Al和Gl他们各自的风格代表在第一层。

第1层对总损失的贡献是

总的损失是

其中wl 是每层对总损耗的贡献的加权因子(见下文在本文结果中wl 的具体值)El 相对于层l中的激活的导数可以通过分析计算:

可以使用标准误差反向传播容易地计算El 相对于像素值x的梯度(图2)2,左)

2.3风格转移

将艺术品的风格转移到照片上我们合成了一个同时匹配的新图像的内容表示和a的样式表示(图2).因此,我们共同最小化白噪声图像的特征表示与内容的距离一层中的照片表示和在卷积神经网络的多个层上定义的绘画的样式表示。我们最小化的损失函数是

图3.将照片内容与几种着名艺术品的风格相结合的图像。通过找到同时匹配照片的内容表示和艺术品的样式表示的图像来创建图像。描绘德国蒂宾根的Neckarfront的原始照片展示在A(照片:AndreasPraefcke)。为每个生成的图像提供样式的绘画显示在每个面板的左下角。乙牛头怪的石pwreck由特纳,1805Ccedil;文森特梵高的星夜,1889年.DDerSchrei,EdvardMunch,1893年.E毕加索,1910˚FFEMMENUEassise组成VII由WassilyKandinsky,1913年。

其中alpha;和beta;分别是内容和样式重建的加权因子。关于像素值的梯度 1。可以用作一些数值优化策略的输入。在这里我们使用L-BFGS [32],我们发现它最适合图像合成。为了在可比较的比例上提取图像信息,我们总是在计算其特征表示之前将样式图像的大小调整为与内容图像相同的大小。最后,注意与[24]不同我们没有使用图像先验来规范我们的综合结果。但可以说,网络中较低层的纹理特征充当了样式图像之前的特定图像。加成由于我们使用不同的网络架构和优化算法,预计图像合成会有一些差异

3.结果

本文的主要发现是,卷积神经网络中的内容和风格的表征是可以很好地分离的。也就是说,我们可以独立地操纵这两种表示来产生新的,感知上有意义的图像。为了证明这一发现,我们生成的图像混合了两个不同源图像的内容和样式表示。特别是,我们匹配描绘图宾根河内河内河照片的照片,德国以及从不同艺术时期拍摄的几件着名艺术品的风格表现(图3)。图3中所示的图像是通过匹配内容表示来合成在图层conv42和图层conv11,conv21,conv31,conv41和conv51(wl)上的样式表示在这些层中=1/5,wl在所有其他层中=0)。该比率alpha;/beta;为1times;10minus;3 (图2)3 B),8times;10minus;4 (图3C),5times;10minus;3 (图3 D),或5times;10minus;4 (图3 E, F)。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[19679],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。