网刊加载中。。。

1 引言图像修复是当前计算机视觉领域的研究热点之一，是利用缺损图像中已知信息去预测缺失区域的内容并生成合理的替代内容，使替代内容语义正确且在视觉上具有真实的效果。图像修复可以应用于图像和视频的裁剪、旋转、拼接、重新定位、重新组合等任务。目前，图像修复所面临的最大挑战就是经过计算所生成的图像内容与原图像现存内容之间的匹配问题。图像修复算法主要分为两大类：基于传统的图像修复算法［1-5］和基于深度学习的图像修复算法［6-10］。传统的图像修复经常使用基于图像块的图像修复方法［11-13］，即在图像未受损区域搜索选择相似的图像块对缺失区域进行替换。Fan等［14］提出了一种使用平方差和测量图像块之间的相似性来进行替换的图像修复方法。但使用这种方法生成的图像往往不够自然，所以基于语义特征的图像修复方法就应运而生了。深度学习使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象，具有优异的特征学习能力，在各个领域中有着广泛应用［15］。基于深度学习的卷积神经网络（Convolutional Neural Networks， CNN）和生成对抗网络（Generating Antagonistic Network，GAN）在生成符合语义特征的修复图像方面取得了更好的效果。常用CNN网络将图像的条件生成问题转化为高级识别和低级像素合成问题并制成编码器-解码器网络，再将其与GAN网络共同训练，目的是在高度结构化的图像中生成合理的内容［16］。Pathak等［17］提出了结合编码器-解码器网络结构与GAN的方法，上下文编码器用于学习图像特征和生成图像缺失区域的预测图，GAN部分判断预测图的合理性，但修复结果存在伪像且边缘模糊的情况。Chen等［18］在此基础上采用约束图像生成语义修复的方法，使用破损图像对生成器和判别器进行训练，修复结果与背景语义较为相符，但其过于依赖之前训练好的网络，只能修复相对简单的结构。Yu等［19］提出了一个包含两阶段的前馈生成网络，缺失图像先经过一个扩张卷积获取特征作为卷积过滤器，将生成信息与已知信息相匹配，分别经过情景关注通道和卷积通道，将它们产生的结果进行合并得到修复结果，但其在修复大面积缺失时依旧存在伪影。针对现有方法的不足，本文在模型结构设计上借鉴了Yu等的设计思路，将当前图像处理领域中的有效方法进行结合，从网络结构、注意力机制和重建损失等方面对两阶段前馈生成网络进行改进，提出了一种结合门控卷积和注意迁移的二阶图像修复方法。相关数据集的多尺度掩码实验表明，本文方法在主观对比与客观指标上均优于其他方法，可以得到更加逼真且符合人眼视觉的修复图像。2 本文方法本文提出了一种基于门控卷积和注意迁移网络（Attention Transfer Network，ATN）的上下文语义图像修复方法，网络结构如图1所示。本文网络结构包括粗略修复网络、改进的细化修复网络、图像判别网络和损失函数4部分。在训练过程中将含有给定掩码的图像作为修复网络的输入，首先使用普通卷积进行粗略修复，然后使之分别经过门控卷积分支和两次注意迁移网络分支的处理，再将两分支结果合并到单一解码器，最后通过谱归一化的马尔可夫判别器获得修复结果。10.37188/CJLCD.2022-0260.F001图1图像修复网络结构Fig.1Image restoration network structure2.1　粗略修复网络为了提高修复图像的效率，对待修复图像进行初始粗略预测。训练阶段的生成器网络采用白色像素填充缺失区域，并将其与二进制掩码进行配对以处理具有可变大小与位置的缺失。网络的输入是大小为256×256的图像，在训练期间随机采样矩形缺失区域。按照编码器-解码器的形式构建的全卷积神经网络为基础的图像修复网络，通过获取输入的掩码图像来生成图像的潜在特征。粗略修复阶段的网络结构如表1所示。10.37188/CJLCD.2022-0260.T001表1粗略修复网络结构Tab.1Rough repair network structure序号操作类型输出通道数步长扩张率参数量序号操作类型输出通道数步长扩张率参数量1卷积32124 03212扩张卷积256116590 0802卷积（下采样）642118 49613卷积25611590 0803卷积641136 92814卷积25611590 0804卷积（下采样）1282173 86515卷积12811295 0405卷积12811147 58416卷积12811147 5846卷积（下采样）25621295 16817卷积641173 7927卷积25611590 08018卷积641136 9288卷积25611590 08019卷积321118 4649扩张卷积25612590 08020卷积64114 62410扩张卷积25614590 08021卷积31143511扩张卷积25618590 0802.2　改进的细化修复网络为了使修复后的图像具有更加清晰的纹理细节，本文对网络架构进行了改进与优化：在编码器阶段使用门控卷积替代原本的普通卷积实现动态特征学习机制；移除网络中的注意分支而使用对缺失区域信息学习能力更强的注意力迁移网络；在编解码阶段加入SimAM注意力模块，优化本网络的学习能力；使用感知损失、多尺度结构相似性损失等作为重建损失。网络架构如图2所示。10.37188/CJLCD.2022-0260.F002图2改进的细化修复网络架构Fig.2Improved refinement repair network architecture2.2.1　门控卷积由于输入的待修复图像包含背景中的有效像素和被掩码覆盖的无效像素，而普通卷积在所有的空间位置都应用了相同的滤波器在卷积层中产生输出，这会导致网络在训练过程中产生歧义，修复结果可能会出现边缘模糊或与背景语义不符的现象。门控卷积的非线性操作较少，可以有效降低梯度弥散，加速模型收敛。为此本文使用门控卷积以加强网络对待修复图像中有效信息的学习能力，它与普通卷积工作原理的区别如图3所示。10.37188/CJLCD.2022-0260.F003图3门控卷积与普通卷积区别Fig.3Difference between gated convolution and ordinary convolution卷积层的输出公式如式（1）所示：Hl=Hl-1*W+b⊗σHl-1*V+c ，（1）其中Hl-1∈RN×m为上一层的输出，W∈Rk×m×n、b∈Rn、V∈Rk×m×n、c∈Rn为要学习的参数，N为词序列的长度，m为词向量的维度，k为卷积核大小，σ为sigmoid（）函数，⊗为矩阵间元素乘积，W和V是不同的卷积核，b和c为偏差参数。门控卷积在此分为用于计算的卷积单元和控制有用信息传入下一层的门控单元。2.2.2　注意迁移网络注意迁移网络在学习特征图中缺失区域和剩余区域之间的联系后，以更高分辨率将相关特征由外部迁移到先前特征图的内部区域。上下文的语义特征是通过潜在特征进行编码的，可以将潜在特征转化为纹理细节更加丰富的低级特征来填充缺失区域。为保证图像修复质量，本文网络在解码前两次使用ATN对目标区域进行填充。在ATN中，用4组不同速率的扩张卷积进一步聚合多尺度信息将填充区域进行细化，网络结构模型如图4所示。10.37188/CJLCD.2022-0260.F004图4注意力迁移网络结构模型Fig.4Attention transfer network structure model对于给定的L层编码器，从深到浅的特征映射表示为ϕL,ϕL-1,...,ϕ1，则ANT在各层由深到浅构造的特征表示为：ψL-1=f(ϕL-1,ϕL),ψL-2=f(ϕL-2,ψL-1),…,ψ1=f(ϕ1,ψ2)=f(ϕ1,f(ϕ2,....f(ϕL-1,ϕL)))，（2）再从ψl中提取信息计算缺失区域内外部分的余弦相似性：si,jl=pilpil2,pjlpjl2 ，（3）其中：pil是从ψl中提取的第i个图形块，pjl是从ψl中提取的第j个图形块。对余弦相似性应用softmax获取各个补丁的注意分数：αj,il=expsi,jl∑i=1Nexpsi,jl .（4）得到注意分数后对相邻低级特征图中的缺失区域进行填充，公式如式（5）所示：pjl-1=∑i-1Nαj,ilpil-1 ，（5）其中：pil-1是从ϕl-1中提取的第i个图形块的外侧掩码区域，pjl-1是在缺失区域填充的第j个图像块。在计算过所有图像块之后，最终可以通过对ψl的注意迁移得到填充特征ψl-1，这些操作都可经过卷积运算用于端到端训练。将注意迁移网络分支与门控卷积分支处理结果通过concat拼接来整合特征图信息，concat常用于特征联合、多个卷积特征融合或输出层信息融合，就是将通道数合并增加图像本身的特征。2.2.3　注意力机制注意力在人类视觉系统中起着重要的作用，在观察事物时，大脑能够很快把注意力放在最具有辨识度的部分从而做出判断。基于这样的理论，就产生了注意力机制。本文为修复网络加入了SimAM注意力模块［20］作为注意力机制，相比于现有的通道注意力和空间注意力机制，SimAM通过优化能量函数来判断神经元的重要性，并直接在网络层中推理出三维的注意力权重而且不增加任何的参数量，相比于其他注意力可以更快地收敛。经过本文实验，该注意力机制相比于Woo等［21］提出的卷积注意力机制模块（Convolutional Block Attention Module，CBAM）在改善本文卷积网络的表征能力上更具灵活性和有效性。通过对注意力模块中每个神经元的能量函数进行计算可以得到神经元的最小能量，能量越低的神经元与周围神经元的区别越大，重要性就越高，因此神经元的重要性可以通过1et得到。根据注意力机制的定义，对特征进行增强处理：X˜=sigmoid1E⊙X ，（6）其中：E是et在所有通道和空间维度的汇总；sigmoid（）用来约束过大的值，但不影响每个神经元的相对大小。在不引入额外参数的情况下，SimAM提炼的特征可以更好地聚焦于目标。2.3　图像判别网络传统网络判别模型往往会在最后引入一个全连接层，将学习结果的分布式特征表示映射到样本标记空间，再将判别结果输出。但由于全连接层是将图像降维成序列，会导致修复结果纹理细节处理不够，而且全连接层所需的参数过多冗余度高。为避免上述问题，本文图像判别网络使用谱归一化的马尔可夫判别器，对真实图像（Ground truth）和修复网络结果进行真伪判别，并根据判别结果为修复网络提供对抗损失。马尔可夫判别器完全由卷积构成，通过获取图像块特征，对特征图中的每个特征元素应用GAN网络以关注输入图像不同位置的不同语义，其工作原理如图5所示。卷积层的感受野计算公式如式（7）所示：RFi=RFi+1-1×stridei+Ksizei ，（7）其中RFi、RFi+1分别为第i层和第i+1层卷积的感受野，stridei、Ksizei是该层卷积步长和卷积核尺寸。10.37188/CJLCD.2022-0260.F005图5马尔可夫判别器原理Fig.5Principle of Markov discriminator为避免训练过程中判别器过早拟合导致生成器无法继续学习的问题，本文采用谱归一化的方法来稳定GAN的训练，使判别网络满足利普西茨连续性。谱归一化就是对参数矩阵进行奇异值分解，得到其中最大的奇异值，过程如式（8）所示：gLip=suphσ∇gh=suphσW=σW , （8）其中σW为矩阵W的谱范数，根据利普西茨定义的不等式有：fLip≤hL→WL+1hLLip· aLLip· hL-1→WLhL-1Lip…a1Lip· h0→W1h0Lip=∏l=1L+1hl-1→Wlhl-1Lip=∏l=1L+1σWl . （9）当约束权重矩阵W使σW=1，则有：W¯SNW=WσW .（10）将其带入上一个不等式，便可得到fLip，由此通过约束每一层网络的权重矩阵W的谱范数来约束利普西茨常数，从而增强GAN在训练过中的稳定性。2.4　损失函数由于修复问题涉及像素的想象，使用原始图像作为重建损失的唯一依据可能会误导卷积的训练过程。为了修复网络可以取得更真实的图像修复效果，本文将对抗性损失与重建损失相结合来减小修复结果与原始图像的差距。2.4.1　对抗性损失本文在修复网络中增加了谱归一化的马尔可夫判别器提供的对抗损失，提高网络的修复能力。对抗损失定义如式（11）所示：LG=λEX^~PX^·log Dx,m+log1-DCx,m,m ，（11）其中D是利普西茨联系条件的集合，X^是采样的点与点之间的直线采样，C（x，m）为图像修复网络，x为输入图像，m为掩码图像，缺失像素掩码值为0，其他像素掩码值为1，λ在所有实验中设置为10。2.4.2　重建损失重建损失使用感知损失（Perceptual loss）［22］与多尺度结构相似性（Multi-scale structural similarity，MS-SSIM）［23］以权重系数联合来指导网络模型学习。为了获取高级语义并模拟人眼对图像质量的感知，使用在ImageNet上训练好的VGG-16网络定义的感知损失：Lprec=E ∑i1NiΦiIout-ΦiIgt1 ，（12）其中：E是期望，Φi是VGG-16主干网的第i层激活层，Iout是网络的修复结果，Igt是真实图像。MS-SSIM可以看作结构相似性（Structural Similarity，SSIM）的改进版本。由于SSIM是单尺度计算，对于高斯核尺寸大小选择要求较高，所以通过多尺度的思想来保证函数在不同分辨率的图像上都能有良好的效果。MS-SSIM的函数表示如式（13）所示：MS-SSIM=lMx,yαM· ∏j=1Mcjx,yβj· sjx,yγj=lMαp· ∏j=1Mcsjβjp , （13）其中：lx,y、cx,y、sx,y分别为亮度、对比度和结构相似度的计算，M、j表示图像的尺寸压缩次数，αM、βj和γj为调整不同分量的相对重要性，令αM=βj=γj。由于此处将MS-SSIM作为损失函数使用，因此定义MS-SSIM Loss为：LMS-SSIM=1-MS-SSIMp .（14）综上，本文的重建损失为：Lloss=α1Lprec+α2LMS-SSIM ，（15）其中α1、α2分别为感知损失和MS-SSIM损失的权重系数，取值为α1=0.4,α2=0.8。通过重建损失和对抗损失相结合对修复网络进行进一步约束，使网络训练结果达到预期效果。最终得到的损失函数定义如式（16）所示：Ltotal=Lloss+βLG ，（16）其中β为对抗损失的权重系数，设β=0.6。3 实验结果与分析本文所用数据集为Place2数据集［24］，共包含超过1 000万张图片，其中包含400多个独特的场景类别，每个分类具有5 000~30 000个训练图像，与现实世界中的场景频次一致。由于Place2数据集的纹理细节要求较高，能够充分考量模型的修复效果，且经过其他学者大量实践，有利于对比实验，所以选用该数据集用于训练和测试本文网络。3.1　实验环境本文所涉及的实验均在相同的环境下进行训练或测试。实验硬件环境：处理器（CPU）为Intel（R） Core（TM）i5-8400 CPU@ 2.80 GHz，内存为16 GB，显卡（GPU）为NVIDIA GeForce GTX 1070 8 GB。实验软件环境：操作系统为Windows10，深度学习框架为Pytorch 1.8.1，第三方数据库为OpenCV、NumPy等。3.2　对比实验将本文方法与以下5种图像修复方法进行比较：生成多列卷积网络模型（GMCNN）［25］、结合注意力机制的渐进修复网络（DeepFill v2）［26］、全局与局部属性一致的图像修复模型（HCGCI-Net）［27］、基于注意力机制的生成式图像修复（CA）［19］和金字塔上下文编码网络（PEN）［28］。由于图像修复任务缺乏良好的定量评估指标，在修复大面积缺失时存在多种与原图像不同的解决方案，对此本文在对比实验阶段采用了主观感受和客观指标两种评价方式。为了公平评估模型的修复能力，所有方法均没有执行任何后续处理步骤。3.2.1　主观感受对比本文在输入图像上加入了不同面积掩码来模拟不同程度的图像缺失。本文方法与其他方法的修复结果如图6所示。I1~I3表示中小面积缺失，I4、I5是大小为128×128的中心掩码，表示大面积缺失。由于图像修复常用于去除图像中多余信息，使用I3掩码模拟去除图像中的人像部分。10.37188/CJLCD.2022-0260.F006图6图像修复主观效果对比Fig.6Comparison of subjective effects of image restoration在对各种方法的比较结果中可以看出，GMCNN在对图像进行修复时，修复结果的整体结构相对合理，但对图像内部的细节纹理处理得不够好，且缺失部分的边缘明显。HCGCI-Net在对缺失部分的边界处理更自然，在修复小面积掩码时表现较好接近原图，但修复结果与原图存在部分色差，需要后续进行处理。DeepFill v2在修复大面积缺失时，生成结果与原图具有较大差异，且修复图像存在明显伪影，对细节的处理也不够完善。CA修复结果较好，在中小尺寸掩码下与原始图像差别较小，但生成部分内部纹理模糊，清晰度差。PEN修复结果结构上与原图相近但生成部分与背景有色差，掩码部分边框明显。本文所提出的图像修复方法在各尺寸缺失下均有较为理想的修复效果，对图片中的细节信息修复的也更为合理，边缘过渡自然，生成更加符合语义的修复结果。3.2.2　客观指标对比在客观评价指标上选用绝对平均误差（Mean Absolute Error， MAE），计算真实值与预测值之间的差距，反应预测误差：MAE=1N∑Ni=1fi-gi ，（17）其中：fi表示预测值，gi表示真实值。如果本身真实值较大，MAE会有较大误差，所以增加均方误差（Mean Square Error， MSE）评价模型预测能力［29］：MSE=1H×W∑i=1H∑j=1WP1i,j-P2i,j2 .（18）为比较修复图像与原始图像，引入了峰值信噪比（Peak Signal Noise Ratio，PSNR）［30］：PSNR=10×lgMaxI2MSE ，（19）其中：MaxI为图像像素能取到的最大值。结构相似性（SSIM）［31］的计算与多尺度结构相似性基本相同：SSIMx,y=lx,y⋅cx,y⋅sx,y ，（20）其中：lx,y、cx,y、sx,y分别为亮度、对比度和结构的相似性计算。使用以上4种评价指标来对比不同算法在加入相同掩码时的修复结果。MAE和MSE通过计算两幅图像对应像素之间的差异来对图像进行评价，图像相似性越高，该值越小。PSNR和SSIM用于衡量不同算法修复结果与原图的相似性，通过对比生成图像与未缺失图像内的像素，判断图像修复的效果，显示生成图像与真实图像的联系，图像相似性越高，该值越大。本文使用4种不同面积的掩码来覆盖图像，模拟图像的不同程度破损，比较结果如表2所示。10.37188/CJLCD.2022-0260.T002表2图像修复客观效果对比Tab.2Objective effect comparison of image restorationMaskImage restoration methodMAE/%MSE/%SSIM/%PSNR/dB32×32GMCNN1.6720.13298.7236.04DeepFill v21.8790.19498.0230.26HCGCI-Net1.6810.13298.9637.14CA1.5390.11698.9236.24PEN1.5510.11798.8836.27Ours1.6510.12599.0938.9432×64GMCNN1.6970.12598.2735.71DeepFill v22.0860.29396.5927.09HCGCI-Net1.7050.12598.4037.27CA1.5870.11498.2735.11PEN1.6070.11998.2435.44Ours1.6640.12298.6938.1764×128GMCNN2.0860.19494.6729.10DeepFill v22.2410.67488.5721.37HCGCI-Net2.1360.17895.0429.84CA2.0140.17094.4229.44PEN2.0630.19094.5828.79Ours1.9740.16095.4130.42128×128GMCNN2.0520.35089.7325.18DeepFill v25.271.8278.9117.22HCGCI-Net2.6730.24890.6627.02CA2.7590.27890.5826.32PEN3.0430.37289.8625.16Ours1.2540.13692.1328.50注：加粗数据为每组最优结果根据实验结果可知，本文方法在上述4种评价指标上均优于其他5种方法。在掩码尺寸较小时，本文方法与GMCNN、HCGCI-Net在各项指标上差距不大，均优于DeepFill v2。当掩码尺寸较大时，本文方法在更接近人眼视觉的SSIM评价指标上有明显提升，较GMCNN、DeepFill v2、HCGCI-Net分别提升2.4%、13.22%、1.47%。综合分析比较以上图像修复方法，本文方法在客观指标上无论是小尺寸缺失还是在大尺寸缺失的修复结果均优于对比算法，达到了较为理想的修复效果。3.3　消融实验在进行消融实验之前，对损失函数进行了实验探究，对比了多种重建损失模块的组合。实验结果表明，本文所使用的重建损失组合修复效果最好。为了公平验证本网络结构中各部分效果，实验所用损失皆为本文重建损失。在同一数据集下，训练相同次数，设计了以下6组消融实验：第1组：仿照Yu等的网络结构对图像进行修复，以验证原网络的效果。第2组：将细化修复阶段的卷积替换为门控卷积，探究门控卷积在网络结构中是否能够提升修复效果。第3组：在第2组的基础上将细化修复阶段的注意分支替换为注意迁移网络，探究注意迁移网络在修复过程中的效果。第4组：在第2组的基础上对门控卷积分支增加SimAM注意力模块，探究注意力机制是否能够提升修复效果。第5组：去除网络中的粗略修复阶段，仅使用本文细化修复网络，验证两阶段网络的必要性。第6组：结合第3组与第4组的方法，即使用本文图像修复方法，验证本文方法的有效性。消融实验的部分结果如图7所示，依据主观效果对比结果可以看出，第1组在修复图像时在掩码中央易生成伪影且颜色与背景相差较大；第2组颜色相较第1组得到部分改善，但修复图像依然存在伪影；第3组在修复图像中解决了伪影的问题但内部纹理不够清晰；第4组修复部分与背景存在差异；第5组修复部分结构合理但与背景存在色差，由于只使用了细化修复网络，达到相近效果用时更久；第6组修复效果最好，生成部分更加自然。10.37188/CJLCD.2022-0260.F007图7消融实验主观效果对比Fig.7Subjective effect comparison of ablation experiment客观评价依旧选用MAE、MSE、SSIM和PSNR作为修复图像的评价指标，测试结果如表3所示。10.37188/CJLCD.2022-0260.T003表3消融实验客观效果对比Tab.3Objective effect comparison of ablation experimentMAE/%MSE/%SSIM/%PSNR第1组3.3330.57787.3723.22第2组3.2200.38588.1225.35第3组2.2560.36288.2724.69第4组1.5260.24489.7227.18第5组2.5180.24490.6927.32第6组1.2540.13692.1328.50注：加粗数据为每组最优结果根据主观感受与客观指标对比结果可知，本文中各方法均对图像修复网络提供正向作用，可以认为这些方法都是有效的。由消融实验结果可以得出，本文所提出的图像修复方法修复大尺度缺失时效果较好，可以有效解决修复区域纹理细节缺失、修复图像内部产生伪影等问题。4 结论针对现有图像修复方法在修复大尺度缺失时易产生伪影的问题，提出了一种结合门控卷积和多次注意迁移的二阶图像修复方法，由粗略修复网络与细化修复网络两部分构成。从网络架构、注意力机制和损失函数等方面对网络进行改进，提升图像修复的效果。实验结果表明，本文方法在SSIM和PSNR等指标上表现更好，在128×128尺寸的掩码下SSIM较对比算法分别提升2.4%、13.22%、1.47%、1.55%、2.27%，PSNR较对比算法分别提升13.19%、65.51%、5.48%、8.28%、13.28%，修复结果也更加清晰自然。在未来研究中，将在本文图像修复方法的基础上对网络模型进行进一步优化，针对实际场景，提高对低质图像的修复能力，提高实用价值。