基于多尺度密集生成对抗网络的水下图像增强外文翻译资料

 2023-02-24 11:01:57

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


基于多尺度密集生成对抗网络的水下图像增强

Yecai Guo, Hanyu Li, and Peixian Zhuang

摘要—水下图像增强技术在水下视觉研究中得到了广泛的关注,但水下原始图像容易受到水下场景引起的颜色失真、曝光不足和模糊等问题的影响。为了解决上述问题,我们提出了一种新的多尺度密集生成对抗网络(GAN)来增强水下图像。在生成器中提出了剩余多尺度稠密块,其中多尺度、稠密级联和剩余学习可以分别提高性能、呈现更多细节和利用以前的特征。同时,提出了结合L1损耗和梯度损耗的非饱和GAN损耗函数,重点研究了地面真实感的图像特征。对合成图像和真实水下图像的最终增强结果表明了该方法的优越性,在定性和定量评价上均优于非深度和深度学习方法,我们进行了烧蚀研究以显示各成分的贡献,并进行了应用试验以进一步证明所提出方法的有效性。

关键词—密集级联,生成对抗网络(GAN),多尺度,残差学习水下图像增强。

1.绪论

近年来,水下成像技术在深海探测、水下机器人技术、海洋生物监测等方面发挥了重要作用。然而,水下原始图像很少能满足图像处理的要求。由于光在水中的衰减和散射,颜色失真、曝光不足和模糊是图像退化的三个主要问题[1]。首先,考虑到深度、光照条件、水的类型和不同的光波长,水下图像的颜色经常失真[2]。其次,光能的吸收导致曝光不足,距离镜头超过10米的物体几乎无法区分[3]。第三,水下图像的模糊可以归结为以下两个因素:大量的悬浮颗粒导致光散射和传播方向的改变;此外,悬浮颗粒和水通过将光线反射到相机镜头来影响场景对比度[4]。

为了改善水下图像,传统的方法包括增强方法和恢复方法,无水下物理参数的图像增强方法[3]-[6]侧重于调整图像像素值,以产生吸引人的效果。图像恢复技术[7]-[11]考虑了退化模型来增强水下图像。然而,需要各种复杂的水下物理和光学因素才能使传统的方法得以实现。由于有大量的训练数据,这些方法在不同的水下图像上显示出更高的综合性能,并提高了某些场景的增强效果或增强不足的深度卷积神经网络,强大的监督学习模型,在低水平视觉任务上获得令人信服的成功,例如图像超分辨率[12]、图像降额[13]和图像去噪[14],一些研究人员将深度学习应用于水下图像处理[15]–[22]。本文提出了一种可训练的多尺度密集生成对抗网络(GAN),主要贡献如下。

1)在不建立水下退化模型和图像先验的前提下,提出了一种新的多尺度密集块(MSDB)。残差学习、密集拼接和多尺度的有效结合可以纠正颜色投射,恢复图像细节,提高主观和客观评价。此外,还进行了烧蚀研究,以证明所提出的块体中各成分的影响。

2)为了保持地面真实感的图像特征,采用了有意义的对抗性损失,包括L1和梯度损失。同时,谱归一化稳定了鉴频器的训练,计算量小,速度快,易于融入GAN训练。

3) 在水下环境中采用了两种无参考尺度,通过大量实验证明了该方法在合成和真实水下图像中的优越性。最后,我们进行了应用测试,进一步证明了该方法的有效性。

2.相关工作

鉴于水下视觉的重要性,近年来提出了许多水下图像增强方法。现有的提高水下图像质量的方法可归纳为以下几类。

A、 基于图像增强的方法

基于图像增强的方法侧重于调整图像像素值,以产生主观和视觉上有吸引力的图像。文献[3]从原始水下图像导出输入和权重。有两种输入,一种是白平衡版本丢弃不需要的海底图像颜色投射,另一种是过滤版本渲染细节。另外,四个权重贴图旨在确定哪个像素有利于显示在恢复的输出中。但是,增强后的图像很容易变得过强或欠增强。Rayleigh分布的集成颜色模型[4]最小化了过度增强和欠增强区域,但它在输出结果中引入了噪声,因而提出了一种基于retinex的水下图像增强方法[5],主要包括三个步骤:简单有效的颜色校正策略、变分RB框架、模糊和欠曝光后处理。这种方法有效地降低了水下蓝绿色效应,消除了放大噪声。这些基于增强的方法在一定程度上改善了水下场景的对比度和图像质量,但在某些场景中输出的图像变得过强或欠增强,同时它们的方法不考虑复杂的水下物理参数。

B、 基于图像恢复的方法

在图像复原技术中,目标是通过建立退化模型,然后估计模型参数来复原水下图像。暗通道先验方法[23]假设,在大多数无霾室外图像的局部区域中,在至少一个颜色通道中将存在一些强度非常低的像素。然后,它使用这个假设来估计传输和恢复图像。复杂的水下图像在某种程度上类似于模糊图像(如后向散射)。因此,一些研究者将此方法应用于水下图像的处理。水下暗通道先验(UDCP)[7]提出了一种新的基于观测大量水下图像中红色通道吸收率的先验方法,以恢复高质量图像。然而,UDCP对水下新世的变化是敏感的,同样地,信道方法[8]通过恢复与短波长相关的颜色来恢复退化图像,但是需要许多物理参数和水下光学特性,使得这些方法具有一定的灵活性。由于缺乏丰富的训练数据,这些基于暗通道先验的方法在海洋场景中表现出很差的性能。

C、 基于深度学习的方法

基于深度学习的方法依靠丰富的训练数据,能够提高不同水下场景的图像质量。结合物理模型,WaterGAN[16]使用具有相应深度信息的空中图像生成特定水下场景的合成图像,文献[21]基于循环一致对抗网络(CycleGAN)[24]和多阶段损失函数,开发了一种弱水下图像颜色校正模型。考虑到CycleGAN可以在没有成对训练数据或深度对的情况下将图像从一个域转换到另一个域,因此水下GAN(UGAN)[17]将其作为退化过程来生成成对训练数据,然后使用基于pix2pix[25]的模型来提高水下图像质量。计算UGAN采用的梯度惩罚[26]比谱归一化[27]更耗时。

与以往的应用不同,我们提出了一种有效的基于残差学习、密集拼接和多尺度运算的水下图像增强块,这在烧蚀研究中是有效的。谱归一化被用来稳定鉴别器的训练,这被证明在计算上是轻的,快的,并且容易融入GAN训练中[27]。此外,该网络对多达215幅真实水下图像进行了主观和客观评价。

3.研究方法

GANs[28]不仅因为其学习目标概率分布的能力,而且由于其理论上的吸引力,在机器学习界引起了广泛的关注。受GANs的启发,我们提出了一种水下GAN(UWGAN)来学习非变形图像和变形图像之间的非线性映射。拟议的网络通过利用端到端和数据驱动的培训机制产生增强的效果。如图1所示,所提出的模型包含两个组件,发电机网络G和鉴别器网络D。在发电机的完全卷积网络中使用剩余MSDB(RMSDB)。生成器用于合成水下图像,而鉴别器用于将生成器生成的合成图像与相应的真实水下图像区分开来。我们使用非饱和损耗、L1损耗和梯度损耗来产生视觉上令人满意的图像。

图1. 生成器和鉴别器网络的体系结构。“Conv”表示卷积层,而“Deconv”表示反卷积层。MSDB表示多尺度密集块,“BN”表示批处理规范化。在鉴频器的卷积层采用谱归一化.

A.生成网络

近年来,设计了大量的特征提取模块。广泛使用的初始架构[29]旨在找出网络结构中的最优局部稀疏结构。然而,这些不同比例的特征在块的末尾以简单的方式连接在一起,部分地导致特征地图的利用不足[30]。此外,文献[31]提出了一个深度剩余学习框架来简化网络的优化过程。同时,他们可以轻松享受更具竞争力的结果。之后,密集块[32]被设计成加强特征传播和鼓励特征重用。

受上述特征提取模块的启发,我们提出了一种新的MSDB。图2描述了我们的MSDB的详细结构。每个级联操作都有三个或四个特征映射,以充分利用图像的局部特征,其中一个特征映射直接来自前一层的输出。这两条中间路径具有不同的核大小来检测不同尺度下的特征映射。最后的1times;1卷积可以作为瓶颈层,促进特征融合,提高计算效率。

操作可以表示为:

(1)

(2)

(3)

(4)

(5)

(6)

其中omega;表示权重,为了简化符号,省略了偏差。卷积运算用“*”标记。上标表示卷积层的位置,下标表示相应卷积核的大小。L(x)表示泄漏ReLU(LReLU)激活函数[33],,,表示特征映射的串联。

图2. MSDB架构“Contact”表示密集连接操作.

为了方便串联操作,MSDB中的每一层都使用具有步长1的卷积核。在块的末尾的1times;1卷积层将特征映射减少到MSDB的输入通道的数目,因此我们的块的输入和输出在特征映射方面具有完全相同的数目。独特的操作允许多个MSDB连接在一起。我们在MSDB中添加了跳过连接,它作为一个块,进一步鼓励了信息和梯度的流动。RMSDB组合了两个块以获得可比的性能。在图3中,我们注意到超过两个块提高了性能,但是引入了太多的参数并增加了训练时间。因此,建议的网络采用两个块作为最终版本。

图3. 改进后的网络在不同块数下的增强效果。我们在215幅真实的水下图像上获得了结果并对其进行了平均.

在表1和表2中,RMSDB代表残余MSDB,BN代表批量标准化[34]。格式[filter_h,filter_w,stride]是内核大小,htimes;wtimes;channels是输出形状。所有LReLU激活函数的斜率设置为0.2。

在前两层网络中,我们使用两个卷积层,其中7times;7核和64个特征映射(第二层为3times;3核和128个特征映射),然后激活BN和LReLU。前两层卷积可以减小特征图的大小,提取出初步特征。因此,RMSDB可以连接在前两层的输出端,并提取更多的特征。利用两个反褶积层重建图像。最后一个反褶积层映射到输入通道的数量,它使用Tanh函数来匹配输入分布[-1,1]。

表1.生成器网络

表2. 鉴别网络

B.差异网络

如图1所示,所提出的鉴别器网络由五个光谱归一化层组成[27],类似于70times;70 PatchGAN的工作。如表二所示,BN不适用于第一层和最后一层。所有剩余的卷积层遵循相同的基本设计,即卷积bn–LReLU层。PatchGAN首先用于pix2pix[25],然后扩展到以后的CycleGAN[24]中。这样的PatchGAN具有比全图像鉴别器更少的参数,能够以完全卷积的方式处理任意大小的图像[25]。谱归一化限制鉴别器的Lipschitz常数或稳定鉴别器的训练[27]。此外,该方法计算量小,易于实现。如图4所示,与没有谱归一化的鉴别器相比,具有谱归一化的鉴别器具有稳定的下降曲线。

图4. 鉴别器的损耗曲线。“-SN”表示没有谱归一化的鉴别器.

C、 GAN目标函数

该生成器生成一个图像来欺骗鉴别器,鉴别器用于区分合成的和真实的水下图像。我们让x是一个在空气中的图像,y是退化的同一个图像。提出的损耗函数包括非饱和GAN损耗、L1损耗和梯度损耗,具体如下:

. (7)

非饱和GAN损耗可以表示为:

(8)

其中表示来自真实水下图像而不是生成器输出的概率。众所周知,非饱和损失优于最大最小变量[35],和分别是距离和梯度损失的权重。

为了使训练结果具有一定的真实感并稳定训练过程,我们使用距离和梯度损失来探索此选项,如下所示:

(9)

(10)

四、 实验

在这一部分中,我们首先讨论拟议网络的详细设置。通过与其他非深度和深度学习方法在合成和真实水下图像上的比较,说明了该方法的性能。最后,通过烧蚀研究和应用试验进一步证明了该方法的优越性。

A、 设置

1) 数据集:该方法是在一个成对的系统中进行的,使用迭代[17]中的获取数据。UGAN基于主观视觉将包含水下图像的Imagenet[36]的子集分为两类。设为不失真的水下图像集,为失真的水下图像集。CycleGAN可以学习映射函数和。最后,将和中的空中图像进行退化,生成训练数据的6128个图像对。同时,CycleGAN学习了一个类似于图像增强的映射,并将其用作比较方法。我们从相关论文和我国张子岛海产品养殖基地中选取119幅真实的水下图像,从Imagenet[36]和SUN[37]中选取96幅图像,测试集共包含215幅真实的水下图像。

2) 训练细节:在我们的训练过程中,训练图像和测试图像的尺寸为256times;256times;3,并在[-1,1]之间进行了归一化。我们使用斜率为0.2的、和LReLU以及学习率为0.0001的Adam算法[38]。批量大小设置为32。鉴别器每更新一个生成器更新五次。整个网络使用TensorFlow框架在GTX 1070 Ti上训练了60个时期。

3) 比较方法:我们将所提出的模型与其他增强方法在合成和真实水下图像上进行了比较。这些竞争方法包括FusionEnhance(FE)[3]、RB[5]、UDCP[7]、CycleGAN[24]、弱监督颜色转移(WSCT)[21]和UGAN[17]。

B、 真实世界水下增强

我们首先用非深度和深度学习的方法在测试集上评估了所提出的方法。如图5所示,由于颜色校正算法不准确,FE具有明显的红色偏移。RB可以在提高水下图像质量的同时生成一些暗色图像。我们注意到UDCP加重了蓝绿效应。CycleGAN对图像的正面影响有限,因为图像到图像的转换不太适合水下图像增强。由于缺乏稳定GAN训练的技术,WSCT在一些水下图像中引入了绿色调。例如,在WSCT的第一幅图像中,背景引入了绿色偏差。从图6可以看出,明星鱼的颜色不够清晰。与其他方法相比,该方法不仅能在水下场景中恢复

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[234269],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。