利用生成对抗网络增强水下图像外文翻译资料-外文翻译网

英语原文共 11 页，剩余内容已隐藏，支付完成后下载完整资料

利用生成对抗网络增强水下图像

摘要

自主式水下机器人（auv）依靠各种传感器（声学、惯性和视觉）进行智能决策。视觉具有非侵入性、被动性和高信息含量等特点，是一种很有吸引力的感知方式，尤其是在较浅的深度。然而，光的折射和吸收、水中悬浮颗粒物、色彩失真等因素影响着视觉数据的质量，导致图像的噪声和失真。依靠视觉感知的水下机器人因此面临着困难的挑战，因此在视觉任务上表现不佳。本文提出了一种利用生成性对抗网络（GANs）提高水下视觉场景质量的方法，目的是进一步提高对自主管道下游视觉驱动行为的输入。此外，我们还展示了最近提出的方法如何能够生成一个数据集，用于水下图像的恢复。对于任何视觉引导的水下机器人，这种改进可以通过强大的视觉感知提高安全性和可靠性。为此，我们提供了定量和定性的数据，这些数据表明，通过所提出的方法校正的图像生成了更具视觉吸引力的图像，并且为潜水员跟踪算法提供了更高的精度。

介绍

随着新型平台、传感器和推进机制的出现，水下机器人已经成为自主领域机器人学中一个稳步发展的分支。虽然自主式水下机器人通常配备各种传感器，但视觉传感因其非侵入性、被动性和节能性而成为一种有吸引力的选择。珊瑚礁监测[28]、深海勘探[32]和海底测绘[5]是视觉引导的AUV和ROV（遥控飞行器）得到广泛应用的一系列任务。这些机器人的使用确保了人类不会暴露在水下探索的危险中，因为他们不再需要冒险进入深海（这是过去执行此类任务的方式）。尽管利用视觉的优势，水下环境对视觉传感提出了独特的挑战，因为悬浮粒子的光折射、吸收和散射会极大地影响光学。例如，由于红色波长很快被水吸收，图像往往带有绿色或蓝色。随着深度的加深，随着越来越多的红色被吸收，这种效果会恶化。这种扭曲在本质上是非常非线性的，并且受到许多因素的影响，例如存在的光线数量（阴天与晴天、操作深度）、水中的粒子数量、一天中的时间和使用的相机。这可能会由于间接或直接使用颜色而在诸如分割、跟踪或分类等任务中造成困难。

随着颜色和照明开始随着深度的变化而变化，基于视觉的算法需要推广，以便在机器人可能操作的深度范围内工作。由于获取用于训练视觉系统的各种水下数据的成本高、难度大，以及引入的大量噪声，算法在这些不同的领域中可能（而且确实）性能很差。图2显示了在水下环境中可能出现的视觉场景的高度可变性。解决这一问题的一个步骤是能够恢复图像，使其看起来高于水面，即，校正颜色并从场景中移除悬浮粒子。通过对这些域从水下到非水下（图像在水上的样子）进行多对一映射，难以在多种形式的噪声中执行的算法可能只能聚焦一个干净的域。

深神经网络被证明是强大的非线性函数逼近器，特别是在视觉领域[17]。通常情况下，这些网络需要大量的数据，要么标记，要么与基本事实配对。对于自动将灰度图像着色的问题[33]，由于任何颜色图像都可以转换为黑白图像，因此配对的训练数据很容易获得。然而，水下图像由于颜色或其他一些现象的影响，缺乏真实性，这是采用类似方法进行校正的主要障碍。为了提高自主式水下机器人视觉驱动行为的性能，提出了一种基于生成性对抗网络（GANs）的水下视觉场景生成技术。我们使用最近提出的CycleGAN[35]方法来生成成对的数据集，该方法学习将图像从任意域X转换到另一个任意域Y，而不需要图像对。通过让X是一组未失真的水下图像，Y是一组失真的水下图像，我们可以生成一个看起来是水下的图像，同时保留地面的真实性。

图1：用自然和人造文物（在本例中是我们的水下机器人）对水下图像进行采样，显示可能发生的各种扭曲。随着图像中摄像机与目标之间距离的变化，不同图像之间的失真和颜色损失也不同。

相关工作

虽然最近有许多成功的自动着色方法[33，11]，但大多数都集中在将灰度图像转换为颜色的任务上。很多方法使用基于物理的技术来直接模拟光的折射[15]。特别是对于恢复水下图像中的颜色，[29]的工作使用马尔可夫随机场的能量最小化公式。与本文中提出的工作最相似的是最近提出的WaterGAN[20]，它使用一种对抗性的方法来生成真实的水下图像。他们的发生器模型可以分为三个阶段：1）衰减，这说明了光的距离依赖性衰减。2）散射，它模拟光子向图像传感器散射引起的雾度效应，以及3）渐晕，它在图像角上产生阴影效应，这可能是由某些相机镜头引起的。与我们的工作不同的是，他们使用GAN来生成水下图像，并使用严格的欧几里德损失来进行颜色校正，而我们使用GAN来进行两者。此外，在水下机器人的训练过程中，它们需要深度信息，特别是在水下机器人应用中，这些信息往往很难获得。我们的工作只需要在整个过程中在两个独立的领域（如水下和陆地）的物体图像。最近在生成模型方面的工作，特别是GANs，已经在修复[24]、风格转换[8]和图像到图像翻译[14，35]等领域取得了巨大成功。这主要是因为他们能够提供比简单的欧几里德距离更有意义的损失，欧几里德距离已经被证明会产生模糊的结果。在我们的工作中，我们将水下图像的真实外观估计问题构造为一个成对的图像到图像转换问题，使用生成性对抗网络（GANs）作为我们的生成模型（详见第3.2节）。与[14]的工作非常相似，我们使用来自两个域的图像对作为输入和基本真理。

理论方法

水下图像由于颜色或其他环境的影响而失真，缺乏真实感，这是以往彩色化方法的必然要求。此外，水下图像中存在的失真是高度非线性的；向图像添加色调等简单方法并不能捕获所有依赖项。我们建议使用CycleGAN作为一个失真模型来产生训练用的成对图像。给定一个不失真的水下图像区域和一个失真的水下图像区域，CycleGAN能够执行样式传输。给定一个未失真的图像，CycleGAN会对其进行扭曲，使其看起来像是来自失真图像的领域。然后在我们的图像重建算法中使用这些对。

3.1数据集生成

深度、光照条件、相机模型和水下环境中的物理位置都是影响图像失真程度的因素。在某些条件下，水下图像可能几乎没有失真，或者根本没有失真。我们假设是一个没有失真的水下图像，而是一个有失真的图像。我们的目标是学习函数。由于收集水下数据的困难，不仅存在或，而且从来没有两者都存在。为了避免图像对不足的问题，我们使用CycleGAN从生成，这给了我们一个成对的图像数据集。给定两个数据集和，其中和，CycleGAN学习一个映射。图2显示了从CycleGAN生成的成对样本。从这个成对的数据集中，我们训练一个生成器G来学习函数。需要注意的是，在CycleGAN的训练过程中，它同时学习了一个类似于的映射。在第4节中，我们将CycleGAN生成的图像与通过我们的方法生成的图像进行比较。

3.2对抗网络

在机器学习文献中，生成性对抗网络（GANs）[9]是一类基于博弈论的生成性模型，其中生成性网络与对手竞争。从分类的角度来看，生成器网络G生成主动尝试“愚弄”鉴别器网络D的实例。目标是鉴别器网络能够区分来自数据集的“真”实例和生成器网络生成的“假”实例。在我们的例子中，根据一个图像ID，生成器被训练生成一个试图愚弄鉴别器的图像，鉴别器被训练来区分扭曲和非扭曲的水下图像。在最初的GAN公式中，我们的目标是解决minimax问题：

（1）

注：为便于记法，我们将进一步省略和。在这个公式中，鉴别器被假设为一个具有sigmoid交叉熵损失函数的分类器，这在实践中可能会导致消失梯度和模式崩溃等问题。

如[2]所示，随着鉴别器的改进，发生器的梯度消失，使得训练变得困难或不可能。当生成器“折叠”到一个点上时，会发生模式折叠，仅用一个实例欺骗鉴别器。为了说明模式折叠的效果，假设一个GAN被用来从MNIST[18]数据集生成数字，但它只生成相同的数字。实际上，期望的结果是生成所有数字的不同集合。为此，最近有许多方法假设鉴别器的损失函数不同[21、3、10、34]。我们关注Wasserstein-GAN（WGAN）[3]公式，该公式建议通过使用Kantorovich-Rubinstein对偶构造一个值函数来使用地球移动器或Wasserstein-1距离W[31]。在这个公式中，W近似于一组k-Lipschitz函数f作为神经网络模型。为了保证f是k-Lipschitz，将鉴别器的权值限制在一定的范围内。在我们的工作中，我们采用了带梯度惩罚的Wasserstein GAN（WGAN-GP）[10]，它通过对鉴别器的输出相对于其输入的梯度范数实施软约束来确保Lipschitz约束。在[10]之后，我们的新目标变成

（2）

其中Pxcirc;定义为来自真实数据分布和生成器分布的点对之间沿直线的样本，而lambda;GP是一个权重因子。为了给G一些地面真实感，以及捕获图像中的低电平频率，我们还考虑了L1损耗

（3）

结合这些，我们得到了我们网络的最终目标函数，我们称之为水下GAN（UGAN）

（4）

图2：由CycleGAN生成的地面真实和扭曲图像的成对样本。第一排：地面真相。下一行：生成的样本。

3.3.图像梯度差分损失

通常情况下，生成模型会产生模糊的图像。我们探索了一种通过直接惩罚生成器中图像梯度预测的差异来锐化这些预测的策略，如[22]所建议的。给定一个地面真值图像IC、预测图像IP=G（ID）和alpha;（其为大于或等于1的整数），梯度差分损失（GDL）由

（5）

在我们的实验中，当考虑GDL时，我们将我们的网络表示为UGAN-P，它可以表示为

（6）

3.4网络体系结构

我们的生成器网络是一个完全卷积的编码器-解码器，类似于[14]的工作，由于输入和输出之间的结构相似，它被设计为“U-Net”[26]。编码器-解码器网络通过卷积对输入进行下采样（编码）到低维嵌入，在低维嵌入中，然后通过转置卷积对该嵌入进行上采样（解码）以重构图像。使用“U-Net”的优势来自于显式地保留编码器产生的空间依赖性，而不是依赖于嵌入来包含所有信息。这是通过添加“跳过连接”来实现的，该“跳过连接”将从编码器中的卷积层i产生的激活连接到解码器中的转置卷积层n - i 1的输入，其中n是网络中的总层数。我们的生成器中的每个卷积层都使用4times;4的核，步长为2。在网络的编码器部分中的卷积之后是批归一化[12]和斜率为0.2的泄漏ReLU激活，而在解码器中的转置卷积之后是ReLU激活[23]（解码器中没有批范数）。解码器的最后一层不受此影响，它使用TanH非线性来匹配输入分布[[1，1]。最近的工作已经提出了实例规范化[30]来提高图像到图像的翻译任务的质量，但是我们没有发现额外的好处。

我们的完全卷积鉴别器是在[25]的基础上建模的，只是没有使用批处理规范化。这是因为WGAN-GP对每个输入的鉴别器梯度的范数分别进行惩罚，而批处理规范化将使之失效。[10]的作者推荐层规范化[4]，但是我们没有发现显著的改进。我们的鉴别器被建模为PatchGAN[14，19]，它在图像块级别进行鉴别器。我们的PatchGAN鉴别器输出一个32times;32times;1的特征矩阵，该特征矩阵为高频提供了一个度量，而常规鉴别器输出一个与真或假对应的标量值。

图3:ImageNet测试集的样本。网络既可以恢复颜色，也可以在出现少量颜色时校正颜色。

实验

4.1数据库

我们使用Imagenet的几个子集[7]来训练和评估我们的方法。我们还评估了一个频率和空间域的潜水员跟踪算法对一个从Youtubetm1水肺潜水员视频。选择包含水下图像的图像网络子集进行CycleGAN训练，并基于视觉检测将其分为两类。我们设X为不失真的水下图像集，Y为失真的水下图像集。X包含6143幅图像，Y包含1817幅图像。然后我们训练CycleGAN学习F:X→Y的映射，使得X的图像看起来来自Y。最后，我们的用于训练数据的图像对是通过扭曲X和F中的所有图像生成的。图2显示了样本训练对。与CycleGAN相比，我们使用了从FlickrTM获取的56幅图像的测试集。

4.2评价

我们在CycleGAN生成的图像对上训练UGAN和UGAN-P，并对来自测试集Y的图像进行评估。请注意，这些图像不包含任何基本事实，因为它们是来自Imagenet的原始扭曲图像。用于训练和测试的图像大小为256times;256times;3，并在[1，1]之间进行了归一化。图3显示了测试集的样本。值得注意的是，这些图像包含不同数量的噪声。UGAN和UGAN-P都能够恢复丢失的颜色信息，并纠正任何存在的颜色信息。虽然许多扭曲的图像在整个图像空间中包含蓝色或绿色色调，但情况并非总是如此。在某些环境中，靠近相机的物体可能会以正确的颜色不失真，而图像的背景包含失真。在这些情况下，我们希望网络只纠正图像中出现失真的部分。图3的最后一行显示了这样一个图像的示例。小丑鱼的橙色保持不变，而背景中扭曲的海葵则进行了颜色校正。对于定量评估，我们将其与CycleGAN进行比较，因为CycleGAN在G:Y→X的训练过程中固有地学习逆映射。我们首先使用Canny边缘检测器[6]，因为这提供了与地面真实性相比的图像的颜色不可知评估。其次，我们比较局部图像补丁，以提供图像的清晰度指标。最后，我们展示了现有的水下机器人跟踪算法如何利用生成的图像提高性能。

4.3与cyclegan比较

需要注意的是，在学习映射F:X→Y的过程中，CycleGAN也学习了映射G:Y→X。这里我们对我们的方法进行了比较。我们使用Canny边缘检测器[6]对图像进行颜色不可知的评估，因为原始图像包含扭曲的颜色，无法与原始图像进行对比。由于恢复颜色信息不会改变图像的整体结构，因此我们测量原始图像和生成图像中找到的边缘之间的图像空间距离。图4显示了原始图像和边缘检测

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[234258]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

利用生成对抗网络增强水下图像外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章