英语原文共 21 页,剩余内容已隐藏,支付完成后下载完整资料
用于动态场景去模糊的深度多尺度卷积神经网络
摘要
为了消除这些复杂的运动模糊,传统的基于能量优化的方法依赖于一些简单的假设,如模糊核部分均匀或局部线性过多,而最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法无法消除模糊,模糊核很难近似或参数化(如物体运动边界)。在这项工作中,我们提出了一个多尺度卷积神经网络,以端到端的方式恢复由各种来源引起的模糊图像。同时,我们提出了多尺度损失函数来模拟传统的由粗到细的方法。此外,我们提出了一个新的大规模数据集,提供了一对现实模糊图像和相应的地面真值锐化图像,由高速相机获得。通过在该数据集上的训练,我们证明了我们的方法在动态场景去模糊方面不仅在定性上,而且在定量上都达到了最先进的效果。
-
介绍
运动模糊是摄影中最常见的伪影类型之一。相机抖动和快速物体运动会降低图像质量,使图像变得模糊。此外,各种原因,如深度变化,遮挡在运动边界使模糊更加复杂。单图像去模糊问题是在给定模糊图像的情况下,对未知的锐度图像进行估计。早期的研究侧重于消除由简单的平移或旋转摄像机运动引起的模糊。最近的作品尝试处理由深度变化、相机抖动和动态环境中的物体运动造成的一般不均匀模糊。这些方法大多基于以下几点模糊模型 [28, 10, 13, 11].
潜在的B、S和n隐藏的图像清晰的图像和噪音,分别。K是一个大的稀疏矩阵,它的每一行都包含一个作用于S的局部模糊核来生成一个模糊像素。在实际应用中,模糊核是未知的,因此,盲去模糊方法试图同时估计潜在的锐化图像S和模糊核K。K是一个大的稀疏矩阵,它的每一行都包含一个作用于S的局部模糊核来生成一个模糊像素。在实践中,模糊内核是未知的。
为每个像素寻找模糊核是一个严重不适定的问题问题。因此,一些方法试图参数化模糊对模糊的来源进行简单假设的模型。在[28,10],他们认为模糊是由3D相机造成的运动。然而,在动态场景中,核估计是更具挑战性的,因为有多个移动物体以及摄像机的运动。因此,Kim等人提出了[14]一种联合分割的动态场景去模糊方法和去模糊非均匀模糊的图像,允许在一个段内对复杂(非线性)核的估计。此外,Kim和Lee[15]近似模糊并提出了一种估计方法潜像和局部线性运动联合。然而,这些模糊内核近似仍然存在不准确的,尤指在突然运动不连续的情况下和遮挡。注意这样的错误内核估计直接影响潜影的质量,导致不希望出现的振铃现象。
最近,CNNs (Convolutional Neural Networks,卷积神经网络)已经有了被应用于许多计算机视觉问题,包括去模糊的问题,并显示了有希望的结果[29, 25, 26, 1]。因为没有对真实模糊的图像和真实清晰图像可用于监督学习,它们通常使用卷积产生的模糊图像合成模糊内核。合成了[29,25,1]使用均匀模糊核的模糊图像进行训练。在[26]中,分类CNN被训练成局部估计线性模糊内核。因此,基于cnn的模型仍然存在只适合某些特定类型的模糊,有对更常见的空间变化模糊的限制。
图1所示。(a)输入模糊图像。(b) Sun等人[26]的结果。(c)我们的去模糊结果。我们的结果显示了没有工件的清晰的对象边界。
因此,现有的方法在推广应用前还存在许多问题。
这些主要是由于使用了简单和不现实的模糊内核模型。因此,为了解决这些问题,在这项工作中,我们提出了一种新的端到端的深度学习方法,用于动态场景去模糊。
首先,我们提出了一个多尺度的CNN,它可以直接重新存储潜在图像,而不需要任何受限的模糊核模型。特别地,多尺度体系结构被设计成模拟传统的由粗到细的优化方法。与其他方法不同的是,我们的方法没有给出明确的模糊内核。因此,我们的方法是免费的工件产生的内核估计误差。其次,我们用一个多尺度的损失来训练所提出的模型,该模型适合于大大提高收敛性的由粗到精的结构。此外,我们还利用对抗性损失[9]进一步改进了结果。第三,我们提出了一个新的现实模糊图像数据集与地面真相锐化图像。为了获得用于训练的无模型核数据集,我们采用了[17]中引入的数据集获取方法。由于模糊过程可以通过在快门时间对锐化图像进行积分来建模[17,21,16],我们用高速相机捕获了动态场景的一系列锐化帧,并将它们平均起来,考虑到伽马校正来生成模糊图像。
通过训练数据集和添加适当的增大,我们的模型可以处理一般地方模糊内核隐式。损失项优化结果像地面真理,它甚至恢复闭塞地区所示的模糊内核是极其复杂的在哪里图1所示。我们训练我们的模型与数以百万计的成对的形象在动态补丁,取得了显著的改进现场由模糊变清晰。大量的实验结果证明,该方法的性能优越的最先进的动态场景由模糊变清晰定性和定量评价方法。
1.1。相关的工作
有几种使用CNNs的方法发自内心的戒指[29,26,25,1]Xu等人提出了一种图像反褶积CNN,用于在非盲环境下对模糊图像进行去模糊处理。他们构建了一个基于可分离内核特性的网络,该特性使得(在诗句中)模糊内核可以分解成少量的有效过滤器。此外,他们还加入了去噪网络[7],通过在他们提出的网络末端连接该模块来减少诸如噪音和色彩饱和度等视觉干扰。另一方面,Schuler等人[25]提出了一种基于CNN的盲去模糊方法。他们提出的网络模拟传统的基于优化的去模糊方法,将特征提取、核估计和潜影估计的步骤由粗到精进行迭代。为了获得成对的锐化和模糊图像进行网络训练,他们使用高斯过程生成均匀的模糊内核,并将它们与从Im ageNet数据集[3]收集的锐化图像进行卷积,从而合成了大量的模糊图像。然而,由于它们的次优架构,它们报告了大型模糊的性能限制。
与Couzinie-Devy等人[2]的工作类似,Sun等人[26]提出了一种顺序去模糊方法。首先,他们使用73个候选模糊内核生成模糊和锐化补丁对。接下来,他们训练分类
测量一个局部补丁的特定模糊内核的可能性。然后通过对一个由CNN概率和平滑先验组成的能量模型进行优化,得到平滑变化的模糊核。最后的潜采用传统的优化方法[30]进行图像估计。注意,所有这些方法都需要精确的内核恢复潜像的估计步骤。相比之下,我们提出的模型是学习产生潜势直接成像,无需估计模糊内核。在其他计算机视觉任务中,有几种由粗到细的形式应用了体系结构或多尺度体系结构[8, 6, 4, 23, 5]。然而,并不是所有的多尺度cnn是为了产生最佳结果而设计的,类似于[25]。深度估计,光流估计等,网络通常产生的输出具有较小的分辨率比较输入图像分辨率[8,6,5]。这些方法处理长期依赖有困难吗采用多尺度体系结构。因此,我们制作了一个保留的多尺度架构细粒度的详细信息以及长期的来自更粗尺度的依赖。此外,我们使当然,中级水平的网络有助于最后的阶段通过多尺度损失的训练网络来实现。
1.2。对于动态场景去模糊
传统的去模糊学习方法是先找到模糊核再进行潜像估计。基于CNN的方法也不例外[25,26]。然而,估计内核涉及几个问题。首先,假设简单核卷积不能模拟一些具有挑战性的情况,如闭塞区域或深度变化。其次,除非对模糊模型进行精心设计,否则核估计过程对噪声和饱和度是敏感的。此外,错误地估计内核会导致潜在图像中的伪影。第三,在动态场景中为每个像素寻找空间变化的内核需要大量的内存和计算。
因此,我们在模糊数据集生成和潜像估计中都采用了无核方法。在模糊图像生成中,我们遵循近似相机成像过程,而不是假设特定的运动,而不是寻找或设计复杂的模糊核。我们捕获连续的锐帧,并集成以模拟模糊过程。详细的程序在第2节中描述。请注意,我们的数据集仅由模糊和锐化图像对组成,并且本地内核信息隐式地嵌入其中。在图2中,我们的无内核模糊图像与传统的均匀模糊核合成图像进行了比较。值得注意的是,我们的方法生成的模糊图像显示了由移动的人和静态背景造成的真实的和空间变化的模糊,而传统方法合成的模糊图像则没有这种效果。对于潜像估计,我们不假设有模糊源,只在模糊和锐化图像对上训练模型。因此,我们提出的方法在去模糊中不存在与内核相关的问题。
模糊数据集不是建模一个内核卷积一个清晰的图像,我们选择记录清晰的信息,以便随着时间的推移进行集成,从而产生模糊图像。由于相机传感器在曝光过程中接收到光线,所以每次都会积累强烈的图像刺激,产生模糊的图像[13]。然后利用非线性相机响应函数(CRF)将积分信号转换成像素值。因此,这个过程可以通过积累高速视频帧的信号来近似。模糊积累过程可以建模如下。
其中T和S(T)分别表示时刻T的锐化图像的曝光时间和传感器信号。同理,M, S[i]分别是曝光时间内采集到的帧数和第i个锐帧信号。g是将一个清晰的潜信号S(t)映射到一个观测图像S(t)中的CRF,使得S(t) = g(S(t)),或者S[i] = g(S[i])。在实际应用中,我们只对原始信号和CRF未知的情况下的视频帧进行观测。众所周知,当涉及到非线性CRF时,非均匀去模糊变得非常困难,需要考虑非线性因素。然而,目前对于具有空间变化模糊[27]的图像,还没有可用的CRF估计技术。当地面真理CRF不是给定的,常见的实用方法是近似CRF的伽马曲线gamma;= 2.2如下所示,因为它被称为aproximated平均已知的CRF [27]。
因此,通过对gamma函数进行校正,我们通过S[i] = g 1 (S [i])从观测到的图像S[i]中获得潜在帧信号S[i],然后使用(2)合成相应的模糊图像B。我们使用GOPRO4 Hero Black camera来生成我们的数据集。我们用GOPRO相机拍摄了240个fps的视频,然后取其连续潜伏期帧数(7 - 13)的平均值,以产生不同强度的模糊效果。例如,平均15帧模拟以1/16快门速度拍摄的照片,而相应的锐像快门速度是1/240。值得注意的是,每个模糊图像对应的锐潜影被定义为使模糊图像所使用的锐帧之间的中间帧。最后,我们的数据集由3214对分辨率为1280x720的模糊和清晰图像组成。建议的GOPRO数据集可在我们的网站1上公开获取。图2。(a)地面真相清晰图像。(b)卷积均匀模糊核生成的模糊图像。(c)通过平均锐帧来模糊图像。在这种情况下,模糊主要是由人的运动造成的,让背景保持原样。模糊内核是不均匀的,复杂的形状。然而,当用均匀核卷积的方法合成模糊图像时,背景也会变得模糊,就像相机抖动导致的模糊一样。为了模拟动态场景模糊,我们需要使用无内核方法。
3.在我们的模型中,更精细的尺度图像去模糊是由更粗糙的尺度特征来辅助的。为了在保留精细级信息的同时挖掘粗级和中级信息,我们的网络的输入和输出都采用高斯金字塔的形式。请注意,大多数其他由粗到细的网络都采用单个图像作为输入和输出。
3.1。模型架构除了多尺度架构外,我们还使用了一个稍微修改过的残余网络结构[12]作为我们模型的构建块。与普通的CNN相比,使用剩余的网络结构可以实现更深层次的架构。此外,由于模糊和锐化图像对在值上是相似的,因此只让参数了解它们之间的差异是有效的。我们发现,在原始剩余构件的快捷连接后,去掉修正后的线性单元,可以提高训练时的收敛速度。我们将修改后的构建块表示为ResBlock。原始的和我们修改后的构件如图3所示。通过将足够多的卷积层与重块叠加,每个尺度上的接受域都得到了扩展。细节将在下面的段落中描述。为了一致性,我们按照分辨率递减的顺序来定义尺度级别(即最细尺度为1级)。除非另有说明,否则我们使用总K = 3个刻度。在训练时,我们将输入和输出的高斯金字塔贴片的分辨率设置为{256 256,128 128,64 64}。连续的量表之间的比例为0.5。对于所有的卷积层,我们将滤波器的大小设置为55。由于我们的模型是全卷积的,在测试时,补丁的大小可能会随着GPU内存的允许而变化。总体架构如图4所示。
图3。(a)原始剩余网络积木。(b)修改我们网络的建筑块。我们没有使用批化标准化层,因为我们训练了小型批量2的模型,它比常规的批化更小。我们发现,在块输出在经验上对性能有好处的时候,我们发现了去除正化的线性单元。
图4。多尺度网络架构。Bk、Lk、Sk分别表示模糊图像、潜图像和地面真值锐化图像。下标k表示高斯金字塔中的第k个尺度,向下采样到1/2 k尺度。我们的模型以一个模糊的图像金字塔作为输入,输出一个估计的潜在图像金字塔。每一个中等规模的输出都是经过训练的。在测试时,选择原始的比例图像作为最终结果。
粗级网络
最粗级网络位于网络的前端,它定位最粗级网络。第一个卷积层将1/4分辨率,64 64大小的图像转换成64个特征图。然后对19个重块进行叠加,最后进行卷积层,将特征图转换为输入维数。每个卷积层都用零填充来保持分辨率。总共有40个卷积层。每个尺度层的卷积层数是确定的,因此总的模型应该有120个卷积层。因此,最粗糙的网络具有足够大的接受域来覆盖整个patch。在这一阶段的最后,生成最粗的水平潜锐图像。此外,来自最粗级别输出的信息将被传递到下一阶段,即更精细的网络。为了将最粗的输出转换为下一个更细尺度的输入大小,输出patch会通过一个上卷积[22]层,而其他的多尺度方法则会使用重塑[8]或者采样[4,6,23]。由于锐斑和模糊斑共享低频信息,利用上卷积学习合适的特征有助于去除冗余。在我们的实验中,使用上卷积比采样有更好的性能。然后,将上卷积功能与更小尺度的模糊patch连接起来作为输入。
更细层次的网络与最粗层次的网络结构基本相同。然而,第一个卷积层采用了前一阶段的清晰特征,以及它自己模糊的输入图像,以串联的形式。每个卷积滤波器的大小为5times;5,其特征图的数量与最粗级别相同。除了最后一个最细的尺度外,在下一阶段之前还有一个上卷积层。在最细的尺度上,恢复了原分辨率的清晰图像。
3.2。我们的模型是在建议的GOPRO数据集上训练的。在3214对中,有2103对用于训练,剩余的用于测试。为了防止我们的网络过度拟合,涉及到几种数据增强技术。在几何变换方面,patch是水平和垂直随机翻转,旋转90度。对于颜
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[239598],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。