英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于深度神经网络的图像去噪及修复
摘要
我们提出了一种新的低级视觉问题的方法,结合稀疏编码和使用去噪自动编码器(DA)的深度网络预训练。我们提出了一个替代的训练方案,成功地适应DA,最初设计为对于任务图像去噪和盲修复的无监督特征学习。我们的方法在图像去噪中的性能与广泛使用的稀疏编码技术(KSVD)相当。更重要的是,在盲修复中,所提出的方法为一些尚未解决的复杂问题提供了解决方案。具体而言,我们可以自动从图像中删除复杂图案,如叠加文本,而不是简化图像如随机丢失像素等。此外,所提出的方法不需要关于需要修复的区域的先验信息。实验结果表明了该方法在图像去噪和盲修复中的有效性。我们还表明,我们新的DA训练方案更有效,可以提高无监督特征学习的性能。
1 介绍
观察到的图像信号常常受到采集通道或人工编辑的破坏。图像恢复技术的目标是从嘈杂的图像中恢复原始图像。图像去噪和修复是常见的图像恢复问题,它们本身都是有用的,也是许多其他应用程序的重要预处理步骤。当图像受到许多采集方法都会有的加性高斯白噪声的干扰时会出现图像去噪问题,而当某些像素值丢失或者当我们想要从图像中去除更复杂的图像(如叠加文本或其他对象)时会出现图像修补问题。本文重点研究图像去噪和盲修复。
已经提出的用于图像去噪的各种方法。一种方法是将图像信号传输到可以更容易地与噪声分离的替代域[1,2,3]。例如,由Portilla等人提出的带有高斯尺度混合的贝叶斯最小二乘(BLS-GSM)是基于对小波域的转换[2]。
另一种方法是直接在图像域中捕获图像统计信息。 遵循这种策略,最近一系列利用(线性)稀疏编码技术的模型越来越受到关注[4,5,6,7,8,9]。 稀疏编码方法从超完整字典的稀疏线性组合重建图像。 在最近的研究中,字典是从数据中学习的,而不是像以前那样手工制作。 这一学习步骤显着提高了稀疏编码的性能。 这些方法的一个例子是[6]中提出的KSVD稀疏编码算法。
图像修复方法可以分为两类:非盲修复和盲修复。 在非盲修复中,需要填充的区域被先验地提供给算法,而在盲修复中,不提供关于被破坏的像素的位置的信息,并且该算法必须自动识别需要修补的像素。 最先进的非盲修复算法可以很好地去除文本,涂鸦甚至非常大的对象[10,11,12]。 一些图像去噪方法在修改之后,也可以应用于具有最新结果的非盲修复[7]。 然而,盲修复是一个更难的问题。 据我们所知,现有的算法只能解决i.i.d. 或简单结构化的脉冲噪声[13,14,15]。
虽然稀疏编码模型在实践中表现良好,但它们具有浅的线性结构。 然而,最近的研究表明,非线性,深度模型可以在各种现实世界问题中实现卓越的性能。 一个典型的深层模型是多层神经网络。 在[16]中,Jain等人。 提出用卷积神经网络对图像去噪。 在本文中,我们提出结合稀疏编码和深度网络的优势,“稀疏”和“深度”原理来解决图像去噪和盲修复问题。 深层神经网络的稀疏变体预计会在视觉问题中表现得特别好,因为它们具有与人类视觉皮层相似的结构[17]。
在提出一种新的训练方案之前,通常认为具有许多隐藏层的深度神经网络很难训练,即在传统的后向传播训练之前采用贪心分层预训练以更好地初始化网络参数[18,19]。 有几种预训练方法,包括受限玻尔兹曼机(RBM)和去噪自动编码器(DA)[20,21]。
我们在我们的方法中使用DA进行预培训,因为它适用于去噪和修复任务。 DA是一个双层神经网络,它尝试从它的嘈杂版本重建原始输入。 DA的结构如图1a所示。 通过使用前一层的隐藏层激活作为下一层的输入,可以堆叠一系列DA以形成称为堆叠去噪自动编码器(SDA)的深度网络。
SDA广泛用于无监督的预训练和特征学习[21]。在这些情况下,只提供干净的数据,而在训练期间通过向干净的数据添加随机高斯噪声或椒盐噪声来生成噪声版本。训练完一层后,只有干净的数据被传送到网络上,以产生下一层的干净训练数据,同时丢弃噪声数据。通过随机破坏所产生的清洁训练数据来构造下一层的噪声训练数据。
然而,对于图像去噪和修复任务,干净和有噪声输入的选择是自然的:它们被分别设置为去噪或修复后的期望图像和观察到的噪声图像。因此,我们提出了一种新的训练方案,从相应的噪声观察中训练DA来重建干净的图像。在训练完第一层后,计算噪声输入和干净输入的隐藏层激活作为第二层的训练数据。对于图像去噪和修复任务的实验表明,SDA能够学习适应特定噪声的特征,从白高斯噪声到叠加文本。
受SDA在去噪任务中学习噪声特有特征的能力的启发,我们认为在无监督特征学习问题中,所使用的噪声类型也会影响性能。具体而言,不是用任意选择的噪声破坏输入,更复杂的腐败过程与数据中真正的噪声分布一致,可以提高学习功能的质量。例如,在学习音频特征时,不同频率上的噪声变化通常是不同的,有时是相关的。因此,不要用简单的i.i.d破坏训练数据。高斯噪声,具有更多真实参数的高斯噪声可以是更好的选择。
2 模型描述
在本节中,我们首先介绍问题的表述和一些基本的符号。 接下来我们简要介绍一下有关去噪自动编码器(DA)的初步工作,这是我们提出的方法的一个基本组成部分。
- 去噪自动编码器(DA)架构 (b) 堆叠式稀疏降噪自动编码器架构
图1 模型架构
2.1 问题表述
假设x是观察到的噪声图像,y是原始无噪声图像,我们可以将图像损坏过程表示为:
(1)
其中是破坏输入的任意随机破坏过程。 然后,去噪任务的学习目标变为:
(2)
根据这个公式,我们可以看到这里的任务是找到一个最接近的函数。 我们现在可以通过在不同情况下选择合适的来处理图像去噪和修复问题。
2.2 去噪自动编码器
令为的原始数据,为相应的损坏版本。 DA的定义如图1a所示:
(3)
(4)
其中是以元素方式应用于矢量的sigmoid激活函数,是隐藏层激活,是的近似值并且表示权重和偏差。 可以使用各种优化方法对DA进行训练,以尽量减少重建损失:
(5)
在完成DA的训练后,我们可以通过使用第一层的隐藏层激活作为下一层的输入来继续训练下一层。 这就是所谓的堆叠稀疏去噪自动编码器(SDA)[21]。
2.3 堆叠稀疏去噪自动编码器
在本节中,我们将描述所提出的模型堆叠稀疏消噪自动编码器(SSDA)的结构和优化目标。 由于直接处理整个图像是棘手的事实,我们反而从图像中绘制重叠的部分作为我们的数据对象。 在训练阶段,模型提供了损坏的噪声图像块,对于和原始块。 在训练之后,SSDA将能够在任何噪声观察的情况下重建相应的清晰图像。
为了结合稀疏编码和神经网络的优点并避免过度训练,我们训练一个DA以最小化由稀疏诱导项调整的重构损失:
(6)
表一 降噪性能比较。 性能是通过峰值信噪比(PSNR)来衡量的。 结果在测试集上取平均值。
其中
和分别定义在(3),(4)中。这里是隐藏层的平均激活。我们通过选择小的来使隐藏层表示稀疏化,这样KL散射项将鼓励隐藏单元的平均激活很小。因此,隐藏的单位大部分时间都是零,实现稀疏。
在训练完第一个DA之后,我们分别使用和作为第二个DA的干净和噪声输入。 这与[21]中描述的方法不同,其中被丢弃并且被用作噪声输入。我们指出我们的方法更自然,因为与位于不同的空间,所以将应用于的含义并不明确。
然后,我们用从K个堆叠的DA获得的权重来初始化深度网络。 该网络具有一个输入层,一个输出和隐藏层,如图1b所示。 然后使用标准的反向传播算法训练整个网络以最小化以下目标:
(7)
在这里,我们删除了稀疏正则化,因为预先训练的权重将用作网络的正则化[18]。
在预训练和微调阶段,利用L-BFGS算法(准牛顿法)对损失函数进行优化,根据文献[22]可以在我们的设置中实现最快的收敛。
3 实验
我们将注意力集中在对灰度图像进行去噪和修复,但对彩色图像进行归纳并不困难。 我们使用收集的一组自然图像作为我们的训练集和标准测试图像作为测试集。 我们通过应用函数(1)给他们创建干净的训练和测试图像的噪声图像。 然后从干净和嘈杂的图像中提取图像部分以训练SSDA。 我们使用峰值信噪比(PSNR)来量化去噪结果:,其中是均方误差。 PSNR是用于评估图像去噪结果的标准指标之一。
3.1 去噪白高斯噪声
图2 去噪结果的视觉比较。 展示出了具有标准偏差sigma;= 50的白高斯噪声破坏的图像的结果。 最后一行放大原始图像的轮廓区域。
我们首先用各种标准偏差的加性高斯白噪声来破坏图像。对于所提出的方法,针对每个噪声等级训练一个SSDA模型。我们评估不同的超参数组合并报告最佳结果。我们将K设置为2,因为添加更多图层可能会稍微提高性能,但需要更多训练时间。同时,我们尝试不同的补丁大小,发现较高的噪声水平通常需要较大的补丁大小。隐藏层的维度通常设置为一个常数因子乘以输入的维度。 SSDA对正则化术语的权重不是很敏感。对于贝叶斯最小二乘高斯规模混合(BLS-GSM)和KSVD方法,我们使用从相应作者获得的完全训练和优化的工具箱[2,7]。所有三个模型都被调整为每个输入的特定噪声水平。定量结果的比较见表1。数值结果显示三种算法之间的差异是统计显着性的。视觉比较如图2所示。我们发现SSDA比KSVD和BLS-GSM提供了更清晰的边界和恢复更多的纹理细节,尽管PSNR得分很接近。这表明虽然所有像素的平均重构误差相同,但SSDA在复杂区域去噪方面效果较好。
3.2 图像修复
图3 修复结果的视觉比较
对于图像修复任务,我们在文本去除问题上测试我们的模型。训练和测试集都包含图像,其中包含各种字体和大小从18像素到36像素的超级拼图文本。由于缺乏可比较的盲修补算法,我们将我们的方法与非盲KSVD修复算法[7]进行了比较,该算法通过要求了解哪些像素已损坏并需要修复,从而显着简化了问题。视觉比较如图3所示。我们发现SSDA能够完全消除小字体文本,而较大字体的文本变暗。所提出的方法是盲目的,即使KSVD是非盲算法,也产生与KSVD相当的结果。非盲目修补是一项发展良好的技术,适用于清除小物体。然而,盲目修补更困难,因为它要求自动识别需要修补的模式,而这本身就是一个非常具有挑战性的问题。据我们所知,以前的方法只能删除i.i.d.或简单结构化的脉冲噪声[13,14,15]。 SSDA对复杂模式进行盲目修复的能力是本文的主要贡献之一。
表二 分类结果的比较。 每列中的最高精度以粗体显示。
3.3隐藏层特征分析
传统上,当训练去噪自动编码器时,无论特定训练数据的特征如何,通常会使用任意选择的简单噪声分布生成噪声训练数据[21]。但是,我们建议这个过程值得更多关注。在现实世界的问题中,干净的训练数据实际上通常会受到噪音的影响。因此,如果我们估计噪声的分布并将其夸大以生成噪声训练数据,则最终的DA将学习对输入数据中的噪声更强健并且产生更好的特征。
受SSDA在对不同噪声模式进行噪声消除训练时学习不同特征的能力的启发,磨损训练自动编码器的噪声模式可以提高特定领域的无监督特征学习的性能。我们通过比较MNIST数据集上学习的不同特征的分类性能来证明这一点。我们用不同类型的噪声对DA进行训练,然后将它们应用于手写数字,这些手写数字受到他们所训练的噪声类型以及其他类型的噪声的影响。我们比较了学习功能的质量,并通过对其进行比较,并比较了相应的等级准确度。结果如表2所示。我们发现,各类噪声的最高分类精度是通过训练去除这种类型噪声的DA获得的。这并不奇怪,因为使用了更多的信息,但它表明,不是随意地破坏输入,而是通过简单的分布并将其提供给DA,但更复杂的方法以更现实的方式破坏输入可以获得更好的性能。
4 讨论
4.1
与依赖结构先验的模型不同,我们的方法的去噪能力来自于学习。 有些型号,例如BLS-GSM,已经精心设计了结构,可以给出令人惊讶的好结果,随机参数设置[23]。 然而,随机初始化的SSDA显然不能产生任何有意义的结果。 因此,SSDA消除和修复图像的能力主要是培训的结果。 鉴于依赖于结构先验的模型通常具有非常有限的应用范围,我们的模型可以更方便地适应其他任务。 经过一些修改,可以用SSDA去噪音频信号或完成缺失数据(作为数据预处理步骤)。
4.2 优点和局限性
传统上,对于复杂的修补任务,先前提供了一个修复蒙版,该蒙版告诉算法哪些像素对应于噪点并需要修补。 然而,不变的这是很耗时的,有时甚至是不可能的。 我们的方法是盲目的,在这种情况下具有显着的优势。 这使得我们的方法成为全自动和噪声模式特定图像处理的合适选择。 我们的方法的局限性也很明显:SSDA强烈依赖于监督培训。 在我们的实验中,我们发现SSDA可以归纳为看不见的,但类似的噪音模式。 然而,一般来说,SSDA只能删除它在训练数据中看到的噪声模式。 因此,SSDA只适用于去噪任务范围较窄的情况,比如重构某个程序损坏的图像。
5 总结
在本文中,我们提出了一种新颖的图像去噪和盲图像处理方法,它将稀疏编码和深度神经网络预先训练与去噪自动编码器相结合。我们提出了一种新的DA培训方案,可以在统一的框架内对图像进行去噪和修补。在实验中,我们的方法实现了与传统线性稀疏编码算法相媲美的简单降噪加性高斯白噪声任务的性能。此外,我们的非线性方法成功解决了复杂模式盲目修复的难题,据我们所知,这种模式以前没有提到。我们还表明,提出的训练方案能够提高DA在无监督特征学习任务中的表现。在我们未来的工作中,我们希望探索将所提出的方法适用于各种其他应用程序的可能性,如音频和视频的去噪和修补,图像超分辨率和缺失数据完成
全文共10162字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[13434],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。