图像的超像素分割算法的设计与实现外文翻译资料

 2021-11-25 22:36:41

英语原文共 27 页

摘要

Superpixels将感知上类似的像素分组,以创建视觉上有意义的实体,同时大幅减少后续处理步骤。从这些属性来看,自2003年命名以来,超像素算法受到了很多关注(Ren和Malik,2003)。到目前为止,主流的的超像素算法已经成为低级视觉的标准工具。因此,由于它们在广泛的应用中被迅速采用,适当的基准对于算法选择和比较至关重要。到目前为止,快速增长的算法数量以及不同的实验设置阻碍了统一基准的发展。我们对28种最先进的超像素算法进行全面评估,利用基于公平比较的基准,旨在提供与应用相关的新见解。为此,我们明确讨论了参数优化以及严格执行连接的重要性。此外,通过扩展众所周知的指标,我们能够总结算法性能,而不依赖于生成的超像素的数量,从而克服了可用基准的主要限制。此外,我们讨论了运行时,抗噪声的鲁棒性,模糊和变换,较好实现细节以及视觉质量。最后,我们提出了超像素算法的整体排名,它重新定义了最新技术,并使研究人员能够轻松选择适当的算法和相应的实现,这些实现本身作为我们基准的一部分公开提供。

  1. 简介

由Ren和Malik(2003)引入,超像素在像素颜色和其他低级属性方面相似。在这方面,超级像素解决了数字图像处理所固有的两个问题(Ren和Malik,2003):首先,像素仅仅是离散化的结果;其次,大图像中的大量像素阻止了许多算法在计算上的可行性。 Ren和Malik将超像素作为更自然的实体引入对感知属于一起的像素进行分组,同时大大减少后续算法的基元数量。

超像素已被广泛应用,甚至在“超像素”这个术语被创造出来之前。早在1988年,Mester和Franke(1988)就提出了类似于超像素的分割结果。后来,在1997年,早期版本的水流算法被认为可以产生超像素段(Marcotegui和Meyer,1997)。在21世纪初,Hoiem等人。使用Felzenswalb和Huttenlocher(2004)和Meyer(1992)的分割算法来生成3D重建和遮挡边界的过度分析。类似地,归一化切割算法早期用于过分割(Ren和Malik,2003)和语义分割(Gould等,2008)。在Hoiem等人。(2005年); 2007b)和Tighe和Lazebnik(2010),超像素已被用于为后续任务提取有意义的特征 : 包括广泛的使用特征列表。自从2009年推出第一个超像素算法以来,它们已应用于计算机视觉中的许多重要问题:跟踪,立体声和遮挡,3D重建,显着性,物体检测和对象提案检测和深度估计,语义分割,室内场景理解,场景流,衣服解析和卷积神经网络的基础等等,仅举几例。超像素也被用于领域特定应用,例如医学图像分割或医学图像检索。此外,已发现超像素可用于数据集注释。已经适应了视频和图像体积,对这些所谓的超体素算法的一些调查和比较可以是发现于Xu和Corso(2012)。

鉴于这种背景,大多数作者没有在超像素算法和过分割算法之间做出明显的区别,即超像素算法通常与过度分割算法进行比较,并且这些术语可以互换使用(例如Levinshtein等,2009; Neubert和Protzel,2012; Schick等,2012)。 Veksler等人。 (2010)区分超像素算法与以“过度分割模式”运行的分割算法。最近,Neubert和Protzel(2013)将超像素算法与过度分割算法的区别在于它们在视频序列上的行为。一般来说,在像素算法和过度分割算法之间划清界线是非常困难的。几种过度分割算法并不是为了生成超像素,但是,它们中的一些与超像素算法具有许多共同特征。我们使用超像素算法提供对生成的超像素数量的控制的惯例,而以“过度分割模式”运行的分割算法则不然。这涵盖了Veksler等人的观察结果。

一般而言,大多数作者(例如Achanta等,2012; Levinshtein等,2009; Lui等,2011; Schick等,2012)对超像素的以下要求达成一致:

1.划分。超像素应该定义图像的分区,即超像素应该是不相交的,并为每个像素分配标签。

2.连接。预期超像素代表连接的像素组。

3.边界坚持。超像素应保留图像边界。在这里,图像边界的适当定义可能取决于应用。

4.紧凑,规则和平滑。在没有图像边界的情况下,超像素应该是紧凑的,有规律地放置并且表现出平滑的边界。

5.电子FFI ciency。应该有效地生成超像素。

6.可控数量的超像素。生成的超像素的数量应该是可控的。

这些要求中的一些可以隐式地制定,例如,Li等人。(2011)要求超像素不会降低后续处理步骤的可实现性能。 Achanta等。(2012)甚至要求超像素来提高后续处理步骤的性能。此外,上述要求应尽可能少的超像素(Lui et al。,2011)。我们在5个数据集上对28个算法进行了广泛的评估,包括视觉质量,性能,运行时间,实现细节以及对噪声,模糊和变换的鲁棒性。特别是,我们证明了超像素算法对室内,室外和人物图像的适用性。为确保公平比较,已在不同的培训集上优化参数;由于生成的超像素的数量严重影响参数优化,我们还加强了连接性。此外,为了评估独立于超像素数量的超像素算法,我们建议整合常用的指标,如Boundary Recall(Martin et al。,2004),Undersegmentation Error(Achanta et al。,2012; Levinshtein et al。,2009) ; Neubert和Protzel,2012)和解释变异(Moore等,2008)。最后,我们提出了考虑多个度量并且独立于生成的超像素数量的超像素算法的排名。在第2节中,我们讨论了关于超像素算法的比较的重要相关工作,随后,在第3节中,我们提出了评估的超像素算法。在第4节中,我们讨论了相关的数据集并在第5节中介绍了使用的数据。然后,第6节简要讨论了在第7节中给出实验结果之前与参数优化相关的问题。我们在第8节中做出了了一个简短的总结。

2.相关工作

我们对可用超像素算法进行全面比较的努力是由于文献中缺乏这些算法所致。在这方面值得注意的出版物是Schick等人。(2012),Achanta等。(2012),Neubert和Protzel(2012),以及Neubert和Protzel(2013)。Schick等人。 (2012)引入了评估超像素紧凑性的度量,而Achanta等。(2012)以及Neubert和Protzel(2012)专注于使用已知指标。此外,Neubert和Protzel评估了超像素算法在诸如缩放,旋转,剪切和平移等微变换方面的稳健性。但是,他们没有考虑评估稳健性的基本事实。最近,Neubert和Protzel(2013)使用Sintel数据集(Butler et al。,2012)来评估基于光流的超像素算法,以评估视频序列中超像素算法的稳定性。一些作者没有依赖于对超像素算法的应用程序独立评估,而是将超像素算法用于特定的计算机视觉任务。 Achanta等。(2012)使用Gould等人的方法。 (2008)和Gonfaus等。(2010)将超像素算法评估为语义分割的预处理步骤。同样,Strassburg等人。(2015)基于Tighe和Lazebnik(2010)中描述的语义分割方法评估超像素算法。Weikersdorfer等。(2012)使用超像素作为归一化切割算法(Shi和Malik,2000)的基础,应用于经典分割,并将结果与​​Arbelaacute;ez等人熟知的分割算法进行比较。(2011年)。相比之下,Koniusz和Mikolajczyk(2009)评估了用于兴趣点提取的超像素算法。除了上述出版物之外,超像素算法的作者通常将他们提出的方法与现有的超像素算法进行比较。通常,目标是在特定方面表现出优势。但是,通常不会报告使用的参数设置,或者使用默认参数,并且度量标准的实现会有所不同。因此,这些实验在各出版物中无法比较。

到目前为止,补充了文献中超像素算法的讨论,类似于Schick等人。 (2012),Achanta等。 (2012)和Neubert和Protzel(2012),我们专注于已知的指标,以提供超像素算法的一般的,独立于应用程序的评估。然而,我们还考虑了最小值/最大值以及标准偏差以及评估超像素算法稳定性的度量平均值,Neubert和Protzel(2012)也考虑过这一点; 2013)。此外,我们明确记录参数优化并严格执行连接以确保公平比较。与Neubert和Protzel(2012)相比,我们的稳健性实验还考虑了噪声和模糊,并利用基础事实进行评估。最后,我们渲染三个众所周知的度量,与生成的超像素数量无关,这使我们能够呈现超像素算法的最终排名。

3.算法

在我们的比较中,我们的目标是讨论流行的算法与公开可用的实现,以及不太流行和更新的算法,其中的实现部分由作者提供。为了解决大量超像素算法,我们找到了所讨论的粗略分类算法有用。基于Achanta等人的分类,提出了超像素算法的第一个也是唯一的分类 ,我们根据他们的高级方法对算法进行了分类。我们发现这种分类提供了算法细节的充分抽象,允许读者粗略地理解不同的方法,同时具体到足以将类别与实验结果联系起来,如第7节所述。对于每种算法,我们提出使用首字母缩略词,参考文献及其引用次数1。此外,我们提供实现细节,例如编程语言,使用的颜色空间,参数的数量以及超像素的数量,紧凑性和迭代次数(如果适用)是否可控。这些算法基于水溶算法(W),并且通常在预处理图像的方式和标记的设置方式上有所不同。超像素的数量由标记的数量确定,并且一些基于分水岭的超像素算法提供对紧凑性的控制,例如WP或CW。

基于密度。 流行的基于密度的算法是边缘增强平均移位(EAMS)和快速移位(QS)。 两者都在计算密度图像中执行模式搜索; 每个像素被分配到它所属的相应模式。 基于密度的算法通常无法控制超像素的数量或其紧凑性,因此也被归类为过度分割算法

基于图形。 基于图形的算法将图像视为无向图,并基于边缘权重对该图进行分区,边缘权重通常被计算为颜色差异或相似度。 算法在分区算法上有所不同,例如FH,ERS和POISE表现出自下而上的像素合并为超像素,而NC和CIS使用切割和PB使用消除(Carr和Hartley,2009)。

轮廓进化。 这些算法将超像素表示为从初始种子像素开始的演化轮廓

我们还注意到,通过关注自然图像,一些应用领域可能无法很好地表现 - 这些包括例如医学成像等专业研究领域,其中超像素也常用(Andres等,2008; Haas等, 2011; Lucchi等,2012; 2010)。尽管如此,我们仍然认为在所选数据集上进行的实验也有助于在这些情况下进行算法选择。此外,我们希望这些实验对类似但更大的数据集(例如PASCAL VOC(Everingham等,2007),ImageNet(Deng等,2009)或MS COCO(Lin等,2014))有用。仅举几个突出的)。此外,选定的数据集使我们能够绘制更完整的算法性能图,超越文献中常用的数据集。此外,两个室内数据集都提供深度信息,允许我们评估需要深度信息的超像素算法作为额外提示。在下文中,我们简要讨论这些数据集的主要方面;图1显示了示例图像,表1总结了关键统计数据。

BSDS500(Arbelaacute;ez等,2011)。伯克利分段数据集500(BSDS500)是第一个用于超像素算法评估的(例如,Levinshtein等,2009; Ren和Malik,2003)。它包含500个图像,并为每个图像提供至少5个高质量的地面实况分割。因此,我们评估所有地面真实分割的算法,并且对于每个图像和给定的度量,选择导致最差得分的地面实况分割。这些图像代表简单的户外场景,展示了景观,建筑物,动物和人类,前景和背景通常很容易识别。然而,片段边界不明确可识别的自然场景导致数据集的困难。

SBD(Gould等,2009)。斯坦福背景数据集(SBD)结合了来自若干数据集的715个图像(Criminisi,2004; Hoiem等,2007a; Everingham等,2007; Russell等,2008)。结果,数据集包含不同大小,质量和场景的图像。图像显示户外场景,如风景,动物或街景。与BSDS500数据集相比,场景往往更复杂,通常包含多个前景物体或没有明显可识别前景的场景。

语义基础事实已经过预处理,以确保连接的段。

NYUV2(Silberman等,2012)。 NYU深度数据集V2(NYUV2)包含1449个图像,包括预处理深度。 Silberman等人提供了用于确保连接段的实例标签。此外,继Ren和Bo(2012)之后,我们预先处理了基本事实,以删除未标记的小区域。与BSDS500数据集相比,所提供的基本事实质量较低。这些图像显示了私人公寓和商业住宿的不同室内场景,这些场景经常杂乱无章。这些图像是使用微软的Kinect拍摄的。

SUNRGBD(Song et al。,2015)。 Sun RGB-D数据集(SUN-RGBD)包含10335个图像,包括预处理深度。该数据集将来自NYUV2数据集和其他数据集(Janoch等人,2011; Xiao等人,2013)的图像与新获取的图像组合。与NYUV2数据集相比,SUNRGBD数据集结合了以下设备的图像:Intel RealSense,Asus Xtion和Microsoft Kinect v1和v2 - 我们参考(Song et al。,2015)了解详细信息。我们删除了从NYUV2数据集中获取的图像。图像显示杂乱的室内场景,从私人公寓和商业住宿采取不良照明。提供的语义基础事实已经与NYUV2数据集类似地进行了预处理。Fash(Yamaguchi et al。,2012)。 Fashionista数据集(Fash)包含685个先前用于衣服解析的图像。这些图片展示了各种背景前的时尚博主的全部内容。 Yamaguchi等人。利用机器人土耳其人基于

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。