英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
“GrabCut”- 使用迭代图切割的交互式前景提取
图1:GrabCut的三个例子。用户在对象周围缓慢地拖动矩形。然后自动提取对象。
摘要
静止图像中高效,交互式前景/背景分割的问题在图像编辑中具有重要的实际意义。经典图像分割工具使用纹理(颜色)信息,例如魔术棒,或边缘(对比度)信息,智能剪刀。最近,已经开发了一种基于图切割优化的方法,该方法成功地组合了两种类型的信息。在本文中,我们从三个方面扩展了图形切割方法。首先,我们开发了一个更强大的迭代版本的优化。其次,迭代算法的功能用于从基本上简化给定质量的结果与用户所需的交互。第三,已经开发了用于“边界消光”的魔法棒算法以同时估计对象边界周围的alpha-matte和前景像素的颜色。我们相信对于中等难度的问题,所提出的方法优于竞争工具。
CR类别:I.3.3 [计算机图形]:图像/图像生成 - 显示算法;I.3.6 [计算机图形学]:方法和技术 - 交互技术;I.4.6 [图像处理和计算机视觉]:分割 - 像素分类;分区
关键词:交互式图像分割,图形切割,图像编辑,前景提取, Alpha遮罩
1.介绍
本文讨论了在复杂环境中如何有效地交互式提取前景对象的问题, 该环境的背景不能简单地消去。生成的前景对象是一个alpha-matte,它反映了前景和背景的比例。目标是以用户方面的适度交互为代价来实现高性能。该任务的高性能包括:从背景中准确分割对象;主观地确定阿尔法值以应对模糊,混合像素和透明度;前景色清晰,源背景中没有颜色渗色。通常,交互努力的程度范围从在劳动密集型极端处单个像素到仅在几个位置中触摸前景或背景。
1.1 以前的交互式消光方法
在下文中,我们简要描述并比较几种最先进的分割交互工具: 魔术棒,智能剪刀,图形切割和水平集以及用于哑光的:贝叶斯哑光和图切。图2显示了它们在消光任务上的结果,以及实现这些结果所需的用户交互程度。
魔术棒以用户指定的点或区域开始,以计算连接像素的区域, 使得所有选定像素落入指定区域的颜色统计的某些可调节容差内。虽然用户界面很简单,但找到正确的容差级别通常很麻烦,有时甚至是不可能的。图2a显示了使用Adobe Photoshop 7中的Magic Wand的结果[Adobe Systems Incorp。2002]。因为前景像素和背景像素的色彩空间中的分布具有相当大的重叠,所以不能实现令人满意的分割。
智能剪刀( 又名Live Wire或 Magnetic Lasso ) [Mortensen and Barrett 1995]允许用户通过用鼠标粗略追踪对象的边界来选择“最低成本轮廓”。当鼠标移动时,显示从光标位置返回到最后“种子”点的最小成本路径。如果计算的路径偏离期望的路径,则需要用户指定额外的“种子”点。在图中2b使用Photoshop 7的Magnetic Lasso。该工具的主要局限是显而易见的:对于高纹理(或非纹理)区域,存在许多替代的“最小”路径。因此,许多用户交互(此处为19)是获得满意结果所必需的。Snakes或Active Contours是一种自动细化套索的相关方法[Kass et al.1987]。
贝叶斯消光模型以概率方式模拟颜色分布,以实现完整的alpha 遮罩[Chuang et al .2001年] 基于[Ruzon 和Tomasi 2000]。用户指定“trimap”T ={TB,TU,TF}其中背景和前景区域TB和标记TF,并且在剩余区域TU上计算alpha;值。通常可以获得高质量的遮罩(图2c),但当TU区域不太大并且背景/前景色分布充分分离时。构建内部和外部路径需要相当程度的用户交互。
Knockout 2 [Corel Corporation 2002]是Photoshop的专有插件,由用户定义的trimap驱动,如Bayes matting,其结果有时相似(图2d),有时质量较低[Chuang .2001]。
图切[Boykov和Jolly 2001;格雷格等人。1989]是一种强大的优化技术,可用于类似于贝叶斯遮罩的设置,包括三维图和概率颜色模型,即使在伪装中也能实现稳健的分割,前景色和背景色分布不均匀。该系统将在第2节中详细说明。图形切割技术也可用于图像合成,如[Kwatra et al]切割对应于两个图像之间的最佳平滑接缝,例如源图像和目标图像。
抓取[Caselles et al。1995]是图像和纹理分割的标准方法。它是通过求解相应的偏微分方程进行前向传播的方法, 并且通常用作能量最小化工具。它的优点是几乎可以使用任何能量。但是,它只计算可能取决于初始化的局部最小值。 因此,在能够通过图形切割精确地最小化能量函数的情况下, 后一种方法应该是优选[BoykovKolmogorov 2003]确定了一个这样的案例,用于计算黎曼空间中的测地线和最小曲面。
1.2 建议的系统:GrabCut
理想情况下,消光工具应该能够在trimap的整个推理区域TU上生成连续的alpha值,而不存在alpha值可能仅为0或1的任何硬约束。这样,涉及烟雾,头发,树木等的问题 ,可以自动处理。然而,根据我们的经验,设计用于解决一般消光问题的技术[Ru-zon和Tomasi 2000;Chuang等。]当前景和背景颜色分布充分分离但在伪装中往往失败时,这是有效的。实际上,甚至可能是一般的消光问题在伪装中是无法解决的。因为人类会发现难以察觉到完全遮罩。这促使我们研究一种不那么理想但更容易实现的问题形式。
首先,我们使用迭代图切割获得“硬”分割(第2和第3部分)。接下来是边界消光(第4节),其中在硬分割边界周围的窄条中计算alpha;值。最后,除边境外的完全透明度不由GrabCut处理。然后,可以使用[Chuang et al],根据我们的经验,这在无伪装足够的区域很有效。
我们的方法的新颖性首先在于分割的处理。我们对图形切割机制进行了两项增强:“迭代估计”和“不完全标记”,它们对给定质量共同允许的结果大大降低用户交互程度(图2f)。这允许GrabCut对用户施加轻负载,其交互仅包括在所需对象周围拖动矩形。在这样做时,用户指示背景区域,并且不需要标记前景区域。其次,我们开发了一种新的alpha计算机制,用于边界遮罩,其中alpha规化以减少可见的伪像。
2 通过图切割进行图像分割
首先,详细描述了构建GrabCut的基础Boykov和Jolly的分割方法。
2.1 图像分割
他们的论文[Boykov和Jolly 2001]给出了初始trimap T,解决了单色图像的分割问题。该图像是灰度值的数组z =(z1,...,zn,...,zN),由(单个)索引n索引。图像的分割表示为每个像素处的“不透明度”值数组 =( 1,..., N)。通常0le; nle;1,但对于硬分割 nisin;{0,1},背景为0,前景为1。参数描述图像前景和背景灰度分布,由灰度值的直方图组成:
一个用于背景,一个用于前景。直方图由来自相应三部分区域TB,TF的标记像素直接组装。(直方图归一化为总和为1灰度范围:分段任务是推断未知的不透明度变量来自给定的图像数据z和模型。
-
- 通过能量最小化进行分割
能量函数E被定义为使得其最小值应该对应于良好的分割,在某种意义上它被观察到的前景和背景灰度级直方图,并且不透明度是“连贯的”,反映了稳定性的对象趋势。这是由“吉布斯”的能量形式捕获:
在给定直方图模型的情况下,数据项U评估不透明度分布与数据z的拟合,并定义为:
平滑度可以写成
其中表示对于谓词取值0,1的指示符函数,C是相邻像素对的集合,并且其中dis(.)是相邻像素的欧几里德距离。这种能量可以促进类似灰度区域的连贯性。在实践中,如果像素水平/垂直或对角相邻(8路连接),则通过将像素定义为邻居来获得良好的结果。当常数beta;=0时,平滑项只是众所周知的先验Ising,在任何地方都可以得到的平滑项,在一定程度上由常数determined决定。然而,[Boykov和Jolly 2001]已经证明设置beta; gt; 0更有效,因为这放松了高对比度区域的平滑趋势。选择常数[[Boykov和Jolly 2001]:
其中dis(·)表示对图像样本的期望。选择可确保(4)中的指数项适当切换对比度的高低。通过在15个图像的训练集上优化对地面实况的性能,获得常数as为50。它被证明是各种图像的通用设置(见[Blake et al.2004])。
现在能量模型已完全定义,可以将分割估计为全局最小值:
最小化使用标准的最小割算法[Boykov 和 Jolly 2001;Kolmogorov和Zabih 2002]。该算法为硬分割奠定了基础,下一节概述了GrabCut中新的硬分割算法的三个发展。首先,通过高斯混合模型(GMM)代替直方图来替换单色图像模型的颜色。其次,一次性最小切割估计算法被更强大的迭代过程所取代,该过程在估计和参数学习之间交替。第三,通过允许不完整的标记来放宽对交互式用户的要求 - 用户仅为trimap指定TB,并且这可以通过在对象周围放置矩形或套索来完成。
图2:一些消光和分割工具的比较。顶行显示完成分割或消光过程所需的用户交互:白色画笔/套索(前景),红色画笔/套索(背景)色十字(边界)。底行说明了生成的分段。就用户输入的简单性和结果的质量而言,GrabCut似乎优于其他方法。显示顶行的原始图像,强度降低,便于叠加;见图.1.我们的Graph Cut [Boykov和Jolly 2001]的实现使用颜色混合模型而不是灰度值直方图。
- GrabCut分割算法
本节描述了GrabCut硬分割算法的新颖部分:迭代估计和不完全标记。
-
- 颜色数据建模
现在,图像由RGB颜色空间中的像素zn组成。由于构建足够的颜色空间直方图是不切实际的,我们遵循已经用于软分割的素材[Ru-zon和Tomasi 2000;Chuang等。2001]并使用GMM。每个GMM,或者用于背景,或者用于前景,被认为是具有K个分量的全协方差高斯混合(通常K = 5)。为了便于处理GMM,在optimization框架,一个额外的向量k = {k1 ,..., kn,...引入kN},其中knisin;{1 ,...K},为每个像素分配一个唯一的GMM组件,来自背景或前景模型的一个组件,根据 n= 0或1。现在,用于分割的吉布斯能量(2)变为
还取决于GMM组件变量k。数据术语现在定义U,考虑到GMM模型的颜色,如
因此,现在模型的参数是:
对于给定像素的每个分量的概率的软分配似乎是可取的,因为它将允许“期望最大化”[Dempster等人。1977年]被使用;然而,这涉及明显的额外计算费用,结果是可以忽略不计的实际利益。即权重表示背景和前景分布的2K高斯分量和协方差。除了使用颜色空间中的欧几里德距离计算对比度项之外,平滑项V与单色情况基本不变:
3.2 通过迭代能量最小化进行分割
GrabCut中的新能量最小化方案迭代地工作,取代了之前的一次性算法[Boykov和Jolly 2001]。这具有允许自动细化不透明度的优点,因为来自初始三元图的TU区域的新标记像素用于细化颜色GMM参数。GrabCut系统的主要元素如图2所示。步骤1很简单,通过简单枚举每个像素n的kn值来完成。步骤2实现一组高斯参数估计过程,如下所述。对于给定的GMM分量k,例如前景模型,像素子集定义了平均和协方差以标准方式估计,因为F(k)和权重中的像素值的样本均值和协方差是其中| S |表示集合S的大小。最后,步骤3是使用最小剪切的全化如[Boykov和Jolly 2001]。
该算法的结构保证了适当的收敛特性。这是因为迭代最小化的步骤1至3中的每一个b步骤可以被示为相对于三组变量k,的依次最小化总能量E.因此,E单调减少,这在图2中的实践中说明了。因此,保证算法至少收敛到E的局部最小值。可以直接检测E何时停止显着减小,并自动终止迭代。
迭代最小化的实际好处。图2e和2f表示出了相对于一次性图切割[Boykov和Jolly 2001]方法,Grab-Cut中的迭代最小化的附加功率如何能够显著减少完成分割任务所需的用户交互量。这在两个方面很明显。首先,在初始化和优化之后,所需的用户编辑程度降低。其次,初始交互可以更简单,例如通过允许用户进行不完全标记,如下所述。
图3:GrabCut中的迭代图像分割
图4:图2数据的迭代最小化的收敛性。(a)美洲驼示例的能量E在12次迭代中收敛。在初始化(b)和收敛(c)之后RGB颜色空间中的GMM(侧视图显示R,G)。K = 5混合物组分用于背景(红色)和前景(蓝色)。最初(b)两个GMM重叠,但在收敛(c)后更好地分离,因为前景/背景标记已变得准确。
3.3用户交互和不完整的三维图lt;
全文共10463字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[2741]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。