英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
目标引导方式下的图像标注
摘要——自动图像标注一直被阐述为一个多标签的分类问题,它也是被用于加深网络图像关于语义层面上的理解的主要工具之一。有许多的多媒体应用(例如基于标签的图像检索)都能从图像标注技术中大受裨益。然而,由于目前存在的各种图像标注算法的表现都有所欠缺,阻止了这些应用的实践。在另一方面,特定的衡量指标被设计出来都是针对于某一种图像标注算法在某一个指定的目标或者应用上表现的评估,但是绝大多数的图像标注算法并没有考虑去优化这些指标,所以这些算法都不可避免的在这些目标特化的衡量指标上陷入了次优的局面。要处理这种问题,我们首先要在统一的标准下总结各种各样的目标引导下的性能衡量指标。 我们的分析揭示了宏平均的观测指标对于出现不频繁的那些特征非常敏感,并且海明(加权平均)观测方法很容易受到偏态分布数据的影响。这次我们定义了一个统一的多标签学习框架,它可以直接优化许多针对多标签学习任务的目标特化方法。具体的步奏是,我们首先提供了一个针对基于一系列损失函数和当前已定义目标引导方法有关的多标签问题的多层等级结构学习理论。然后,我们计算出了这些损失函数,将它们作为松弛替代函数并且用结构性的支持向量机进行优化。根据对这一系列方法和高时间复杂度的优化宏平均方法的分析,在本文中,我们关注于为图像标注任务量身定做的而且很少从文学层面上探究意义的那些基于实例的方法。这些实验显示了两个广泛应用的多标签集合的连续性和常规分析结果,并且证明了我们所设计的算法,就对4组图像标注数据集的实例测试而言,对于目前存在的基准算法有明显的优势。
关键字: 条件图像标注,多标签训练,表现衡量指标,结构性支持向量机。
1.背景介绍
由于数码相机的普及流行,拍摄个人相片也成为了每个人十分日常的活动。通过网络平台分享图片(例如Flickr.com以及Facebook等等)已经变成了很大众的方式,这也导致了图像数据在网络上成百万计的飞速增长。然而这种现象的出现使得图像管理对于用户而言会变得很困难。标注后的图像以及分类过的图像数据能够提升检索速度。但是人为的标注由于受到了图像数量过大的限制而无法实现,其中的原因主要是标注大量的图像需要耗费非常多的时间以及需要相关人员大强度的工作。此后,人们希望运用计算机辅助系统来减少标注的难度,但是让计算机去正确的理解那些图像的意义依然是一个挑战。
在计算机视觉的领域内,自动图像标注成为了一个热点,对于改善一般图像的理解已经被认为是一个关键的方案。该技术的目标是通过从已经给出的关键词库中预测与当前图像相关联的关键字。在对这些图像用数据库中的关键字进行标注后,这些图像就可以借助这些关键字轻松的进行访问了。因此许多的计算机视觉任务会极大的受益于图像标注技术。基于关键字的图像检索允许使用者对关键字作为一个文本查询,也就是当你在数据库内寻找图像时,可以直接通过该图像对应的关键字进行匹配检索。
对于评估自动图像标注表现的好坏,现在已经提出了一系列的标准针对不同方面的表现进行衡量。比如说,如果一个图像标注的目标是去帮助基于关键字的检索,一般就会分配给每个图像k个标签,然后用每一个标签都作为一个查询符号来进行检索。基于可返回的图像列表,它的平均准确度,平均召回,F1测量,以及准确度/召回平衡破坏点(PRBEP)对于所有的标签都被计算成为图像标注的表现衡量。根据这些衡量标注的分类(在论文[15]中有详细介绍),以上的大部分衡量都隶属于一个名叫“双群”的庞大的衡量类别。对于基于关键字检索的评价标准,知名的有宏平均测量。如果图像标注的目标是用于协助某个私人图像管理任务,该用户想要在未来的管理任务中正确且完整的标注每一个图像,那么这种标注也被称为图像标签,那么这种情形下基于实例的衡量方法经常受到青睐,即分配给每个图像k个标签,那么它的精度(也可以称之为K成功或者标签精度),召回(也被称为标签召回),F1测量,这些指标对于被分别的标签在每一张图像上都会进行计算,并且对于所有图像而言的评价结果会被用作图像标注的表现评估标准。如果这些图像的标注是一个在模式识别中的多标签分类任务,那么汉明测量时使用的很频繁的评价标准。总而言之,微平均测量也会在某些图像标注中被使用。
尽管图像标注的最终目的是自动的给图像标注上正确的且完整的标签,并且所有的测量方法都应该能在理想的情况下对图像标注的表现做出一致的评估,目前的图像标注技术还距离这个目标很遥远。因此,在实际中,除了预期设计的图像标注算法能在所有情况下有好表现之外,更实际的一个做法是期待该算法能够在某一个特定的情形下有突出的表现,即该图像标注算法可以对某一个特定的目标测量方法实现出好的结果。例如,如果有人想要以来图像标注的结果来做图像检索,那么宏平均测量是最适用的;如果有人想要适用图像标签来管理他的私人图片,那么基于实例的测量是最适用的。然而,大多数的图像标注算法对于目标特化的测量而言都没有解决在“文学语意”上的问题,所以它们对于这些测量都不可避免的陷入了次优的局面。
受到对于不同应用情形下图像标注所对应的特化测量的需求的激励,在本文中,我们提出了一种目标引导的图像标注方法。尤其是,我们提出了一个统一的多标签学习框架,它可以优化一系列对于图像标注的目标特化测量。在此我们尤其关注于基于实例的测量,出于两个原因:其一,它们都是为某些图像标注任务量身定做的,而且很少纠结于文学上的语义;其二,因为在训练用的数据集中,关键字的数量一般要比图像的数量少得多,基于优化实例的测量要比微平均测量或者宏平均测量要高效许多。本文的核心贡献如下列举:
- 我们总结了一系列基于统一表述列形式的联表的目标引导表现测量。我们的分析揭示了宏平均测量对于低频率关键字非常敏感,该测量也并不关注文学上的语义。进一步,汉明测量很容易受到偏态分布的影响,这也导致了它会过度评估。有一个实例说明了这一类测量的各种特性。
- 为了去优化目标引导表现测量,我们提出了一种等级制结构的多层理论去统一所有基于列联表的表现测量方法。统一的损失函数能够相应的定义。然后,我们将得到的损失函数作为松弛替代函数。训练模型和松弛替代函数可以进行高效的优化。提出的构架可以优化所有的双群测量而不需要做额外的工作。SVM和SVMperf可以作为该框架的特殊情形。反向多标签学习对于宏平均测量在检索中的设置也是一种该框架的特殊情形。
- 两种实验设置被比较一系列的基线算法所引导,例如kappa;NN, SVM和SVMperf,其他的多标签训练算法例如反向多标签算法和ML-KNN算法以及对于这些设置目前最先进的图像标注算法。在两种使用频率最高的多标签数据集中,我们评估了许多对于优化目标引导测量的实例化的算法。这些结论都与我们的理论相一致。分别利用四个图像标注的数据库进行实验——UIUC-SPort,LabelMe, NUS-WIDE-Object, andCorel5K——证明了我们提出的基线模型表现出了优越性。我们也观察到了优化的基于实例的F1获得一致的好的结果,与此同时优化的基于实例的在k上的精度或者在k上的召回都对数字k和对于图像标注数据集的关键字布局较为敏感。
- 相关工作
在这一章节中,我们讨论了那些和我们所做工作相关的针对图像标注的学习模型和针对优化特化的表现测量训练算法。
由于生成模型一般被设计去评估在特征和关键字两者上的联合概率分布,他们的解决方案对于预测性的表现可能不是很理想。之后,我们会集中讨论判别类模型对于图像标注的应用。两个对于判别模型很流行的方法都是基于的裕度算法以及基于最邻近区域的算法。基于裕度的算法中,一个模型会单一的用一个关键字进行学习,并将这些模型对每个测试图像去预测它是否属于某个和它的关键字相关联的目标。这个算法的判别力可能会受到削减如果关键字都在语义上存在重叠或者在该数据集中不平衡。为了解决以上问题,有一些方案被踢出去运用关键字关联作为附加信息。给出一个图像,基于最邻近区域的算法就会去寻找它在训练集中最邻近的k个领域并且分配所有邻域的关键字给这个图像。该工作试图去学习一个加权的最邻近法模型,通过对训练数据标注的对数似然进行最大化处理。这两种方法都受益于在不同方面的矩阵融合。
在机器学习中,图像标注被认为是一个多标签分类的问题。区别于传统的单标签分类,实现多标签分类的一个主要的挑战是如何用多标签输出来评估训练算法的表现。为了去说明对于不同应用的特别的要求,许多的表现测量都被特定用来评估多标签分配,但是训练算法在“文学语义”上很少考虑这些算法作为优化的标准,所以这些算法不可避免的陷入了次优化。在我们的认知中,很少有算法是特别被设计去优化某个对于多标签分类的特定的目标测量。例如,基于等级排序的算法,它们被用来优化多标签分类的等级损失函数,但是它对于确定预测未知输入标签的数量是不能忽略的。除此以外,宏平均F1得分对于贝叶斯网络多标签分类框架和反向多标签学习都是很有适用的,但是这一类算法不能适用于其他的测量。
- 目标引导表现的衡量
在图像标注的任务中,每张图像可能都会被分配多个标签,其中每个标签都会和一个在给定的目标词汇集合中的对象相关联。假定一个数据集总共包含N张图像和L个目标(即关键字)。给定一个输入图像记为xi = [xi,1, xi,2, . . . , xi,D] isin; RD,它和输出关键字相关联,记为yi = [yi,1, yi,2, . . . , yi,L ],如果lth目标出现在ith图像中,此时yi,l = 1,否则yi,l = minus;1,forall;l = 1, . . . , L; i = 1, . . . , N.我们可以得到准确的表示比如一对(X,Y),当它的特征矩阵为X = [x1; x2; . . . ; xN] isin; RNtimes;D并且它的相关关键字矩阵Y = [y1; y2; . . . ; yN] isin; {minus;1, 1}Ntimes;L。
对于有效性的目标评估是训练算法对于实际应用的基石。在本文中,我们学习了基于列联表的很大一些列的表现测量方法。列联表是一种矩阵,它的每一个入口都表示了随机变量t和p的共生频率,依据每个随机变量m个样本,即t = [t1, . . . , tm]且p = [p1, . . . , pm]。令t是真值且p是其预测值。一系列在表I中的表现测量方法都能轻松的根据列联表来定义。
对图像标注的评估标准是区别相当大的,但是前述的测量方法可以轻松的适应特定的应用。在下一个分章节,我们会展示许多与特定应用环境相适应的测量都是由它相应的理论和特征表示。
3.1. 基于实例的测量方法
基于实例的测量方法评估图像标注的表现是根据它在每个图像上的表现来衡量的。因此,它经常倾向于加标签或者标签推荐,这也是图像标注中的一种。
给出一个需要添加标签的图像,一种情形是,图像分配到的标签都希望是越准确越好;另一方面,我们也希望图像分配到的标签越完整越好,这意味着图像的内容是具有很明显特征的。因此,基于实例的F1测量会受到青睐。计算这样的F1测量是基于在k上的精度和k上的召回,而k上的精度是由图像所分配得到的k个标签的准确程度决定的,并且k上的召回衡量的是扩展图像已经被k个标签添上区别性的特征。增加k上的精度和k上的召回可以提升F1测量。
根据列联表,二进制随机变量t和p都与图像相关,并且样本都是该图像真值和预测值的关键字。在这种多标签学习设置的理解下,对于图像x,我们有真值t=y和其预测值p=h_(x;w)依据理论当每一对(x, y)是由一些未知的分布计算出的独立同分布,并且w是模型变量。
通过定义联合特征图和对于xi和yi两者,在算子上是克罗内克积,并且独立同分布的假设是对图像而言的,相应的等式如下:
所有表中所述的测量都可以和单独的和每张图像相适应。方便起见,我们在表一中用符号M标注了测量一个一般表示。基于实例的测量被定义为所有图像对于测量的平均表现:
3.2. 宏平均测量
在基于标签的检索任务中,如果相应的查询是对一个在给定词汇集中的关键字,检索系统需要返回k个包含该关键字的相关图像。在这种情形下,宏平均测量对于文学语义使用频率很高。损益平衡点的平均会被用于对多标签查询的消息检索。我们用upsih;l对Y标注了lth列,即Y = [upsih;1,upsih;2, . . . ,upsih;L ].与基于实例的测量相异的理解是,这里的二进制随机变量有不同的意义:t = upsih;和p = h|(x;w)是依据理论h| : {minus;1, 1}N当数对(X,upsih;)是从未知分布得到的独立同分布。
标注lth给关键字,此时有一个相关的模型参数wl。通过利用这个特征表述=[psi;(X,upsih;1); . . . ; psi;(X,upsih;L )]以及联合特征图,w = [w1; . . . ;wL ],并且这个对于关键字的独立同分布假设,我们得到了一下等式:
forall;l = 1, . . . , L,且相互独立。因此,宏平均测量可定义为:
对于形式为lth关键
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[151217],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。