英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于多核学习和词袋模型的图像分类方法研究
摘要
在这篇文章中,我们提出了一种基于视觉词袋模型和多核学习的图像分类算法。首先,在图像训练集中我们提取了D-SIFT(密集尺度不变特征变换)特征。然后通过k-means聚类方法构建视觉词典。之后通过视觉词典和空间金字塔模型将原始图像的局部特征映射到固定长度的向量上。最后,本文给出了由广义多核提出的最后的分类结果。实验是在Caltech-101图像数据集,结果表明该算法的准确性和有效性。
关键词:视觉词袋模型、图像分类、空间金字塔匹配、核函数
- 绪论
图像是传达信息的重要手段,已经渗透到我们生活的方方面面。特别是随着互联网和多媒体技术的发展,数字图像已成为现代信息的重要媒介,其增长率的提高使得传统的手工标注的管理方法越来越不可行。因此,根据人们的理解许多研究人员已经开始着力于计算机自动图像分类分成不同的语义类。图像分类问题,包括场景检测、目标检测等,是现代计算机视觉和多媒体信息中的热点和难点问题。由于图像和视频的广泛应用,我们需要对图像分类中的问题进行精确、准确的图像理解算法的研究。计算机视觉中的图像理解重点强调了计算机视觉上理解图像的功能。据统计,人们得到的一大部分信息是来自于外界的视觉系统。狭义地说,视觉的最终目的是为了合理地解释和反映观察到的图像。但是一般来说,视觉甚至包括根据解释和说明、外界环境和善于观察的意愿的行动计划。因此,计算机视觉的目的是对图像的理解,是通过计算机实现人类视觉,并且这是人工智能的准确理解世界的一个重要步骤,它可以感知、认识和理解世界上的2D场景。
目前,这一研究领域主要集中在目标检测、对象描述和场景理解方面。其中,目标检测是准确描述场景的基础,是场景描述和理解的基础。反过来,场景描述和理解为检测对象提供了先验知识并且引导了背景知识和上下文信息的过程。在计算机中,图像理解是通过一系列的计算分析和感知学习来输入图像(主要是数字图像),从而输出场景中检测到的对象和它们之间的关系,同时对场景的整体描述和理解以及对场景的全面描述和语义描述。总之,图像内容的检测和分类不仅包括了图像的整体知识,而且提供了上下文背景下的对象,从而奠定了广泛适用于许多方面的进一步理解的功能。在应用时,图像分类技术时下适用于各种领域,如图像和视频检索,计算机视觉等。
基于内容的图像检索是一种最简单、最直接的目标检测方法,它可以为图像信息检索和处理提供有效的帮助和证据。随着电子数码相机的普及,数字图像的数目是惊人的增加,基于对象的理解是有帮助有效地组织和浏览数据库,所以物体检测的结果对于图像检索来说是有价值的。因此,图像分类和目标检测具有广阔的应用前景,除了计算机科学,如图像工程和人工智能等,它的研究成果可应用于研究人类视觉系统及其机制,人的心理和生理等方面。随着各个学科基础研究的发展和计算机性能的提高,图像理解将在更复杂的应用中得到广泛应用。图像分类需要不同的特征来描述图像内容。基于底层特征的分类方法在图像和视频检索方面已有多年的研究。这些研究通常是经过图像的特征来监督学习,如图像的颜色,纹理和边界,从而将图像分成不同的语义类。
颜色是图像的重要特征,是图像检索中使用最广泛的特征之一。它通常受到高度重视和深入研究。相比于几何特征,颜色更稳定,对尺寸和方向的敏感度较低。在许多情况下,它是描述一个图像最简单的特征。在许多图像内容检测的研究中,颜色直方图是一种被广泛使用的颜色特征。颜色直方图的值,通过统计,显示在图像中的颜色的数值特征,并反映其统计分布和基本色调。直方图仅仅包含特定颜色出现的频率,但是离开了像素分布的空间信息。每个图像对应于一个独特的直方图,但不同的图像可能具有相同的颜色分布,因此会有着相同的直方图。所以直方图和图像之间有一个一对多的关系。传统的颜色直方图只表示一个特定颜色的像素数的比例,这是唯一的一个全局性的统计关系。另一方面,颜色相关图描述了颜色的相关距离的分布,这反映了一对像素之间的空间关系和局部像素与全局的像素之间的分配关系。由于它易于计算、范围受限并且表现良好,因此有一些研究将其作为描述图像内容的重要特征。纹理也是一种用于描述图像的均匀性的重要的视觉特征。它是用来描述图像的平滑度、粗糙度和布置,目前还没有统一明确的定义。它本质上描述了相邻灰度空间中像素的空间分布。纹理描述的方法可以分为四类:统计,结构,建模和频率谱。纹理往往表现为局部不规则和全局规则特征,如高度纹理的区域上的树和一个城市的垂直或水平边界信息。纹理结构反映了物体表面的结构布置,以及与周围环境的关系,在基于内容的图像检索中也得到了广泛的应用。
在目标检测领域,有时甚至不能有效地检测出同一类对象的颜色和纹理等全局特征。具有相同语义的对象可能有不同的颜色,例如带有不同颜色的汽车。这与不同纹理的汽车是一样的。因此,形状已越来越受到重视。典型的局部特征描述图像中的物体的形状,通常是从图像中的角点提取出来,从而保持物体的重要信息。且该特性将不受光照的影响,并且具有空间不变性和旋转不变性等重要特性。
由于基于全局特征的图像目标检测精度较低,近年来,研究者对图像局部特征的研究重点已经改变了,局部特征有基于点、边界和区域三种,但目前大多数研究集中在基于点的局部特征。基于点的局部特征的提取一般分为两个步骤:1)关键点检测和2)特征描述子的生成。Harris角点检测是一种广泛使用的方法,它是基于一个二阶矩阵的特征值的。但是,它并不具有尺度不变性。林德伯格促进了自动尺度选择的概念来检测图像的具体尺度的关键点。他用行列式的拉普拉斯算子方法和Hessian矩阵的迹的方法来检测图像中的斑点状构造。Mikolajczyk 等人改进了这个方法,提出了具有鲁棒性和尺度不变性关键点检测的方法: Harris-Laplace和Hessian-Laplace。他们用Harris法或Hessian矩阵的迹方法选择位置和拉普拉斯方法选择尺度。Lowe所采用的方法类似于LOG算子,即高斯差(DOG),提高了检测率。Bay等人采用了快速Hessian矩阵的关键点检测,进一步提高了检测率。
矩不变量和基于阶段的局部特征等是早期的特征描述,其表现是不令人满意的。在后来的研究中,Lowe提出了著名的尺度不变特征变换。经检验SIFT算法是最好的方法。SIFT有许多变种,如PCASIFTt,GLOH等等,但其检测性能不如SIFT。湾等提出了加速鲁棒特征(SURF)描述符,它描述了Harris小波响应的关键区。虽然SURF的表现比SURF的表现略差,但它比后者快得多。在图像内容检测的研究中,SURF和SIFT是最广泛使用的局部特征提取算法。
视觉词袋模型是最著名的图像分类方法,它来自于文本检索中的词袋模型。近年来,视觉词汇模型广泛地应用于图像描述的局部特征,并且其性能良好。然而,它有两个主要的局限性:一个是,这种模式离开了图像的空间信息,即在一个图像中的每个块相关的字库中的视觉字,但其位置在这个图像被忽略;另一个是通过一个或几个近似的视觉词汇提出的图像块的方法,这样的图像分类是不准确的。Lazebnik等人提出的空间金字塔匹配(SPM)算法来解决视觉词袋模型的空间限制。这种方法将图像沿着三个尺度分割成若干区域,并且每个区域的局部特征都和视觉词袋模型有着交集,这在某种程度上增加了空间信息。软加权方法搜索几个最近的单词,并大大降低了每一个单词的增加值,从而解决了二次限制。然而,视觉词典的生成和特征编码等问题仍然限制了图像分类的性能。
在多核学习领域,许多研究者已经将此模型应用于各种算法,特别是在图像目标检测方面。Bosch等人在金字塔框架下用多核学习的方法描述了物体的形状。Lampert等人采用多核的方法来自动获得一个相关的对象类,实现了多目标关联检测并改进了目标的检测率。考虑到稀疏多核线性组合分类器的强大的分辨能力,Damoulas等人将特征空间多目标描述符与之相结合。
随着支持向量机理论的发展,对核方法的关注越来越受到重视。用非线性模式分析中来解决问题是一种有效的方法。然而,单一的核函数往往不能满足复杂的应用需求,例如图像分类和目标识别。这也证明了多核模型的性能优于单一内核模型或它们的组合。多核模型是一种更加灵活的基于学习的核函数。本文提出了一种用于图像分类的加权多核函数。由于加权多核学习方法,核函数参数可以根据不同类别的图像更好的调整,并且单一的BoVW直方图可以由视觉单词金字塔直方图取代(PHOW),这增加了区分空间分布对前者的能力。在这篇文章中,我们研究了在图像分类和物体识别领域中流行的算法,并提出了一种基于BoVW模型和多核函数的图像分类算法。在特征提取方面,我们采用比传统的方法更高效的D-SIFT算法。对于特征编码,我们采用了字模型和空间金字塔模型,这是在这个领域最先进的方法。对于分类器,我们是第一个提出了加权多核函数。此函数比那些基于支持向量机(SVM)分类器之间的多核学习算法更好。我们将通过实验证明了本文方法的有效性。
- 相关研究工作
A. SIFT特征提取方法
在基于内容的图像分类中,基础是图像的内容的分析。根据图像内容的相似性给出分类的结果,并通过图像特征描述的图像内容。视觉特征提取是图像分类的第一步,是图像内容分析的基础。它在图像分析中的所有处理过程中都存在,直接影响到图像的描述能力。因此,它对进一步分析的质量和应用系统的有效性有着重大的影响。
SIFT算子的图像局部特征描述由David G Lowe在2004发表。它是一种最流行的局部特征,基于尺度空间和尺度缩放不变性,旋转,甚至是仿射变换。首先,对尺度空间中的特征进行筛选,确定关键点的位置和尺度。然后,设置方向的梯度作为方向点。从而实现了算子的尺度和方向不变性。SIFT特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。它的独特性和丰富性,适用于大规模特征数据的快速、准确的匹配。它的多量性保证了即使少数的几个物体也可以产生大量的SIFT特征向量,高速性满足了实时性的要求,可扩展性使得它可以很方便的与其他特征向量进行联合。
对于一个图像,一般的算法来计算其SIFT特征向量有四个步骤:
- 在尺度空间中的极值的检测中,需要初步确定关键点的位置和规模。在这个过程中,候选像素需要与26个像素相比较,这26个像素是由8个相邻像素和其他相同规模的相应的在四周的9times;2个像素组成的。
- 通过对三维二次函数的拟合,准确地确定关键点的位置和尺度,同时删除低对比度的关键点和不稳定的边缘反应点(对DOG算法会产生强烈的边缘反应)。
- 通过其邻近像素的梯度方向确定每个关键点的方向参数,以保证旋转不变性。实际上,算法样本集中在窗口中心的关键点,并通过直方图的领近区域计算方向梯度。一个关键点可能被分配到几个方向(一个主和多个辅助),它可以提高匹配的鲁棒性。到现在为止,检测的关键点完成。每个关键点有三个参数:位置、规模和方向。因此,SIFT特征区域可以确定。
- 产生SIFT特征向量。首先,旋转轴方向的关键点以确保旋转不变性。在实际计算中,Lowe建议使用4times;4的种子点描述每一个关键点以提高匹配的稳定性。因此,128个数据点,即一个128维的筛选向量,产生一个关键点。现在SIFT向量不受尺度变换的影响,如规模变化和旋转变化。并且规范化了特征向量的长度,消除了光照的影响。
B. 视觉词袋模型
随着计算机视觉中局部特征的广泛应用,基于局部特征的图像分类方法越来越受到关注。在提取局部特征时,关键点的数目在不同图像中的变化,因此机器学习是不可行的。为了克服这些困难,研究人员如李菲菲从斯坦福大学是第一个将词袋模型作为一种特征逐步投入到计算机图像处理中。用词袋模型的图像分类不仅解决了局部特征不统一带来的问题,也带来了易于表达的优点。现在,该方法被广泛用于图像分类和检索。主要步骤如下:
- 通过图像分割或随机抽样等检测关键点。
- 提取图像的局部特征(SIFT)并生成描述符。
- 对这些特征相关的描述符进行聚类(通常是通过k-means算法)和生成视觉词典,其中每个聚类中心是一个视觉单词。
- 对直方图中的每一个视觉单词的频率分布进行总结。
图像仅由视觉文字的频率表示,从而避免了图像局部特征匹配中的复杂计算,并且在有着大量的类和大量的训练的图像分类中有着显著的优势。尽管基于词袋模型的图像分类是很有效的,但是视觉词典的精确度直接影响了分类的精确度和视觉词典的大小(也就是聚集的数量),这些只能通过实验调整。此外,词袋模型离开了特征向量的空间关系,而且失去了一些重要的信息,这会导致视觉词典的不完整和实验结果的贫乏。
C. SVM和多核学习方法
1995年Corte和Vapnik提出的支持向量机(SVM)是机器学习领域的一个主要成就。它是由风险投资的理论和结构风险最小化的统计学习发展起来的,而不是传统统计的经验风险最小化。支持向量机的优点是能够在有限样本信息的基础上,寻求最优的可扩展性,在复杂模型和学习能力之间寻找最优的折衷关系,随着研究的发展,多核学习成为机器学习的新热点,所谓核方法是有效解决非线性模态分析中的问题。然而,在一些复杂的情况下,单核机不能满足各种多变的应用需求,如数据的异构性和不规则性,大尺寸的样本和样本的不均匀分布。因此,为了有一个更好的结果,结合多个内核功能是一个必然的选择。此外,目前还没有关于核函数的构造和选择的完整理论。再者,此外,面对样本异构性、大样本、高维数据或不规则不均匀的数据分布在高维特征空间,用一个简单的内核映射所有的样品是不合适的。为了解决这些问题,近期的研究中有大量的内核组合,即多内核学习。
多核模型是一种更加灵活的基于学习的核函数。最近,多核替代单一内核的理论已经在理论上和应用上都被证明了。也证明了多核模型的性能优于单一内核模型或它们的组合。在构建多核模型,如果考虑基本核函数的话最简单、最常用的方法是考虑凸组合核函
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[151206],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。