神经计算学 ———–基于流行-流行距离识别叶片图像集外文翻译资料

 2022-10-26 09:55:57

神经计算学

-----------基于流行-流行距离识别叶片图像集

杜吉祥,邵美文,翟传敏,王静,唐元艳等撰写

摘要

植物叶片识别是一个艰巨且重要的任务。在这篇论文中,我们通过给叶片图像集分类而不是单纯用单发形象来解决问题,其中每一集包含的叶片图像属于同一个类。我们提取叶片图像特征,然后计算两个叶片图像流模型之间的距离。具体来说,我们应用一个聚类过程来表达局部线性模型集合的一个流模型。然后局部模型之间的距离测量来自不同的集合上面的构造。最后,问题转换为求集成双子空间之间的距离。实验所用的树叶是来自著名的中国科学院计算实验室的树叶,这更表明,该方法有很大的性能。

关键字:植物叶片分类 叶片图像集 流行-流行距离

PHOG深

一.介绍

当我们漫步在田野中,我们可以找到很多的植物。然而,我们却很少知道他们的名字。虽然现在地球上已经命名了大约270,000种植物,但是许多种仍还未知。人类识别大量的现有的植物物种是沉闷和耗时的,特别是让那些非植物专家来识别植物物种。另一方面,植物识别或分类在农业和医学有着广阔的应用前景,对生物多样性研究也是尤其重要。但最近几年人们一直严重破坏自然环境,因此现在每年都有许多植物不断死亡,甚至灭绝。保护植物的主要步骤是自动的认识它们,了解它们,知道它们来自哪里。当下,处理如此巨大的信息,发展有效的植物分类方法已经成为一个重要的研究课题。
现如今已有多种方法可以识别植物,例如通过对比植物的水果,根,花,叶等。植物是个三维对象,除了叶之外仍然是一个复杂体。叶片的分类和自动识别装置是植物叶片识别系统的一个重要的组成部分:因为叶片特性通常包含重要的信息,可以帮助植物种类识别,并且我们也可以获得大量的叶片。一片叶子可由其特点,颜色,纹理,叶脉结构和形状决定,而叶脉的类型则是叶子的重要形态特征。
在传统的视觉识别任务中,令人感兴趣的叶片只有从少数样本中训练和识别出来的。拉施德等人使用一个组合分类器学习矢量量径向基函数,可以将叶子的一小部分提出了系统。侯赛因等人提出了一种适用于植物与宽阔扁平的叶的方法:在这种方法中,用户选择的基础点叶和一些参考点在叶片上;这些点的基础上,叶形状是提取的背景和一个二进制图像生产。郑等人基于灰度提取叶脉形态的方法的主要思想是根据叶静脉的叶表面噪声,采用噪声检测的方法提取叶静脉。李等人利用快速傅里叶变换频域数据的方法与轮廓之间的距离测量质心探测到叶子图像。胡等人提出一个形状描述符,称为多尺度距离矩阵,其获取的几何形状不变。杜等人使用一种新方法基于轮廓分形维数和脉络分形维度来描述植物的特征。Larese等人提出了分段过程和分类豆类叶子只基于扫描分析静脉(叶的形状、大小、纹理和颜色被丢弃)。使用无约束的分段执行hit-ormiss变换和自适应阈值。几种形态特性计算分段脉络。

提取叶片图像特征之后,分类和识别任务经常使用传统的基于单发图像分类器,例如学习向量量子化,概率神经网络(20-26),支持向量机,遗传算法等。虽然传统分类器在植物叶片自动分类和识别中取得了一定程度的限制条件下的成功,更好的对象识别可以预期通过使用集作为输入而不是单一的形象,因为一组图像提供了更多的信息与一个单一的形象。我们可以提取许多来自一棵树或其他植物的树叶照片,而数量叶片图像进行训练和测试可以非常大。这些叶子外表下变化显著变化的形状,大小,质地等等。因此,我们引入了一个新颖的方法叶识别使用多个图像模式中获得各种各样的观点。

图像分类的现有方法主要集中在一个关键问题上:如何对叶片图像集建模以及衡量它们的相似之处。从集合的角度建模,相关图片设置分类方法几乎落入参数或非参数表示,其中非参数方法使用更灵活的方式承担的分布数据。金等人代表图像设为一个线性的子空间。王等人采用更复杂的歧管描述一个图像集。他们使用主要角度的方法捕获两个子空间的相似性。哈坎等人的模式是每组作为一个仿射包或凸包和匹配最接近对分两个外壳。

在本文中,我们提出一个基于流行-流行距离的叶片识别系统。如图1所示,每类已知的叶子注册一个训练图像集,未知的物种则注册不同的测试图像集。我们模型中树叶作为任意一个物种,然后计算其与各个测试集两组成的任意两组之间的距离,识别时通过寻求最小距离。首先,我们通过不同的流行算法句类来提取局部信息模型,不同流行学习算法可以识别各种各样的叶子种类,然后通过主要角度和流行-流行算法来计算两个局部模型之间的距离,计算两个之间的相似性。

二.问题公式化

鉴于上述讨论,我们提取叶片的形状特征,将叶片图像集设为流模型,然后通过多元流行学习解决问题。我们正式地给出一个叶片数据库:
G={X1,X2,hellip;Xn} ,局部模型测试集。其中Xi=[Xi1,Xi2,hellip;Xini](i=1,2hellip;n)作为一个矩阵数据集,ni定义了叶片样本的数量,正如上面提到的,我们把每个图像集Xi作为一个非线性流模型Mi,然后提取局部线性模型,定义为Mi={Li1,Li2,hellip;LiNi} 。这里Ni表示数据集中局部线性模型的个数。一般的,Ni远小于ni。

给定一个训练集叶片T={L1,L2,hellip;Ll}包含l个局部线性模型,而且该训练集属于ni个测试集中的一种。我们公式化该距离计算流行-流行距离:

在这个一般的公式化方法中,流行-流行距离来自两两子空间距离的加权平均。

三.特征提取

在本文中,我们通过金字塔形状的信息方向梯度直方图(PHOG)来提取植物叶片信息。PHOG是空间金字塔扩展梯度直方图的描述符,用来描述符计算梯度的出现定位在图像局部地区。首先,PHOG描述符提取有用的边缘,然后将叶子图像分为空间网格金字塔的水平。然后是得到方向梯度计算的面积。最后,每个网格的梯度联系在一起表示每一个金字塔的水平。在我们的实验中,我们组的数量金字塔Lfrac14;3和本大小Nfrac14;8,定位范围是0 - 360°。

四.局部线性模型建设

从流模型中提取局部线性模型最主要的挑战是如何保证线性属性的显式。根据常识,在局部线性模型中欧式距离和测地距离很是相似。这样,我们可以采用欧氏距离和测地距离之间的偏差来测量一个流模型中的非线性程度。

在本文中,我们使用Isomap的图论方法计算叶片流模型之间近似的测地距离,采用分层分裂聚类收集当地的局部线性模型。首先,完成对测地距离矩阵DG和欧式距离矩阵(基于事例图)的计算。与此同时,另一个矩阵H也建造每一列的事例指数点。为了衡量一个局部模型的非线性程度,我们定义了一个非线性分数如下

作为这个函数可以有效地保证当地的线性性质和自适应控制当地的数量模型。详细的实现的算法如算法1所示。在这个算法中,阈值delta;不仅在步骤5中控制算法的终止,也最终控制集群的数量以及它们的非线性程度。在每个迭代步骤中,集群在父级别最大的点将分裂成两个较小的下降度。我们使用这个策略的原因是,在大多数情况下,适当的数量集群是远小于数据样本的数量,平衡每个集群的点数量却是我们最后的工作,这是整合对之间的距离子空间。然后提取的集群是由线性的子空间构建最终的局部模型。我们采用主成分分析(PCA)对其简单性和效率做一定的分析。对每一个局部模型,我们定义相应的主成分矩阵通过pi;ARDdi计算的主要特征向量协方差矩阵,形成一组标准正交基的子空间。在这里,PCA降维时选择保留90%方差。

算法1.构建局部模型:

1.给定一个流Mi,所有数据点都初始化为一个集群Li1令Ni=1;

2.计算每个集群的图像数量;Lik(k属于1,2,hellip;Ni,k取Ni内任一数);

3.根据测地距离选择两个最远的种子点矩阵DG。初始化每个种子点作为新的集群L1和L2。更新L1和L2再通过迭代运行步骤4;

4.根据矩阵H,收集所有的事例的样本点分别L1和L2和融入他们。更新Lik删除点合并成L1和L2。根据knn算法对每个点进行分类,比如1,2,3,1和2属于第一类,那下次1和2的平均值作为一个整体代替L1类;

5.公式5作为循环终止的判断条件,去得到最终分类的个数和点的分布。如果最大的Si;krdelta;,返回当前聚类结果;转到第2步。

五.局部线性模型距离测量

5.1主要角

让P1 ARDd1和P2 ARDd2分别定义两个子空间的标准正交基S1和S2。主要角度

两个子空间之间的S1和S2分别定义为

其中。

其中Q12和Q 21是正交矩阵。奇异值是主要的余弦角,规范的相关性:

相关的标准向量是。换句话说,第一个主要角度theta;1是第一和第二子空间之间最小的单位向量的夹角。剩下的主要角度基本都被定义。如果最大主角度小,子空间接近对方。凭直觉,第一双规范向量对应于最相似的模式,两个线性子空间的变化,每下一对最所有之前的正交相似的模式。

5.2针对子空间距离不同子空间距离定义基于主体的角度

1)最大相关性开创性研究命名共同子空间方法(MSM)[14],只使用最小的主要angletheta;1to定义一个距离。

2)最小相关性

最小相关定义类似于最大相关性使用最大的主要角theta;r。

3)投影

指标。因为2theta;i 1 = 2:eth;10THORN;投影指标的2-norm正弦的主要角[11]。4)Binet-Cauchy规

Binet-Cauchy度量定义的产品规范的相关性[2]。最好的距离的选择取决于分类任务在数据的分布。自定义的距离主要的特定组合的角度,最好的距离高度取决于校长的概率分布给定数据的角度。这里我们采用最多的第一选择相关性,它使用最小的主要角theta;1,因为它是表现在叶数据和健壮的数据时吵了。

六.局部线性距离识别

选择权重f ij(4)是我们最后的组件的工作在计算子空间之间的距离。匹配两组相同的类,将是最有效的解决方案找到共同的观点和测量他们的相似性,而不是匹配每一对从两个流行中得到的局部模型,这些邻近双值需要更多的关注。在上面的符号之后,给两个集合流模型,我们定义两个指标函数:

这里,Neth;iTHORN;李是一个指数,为当地的模型定义在M1,显示最近的邻居在M2 L0 j。同样,N0eth;jTHORN;定义为当地M2的最近邻指数模型L0 j在M1。

现在很容易计算的距离制定Eq。(4)从两个叶子图像集。例如在图1中,每个类的树叶注册了一个画廊图像集,和未知的物种吗也代表了不同的探针图像集。我们的模型树叶从一个物种作为一个流和计算距离双阀组之间,识别是通过寻求最小距离(图6)。

七.试验和结果

我们的实验是在智能计算实验室中国科学院里面进行的。ICL叶片数据库包含从200多种植物中提取的6000多叶片图像数据集,可以满足我们对大量的植物叶子图像的需要。我们准备85类的植物叶子图像,每个类包括至少300片样品,其中一半的人随机选择作为训练样本,余下的一半用于测试样品。一些例子如图5所示,我们的方法包括阈值的重要参数delta;,在分层分裂聚类和主成分分析降维中,我们的工作数据保留了90%的能量。图7显示了所有本地模型的非线性分数平均在每个级别。我们可以看到平均非线性分数减少的数量当地模型却增加了。

因此,选择阈值delta;在这个实验中,阈值delta;固定在1.1和我们比较在三个全球5子空间的性能测量集成的地方距离。

结果如下表1所示,我们可以观察到,最大相关性比其他基于主要角度来定义的测量方法的性能都要好。一个可能的原因是由于每个局部模型都是由主成分分析(PCA)构造的,因此最大相关性捕捉到了主要信息的最复杂的区别。而像欧氏距离的平均向量和余弦距离的意思矢量exemplar-based测量,它只是告诉这个子空间的特征空间,仅仅反映了不同变化模式。

不同的地方距离的全球一体化的表现也在表1中得到了展示,它可以看到Mean-NN SIZE在所有子空间测量距离的最佳的性能。Min-NN距离只对最接近的重量1条局部模型和可能失去全球信息,因此集成结果可能是贫穷和不稳定。更稳定的Mean-NN NN距离从更多的数据,但通过使用信息没有考虑不同的局部模型的大小。的MeanNN SIZE距离可以自适应地调整权重不同神经网络对规模,因此,更加可靠和克服前方法的缺陷。

最后评价三个成分在我们叶子图像识别方法中的性能,我们比较性能不同的分类方法,包括纸浆包方法和基于集合的方法。

1.最经典基于样本的方法(事例),在实验中K等于3。

2.最近邻匹配通过LDA古典训练分析方法。为了避免奇点问题,我们采用了方法依照[18]。

3.支持向量机(SVM),我们采用了径向基函数的内核。

4.典型的exemplar-based LLEthorn;kmeans集群[17]中神经网络匹配方法,我们使用相同的参数设置[17]。

5.典型的图像设置相互子空间识别方法方法(MSM),我们运用PCA子空间的基础图像数据集和保留95%的能量,然后马克斯相关测量是用来计算子空间距离。

6.在我们的方法中,我们应用Mean-NN SIZE全球一体化距离和最大相关子空间测量、阈值delta;frac14;1:1。

表2对比较试验的平均识别率进行了演示,它可以看到基于事例和LDA收益率的方法表现相对不佳,虽然支持向量机分类器有更好的性能,它仍然不如图像分类方法好。这是因为叶子图像集包含许多大形状叶片,然后基于样本的方法并不适合在复杂环境中使用。在其他以三个组方法为基础,LLEthorn;K-means展品是最低的认可利率,因为它使用原型代表的集群利用从多方面的。尽管exemplar-based方法简单,它只告诉特征空间的子空间的位置,不得叶图像集

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[154054],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。