英语原文共 37 页
计算机视觉识别植物物种系统文献综述
Jana Wauml;ldchen Patrick Mauml;der
摘要:植物分类知识对保护生物多样性至关重要。常规植物的鉴定,复杂,耗时,并且由于使用具体的植物学术语令非专家感到望而却步。这个为有兴趣获得物种知识的新手设置了一个难以克服的障碍。现在,随着对自动化鉴定物种兴趣的增加和相关技术的可用性和普遍性,例如,数码相机和移动设备,通过远程访问数据库,图像处理和模式识别等新技术让物种识别的想法成为现实。本文是第一篇系统文献审查的目的是进行彻底的分析和比较植物计算机视觉方法的初步研究物种鉴定。我们选择了在过去10年(2005-2015)120个同行评审通过多阶段过程选择的研究成果。仔细分析这些研究,我们总结了分类的应用方法,通过研究的植物器官和研究的功能形状,即形状,纹理,颜色,边缘和静脉结构。此外,我们比较基于分类的方法在公开数据集上验证准确性。我们的愿景与生态学研究正在进行的研究的计划愿景基本一致。系统的和简明的概述对那些初学者也很有帮助,因为他们可以使用可比较的分析应用方法作为此复杂活动的指南。
1介绍:
生物多样性在全世界范围内稳步下降,目前的灭绝速度很大程度上是由于直接和间接的人类活动。准确鉴定物种和分析植物地理分布对未来的生物多样性保护至关重要。因此,快速准确的植物识别至关重要。有效研究和管理生物多样性。在手动识别过程中,植物学家通过使用不同的特征顺序检查来自适应地识别植物种类。实质上,一个或多个属性的一系列问题,未知植物(例如,形状,颜色,花瓣数量,或叶子的长度不断聚焦于最多区分特征并缩小候选物种范围。这一系列的操作最终判别出所需的物种。然而,从野外观察中获取植物种类需要丰富的植物学专业知识,超越了它大多数自然爱好者的接触。传统植物物种一般的公众几乎不可能识别甚至对于处理的专业人士也具有挑战性,如环境保护主义者,农场 , 林务员和景观设计师。即使是植物学家,物种鉴定往往是一项艰巨的任务。越来越短的时间进一步加剧了这种情况。技术分类学家的年龄下降和公众中部分下降的分类学知识被称为“分类危机”。但迅速下降的生物多样性并且有限数量的分类学家,标志着生物学研究和环境保护面临着重大挑战。最近,分类学家开始寻找更高效的物种鉴定方法,例如开发数字图像处理和模式识别技术。计算机发展和无处不在的信息技术,如数字相机和便携式设备,让这些想法更接近现实。数字图像处理是指使用诸如图像的操作的算法和过程增强,如图像压缩,图像分析,数字图像是被认为是巨大影响现代社会和各种应用中的关键组成部分,包括模式识别,计算机视觉,工业自动化和医疗保健行业。基于图像的方法被认为是有前途的物种鉴定方法。用户可以使用内置摄像头拍摄现场植物的照片,并使用已安装的识别器对其进行分析,识别物种或接收物种的应用如果不可能进行单一匹配,则列出可能的物种。通过使用计算机辅助识别系统,使得非专业人士可以参与这个过程。因此,大量研究致力于自动化植物物种鉴定。例如,ImageCLEF,最重要的视觉算法之一,自2011年以来就开始举办植物鉴定的挑战。我们假设在这种发展的趋势下,在可预见的将来会进一步增长包含无数的便携式设备和稳定可用性精确传感器。这些设备提供了更多的硬件基础,可以精心指导和协助人们参与物种识别。此外,随着科技的发展,增强现实,智能眼镜,3D扫描等技术为这个研究课题提供了长远的视角。通常可以划分图像分类过程进入以下步骤(图1):
- 图像采集 - 此步骤的目的是获得整株植物或其器官的图像以便进行分类分析。
- 预处理 图像预处理的目标是增强图像数据,以避免不希望被扭曲被抑制的图像功能受到影响,并可以做进一步处理。将修改后的图像作为输出,就进入到下一个步骤,特征提取,通常进行预处理包括图像去噪,图像控制等操作来增强和细分功能。这些可以并行或单独应用,它们可能是多次执行,直到图像质量令人满意为止。
预处理
图像获取
特征提取描述
分类
基于图像的植物分类过程的一般步骤
- 特征提取和描述 特征提取是指进行测量几何或其他可能是分段的,有意义的区域图片。通过在图像中捕获的植物器官(又名描述符)使得可以由一组数字描述表征植物或植物的某些特性
- 分类 在分类步骤中,全部提取的特征被连接成一个特征向量,然后被分类。
本文的主要目标是
(1)使用计算机视觉技术对植物物种进行自动化识别
(2)突出研究的挑战
(3)为解决一系列重要问题和实际问题。由于这些原因,我们专注于图像采集与特征提取与处理,,所讨论过程的描述步骤受到要分类的对象类型的高度影响,即植物品种。详细分析预处理或者分类步骤就超出这篇评论。此外,所介绍的这些应用方法这些步骤更通用,大部分独立于分类对象类型。
2:方法
我们遵循系统文献的方法论(SLR)分析该领域的已发表研究的自动化植物物种鉴定材料。SLR是指评估所有可用的研究问题 感兴趣的研究课题并解释这项工作的结果。 SLR的整个过程是分为三个基本步骤:
(1)定义研究问题
(2)进行相关的搜索寻找出版物,
(3)从识别中提取必要的数据和有条理的出版物来回答研究问题。
2.1 问题研究
我们定义了以下五个研究问题:
RQ-1:数据统计:出版时间,地点,作者分布,各地研究 这个目的是得到一个定量概述研究并获得关于这个主题的研究小组。
RQ-2:图像采集:使用图像每个初步研究分析物种,如何进行分析已经获得了的这些图像, 给全世界的开花植物物种(又名被子植物)分类,我们希望知道在研究中考虑了多少物种来解释结果的普遍性。我们对植物的位置信息收集材料(例如,更新材料或网络图像);以及整个植物是否被研究或选择。
RQ-3:特征检测和提取:哪些位置被提取和使用哪些技术检测和描述? - 这个问题的目的是分类,比较和讨论这些方法和描述来对物种进行自动化分类。
RQ-4:研究比较:哪种方法产生最佳分类准确度? - 回答这个问题,我们比较评估的选定主要研究的结果在标准数据集上使用方法。这个目的是概述使用的描述符 - 测试者组合和所达到的准确度物种识别任务。
RQ-5:原型实现:是典型的使用移动应用程序等方法Web服务或可用于评估的桌面应用程序 这个问题旨在分析如何让更多的用户使用现成的方法,例如,普通大众。
2.2 数据来源和选择策略
我们使用了一个前后结合的策略 - 确定初级研究的战略(见图2)。这种搜索技术确保积累a相对完整的相关文献普查不符合被罚为一种研究方法,一套期刊和会议,或一个地理区域。滚雪球需要一套出版物,这些出版物应该是发表在研究领域的主要期刊或已被多次引用。我们确定了我们的起始集通过Google学术搜索手动搜索进行的五项研究(见表1)。 Google学术搜索是一种避免使用的好方法偏向于初始集合中的特定发布者抽样程序。然后我们检查了是否 - 初始集中包括在至少一个中以下科学资料库:(a)汤森路透网站of Science TM,(b)IEEEXplorereg;,(c)ACM数字图书馆,(d)ElsevierScienceDirectreg;。
每个出版物标识 - 还检查了以下任何步骤被列在至少一个这些存储库中以进行限制我们专注于高质量的出版物。落后选择意味着我们重复每个人都认为参考的出版物通过人工搜索得出的论文作为我们的候选人评论。类似意味着我们,基于谷歌学术搜索引用,确定了额外的来自所有这些研究的候选出版物已经包含的出版物。对于候选人来说包括在我们的研究中,我们检查了另外的标准被列入四个存储库。标准提到文章标题,必须遵守以下内容模式:使用此搜索字符串允许我们处理现有大型工作量并确保搜索主要工作研究主要集中在植物识别上计算机视觉上。下一步是从研究中删除研究已经在之前的背后检查的清单 - 前进或前进滚雪球迭代。第三步,是删除所有未列入四篇文献的研究之前列出的存储库。剩下的研究成了我们调查的候选人,并被用于进一步支持前进滚雪球。一旦没有新论文发现,既不是通过向后也不是通过前进,搜索过程终止。通过这种选择过程中,我们获得了187份初级研究的候选清单。仅考虑高质量的同行评审论文,我们最终排除了所有研讨会和研讨会论文以及工作笔记和短篇论文少于四页。审查文件也被排除在外因为它们不构成初级研究。为了得到一个鉴于最近研究领域的研究,我们将我们的重点限制在过去10年并因此而来仅包括2005年至2015年期间发表的论文。最终,此SLR中显示的结果是基于的120项主要研究符合我们的所有标准。
图2研究选择过程
n = 5
确定向后和向前滚雪球的初始出版物集
阶段1
n = 187
阶段2
识别纸质标题的搜索术语以及向后和向前根据搜索词滚雪球直到饱和发生
排除基于a)时间(2005年之前),b)研讨会和研究的研究专题讨论会出版物,c)审查研究,d)简短出版物(少于4页)
n = 120
阶段1
表1 用于前滚和后滚的雪球策略基础设定
研究人员 |
杂志 |
题目 |
年份 |
引用文献总数 |
投稿总数 |
Gaston and Orsquo;Neill |
皇家哲学的哲学交易伦敦社会 |
关于自动化物种的路线图纸鉴定 |
2004 |
91 |
215 |
MacLeod et al |
自然 |
关于自动化物种的路线图纸鉴定 |
2010 |
10 |
104 |
Cope et al |
应用专家系统 |
审查自动化叶片上的论文鉴定 |
2012 |
113 |
108 |
Nilsback et al |
印度计算机视觉会议 |
关于自动化识别植物花种研究 |
2008 |
18 |
375 |
Du et al |
图形和图像处理应用数学和计算 |
关于自动化植物叶片识别研究 |
2007 |
20 |
215 |
2.3 数据提取
为了回答RQ-1,提取了相应的信息主要来自初级研究的元数据。表2表明提取的数据用于寻址RQ-2,RQ-3,RQ-4和RQ-5与提出的方法有关通过一项特定的研究。我们仔细分析了所有的主要研究并提取必要的数据。我们设计了一个数据提取用于收集结构中信息的模板
方式(见表2)。本评论的第一作者提取数据并将其填充到模板中。该第二作者双重检查了所有提取的信息。检查员讨论了与提取器的分歧。如果他们未能达成共识,其他研究人员也会如此参与讨论和解决分歧。
2.4 有效性威胁
这次审查有效性的主要威胁源于以下两个方面:研究选择偏差和可能性数据提取和分析中的不准确性。选择研究取决于搜索策略,搜索来源,选择标准和质量标准。正如论文所建议的那样,我们使用了多个数据库我们的文献检索并提供清晰的文档应用搜索策略的复制能力在稍后阶段搜索。我们的搜索策略包括过滤器在早期步骤中的出版物标题。我们用了一个精确的搜索字符串,确保我们只搜索主要研究主要集中在植物物种上使用计算机视觉识别。因此,研究提出新的计算机视觉方法一般和评估他们对植物物种鉴定的方法任务以及使用不寻常术语的研究此过滤器可能已排除出版物标题。我们仅限于英语学习。这些研究只是期刊和会议至少四页的论文。但是,这个策略将非英语论文排除在国家期刊和会议。此外,还包括灰色文献等作为博士或硕士论文,技术报告,工作笔记,白皮书还有研讨会和研讨会论文可能会导致更详尽的结果。因此,我们可能错过了相关论文。但是,充足的清单纳入研究表明我们的搜索范围。在此外,研讨会论文以及灰色文献是用户在会议或期刊上发表文章。那里-排除灰色文献和研讨会论文避免在文献综述中重复的初级研究。至减少不准确数据提取的威胁,我们详细说明评定了用于数据提取的专用模板。此外,提取器和检查器之间的所有分歧通过讨论和仔细考虑在研究人员中间解决数据。
3:结果
本节报告每个研究问题的汇总结果基于从初步研究中提取的数据。
3.1 数据统计
研究植物自动化识别的兴趣随着时间的推移增高,我们按年份汇总了纸张数量出版物(见图3)。该图持续显示对这个研究课题越来越感兴趣。特别是近期发表的论文数量逐渐增加,表明这个研究课题被认为是高度相关的,今天研究人员显而易见。了解活跃的研究小组及其成员地理分布,我们分析了第一作者位置。结果表明所选论文是来自25个
资料编号:[3540]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。