大规模和多样化的SAR卫星图像中的溢油检测分类器
摘要:本文对文献中迄今为止所考虑的最大分类器集合进行了比较,由428种方法属于41个不同的分类。此集合,比我们一个大的多,以前的工作的(费尔南德斯德尔加多等人在学习研究.马赫15:3133–3181, 2014),包括320个系统(改变基本分类器和元分类器),与支持向量机、神经网络、贝叶斯判别,判别分析,多元自适应样条回归,随机森林,决策树和许多其他。分类器比较是在从人造卫星拍摄的合成孔径雷达(SAR)图像上检测溢油。SAR图像显示,监测海上机构经常海上作业排放是非常有用的,尽管这是普遍接受的,但它是造成海洋海洋污染的最大原因之一,而不是油轮和石油平台的灾难。一个分割的SAR溢油图像选择候选人后,分类器使用从这些候选人中丢弃频繁和费用的外观相似的特点(误报),由自然现象造成的。测试实验表明,多层感知器分类器的rotationforest集成,应用核主成分分析的原始数据,以达到最佳的精度和Cohen j(分别为87.1%和71%,)具有低的假阳性率(5.13%)
关键词:溢油检测;合成孔径雷达;卫星图像旋转森林人工神经网络;网络支持向量机决策树;套袋助推核主成分分析;分类器多元自适应回归;样条函数
1引言
目前,海上运输约占80%的全球贸易额和70%以上的价值,其中沿着位于主要航道的国家的专属经济区产生密集的海上交通。这些地区通常受到与碳氢化合物有关的污染问题的影响,但与主要接受的相反,只有7%的石油泄漏来自油轮和石油平台的灾难。石油污染总量的一半可以归因于从容器中操作排放,通常船舶舱底清洗,其余的来自河流以及自然资源。具体来说,加利西亚海岸(伊比利亚半岛的一个主要运输巷靠近西北)遭受了重要的油轮灾害灾难如乌古拉1976,爱琴海1992威望2002。除了这些罕见的事件外,常规操作和小事故所引起的石油泄漏也经常被发现。根据2012西班牙海上安全和救援机构报告,飞行任务共检测出146起的漏油,而102起是由卫星的报告显示。
监控海事机构应该有足够的工具来确保环境紧急状况适当的响应。传统的监测资源,如船舶和飞机,由于其局限性、成本高、对气象条件的依赖性等原因,无法获得最佳的监测资源。然而,他们是来检查泄漏“在原处必要。”这些资源应该有效地管理通过远程系统首先标出可疑区域。具体来说,该雷达已成为探测海洋表面碳氢化合物的合适工具。基本上,雷达是一个主动探测系统,它装配在一个向海面发送微波波束的平台上。波束通过表面反射和后向散射,通过雷达天线再次收集部分能量:测量并记录天线接收到的信号的强度,以便在研究区域的图像构造中使用。背散射行为与所研究的区域条件直接相关,因为海面有一个随风浪和膨胀而变化的粗糙度,这有助于后向散射。然而,表面的粗糙度和提高油减轻梁反射行为,所以出现漏油与雷达图像的亮度区域少,就像其他自然现象如低风,油脂冰和上升流是误报,俗称脸。合成孔径雷达(SAR)是一种可以在卫星上高效组装的雷达形式。由于高覆盖率、低成本和独立的天气和光照条件,合成孔径雷达图像非常有用。文献表明,许多人致力于开发基于SAR 17的自动和半自动检测系统,它们通常由三个阶段组成:
· 从SAR图像背景中突出分割出溢油候选物。虽然有几种可用于输入的技术,如自适应阈值,人工神经网络和边界检测,它们大多是基于识别碳氢化合物的特定后向散射的镜面行为。
· 表征分段的候选人进行了分析得到的特征向量,以传达足够的信息来区分漏油和外观。尽管在检测系统中这一阶段的相关性,很少有研究严重分析它。通常,通过启发式过程选择特征。
· 特征向量的分类必须分类为相似或溢油。文献在这个领域有许多方法,如支持向量机,神经网络,基于模糊逻辑的分类器,统计模型,等等。
分类器的选择是系统中必不可少的因为SAR图像通常含有比石油泄漏更多的类似物质。然而,由于缺乏共同的检验方法,文献中对这一领域缺乏深入的比较相对于以前的阶段的数据集和分类器能力的依赖性。本文试图发展溢油检测分类器的比较问题,基于先前生成的输出开发的溢油分段系统。第二款以及第三款描述在比较中使用的数据采集和分类器采集,按族分组,分类。第四部分讨论了结果,最后分析。第五得出结论和今后的工作展望
2数据采集
我们使用了一个具有47个高级合成孔径的数据库来自Envisat卫星的雷达图像,包括加利西亚海岸自2007 - 2011年,以发展石油泄漏自动检测系统。具体来说,是细辛广选择swath模式是因为它提供了较大的覆盖范围和足够的分辨率来寻找中小型溢出物。该数据库包55起漏油事件萨沙马尔以及欧洲海事组织报告安全机构。数据库也得到加强具有风速数据产品。风数据是直接的在ASAR图像上使用C波段地球物理计算模型功能称为CMOD5 [ 26 ],它与雷达有关粗糙海面后向散射对风速的影响方向。此图像数据库由一次溢油事故处理分段系统以检测所有溢油候选[ 36 ]。分割过程基于自适应阈值函数具有两种风的特定区域的反向散射值ASAR图像的速度和入射角( IA )。低于自适应阈值的值被认为是石油候选人。之后,对系统输出进行标记由一名操作人员根据向萨赫勒和撒哈拉以南非洲区域办事处报告。在这一点上,它必须指出的是,一些已确认的溢出物是分段过程中中断,正在考虑作为独立候选人。这主要是因为漏油可以通过以下几种现象来改变平流、弥散和蒸发。因此,有些溢出区域可以比其它区域限定得更少,并且它们可以甚至被完全孤立。因此,分割算法并不总是能够提取出完整的溢油形状。然而,我们期望分割候选保存最重要的特征。因此,我们有一个由234个标记候选项组成的最终数据集,包括80个溢油和154个外观样本,它们通常在合成孔径雷达图像中更频繁
图1(左图)显示在加利西亚海岸的ENVISAT卫星影像为例(2007年6月1日,从我们的数据库中收集)含有三次溢油鉴定EMSA算子。右边的面板显示了识别漏油的分段系统的输出,还有许多其他误报一起拒绝。一旦候选人被分割,他们进行分析,以便提取他们的特征向量,应仔细选择,根据所研究地区的具体用途。这些特征可以分为三种主要类型:
· 形状自以前的研究[ 41 ]已经显示出溢油形态与its的直接关系来源、年龄和天气条件、形状特征有望传达有用的信息,以区分石油溢漏和外观。
· 物理漏油主要由其SAR强度值确定,后者象征雷达后向散射。有关研究区域及其周围环境强度的特征,对于正确分类候选人是必要的。
· 海面雷达后向散射的背景与SAR的风速和IA密切相关,是测量漏油的两个关键测量点。有一个最佳的风速范围从3.5~7m / s表面活性剂污染研究低风速地区没有显示出足够的粗糙度协助散射和高的表面粗糙度的衰减特性消失的油。具体而言,低风的表面区域是在加利西亚海岸的主要来源
为每个候选项计算的功能的完整列表为如表1所示。我们还考虑了几种组合在这些特征组中,共有六个不同的特征用作分类输入的特征向量的种类舞台。这些组合(按增加数量排序( 1 )具有两个物理特征的图形;( 2 )由上下文和物理构成的具有4个输入的模式特征;( 3 )有9个输入的模式,包括上下文和物理输入以及a的5个最大组件主成分分析( PCA ),它说明92.34 %的方差,应用于原形状特征;( 4 )应用内核实现10输入模式主成分分析( KPCA )作为原始图像的预处理阶段21 -输入模式;( 5 )由形状特征;( 6 )整个21 -输入模式
对于10输入的KPCA特征向量,我们使用了KPCA高斯核R [ 45 ]中核lab包的作用。KPCA组件和内核的数量使用集合{ 2...21 }和f2i栅级Ⅱ10人。此调优是在培训a中开发的高斯核支持向量机选择组件数量和内核扩展其在四倍交叉验证上最大化其精度。支持向量机是利用ksvm函数实现的在kernlab软件包中,使用值调整C参数f2ig145 ( LibSVM [ 7常用的值),最多流行的SVM实现)并使用sigest函数来自动启发式选择最佳高斯散开。此调整过程选择了10个组件为金伯利进程证书制度分摊0.0039。测试的分类器是使用针对前六个中的每一个的不同数据集进行训练各种特征向量,以便根据所评估的特征来比较它们的有效性。
3材料和方法
我们开发了428个实验分类器,包括320个集成,以不同的语言和平台实现。在下面,名称每个分类器的(例如,LDA / R )在斜杠( / )之后包括一个标识实现类型的标签: ( a )使用多个库的C语言(标签C ),如LibSVM和范氏(见下文);统计计算语言1 (标签R )诉2 . 15 . 3;( c )护理2包(标签t ) v . 5.16 - 04,作为在R;(四)MATLAB神经网络工具箱(标号M ) v . 7 . 9 . 0;和( e )西欧联盟数据挖掘软件[ 24 ] v . 3 . 6 . 8 (标签W )。在这些平台中,只有Weka允许更改每个集成的基本分类器,通过命令行选项- W (参见Weka文档),实现集成分类器和基本分类器的大量组合。我们希望通过这些组合在一起的合奏,虽然包括在我们的实验来自不同家族的许多其他分类器。在下面我们编译这些分类器,分类器按按字母顺序排列的家庭和每个族(例如,DA设计判别分析分类器族)。给定参数的大相关性调谐(例如,选择正确数目的隐藏神经网络中的神经元)的性能分类器,我们还列出了每个可调参数分类器和用于参数调整的值。这所选值由软件推荐文档(例如LibSVM、插入符号和Weka )或由我们手动选择,始终测试较宽的值范围没有提供更好的结果。分类器的大小集合甚至避免了对每个分类器的简要描述:我们参考了我们以前的著作《[》和《语言》进一步的文档( R、插入符号、C、MATLAB或Weka )每个分类器的详细信息和参考。为了得到可复制的实验,每个分类器在所有运行中使用随机数发生器的相同种子(零)。
1阿达博斯特m1 / W ( ABM1,14个分类器)由Adaboost类型的系综组成。m1 [ 20 ]在Weka实施,有14个不同的基地分类器,将重量百分比调整为基于值{ 25,50,75,100 }的培训。我们使用了以下14个基本分类器的列表:决策桩(默认选项),决策表,超导管,IBk,J48,LibSVM,SMO,物流,多层感知器,朴素贝叶斯,声部,部分,随机树和随机树(此列表将表示为L )。例如,具有决策残基分类器的adaboosstm1集成被表示为adaboosstm1 -决策残基/由于参数调整的困难基本分类器,它们使用默认配置和参数值。相同的14个基本分类器列表L用于所描述的许多系综下面(例如,标记),尽管一些基本分类器与某些系综不兼容(例如14个基本分类器中有5个可以与分类回归)
2 属性选择分类器( ASC,14个分类器)将L中的14个基本分类器与属性相结合选择使用CfsSubsetEval方法进行选择属性组和最佳第一前向搜索,当发现五个非改进节点时停止。
3 套袋(BG,22分类):套袋/ R是包学[ 2 ]合奏的分类树实现利用套袋功能的IPRED包;treebag / T,使用相同的功能,通过插入包装;ldabag / R,线性判别分析(LDA)的基分类器,分析在bagcontrol = ldabag插入包装袋功能;plsbag / R,nbbag / R,ctreebag / R,svmbag / R和nnetbag / R bagcontrol = plsbag,nbbag,ctreebag使用相同的函数,分别svmbag和nnetbag,,执行相应的套袋使袋/务;W是WEKA装袋集成在L的基分类器(见adaboostm1 / W),调整百分比P AdaBoostAB。
4贝叶斯分类器( BY,5分类器) :天真-是/klaR包中的朴素贝叶斯函数,与高斯核、带宽1和拉普拉斯校正2:朴素贝叶斯分类器使用基于训练集的估计器类,以及unishbayesupdateable / W,其可更新版本;一种简单的朴素贝叶斯分类器,通过正态分布对输入进行建模;贝叶斯网络,使用K2,a爬山搜索方法及简单估计器贝叶斯条件概率表的估计训练数据网络。
5增强( BST,2个分类器) :增强/恢复,增强。中具有增强功能的m1分类器袋包装和基本分类树;c5.0 /t、增强C5.0决策树和规则集成C50中C5.0函数实现的模型打包,使用值{ 1,10,20 }调整试验,有/没有风选(特征选择)。
6 分类回归( CVR,5个分类器) :此方法使用基本分类器作为回归器为每个类建模(仅与决策残基一起工作,IBk、M5P、立普树和多层感知器基础量词。
7 成本敏感分类器/ W ( CSC,14个分类器) :它将L个加权中的每个基本分类器相等地组合每个训练模式.
8 CVP,14个分类器:它选择L中各基分类器的最佳参数使用{ 4,3,5,7,10 }中的交叉验证和调优#文件夹3。
9 dagging / W ( DG,14个分类器) :一个投票集合使用{ 3,4,5,10 }中的k倍交叉验证调谐k训练的L中的基本分类器
10 决策树( DT,13个分类器) : rpart / R,递归划分[ 4 ],同名包中的rpart函数;同样的艺术调优使用值自动计算复杂性参数在0.01和0.18之间;同样的调整树深度最大为10 (具体值取决于数据集);斜树/ R,使用斜树函数的线性组合来开发二进制递归分区输入(倾斜分割);C5.0树/ T,C5.0树,无参数调整;控件中的参与方包,使用值调整mincriteria0.1 : 0.11 : 0.99 (即
全文共26545字,剩余内容已隐藏,支付完成后下载完整资料
英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[10464],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。