英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
数据挖掘工具在受限水域船舶安全研究中的应用
摘要
研究了实施《国际船舶安全管理规范》的有效性及其在人为和非人为错误之间船舶事故原因分布中的作用。对1995年至2006年希腊籍船舶在限制水域航行区域内发生的所有事故进行了分析,这是一个跨越ISM前后的时间尺度。
通过对事故数据进行分类树分析,对各种事故因素进行分类。分析表明,虽然人为失误仍然是船舶事故的主导因素,但也有大量证据支持《国际船舶安全管理规范》对后国际船舶安全管理时期船舶事故的有效控制。ISM规范的实施使人为事故总体减少。此外,在位置方面,ISM规范改进了限制水域内的人为事故记录。
综上所述,ISM准则是一项有效的航运安全政策措施。本文所报告的分类树分析结果可供企业和国际组织的决策者用于建立基于知识的专家系统,并扩充其在安全政策和管理领域的信息。
关键词:航运安全 数据挖掘 ISM规范 人为错误
- 介绍
国际海事组织(IMO)于1998年实施了《国际安全管理规范》(ISM规范),以便为船舶的安全管理和操作以及防止污染提供国际标准。
船舶事故和海洋环境污染是多种因素共同作用的结果。英国海洋事故调查处(MAIB)指出,“一个因素仍然主导着大多数海洋事故:人为失误”(MAIB,2000)。认识到这一点,《国际船舶安全管理规范》旨在通过确保所有船上活动必须遵守《国际船舶安全管理规范》实施后所有船舶公司必须维护的《安全管理体系》(SMS)规定的“谁做什么,什么时候做”的操作标准来促进船舶安全。在这种程度上,通过应用以“人”或“非人”分裂为主要原因的分类树对船舶事故进行分析是评估ISM规范有效性的一个有价值的工具。
世界范围内的研究人员投入了大量精力,从各种因素(Celik等人,2010年;Grech等人,2008年;Tzannatos,2005年;Tzannatos,2002年)估算船舶事故的关联性,以及评估ISM准则执行措施的有效性。
该领域的先前研究(Psaraftis等人,(1998年)对1984-1994年期间希腊航运事故中的人为因素进行了“深入”分析,结论是“对于审查的每一个案例,都不可能说明如果ISM适用于相关船舶,事故就不会发生。现在评估ISM对实施该准则的船舶安全的影响还为时过早。这需要数年的时间才能确定,而要做到这一点的分析也并非微不足道。然而,ISM认证本身就意味着,与船舶运行有关的所有程序都将至少得到建立、监测和控制,这就意味着,失控的风险将降到最低。”
尽管关于ISM规范有效性的可比数据并不像应该的那样简单,但首先是由于不同谅解备忘录(MOU)在报告和管理方面存在不一致之处,另一方面,由于工作人员的态度、检查的便利性等主观问题的影响,以及在每一份谅解备忘录的签署国之间,检查员的情绪结果表明,安全管理制度正在发挥作用(巴黎谅解备忘录,2007年)。
然而,如果ISM系统全面改善了海上安全,则ISM规范评估不仅应侧重于提供答案,还应侧重于提供几个详细问题的答案。因此,ISM准则评估程序应揭示“人们为什么会犯错”、“在哪些事故中,ISM系统提高了安全性”或“在哪些情况下(如果有的话),ISM没有提高安全性”等知识。提取这类信息可能导致提出适当的补救行动建议。
用于ISM规范评估的工具主要包括经典的统计分析技术(Giziakis等人,1996年),这些技术应用于船舶扣留记录和相关当局检查框架内产生的缺陷通知。这些技术产生了一个彻底的航运事故分析,统计了人类对航运事故的影响。
利用数据挖掘技术对船舶事故的研究(Kokotos和Smirlis,2005)可能会揭示出那些使用了经典统计分析技术的研究人员尚未提取的信息。
一个强大的数据挖掘功能是分类树,应用于生成最优的分类规则。该算法利用多个预测(独立或解释)变量的信息,将一个数据集(当前工作中使用的船舶事故数据集)的案例分类为特定类别的目标(因变量)。因此,生成的树图将目标变量的类别与其预测值联系起来(Goodman,1979)。
分类树很容易被专家和非专家理解。分类树可用于潜在决策支持系统和风险管理信息系统,该系统将记录船舶事故的评估和处理数据。
目前的工作是挖掘隐藏信息,评估事故来源(人或非人)与事故年份、事故地点、船只类型、大小和年龄的联系。挖掘出的信息将用于评估ISM准则在人为和非人为错误之间的航运事故原因分布中的作用。最后,挖掘出的信息将衡量ISM准则实施的有效性。数据挖掘是在全世界悬挂希腊国旗的船只的事故中进行的,涵盖了前ISM准则和后ISM准则时期。关于船旗管理的选择,人们认为,希腊航运因其规模和多样性而成为分析事故的宝贵参考。
2.方法论
2.1事故数据集和变量
目前的工作利用了希腊海岸警卫队(HCG)的官方调查报告中所包含的信息,这些报告涉及1995-2006年间全世界悬挂希腊国旗的船只发生的事故。所考虑的时间跨度由工作范围和数据的可用性决定。在这方面,扩大对1995年以前事故的分析,必然会加强与非人为(例如技术性)航运安全有关的措施对捕捉1998年为控制航运事故中的人为因素而实施的《国际船舶安全管理规范》的作用的影响。更具体地说,在1994年底,执行《国际海上人命安全公约》关于客船稳定性和消防的修正案以及对《国际船舶安全公约》第二版和《国际船舶安全公约》第三版的修正案被认为是航运安全中非常重要的技术措施。2006年以后发生的事故没有包括在我们的数据集中,因为在我们进行数据处理时,关于这些事故原因的一些官方报告还没有最后定稿。HCG官方调查报告中包含事故的前提条件是,事故中至少遇到了以下情况之一:
·船的全部或部分损失;
·这艘船被保险公司接管了;
·船员永久或暂时弃船;
·货物丢失或故障(超过25%);
·由于严重故障而长期失去船舶指挥权;
·船员或者旅客的生命损失或者重伤。
由于信息的主要来源是文本形式,因此进行了一个完整的数据输入、编辑和验证过程。为了生成数据集,对这些信息进行了转换和编码。
此外,由于500 grt以下的船舶已被豁免遵守ISM规范,因此所有涉及500 grt以下船舶的事故都从数据集中丢弃。根据这些标准,在应用数据清理(Kokotos,2003)消除事故信息相同、数值缺失和数据不可靠的情况后,出现了由268起船舶事故组成的数据集(事故数据集)。
对于每个事故,事故数据集都包含表1所示的信息。
分析起来,我们有:
(1)事故的来源(或原因)。这是一个接受“人为”或“非人为”值的两分变量,分别占观察值的57.1%和42.9%。这些数值代表了根据对航运事故的正式调查得出的报告结论,涉及到人类实体(船长或轮机长、引航员、海上人员等)是否对事故或其他方面(随机事件、天灾、不明来源)负有最终责任。在我们的分析中,它被用作目标变量。
(2)事故年份。它是一个二分法变量,接受“前ISM”(“1998年之前”)或“后ISM”(“1999年之后”)的值,分别占事故的44.4%和55.6%。在我们的分析中,它是主要的解释变量,旨在衡量实施ISM代码前后的效果模式。
(3)(事故的)地点。它是一个二分法变量,接受“限制水域”或“公海”的值。这与事故发生时船舶的位置有关,即限制水域(港口、运河、海峡、锚地、沿海水域等)和公海,分别有58.6%和41.4%的观测值。
(4)船舶吨位。船舶吨位在488-132590总登记吨之间,标准差17296,平均值13040总登记吨。
(5)船舶类型。它是一个类别变量,接受“一般货物”或“散货”或“集装箱”或“油轮”或“邮轮”或“客滚船”的值。分别为17.5%、33.2%、4.9%、20.9%、1.5%和22.0%。
(6)船龄。它是一个分类变量,接受“1-8年”、“9-22年”、“23-26年”或“27年”的值,分别为9.7%、31.3%、20.2%和38.8%。
2.2数据挖掘
数据挖掘是指在数据集(数据库)中发现隐藏信息的过程。或者,它被称为解释性数据分析或数据驱动的发现或演绎学习(Dunham,2003)。
在目前的工作中,我们应用逻辑回归和分类树来研究我们的数据集的结构。逻辑回归确定了一组预测因子与二分法结果之间的线性关系,通常用优势比作为似然指数来衡量。一般来说,它需要完整的数据,并且对异常值敏感。另一方面,分类树能够检测非线性相关性,比逻辑回归受缺失值的影响小,并将其分类能力作为一组预测因子与结果之间关系的唯一度量。它们还可以为数字变量的分类提供指示性的截止点。逻辑回归和分类树可以互补应用。
分类树(Brieman等人,1993年)是一种数据挖掘函数,用于预测通常由分类类型的因变量定义的类中案例的隶属度。每种情况都是通过一些预测变量来衡量的。分类树的实现是通过一个训练过程来实现的,在训练过程中,将特定的算法应用于由预测变量组成的样本数据集。典型的训练算法分为两个阶段:分裂阶段和剪枝阶段。分裂阶段是一个自顶向下的迭代过程,它通过定义与分支连接的节点来扩展树,而修剪阶段是从树中删除一部分分支的行为,以便生成适当大小的树并避免过度拟合。分支末端的节点称为叶。树顶部的第一个节点是根节点。在每个节点上,分割算法通过选择一个预测变量来创建新的节点,使得得到的节点尽可能彼此远离。用于分割的距离测量在很大程度上取决于具体的分割算法。
2.3分类算法
本分析基于CHAID(卡方自动交互检测器)算法(Kass,1980)。它是一种高效的分割或树木生长的统计技术。由于我们的目标变量是一个分类变量,使用卡方统计检验的显著性作为标准,CHAID评估潜在预测变量的所有值。它合并相对于目标变量被判断为统计上同质的值,并保持所有其他异质的值。然后选择最佳预测变量构成决策树中的第一个分支,使得每个节点由所选变量的一组齐次值组成。这个过程递归地继续,直到树完全生长。作为这个过程的结果,有意义的变量触发数据的另一个分区,而没有意义的变量则被该分区丢弃。CHAID不一定是二进制的。因此,它可以在树的任何特定级别生成两个以上的类别。
3.结果的陈述和讨论
真正重要的是选择可作为预测船舶事故人为/非人为原因的工具的自变量。重要的一点是,与通常试图建立一个实验设计的特定形式以得出结论的统计方法相反,我们的目标是开发一个决策支持系统工具,该工具可以根据现有数据得出可靠的结果。
很明显,运输事故率取决于所观察到的运输活动,这些活动是以已完成的运输工作(吨-海里)正式表示的。1995-2006年期间运输工作不断增长的证据(贸发会议,2008年)表明,所有航运安全措施保持不变,事故率应当上升。然而,根据国际海事组织2006年的报告(IMO,2006年),由于任何与安全有关的原因,全球船舶损失明显减少。这归因于各种安全控制措施的影响,其中ISM规范的执行是最具决定性的,因为普遍承认人为因素。
根据目前的分析结果,这也反映在ISM前后由于人为失误造成的航运事故年平均减少率中(表2)。人为失误事故率的年均变化率提高了49.3%(从1995年至1998年期间每年平均19.0起,到1999年至2006年期间每年平均9.6起)。
可用的数据实际上是与船舶、事故发生地点等相关的一般信息。我们的事故数据集的人为原因和非人为原因的百分比如图1所示。57.1%的事故是人为失误造成的,其余42.9%的事故是非人为因素造成的。这一发现是对航运事故中人为因素影响的保守估计,而普遍公认的是65%。然而,需要注意的是,这一较高的估计主要是由实施ISM之前进行的研究所支持的。
重要的是,自1998年底以来,强制性地引入了ISM准则,使其成为预测非人为错误可能性时对自变量影响的重要控制函数。更具体地说,如图2所示,人为错误的百分比似乎逐年下降。因此,非人为错误的补充百分比似乎逐年增加。这一发现表明使用事故年份变量(“前ISM/后ISM”)作为非人为错误的控制因素。
首先,我们尝试用逻辑模型来模拟“非人类”错误的可能性与控制因素“前ISM/后ISM”之间的关系。我们注意到,在卫生科学中常用的流行病学方法可以替代或补充逻辑模型。简言之,逻辑模型将预测逻辑对数,即观察到“非人为错误”几率的自然对数。逻辑模型表示为:
其中p是“非人为”错误的概率(即1-p是“人为”错误的概率,和(1-p) /p是“非人为错误”的几率,X是事故年份的变量(对于“前ISM”取X=0,对于“后ISM”取X=1),a,b是需要确定的模型系数。如果(1)中对特定事故的计算得出pgt;0.5,则逻辑模型预测“非人为”错误为该事故的原因。否则,该模型将“人为”错误预测为此次事故的原因。
将上述逻辑模型(1)应用于我们的数据,得出如下表3所示的结果:
因此,事故数据的逻辑模型(1)如下:
从式(2)可以看出,1998年以后的船舶事故有65.3%更可能归因于“非人为失误”。
进一步的研究质疑所有自变量都会影响目标变量的预测。为了从我们的数据集中发现隐藏信息并实现数据驱动的发现分析(Dunham,2003),我们应用了分类树强大的数据挖掘功能。最优分类规则估计了事故源(人或非人)与事故年份、事故地点、船舶类型、尺寸和年龄等自变量的相关性。结果,得到了反映自变量与目标变量(事故源)之间关系的复杂应用。
使用表4所示的规范参数将CHAID算法应用于我们的数据集。
分类树的图形表示如图3所示。图中显示了对应于每个节点的变量及其值。例如,变量“位置(事故)”接受“开放(水域)”或“限制(水域)”的值,变量“事故年份”接受“
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[241321],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。