英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
文本风险挖掘对海上态势感知
arnir H. razavi1,戴安娜inkpenl,拉斐尔falcon2支abielmona2
电工程与计算机科学,渥太华大学
研究与工程,大技术公司
摘要
在本文中,我们提出了一个辅助机器学习(ML)和自然语言处理(NLP)的海上态势感知系统(MSA)的操作。我们带来了一个新的和有影响力的资产-人的直觉和感知-对现有的半自动化决策支持系统,主要依赖于电子传感器或相机直接安装在船舶或海上指挥和控制中心收集的数据。
对于我们的项目,我们收集了每周的文本报告十二个月从美国全球威胁航运报告库,属于国家地理空间智能代理(NGA)。我们认为海事事故报告由人的经营者编写一种文本输入的非结构化的文本输入源!如果它表达了下列的一个,称为“风险”血管事件类:解雇,抢劫,登上,劫持,攻击,追逐,走近,绑架,登机未遂,狐疑地走近或发生冲突。
我们的方法的好处的一些有用的功能,基于概率分布的注释列表包含表示容器类型,表达词汇的风险类型,风险协会,海事地理位置、日期和时间。这些分布被捕获和用于锚定的“风险”,因为它们被描述在文本报告。经过一定的预处理,包括分词步骤,命名实体抽取和词性标注、文本挖掘系统应用风险的各种序列的分类算法,例如,条件随机域,为有条件的马尔可夫模型和隐藏马尔可夫车型风险分类性能比较。实证结果表明,我国nlpiml系统可以从约90%篇报告正确提取风险跨度变长。
指数条款-自然语言处理,机器学习,海事领域意识,海上态势感知,风险检测,文本分析,基于序列的分类
一、引言
信息抽取技术包括文本挖掘和网络挖掘的研究。其主要目标是从非结构化或半结构化的文本输入数据中提取结构化信息,并具有广泛的应用在各种领域,如商业智能和生物医学文献挖掘。
在审查海事项目及相关文章态势感知,我们观察到一个快速和适当的应对海上事故,加上风险管理一直是许多政府和组织的利益。然而,最有可能的有影响力的资产,这是人类的直觉和感知的缺乏,可以证明在大多数。几乎所有的选定的方法(将在下一节中列出),只有从各种数据收集的电子传感器或摄像头集成的结构化数据收集的机械设备和设备在船只或海上控制中心收集的数据。在这个项目中,我们决定将系统的人的感知分析考虑在内,并考虑由人力运营商编写的海事事故报告作为一个有价值的和可访问的输入源,以提高态势感知和海上风险管理。计算机软件没有捕捉到风险上下文的精确概念的能力,然而,有一些有用的功能,可以被捕获和用于锚定的风险跨度的概率分布,因为它们是在这些报告的文本。这些特征的例子我们可以列出:船舶类型、风险类型、风险的同事,一个海上位置一般,一个海上的绝对位置(例如,latitudellongitude),日期和时间。为了培养一个分类,从而创建一个模型来检测风险在一个庞大的数据库中的文本报告,2个人的专家(2的作者)手动注释的短语,对应于风险描述在一个有限的有代表性的子集的报告(52周报告)。我们还使用了额外的风险特征列表(例如,风险类型,容器类型,位置等)。然后我们自动注释的一些其他有用的功能,如latitudellongitude和文本中的命名实体,使用正则表达式和命名实体识别(NER)工具。然后,我们训练的各种序列分类的标注数据,能够检测到发生模式的“风险”和/或“风险因素”的任何报告的同一类型的训练数据。
为了开发算法,从文本中提取信息,我们受益于NLP包称为minorthird2提供以下功能:(1)基于分类算法,如序列的不同版本支持:CRF,CMM,HMM模型;(2)开源;(3)可用于商业和研究的目的与(4)的注释和可视化文本与各种学习方法的工具组合。
我们的知识,没有现有的决策支持系统,自动提取风险因素和其他相关功能,自动从文本的报告,但是有有用的文本挖掘和概念学习方法,信息提取从其他类型的文本(将讨论和引用的下一节),包括扩展的条件随机领域(慢性肾功能衰竭),有条件的马尔可夫模型和隐藏的马尔可夫模型(隐马尔可夫模型),可能与其他自动模块的海上风险评估。
其余的手稿的结构如下。第二节回顾了一些相关的研究,而部分不描述在这项工作中使用的数据集。第四部分剖析了文本挖掘系统背后的风险和第V的方法对实验结果进行了讨论。最后,给出一些结论性意见。
二、相关文献
这一部分简要回顾了海上风险分析方面的有关著作和从NLP的观点的文本资源的挖掘。
海上世界风险分析
海上态势感知(MSA)被定义为“全面融合的从每一个机构的数据,每一个国家提高海事领域知识的概念操作的美国国家海洋领域的认识,在十二月2007 [ 1 ]。海事领域的认识被定义为:“具有真实和及时的信息,在任何情况下,与之相关的,与之相关的,毗邻的,或与海上,海洋或其他可通航的航道”。这包括所有相关的活动,基础设施,人员,货物,船只或其他运输工具。海洋安全的最终目标是在海洋领域,可能威胁国家安全的任何全意识。
随着技术和设备,有助于提高态势感知能力,在海洋环境中,风险检测,风险分析和风险管理站的关键构建模块的任何风险-感知的决策支持系统。一些成功的例子,将风险直接部署在海上的情景评价是:雷神的雅典娜[ 2 ](一个综合防御系统设计在海上搜寻搜寻可疑行为和救援部);美国国土安全部自动场景的理解,一个项目旨在解释复杂的信息通过视频摄像机和在美国的[ 3 ]港口其他来源产生的;联合能力技术演示(JCTD)[ 4 ],一个军事效用评估由联合需求监督委员会的支持,美国国会;全面的海洋意识(CMA)[ 5 ],其主要目标是分享海运信息以防止类似对待商业海运;海事自动化超级轨道增强的报告(硕士),一个综合性的报告基于jctds和CMA和最后的项目,海军部署活动的预测分析(熊猫)[ 6 ],基于案例推理系统使用的上下文本体建模和业务规则表示和评价。该系统还配备了一个手动的基于上下文的风险评估模块,它依赖于一个小的风险本体建立由人类专家。
上述调制解调器和复杂的系统是最近进行的大量的研究工作,在计算机辅助或半自动化的海上风险分析。其他相关贡献包括:(1)王等人提出的海上风险管理的设计与操作选择和优化框架。[ 7 ];(2)基于贝叶斯网络的不确定性对海事风险评估由他和他的合作者[ 8 ] [ 9 ] [ 10 ] [ 11 ] [ 12 ] [ 13 ]提出处理方案;和(3)的综合集成方法为战略地方海事中心Lim和昭,旨在开发一个区域海洋信息共享网络化分散在世界各地的海上实验信息[ 5 ]。
最近,Jakob等人。[ 14 ]一个项目的结果,调查基于代理的非法海事活动的建模和推理技术。这些非法海上作业带来的风险是本研究的基本主题。在[ 15 ],美国国家研究委员会详细阐述了快速反应技术(乐。那些在六到十八个月的时间里,可以在反恐问题上得到成熟。马利克等。在[ 16 ]提出的结果,他们的合作项目与美国海岸警卫队,专注于视觉分析的历史性反应操作和评估潜在的风险,在海洋环境与海岸保护资源的假设分配。通过图像处理技术来识别高风险区域。猎鹰和abielmona介绍[ 17 ]加入自动化监测和反应选择模块,他们以往的风险管理框架的补充版。他们用一种进化多目标优化算法来评估每个潜在的搜救(SAR)根据一些冲突的目标如成本响应,延迟和伤亡概率,从而确定为SAR操作员及时决策支持最有前途的。
B.挖掘文本资源:NLP的方法
而上述的例子表明,数值风险分析已获得的海上态势感知领域的突出和动量,当我们转向我们注意文本资源分析作为一个附加的价值,我们没有观察到相同的成熟的结果。一方面,基于规则的信息抽取系统(如18)(19)应用人工生成的语言抽取模式匹配文本和定位信息单元。虽然这些模式表现出良好的限制特定领域,它是非常劳动密集的设计提取规则。另一方面,由于IE本身包括识别文本,扮演某些角色细分,一些基于统计的序列标注方法如最大熵的马尔可夫模型(MEMM)[ 20 ],条件随机场(21)可以应用于处理这个问题。
最近的和有价值的调查,即[ 22 ] [ 23 ]。他们强调了命名实体识别(NER)和关系抽取(RE)作为两个基本的IE组件。前者的目的是找到的名称,如人,组织和位置或特定的科学名称,如蛋白质或基因的名称,而后者提取的文本段(例如,句子,段落,或命名实体)的不同部分之间的语义关系。最好的方式和方法依赖于统计机器学习方法[ 24 ]。一些这样的系统的例子是TextRunner [ 25 ],祸[ 26 ] [ 27 ]和混响。
如果我们打破:IE系统部件如尼珥,再下来,大部分的IE问题可以转化为分类的任务,它可以通过标准的监督学习算法[ 25 ] [ 28 ] [ 29 ]。
弱监督学习方法最近出现了一个有吸引力的替代经典的监督学习计划,他们可以学习一个小得多的训练数据。作为一个例子,[ 30 ]提出了一种弱监督的重新方法的基础上称为“远程监督”,被应用到大量的已知关系实例从非常大的知识基础,以创建所需的训练数据。
极少数的风险评估系统使用,即从文本。rargen [ 31 ]是一个这样的系统:一种基于文本挖掘的软件解决风险评估的问题,自动创建与风险的关联规则提取的目标保持风险库(RARS)从语料库的风险分析资料表。风险库是由人力资源专家根据一个手工提取的风险条款文件,包含所有不同的话代表风险。
通过上述文献的分析,我们决定把重点放在自动(而不是手动)文本的风险挖掘部分,这涉及到应用程序的基于序列的弱监督学习技术。由弱监督和半监督学习,意味着我们应用词典和软件工具(包括新工具),部分注释数据(知道)自动;这些词汇和NER工具也可以扩展和/或通过更新引导系统。在下一步中,我们的方法检测到目标概念模式(风险描述),并将它们返回到看不见的报告中。换句话说,通过创建词典和手册风险的注释,我们的风险模型描述跨越有限数量的报告(乐,训练数据);然后可在看不见的数据自动检测风险跨越。这种方法是不采用在审查的文献,但我们会表明,它是一种很有前途的方法,从文本的风险跨度探索海事事故报告等资源。我们的目标是从文本报告中提取一系列船舶风险的方法,即从中受益。
三、“fextualdata
对于这个项目,我们使用公开的数据,以进行研究和分析海上风险。因此,我们决定把重点放在美国的全球威胁航运(wwtts)每周由国家地理空间情报局(NGA)编制进行我们的研究努力。这个宝贵的来源问题,每周报告,关于世界各地重要的海上事故。纯文本报告每周出版一次的美国海军情报办公室(ONI),包括最近的盗版行为和对商业航运全球其他敌对行动的总结和细节,按地理区域组织。报道中还含有防止盗版和起诉任何侵略者的努力进展。在我们的研究中,我们选择了2012(52周)的海上风险提取和分析所产生的报告。
四、文本风险挖掘方法
在这项研究中,我们考虑一个跨文本如果主要目的是以下其中一种称为风险(在NGA报道)血管事件:解雇,抢劫,登上,劫持,攻击,追逐,走近,绑架,登机未遂,可疑的接触和冲突。
朝着我们的目标的第一步,我们建立了几项文件(词汇),包括“海上风险关联的术语”。构建词汇是一个耗时的过程,手工检索相关的语料库和文章。然而,美国的“dhs5和加拿大总理[ 32 ]风险评估词汇作为可靠的资产。
本节的其余部分阐述了在这个项目中使用的文本风险挖掘方法的不同的构建块。
海上危险元件词汇
为了对风险检测任务收集某种信号或线索,我们集中在nga-wwtts报告中描述的风险。我们注意到,每个记录的事件,一些风险因素如:指定风险的船,风险类型,事件发生的地点,风险原因/动机和一些风险指标(如报警、炸弹、RPG-7,飓风)。对于每一个这些风险因素类别,我们建立了一个词汇,潜在的风险锚点的作用,探索风险的跨度。的nga-wwtts数据集成为我们手动利用创造词汇的主要来源。然而,我们还依赖额外的资源和类似的数据扩充词汇。英国海上事故调查局(MAIB)6集,国家搜救手册(包括缩写和术语?、风险管理和风险fundamentals8 DHS词汇是这些额外的资源实例。
使用上述的库,我们手动创建了以下词汇:风险类型(标记为lt; risk_threat gt;;49项,例如绑架),容器类型(标记为lt;船gt;;85项,例如,油轮)、风险指标(标记为lt; risk_indicators gt;;212项,例如,报警),风险的特定位置(标记作为lt;lt; location_specific gt;;511条目,例如,科托努东南部)和风险的一般位置(72项标记为
lt;位置的hellip;8eneral gt;;例如,尼日利亚)。
注释
在下一步中,我们首先人工标注的风险描述的跨度(标记为lt;风险raquo;;然后,使用以前的词库,手动创建(即,由人类专家),我们用java进行相应的风险因素annotationlo自动化。我演示了一个带有嵌入式(注释)标签的事件报告:
我们自动添加其他注释如词性(POS)标签,地理位置(经度和纬度),以及日期和时间。
在最后阶段,作者之一的人工标注的描述在我们的十二个月ofnga报告海上风险的跨越。为了验证和主观性的测量,20%的报告被随机选择的注释由另一个人的法官(另一位作者)。根据二注释做了注释,评价95.9%为初始注释召回,而98%是他们的精度评价。我们也计算了值,补偿协议的机会[ 33 ]。Kappa值为0.699,这表明良好的注释间协议;因此,我们可以认为注释是可靠的。请注意,在
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[147020],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。