基于压缩、排列和领域知识的船舶轨迹机器学习外文翻译资料

 2022-03-14 19:58:14

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


基于压缩、排列和领域知识的船舶轨迹机器学习

摘 要

在本文中,我们提出了一个机器学习框架来分析海上船只的移动物体轨迹。 在这个框架内,我们用船舶轨迹数据执行聚类、分类和异常值检测任务。 首先,我们将分段线性分割方法应用于轨迹来压缩它们。 我们采用现有技术来更好地保留停止和移动信息,并通过实验结果显示我们方法的更好性能。其次,我们使用基于相似性的方法来使用内核方法执行聚类、分类和异常值检测任务。我们提出了研究不同对齐核心的实验以及三种不同任务中分段线性分割的效果。 实验结果表明,压缩不会对任务性能产生负面影响,并可大大减少对齐内核的计算时间。最后,对齐内核允许轻松整合地理领域的知识。在实验中,我们证明这种增加的领域知识增强了聚类和分类任务的性能。

关键字:船舶轨迹 移动对象轨迹 分段线性分割 校准措施 地理领域知识

  1. 介绍

过去的十年里,追踪地理空间中的人物和物体变得无处不在。 智能手机配备GPS传感器,汽车配备导航系统。 所有这些跟踪数据可以很容易地被存储,产生一种称为移动物体轨迹的数据。

在海上领域,可以使用GPS或雷达追踪船只。考虑一下主要港口周围发生的所有船只运动,如新加坡和鹿特丹繁忙的港口。将这些动作分组成相似行为的集群可以帮助您了解一般动作模式。这个概述可以帮助操作员更好地发现不规则的运动。 另一个例子是由盛器制造的轨迹。这些轨迹与油轮或货船产生的路线不同,后者遵循常规路线。识别轨迹是否属于一个或另一个类别可以帮助确定船只是否表现出不希望的行为,因此应该进一步调查。执行这些任务是海上安全和保安(MSS)系统的一部分。

MSS系统的总体目标是获取,存储和分析来自不同来源的数据和信息,并使用户能够分析和操作这些数据和信息。数据的主要来源是船舶跟踪信息。可能,通过整合来自其他来源的信息,例如关于港口的地理知识,锚泊区域等,可以进一步增强对船舶轨迹的分析。

执行船舶轨迹分析的一种解决方案是通过将机器学习技术应用于(大)组船舶轨迹数据来创建模型。使用机器学习的不同类型的分析是有用的。为了深入了解不同的船舶行为,需要创建类似的运动组,这是一个集群任务。预测诸如船只类型等现有属性是另一种分析形式,这是一种分类任务。在大量正常轨迹中识别奇怪的轨迹,即不规则行为是异常值检测任务。

船舶跟踪信息的主要来源是自动识别系统(AIS)。AIS是大型船舶的自动跟踪系统,频繁发送位置更新信息。AIS消息的序列可以被转换成血管轨迹。这些船轨迹具有移动物体轨迹的典型特性。它们是不同数量样本的序列,时间长度和行进距离。

相对于传输的AIS消息数量,船只行为非常规律。这种规律性提供了对船舶轨迹施加压缩的机会。我们使用基于线简化的轨迹压缩,我们对其进行了适应性修改,以保留轨迹中重要的停止和移动信息。

对于聚类,分类和孤立点检测任务,我们采用基于相似性的方法,这与方法轨迹的性质以及移动对象相一致。我们定义基于序列比对技术的相似性度量。轨迹压缩加速了这些相似性的计算。但是,压缩可能会对任务性能产生潜在的负面影响。

船舶轨迹存在的空间包含港口,航道和锚地等地方和区域。将这些地理领域知识集成到轨迹和相似性度量中可能会改进聚类,分类和异常检测任务。

本文的其余部分结构如下。部分2.1 介绍了本文其余部分所需的一些预备知识。 船只轨迹的压缩在第一节讨论2,实验结果表明我们的调整更适合保留停止信息。 部分介绍了基于比对的相似性度量3。本节中的实验表明压缩不会负面影响聚类,分类和血管轨迹异常值检测任务的性能。在Section中4 我们将地理领域知识添加到相似性度量中,并显示聚类,分类和异常值检测的影响。 我们结束对未来工作的结论和建议。

2.压缩

由于收集AIS数据的速度很快,AIS数据量很大。例如,在荷兰西海岸前的一周监测船只为约3000个不同的船只产生大约4千兆字节的数据。 船只通常以相当规则的方式移动。由于大量的数据和规律性,我们可以并且需要将数据压缩到更小的体积,而不会丢失重要的信息。压缩的轨迹可用于聚类,分类和异常值检测。实际上,压缩质量的最终标准是在不破坏轨迹数据用于进一步处理的情况下压缩数据的程度。

2.1 预处理

我们用于本文实验的船舶轨迹数据是使用自动识别系统(AIS)收集的。该系统广播多种不同类型的消息。 最常发送的消息是动态消息,每隔几秒就会更新位置信息,每隔几分钟更新一次静态消息以及船舶的静态属性。动态消息包含像独特的船只标识符,MMSI号码,船舶在纬度,经度格式中的位置,船舶的速度和时间戳等字段。在关于船只尺寸的静态消息信息中,传送呼号和类型。船舶的位置通常使用船上的GPS来确定。超过300公吨的船舶必须使用AIS系统。

使用AIS消息可以构建船只的移动物体轨迹。二维空间中的运动物体轨迹 T 由向量序列表示:,其中和表示目标在时间的位置,且。轨迹的向量值被表示为:.另外,令,。轨迹的采样率并不总是固定的,因此连续值,之间的差异是不相同的。 在一些任务中,可以从x,y,t信息(例如速度和方向)导出轨迹的更多维度。这些维度可以作为额外的变量添加到向量中。在下文中,我们将向量称为轨迹点。在轨迹分析中,停止和移动的概念是必不可少的(Spaccapietra等,2008)。应该考虑的停止和移动取决于应用程序。停止是指移动对象不从应用程序的角度移动的轨迹的时间间隔,其余的轨迹被认为是移动。

2.2分段线性分割

在移动对象数据库的领域中,已经研究了不同的技术来压缩轨迹数据(曹,欧胜, Trajcevski,2006年; Frentzos&Theodoridis,2007; 古德蒙德森, Katajainen,Merrick,Ong,&Wolle,2009; Meratnia&de By,2004; Ni&Ravishankar,2007; Potamias,Patroumpas和Sellis,2006年)。 最常见的方法是分段线性分割(PLS)。它已被多次应用在不同的领域(道格拉斯 &Peucker,1973; Ramer,1972; Keogh,Chu,Hart和Pazzani,2001年)。该方法直观,易于实施,速度相对较快(与最佳方法相比(曹等人,2006))并且给出好的结果。

PLS通过递归地保持最大误差高于固定阈值的点,将轨迹T压缩成线段。该算法的伪代码在算法2.1中给出。它的工作原理如下。选择长度为n 的轨迹 T 的第一个和最后一个点和, 对于所有中间点,我们使用函数 E来计算这些点的误差。如果这些误差的最大值大于某个阈值,那么我们再次应用该程序,将相应的点T (i) 作为起点和终点, 即递归地将过程应用于t (1)到t (i)和t (i)到t (n)的轨迹。当没有大于给定阈值的误差时,我们只保留点和。因此,该算法的目标是在保持最大偏差或误差的情况下,在阈值的初始轨迹中减少轨迹的点数。

算法2.1:pls(T,)

      1. 我们使用end来指示轨迹的最后一个元素的索引。
      2. d max = 0
      3. i max = 0
      4. for i = 2 to end - 1 do
      5. d = E(T(i),T(1),T(end))
      6. if d gt; d max then
      7. i max =i
      8. d max = d
      9. if d max ge; then
      10. A = pls(T(1,imax),)
      11. B = pls(T(imax,end),
      12. TC= A,B(2,end)
      13. else
      14. TC= T(1),T(end)
      15. return TC

对于轨迹,许多不同的误差函数E(算法2.1,第5行)是可能的。最近,(Gudmundsson等人,2009)提出了一个错误函数,它概括了大多数早期定义的错误函数,所以我们考虑这个;请参阅下面的Eq.(1)。

(1)

其中是在线段上距离最近的点。

参数确定空间和时间维度之间的比率。的不同设置导致不同的先前定义的误差函数(Douglas&Peucker,1973),(曹等人,2006),(曹等人,2006)对时间处理的不同。在中,轨迹忽略时间维度被视为二维空间中的直线。函数将时间视为另一个维度,即轨迹是三维空间中的一条线。最后,把重点放在了时间上,因为我们根据线段上的时间来计算点和线性插值之间的差值。我们将使用一个下标来指示在PLS中使用哪个错误函数,例如。

使用任何这些错误度量来压缩PLS都可以导致在停留轨迹方面出现问题。在压缩的轨迹中,它可能会以这样一种方式减少,它看起来好像是在缓慢地移动,而在原始的未压缩的轨迹中,这艘船在一段时间内停止了移动。 了解船只是否停止在船只行为分析中很重要,因此我们希望在压缩过程中保留这些信息。

为了解决这个问题,我们扩展了标准算法。这种扩展背后的直觉是移动物体的停止和移动行为在导数中更明显,即运动物体的速度,而不是轨迹本身。 因此,我们提出了一个简单的扩展到先前定义的轨迹压缩,我们在算法2.2中给出。其思想是将第一个分段线性分割应用于轨迹的速度时间序列,本质上是用一个一维的误差测量变量。我们称这个误差为Ev,并将其定义为轨迹Tv,即将速度添加到轨迹点。在形式上,,其中vi是在时间ti处的速度。

(2)

其中是在线段上ti时刻的点。本质上,我们取实际速度vi和线性内插速度之间的差值。

对于在这个仅基于速度的分割步骤中创建的结果子轨道,我们将常规的 PLS 应用于我们选择的错误度量:E2,E3,Eu或。我们应该跳过第二步,或者只设置,然后我们就完全基于速度进行轨迹压缩。正如我们为PLS所做的那样,我们用下标表示在第二步中使用哪种误差测量,例如,。

算法2.2:2stage-pls()

1 我们使用end来指示轨迹的最后一个元素的索引。

2

3 A = ;

4 for all consecutive points pi ,pj in Av do

  1. Select from Tv the subtrajectory T(i,j) as pi ,...,pj

6 Ap= pls(T(i,j),)

7 A = A(1,end - 1), Ap

-

8 return A

对轨迹压缩技术进行研究的一个重要方面是不同错误测量给出的许多标准移动对象数据库查询的误差界限。关于这些界限,(Gudmundsson等人,2009)概括了Cao等人的工作(2006年)。它显示了Where-At(何处是时间t处的对象)和When-At(何时是位置x,y处的对象)查询以及这些依赖于micro;的Emicro;度量的误差界。很容易看出,如果我们

全文共29731字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[16412],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。