英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
2018 IEEE国际数据挖掘会议
基于时空因素的犯罪预测综合模型
费依lowast;,余志文lowast;,庄福珍,肖章,熊辉。
lowast;西北工业大学,陕西西安,中国。
dagger;中国科学院计算技术研究所智能信息处理重点实验室,北京,中国。
para;中国科学院大学,北京,中国。
Dagger;南京大学,江苏南京,中国 。
sect;罗格斯大学,新泽西州,美国。
yifeinwpu @ gmail.com,zhiwenyu @ nwpu.edu.cn,zhuangfuzhen @ ict.ac.cn
tobexiao1 @ gmail.com,xionghui @ gmail.com
摘要—鉴于其重要性,犯罪预测在参考文献中引起了大量关注,并且目前已经提出了几种方法来发现犯罪预测特征的不同方面。在本文中,我们提出了一个聚类的连续条件随机场(Clustered-CCRF)模型,该模型能够以综合的方式有效地利用时空因素进行犯罪预测。特别要注意的是,我们观察到一个特定区域的犯罪数量不仅取决于其自身的历史记录,而且和相似区域的犯罪记录有着高度相关性。因此,我们提出了两个因素:自回归时间相关和基于特征的区域间空间相关,来测量这些模式以进行犯罪预测。此外,我们提出了一种树状聚类算法,该算法可基于空间特征发现相似度高的区域,以此提高我们提出的模型的性能。在现实世界犯罪数据集上的实验证明了我们提出的模型优于其它目前最先进的模型。
关键词—犯罪预测,时空因素,连续条件随机场,聚类算法
I. 引言
预防犯罪一直是社会中的关键问题,引起了政府和学术界的广泛关注。一方面,一些预防犯罪的智能系统已经能应用,例如预测性警务[21]和Predpol1。另一方面,研究人员从不同方面对犯罪分析和预测进行了许多研究,包括犯罪热点发现[16],[17]、犯罪发生率分析[18]和不同规模的犯罪预测[19],[20]。
为了有效降低犯罪率并从犯罪事件中发现有见地的知识,研究人员越来越重视从犯罪事件中识别有意义的模式。具体而言,有充分的研究表明城市区域的空间特征[19]对犯罪率的推断有着重大影响。此外,由于犯罪记录本质上是按时间序列流形成的,因此很容易根据历史记录预测犯罪[7]。但是,在综合模型中结合这两个因素(时间和空间)来处理犯罪事件时仍然存在困难和挑战[8]。
在本文中,我们提出了一个聚类的连续条件随机场(Clustered-CCRF)模型,该模型可以将时间和空间因素结合在一起进行犯罪预测。特别地,我们将时间和空间因素识别为两种不同的模式:1)自回归时间相关,以及2)基于特征的区域间空间相关。具体而言,自回归时间相关主要是指当前犯罪数量通常根据自己的滞后记录(例如历史犯罪数量)上回归的模式。此外,基于特征的区域间空间相关描述了相似区域倾向于具有相似犯罪记录的模式。如[4]中讨论的,聚类可以提高模型性能。于是我们提出了一种树状聚类算法,将较高的相似区域聚类成组,以实现有效的空间相关的发现。我们的工作有以下贡献。
1http://www.predpol.com/
bull;我们发现两种有效的模式,即自回归时间相关和基于特征的区域间空间相关,它们利用时间和空间特征进行犯罪预测。
bull;我们提出了一个用于犯罪预测的完整模型,即聚类连续条件随机场(Clustered-CCRF),该模型以统一的方式结合了所提出的时空因素。
bull;我们提出了一种树状聚类算法来对相关区域进行聚类,以改善我们所提出模型的整体性能。
II. 相关工作
这项工作主要涉及两个研究主题,其中包括了解犯罪热点和预测犯罪事件。具体来说,犯罪热点是犯罪强度高的地区2,核密度估计(KDE)[16]是发现此类区域的一种流行方法,[17]建议从不同类型的数据(例如地理数据)中提取预测特征来进行热点预测。此外,[18]提出了一些理论模型,如随机游动过程和自激点过程,以了解热点。除此之外,正如许多著作所建议的那样,可以采用人类轨迹[24]-[26]和多个数据源[13]-[15]来了解城市动态,研究人员还尝试利用类似的概念来预测犯罪事件[9],[22]。此外,[19]利用POI信息和出租车轨迹进行犯罪预测。[20]在对犯罪人数动态建模时考虑了面向距离的空间相关。
III. 问题陈述
在本节中,我们先介绍在工作中使用的数学符号,然后用正式的定义来表述问题。
令表示城市中的N个社区区域,表示我们数据集中的总共K个时隙(即天、周、月)。然后,我们用表示每个时隙在所有社区区域内观察到的犯罪记录数量,其中是社区区域在时隙上观察到的犯罪数量。类似地,我们用表示每个时隙中每个区域的M维空间特征,其中是区域在时隙上第m个特征的值。我们将在第六节中对这些特征进行更详细的说明。根据前面提到的符号和定义,我们的犯罪预测问题可以表述为:
定义3.1(问题陈述)。 在任意时隙中,在所有社区区域和相应的空间特征上都给出犯罪记录,其对应时隙从到(0<k<K)。我们的工作目标是先基于这些数据集学习一个模型,然后根据模型预测N个社区区域在时隙中的犯罪数量。
为了解决这个问题,我们建议以一个完整的方式利用来自和的时间和空间模式。具体来说,我们所提出的自回归时间相关是由驱动的,它使用h维滞后系数来测量与历史数据之间的相关性。为了理解空间相关性,我们首先计算出每个时隙中区域之间的犯罪数量相似度S,并假定在时隙中区域和之间的受它们先前在时隙的相似度影响,其中是表示对和之间的关系进行建模需要计算多少个时隙的滞后系数。我们还提出了空间约束系数beta;来控制这种关系。但是,并非所有和对都遵循这样的假设,我们必须确定所有区域中的有效对。为了实现这一点,我们提出了一种基于特征的区域间关联来计算空间特征。我们首先用来将整个区域的特征相似度计算为,然后将具有高度特征相似度的区域聚类为同一组,最后得到一个矩阵,矩阵中的标识符表示是否在区域对上应用所讨论的犯罪数量相似度模式。虽然K代表我们数据集中的时隙总数,但我们仅用了H个时隙来训练模型,因此用于模型评估的相应符号如表I所示。
2https://en.wikipedia.org/wiki/Crime hotspots
表I
在模型评估中使用的数学符号
符号 |
大小 |
描述 |
犯罪记录的训练矩阵,从到 |
||
S |
空间犯罪相似度的训练张量 |
|
区域空间特征的训练张量 |
||
D |
跨区域基于特征的空间相似度 |
|
I |
空间相关的识别矩阵 |
|
犯罪记录的测试向量,代表中的犯罪数量 |
||
时间滞后系数(hlt;H) |
||
空间约束系数 |
||
空间犯罪相似度的滞后系数 |
||
omega; |
聚类的边缘权重阈值 |
|
Phi; |
聚类邻居数阈值 |
(a)基于不同滞后天数的偏差趋势 (b)不同滞后天数的偏差分布
图1 自回归时间相关的图示
表II
在不同滞后天的系数相关
滞后天数(h) |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
相关性(phi;) |
0.27 |
0.15 |
0.02 |
0.07 |
-0.01 |
0.02 |
0.34 |
IV. 时空因素分析
A.自回归时间相关
我们应用自动回归模型来发现我们工作中的时间相关性。假设在时隙中犯罪数为,在时隙中犯罪数为,我们建议研究在平均所有社区区域中和之间的关系。图1(a)中说明了观察结果,其中x轴表示的值,y轴表示偏差。请注意,可以在时隙上有很多选择(例如,天,周和月)来构建时间序列,我们将时隙选择为一天中的一天,如果选择其他类型的时隙,则时隙具有相似的模式。
根据图1(a),我们观察到偏差与高度相关。具体来说,偏差随的增加而趋于增加,这表明犯罪数量在连续的几天内是相似的。更重要的是,我们注意到偏差的波动存在周期性,因此偏差在较小的时间段内周期性地上下波动(7 天),如红色框所示。因此,我们进一步研究了偏差在不同上的分布,如图1(b)所示。之后,我们使用传统的自回归(AR)模型对和之间的自回归因子进行了深入了解。表二显示了不同滞后天相应的相关因子的值。结合图1(b)和表II,我们可以发现前一天(h = 1)或一周前一天(h = 7,换句话说,上周的同一天)的犯罪数量是关联的前两天。
(a)十大相关特征 (b)“违反卫生法规”特征的例子
图2.基于特征的区域间空间相关的图示
表III
犯罪数字排名列表(前5)
区域编号 |
#25 |
#43 |
#23 |
#8 |
#29 |
大道犯罪编号(天) |
54.9 |
28.8 |
27.8 |
27.6 |
26.6 |
B.基于特征的区域间空间相关
特别地,每个社区区域都可以使用多个数据源来表征,我们假设有着相似特征的区域将具有相似的犯罪模式。换句话说,如果两个不同的社区区域在普查数据、POI分布和出租车轨迹上具有相似性,则它们的犯罪数量也可能具有相似的模式。在我们的工作中,社区区域的空间特征可以表示为M维向量,其中代表第m个空间特征的对应值。举个例子,如果第m个特征是食物(一类POI),则表示区域中食物POI的总数。然后我们采用以下公式来计算区域对之间的第m个特征的成对相似度。
(1)
同时,我们将替换为(替换为)来计算犯罪总数的成对相似度,其中是区域的犯罪总数。最后,我们得到了M个(在我们的工作中M = 120)相似度矩阵将每个空间特征的相似度捕获为(如表I所示),而是唯一一个表示区域对之间犯罪数相似度的相似度矩阵。然后,我们应用Pearson相关系数(PCC)来衡量基于特征的空间相似度矩阵的第m个切片和犯罪相似度矩阵之间的相关度。
图2(a)显示了与犯罪数量相似度高度相关的前10个特征,换句话说,如果区域对在这些空间特征上高度相似,则它们的犯罪数量也将彼此相似。以图2(a)中的第一个特征(“违反卫生法规”)为例,我们在图2(b)中显示了犯罪数量相似度与相似度之间的关系。我们观察到,随着特征相似度(x轴)的增加,犯罪数量相似度(y轴)也趋于增加,这证明空间特征的相关可以反映出不同地区犯罪数量的相似性。
(a)具有完全连接输出的传统CCRF模型 (b)所提出的集群式CCRF模型,输出未完全连接
图3.两种不同的CCRF模型的图示
V. 技术细节
A. 聚类连续条件随机场模型
最初由[1]提出用连续条件随机场(CCRF)模型进行回归。该方法的机制是假设不仅仅存在输入和输出数据之间的关系,更重要的是存在输出之间的相关性。如图3(a)所示,典型的CCRF模型由两个部分的图表示:1)实例包含分别作为输入和输出的灰色和白色节点;2)边包含代表两个不同关系的实线和虚线,实线表示输入和输出之间的关系,而虚线表示输出之间的关系。
在我们的问题中,从时间到在社区区域的历史犯罪记录为第i个输入实例,犯罪数量为对应的输出实例。因此,我们把特征函数叫做时间相关函数,把特征函数叫做空间相关函数。特别地,时间相关函数使用参数将映射到,此外,空间相关函数根据因子和历史记录和之间的犯罪相似度来约束值对和,正如我们在第三节中讨论的那样。但是,并非所有社区区域之间的犯罪相似度都能对犯罪预测产生积极影响,因此,我们提出了如图3(b)所示的聚类连续条件随机场模型来发现跨区域的有效关系。具体而言,我们的聚类连续条件随机场模型按照区域的多个
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[235355],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。