基于时空稀疏表示和视觉注意分析的异常检测外文翻译资料

 2022-11-09 15:38:02

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


基于时空稀疏表示和视觉注意分析的异常检测

王晨、姚洪汛、孙小帅

摘要

在本文中,我们提出了一个用于异常检测和局部拥挤场景的统一的框架。对于每一帧视频,我们提取了三维块体的时空稀疏特征和使用基于块中央周边地图差分算子来产生显著图。两个稀疏编码策略包括离线长期稀疏表示和在线短期稀疏表示,它们集成在我们的框架中。每个异常候选人是衡量使用自底向上凸起和自上而下的固定推理,和进一步用于对与框架为正常和异常的二进制分类器分类。局部异常事件是基于显著图的局部的和可分割的。

在本次实验中,我们比较了我们的方法与在加州大学圣地亚哥分校中被广泛使用于异常检测和定位基准的数据集中一些顶尖的方法。

关键词:稀疏表示,异常检测,视觉学习,视觉注意力模型,固定推理,异常定位,ROC,独立成分分析,最大后验概率

1 引言

监督录像监控和浏览需要人类大量的努力,这是非常的拥挤场景[9,22]。一个人类操作员的注意力在20分钟后会迅速退化,这是因为人类大脑的视觉注意力模块在时间和空间上是有限的,并且人类不能充分集中关注如此拥挤的场景这么长时间。因此,在拥挤人群中出现了自动检测异常事件,这成为在计算机视觉和模式识别研究中最具吸引力的话题之一。

在这样拥挤的场景中基于轨迹的行为分析的传统方法是不可靠的[14]。反而,最近试图提出了避免这种多目标跟踪设备,朝着一种更鲁棒的动态场景表示方法转换。[1,16-19]。Adam等人[1]保持概率在局部区域去形成一个对于动作场景的基于直方图表示光流。Kim和Grauman[16]利用混合的概率统计的主成分分析,对局部光学流模式建模,并使用马尔可夫随机场(MRF)来强制整体一致性。来自于群体行为的古典学科的灵感,Mehran等人[19]使用例如社会力量的概念来定义群体行为特征。这些概念导致在人群中的目标相互作用的光学流量测量,再加上一个用于异常检测隐含狄利克雷分布(LDA)模型被标记的异常值异常。Mahadevan等人[18]提出一个统一的框架用于场景的外观和动力学的联合模型。除了在场景表示的困难之外,由于正常的目标外观和运动模式的大在类方差,,怎么去模拟拥挤场景的正常状态,这是保留的场景表示的另一个挑战。 图1表示运动目标出现在一个20秒的视频剪辑,其中包含不同的目标表象和运动。在实际应用中,带有正常人群行为的视频的长度,将会远远比20秒要长。因此,对于直接模拟带有不同时空外观的成千上万的模式的正常状态来说,这是一个非常具有挑战性的任务。

除了上面所提到的方面,稀疏表示和空间时间位置在的工作近年来工作方面也被考虑到。Cong等人[5]则提出利用稀疏编码的错误来作为异常的测量。如果测试样品不能使用一个来自正常视频数据的字典训练模式稀疏集来表示的话,它们将被归类为异常。Saligrama和Chen[21]对人群行为分析和数据驱动的规则提出了一种基于非参数统计时空位置的概念有效的无监督异常检测框架。

尽管提出了许多实际的异常检测框架[1,2,5,14,16-19,21,22],人类的观察仍然被证明是公众监视场景中检测异常的最可靠的方法,特别是对于拥挤的场景来说。人类操作人类操作员的大脑在不断转移其注意力从一个固定场景到另一个固定场景,视觉特点机制的调节,是发现从一个概念或大视觉数据的异常。这样的注意力转移机制产生一系列的高度选择视觉固定,这被认为是一组异常或某些事件可能发生的可疑区域。遵循这样的一个原则,提出了模拟人类大脑的注意力机制的各种模型和算法[4,6-8,10,11,13,25]。眼注视预测取的实验得到了满意的效果,在实验中计算模型被证明是能够预测的,而在某种程度上,这是人类的表现[3,15,24,27,28]。然而,如何将注意力机制集成到随后的视觉学习过程是未被开发的。

从实验观察中,我们发现异常的内容或不寻常的人类行为将会持续吸引观察者的注意,这意味着相比与其他内容而言,大多数异常现象更具有吸引力或更显著。除此之外,异常的存在可能会把有序的人群运动变成混乱的情形。受这样的有趣的现象的启发,我们提出了一个快速和鲁棒的基于视觉注意和运动混乱的计算机模型的无监督异常检测和定位[23]。有吸引力的运动障碍的描述符构建了衡量全球基于统计分析的异常强度的视觉特点和运动向量矩阵。分类后,检测到的本地化异常是通过使用特点映射的。这个以前的框架是快速的并且能够检测在拥挤的场面的大多数类型的异常,但它仍然缺乏灵活性和可扩展性,这是因为它是完全无监督。

从工业的角度来看,一个实际的系统应该能够很好地运用在监督和非监督条件下。在大多数公众的监督的情况下,正常状态的数据的规模通常是非常大的,这使在当前异常检测框架的光栅监督信息成为最困难的问题。从学习者的的角度来说,去学习突出的内容的概念,而不是多余的数据是合理的。这是为了缩小学习空间和降低计算成本。过滤掉冗余(隐)信息,将会使学习过程更加高效和信息紧凑,并且避免来自背景的干扰和减少了重要概念。另外一对,消除冗余数据也可以加快检测速度,这是在线实时检测和离线分析中是相当重要的,后者还要求高效的处理速度,这是因为在日常的数据有越来越多的监督。这些可能解释了为什么当前系统较人类操作员来说更不具有鲁棒性。

基于上述思想,我们对于鲁棒性的异常检测和基于时空稀疏表示和视觉注意力分析的局部提出了一个统一的框架。我们采用了独立分量分析(ICA)作为稀疏表示模型来提取视频信号的紧凑的视觉特性。计算视觉注意力模型提出了模拟人类视觉系统的工作机制,这只选择很少的突出的固定用户的焦点和过滤掉场景中大部分的冗余内容。我们还提出了一种基于概率性图形模型的固定推理方法,这估计可能的联合观测数据和在正常的固定训练视频中类似的隐藏的样品。在检测阶段,同样的计算注意模型用于生成虚拟注视异常候选人,这是通过集成自底向上凸起检测和自上而下的固定推理,来进一步划分真正的异常或正常模式。可以通过利用检测到异常的坐标和凸起的地图来定位和分割的不正常地区。

受益于人类视觉系统的选择性视觉注意机制,我们提出的框架可以自动过滤掉大量的冗余有信息,并专注于视频中极具影响力的内容。所有的学习和推断过程是基于时空稀疏表示的视频数据,这提高了逻辑合理性和计算的效率。为了这个目的,我们建议的人类视觉系统的机制的模拟框架,这像拥有无限精神力量的人一样学习和工作。在拥挤的视频实验表明,有前途的检测结果和可接受的提出的框架处理速度。本文的主要贡献如下:

bull;我们提出一个统一的异常检测框架,这个框架是基于自底向上的视觉特点和自上而下的固定推理的异常的措施。该框架模拟,人类视觉系统的选择性视觉注意机制,来自动滤掉大大量的冗余信息;因此,它能专注于高度有吸引力的视频内容。

bull;对于异常检测和定位的任务,我们的解决方案是调查离线长期稀疏特性和在线短期稀疏的特性的表现情况,显示出一些有趣的时空稀疏表示模型。

bull;我们建议使用自动选择虚拟注视点来代表视频,这能够定义带有一些数据的正常状态。这是通过计算视觉注意力模型,模拟了人类的视觉系统的选择注意机制,来建立虚拟固定的。

bull;我们提出一个基于概率推理方法图形模型的有效率的和有效的固定方法。推理算法是用于估计可能性观测数据,来进一步确定这是一个真正的异常或正常的突出模式。

论文剩下的组织如下。第二节介绍了框架的总体工作,并详细介绍了长期/短期稀疏表示策略,计算视觉注意力模型,固定和推理方法异常检测与定位策略的内容。第三节介绍了在加州大学圣地亚哥分校的用于异常检测/局部数据集的实验结果。最后,我们在本文第四节得出结论。

2 异常检测和局部使用稀疏表示与注意分析

拟议的框架如图2所示。时空视频数据集的稀疏系数,提取视觉特征为每个输入视频帧中的位置。用于模拟人类视觉系统的注意选择功能的计算视觉注意模型,这个模型可以计算显著图和生成来自训练视频的一个紧凑的正常固定集的眼注图。然后用显著的自底向上和可能的自上而下来测量异常。产生更高的凸起或很难由来自正常固定集的样本推测出的候选人,更可能是异常的。最后,局部和检测到的异常分割,是由显著图和固定坐标推测出的。

2.1 时空稀疏表示

线性模型被广泛应用于转换原始信号成更紧凑的代表,以至于内在本质可以更好地揭示出来。包括傅里叶变换、余弦变换、主成分分析、投影追求和独立分量分析在内的典型的模型,它们可以证明很多计算机视觉方面的问题力。从生物学的角度来看,Olshausen等人[20]认为人类视觉系统的初级视觉皮层的神经元系统,可能是基于稀疏表示的,这旨在找到一个每个成分极少活动的典型的数据。近期的作品表明在解决各种具有挑战性的视觉问题的稀疏模型的巨大潜力,这些视觉问题例如视觉编码、图像去噪和人脸识别[26]。一般来说,一个稀疏表示模型可以通过训练获得的一组基函数(ICA)或者一个完整的字典(OMP K-SVD)的原始数据来获得。

考虑到训练数据的规模,我们定义两种稀疏表示模型:长期离线稀疏表示(LTSR)和短期在线稀疏表示(STSR)。LTSR与传统稀疏模型非常相似,LTSR在大规模的数据在不同的地方,不同的时间训练。STSR涉及的稀疏模型是指来自数据捕获的训练中,在一个地方(固定相机)和一个有限的时间段(asymp;10帧)的数据捕获的稀疏模型。在我们的实现中,LTSR和STSR是从独立计算分析学到的(ICA)。我们简要地回顾了如下基于线性的ICA表示模型。给定一组基函数A,矢量信号x能被表示成x =As,其中s是在基函数A中的系数。在W=A-1,系数可以由s=Wx获得。所有信号的训练数据集的系数稀疏表示。

遵守视频数据,我们首先调整视频的大小到120times;160,这是为了减少数据规模,然后把它变成一个基于块的X,这是通过扫描每一帧和先前和来自从左上角到右下角的带有3D滑动窗口的连续帧获得的。块大小是5times;5times;3(高*宽*帧),这样就生成了对于没三个视频帧来说,4*32 = 768个无重叠块。每一块是用于描述基于与梯度时空堆积时间衍生品的描述符像素到一个的一维向量。X是作为一个矩阵来存储的,每个列向量对应一个3D视频块的描述符。之后,我们运行在X上的FastICA算法[12]来获得基函数(A)和过滤器(W)的特性。FastICA是非常有效的,并且我们为什么选择基于时空稀疏基础训练的ICA算法。图3显示了基于LTSR和来自视频数据集UCSD的可视化培训的结果[18]。

2.2 视觉注意力分析

2.2.1显著区域检测

我们要做的第一步就是检测出视频中的潜在的异常区域,这是通过时空特点检测来实现的。显著是众多计算机视觉注意力模型中获得最多认可之一的概念,它能被中心周边差异[7、13]、信息最大化[3、4、27],增量编码长度[10]和网站熵率[25]等等来定量的测量。在我们的例子中,我们首先提取视频中的时空从稀疏的特性,然后使用基于块中心周边的操作来生成特点映射,这对于以前作品的合理性具有更多的效率性。

视野被划分为24times;32 = 768块3D区块,这表示稀疏系数被描写出来。不同于操作员的中心周边差分算子,它类似于视觉采用有效的人类视觉系统,被作为视觉显著的定量测定。在传统模型[7、13]中,中心周边的差异是由使用不同的高斯滤波器计算不同的空间尺度而得出的。在我们的案例中,我们只能计算出在中心块和它周边的八个临近块的差别。

被给块的显著被定义为中心周边差别,这个差别是由在中心特征和周边块的欧几里德距离测量得出的。

2.2.2 固定选择

基于显著图,视觉注意能被挑选出来,那就是所谓的赢家通吃(WTA)规则,这是一个众所周知的原则建模的转变机制[13]。WTA已经在神经计算和机器学习的文献中,作为标记和刺激选择的一种方式。为了生成多样的固定,我们也采用了另一种规则,即抑制回报(IOR[13])。基于自动固定选择过程的主要包括两个步骤WTA和IOR:

bull; WTA——赢家,用带有最大特点值的位置,来作为当前的选择视觉固定。

bull; IOR ——显著的特点值附近周围地区,它们集中在当前的固定,是由一个抑制因素控制的(固定在0.1)。

迭代执行这两个步骤,可以生成一个虚拟视觉固定的序列,这个序列可以进一步分析给定正常场景的模型。对于每一帧,我们运行10次WTA-IOR迭代生成固定的后续试验。在固定选择算法的基础上,我们的系统能够“看到”监控视频和“记录”的一套自动选择固定时空组成坐标和特征向量。

图5显示了一些UCSD ped 1训练数据集的学习结果。固定数据集虽然远小于原来的训练数据,但仍然包含大大量的临近复制的样本。因此,我们采用基于进一步简化固定组(k = 100是固定的实验)的k算法,并在高效和具有代表性的正常状态的场景中得出结果。

3 异常检测和局限

给定一个新的视觉序列,我们采用相同的计算模型来计算的显著图并选择虚拟固定异常来作为异常候选人。固定的候选人用z来表示,然后它的异常Az可用两个因素来衡量:

Sz表示z的凸起,并且P(x,y,z)是观测到的固定候选人z,z相似于一些在局部时空中观察到的隐藏的固定x,x和y属于一些正常固定设置。

其中Sz 表示z的显著特点,并且P(x,y,z)是联合联合观测到的可能性

固定候选人z,固定候选人是类似于一些在时空特征方面隐藏固定x,x和y属于正常有效

固定设置。

在(2)式中的第一项,它反映了自下而上的异常因素,它只取决于观察到的时空数据和通过显著检测算法,还可以直接获得算法。在(2)式的第二项,它反映了自上而下的因素,这能够让我们整合先验知识并能验证给定的正常候选人,来进

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[138115],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。