移动目标跟踪和行人分类的热-可视视频融合外文翻译资料

 2022-04-03 22:46:17

移动目标跟踪和行人分类的热-可视视频融合

摘要

摘要介绍了一种用于彩色和热摄相机的模糊跟踪器和行人分类器。该跟踪器建立了一个背景模型,作为颜色和温度的多通道分布。它被构造成一个粒子过滤器,它可以使许多信息可逆的转换来对模型概率空间进行抽样,从而使场景模型的后验概率最大化。移动物体的观察可能会考虑到它们的3D位置,包括相机和其他被追踪物体的遮挡以及静态障碍物。捕获后的坐标运动物体的尺寸,我们应用了一个基于周期步态分析的步行分类器。为了将人类与其他移动物体区分开来,例如汽车,我们在人类步态中发现了对称的双螺旋结构,然后可以用弗里兹集团理论来分析。通过对颜色和热序列的跟踪研究,证明了该算法对照明噪声的影响,在室外环境中表现良好。

关键词:人类追踪、热成像、色彩融合和热成像

1.介绍

自动实时行人识别的问题在机器视觉领域引起了很多关注,并且被认为是从汽车世界中的行人碰撞避免到边界监视的众多应用中的关键问题之一,以及 自主车辆和机器人系统的情景意识[3,21]通过人类活动识别[13,26], 近年来,传感器融合已成为计算机视觉和特别是人体跟踪系统中日益重要的方向。 基于RGB摄像头输入的人体运动跟踪功能已经为恒定照度和稳定背景的室内场景产生了可靠的结果。 然而,由于照明改变而具有明显背景混乱的户外场景,然而,对于使用来自常规CCD照相机的输入来说仍然是具有挑战性的。 在我们的工作中,我们提出了一种利用额外信息源的方法 - 一种热像仪/传感器,它为每个像素生成对应位置温度的灰度映射。

在监控录像中定期的人类步态分析最近已成为计算机视觉领域最活跃的研究领域之一。

关键的问题是如何对个体产生的形状进行建模。在本文中,我们将处理由步行产生的周期性模式的自动检测在一个时空形象。本文旨在从群体理论与计算机动画的交叉关系,发展到计算机视觉算法的概念,从而自动分析真实图像中的步态模式。从数学上说,欧几里得空间Rn的子集的对称性是刚性的Rn中的变换,保持S集的不变式不变。一个模式的对称的所有刚性转换的集合有一个组结构,被称为模式的对称组。从实验的角度来说,人类的步态在行走过程中不断重复,因此属于周期性运动。两条腿的两足移动在左右肢之间表现出对称性。

相关的工作。在检测和跟踪人员方面积累了大量的研究成果。大部分研究都是针对受控环境中的孤立人群进行跟踪,但越来越多的人关注在拥挤的环境中进行跟踪[4,22,13,12,14,10]。最近,在文献[11,5,24,2,32]中,人们对可见光和红外视频中的行人定位和跟踪做了大量的贡献。在[33]中,P-tile方法被开发用于首先检测人体头部,然后通过局部搜索包括人体躯干和腿部。 Nanda [24]构建了一个概率形状层次结构,以实现不同尺度下的高效检测。在[27]中,提出了一种用于红外图像中人体检测的粒子群优化算法。 Daietal文献[5]提出了一种用于行人检测的混合(形状 外观)算法,其中形状提示首先用于消除非行人移动物体,然后使用外观提示来固定行人的位置。作者采用广义预期最大化算法将红外图像分解为背景和前景层。这些方法依赖于人区域比背景具有更热的外观的假设。戴维斯等人。 [7]提出在城市环境中使用等高线显着图在基于融合的背景减轻框架中融合热量和颜色传感器。包括来自两个同步传感器的物体位置和轮廓的信息被融合在一起以提取物体轮廓。通过将两个传感器融合在仅可见光图像和热成像图像上来报告更高的性能。然而,这种方法在计算上是昂贵的,因为它试图构造一个完整的物体轮廓,这在监视或防撞系统等各种应用中似乎不是必需的。在[32]中,分别采用支持向量机和卡尔曼滤波进行检测和跟踪。

我们开发了最近发现的粒子滤波实现所鼓励的生成式跟踪框架。 随机采样不仅可以成功地克服运动中的奇点[8,23],而且应用于人体跟踪的粒子滤波方法在解决拥挤环境中的歧义问题时也显示出了潜力[15,34]。 在贝叶斯框架下工作已经证明,粒子滤波器可以有效地推断出物体的数量及其参数。 另一个优点是,在处理大部分未知性质的分布时,与卡尔曼滤波器不同,粒子滤波器不做高斯假设[16,30]。

人类执行的最常规行为之一就是散步。 Gavrila [11]根据是否使用显式形状模型和模型空间的维度对人体运动分析工作进行了分类。另一项最近的工作是Liang [31],1997年至2001年期间给出了有关区域研究的层次概要。许多现有的人体运动分析方法在图像域中使用基于轮廓的,简单的图形或体积模型,隐式地利用时间信息。其他方法,如本文中的算法,明确地应用时间模型。已经提出了几种解决方案来表征时间周期性。它们可以分为两大类。一种是在形状或轮廓层面分析周期性运动,另一种是在像素层面分析周期性运动。 Little和Boyd分析了运动的形状并将其用于实时目标分类[19]。 Adelson和Berger [1]提出了一个运动感知的多尺度时空滤波器组。在[1,25]中,运动用X-Y-t空间中的特定脉冲响应来表示。在第二类中,Yang [29]引入了视频锁相环来感知像素级的振荡。 Liu和Picard [20]通过沿像素轨迹应用傅立叶分析发现了周期性。在大多数算法中存在主要缺点,即它们不使用关于人体运动学的知识。另一方面,基于复杂身体模型的方法需要跟踪身体特征点或标记,这在很多情况下是不可靠的。由于人体步行时直立姿态和沿地表的平移全球体位移,在时空域考虑比其他空间更合理。我们也观察到强烈的周期性模式,如纹理或水晶。通过桥接群体理论和周期性步态模式对称,我们可以更深入地了解这些模式。 成果. 我们的跟踪系统的目标是双重的:首先尝试利用所有可用的信息来实现无噪声的斑点图,其次,随后使用斑点图执行可靠的行人跟踪,以最小化两种类型的跟踪错误 - 错误检测到的人和 系统错过了人们。 我们的系统通过使用动态适应背景模型来分割每帧中的前景区域。 我们通过使用头候选者选择算法来假设每个这样的区域内的人体数量。 作为下一步,我们的系统基于人类参数和场景布局和几何的先验知识构建贝叶斯推理模型。 在我们的概率方案中,观察每一帧的身体外观是第二动力。

在本文中,我们还介绍了一种新的方法来表征步行人生成的签名。 为了描述这种周期性螺旋图案的计算模型,我们采用对称组的数学理论,这种理论在晶体学结构研究中得到了广泛的应用。 观察和生物测量都证明时空人类步行模式属于楣板组,因为它们的特点是在行走方向上有重复的动作。 该结构适用于能够解决自动检测和跟踪,彩色和红外视频分类的系统。 介绍了从静态和移动地面传感器采集的视频的实验结果。 我们的算法演示了对非刚性物体变形以及背景混乱的鲁棒性。

尽管做出了这些努力,但使用固定或移动图像系统仍面临挑战。 这是由于照明变化(阴影与晴天,室内/夜间与室外),混乱的背景(树木,车辆,动物),人造外观(衣服,便携式物体),非刚性运动学 行人,相机和物体运动,深度和尺度变化(儿童与成人)以及低视频分辨率和图像质量。 本文提出了一种行人检测和跟踪方法,结合了热和可见信息(见图1),并随后使用贝叶斯框架对场景中的运动进行建模。

图1.左图:场景的热像右图:同一场景的彩色图像

2.跟踪

2.1 多模式像素表示法

图像中的每个像素都被建模为两个动态生长的码字向量。对于RGB输入,码字表示为:平均像素pRGB值和亮度范围Ilow和Ihi允许用于该特定码字。如果输入像素在亮度范围内并且码字的pRGB和RGB的点积小于预定义阈值,则认为其属于背景。对于热单色输入,码字表示为:在像素位置出现的强度范围Tlow和Thi。与颜色码字不同,输入像素温度pTisin; 0,255的匹配通过比较pT / Tlow和pT / Thi与经验设定的阈值的比率来完成。这样我们可以严格限制每个地点允许发生的温度变化的百分比。通过观察几个热力学序列,我们发现由其他运动物体产生的云层覆盖或阴影的变化通常不会导致温度变化超过10%。在[18,17]中可以找到关于莫尔蒂模态背景建模的更深入的描述。

在模型获取阶段,如果在现有矢量中找不到匹配,则在每个新帧处将值添加到背景模型。否则,匹配码字被更新以考虑来自新像素的信息。经验上,我们已经确定代码字之间很少有重叠。在这种情况下,即为新像素建立了多于一个匹配,我们合并重叠的码字。我们假设由于压缩和照明噪声引起的背景变化具有重复性。因此,在训练结束时,我们将在学习阶段中没有出现的值超过某些预定义比例的帧的值(陈旧代码字)清理为不属于背景。我们在每个码字中保留所谓的最大负运行长度(MNRL),这是码字未发生期间的最长间隔。这种建模方法的另一个好处是,如果学习周期很长,帧不需要移动前景物体。背景模型可以在飞行中学习,并且在跟踪和模型采集同时完成时很有用。

2.2.贝叶斯模型:观察和状态

我们将跟踪问题表述为马尔可夫链状态的后验概率的最大化。 为了有效地实现贝叶斯推理过程,我们将系统建模为马尔科夫链M = {x,z,x0},并采用Metropolis-Hastings粒子滤波算法的变体[9]。 系统在每个帧的状态是每个主体状态的集合xt = {b1,,,,,bn}。 每个物体按顺序参数化为bi = {x,y,h,w,c},其中x,y是地图上物体的坐标,h,w其宽度和高度,单位为厘米,c 是一个二维颜色直方图,表示为32times;32的色调空间。 身体由椭圆体与轴h和w建模。 模型状态的附加隐式变量是被跟踪物体的数量n。

2.3.计算后验概率

我们的跟踪系统的目标是找到候选状态x(一组物体及其参数),给定最后已知状态x,将最适合当前的观察z,因此,在每一帧中我们的目标是最大化后验概率

根据贝叶斯规则和给定(1)我们的目标是:

方程的右边(2)由观察概率和状态先验概率组成。它们被计算为所有在场的人的共同希望,如下所述。

2.3.1先验

在创建身体的概率模型时,我们考虑了三种先验概率。 第一种先验对身体参数施加物理限制。 也就是说,体宽和高度的权重分别为N(hmu;,hsigma;2)和N(wmu;,wsigma;2),相应的均值和方差反映了正常人体的尺寸。 物体坐标x,y在楼层地图的矩形区域R内均匀加权。 由于我们跟踪部分超出图像边界的物体,因此R会略微超过与图像可见部分相对应的大小。

第二类先验设置了时间t的候选状态与时间t 1的接受状态之间的依赖关系。首先,wt,ht和wt 1,ht 1之间的差值降低先验概率。 作为另一个因素,我们使用所提出的身体位置(xt,yt)和(xt 1,y t 1)之间的距离来估计来自等速卡尔曼滤波器的预测。 卡尔曼滤波器的状态由地面上人体的位置和速度组成。 尽管追踪头部似乎是第一个合理的解决方案,但我们凭经验确定,感知的人体高度因步行而变化,因此脚部在地板上的位置被选为更稳定的参考点。

第三种先验是对场景中其他运动和静态物体的物理约束。 首先,为了避免相邻物体之间的空间重叠(实际上不可能),我们已经对位于其相应的身体宽度允许的更近的行人模型施加处罚。 其次,对行人和静止障碍物之间的重叠施加了类似的限制,这些障碍物在框架中被手动标记并转换为3D世界坐标。

当创建新体时,它不具有对应关系,这是当我们使用正态分布的先验N(d0,sigma;)时,其中d0是最近的门的位置(在平面图上指定),sigma;根据经验选择 说明图像噪声。 当其中一个现有机构被删除时,也会发生同样的过程。

2.3.2可能

形成提案概率的第二个组成部分,将观察结果与模型状态联系起来。首先,对于每个现有的身体模型,颜色直方图c是由加权累积的过程形成的,而更多的是最近的c的实现。然后,我们计算出了Bhattacharyya与相应的ct 1之间的距离作为观察可能性的一部分。

wcolor是颜色匹配的重要权重

为了通过手边的背景图来指导跟踪过程,我们在计算模型可能性时使用两个以上的组件:我们定义了与P 不匹配任何身体像素的斑点像素的数量以及不匹配斑点像素P的体像素的数量(参见 等式4,5)。 请注意,我们使用Z缓冲区Z来计算当前观察值的颜色直方图以检测遮挡。 在该缓冲器中,所有身体像素根据它们距相机的距离(即0 =背景,1 =最远的身体,2 =下一个最近的身体等)被标记,这是我们在校准过程中获得的。 这样在计算可能性时只考虑可见像素(见图2)。 在每次转换后更新Z缓冲区以反映新的遮挡图。

图2.左侧:带有行人的原始框架右侧:Zbuffer(较浅的灰色阴影靠近相机)

在计算上述可能性时,以前的作品中存在一个主要缺点[15,34]。 如果按照图像像素的数量进行计算,则会导致靠近相机的物体对整体配置的影响更大,而更远的身体几乎被忽略。 当相机覆盖大面积时,这变得特别明显,其中行人图像呈现可以从场景后面的总面积的低于20像素变化到前面的200像素以上。 此外,这种忽视使系统与当前场景配置绝对联系在一起,而不能移植到不同的相机型号

为了避免这些缺点,我们使用了所谓的距离权重平面D,它是与输入框架尺寸相同的图像,并且Dxy = | PXY Z,CXY Z |,其中| 是位于高度z =h2mu;且对应于图像坐标(x,y)的空间中的假设点的欧几里得距离,CXY Z照相机世界坐标和PXY Z世界坐标。 以这种方式生成的地图是对实际大小与图像大小比率的粗略评估(参见图3)。

图3.左侧:带有被跟踪行人的原始框架右侧:距离平面重量(重量从蓝色增加到红色)

总而言之,z缓冲器和距离权重平面的实现允许用一个计算有效的步骤来计算多体配置。 让我成为当前

全文共5637字,剩余内容已隐藏,支付完成后下载完整资料


英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14651],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。