基于软目标训练的浅随机森林的视频中行人快速检测算法研究外文翻译资料

 2022-08-09 10:19:09

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


基于软目标训练的浅随机森林的视频中行人快速检测算法研究

摘要

近年来,深度学习算法在目标检测任务中取得了优异的成绩。然而,具有内存或计算限制的系统以及具有大量参数的深层网络成为了实时检测的主要障碍。在这篇文章中,我们提出了一个快速的方法来检测监控系统中的行人用有限的内存和处理单元。我们提出的方法将一个基于师-生框架的模型压缩技术应用于随机森林(RF)分类器,而不是广泛而深入的网络,因为压缩的深入网络仍然需要大量的内存来存储大量的参数和用于乘法的处理资源。所提出的压缩方法的第一个目标是通过使用教师随机森林输出的软化版本来训练学生浅随机森林(S-RF),它可以模拟教师随机森林的性能。其次,由于频繁的盘旋和汇集过程,深层网络不能容易地在从高视角捕获的监控视频中检测到小的和位置接近的行人。在本文中,将自适应图像缩放和感兴趣区域与S-RF相结合,从而实现在低规格监控系统中快速和准确的行人检测。在实验中,我们提出的方法实现了比教师随机森林快2.2倍的速度和高2.68倍的压缩率,并且在2006年跟踪和监视性能评估、市中心和加州理工学院基准数据集上比几个最先进的方法具有更好的检测性能。

关键词:行人检测、模型压缩、师生框架、随机森林、浅随机森林、监控视频。

第1章 导言

行人检测是计算机视觉应用中的一项基本任务,如监控、高级驾驶员辅助系统(ADASs)、机器人、娱乐和人机界面等。尽管已经进行了几十年的研究,但是精准的行人检测仍然是一个难题,并且提出了由行人姿势的多种多样、物体或其他行人对行人的遮挡、非刚性运动以及照明变化引起的行人外观变化所引起的潜在挑战。在与监控视频中的行人检测相关的各种问题中,拥挤场景中的遮挡和频繁的行人交互是最具挑战性的关键问题,我们在本文中主要关注这些问题。

在传统的行人检测中,根据预定义的比例对输入图像进行密集的上采样和下采样,以能考虑不同的行人尺寸。然后,使用扫描窗口方法从每个尺寸图像的候选三角形区域中提取手工制作的特征。使用支持向量机(SVM)或AdaBoost分类器训练的行人检测器验证候选区域属于行人或背景类别。非最大抑制(NMS)是一种后处理算法,负责合并属于同一对象的所有检测。尽管与基于深度学习的方法相比,传统方法对分类器的计算能力和内存要求要低一些,应该由程序员来设计,而且它们不能联合优化以提高性能[2]。

相比之下,基于深度学习的行人检测最近在行人检测任务中表现出最先进的性能。这种方法通过显著降低检测对手工特征和其他预处理技术的依赖来执行端到端学习。特别是,相比于传统的方法,卷积神经网络(CNN)显示出令人非常高的准确性,因为它具有从原始像素学习辨别特征的能力[3]。在基于神经网络的行人检测中,n times; n大小的核在卷积层中与输入图像卷积以产生特征图。在随后的最大池化层之后,每个特征映射也与其他核相关联,并且最终的特征映射被组合成固定长度的特征向量,然后该向量被馈送到全连接的网络中。最终的softmax图层输出两个类别即行人和背景的分类分数。尽管已知基于深度学习的方法的检测精度优于传统方法,但仍有一些问题需要解决。高性能系统通常涉及非常广泛和深入的网络,有许多参数。然而,因为这些系统需要执行大量的乘法运算,所以需要训练大规模的数据集和巨大的计算能力,。此外,大量的参数需要很大的内存,选择合适的超参数也需要相当的技能和经验。这就是为什么宽而深的顶级性能网络不太适合有内存或时间限制的应用的主要原因[4]。卷积神经网络的卷积层和池化层生成高级语义激活图,这是位置接近的行人之间边界模糊的原因之一。因此,由于定位不准确,基于卷积神经网络的检测器比传统方法更有可能无法定位每个人。

监控视频往往包含多种视角,因为摄像机通常安装在高处。因此,当监视摄像机的高度高并且视频因此包括各种小型行人时,基于CNN的检测器不适于在低分辨率的视频中检测人。使用基于卷积神经网络的检测的另一个问题是,它需要大量数据集用于训练和测试,但是要在足够多不同的条件下为监控摄像机收集大量训练数据以训练卷积神经网络并不容易。此外,为了同时处理多个频道的视频,与传统的检测器相比,基于卷积神经网络的检测器需要高水平和大规模的计算设备。

因此,在本研究中,我们致力于开发一种新的用于监控摄像机的快速行人检测算法,该算法通过将师-生框架应用于传统随机森林。

本文的其余部分组织如下。在第二节中,我们描述了由高架监控摄像机拍摄的视频中的行人检测以及本文的主要贡献。在第三节中,我们介绍了基于师-生学习框架的浅随森林行人检测。在第四节中,我们将通过实验证明我们提出的行人检测方法的准确性和适用性。最后,第五节介绍了我们的结论和今后工作的范围。

第2章 相关工程

由于本文对高架监控摄像机拍摄的视频中的行人检测进行了研究,因此我们先介绍在监控摄像机视频中检测行人的各种方法的相关研究。

方向梯度直方图(HOG) [5]是行人检测中使用最广泛的特征描述符。尽管密集重叠的HOG网格提供了良好的行人检测结果,与传统的类Haar描述符相比具有较低的误报率,但是当行人在颜色和/或模式上与背景相似或者几个人重叠在一起,以及具有繁重的计算需求[6]时,它也会产生误报。

为了解决与全局特征描述符(如HOG和局部二值模式(LBP) [7)相关的行人缺失和误判问题,提出了基于多尺度可变形部分和潜在SVM的混合的可变形部分模型(DPM) [8)用于行人检测。DPM的特征在于粗略的根过滤器大约覆盖整个对象,而较高分辨率的部分过滤器覆盖对象的较小部分。然而,DPM仍然不能轻易地检测监控视频中的部分遮挡行人,因为它在最终的决策得分中考虑了遮挡部分的得分。为了解决这个问题,Dehghan等人([9)从零件的分数中推断出遮挡信息,并通过找到最可靠的零件集合来最大化检测概率,仅利用那些对其出现具有高置信度的零件。

传统方法的性能通常受限于低级手工制作特征的表现能力[1]。因此,基于卷积神经网络的行人检测器的监视系统一直吸引着人们的注意力。欧阳和王提出了一个深度模型,该模型联合学习监控摄像机视频中行人检测的四个组成部分:特征提取、变形处理、遮挡处理和分类。在这个统一的深度模型中,三个组件在学习过程中相互作用,并且每个组件在与其他组件合作时都被允许最大化其强度。陈等将行人检测的任务转化为头肩部位检测,以检测监控视频中严重遮挡的行人。在他们的论文中,他们提出了一个用三个级联的卷积神经网络来捕捉行人头肩部位的最有区别的信息。赵等[3]使用了

边缘盒算法[11]结合Fast R-CNN结构获得低冗余和高质量的候选窗口,Fast R-CNN结构可以提取数千个区域建议,并用一个卷积神经网络将行人们在他们的位置上进行分类。为了缩短R-CNN提取区域建议的运行时间,提出了Faster R-CNN模型,其中引入了与检测网络共享全图像卷积特征的区域建议网络。然而,Faster R-CNN也和其他基于卷积神经网络的方法一样,仍然不适合在监视系统中的实时行人检测。为了减少处理时间和提高检测性能,您只需看一次(YOLO) [13]和YOLO 9000 [14]中所提出的。这些方法使用单个神经网络直接在一次评估中从完整图像预测边界框和类别概率。

近年来,对小型深层神经网络体系结构的研究已经被积极地用于检测嵌入式设备中的对象。例如,SqueezeNet[15]、MobileNet[16]、ShuffleNet[18]以及TinySSD[18]都是专门为最大限度地降低模型并保持对象检测性能而设计的。尽管用于目标检测的微型卷积神经网络结构已经显示出良好的性能,但是如引言中所提到的,与它们相关的几个问题仍然有待解决。例如,在TinySSD [18]的情况下,通过优化,网络的大小大大减小,比小YOLO[14](60.5兆)小26倍。然而,该模型的大小仍然超过230万字节,需要5.7109亿次操作。因此,这些限制使得它难以在实时系统中实现应用,并且在同时操作多个频道视频上也存在障碍。

除了与行人检测相关的特征提取和分类算法之外,摄像机视角的变化也会影响行人检测的准确性,因为图像缩放级别和多尺度扫描的范围会根据摄像机的高度而变化,这两个因素在准确性和运行时速度方面与检测性能密切相关。为了处理具有不同高度的监视摄像机的视频中的行人检测,Bae等人[19]提出了感兴趣范围(SOI)和感兴趣区域(ROI)估计,以最小化实际多尺度行人检测中不必要的计算。SOI的作用是通过估计图像的视角来确定图像的缩放水平,ROI的作用是搜索缩放图像的区域。Ko等人([6)提出了霍夫窗图(HWMs),用于利用分治算法来确定图像缩放的级别,以降低处理监控视频序列所涉及的计算复杂度。此外,用于图像缩放的自适应ROI有助于提高检测精度并减少检测时间。

Hattori等人[20]提出了一种考虑场景透视几何的空间变化的行人感知CNN模型,因为当新的监视系统安装在新的位置时,必须首先训练一个场景特定的行人检测器。

为了弥补频繁改变摄像机位置导致的数据不足,该方法使用几何场景数据和虚拟模拟行人运动的可定制数据库,而不是改变ROI或图像缩放水平。蔡等[21]提出了一种用于快速多尺度行人检测算法的多尺度CNN,该算法包括不同尺度的感受野和尺度特定的检测器,以产生强的多尺度行人检测器。蒋等[22]提出了一种基于对应于不同大小的行人模型的一组卷积神经网络之间共享特征的行人检测方法。该方法通过共享特征来检测图像金字塔单层中的几个不同尺度的行人,以便减轻从图像金字塔提取特征所引起的计算负担。

这项工作的贡献:为了设计一种非常适合于具有有限存储器和处理单元的监视系统的快速行人检测方案,我们引入了一种算法,用于将深且宽的分类体系结构压缩成较浅的分类体系结构。在本研究中,所提出的压缩算法被应用于一个射频分类器,它是一个决策树的集合,而不是一个卷积神经网络,因为即使层的深度被所提出的算法减少,卷积神经网络仍然需要大量的内存和处理资源。

本文的主要贡献如下:我们描述了采用HWMs来确定图像缩放级别和一种自适应ROI算法,以减少监控摄像机视频中图像缩放和滑动窗口的数量。

我们探索新型模型压缩算法,通过将师-生框架转换为随机森林模型来实现,而不是使用计算量大的深度学习。

我们提出了一种模型压缩,将压缩的师-生框架应用于随机森林,从而使用教师输出的软化版本来训练比教师随机森林浅的学生浅随机森林。

我们证明通过软目标训练训练的S-RF是一种合理模仿教师分类器的分类能力的方法。此外,这也是一种在高视角监控视频中检测小尺寸和近距离行人的有效方法。

我们证明了所提出的S-RF能在不牺牲精度的情况下,很大程度地缩短处理时间。

我们描述了所提出的方法在基准数据集上的成功应用,并证实其检测精度与其他基于CNN的相关方法相似或更高,且处理时间更短。

第3章 师-生模型压缩:图像缩放水平和自适应的ROI估计

图像缩放量和搜索区域的数量在行人检测中是一个很大的负担,因为多尺度图像金字塔需要频繁的图像缩放,并且滑动窗口应该对每个尺度进行特征匹配。

为了减少处理监控摄像机视频所需的图像缩放和滑动窗口的数量,我们采用HWMs来确定图像缩放的级别,并采用自适应ROI算法[6]来为每个图像缩放提供不同的感兴趣区域 的查找。图像缩放级别和相应的感兴趣区域可根据监控摄像机的视角而变化。对于特征,我们使用方向中心对称的局部二值模式(OCS-LBP) [23],因为该特征同时包含了像素的梯度幅值和方向信息。为了建立一个具有鲁棒性的行人遮挡特征模型,我们从4 times; 4个相邻的子块中计算出OCS-LBP,并通过连接来自16个子块的8种局部OCS-LBP描述符产生一个128维的单个OCS-LBP描述符。

对于行人分类算法,我们引入了一个S-RF分类器,该分类器使用所提出的师-生训练框架来将候选窗口分成行人类和非行人类。RF训练程序将在第3节中有详细描述

3.1师-生框架

虽然深层神经网络的性能随着层级的增加而提高,但是它们所带来的缺点是对数百万个参数的存储器需求的增加,以及对数百万个滤波器的乘法运算的计算复杂性的增加。出于这些原因,如上所述,高性能的宽而深的网络不适合用于内存和时间有限的应用([4],[24]。为了减少大量参数所需的内存和推理时的计算负担,已经提出了几种模型压缩框架,例如参数修剪和共享[25],低秩因子分解[26],传输/压缩卷积滤波器[27]和师-生框架[4],[28]-[30]。众所周知,在这四个类别中,师生框架的性能与教师框架相匹配或优于教师框架,并且需要相当少的参数和乘法运算[24]。

师-生框架基于大量培训数据和深层结构构建了一个深度和广度都很高的教师网络,并且基于教师网络构建了一个深度和广度都很低的可以完成同样功能的学生网络([4],[28]-[30)。如图1所示,通过在学习过程中使用由教师网络的软件最大值提取的概率值而不是训练数据的类别标签来生成学生网络。

图1. 将教师网络压缩成学生网络的师-生学习框架。通过比较教师(P tau; T)和学生(P tau; S)的输出的损失函数(L)和交叉熵(H),教师网络的软化输出被用于使用其他未标记的训练数据来训练目标学生网络。(a)具有深层的教师网络,(b)通过使用从教师网络提取的概率值生成的学生网络。

可以通过使用概率值(软目标)而不是训练数据的类标签(硬目标)来考虑类之间的相关性。使用非硬目标(软目标)的学生网络通过使用交叉熵来训练学生网络,以减少教师和学生网络输出的差异。

然而,正如在引言中提到的,压缩的卷积神经网络模型仍然需要大量的内存和处理资源用来存储大量的参数和进行乘法计算。例如,代表性的师生框架,FitNet [4],尽管教师网络以3:6的压缩率缩减,但仍然需要250万个参数和3.82亿次乘法运算。因此,即使应用了模型压缩算法,基于卷积神经网络的顶级性能深度网络也不太适合有内存或时间限制的应用。

在本研究中,我们探索了将基于CNN的师-生框架转换为RF模型(即决策树的

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239518],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。