行人检测:基准测试外文翻译资料

 2022-07-12 14:22:40

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


Pedestrian Detection: A Benchmark

摘要

行人检测在计算机视觉领域是一个关键的问题,有着很多应用如机器人,监控,自动驾驶安全性。过去几年由于公共数据集的可用,取得了大量的进步。为了继续快速的创新,我们介绍了Caltech Pedestrian Dataset,它比现有的数据集大两个数量级。数据集包含了丰富的已经标注的视频,来自于一辆运动的汽车,有着低分辨率和经常被遮挡的富有挑战的图片。我们提出了改善的评估指标,证明了常用的逐窗测量存在缺陷并且无法完整的预测整个图像的信息。我们还对几个有前途的检测系统进行了基准测试,提供了最先进的性能和指导,现有方法的公正比较。最后,通过分析常见故障案例,我们帮助确定该领域未来的研究方向。

介绍

行人检测问题有着很长的历史[37,13,35,27,16,41,23,5];在过去两年,对行人检测产生了大量的兴趣。准确的行人检测将会有立刻且深远的影响的应用,如监控,机器人,为视障人士提供辅助技术,基于内容的索引,先进的人机界面和汽车安全,等等。汽车应用特别引人注目,因为它们有可能挽救无数生命。

公开可用的基准,其中最受欢迎的是INRIA数据集,为机器视觉领域的兴趣和进步做出了贡献。但是,随着算法性能的提高,需要更具挑战性的数据集来继续快速的进展并激发新颖的想法。现有的人行数据集通常包含有限范围的尺度,遮挡和姿态变化,并且相当小,使得难以评估真实世界的性能。正如我们将要证明的那样,使用逐窗测量性能的行人检测器的评估方法存在缺陷,并且无法预测实际的图像性能。

我们的贡献有四点:1)我们介绍了Caltech数据集,行人在外观,姿势和规模上差异很大; 此外,遮挡信息被注释。这些统计数据更能代表真实世界的应用,并可对现有算法进行深入分析.2) 我们提出改进的性能指标3) 我们对七种算法进行了基准测试,可以直接从原作者处获得,也可以在内部重新实现4) 我们强调现有方法失败的实际利益情况,并确定未来的研究方向。我们介绍Caltech行人数据集,并在第二部分描述其统计数据。在第3部分,我们根据PASCAL标准讨论了逐窗指标的缺陷并描述了我们的评估方法。在第4部分我们报告了七种有前途的行人检测方法的详细性能评估。在第5部分,我们总结我们的发现并讨论未解决的问题。

数据集

具有挑战性的数据集是计算机视觉发展的催化剂。同样,我们引入Caltech行人数据集的目标是提供更好的基准,并帮助确定当前检测方法失效的条件,从而将研究工作集中在这些困难的案例上。

2.1图像和真实标注

我们收集了大约10小时的30Hz视频(10^6帧),这些视频来自于在城市环境中通过正常交通行驶的车辆(摄像机安装见图2). 司机是独立于这项研究的作者,并指示正常行驶通过行人经常出现的地区。视频在洛杉矶大都市区被从相对高度集中的行人选择的社区拍摄:洛杉矶,圣莫尼卡,好莱坞,帕萨迪纳和小东京。

CCD视频分辨率为640times;480,并且意外的是,整体图像质量低于具有可比分辨率的静止图像。由于重复安装摄像头,摄像头位置有轻微变化。 视频稳定以消除车辆俯仰的影响,主要是为了简化注释。 为了实现稳定,我们实施了基于在[45]中描述的系统的差分相机跟踪器。

我们注释了250,000帧(137分钟左右的长分段),共计350,000个标记边界框和2300个独特步行者。为了能够实现如此大规模的标签工作,我们创建了一个用户友好的标签工具,在图4中进行简要描述。对于每个看到给定行人的框架,贴标者画出一个紧密的边界框(BB),表示整个行人的全部范围。 对于被遮蔽的行人,这涉及估计隐藏部分的位置; 此外还使用第二个BB来描绘可见区域。在遮挡事件期间,估计的完整BB保持相对恒定,而可见BB可能快速变化。 为了比较,在PASCAL标签方案[28]中,只有可见的BB被标记,并且被遮挡的行人被标记为“截断”。

属于给定对象的每个BB序列都被分配了三个标签之一。 个人行人被标为#39;人#39;(1900例)。 使用单个BB标记为“人”(300)的大型行人群将是单调乏味或不可能标记个人的行人。 此外,当明确识别行人模糊不清或容易被误认时,标签“Person?”被分配(110)。 具有重叠注释的示例图像如图1所示。

数据集统计

图3给出了数据库的总结。大约50%的框架没有行人,而30%有两个或更多。 行人平均可见5秒。 下面,我们详细分析行人的尺度,遮挡和位置的分布。 这将成为确立现实世界系统要求的基础。

刻度 我们将行人的图像大小(像素高度)分成三个等级:近(80或更多像素),中等(30-80像素)和远(30像素或更少)。 这种划分为三个尺度的动机是数据集中尺寸的分布,人的表现和汽车系统的要求。

在图5a,我们使用对数大小的分箱对我们数据库中350,000个BB的高度进行直方图分析。近/远刻度的截止点被标记。注意到,68%的行人处于中等刻度上,近/远标度的截止值与平均高度(对数空间中)约为plusmn;1标准偏差。人们希望看到行人的数量随着他们身高的平方而减少,例如,与他们的图像区域成比例。另一端的下降幅度低于30像素,这是由于注释者难以可靠地识别小型行人。

在中等刻度上进行行人检测对自动驾驶的应用是重要的。我们选择了反映预期汽车应用的相机设置:垂直视野区域27度,分辨率640X480,焦距固定在7.5毫米。假设行人1.8米高,我们可以得到估计的行人的像素高度。汽车行驶的速度55km/h。80像素的人只有1.5秒,30像素的人有4s(图5b),因此近处的行人可能留给司机闪避的时间不是很充分。

我们的工作中将会使用近/中等/远尺度的区别。正如所描述的,大多数行人在中等尺度上,因此行人检测系统必须也发生在这个尺度上。更为重要的是,人类的识别在近/中等尺度上是很好的,但是在远距离尺度上显著下降。然而目前大多数的算法针对于近尺度设计,在中尺度上表现的很一般(第4部分)。因此,目前的需求和研究不匹配。

遮蔽 之前很少有工作研究遮蔽时检测器的性能(使用实际的数据)。正如所描述的,被遮蔽的行人被用两个表示可见的和完整的行人范围的BB来标注。在图6a中,我们画出了遮蔽的频率,如对于每个行人,我们测量行人被遮挡的部分帧。分布有三个不同的峰:从未被遮挡(29%),有时被遮挡(53%),总被遮挡(19%)。注意到,超过79%的人至少在一帧中被遮挡。

对于每个被遮挡的行人,我们可以计算遮挡区域的部分,减去整个区域内可见区域的部分。聚合后,我们获得了直方图如图6(b). 超过80%的遮挡通常指示完全遮挡,而0%用于指示BB不能代表可见区域的范围(如一个对角遮挡物)。有趣的情况发生在两者之间,我们进一步细分为部分遮挡(1-35%遮挡区)和重度遮挡(35-80%遮挡)。

最后如图6(c)所示,我们会显示一张热图,显示行人的哪些区域最有可能被遮挡(通过平均遮挡遮罩获得)。行人的下部被遮挡并且顶部可见(如遮挡物比地面更低),是有强烈的偏见的。 这种偏见与常见假设相矛盾,即遮挡概率是一致的。

位置 视点和地平面几何(图2)限制行人只出现在图像的某些区域。我们计算预期的中心位置(超过350,000个BB),并绘制出由此产生的热图,对数标准化,如图7a所示。可以看出,行人通常位于横跨图像中心水平延伸的窄带(y坐标随着距离/高度而变化)。请注意,当从任意视点拍摄场景时,相同的约束是无效的,例如, 在INRIA数据集中。

在收集的数据中,许多物体,而不仅仅是行人,往往集中在同一地区。 在图7(b)中,我们展示了一个通过使用低阈值的HOG行人检测器[5]生成的BB获得的热图。 大约一半的检测结果,包括真阳性和假阳性,都与真阳性发生在同一条带上。 因此,纳入这一约束将大大加快检测速度,但只会适度提高性能。

训练和测试数据

我们将数据集分为训练和测试集,指定我们的评估方法。这将允许不同的研究小组直接地来比较他们的方法。我们敦促作者坚持下面介绍的三种培训/测试场景之一。

我们的数据被捕获了11个会议,每个会议在5个城市社区中的一个拍摄。我们将数据大致分成一半,留出6次训练(0-5)和5次测试(6-10次)。 有关培训/测试数据量的详细统计信息,请参见表1的最下面一行。

这里我们着重评估现有的,预先训练好的行人探测器。 我们鼓励作者在我们的大型训练集上重新训练他们的系统。 我们指定了三种培训/测试方案:

情景-A:在任何外部数据上训练,在6-10部分训练。 这里报告的结果使用这种设置,因为它允许在没有任何再培训的情况下对现有方法进行广泛的调查

方案-B:使用0-5部分执行6重交叉验证。 在每个阶段中,使用5部分训练和第6部分训练,然后在整个训练集(训练集0-5)上合并验证集上的结果和报告表现。

情景-C:使用0-5部分进行训练,在6-10部分上测试。

我们目前没有发布测试数据(6-10部分)。 相反,我们要求作者提交最终的,经过训练的分类器,我们将继续评估。 我们的目标是帮助防止过度拟合并延长数据集的使用寿命。 此外,它确保所有算法都以完全相同的方式进行评估。 情景-B允许作者在使用场景-C下的完整测试集进行评估之前与其他组进行比较。

2.4和现有数据集的比较

现有数据集可以分为两类:1) #39;人#39;数据集包含在广泛域中的无约束姿势的人2) 包含直立人(站立或步行)的#39;行人#39;数据集,通常从更多限制的观点来看,但通常包含运动信息和更完整的标签。最常用的“人”数据集包含MIT LabelMe数据和PASCAL VOC数据。在这篇文章中,我们主要关注行人检测,这与包括监视,机器人和汽车安全在内的某些应用更为相关。

表1提供了现有行人数据集的详细概述。行人可以在照片[5],监控录像[26]和从移动记录装置(例如机器人或车辆)拍摄的图像[8]中被标注。

从照片中收集的数据集受到选择偏差的影响,因为必须手动选择照片才能只包含正确的人,根据任意标准选择负面图像,而监控视频的背景有限。通过移动记录设置收集的数据集很大程度上消除了选择偏差。 此外,与以前的所有行人数据集不同,我们的数据集不是为了证明特定方法的有效性,因此提供了一个公正的,具有挑战性的测试平台。

INRIA数据集[5]有助于推动行人检测的最新进展,并仍然是使用最广泛的。 然而,它偏向于大型的,大部分未被遮挡的行人。 其他最相关的数据集是DaimlerChrysler(DC)[24]和ETH [8]数据集。 DC数据也包含在城市环境中,只包含非常小的行人。 使用连接到婴儿车的一对相机拍摄的ETH数据具有合理的尺度变化和大量的标记数据; 但是,遮挡不会被注释,并且每个帧都被独立标记。

我们通过总结加州Caltech行人数据集的最新颖和重要的方面得出结论。 它包括以O(10^5)行人BB标记的O(10^5)帧,比任何其他数据集多两个数量级。 数据集包括彩色视频序列,并且包含与典型行人数据集相比具有大范围尺度和更多姿态可变性的行人。 最后,据我们所知,这是第一个在BB和详细遮挡标签之间具有时间对应关系的数据集。

3.评估方法

评估行人探测器的既定方法是有缺陷的. 大多数作者比较了每个窗口的性能,例如 这是INRIA数据集[5]接受的方法,与在目标检测[28]中经常使用的每幅图像度量相反。在实际应用中,逐窗口检测器在图像上被密集地扫描并且附近的检测被合并,例如使用非极大值抑制。相反,Dalal和Triggs建议通过对以行人为中心的裁剪窗口进行分类,对照没有行人的图像以固定密度采样的窗口进行分类,从而避免NMS或其他后处理。典型的假设是,更好的逐窗口分数将导致在整个图像上更好的表现; 然而,实际上,每个窗口的性能可能无法预测每个图像的性能(见图8)。

可能有很多解释。 逐窗口评估不会测量由不正确的尺度或位置检测到的错误,或由于身体部位的错误检测而引起的错误,也不会考虑NMS的影响(这可以减少不同方法在不同速率下的假正例)。 探测器可能需要不同的采样方案[36],特别是那些对位置和尺度变化稍微不变的探测方案; 此外,采样密度与NMS之间可能存在复杂的相互作用。 总之,这些因素使得独立地评估所有检测方案的分类器变得困难。

当然,并不是所有的检测系统都是基于滑动窗口[19,17],并且这种系统的逐窗口评估是不可能的。 也许逐窗口方案的最大缺陷是使用裁剪的正例和未修剪的负例进行训练和测试:分类器可能利用窗口边界效果作为区分特征,导致逐窗口性能良好但每图像性能差。 我们在两个评估算法中观察到这一点[30,21]

3.1每幅图像评估

我们使用PASCAL目标检测挑战[28]中列出的方案的修改版进行单帧评估。 检测系统需要输入图像并返回BB和每次检测的得分或置信度。 系统应执行多尺度检测和任何必要的NMS或其他后处理。评估在最后生成的被检测的BB列表上展示。

检测边界箱()和正确标注边界箱()形成潜在的匹配,如果他们的区域有效重叠了的话。特别的,我们利用了PASCAL方法,它声明重叠率必须大于50%

阈值50%是粗暴的,但是是合理的。

每个和最多匹配一次。我们通过首先将具有最高置信度的检测进行匹配,来解决任何分配歧义。在极少数情况下,这种分配可能并不理想,特别是在拥挤的场景中[32],但在实际中,这样的效果应该可以忽略不计。未匹配的算作假正例,未匹配的算作假反例。为了比较方法,我们通过改变检测置信度的阈值来计算每幅图像的假正例。

<p

全文共8154字,剩余内容已隐藏,支付完成后下载完整资料</p


资料编号:[9645],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。