英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
RMPE:区域多人姿态估计
摘要
在野外进行多人姿态估计具有挑战性。尽管最先进的人体检测器表现出良好的性能,但在定位和识别方面的小误差是不可避免的。这些错误可能会导致单人姿态估计器(SPPE)出现故障,尤其是对于仅依赖于人体检测结果的方法而言。在本文中,我们提出了一种新颖的区域多人姿态估计(RMPE)框架,以在存在不准确的人类边界框的情况下促进姿态估计。我们的框架由三部位组成:对称空间变压器网络(SSTN),参数姿态非极大值抑制(NMS)和姿态指导的提议生成器(PGPG)。我们的方法能够处理不准确的边界框和冗余检测,从而使其在MPII(多人)数据集上可达到76.7 mAP [3]。我们的模型和源代码已公开提供。
- 介绍
人体姿态估计是计算机视觉的基本挑战。实际上,在野外识别多个人的姿态比在图像中识别单个人的姿态更具挑战性[36, 37, 25, 28, 44]。最近的尝试通过使用两步框架来解决此问题[34,15]或基于部位的框架[9,33,21]。两步框架首先检测人体边界框,然后独立估计每个框内的姿态。基于部位的框架首先独立检测身体部位,然后组装检测到的身体部位以形成多个人体姿态。两种框架都有其优点和缺点。在两步框架中,姿态估计的准确性高度取决于检测到的边界框的质量。在基于部位的框架中,当两个或更多的人靠的太近时组装的人体姿态是模棱两可的。而且,基于部位的框架由于仅利用了二级身体部位依赖而失去了从全局姿态角度识别身体部位的能力。
我们的方法遵循两步框架。我们的目标是即使在边界框不准确的情况下也能检测出准确的人体姿态。为了说明先前方法的问题,我们应用了最先进的对象检测器Faster-RCNN[35]和SPPE堆叠沙漏模型[28]。图1和图2显示两个主要问题:定位错误问题和冗余检测问题。实际上,SPPE相当容易受到边界框错误的影响。即使在将边界框视为正确即IoU>0.5的情况下,检测到的人体姿态仍然可能是错误的。由于SPPE为每个给定的边界框生成一个姿态,因此冗余检测会导致冗余姿态的出现。
为了解决上述问题,一种区域多人姿态估计(RMPE)框架被提出。我们的框架提高了基于SPPE的人体姿态估计算法的性能。我们设计了一种新的对称空间变压器网络(SSTN),该网络连接到SPPE,以从不准确的边界框中提取高质量的单人区域。新的并行SPPE分支被引入来优化此网络。为了解决冗余检测的问题,参数姿态NMS被引入。我们的参数姿态NMS通过使用新颖的姿态距离度量来比较姿态相似性,从而消除了多余的姿态。应用数据驱动的方法来优化姿态距离参数。最后,我们提出了一种新颖的姿态指导人类提议生成器(PGPG),以增强训练样本。通过学习人体检测器针对不同姿态的输出分布,我们可以模拟人体边界框的生成,从而生成大量的训练数据样本。
我们的RMPE框架是通用的,适用于不同的人体检测器和单人姿态估计器。我们将我们的框架应用与MPII(多人)数据集[3],其性能优于最新方法,可达到76.7 mAP。我们还进行了消融研究,以验证每个的有效性。我们的模型和源代码已公开提供,以支持可重复的研究。
图1:边界框定位错误问题。红色框是地面真值边界框,黄色框是IoU>0.5情况下检测到的边界框。该热图是SPPE[28]对应于两种类型的框。黄色框的热图中未检测到相应的身体部位。注意,如果IoU>0.5,则将黄色框视为“正确”检测。但是,即使使用“正确”的边界框也无法检测到人体姿态。
图2:冗余的人类检测问题。左图显示了检测到的边界框;右图显示了估计的人体姿态。因为每个边界框都是独立工作的,所以可以为一个人检测到多个姿势。
- 相关工作
2.1. 单人姿态估计
在单人姿态估计中,仅通过尝试估计一个人的姿态就简化了姿态估计问题,并假定该人主导图像内容。传统方法考虑了图片结构模型。例如,树模型[43,36,47,42]和随机森林模型[37,11]已经证明在人体姿态估计中非常有效。基于图的模型,例如随即字段模型[24]和依赖图模型[17]也已在文献中得到广泛研究[16,38,25,32]。
最近,深度学习已成为对象/面部识别中的一种有前景的技术,人体姿态估计也不例外。代表作品包括DeepPose(Toshev等)[40],基于DNN的模型[29,14]和各种基于CNN的模型[23,39,28,4,44]。除了简单地估计人体姿态外,一些研究[12,31]同时考虑人体分析和姿态估计。对于单人姿态估计,这些方法只有在正确放置了人的情况下才能很好地执行。但是,这个假设并不总是被满足。
2.2. 多人姿态估计
基于部位的框架 回顾一下基于部位的框架[9,15,41,33,21]的典型工作。Chen等人提出了一种解析大部位被遮挡的人的方法。通过将人类建模为身体部位的灵活组成的图形模型[9]。Gkiox等人使用k-poselets来联合检测人并预测人体姿态的位置[15]。最终的姿态定位是通过所有激活的姿态的加权平均值来预测的。Pishchulin等人建议用DeepCut首先检测所有身体部位,然后通过积分线性编程对这些部位进行标记和组装[33]。Insafutdinov等人提出了基于ResNet的更强大的部位检测器和一种更好的递增优化策略。尽管基于部位的方法表现出良好的性能,但它们的身体部位检测器可能很脆弱,因为只考虑了较小的局部区域。
两步框架 我们的工作遵循两步框架[34,15]。在我们的工作中,我们使用基于CNN的SPPE方法来估算姿态,而Pishchulin等人[34]则采用传统的图片结构模型进行姿态估计。特别是Pishchulin等人[21]提出一种类似的两步流水线,其中使用Faster-RCNN作为他们的人体检测器,并使用一元DeeperCut作为他们的姿态估计器。他们的方法在MPII数据集中只能达到51.0 mAP,而我们的方法可以达到76.7 mAP。随着对象检测和单人姿态估计的发展,两步框架可以实现其性能的进一步提高。本文旨在解决两步框架中人体检测不完善的问题,以最大化SPPE的功能。
- 区域多人姿态估计
我们建议的RMPE流程如图3所示。由人体检测器获得的人体检测框被输入到“Symmetric STN SPPE”模块中,并自动生成姿态建议。生成的姿态建议通过参数化姿态NMS进行优化,以获得估计的人体姿态。在培训期间,我们引入了“并行SPPE”以避免本地最小值并进一步利用SSTN的功能。为了增加现有的训练样本,姿态指导设计了提议生成器(PGPG)。在本节中,我们将介绍我们框架的这三个主要组成部分。
图3:我们的RMPE框架流水线。我们的对称STN由STN和STDN组成,它们分别连接在SPPE之前和之后。STN接收人工建议,而STDN生成姿态建议。在训练阶段,并行SPPE充当额外的调节器。最后,执行参数姿态NMS(p-Pose NMS)以消除多余的姿态估计。与传统训练不同,我们使用PGPG生成的图像训练SSTN SPPE模块。
3.1. 对称STN和并行SPPE
由人类检测器提供的人类提议不是非常适合SPPE。这是因为SPPE是专门用于单人图像训练,并且对本地化错误非常敏感。已经证明,小的转变或剪裁人类提议可能会严重影响SPPE的表现[28]。当不完善的人类提议被给出时,我们引入对称STN 并行SPPE来增强SPPE。我们的SSTN和并行SPPE模块如图4所示。
图4:对称STN架构和并行SPPE的训练策略阐述。使用的STN由Jaderberg等人开发[22]。我们的STDN取一个由定位网生成的参数theta;,并计算出要进行反变换的gamma;。我们遵循网络生成器和采样器[22]提取人为主导区域。对于我们的并行SPPE分支,指定了一个位于中心的姿态标签。我们冻结并行SPPE所有层的权重,以鼓励STN提取占主导地位的单人提议。
STN和STDN 空间变压网络[28](STN)在自动选择感兴趣的区域中表现出出色的性能。在本文中,我们使用STN提取高质量的主要人类提议。在数学上,STN执行2D仿射变换,可以表示为:
其中theta;1,theta;2和theta;3是R2中的向量。{xis,yis}和{xit,yit}分别是变换前后的坐标。通过SPPE之后,生成的姿态被映射到原始的人类提议图像上。自然地,需要空间解变压器网络(STDN)才能将估计的人体姿态重新映射回原始图像坐标。STDN计算gamma;进行反变换,并基于gamma;生成网络:
由于STDN是STN的逆过程,因此我们可以获得以下信息:
要通过STDN反向传播,part;J(W,b)/ part;theta;可以关于theta;1和theta;2得到:
并且关于theta;3得到:
part;[gamma;1 gamma;2]/ part;[theta;1 theta;2]和part;gamma;3/part;theta;3可以分别从等式3和等式4得到。
提取高质量的主要人类区域后,我们可以利用现成的SPPE进行准确的姿态估计。在我们的训练中SSTN会和SPPE一起微调。
并行SPPE 为了进一步帮助STN提取良好的人类主导区域,我们在训练短语中加入了并行SPPE分支。该分支和原始的SPPE共享相同的STN,但是空间解变压器(STDN)被忽略了。此分支的人体姿态标签被指定为居中。更具体地说,此SPPE分支的输出直接与位于中心的地面真值姿态的标签进行比较。在训练阶段,我们冻结了此并行SPPE的所有层。该分支的权重是固定的,其目的是后向传播中心定位的姿态错误给STN模块。如果所提取的STN姿态不在中心位置,则并行分支将后向传播大错误。这样,我们可以帮助STN专注于正确的区域并提取高质量的人类主导区域。在测试阶段,并行SPPE被丢弃。并行SPPE的有效性将在我们的实验中得到验证。
讨论 并行SPPE可以看作是训练阶段的正则化项。它有助于避免STN不会将姿态转换到提取的人类区域中心位置这样的糟糕情况(局部最小值)。达到局部最小值的可能性会增加是因为来自STDN的补偿将使网络产生更少的错误。这些错误对于训练STN是必须的。使用并行SPPE,可以训练STN将人移动到提取区域的中心,以利于通过SPPE进行准确的姿态估计。
在SPPE的输出中(在STDN之前)以居中位置的姿态回归损失代替并行SPPE似乎很直观。但是,这种方法会降低我们系统的性能。尽管STN可以部分转换输入,但无法将人完美地放置在与标签相同的位置。SPPE的输入和标签之间的坐标空间差异将大大削弱其学习姿态估计的能力。这将导致主分支SPPE的性能下降。因此,为了确保STN和SPPE都能充分利用它们自己的能力,具有冻结权重的并行SPPE对于我们的框架是必不可少的。对于非中心姿态,并行SPPE始终会产生较大的误差,以推动STN产生中心位置的姿态,而不会影响主分支SPPE的性能。
3.2. 参数姿态NMS
人体检测器不可避免地会产生多余的检测,从而产生多余的姿态估计。因此,需要姿态非极大值抑制(NMS)来消除冗余。以前的方法[6,9]效率不高或不够准确。在本文中,我们提出一种参数化姿态NMS方法。与上一小节类似,具有m个关节的姿态Pi被记为{( kij, cij),hellip;hellip;,( kim, cim)},其中kij和cij分别是第j个位置和第j个关节的置信度得分。
NMS方案 我们重新审视姿态NMS,如下所示:首先,选择最自信的姿态作为参考,并通过应用消去准则将和其最接近的姿态消除。其余姿态重复此过程直到消除多余的姿态并且仅显示唯一的姿态。
消除标准 我们需要定义姿态相似性,以消除过于接近和过于相似的姿态。我们定义一个姿态距离度量d(Pi,Pj丨Lambda;)来测量姿态相似度,并定义一个阈值eta;作为消除标准,其中Lambda;是函数d()的参数集。我们的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[258304],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。