基于RGB图像的3D手势姿态估计外文翻译资料

 2022-08-09 10:00:03

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


Learning to Estimate 3D Hand Pose from Single RGB Images

Christian Zimmermann, Thomas BroxUniversity of Freiburg

摘要

低成本的消费者深度相机和深度学习功能使人们能够从单一深度图像中进行合理的3D手势估计。 在本文中,我们提出了一种从常规RGB图像估计3D手部姿势的方法。 由于缺少深度信息,因此此任务具有更多的歧义。 为此,我们提出了一个深度网络,该网络可以事先学习网络隐式3D清晰度。 连同图像中检测到的关键点一起,该网络可以很好地估计3D姿势。 我们引入了基于合成手模型的大规模3D姿势数据集来训练所涉及的网络。 在包括手语识别在内的各种测试集上进行的实验证明了在单个彩色图像上进行3D手部姿势估计的可行性。

  1. 引言

手是人类的主要操作工具,因此,它在空间中的位置,方向和关节运动对于许多潜在应用至关重要,例如机器人技术中的对象移交,从演示中学习,手语和手势识别以及将手用作人机交互的输入设备。由于存在许多歧义,强烈的清晰度和沉重的自闭塞性,因此很难从单个图像进行完整的3D手姿势估计,甚至比整个人体更困难。因此,使用了诸如数据手套或标记之类的特定传感设备,这将应用程序限制在有限的场景中。而且,使用多个摄像机严重限制了应用程序领域。大多数当代作品都依赖于深度相机的深度图像。但是,深度相机不像普通彩色相机那样普遍使用,它们只能在室内环境中可靠地工作。本文提出了一种从单色图像中学习完整3D手部姿势估计的方法,而无需任何特殊设备。我们利用深层网络的能力从数据中学习明智的先验,以解决歧义。我们的整体方法由三个深层网络组成,这些网络覆盖了通往3D姿势的重要子任务。参见图2。第一个网络提供了手部分割以将手定位在图像中。根据其输出,第二个网络在2D图像中定位手形点。第三网络最终从2D关键点推导了3D手势,这是本文的主要贡献。特别是,我们引入了典型的姿势表示法来使该学习任务可行。与3D姿势估计相比,在人体水平上的另一个困难是数据的可用性受到限制。尽管人体姿势估计可以利用多个运动捕捉数据库,但几乎没有用于手的此类数据。要训​​练网络,需要具有真实背景3D关键点的大型数据集。由于没有足够的可变性的数据集,我们创建了一个具有各种数据增强选项的合成数据集。由此产生的手部姿势估计系统在定性和定量方面都存在着非常有前景的小规模数据集。我们还演示了3D手势在手语识别任务中的使用。数据集和我们训练有素的网络可在线获得。

  1. 相关工作

二维人体姿态估计。在MPII人体姿态基准[3]和卷积神经网络(CNN)的出现的推动下,该领域在过去的几年中取得了长足的进步。 Toshev和Szegedy [24]的CNN体​​系结构直接从彩色图像输入中回归二维笛卡尔坐标。 Thompsonet等人的最新作品。 [22]和Weiet等。 [19]转向回归得分图。在我们的部分工作中,我们采用了与Weiet等类似的网络体系结构。 [19] .3D人体姿势估计。我们在这里仅讨论最相关的作品,并参考Sarafianoset等。 [17]了解更多信息。像我们的方法一样,许多作品使用两部分流水线[23、7、6、21、5]。他们首先检测2D中的关键点,以利用currentCNN方法的判别力,然后尝试将2D检测集提升到3D空间中。已经提出了不同的解除代表的方法:Chenet等。 [6]使用2D到3D对应关系的数据库部署了给定2D预测的最近邻居匹配。 Tomeet al。 [21]创建了一个基于概率PCA基础的概率3D姿势模型。 Bogoet al。 [5]优化了统计体形状模型的3D关节位置和2D预测之间的投影误差。 Pavlakoset al。 [15]提出了一种体积方法,该方法将姿态估计按照粗体到精细的方式按照分数的体素预测进行处理,这可以自然地代表数据,但是计算量大且受GPU内存的限制,无法适合体素网格。最近,有一些方法将深度学习应用于将2D关键点提升到3D姿势以进行人体姿势估计[26,11,16]。此外,Mehtaet等。 [10]使用转移学习直接从具有单个网络的图像中推断3D人体姿势。尽管这些工作全都在3D人体姿势估计上,但我们提供了第一个此类3D手势姿势估计工作,由于更强的关节性和自觉性使得该工作变得更加困难-遮挡,以及更少的可用数据。手势估计。Athitsos和Sclaroff [4]提出了一种基于边缘图和倒角匹配的基于单帧的检测方法。随着低成本消费深度相机的问世,研究集中在深度数据的笔势上。 Oikonomidiset al。 [14]提出了一种基于粒子群优化(PSO)的技术。 [18]增加了重新初始化的可能性。创建了一定数量的候选姿态并针对观察到的深度图像进行了评分。汤普森尼等[22]使用了CNN来检测2D中的手部关键点,它以多分辨率图像金字塔为条件。通过解决逆运动学优化问题,可以恢复3D姿态。像Zhouet等人的方法。 [27]或Ober-wegeret等。 [12]训练了一个CNN,它可以根据给定的裁剪深度图直接回归3D坐标。而Ober-wegeret等人。 [12]探索了在压缩bot-tleneck中编码关键点坐标之间的相关性的可能性,Zhouet等。 [27]估计运动链的骨骼之间的角度,而不是笛卡尔坐标。 Ober-wegeret等。 [13]利用了一种CNN,该CNN可以根据给定的姿势估计值合成深度图。这使他们能够通过最小化观察到的深度图像和合成深度图像之间的距离来成功地优化初始姿势估计。尚无任何方法可以解决基于单一彩色图像的3D手姿势估计的问题基础配方。先前的方法有所不同,因为它们依赖于深度数据[22、27、12、13],它们使用显式模型通过与姿势的预定义数据库匹配来推断姿势[4],或者仅基于初始姿势执行跟踪而不是全姿势估计[14,18]。

  1. 手势表示

给定一个彩色图像Iisin;RNtimes;Mtimes;3,显示一个手,我们想推断其3D姿势。 我们通过一组坐标wi =(xi,yi,zi)定义手部姿势,该坐标描述3D空间中J关键点的位置,在本例中为iisin;[1,J],J =21。从单2D推断3D坐标的问题 观察是不适的。 除其他歧义外,还有规模歧义。 因此,我们通过训练网络以估计归一化坐标来推导尺度不变的3D结构

wnormi = 1/s·wi (1)

其中s=||wk ​​1-wk||2是样本相关常数,用于标准化特定键对之间的距离指向单位长度。 我们为食指的第一根骨头选择k =1。此外,我们使用相对3D坐标来学习手势的平移不变表示。 这是通过减去定义的根关键点的位置来实现的。 相对和归一化的3D坐标由

wreli = wnormi-wnormr (2)给出

其中根索引。 在实验中,手掌关键点是最稳定的标志。 因此我们使用r= 0。

  1. 3D手姿势的估计

我们从单个输入图像估计三维归一化坐标。 图2提供了一般方法的概述。在以下各节中,我们提供有关其组成部分的详细信息

    1. 使用HandSegNet进行手分割

为了进行手分割,我们部署了基于Weiet等人的检测器并由其初始化的网络体系结构。 [19]。 他们提出了2D人检测的问题,即估计人中心位置的得分图。 最可能的位置用作固定大小作物的中心。 由于手的大小在整个图像中发生了巨大变化,并且在很大程度上取决于清晰度,因此,我们宁愿将手的位置定位作为分割问题。 OurHandSegNet是Weiet等人的网络的较小版本。 [19]在我们的手部姿势数据集上进行了训练。 补充材料中提供了有关网络体系结构及其培训过程的详细信息。 HandSegNet提供的手罩使我们可以裁剪并归一化输入的大小,从而简化了PoseNet的学习任务。

    1. 使用PoseNet的关键点得分图

我们将2D关键点的本地化公式表示为2D分数图的估计sc = {c1(u,v),...,cJ(u,v)}。 我们训练一个网络来预测Jscore映射ciisin;RNtimes;M,其中每个映射都包含有关某个关键点出现在空间位置的可能性的信息。该网络使用类似于Weiet等人的Pose Network的编码器-解码器架构。 [19]。 给定编码器产生的图像特征表示,可以预测初始得分图,并在解析度中对其进行逐步完善。 我们使用Weiet等人的权重进行了初始化。 [19]在适用的情况下,对网络进行了重新培训以进行手关键点检测。 补充资料中提供了有关网络架构的完整概述。

    1. 姿势优先网络的3D手势

姿势优先网络学习预测潜在的不完整或嘈杂的分数mapsc(u,v)相对的,标准化的3D坐标。 为此,它必须学习各种可能的手部发音及其先验概率。 根据得分图,它会在给出2D证据的情况下输出最可能的3D配置。我们不建议训练网络以预测绝对3D坐标,而是建议训练网络以预测规范框架内的坐标,并另外估计 转换为规范框架。 如第6.2节中的实验所示,显式地执行与手的全局方向不变的表示形式对于学习先验是有好处的。在6.2节的实验中我们给出了。鉴于相对规范化的坐标,我们建议使用规范框架wc,该规范框架与下面的wrelin有关 方式:以两步法计算中间表示wc * = R(wrel)·wrel(3),其中R(wrel)isin;R3times;3是3D旋转矩阵。 首先,寻找绕x和z轴的旋转Rxz,以使某个关键点wc *与规范框架的y轴对齐:Rxz·wc * a =lambda;·(0,1,0)gt;lambda;ge;0 。(4)然后,计算绕y轴的旋转Ry,以使Ry·Rxz·wc * o =(eta;,zeta;,0)(5),对于指定的关键点索引,eta;ge;0。 典范帧与原始帧之间的总变换由R(wrel)= Ry·Rxz给出。(6)为了适当处理左右手之间的对称性,我们沿z轴翻转右手,从而得到 侧面不可知表示wci = {(xc * i,yc * i,zc * i)gt;如果是左手(xc * i,yc * i,-zc * i)gt;如果是右手(7) 在此规范框架定义的基础上,我们训练我们的网络来估计规范框架内的3D坐标,以分别估计旋转矩阵R(wrel),然后使用带有三个参数的轴角符号进行参数化。 估计变换Ris相当于预测给定样本相对于规范框架的视点。 因此,我们将问题称为视点估计。姿势先验的网络体系结构具有两个并行处理流; 参见图3。这些流使用补充中给出的几乎相同的体系结构。它们首先以具有ReLU非线性的一系列6个卷积处理Jscore映射的堆栈。 图像显示左手还是右手的信息与特征表示连接在一起,并由两个完全连接的层进行进一步处理。 流以具有线性激活的完全连接层结束,这产生了对viewerRand典型坐标wc的估计。 两种估计的组合导致对wrel的估计。

    1. 网络培训

为了训练HandSegNet,我们对PoseNet应用标准的softmax交叉熵损失和L2损失。 ThePosePrior网络使用两个损失项。 首先,基于网络预测wcpred和地面实况wcgt,规范坐标Lc =∥∥wcgt-wcpred∥∥22(8)的平方L2损失。 其次,对canoni-cal变换矩阵施加平方的L2损失:Lr =” Rpred-Rgt” 22。(9)总损失函数为Lcand Lr的未加权和。我们将Tensorflow [2]与Adam解算器[9]一起使用。 ] 为了训练。 有关学习程序的详细信息,请参见补充材料。

  1. 手势估计数据集
    1. 可用数据集

有两个可用的数据集适用于我们的问题,因为它们提供了RGB图像和3D姿态注释。所谓的“手部姿势跟踪基准” [25]为18000个立体声对提供21个关键点的2D和3D注释,分辨率为640times; 480。 数据集显示在6个不同背景之前以及在变化的光照条件下一个人的左手。 我们将数据集分为一个评估集3000个图像(S值)和一个训练集15000个图像(S值)。Dexter[20]是一个提供3129个图像的数据集,显示了两个操作员在受限室内设置中使用长方体执行不同类型的操作。 该数据集提供了彩色图像,深度图以及指尖和长方体角的注释。 彩色图像的空间分辨率为640times;320。 由于手注释不完整,我们仅将此数据集用于调查网络的跨数据集概括。 我们将此测试集称为Dexter。我们将两个数据集下采样到320times;240的分辨率,以与我们渲染的数据集兼容。 当我们报告图像域中的像素精度时,我们将结果转换回原始分辨率的坐标。Tompsonet等人的“纽约大学手姿态数据集”。 [22]通常用于根据深度图像进行手势估计,但不适用于基于颜色的方法,因为仅提供了配准的彩色图像。 在补充资料中,我们显示了更多证据证明为何无法将此数据集用于我们的任务。

    1. 渲染的手姿势数据集

由于变化有限,可用样本数量以及部分不完整的注释,上述数据集不足以训练深度网络。因此,我们用新的训练数据集对它们进行补充。为了避免已知的标注人员在三维数据中标注性能差的问题,我们使用了可免费获得的3D人

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239782],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。