视频中无监督学习的对象结构和动态外文翻译资料

 2022-08-06 10:38:46

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


视频中无监督学习的对象结构和动态

Matthias Mindererlowast;

Chen Sun Ruben Villegas Forrester Cole

Kevin Murphy Honglak Lee

Google Research

{mjlm, chensun, rubville, fcole, kpmurphy, honglak}@google.com

摘要

在没有监督的情况下从视频中提取和预测对象结构和动态是机器学习中的一个主要挑战。为了解决这一问题,我们采用了一种基于关键点的图像表示方法,并学习了关键点的随机动力学模型。未来的帧是由关键点和参考帧重建的。通过对关键点坐标空间的动力学建模,实现了稳定的学习,避免了像素空间的误差叠加。我们的方法改进了非结构化表示,无论是像素级的视频预测和下游的任务需要对象级的运动动力学的理解。我们在不同的数据集上评估我们的模型:一个多代理的运动数据集,Human3.6M数据集,以及基于DeepMind控制套件的连续控制任务的数据集。在一系列与运动相关的任务中,如对象跟踪、动作识别和奖励预测,空间结构的表现优于非结构的表现。

1引言

视频提供了丰富的视觉信息来了解世界的动态。然而,从视频中提取有用的表示(例如,检测和跟踪对象)仍然具有挑战性,通常需要昂贵的人工注释。在这项工作中,我们侧重于视频对象结构和动态的无监督学习。无监督视频理解的一种方法是学习预测未来的帧数[17、16、9、15、24、30、8、3、14]。基于这些工作,我们发现了两个主要的挑战:首先,很难做出像素级的预测,因为视频中的运动对于超过一秒的视界来说是高度随机的。由于语义上无关紧要的偏差会导致像素空间中出现较大的误差,因此通常很难根据像素损失来区分好的预测和坏的预测。其次,即使实现了良好的像素级预测,这也很少是期望的最终任务。经过像素级重建训练的模型表示不能保证对后续任务有用,如跟踪、运动预测和控制。在这里,我们通过使用对象结构的显式的、可解释的基于关键点的表示作为模型的核心来解决这两个挑战。关键点是动态对象的自然表示,通常用于面部和姿态跟踪。然而,训练关键点探测器通常需要监督。我们直接从视频中学习基于关键点的表示,不需要任何像素数据之外的监督,分为两个步骤:首先将单个帧编码为关键点,然后对这些关键点的动态进行建模。因此,虽然只训练了模型的像素重建损失,但动力学模型的表示是空间结构化的。我们发现,在执行动作识别和奖励预测等任务时,增强空间结构可以显著提高视频预测的质量和性能。

第33届神经信息处理系统会议(NeurIPS 2019),温哥华,加拿大

通过将像素生成与动态预测解耦,我们避免了像素空间中的复合误差,因为我们从不限制预测的像素。该方法已被证明是有益的监督视频预测[25]。此外,在关键点坐标空间中建立动力学模型可以使我们有效地对预测进行采样和评估。坐标空间中的错误比像素空间中的错误更有意义,因为关键点之间的距离比像素空间距离更接近于语义上的相关差异。我们利用这一点,在训练期间使用一个最佳的多样本目标[4]来实现既高度多样化又高质量的随机预测,从而超过缺乏空间结构的模型的预测。最后,因为我们预先将空间结构构建到模型中,所以它的内部表示形式会偏向于包含对下游应用程序有用的对象级信息。这种偏差导致更好的结果,如任务的轨迹预测,行动识别和奖励预测。我们的贡献有:(1)提出了一种新的无监督视频预测体系结构和优化技术,该结构具有结构化的内部表示;(2)在像素级视频预测方面,一个模型要优于最近的工作[8,28]和我们的非结构化基线;(3)在需要对象级理解的下游任务上,改进性能和非结构化模型。

2相关工作

关键点的非监督学习

之前的工作探索了通过应用一个自编码体系结构来寻找图像中的关键点,该体系结构将关键点坐标作为一个代表性的瓶颈[12,33]。瓶颈迫使图像被编码在少量的点上。我们在这些方法的基础上扩展到视频设置。

随机序列的预测

成功的视频预测需要建模的不确定性。我们采用VRNN[6]架构,在标准的RNN架构中加入潜在的随机变量,对可能的未来进行抽样。最近,人们探索了更复杂的随机关键点预测方法[31,21],但我们发现基本的VRNN体系结构足以满足我们的应用。

无人监督的视频预测

大量的研究探索了仅仅使用像素重建损失来预测视频帧的方法[18、20、17、9、24、7]。与我们的工作最相似的方法是,根据先前的时间步长随机采样产生的潜在样本进行确定性图像生成[8,3,14]。我们的方法用一组结构化的关键点代替了非结构化的图像表示,与SVG[8]相比,提高了视频预测和下游任务的性能(第5节)。

EPV A[28]在高级特征空间中预测动态,并对预测的特征应用对抗性损失。我们与EPV A进行了比较,在没有对抗训练的情况下得到了改善,但对抗训练与我们的方法是一致的,是一个很有前途的方向。

用空间结构表示的视频预测

与我们的方法一样,最近的一些方法也探索了用于视频预测的显式、空间结构表示。Xu等人提出通过观察物体在视频中的运动来发现物体的部分和结构。Vid2Vid[27]提出了一种视频到视频的转换网络,包括分割掩码、边缘掩码和人体姿态。该方法还可以通过先预测结构表示来预测未来的几帧。Villegas等人提出训练一个人体姿态预测器,然后使用预测的姿态生成未来的人体运动帧。在[26]中,提出了一种利用随机网络对未来人体姿态进行预测并生成未来帧的方法。最近的视频生成方法已经将空间结构表征用于人之间的视频运动传递[1,5]。相比之下,我们的模型能够在没有监督的情况下找到空间结构的表现,同时使用视频帧作为唯一的学习信号。

3建筑式样

我们的模型由两部分组成:将每一帧编码为低维的、基于关键点的表示形式的关键点检测器,以及预测关键点空间中的动态的动态模型(图1)

图1:我们模型的架构。V变量为黑色,函数为蓝色,损耗为红色。为了清晰起见,省略了一些箭头,详见公式1至4。

3.1无监督关键点检测

关键点检测架构的灵感来自于[12],我们将其应用于视频设置。让“v1: Tisin;RH Wtimes;times;Cbe的视频序列长度T .我们的目标是学习关键点检测器ϕdet (vt) = xtthat捕捉物体的空间结构在每一帧的一组要点xt。

探测器ϕdetis卷积神经网络产生K特征图谱,为每个关键点之一。通过计算地形图的空间期望,将每个地形图归一化并压缩为一个(x, y)坐标。热图的数量K是一个超参数,表示建模数据所需的最大期望关键点数量。

对于图像重建,我们学习一个发电机ϕrecthat重建帧vtfrom其关键点表示。生成器还接收序列的第一帧v1to捕捉静态的场景:vt =ϕrec (v1, xt)。在一起,关键点检测器ϕdetand生成器ϕrec autoencoder架构形式表征瓶颈,迫使每一帧的结构编码在关键点表示[12]。

生成器也是一个卷积神经网络。为了向网络提供关键点,每个点都被转换成一个热图,热图的关键点位置有一个高斯形状的斑点。K个热图与来自第一帧v1的特征图连接在一起。我们还将第一帧v1的关键点热图连接到后续帧vt的解码器输入,以帮助解码器“绘制”第一帧中被遮挡的背景区域。得到的张量构成了发生器的输入。我们将从序列的第一帧开始的跳跃连接添加到生成器输出中,这样生成器的实际任务就是预测vt - v1。

我们使用的平均强度micro;kof探测器返回的每一个关键点特征映射的continuousvalued指标建模对象的存在。当转换回关键点的热图,每个地图是由相应的micro;k缩放。该模型可以使用micro;kto编码单个对象的存在与否一帧一帧的基础上。

3.2随机动力学模型

为了模拟视频中的动态,我们使用了一个变分递归神经网络(VRNN)[6]。动力学模型的核心是一个潜在的信念z /关键点位置x。在VRNN架构中,之前的信念是条件在所有先前的步伐通过htminus;1 RNN的隐藏状态,因此代表了一个预测目前的关键点位置之前观察图片:

p(zt|xlt;t,zlt;t) = ϕprior(htminus;1) (1)

我们获得后验信念结合前面的隐藏状态和无监督关键点坐标xt =ϕdet (vt)在当前帧中发现:

q(zt|xle;t,zlt;t) = ϕenc(htminus;1,xt) (2)

预测是由解码的信念:

p(xt|zle;t,xlt;t) = ϕdec(zt,htminus;1) (3)

最后,及时更新RNN向前传递信息:

ht= ϕRNN(xt,zt,htminus;1) (4)

注意,为了计算后验(Eq. 2),我们从关键点检测器得到xt,但是对于Eq. 4中的递推,我们通过解码潜在信念得到xt。因此,我们可以通过对先前信念的解码来预测未来,而不需要观察图像。由于该模型既有确定性路径,也有随时间变化的随机路径,因此预测可以考虑长期依赖关系和未来的不确定性[10,6]。

4训练

4.1关键点检测器

关键点检测器是训练用一个简单的L2图像重建损失Limage = P t | | vminus;circ;v | 2 | 2, v是真,circ;v是重建图像。动力学模型的误差不会反向传播到关键点检测器中。

理想情况下,表示应该使用尽可能少的关键点来编码每个对象。为了鼓励这种吝啬,我们在关键点探测器上增加了两个额外的损失:

暂时的分离损失:运动高度相关的图像特征很可能属于同一对象,理想情况下应该由单个关键点共同表示。因此,我们增加了一个分离损失,鼓励关键点轨迹及时去相关。损失惩罚在高斯半径sigma;sep轨迹之间的“重叠”:

其中dkk0 = 1 T P T ||(xt,kminus;hxki)minus;(xt,k0minus;hxk0i)||2 2是关键点k和k0轨迹之间的距离,从每条轨迹中减去时间平均值hxi后计算得到。||·| b| 2 2表示平方的欧几里德范数。关键点稀疏的损失:出于类似的原因,我们添加一个L1点球Lsparse = P k |micro;k |关键点的尺度micro;鼓励要点稀疏活跃。在第5.3节中,我们展示了Lsepand Lsparsecontribute到稳定的关键点检测。

4.2动力学模型

标准VRNN[6]是训练编码检测要点通过最大化的证据下界(ELBO),由重建亏损和KL术语之间的高斯之前Nprior t = N (zt型|ϕprior (htminus;1))和后验分布Nenc t = N (zt型|ϕenc (htminus;1, xt)):

KL项使潜表示正则化。在VRNN结构中,它还负责训练RNN,因为它鼓励先验根据过去的信息预测后验。平衡依赖预测与忠诚的观察,我们添加hyperparameterbeta;(参见[2])。我们发现它有必要调整beta;为每个数据集之间达到平衡重建质量低(beta;)和预测的多样性。

KL项只训练单步预测的动力学模型,因为该模型在每一步[10]之后接收到观测结果。为了鼓励对长期依赖关系的学习,我们为未来的多个时间步添加了一个没有KL项的纯重构损失:

我们发现这对于维护一个关键点结构的表示是必要的。如果基于动力学模型的误差对图像模型进行训练,则图像模型可能采用未完全训练的动力学模型的结构不良代码,而不是采用关键点结构代码的动力学模型。

图2:实验中使用的主要数据集。第一行:地面真相图像。第二行:解码坐标(黑点;circ;xtin图1)和过去的轨迹(灰色行)。第三行:重建图像。绿色边框表示观察帧,红色边框表示预测帧。

估计式6和7中logp(xt|zle;t,xle;t)的标准方法是对单个zt采样。为了进一步鼓励多样化的预测,我们在训练中每一步都使用大量[4]样本中的最佳样本:

其中,zi,tsim;Nenc t表示观察到的步骤,而zi,tsim;Nprior t表示预测到的步骤。通过给模型几次机会来做出好的预测,鼓励它覆盖一系列可能的数据模式,而不仅仅是最可能的。在每个时间步上采样和评估几个预测在像素空间中是很昂贵的。然而,由于我们学习了低维关键点空间的动态,我们可以评估采样预测而不重建像素。由于关键点的结构,样本与观测关键点的L2距离对样本质量有重要意义。这对于非结构化的潜在表示是没有保证的。如第5节所示,众多目标中的最佳目标对我们的模型的性能至关重要。

整个模型的综合损失为:

在lambda;sep和lambda;sparseare关键点的尺度参数分离和稀疏的损失。有关实现细节,请参见第S1节,其中包括超参数和调优范围的列表(表S1)。

5结果

我们首先展示了我们的模型的结构化表示提高了两个视频数据集的预测质量,然后展示了对于需要对象级信息的下游任务,它比非结构化表示更有用。

5.1结构化表示改进了视频预测

我们评估了两个视频数据集的帧预测(图2

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[254759],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。