英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
跟随视频中的目光
图1:a)汤姆·汉克斯在看什么?当我们观看一部电影时,弄明白一个角色关注的是什么需要从多个视图进行推理。很多时候,这个角色看到的是某一帧以外的东西,就像上面的图片(a)一样,此外检测出这个角色看到的是什么东西是先前的显著性和目光跟踪模型无法解决的问题。解决这个问题需要分析目光,利用不同视图之间典型的三维关系的语义知识,并识别共同关注的目标对象,就像我们看电影一样做的那样。在这里,我们研究的是视频中的目光跟随问题,其中一个角色所关注的对象可能只出现在一个单独的帧上。给定一段包含角色所在帧(t=0)及其后一段时间的视频(b),我们的系统挑选出可能包含给定角色(c)所关注的对象的一些帧,并生成如(d)所示的输出。这张图展示了我们系统的实际效果。
摘要
跟随视频中人们的目光是用来了解人们及其行为的重要途径。在本文中,我们提出了一种通过预测(在视频中的)人往哪里看来跟随目光的方法,即使对象在不同的帧中,也可以实现。我们收集了一个名叫VideoGaze的新数据集,我们将其用作训练和评估模型的基准。给定一帧中有一个人,我们的模型将估计每个帧中不同位置的注视密度以及该人在该特定帧中注视的概率。我们方法的一个关键方面是一个端到端模型,该模型可以联合估计:显著性,凝视姿势和视图之间的几何关系,而仅以凝视为监督。可视化结果表明,该模型可以学习在系统内部自动解决这些中间任务,而无需其他监督。实验表明,与现有方法相比,我们的方法在跟随视频中的目光上效果更好,从而可以更好地理解视频中的人类活动。
1.引言
你能判断出汤姆·汉克斯(图1(a))在看什么吗?你可能会发现该帧中没有足够的信息来预测他的视线位置。但是,如果我们搜索给定视频中该帧的相邻帧(如图1(b)所示),则可以识别出他正在看那个女人(如图1(d)所示)。在本文中,我们介绍了跟随视频中目光的问题。具体来说,给定一个带有人的视频帧,以及同一视频中的一组相邻帧,我们的目标是确定哪些相邻帧(如果有)包含被注视的对象,以及该对象被注视着的位置。
重要的是,我们观察到此任务需要视频的语义和几何理解。例如,需要语义理解来识别来自同一场景的帧(例如,室内和室外帧不太可能来自同一场景),而几何理解则用来通过头部姿势以及帧与帧之间的几何关系来准确地定位人在关键帧中看的位置。基于这种观察,我们提出了一种新颖的基于卷积神经网络的模型,该模型结合了帧的语义和几何理解,可以跟随视频中个人的目光。尽管封装了问题的结构,但是我们的模型只需要最少的监督管理,就可以对问题给出合理的解释。
为了训练和评估我们的模型,我们收集了一个大规模的数据集用于视频中的目光跟随。我们的数据集包含大约50,000个人的简短视频,并注明了他们在整个视频中的注视位置。我们在数据集上评估了各种基线方法(例显著性,图像中的注视预测等)的性能,结果表明我们的模型优于现有的所有方法。
图2:VideoGaze数据集:我们提出了一个新型的大规模数据集,用于视频中的目光跟随。每个被标记的人的注视点都在五个相邻帧中被标记出来。我们给出了数据集中的一些标记示例。红色表示没有注视对象的帧。绿色表示数据集中的注视标记。
本文主要有三点贡献。首先,我们介绍视频中的目光跟随问题。其次,我们收集了一个大规模的数据集,用于对该任务的训练和评估。第三,我们提出了一种新型的网络架构,该架构利用场景的几何形状来解决此问题。本文的其余部分详细介绍了这些贡献。在第2节中,我们将探讨相关工作。在第3节中,我们描述了我们的数据集VideoGaze。在第4节中,我们将详细描述模型,最后在第5节中,我们将评估模型并给出示例结果。
2.相关工作
我们描述了以下几方面的相关工作:在视频和图像中的目光跟随,通过深度学习进行几何预测和显著性判断。
视频中的目光跟随:在以前的工作中,视频中的目光跟随处理有着严格受限的设置。最值得注意的是[21,20]解决了通过使用人们的头部姿势和帧内位置来检测人们在视频中互相看的问题。尽管我们的模型可以实现此目标,但它适用于多种设置:当它位于图像中其他位置(不仅在人身上)或视频的未来/过去帧时,它可以预测凝视。Mukherjee和Robertson [22]使用RGB-D图像来预测图像和视频中的凝视。他们使用多模式RGB-D数据估计人的头部姿势,最后用第二个系统回归注视位置。尽管他们系统的输出是凝视位置,但是我们的模型不需要多模态数据,并且能够在不同视图中处理凝视位置。关于涉及凝视的图像和视频,人们已经进行了大量的人际互动和社会预测[33,13,4]。其中一些工作集中在以自我为中心的相机数据上,例如[9,8]。此外,[24,30]预测社交显著性,即图像中吸引一群人注意力的区域。最后,[4]估计了人们的3D位置和姿势,用于预测社交互动。尽管他们的目标完全不同,但我们还使用显式3D对场景进行建模,并使用它来预测视线。
图像中的目光跟随:我们的模型是受以前的静态图像注视跟随模型启发的[26]。但是,以前的工作仅着眼于图像中的某个人正在注视同一图像中的另一个对象的情况。在这项工作中,我们消除了此限制,并将注视范围扩展到视频。本文提出的模型用于处理人们正在观看视频中另一帧的情况。此外,与[26]不同,我们使用参数化的几何变换来帮助模型处理世界的基础几何形状。最近我们还进行了将深度学习应用于眼动追踪的工作[16,35],该技术可以预测个人在设备上的注视位置。此外,[32]介绍了一种眼动追踪技术,它可以避免校准过程。最后,我们的工作也与[5]有关,它可以预测图像中的交互对象。
几何学深度学习:神经网络以前曾被用来对几何变换建模[11,12]。我们的工作还与空间变压器网络[14]有关,在该网络中,本地化模块会生成仿射变换的参数,并使用双线性插值对表示进行扭曲。我们的模型生成3D精细变换的参数,但是该变换在分析时不会扭曲地应用,这可能会更稳定。 [28,6]使用2D图像来学习底层3D结构。同样,我们希望我们的模型仅使用2D图像来学习帧合成的3D结构。最后,[10]提供了将几何变换添加到CNN的有效实现。
显著性:尽管与此相关,但注视跟随和自由观看的显著性涉及不同的问题。在注视跟随中,我们预测场景中观察者的注视位置,而在显著性方面,我们预测一个自由观察图像的外部观察者的注视点。一些作者已经使用注视来改善显著性性预测,例如[25]。此外,[2]显示了注视预测如何改善最新的显著性模型。尽管我们的方法并非旨在解决视频显著性问题,但我们认为值得一提的是一些学习视频显著性的工作,例如[18、34、19]。
图3:网络架构:我们的模型包含三个路径。显著性路径(左上方)在目标视图上找到显著斑点。凝视路径(左下方)计算从人脸得到的圆锥形参数。转换路径(右)估计视图之间的几何关系。输出为注视位置密度和包含被注视对象的的概率。
3. VideoGaze数据集
这里我们介绍VideoGaze这个大规模的数据集,其中包含电影角色在电影中注视的位置。VideoGaze包含来自140部电影的166,721个标记。为了建立数据集,我们使用了MovieQA数据集[31]中的视频,我们认为这是具有代表性的电影。数据集的每个样本均由六个帧组成。第一帧包含注视被标记的角色。标记提供了角色的眼睛位置和头部边界框。其他五个帧包含角色当时的注视位置(如果存在于帧中)。图2包含来自数据集的三个样本。在左侧,我们显示包含角色的帧。其他五个帧在右侧显示,带有注视标记(如果有)(绿色)。
为了标记数据集,我们使用了亚马逊的Mechanical Turk(AMT)。我们通过两个单独的步骤为数据集添加了标记。在第一步中,要求工作人员首先定位角色的头部,然后浏览视频以找到角色正在看的物体的位置。出于成本效率的原因,我们限制工作人员仅扫描带有角色的帧周围6秒钟的时间窗口。在先导实验中,我们发现此窗口足够。我们还提供了一些选项,以表明被注视的对象不会出现在剪辑片段中,或者角色的头部在场景中不可见。在第二步中,我们在第一个带标记的帧附近对四个附加帧进行了临时采样,并使用Turkers对注视对象进行标记(如果存在)。通过这两步,我们确保如果被注视的对象出现在视频中,则在我们的VideoGaze中对其进行标记。
我们将数据分为训练集和测试集。我们将20部电影中的所有标记用作测试集,并将其余电影中的标记用作训练集。请注意,我们将训练/测试按源电影而不是按剪辑进行了划分,这可以防止对特定电影的过度拟合。此外,我们对测试集中的每个样本标记了五帧。我们使用这些数据对我们的方法进行了稳健的评估,并计算了人类的表现。最后,对于相同的帧,我们还标记了带有角色的帧和带有被注视对象的帧之间的相似性。在图8中,我们使用相似性标记来评估不同程度的相似性下的性能。
图4:变换和相交:圆锥路径计算圆锥参数v和alpha;,变换路径估计原始视图和目标视图之间的几何关系。是圆锥体原点,用蓝色边界框表示。
4.方法
假设我们有一个视频,视频中有一个人。我们的目标是预测用户正在看的位置,该位置可能在视频的另一帧中。假设是该人所在的初始帧,是仅包含该人头部的图像裁剪,是该人在帧内的眼睛坐标。令x为我们要预测一个人在看的位置(如果有)而使用的一组帧。我们都希望选择一个目标帧,被注视的对象会出现在该目标帧中,然后在中预测该人注视的坐标。
我们首先说明在给定的情况下如何预测。然后,我们讨论如何学习选择。
4.1多帧注视网络
假设已经被给出。我们可以设计一个卷积神经网络来预测空间位置。尽管我们可以简单地连接这些输入并训练网络,但内部表示将难以解释,并且可能需要大量的训练数据才能发现一致的模式。这样做效果很差。相反,我们试图利用场景的几何形状更好地预测人们的视线。
为了跨框架跟随注视,该神经网络必须能够解决三个子问题:(1)估计人的头部姿势,(2)查找人所在的帧与注视位置所在的帧之间的几何关系(3)在该人可能正在注视的目标帧中找到潜在位置(显著点)。我们设计了一个单独的模型,该模型内部解决了这些子问题,即使我们仅使用注视标记来监督网络。
考虑到这种结构,我们设计了一个卷积网络F来预测目标帧的:
其中和是原始问题的分解。和都在中产生一个正矩阵,其中k是空间图的大小,而⊙是逐元素乘积。尽管我们仅监督,但我们的意图是将学会检测显著的对象,而将学会估计人在中可能正在注视的所有位置的标记。我们将基于元素的乘积用作“与运算”,以便网络预测人们视力范围内正在注视的显著物体。
S被参数化为神经网络。G的结构被用来处理场景的几何形状。我们将G表示为人的凝视锥与代表目标帧的平面的交集,该目标帧已转换为与相同的坐标框架:
其中估计初始帧中人凝视锥的参数,估计目标帧的精细变换的参数,而tau;应用于该变换。 tau;被用来在定义的坐标系中计算的坐标。我们在图4中说明了此过程。
4.2转化tau;
我们使用仿射变换将和这两帧进行几何关联。令Z为带有角的正方形内的坐标集。假设图像位于Z中(被调整大小,让它的角处在的范围内)。然后:
仿射变换T用来计算两帧之间的几何关系。为了计算参数T,我们使用了CNN。我们使用T将的坐标转换为定义的坐标系。
在实验中,我们发现以下操作是很有用的:输出一个附加的标量参数并定义。如果找不到转换,则网络可以使用参数gamma;来使。
4.3圆锥平面交点
给定视线方向C的圆锥参数和变换后的帧平面,我们希望找到交点。通过对以下方程求解beta;来获得交点:
其中是定义的坐标系中的坐标,而是用来表示圆锥平面交点的矩阵,如[3]中所示。对所有beta;求解方程式4,我们得到了圆锥平面的交点,但是它不是离散的,不会为机器学习提供梯度。因此,我们使用近似值使交点符合我们的要求:
其中sigma;是sigmoid型激活函数。为了计算交点,我们计算公式5来求得。
4.4选择合适帧
以下是一种预测空间位置的方法,是人们在给定帧中注视的位置。但是,我们应该如何选择目标帧呢?为了解决这个问题,我们可以同时计算画面中包含的人在帧内注视的概率。令表示该概率,其中E为神经网络。
4.5路径
我们使用CNN估计显著图S,圆锥C和变换T的参数。
显著路径:显著路径使用目标帧生成空间图。我们使用6层CNN从输入图像生成空间图。五个初始卷积层遵循[17]引入的AlexNet结构。最后一层使用内核在简单的映射中合并256个通道。
圆锥路径:圆锥路径从头部和眼睛的特写图像生成圆锥参数。我们将圆锥体的原点设置在人的头部,然后让CNN生成圆锥体的方向和它的孔径。图4显示了锥体生成的示意性图例。
转化路径:转化路径有两个阶段。我们定义,它是遵循[17]中定义的结构的5层CNN。分别应用于初始帧和目标帧。我们定义了,它由一个卷积层和三个完全的连接层组
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237567],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。