学习从图片中提取动作检测信息外文翻译资料

 2022-08-05 10:15:01

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


学习从图片中提取动作检测信息

Hyunjun Eun 1,4 * Jinyoung Moon2 Jongyoul Park2 Chanho Jung3 Changick Kim

摘要

线上动作检测旨在从网络视频中识别即时的动作。为了完成这个任务,之前的方法通过循环网络流量来对现在暂时的动作帧流建模。但是,这些方法忽视了一个事实,一个输入的图片序列不仅包括我们想要的动作,还包括图片背景以及其它不相关的动作。针对线上动作检测,在这个论文中,我们使用一个新的循环单元来显式的从其它相关的信息中解析出相关动作的信息。我们的单元被命名为“信息提取单元”(IDU)。它会根据输入的相关性来决定是否需要从中提取信息。这让我们使用 IDU 的循环网络能学习一个更好识别当前动作的信息解析方法。在对两个数据集进行测试后(TVSeries 和 THUMOS-14),这个方法比 state-of-the-art方法更优。不仅如此,我们通过全面的剥离性研究展示了我们循环单元的效率。

图 1: GRU [4] 与我们使用的 IDU 的对比。我们的 IDU 对比 GRU 来说拓展了两个新的组件。一个利用了当前信息的机制(蓝线)和一个前期嵌入模块(红虚线)。首先,重置并更新在我们 IDU 中的模块,IDU 中包含了当前的信息(比如 )。这使得它能考虑过去的信息(比如 和 )使否与现在正在发生的动作比如 有关。其次,前期嵌入模块的引入是考虑到了两个信息间的高级特性的联系。

  1. 简介

即时动作检测 [3,20,31,34,35] 已经在离线环境中进行了广泛的研究,这允许在完全的对一个未修剪的视频进行观察后能作出识别的判断。这被称为线下动作检测。相对的,线上动作检测旨在从一个视频流中识别正在进行中的动作。这个功能对许多现实世界中的应用有帮助(比如无人驾驶 [18],机器协助 [19] 以及监控系统 [16, 25)。当前的方法 [7, 32] 主要使用带有循环单元的循环神经网络(RNNs)(比如长短期记忆(LSTM)[14] 以及门循环单元(GRU)[4])来给当前动作的即时流进行建模,最后进行线上动作检测。它们引入了额外的模块来学习这些区分性表示。但是,这些方法忽视了给定的输入视频不仅包含待研究的动作,也包含了无关的动作以及背景这个事实。具体来说,这个循环单元没有对持续集成的这些视频输入做相关性判断。因此,被学习的表示区分度不明显。注意,在这个任务中,忽视掉这个视频流特性会上问题变得更加棘手 [8]。

在这个论文中,我们调查了如何使 RNNs 学习显式区分当前检测的动作的相关信息和不相关信息的问题。在最后,我们用了一个新的循环单元,这个单元扩展了 GRU [4]。它用了一个使用当前信息的机制以及一个早期嵌入模块(见图 1)。我们将我们的循环单元命名信息区分单元(IDU)。具体来说,我们的 IDU 对过去的信息( 和 )和现在正发生的动作建立了模型,基于现在每时每刻额外的信息()。我们进一步介绍了早期嵌入模块来更有效的对关系建模。通过采用动作分类和特征距离作为调控者,我们的嵌入模块可以在一个高层面学习现在和过去的用来描述动作信息的特征。通过使用 IDU,我们的信息区分网络(IDN)高效的根据输入信息的相关性来决定是否使用它。这让网络能学习一个当前检测动作中更具区分度的表示。我们使用两个测试数据集进行了额外的的实验。其中,我们的 IDN 在使用 state-of-the-art 方法中取得了 86.1 % mcAP 和 60.3 % mAP 的表现。使用 TVSeries [8] 和 THUMOS-14 [17]数据集。同时这些表现以 2.4 % 和 13.1 % 的表现获得远超 TRN 的成绩。使用同样的数据。

我们的成果总结如下:

  • 与以前的方法不同,我们调查循环单位如何能明确区分相关来自无关信息的信息,用于在线交动作检测。
  • 我们介绍了一个新的循环单位,IDU,与一个让在每一个时间步骤内使用当前信息的一种机制和早期嵌入模块,以有效地建模输入信息与正在进行的行动的相关性。
  • 我们证明显示了,我们的IDN明显优于state-of-the-arts方法,在两个基准数据集上实验获得。
  1. 相关工作

离线动作检测。离线动作检测的目标是为了检测动作实例的开始和结束时间,从被充分观察的长时间未修剪视频中获得。 大多数方法[3,24,35]由两个步骤组成,提案生成和操作分类。 SSN [35]优先评估临时位置的动作评分,以产生临时时间间隔。 然后,对这些间隔进行分类,通过对时间结构和完整性进行建模动作实例。 包括提案生成和分类网络在内的TAL-Net [3]是用于离线动作检测的Faster R-CNN [22]的扩展版本。此方法更改了接收场的对齐方式,接收场的范围以及特征融合以适合动作检测。 还已经研究了使用LSTM的其他方法[6,33]来进行每帧的预测。

早期行动预测。此任务类似于在线动作检测,但着重于从部分观察到的视频中识别动作。 Hoai和la Torre [13]引入了具有扩展结构化SVM [29]的最大余量框架,以容纳顺序数据。 Cai 等 [1]提出将从完整动作中学到的动作知识用于为部分动作建模。

在线动作检测。给定视频流,在线动作检测旨在在每个视频帧到达时立即识别动作,而无需观察未来的视频帧。 Geest等人 [8]引入了一个新的大型数据集TVSeries,用于在线动作检测。 他们还分析并比较了TVSeries数据集上的几种基线方法。 在[9]中,提出了一种具有LSTM的两流反馈网络,以分别执行特征的解释和时间相关性的建模。 Gao,Yang和Nevatia [7]提出了一种带有增强模块的编解码器网络,其奖励功能鼓励网络尽早做出正确的决策。 TRN [32]预测未来信息,并将预测的未来以及过去和当前信息一起用于检测当前的动作。

用于在线动作检测的前述方法[8、7、32]采用RNN来对当前动作序列进行建模。 但是,诸如LSTM [14]和GRU [4]之类的RNN单元在运行时并未明确考虑输入信息是否与正在进行的操作有关。 因此,基于相关信息和不相关信息对当前动作序列进行建模,导致了低区分性表示。

3. 初步:门循环单元

我们首先分析GRU [4],以比较以下差异:介于拟议的IDU和GRU之间。 GRU是其中之一当前单位,比LSTM简单得多。 两个主要GRU的组件是重置和更新门。

重置门rt会基于过去的隐藏状态和一个输入进行如下计算:

(1)

其中和是要训练的参数,而是逻辑S形函数。 然后,重置门确定是否将先前的隐藏状态忽略:

(2)

与类似,更新门也是基于和计算的:

, (3)

其中和是可学习的参数。更新门决定是否用新的状态更新隐藏状态隐藏状态如下:

(4)

其中

(5)

这里和是可训练的正切双曲函数参数。

基于重置和更新门,GRU有效地丢弃和累积信息以学习紧凑的表示形式。 但是,当我们将GRU应用于在线动作检测时,存在一些局限性,如下所示:

首先,包括和在内的过去信息直接影响复位门和更新门的决策。 对于在线动作检测,需要累积的相关信息是与当前动作有关的信息。 因此,替代的基于过去信息和当前动作之间的关系来做出决定是有利的。 为此,我们通过另外获取当前信息(即,)作为输入来重新构造复位门和更新门的计算。

这使重置和更新门能够丢弃不相关的信息并累积有关正在进行的操作的相关信息。 其次,它隐式的认为重置和更新门使用的输入功能代表了有价值的信息。我们使用早期嵌入模块来扩充GRU,该模块具有监督,动作类和特征距离,以便输入特征明确的描述动作。 通过优化目标任务和数据集的功能,我们的早期嵌入模块还使重置和更新门专注于累积相关信息以及循环步骤。

图 1 我们的信息区分单元(IDU)和信息区分网络(IDN)的插图。 (a)我们的IDU用两个新组件扩展了GRU,一个使用当前信息(即)(蓝线)的机制和一个早期嵌入模块(红色框)。第一种方法鼓励重置和更新模块,以对过去信息(即和)与正在进行的操作之间的关系进行建模。第二个功能可以有效地对输入信息的高级功能之间的关系进行建模。 (b)给定一个由顺序块组成的输入流视频,IDN对当前动作序列进行建模,并在K个动作类和背景上输出当前动作的概率分布。

4. 方法

我们在图2中给出了我们的IDU和IDN框架的示意图。我们首先详细描述我们的IDU,然后在IDN上进行在线动作检测的解释。

4.1 信息区分单元

我们的IDU通过两个新组件扩展了GRU,这是一个利用当前信息(即x0)的机制和一个早期嵌入模块。 我们使用早期的嵌入,重置和更新模块来解释IDU,该模块将先前的隐藏状态,每个时间的特征以及当前时间的特征作为输入并输出一个隐藏状态(参见图2(a))。

早期嵌入模块。我们的早期嵌入模块分别处理每个时间xt和当前时间x0的特征,并输出嵌入的特征和,如下所示:

(6)

(7)

其中是权重矩阵,是ReLU [21]激活函数。 请注意,我们为和共享。 为了简单起见,我们省略了一个偏置项。

为了鼓励和表示特定的动作,我们引入了两个监督,动作类和特征距离。 首先,我们处理和以获得在K个动作类和背景上的概率分布和:

(8)

(9)

其中是要学习的共享权重矩阵,而是softmax函数。 我们通过采用多类交叉熵损失来设计分类损失函数:

(10)

其中和是地面真值标签。 其次,我们使用拟议的对比损失[5,10]通过在度量学习中保留嵌入空间上相似数据点之间和相似数据点之间的距离,来学习嵌入表示[28]。 通过将和配对使用,我们将对比损耗设计为:

(11)

其中是欧几里德距离的平方,而m是一个边缘参数。

我们使用Le和Lc训练我们的嵌入模块,该模块为动作提供了更具代表性的功能。 有关训练的更多详细信息将在第4.2节中提供。

重置模块。我们的重置模块采用先前的隐藏状态和嵌入式特征来计算重置门为:

(12)

其中和是需要学习的权重公制位。我们定义和GRU一样作为逻辑样体函数。之后我们得到了新的之前的隐藏状态函数:

(13)

与GRU不同,我们基于和计算复位门。 这使我们的重置门可以根据其与正在进行的操作的相关性来有效地删除或获取过去的信息。

更新模块。我们的更新模块采用嵌入式功能和来计算更新门,如下所示:

(14)

其中Wxt z和Wx0 z是可训练的参数。 然后,隐藏状态ht的计算如下:

(15)

其中

(16)

这里的是一个新的隐藏状态,是切向双曲函数。和之间是可训练的参数。

IDU和GRU的更新模块之间有两个区别。 第一个区别是我们的更新门基于和计算。 这使更新门可以考虑是否与正在进行的操作有关。 其次,我们的更新门使用嵌入式功能,这些功能在特定操作方面更具代表性。

4.2 信息区分网络

在本节中,我们解释了我们称为的循环网络IDN,用于在线动作检测(请参见图2.(b))。

问题设置。 为了制定在线动作检测问题,我们采用与以前的方法相同的设置[7,32]。 给定一个流视频,包括当前和过去的T个块作为输入,我们的IDN在K个动作类和背景上输出当前动作的概率分布。 在这里,我们将块定义为N个连续帧的集合。表示第n帧。

特征提取器。 我们使用TSN [30]作为特征提取器。 TSN将单个块作为输入,并将外观特征向量以及运动特征向量输出。 我们将和联链接到一个流特征向量。 此处等于。 之后,我们依次将和馈入IDU。

训练。 我们将当前时间的隐藏状态馈送到完全连接的层中,以获取正在进行的操作的最终概率分布,如下所示:

(17)

其中是可训练矩阵,而是softmax函数。

我们通过采用标准的交叉熵损失来定义当前动作的分类损失La函数:

(18)

其中是第t个时间步的地面真相标签。 我们通过设计多任务损失函数L来共同优化La,Le和Lc来训练IDN,如下所示:

(19)

其中是平衡参数。

5. 实验

在本节中,我们在两个基准数据

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[262616],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。