学习时空特征的人类行为识别深度神经网络外文翻译资料-外文翻译网

英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

学习时空特征的人类行为识别

深度神经网络

摘要：人类行为识别是机器人系统的基本挑战之一。在本文中，我们提出了一种基于深度神经网络的轻量级动作识别架构，仅使用RGB数据。所提出的体系结构由卷积神经网络（CNN），长期短期记忆（LSTM）单元和时间方面的关注模型组成。首先，CNN用于提取空间特征，以区分具有局部和语义特征的背景对象。其次，对不同CNN层（汇聚层和全连通层）的空间特征图进行两种LSTM网络提取时间运动特征。然后，在LSTM之后设计一个时间方面的关注模型，以了解哪些帧更重要。最后，设计联合优化模块来探索两种LSTM特征之间的内在联系。实验结果证明了该方法的有效性。

关键词：人工智能，人体动作识别，注意模型，深度神经网络，机器人系统

介绍

人类行为识别是机器人系统中的一项重要任务，特别是智能服务。例如，在智能家庭或智能工厂中，机器人系统可以基于对动作的识别来协助人类或与人类合作[1]。结合网络物理系统，动作识别可以用于其他应用，如医疗保健[2]。它也可以应用于使用云计算技术的社交活动分析[3] - [5]。然而，在现实世界中存在背景杂波和遮挡的情况下，人的动作识别还远未达到实际应用[6] - [8]，特别是在复杂的动态系统中。对于视频动作识别，以前的方法总是采用与图像识别相似的方法。但与静止图像不同的是，人类行为由不同目标对象的不断运动组成，不同对象在不同场景中有不同的外观。因此，探索动作识别的不同时空特征是不可或缺的。为了提取时空特征，已经提出了三维定向梯度直方图（HOG3D）[9]和光流直方图（HOF）[10]。这些特征将被进一步编码或汇集到一个分层结构中，并输入到支持向量机（SVM）分类器中。充分利用运动信息，一个通过计算视频帧的光流，提出了基于密集轨的方法[11]。运动边界直方图（MBH）方法通过分别提取光流的水平和垂直分量上的梯度特征来获得良好的性能[12]。

近年来，由于自动学习大数据集特征的能力，深度神经网络（DNNs）在物体检测，识别和图像分类等许多领域都取得了很大的成就[13] - [16]。图像的空间特征可以通过卷积神经网络（CNN）中的卷积层提取，该卷积神经网络包含方位敏感滤波器[17]。通过在时间维度上扩展网络的连通性，CNN也被用于学习大规模视频分类的时空特征[18]。作为一种典型的递归神经网络（RNN）体系结构，长时间短记忆（LSTM）具有随时间保存序列信息并捕获长期依赖性的能力[19]，因此它可以提取时间特征。 LSTM已经应用于许多顺序建模任务，如机器翻译，语音识别和视觉描述[20]。借助于关注模型，LSTM在机器翻译[21]和图像标题[22]中取得了令人鼓舞的表现。LSTM具有对视频进行预测任务的潜在能力，然而，它不考虑空间相关性。在一些参考文献中，原始的LSTM被称为完全连接的LSTM（FC-LSTM）。Shi等人[23]将FC-LSTM扩展到卷积LSTM（ConvLSTM）以提取同一LSTM单元中的空间和时间信息。一起建模空间和时间特征将有助于准确识别。

根据人类视觉识别机制，使用CNN检测一个对象的外观并且使用LSTM检测运动是自然的方式。因此，在本文中，我们提出了一种新的轻量级体系结构，用于仅基于DNN的视频中仅采用RGB数据的动作识别。光流不被使用，因为它的计算对于实时应用来说太复杂了。所提出的体系结构由CNN，LSTM，注意模型和联合优化组成。首先，分别提取由卷积层和全连通层产生的两种CNN特征，即空间特征和语义特征。相应地，对于时间特征提取，在CNN的卷积层和全连接层之后分别建立两种LSTM，分别命名为ConvLSTM和FC-LSTM。为LSTM设计了两种不同的关注模型，以提供洞察神经网络正在寻找的位置，找到视频的重要部分，避免背景噪声的影响，并有利于识别。每个LSTM产生一个矢量来表示视频的时间特征。这两个特征之间存在着内在联系，因此我们设计了一个联合优化模块（JOM）来探索它们。

这项工作的主要贡献可以概括如下。（1）提出了一种特征提取器，它由两种不同层次的CNN后面的两种LSTM组成，以提取时域中的空间和语义特征。（2）在LSTM之后，我们设计了一个时间上的注意模型来学习动作的时间焦点。（3）我们设计了一个联合优化模块来训练网络更加健壮。

相关作品

在视频中存在许多用于动作识别的作品，例如使用手工特征（Harris3D，HOG3D，HOF等）在检测到的局部兴趣点周围生成时空描述符，然后使用SVM进行分类的方法。由于所提出的方法基于深度神经网络（DNN），因此在本节中，我们将仅仅基于DNN而不是基于手工工艺的方法来回顾相关的作品。

框架上的三维卷积网络

3D卷积网络[24]，[25]已用于视频帧以学习隐式运动特征。这些帧来自短视频剪辑，其时间是几秒钟。剪辑上的预测结果在视频级别取平均值。网络的性能比单帧基线稍好[25]，这表明运动特征还没有被充分学习。

美国有线电视新闻网在框架和光学流程

人类视觉皮层中有两条路径，分别是腹部和背部流，它们分别执行物体和动作识别。根据这种机制，提出了一个双流深度卷积网络（ConvNet）用于动作识别[26]，该网络结合了空间和时间网络。空间ConvNet适用于单帧，而时空ConvNet适用于多帧光流。已经提出了不同的空间和时间卷积网络的融合方法[27]以利用空间-时间信息。但是最多只有10个连续帧被用作一个推理组。因此，只有全部视频信息的一小部分被利用。这会影响识别的准确性。

CNN/RNN ON FRAMES

文献[28]提出了CNN和RNN的深度融合框架，并且评估了四种融合模型来识别人类行为。在第一个模型中，VGG-16网络的最后一个卷积层与LSTM相连，之后是一个soft-max层。在第二个模型中，全连接层输出被馈送到LSTM，然后是软 - 最大层。在第三个模型中，前两个模型中的LSTM输出合并并通过soft-max层。在第四种模型中，卷积层和全连接层的输出被送入序列到序列的LSTM，然后结果被馈入到序列到一个LSTM中。实验表明，第四种模型具有较高的识别能力。

CNN / RNN帧和光流

要获得准确的视频分类或动作识别，了解视频时间演变的全局描述非常重要。时间特征池和LSTM存在[29]中利用更多的帧（高达120）来获取全局信息。通过在视频帧的最后一个卷积层上工作，特征池模型为视频级预测生成矢量。在两个框架和光流中采用LSTM可获得良好的性能。

图1 所提方法的流程图

视频的注意模型

根据对视觉认知的研究，人们总是依次关注场景的不同部分来提取相关信息，而不是同时在整个场景中提取相关信息。因此，采用注意机制有助于提高相关学习任务的绩效。

复发性软注意力模型已被开发用于行为识别[30]。LSTM用于预测下一时间点的位置和类别标签的概率。然后，软注意机制对不同地区的特征切片进行期望，以计算下一个时间步的输入期望值。但由于所有功能都需要执行动态池化，因此该方法在计算上花费很大。

在[31]中已经提出了一种层次关注网络，用于视频中的动作识别，其中包含静态空间信息，短期运动信息和长期视频时间结构。首先，使用两流ConvNets分别从帧图像和相应的光流图像提取外观和运动特征。其次，使用具有两层的分层LSTM来对视频时间结构进行建模。然后，通过使用外观和运动特征来计算注意力权重。

建议的方法

在本节中，我们将详细介绍所提出的方法。

这项工作的目的是提出一种基于DNN的视频动作识别方法，只需使用RGB数据。其主要思想是利用CNN提取每帧的空间特征，利用两种具有注意模型的LSTM探索视频帧间的时间特征，并利用联合优化层融合两种输出时间特征进一步提取关系。根据视频标签，整个网络都经过了行动识别培训。

在CNN网络中，卷积层和完全连接层的输出结果是不同的。卷积层输出空间信息，而完全连接层输出语义信息。这两种信息对于物体识别都很重要 - 空间信息（形状，轮廓等）和语义信息（位置不变性，旋转不变性等）。因此，它们都被使用，并且视频帧上的这两种输出结果被用不同的LSTM进行处理以进行时间特征提取。在所提出的方法中，卷积LSTM（Conv-LSTM）和全连接LSTM（FC-LSTM）分别对CNN的卷积层和全连接层进行输出。注意模型与人的视觉机制有关，因为人类总是专注于移动物体而不是整个图像或静态背景。注意模型增加了可解释性的维度，有助于减少背景的影响，因此对识别有利。

该方法的框架如图1所示。有四个主要组件-CNN提供空间特征，Conv-LSTM提供时间关注，FC-LSTM提供时间关注，联合优化模块。

CNN空间特征提取

在CNN中采用残差学习结构进行空间特征提取[32]。这个网络结构中的各层被制定为参考其输入来学习残差函数，如图2所示。网络参数是通过对ImageNet数据集进行训练而得到的。

图2 残差映射结构

为了获得空间特征，将每个视频帧馈送到CNN中，并且在合并层和FC层之后将产生两个特征图。具体而言，对于t^th帧，最后一个池化层输出特征映射以及全连接层输出,和的尺寸分别为Ktimes;Ktimes;C和D，其中Ktimes;K是特征向量的形状，C和D是滤波器型号。在每个时间间隔中，我们可以提取维数为Ktimes;Ktimes;C和D的两个特征向量。因此，对于时间长度为T的视频，特征映射可以以矩阵的形式呈现如下：

完全连接的LSTM（FC-LSTM）具有时间上的注意力

我们设计了LSTM，以时间方式关注视频中的时间特征。LSTM是一种循环神经网络，它可以随时间保存序列信息并捕获长期依赖关系。LSTM的一个优点是渐进式，渐进式在经过时间反向传播训练后不会消失。

图3 LSTM单元

在图3中描绘了一个单位的LSTM。x^(t)，c^(t)，h^(t)和y^(t)分别代表输入向量，单元状态，隐藏状态和输出在t^th状态。输出y^(t)取决于隐藏状态h^(t)，而h^(t)不仅取决于单元状态c^(t)，还取决于其以前的状态。单元状态c^(t)受输入和存储器信息的影响。i^(t)，g^(t)，f^(t)和o^(t)分别代表输入门，输入调制门，忘记门和输出门的输入和存储信息。

LSTM的实施如下：

其中h^(tminus;1)是前一个隐藏状态。w_x和w_h分别是输入向量和隐藏状态的权重。 b_i，b_f，b_o和b_g代表偏差项。sigma;（·）表示一个sigmoid函数，并表示Hadamard产品。细胞状态和输出逐步计算以捕获长期相关性。

图4 展开的LSTM及其关注模型

在LSTM之后，设计一个时间关注模型来决定视频中哪些帧对于动作识别是重要的。注意模型用于学习信息帧的表示以产生特征向量，其计算如下。

首先，LSTM o^(t)的输出门完全通过连接层和tanh激活函数以产生中间结果u^(t)，其计算如下，

其中W_u和b_u是完全连接层中的参数，分别代表重量和偏差。其次，我们预测在L帧上的SoftMax产生归一化重要性权重alpha;^(t)。焦点softmax定义如下，

其中代表映射到焦点softmax的t^th元素的权重，L表示帧数。alpha;^(t)是相应帧在该网络中被认为是重要的概率，它告诉网络哪些时间步骤需要关注。

第三，通过对所有时间步长的特征向量进行期望，特征向量s被计算为在时间步长t的LSTM输出特征的期望值。它的计算如下，

图4显示了展开的LSTM和关注模型。与以前关注模型不同，主要关注每个框架中的区域，我们的注意模型是在LSTM之后建立的，以找出哪个框架是重要的。使用反向传播对关注模型进行训练，以在整个视频序列中产生动态的关注权重。

C. 带有时间注意的卷积LSTM

空间信息不是由FC-LSTM

全文共15799字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[14541]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

学习时空特征的人类行为识别深度神经网络外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章