英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
来自Accelerometer的使用卷积神经网络数据的人类活动识别
Song-Mi Lee Sang Min Yoon Heeryon Cho
Human Computer Interaction Lab
Kookmin University
Seoul, South Korea
{20123401, smyoon, heeryon}@kookmin.ac.kr
摘要 :我们提出了基于神经网络(CNN)的一维(1D)卷积人体识别方法,使用从用户智能手机收集的三轴加速度计数的活动数据。 三个人类活动分别为:走路,跑步,静止,在这些状态下使用智能手机加速计收集数据。 将x,y和z加速度数据转换为a矢量幅度数据并输入至一维卷积学习神经网络。 我们的一维基于神经网络的三元活动识别性能方法显示出92.71%的准确度,优于基线随机森林方法89.10%。
关键词 :人类活动识别; 卷积神经网络; 3D加速度计数; 随机森林
I.介绍
随着便携式和可穿戴智能设备的广泛使用,智能手机和智能手表等设备已启用设备嵌入式传感器来轻松收集人类活动的数据。 在智能化设备普及之前,人类活动识别由将多个传感器连接到用户的身体上进行,这无疑十分麻烦[1]。 但是,随着智能设备逐渐被广泛使用,通过设备嵌入式传感器,用户活动信息的收集变得十分简单。用于检测各种人类活动的智能手机加速计传感器已被提出[2]
识别人类活动的流行方法之一是使用Google Activity Recognition API [3]。谷歌Activity API可以检测用户的活动,例如骑行使用传感器的自行车,跑步,行走,停留等。从用户的智能设备的传感器收集的数据。我们收集了三个活动数据,分别为跑步,走路和静止,并使用Google Activity API的数据比较API对地面真相标签的结果。我们发现了API返回的许多活动数据都被认为是未知或倾斜这可以看出谷歌大部分为低识别性能。这种低性能被认为是由API引起的无法考虑智能的差异设备的位置(例如,用户携带设备)以及用户步态的个人差异和旅行速度,以及无法跟踪变化用户的活动(例如,用户在保持静止后开始行一会儿)。
为了解决原始人类活动的可变性,在人类活动识别数据中,我们得出了更强大的数据:一维(1D)卷积神经网络(CNN)。即为基于矢量幅度加速度计数的方法减少可能存在的旋转干扰的数据。在原始数据中,我们展示了我们方法的有效性。将我们的方法的性能与基线随机性用森林方法进行比较。 为了进行评估实验,我们收集了三种人类活动数据,即步行,跑步和静止,使用智能手机的三轴(3D)加速计传感器进行加速度计数。
本文的其余部分安排如下。在第二节中,我们审查现有的基于CNN的人类活动识别工作。第三节解释了我们基于CNN的一维人类活动的识别方法。 评估实验其结果见第四节,结论在第五节给出。
II. 相关工作
近年来,有几项基于CNN的人类活动已经提出了识别方法。 江和尹提出了一种使用陀螺仪构建新的活动图像的方法深CNN(DCNN),收集总加速度和线性加速度信号[4]。 DCNN建立的活动图像显示识别性能为97.59%,97.83%和99.93%。基准UCI,USC和SHO的数据集分别高于基线,SVM和特征选择方法。 计算成本的话,他们的成本也小于SVM。
Alsheikh等人则使用不同的参数设置[5]测试了活动识别性能深度信念网络(DBNs)。 他们还提出了混合深度学习和隐马尔可夫模型(DL-HMM)方法用于顺序活动识别。 他们不是原始的使用三轴加速度计数据测定加速度数据的频谱图信号深度学习活动识别模型。 他们发现了具有更多层的深层模型优于浅层模型,也优于那些过于完整的表示(即,数量每层的神经元大于输入长度)的魔形。 调整DBN的准确率为98.23%,WISDM,Daphnet和Skoda得出了分别为91.5%和89.38%基准数据集。
Hammerla,Halloran和Plotz探讨了这三种类型用于活动识别的深度学习模型,即Deep前馈网络(DNN),卷积网络(CNN),和三个基准的经常性网络(RNN)数据集,机会,PAMAP2和Daphnet步态数据集[6]。 这些数据集使用可穿戴传感器收集人类活动数据。 他们提出了一种新颖的正规化计数方法。 他们发现DNN经常需要进行重要的参数调整CNN是一种长时间的活动,如步行和跑步比较准确的方法。
Ronao和Cho使用加速度计和陀螺仪三轴传感器得出了6轴,1D卷积数据构建一个深度CNN 网络[7]。 他们的网络达到了94.79%原始传感器数据的活动识别准确率和95.57%附加快速傅里叶变换(FFT)的精度。
Yang,Nguyen,San,Li和Krishnaswamy使用了多个通道时间序列数据,以识别用户的活动和手势[8]。 他们介绍了时间卷积和CNN学习过程中的汇集方法有待改进的地方。 他们的CNN和具有径向基函数核和深信念的SVM机会以及手势数据集上的网络相比,显示出更好的结果。
与现有的采用方法相比,多种不同的传感器数据(加速度计,陀螺仪等)[4,6,7,8],我们的方法仅使用了三轴加速度计数据(x,y和z分量信号)并单个收集加速计传感器。 我们的方法也与[5]其他的不同,计算时要移除的信号的矢量幅度,x,y和z中也可能存在旋转干扰加速度信号。
III. 提出的方法
如图1所示,我们收集了x,y和z加速度信号并将它们转换成矢量幅度数据,使用矢量幅度数据构建1D CNN的三元活动分类。
A.数据预处理
数据收集:指导了五名研究生记录三个活动,即步行,跑步和停留,仍然使用我们研究团队提供的智能手机。即华为公司生产的五款Nexus 6P智能手机,使用加速度计数据收集应用程序用于数据收集。学生们携带智能手机至各种位置(例如,手拿,放在口袋里,在记录活动时携带在袋子/背包等)。加速度计数据通过嵌入智能手机中的加速计传感器数据收集应用程序。从传感器的x,y和z轴产生的数据记录频率为1Hz频率(即每秒一个样本)连同每个给定时间戳的活动标签(学生们手记)。共运行2,377秒,3,588秒步行,和3,934秒的静止时间序列收集活动数据,最多加起来9,899秒的人类活动数据。
数据转换:因为加速计传感器测量x,y和z分量的大小加速度,x,y和z值的变化可以绑定用户携带智能手机时的用户移动。然而,由于三轴加速度数据包括旋转组件,这种旋转组件可能会干扰识别用户的动作的准确度。 为了保持将旋转干扰降到最低,我们改造原始方法,将x,y和z加速度数据转换为矢量幅度数据。该矢量幅度数据可以通过计算得到x,y和z值的欧几里德范数如下:
等式(1)将x,y和z分量值转换为一个代表值,同时可能减少由旋转组件生成的错误。 然后将时间序列数据分成三个活动数据在地面上的真相标签。 对于每个活动数据,分为两个大小特征向量,十和二十秒向量,由使用十和二十秒来切割时间序列数据窗口并反复滑动窗口一秒钟。
图1:基于CNN的1D活动识别的整体流程
B.网络架构
我们的1D CNN的网络架构由一个卷积层,一个最大池层,一个完全连接层,以及一个输出的softmax层组成。图2显示了我们提出的方法的1D CNN架构中三种活动中每种活动的概率。
a. 输入:上面解释的矢量幅度数据是用作输入固定的时间长度加速度计数据的形式。 具体来说,我们构建了两种输入向量,十和二十秒向量。该输入向量v有N维(visin;RN),在我们的实验中N = 10,20。如图1a,输入显示十行给定训练数据大小的第二输入向量。 每行输入表示十秒矢量。
b.卷积:卷积运算使用三个大小3,4和5的窗口执行,对于所有窗口尺寸,步幅大小为1时,产生特征映射a(或在我们的例子中,向量)大小为8,7和6。请注意,因为我们的输入数据是向量而不是矩阵a,滑动窗口移动到适用于每个输入数据。 共有128个过滤器用于对每个窗口大小和每个输入向量以创建特征向量。 如图1b,卷积展品生成的三组特征向量来自卷积运算。
图2:我们基于1N CNN的活动识别方法的网络架构
c.最大池:对于给定的每个特征向量窗口大小和过滤器类型,执行1-max-pooling、以选择最大的特征值。 如图2C,max-pooling显示最大池化结果三组特征向量和最大汇总结果,然后连接。如图1所示重新形成为每个输入创建一个长384长的特征向量数据。 每个长特征向量包含最多使用128滤波器times;3提取的显着特征窗口大小组合。
d.随机失活:在卷积和最大化的功能实现之后将载体作为输入完全链接的神经网络。并应用dropout来防止神经网络从过度拟合。如图2d。 随机失活显示完全链接神经网络的丢失率。 我们设定了在我们的评估中,随机失活率为0.5。这将在后面的实验中解释。
e.输出:softmax层作为输出和放置完全连接层的层,softmax层如图一所示。层中的每个单元(或节点)计算每项活动的概率(即跑步,走路,停止),并给出了长的特征向量。然后确定具有最高概率的活动作为预测(或认可)的活动和活动标签输出到最终节点(粉红色)。输出过程如图2e所示。
IV. 实验
在我们的评估实验中,两1D-CNN模型是使用两种不同的输入向量构造长度的,即十秒和二十秒矢量。 我们描述实验设置和结果并评估。然后将我们的方法与本节中的随机森林活动识别的基线进行比较。
A.数据集
两种类型的输入向量,十秒和二十秒。准备第二个作为训练和测试数据实验的载体。 我们将前者表示为特征10和后者作为特征20。 表1总结了每列的大小和测试数据。 对数据集进行预处理以生成向量,即第二节数据转换中描述的幅度数据。每个构成三个活动的标签,运行,行走和静止。并使特征10的数据,测试数据的三分之一以及功能20数据更加精确。
B.基线方法和评估指标
我们的1D CNN方法与随机森林评估方法的基线进行了比较。 随机森林是已知的可以识别人类的活动并良好分类的方法 [9]。 我们用MATLAB实现了随机森林。 对于评估指标,我们对每项活动的精确度和召回率进行了计算。 我们还用随机森林方法计算了1D-CNN的人类活动识别的总体准确性。
C.网络参数和培训方法
我们使用开源软件TensorFlow [10]来实施我们的1D CNN。 使用以下参数用于训练我们的神经网络的功能10和特征20数据:卷积窗口大小= 3,4和5; 窗口步幅大小= 1; 卷积滤波器的数量= 128;随机失活率= 50%; 培训批量= 64; 和训练纪元大小= 200.对于损失函数,我们计算给出logits的S形交叉熵。 为了优化,我们使用了自适应矩估计(ADAM)优化的方法[11]。
D.结果
表II和III比较了人类活动识别基线随机森林方法与我们的1D CNN方法使用Feature 10和Feature 20数据的分别。粗体的对角线条目显示数字正确分类测试数据。每个要素数据的右下角混淆矩阵显示每种方法的整体准确性。从功能10和功能20的数据可以看出,我们的1D-CNN(91.32%和92.71%)优于随机森林方法(85.72%和89.10%)。最高的情况是使用1N-CNN构建时,实现了功能20准确性为(92.71%)。请注意,随机森林执行时,功能20数据时更好。我们认为这是因为功能20包含更多活动数据。总的来说,我们看到的结果为:如果输入向量维数增加,活动识别性能得到改善,因此,一个仓促的结果就出现了:如果使用更长的输入向量(例如,第三十二个向量),活动识别的准确性越高。
但是,如果我们仔细比较表II和表III,我们可以发现行走活动的精确度和召回率都是表II中两种方法的最低值。而表III中,行走活动显示最低,但精度最高。回想两种方法。 我们猜测活动信号为行走生成的往往包含模糊的信号,可以解释为跑和静止,这种模棱两可的判断导致了精度降低,识别性能见表二。 另一方面,在表III的情况,因为输入矢量长度加倍(特征向量长20),所有三个信号,跑步,走路和静止,都是更多可能包含彼此相似的信号作为结果,导致分类器学习混合型信号是主要信号。 因此,“走路”就是比其他的活动更经常地被预测出来。
V. 结论
我们提出了基于CNN的一维人类活动识别方法,使用三轴加速度计用户的智能手机记录数据。 该优于基线三元人类活动分类中的随机森林方法,并且在更长时间时表现出最佳分类准确度。将长度(即,特征20)加速度计数据用于学习神经网络,我们发现了维度输入向量会影响活动识别性能,并找出消除“行走”信号歧义的方法,特别是状态变化的过程中。
参考文献
[1] A.M. Khan, Y.-K. Lee, S.Y. Lee, and T.-S. Kim, “A triaxialaccelerometer-based physical-activity recognition via augmented-signal reatures and a hierarchical recognizer”, IEEETrans. on Information Technology in Biomedicine, vol. 14, pp. 1166-1172, 2010.
[2] S. Dernbach, B. Das, N.C. Krishnan, B.L. Thomas, and D.J. Cook,“Simple and complex activity recognition through smart phones,” in Proc. of the Intrsquo;l Conf. on Intelligent Environments,
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[18370],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。