基于传感器的活动识别的深度学习综述外文翻译资料

 2022-06-04 23:08:13

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


基于传感器的活动识别的深度学习综述

J 王,Y陈,S郝,X彭,L胡

摘要

基于传感器的活动识别从大量的低级别传感器读数中寻求关于人类活动的深层次的高等级知识。在过去的几年中,传统的模式识别方法取得了巨大的进步。然而,这些方法往往依赖于启发式手工制作的特征提取,这可能会阻碍其泛化性能。此外,现有的方法被无监督和增量学习任务所破坏。近年来,深度学习的最新进展使得有可能实现自动高级特征提取,从而在许多领域实现了性能的提高。自那时以来,基于深度学习的方法已经被广泛应用于基于传感器的活动识别任务。本文综述了基于深度学习的基于传感器的活动识别技术的最新进展。从传感器模态、深度模型和应用三个方面对现有文献进行了总结。我们还对现有的工作提出了详细的见解,并为今后的研究提出了巨大的挑战。

(1)介绍:

人类活动识别因为它能从原始传感器输入中了解人类活动的高层次知识因此在人们的日常生活中起着重要的作用,成功的HAR应用包括家庭行为分析〔61〕、视频监视〔50〕、步态分析〔21〕和手势识别〔31〕。HAR主要有两种:基于视频的HAR和基于传感器的HAR(13)。基于视频的HAR分析包含来自摄像机的人体运动的视频或图像,而基于传感器的HAR关注来自智能传感器的运动数据,如交流速度计、陀螺仪、蓝牙、声音传感器等。由于传感器技术和普及通信的蓬勃发展,基于传感器的HAR正变得越来越普及和广泛应用,同时隐私保护也很好。因此,在本文中,我们的主要焦点是基于传感器的HAR。

HAR可以被看作是典型的模式识别(PR)问题。传统的PR方法采用机器学习算法,如决策树、支持向量机、朴素贝叶斯和隐马尔可夫模型(34)在HAR上取得了巨大的进展。难怪,在一些仅有少量标记数据或某些领域知识需要的控制环境中(例如一些疾病问题),传统的PR方法完全能够达到令人满意的结果。然而,在大多数日常的HAR任务中,这些方法可能很大程度上依赖于启发式手工提取特征,这通常受胡曼领域知识(5)的限制。此外,只能通过这些方法学习浅特征(66),从而导致无监督和增量任务的破坏性能。由于这些局限性,传统的PR方法在分类精度和模型泛化方面的性能受到了限制。

近年来,深度学习的迅速发展和深入,在视觉对象识别、自然语言处理、逻辑推理等领域取得了空前的成绩(35)。与传统的PR方法不同,深度学习在很大程度上减轻了设计特征的工作量,通过训练端到端的神经网络,可以学习到更多的高层次和有意义的特征。在网络环境下,深入的网络结构更适合进行非预期和增量学习。因此,深度学习是HAR的理想方法,在现有工作[3,33,47 ]中得到了广泛的探索。

虽然在深入学习[5]、35[58]和HAR[7:34 ]中进行了一些调查,但没有对这两个领域的交叉点进行SPE-CI C调查。据我们所知,这是第一篇文章,介绍最近的进展,基于深度学习的HAR。我们希望本次调查能够为现有工作提供有益的总结,并提出潜在的未来研究方向。

本文的其余部分整理如下。在第2节中,我们介绍了基于传感器的活动识别,并解释了为什么深度学习可以提高其性能。在第3, 4和5节中,我们分别从传感器模态、深度模型和应用三个方面综述了基于深度学习的HAR的最新进展。我们还介绍了几个基准数据集。第6节介绍了现有工作的总结和见解。在第7节中,我们讨论了一些重大的挑战和可行的解决方案。最后,本文在第8节中得出结论。

图1 使用常规模式的基于传感器的活动识别方法的说明

  1. 背景:

2.1 基于传感器的活动识别

HAR的目的是了解人类行为,使计算系统能够积极地帮助用户根据他们的要求(7)。从形式上讲,假设用户正在执行属于预先定义活动集的设置A:

其中M表示活动类型的数目。有一个传感器读数序列捕获活动信息,其中dt表示时间t上的传感器读数。

我们需要建立一个模型F来预测基于传感器读数S的活动序列,而真实活动序列(地面实况)表示为N表示序列长度和Ngt;m。

HAR的目标是通过最小化DIS来学习模型F。

预测活动A与地面真实活动之间的关系。通常,正损失函数L(f(s),a)被构造为重新考虑它们的差异。F通常不直接将S作为输入,并且通常假定有投影函数8将传感器读取数据di投影到d维矢量矢量8(di)d。为此,目标变为最小化损失函数L(f(8(di)),a)。

2.2 为什么深度学习?

传统的PR方法在HAR〔7〕中取得了巨大的进展。然而,传统的PR方法存在几个缺点。

首先,特征总是通过启发式和手工制作的方式提取,这很大程度上依赖于人类经验或领域知识。在某些特定的任务设置中,这种人类知识可能有帮助,但是对于更一般的环境和任务,这将导致建立一个成功的活动识别系统的机会较低和更长的时间。

其次,只能根据人类专业知识学习浅特征(66)。这些浅层特征通常指的是一些统计信息,包括平均值、方差、频率和振幅等。它们只能用于识别诸如行走或跑步之类的低水平活动,并且难以推断高水平或上下文感知的活动〔67〕。例如,喝咖啡更复杂,几乎不可能通过使用肤浅的食物来识别。

在实际应用中,活动数据保持未标记。因此,这些模型的性能在无人监督的学习任务中被破坏[5 ]。相比之下,现有的深度生成网络(24)能够利用未标记的样本进行模型训练。

此外,大多数现有的PR模型主要侧重于静态数据的学习,而现实生活中的活动数据正源源不断地涌入,需要强大的在线和增量学习。

深度学习倾向于克服这些局限性。图2示出了对于不同类型的网络,HAR如何进行深度学习。与图1相比,在深度学习模型中经常进行特征提取和模型构建。这些特征可以通过网络自动学习,而不是人工设计。此外,深度神经网络还可以提取深层的高层表示,使其更适合于复杂的活动识别任务。当面对大量未标记的数据时,深度生成模型(24)能够利用未标记的数据进行模型训练。更重要的是,在大规模标记数据集上训练的深度学习模型通常可以转移到很少或没有标签的新任务。在下面的章节中,我们主要总结了现有的基于HAR流水线的工作:(a)传感器模态,(b)深模型,和(c)应用。

图2 使用深度学习方法的基于传感器的活动识别的说明

  1. 传感器模式:

虽然一些HAR方法可以推广到所有的SES模式,但大多数都是针对特定类型的。根据〔8〕,我们主要将这些模式分为三个方面:贴身传感器、物体传感器和环境传感器。表1概述了所有模态:

3.1人体磨损传感器

身体磨损传感器是HAR中最常见的模式之一。这些传感器通常由使用者佩戴,例如交流加速度计、磁强计和陀螺仪。加速度和角速度是随着人体运动的变化而变化的,从而可以推断人的活动。这些传感器可以在智能手机、手表、带、眼镜和HE-METS上找到十的传感器。

人体磨损传感器广泛应用于基于HAR[10,27,47,66,70]的深度学习。在这些工作中,大多采用加速度计。陀螺仪和磁强计也经常与加速度计一起使用。这些传感器经常被用来识别日常生活活动和体育活动。代替从运动数据中提取统计和频率特征,原始信号被直接用作网络的输入。

3.2 目标传感器

物体传感器通常放置在物体上以检测特定物体的运动[ 8 ]。不同于人体佩戴的俘获人体运动的森氏器,物体传感器主要用于检测某些物体的运动以推断人类活动。例如,附在杯上的加速度计可以用来检测饮用水的活动。射频识别器(RFID)标签通常被用作对象传感器,并在智能家居环境[15,61,66]和医疗活动[38,63]中被去掉。RFID可以为更复杂的活动识别提供更多的纹理信息。

应该注意的是,由于传感器的部署,物体传感器比人体磨损传感器的使用更少。此外,物体传感器与其他类型的结合正在出现,或者为了识别更多的高级活动[67 ]。

3.3 环境传感器

环境传感器被用来捕捉人类和环境之间的相互作用。它们通常嵌入在用户的智能环境中。环境传感器有很多种,例如雷达、声音传感器、压力传感器和温度传感器。不同于测量物体运动的物体传感器,环境传感器被用来捕捉环境的变化。

一些文献使用环境传感器来识别日常交流和手势[31,33,63]。大部分工作在智能家居环境中进行了测试。与目标传感器一样,环境传感器的解耦也是一个难题。此外,环境传感器容易受到环境的影响,并且可以精确推断出某些类型的活动。

3.4 混合式传感器

一些工作结合了不同类型的传感器用于HAR。如〔23〕所示,将加速度与声学信息相结合可以提高HAR的精度。环境传感器也与物体传感器一起使用,因此它们可以记录物体的运动和环境状态。〔61〕设计了一种智能家居环境,称为A—WistLogistic,通过人体佩戴、物体和环境传感器,可以识别出大量的复杂的多个乘员的活动。显然,传感器的组合能够捕获人类活动的丰富信息,这对于未来的智能家居系统也是可能的。

  1. 深度模型

在本节中,我们研究了在HAR任务中使用的深度学习模型。表2列出了所有的模型。

4.1 深度神经网络

深度神经网络是由人工神经网络(ANN)发展而来的。传统的ANN往往包含很少的隐藏层(浅层),而DNN包含更多(深)。DNF具有更多的敷设者,更能够从大数据中学习。DNN通常用作其他深模型的致密层。例如,在卷积神经网络中,在卷积层之后经常添加几个致密层。在这一部分中,我们将重点放在DNN作为一个单一的模型,而在其他部分中,我们将讨论密集层。

〔61〕RST从传感器中提取手工程特征,然后将这些特征馈送到DNN模型中。类似地,[1]在使用DNN之前每个PCA形成PCA。在这些工作中,DNN仅是手工制作特征提取后的分类模型,因而不能很好地推广。而且网络相当低。〔21〕利用5层隐层DNN进行自动特征学习和分类,提高性能。这些工作表明,当HAR数据是多维的且活动性更复杂时,更多的隐含层可以帮助模型良好地训练,因为它们的表示能力更强[5 ]。然而,在某些情况下,应该考虑更多细节来帮助模型更好地调整。

4.2 卷积神经网络

卷积神经网络(CuNeNes,或美国有线电视新闻网)利用三个重要的思想:稀疏交互、参数共享和等变表示[35 ]。在卷积之后,通常有汇集和完全连接的层,它们执行分类或回归任务。

美国有线电视新闻网有能力从信号中提取特征,在图像分类、语音识别、文本分析等方面取得了良好的效果。当应用于HAR的时间序列分类时,美国有线电视新闻网比其他模型具有两个优点:局部特征和尺度不变性。局部相关性意味着HAR中的邻近信号可能是相关的,而尺度不变性指的是不同步长或频率的尺度不变性。由于美国有线电视新闻网的有效性,大多数被调查的工作都集中在这一领域。

当将美国有线电视新闻网应用于HAR时,需要考虑以下几个方面:输入适应、池合并和权重共享。

  1. 输入适配。与图像不同,大多数HAR传感器产生时间序列读数,例如加速度信号,这是时间多维1D读数。输入适应是美国有线电视新闻网应用于这些输入的必要条件。其主要思想是调整输入以形成虚拟图像。主要有两种类型的适应:模型驱动和数据驱动。

数据驱动的方法将每个维度视为一个通道,然后对它们进行1D卷积。在卷积和池化之后,每个通道的输出都被聚焦到UNI的DNN层。一个非常早期的工作是[ 70 ],其中加速度计的每个维度被视为一个像RGB一样的通道,然后进行卷积和汇集。〔66〕进一步提出在同一窗口中利用1D卷积来统一和共享多传感器美国有线电视新闻网的权值。随着这一行,[10 ]调整卷积核以获得最佳的HAR数据核。其他的工作包括[21,48,57 ]。这个数据驱动的方法对待1D传感器作为一维图像读取,简单易行。这种方法的缺点是忽略了尺寸和传感器之间的依赖关系,这可能影响性能。

模型驱动的方法将输入调整为虚拟2D,以便采用2D卷积。这种方法通常涉及非平凡输入调谐技术。〔19〕将所有维度组合成一个图像,而[27 ]设计了一个更复杂的算法来将时间序列转换成图像。在〔59〕中,通过模态变换将压力传感器数据转换为图像。其他类似的工作包括[38,52]。该模型驱动的方法可以利用传感器的时间相关关系。但是时间序列对图像的映射是非平凡的任务,需要领域知识。

2)池化。卷积池组合在美国有线电视新闻网中是常见的,并且大多数方法在卷积后执行最大或平均池[19.31,48 ]。除了避免过度处理,汇集还可以加快对大数据的训练过程[5 ]。

3)权重分配。权重分担[57,69]是一种加速新任务训练过程的有效方法。〔70〕由于不同单元中出现的信号可能有不同的行为,因此采用了重加权的部分加权共享技术。〔18〕采用美国有线电视新闻网PF和美国有线电视新闻网PFF结构对不同权重分配技术的性能进行了研究。文献表明,权重分担可以提高美国有线电视新闻网的绩效。

4.3 自编码

自动编码器通过隐藏层学习输入Val-UE的潜在表示,这可以被认为是编码解码过程。自动编码器的目的是通过无监督学习模式学习更高级的特征表示。堆叠式自动编码器(SAE)是一些自动编码器的堆栈。SAE将每个层作为自动编码器的基本模型。经过几轮的训练,学习的特征被堆叠成标签,形成一个分类。

[2,63]用于

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[466143],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。