英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
深度卷积模型在智能监控系统中的异常行为检测的应用
Kwang-Eun Ko,Kwee-Bo Sim
中大韩国首尔06974东亚区赫克寺路84号中央大学电子信息学院
摘要
在视频监控系统中即时检测危险行为的能力是智能监控系统中的关键问题。 本文提出了一种基于深度卷积模型的统一框架,用于从标准RGB图像中检测出异常的人类行为。
统一结构的目标是提高检测速度,同时保持识别的准确性。深度卷积模型包括:
(1)与以前的目标检测算法相比,提出用于解决目标实体分离问题的人体目标检测和识别模块;
(2)提取异常行为空间特征的姿态分类模块;
(3)基于长短期记忆(LSTM)的异常行为检测模块。
基准数据集上的实验评估了该方法在智能监控环境下的潜力。结果表明,所提出的方法在检测真实世界场景中的异常行为方面提供令人满意的性能。
关键词:行为识别卷积神经网络长短期记忆智能监控系统
部分1背景介绍
2016年1月20日在瑞士达沃斯世界经济论坛上强调的第四次工业革命预测,人工智能(AI)技术与多种工业领域的结合将在多学科领域发生根本性变化。 这些变化是基于近期AI指数相关的技术,如计算机视觉,机器人技术和机器学习。基于这一趋势的创新型下一代技术包括无所不在的移动超级计算机,智能机器人技术和自动驾驶汽车,这些技术可以显着改变人们的生活方式(Schwab 2017)。
这个研究课题与最新的HCI(人机交互)应用密切相关。 在最常见的用户界面场景中,当人机交互时,它执行与通过诸如键盘,鼠标和触摸屏的标准界面传输的命令相对应的操作。 最近的HCI作品尝试开发一种方法,通过计算机视觉框架实现人机之间更直观的交互。他们试图尽可能地排除使用单独的界面设备进行交互,例如:
人类的视觉识别过程。人们普遍认为,HCI的下一次转变之一就是赋予计算机通过计算机视觉技术理解人类行为的能力。 这个话题在涉及安全/监视的学术和工业领域越来越受欢迎(Vishwakarma,Agrawal. 2013),工业机器人(Roitberg. 2015)和情感计算(Kleinsmith , Berthouze .2013)。 这一趋势鼓励计算机视觉社区解决与克服基于标准RGB相机的现有方法的技术限制有关的问题。
在当前的计算机视觉技术水平上,可以通过不同的视觉传感器(例如固定式照相机和立体照相机)来获取各种类型的图像数据,并且因此对于所获取的场景来说意识到上下文变得更加方便,如对象的时空状态转换(如人类行为)。 特别是最近出现的具有价格竞争力的RGB-D传感器在计算机视觉的深层次问题上取得了突破,如减去背景和消除来自光源的干扰或其他遮挡。这些类型的深度传感器和强大的模式识别算法的结合有助于提高对人行为的理解速度(Vieira et al. 2012; Li and Leung 2017; Slama et al 2015; Chen et al .2016)。然而,这些方法仅在实验室中实施,而且不能达到基于标记的动作捕捉系统的3D数据的人体运动分析的精确度(Barbic̆ et al., 2004; Moeslund et al. 2006)。由于深度传感器固有的特性的限制,如有效的距离测量限制和由环境变化引起的噪声敏感性,它们也很难应用于实际工业领域。为了开发实际应用,例如监视系统,使用标准质量的RGB图像推进行为识别技术至关重要。
以前关于人类行为识别的研究开始于识别静止图像中表达的姿势/手势的水平。 因此,可以识别简单的动作,如走路,跑步和坐着。 最近的研究进展到估计基于运动信息的行为的目的(Poppe. 2010)。然而,除了运动信息之外,实际的人类行为与周围环境和其他物体紧密相关(Dedeoğlu et al. 2006)。例如,如果一个人执行两个具有相似运动模式的独立行为(例如拨打电话和喝咖啡),则每个运动的行为类别将取决于作为运动目标的对象的信息。 此外,理解具有密切相互作用的人(例如,推动,拥抱等)所执行的群体行为已成为近期人类行为识别研究中的主要挑战之一 (Kong and Fu, 2016; Huynh-The et al. 2016)。因此,为了更准确地识别行为,如今研究坚持认为有必要发展环境与物体之间关系的情境意识能力(Abowd et al. 1999)。
本文介绍了一种用于检测人与人之间密切交互期间可能发生的异常行为的技术。所提出的方法适用于老年人智能监测/监测,为老龄化社会做准备。为了考虑老年痴呆症,老年痴呆症,帕金森病等退行性疾病患者的安全性,需要能够识别个人何时发生异常行为的全天候监视系统。
本文的结构如下:部分2解决了以前与监测过程中所提出的异常行为检测方法有关的研究以及当前技术的能力。部分3描述了构成所提出方法的核心技术和所提出方法的详细程序。部分4描述了为验证所提出方法的性能并评估结果而进行的实验。最后,对未来作品的结论和建议介绍。
部分2 相关作品
监视事件检测。视觉监控的一个重要挑战是自主和在线检测由受监控对象的异常行为表现引起的事件。在自主监视过程中有多个事件检测步骤。首先,需要实时对象检测。例如,一些文献声称,应该通过比较空间外观特征来处理视频中与人物等对象相对应的检测区域(Dedeoğlu et al. 2006)。该方法介绍使用自适应背景减除方案来提取运动物体的轮廓以检测物体的空间区域; 然后,执行基于轮廓特征的模板匹配算法以对与人对应的对象进行分类。下一步是从监视过程中获取的整个视频中找到与目标事件对应的适当时间区域。该方法侧重于基于结果的事件分类的关键帧标记(Şaykol et al. 2010a)。在这种方法中,通过检测输入帧序列内行为发生的时间区域来标记关键帧。然后通过将输入流表示为关键帧标签的时间排序序列来完成事件分类。另外,自主视频监控系统应支持在线语义分析和离线检测。有许多关于查询过程的研究来从监控视频中检索事件和对象。例如,系统描述监控系统的档案执行基于场景的查询处理(Şaykol et al.2010b)。这个查询处理系统已经成为有效的离线检测的有效机制,例如事后活动分析。
深度学习。最近,机器学习研究已经开发了基于深度学习的各种算法,这些算法在计算机视觉任务中表现出显着的能力,例如卷积神经网络(CNN),其在具有大规模图像数据库的物体识别和检测任务中达到最佳准确度在ILSVRC(ImageNet大规模视觉识别挑战)和PASCAL VOC(视觉对象类)挑战(Everingham et al. 2015)。Krizhevsky等人提出的原始CNN架构被称为AlexNet(Krizhevsky et al. 2012),其前5名的错误率为15.3%,超过了第二名的成绩超过40%。 该算法优于以往的支持向量机(SVM)和传统模式分类算法。 此外,随着大数据概念的出现,诸如图形处理单元(GPU)之类的支持硬件的开发使得可以在短时间内学习和评估大规模深度学习体系结构,并且各种各样的尝试着重于此。高性能GPU处理(例如使用CUDA)和大型公共映像存储库(Deng et al. 2009) 使得CNN成为计算机视觉领域最流行的方法。而且有几次尝试着重于提高AlexNet的性能,以提高基于图像和视频的对象识别任务的准确性。提交给ILSVRC的表现最好的是ZF-Net(Zeiler and Fergus. 2014)。在2013年,GoogLeNet
(Szegedy et al. 2015) 以及ResNet
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。