英语原文共 40 页,剩余内容已隐藏,支付完成后下载完整资料
深度学习对象识别,检测和分割
摘要
作为人工智能领域的重大突破,深度学习在解决包括语音识别,自然语言处理,计算机视觉,图像和视频处理以及多媒体在内的许多领域的重大挑战方面取得了令人瞩目的成功。 本文提供了深度学习的历史概述,重点介绍了其在物体识别,检测和分割中的应用,这些是计算机视觉的关键挑战,并且对图像和视频有很多应用。
本文所讨论的物体识别研究主题包括ImageNet上的图像分类,人脸识别和视频分类。 检测部分包括图像检测,行人检测,人脸特征检测(人脸对齐)和人体标志检测(姿态估计)。 在细分方面,讨论了场景标注,语义分割,人脸解析,人类解析和显着性检测方面的最新进展。对象识别被认为是全图像分类,而检测和分割则是像素分类任务,他们的基本差异将在本文中讨论。本文将介绍完全卷积神经网络和专为像素级分类任务设计的高效率前向和后向传播算法。
涵盖的应用领域也非常多样化。人脸和面部图像具有调节结构,而基本图像和场景图像则在复杂的形态结构和布局方面有着更多的复杂变化,视频包括时间维度。 因此,它们需要用不同的深度模型进行处理,所选的一些应用程序在计算机视觉和多媒体社区中受到了极大的关注。
通过这些应用的具体例子,我们解释了让深度学习胜过常规计算机视觉系统的关键点。 (1)不同于传统的模式识别系统,它们主要依赖于人工设计的特征,深度学习通过大量的训练数据自动学习分层特征表示,并通过多级非线性映射分解输入数据的隐含因子。
(2)不同的图案识别系统,培训他们的关键组成部分,深度学习能够通过它们之间的密切互动来共同优化所有组件并创造协同作用。
(3)尽管大多数机器学习模型可以用浅层结构的神经网络来近似,但对于一些任务,随着架构深入,深层模型的表达能力呈指数增长。
(4)从深度模型的大量学习能力中受益,一些经典的计算机视觉挑战可以重构为高维数据转换问题,并且可以从新的角度来解决。
最后,将讨论一些关于对象识别、检测和分割中深层学习的开放问题。
1、深度学习的历史概述
1.1机器学习
由于深度学习是机器学习的一个分支,我们首先简要介绍机器学习的内容。给定输入数据x,机器学习的目标是通过映射函数y = f(x)来预测输出y。 如果y是一个离散值(即类别标签),那么它就是一个分类问题,y也可以是一个高维实值向量,此时它就是一个回归问题。机器学习是通过一组样本数据来发现他们应用函数f的,假定f用一组参数theta;表征。 深度学习有着与之相同的目标。
在训练样本阶段,theta;是从一组训练样本{xi}和它们带注释的目标输出{yi}中估计出来的,它所学习的f对测试数据的预测准确性主要受f的学习能力以及规模的训练数据。在过去的几十年中,训练数据的规模很小,机器学习研究的重点是解决过度的训练样本问题,即学习的f对训练数据具有较高的预测精度,而对测试数据表现不佳。过度训练是由于学习能力与训练数据的规模不匹配造成的。众所周知的现象是维度的问题。随着输入数据x的维数增加,参数的数量以及f的学习能力增加,这使得超配问题更加严重。为了解决过度问题,已经做了大量的研究,如何通过减少参数数量和增加各种类型的规律来减少模型的容量。
图1.1
近年来,随着大规模培训数据的出现,人们观察到,当输入数据的维数增加时,测试数据的性能得到了改善。因为大数学习要求高的学习能力, 如图1.1所示,由于学习能力有限,当训练数据变得非常大时,具有浅结构(例如SVM和Boosting)的机器学习模型的性能变得饱和。他们面临着这个问题,即他们对大规模训练数据的预测准确性并不理想。
不同的是,深度神经网络可以具有更大的学习能力,因为它们的参数和深度架构非常多。 因此,当训练数据较小时,与其他机器学习方法相比,深度学习并没有显示出明显的优势,而且由于存在问题的解决方案而未能实现更好的效果。 在机器学习和大规模训练数据的背景下,深度学习造成了很大的不同。 为了解决底层问题,它需要有效地增加模型的学习能力,更好的优化技术(以便训练过程不会陷入局部最小的不利位置)和足够的计算资源(以便训练过程可以是 在有限的时间内完成)。 深度学习的研究重心已从解决过度问题转移到这些方面,而这些方面在过去几十年中还没有得到很好的探索。
1.2 神经网络
深层模型是具有深层结构的神经网络。 神经网络的历史可以追溯到20世纪40年代。 它受模拟人类大脑系统的启发,目标是找出解决一般学习问题的原则性方法。 它在20世纪80年代和90年代流行起来。 1986年,Rumelhart,Hinton和Williams在科学界发表了反向传播的言论,至今它已被广泛用于训练神经网络。 在下面的小节中,我们将介绍多层神经网络的结构,用于预测输入输出的前馈操作以及反向传播。 然而,由于多种原因,神经网络最终被大多数研究人员放弃了,这将在1.2.4节中解释。
1.2.1多层神经网络
神经网络的计算单元被称为神经元,并被组织成多个层。神经元内部的神经元与权重相连。 但是,同一层中的神经元没有连接。 在前馈操作中,较低层中的神经元将信号传递给其上层中的神经元。 如果一个神经元的接收信号足够强,它就会被激活。类似于大脑,神经元之间的某些联系更强,而有些则更弱,表示为不同的权重。图1.2显示了一个有着输入层、隐藏层和输出层的三层网络的例子。 x =(,...,,...,)是d维输入数据向量。 h =(,...,,...,)是个隐藏神经元的响应。 z =(,...,,...,)是神经网络的c个输出神经元处的预测输出。 在训练集中,每个样本x与目标向量t相关联,期望神经网络预测的输出y尽可能接近目标t。
输出数据 x
输出 y
隐藏变量 h
目标
图1.2:三层神经网络的体系结构
1.2.2前馈操作
在每个隐藏的神经元j中,输入神经元的加权和首先被计算为:
= (1.1)
被认为是隐藏神经元的净激活。 {}是输入层和隐藏层之间的连接权重,{}是偏置项。隐藏的神经元通过非线性激活函数发出输出,即:
=g(). (1.2)
如图1.3所示的tanh函数在过去被广泛用作非线性激活函数。近年来,人们发现Recti- fire Linear Unit(ReLU)导致稀疏神经反应,并且在许多情况下更为有效。 还有其他选择,例如参数化整流线性单元(PReLU)。 以ReLU为例,隐藏的神经元不会发出响应,除非激活大于阈值。
图1.3 非线性激活函数的例子
在输出层,每个输出神经元k首先根据隐藏神经元发送的信号计算其净激活:
= (1.3)
{}是权重,{}是偏置项。输出神经元k通过其净激活的非线性激活函数发出,即
=g(). (1.4)
由等式(1.1)~(1.4)可得出,神经网络的输出等价于一组判别函数:
(x)= (1.5)
它是通过一系列在多层上计算的线性和非线性变换来实现的。
1.2.3反向传播
训练一个神经网络将发现一个最优权重集合(包括偏差项)W以使目标函数J(W)最小化,使得训练样本的预测输出z尽可能接近目标t。 在20世纪80年代提出的后向传播(BP)[120]仍然是神经网络监督训练中使用最广泛的方法。 它是一个梯度下降算法。 权重随机初始化并迭代更新。 在每次迭代中,权重在一个方向上改变以减少目标函数.
W Wminus;eta;nabla;J(W) (1.6)
其中eta;是学习速率的超参数,而nabla;J(W)是目标函数w.r.t的梯度。权重W.如图1.4(a)所示,训练样本被馈入神经网络的输入层。 通过前馈操作,可以在输出层预测输出。 预测误差是通过与目标值进行比较来计算的。 使用BP,误差会传播回每层,并用于计算每层中的权重梯度,BP算法的详细描述可以在[46]中找到。
图1.4:反向传播
如图1.4(b)所示,神经网络的目标函数的表面通常非常复杂且具有许多局部最小值。 在通用神经网络上,BP没有达到全局最小值的理论保证。 通过梯度下降的局部最小范围取决于网络权重的初始化。 已经完成了一些工作来预训神经网络,使得它们可以从良好的初始化点开始并在BP收敛后达到更好的局部最小值。
给定n个训练样本,在批梯度下降中,目标函数可以表示为:
J(W)=(W) (1.7)
其中Jp(W)是第p个训练样本的预测成本,权重更新为:
W Wminus;eta;(W). (1.8)
然而,当训练集很大时,评估和梯度在计算上是昂贵的。 随机梯度下降在每次迭代中采样加法函数的子集。 这在大规模机器学习问题的情况下非常有效。在随机训练中,训练集被分成小批次,并且J(W)的真实梯度近似于小批量样本。 对梯度的估计是复杂的,并且权重可能不会在每次迭代时沿梯度精确移动,但比批量学习快得多。另一方面,这种复杂可能导致更好的解决方案。权重波动,这使得有可能出现局部最不利的极小值。
1.2.4使用神经网络的困难
人们在20世纪80年代和90年代时,在各种应用中使用神经网络时遇到了几个主要问题。 神经网络通常具有大量的参数,并且很难掌握它们。 神经网络很容易出现过度训练集,而在测试集上表现不佳。 它缺乏大规模的训练数据,这使得过度训练问题更加严重。通常相对较大的训练集只有几百个训练样本。 而且,由于在20世纪80年代和90年代可用的计算能力非常有限,掌握一个小型神经网络需要很长时间。 一般来说,神经网络的性能并不比其他机器学习工具更好,并且训练神经网络要困难得多。 因此,许多研究人员在21世纪初放弃了神经网络,转向其他机器学习工具,如SVM,Boosting,决策树和K-最近邻。
1.3其他机器学习模型
其他机器学习模型可以用只有一个或两个隐藏层的神经网络来近似描述。 因此,它们被称为具有浅结构的模型,图1.5显示了一个SVM的例子。SVM的预测函数可写为:
f(x)= b (1.9)
x是测试样本。是一个支持向量。 完全有M个支持向量。 K是测量x和x的相似度的核函数。如图1.5所示,支持向量机可以用一个带有M 1隐藏神经元的三层神经网络来实现,在每个隐藏的神经元i上输出。
这些模型与生物系统有着一些联系。人们并没有解决一般的学习问题,而是为特定的任务设计了特定的系统(模型),并使用了不同的功能。 例如,HMM-GMM用于语音识别,SIFT用于物体识别,LBP用于人脸识别,HOG用于人体检测。
图1.5 SVM可以近似为三层神经网络
1.4深度学习
深度学习自2006年开始流行。在深度学习方面的一个重大突破首先在语音识别领域取得了突破[65],它在很大程度上超越了多年主导该领域的HMM-GMM。 神经网络再次成功有几个原因。 首先,一个关键原因是带有注释的大规模训练数据的出现。 例如,ImageNet [36]拥有数百万个带注释类标签的图像。 随着大规模训练数据的发展,深层神经网络与浅层模型相比具有显着的优势,因为它们的学习能力非常大。随着高性能并行计算系统(如GPU集群)的快速发展,具有数百万参数的大规模深度神经网络。
此外,网络结构,模型和训练策略的设计也取得了显着进展。例如,已经提出了无监督和分层预训练。 它使神经网络达到一个很好的初始点。 基于此,用BP进行微调可以找到更好的局部最小值。 它有助于在一定程度上解决大规模训练集中的弱点问题。 已提出退出和数据增加[80]来解决训练中的过度训练问题。 批量归一化[96]已被提出来有效地掌握非常深的神经网络。 对AlexNet [80],Clarifai [173],Overfeat [125],GoogLeNet [138]和VGG [128]等各种网络结构进行了广泛的研究,以优化深度学习的性能。
1.5深入学习计算机视觉的成就
1.5.1物体识别和检测
2012年,深入学习开始对计算机视觉产生巨大影响,当时Hinton的团队凭借深入的学习获得了ImageNet大规模认证挑战(ILSVRC)[80]。 在此之前,有人尝试将深度学习应用于相对较小的数据集,并且与其他计算机视觉方法相比所获得的改进是微不足道的。 计算机视觉社区并不完全被人们所相信,同时没有有力的策略来应对重大
全文共9341字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[10032],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。