用于大规模图像识别的超深卷积网络外文翻译资料

 2022-08-09 09:58:41

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


用于大规模图像识别的超深卷积网络

摘要

本文研究了在大规模图像识别中,卷积网络深度对其识别精度的影响。本文的主要贡献是使用很小(3times;3)的卷积滤波器来增加深度的卷积网络进行一个彻底的评估,我们得出通过将深度增加到16-19权重层,可以实现对网络性能的显著改进。这些研究是我们参加ImageNet2014挑战赛的基础,我们也因此在定位和分类跟踪任务上分别获得了第一名和第二名的成绩。本文表明了我们的模型在其他数据集上同样表现得很好,并都达到了最高的水平。我们已经公开了两种性能最好的卷积网络模型(ConvNet),以便于将深度视觉表达应用于计算机视觉的进一步研究。

Abstract

In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main contribution is a thorough evaluation of networks of increasing depth using an architecture with very small (3times;3) convolution filters, which shows that a significant improvement on the prior-art configurations can be achieved by pushing the depth to 16–19 weight layers. These findings were the basis of our ImageNet Challenge 2014 submission, where our team secured the first and the second places in the localisation and classification tracks respectively. We also show that our representations generalise well to other datasets, where they achieve state-of-the-art results. We have made our two best-performing ConvNet models publicly available to facilitate further research on the use of deep visual representations in computer vision.

1介绍

卷积网络最近在大规模的图像和视频识别方面获得了巨大的成功,这可能得益于ImageNet等大型公共图像库,以及高性能的计算系统,如GPU或大规模分布式集群。特别是ImageNet大型视觉识别大赛(ILSVRC)在推进深度视觉识别体系结构方面发挥了重要作用,从高维浅层特征编码到深度卷积网络,为几代大规模图像分类系统提供了测试平台。

随着卷积网络在计算机视觉领域的应用越来越广泛,为了获得更高的准确率,越来越多的人开始对Krizhevsky等人在2012年ImageNet大赛上的原始框架进行改进。例如,ILSVRC2013上最好的参赛模型是在第一卷积层上使用较小的接收窗口和较小的滑动步长。另一种改进方案是2014年Sermanet等人在整个图像和它的多个尺寸上,稠密的训练和测试网络。在本文中,我们将讨论卷积网络结构设计中的另一个重要的因素——深度。为此我们确定了网络框架的其它参数,然后通过增加更多的卷积层来稳定增加网络的深度,这是可行的,因为在所有层中使用了非常小的(3times;3)卷积滤波器。

因此,我们提出了更精确的卷积网络体系结构,它不仅在ILSVRC分类和定位任务上达到了最高的精度,并且在其它图像识别数据集上也表现出了很好的性能,即便是用来作为一个相对简单的框架的一部分(例如,不需要微调的线性SVM深度特征分类)。我们公布了两个性能最好的模型来促进进一步的研究。

本文的其余部分安排如下,在第二个章节,描述了我们的卷积网络框架,第三章节中,介绍了图像分类任务的训练评估的内容,第四章节中,在ILSBRC分类任务上对不同框架进行了对比。第五章节对本文进行了总结。为了文章的完整性,我们在附录A中描述了我们的ILSVRC-2014目标定位系统,并在附录B中讨论了非常深的特征对于其他数据集的泛化能力。最后,附录C中,包含了本文的修订记录。

2卷积网络的配置

为了在公平的环境下衡量增加的卷积层深度带来的效果,我们所有的卷积层都采用相同的方式设计,灵感来自Ciresan和Krizhevsky等人。本章中,我们首先描述我们的卷积网络的通用结构,然后描述了在评估中具体配置细节,然后介绍了在测试中的具体配置的细节,最后讨论了我们的设计选择并和当前最好的网络进行比较。

2.1架构

在训练过程中,我们的卷积网络的输入为固定尺寸的224times;224的RGB图像。我们所做的唯一的预处理,是对每个像素减去训练集的RGB均值。图像通过多个卷积层,卷积滤波器使用非常小的接受域:3times;3(用来获取左右、上下和中心的最小尺寸)。在我们的一种配置中,我们也使用了1times;1卷积滤波器,这可以看作是输入通道的一个线性变换(随后接一个非线性变换)。卷积步长固定为1像素;卷积层转换成输入的空间填充使得卷积后的空间分辨率保持不变,即对于3times;3的卷积层,填充为1个像素。空间池化包含5个最大池化层(max-pooling),它们接在部分卷积层的后面(并不是所有的卷积层都接有最大池化层)。最大池化层为2times;2的滑动窗口,滑动步长为2.

多个卷积层之后(在不同的框架下有不同的深度)是3个全连接层(FC):前两层各有4096个通道,第三个用来做1000类ILSVRC分类,因此包含1000个通道(每个通道代表一类)。最后一层是softmax层。全连接层的配置在所有网络中是相同的。

所有的隐藏层都具有非线性修正性。我们注意到,每一个网络(除了一个)都包含了局部响应标准化(LRN):会在第四节展示,这种标准化不会提高网络在ILSVRC数据集上的性能,反而会增加内存消耗和计算时间。

2.2配置

本文所评估的卷积网络配置如表1所示,每一列代表一种网络。下文中,我们将按网络的名称(A-E)来指代网络,所有配置均遵循2.1节中的通用设计,仅在深度上不同。从含有11个权重层的网络A(8个卷积层3个全连接层)到E中的19个全中层网络(16个卷积层3个全连接层)。卷积层的宽度(通道数)相当小,从第一层的64开始,然后在每经过一个最大池化层之后增加两倍,直到达到512。

在表2中,我们展示了每个配置的参数数量,尽管深度较大,但是我们网络中的权重数量并不比之前的一个更浅但是卷积层宽度和接受域尺寸更大的模型多。(Sermanet等的144M权重)。

表1卷积网络配置(按列展示配置的深度从左(A)到右(E)逐渐增加,增加的层用粗线标出)

表2 参数数量(百万)

2.3讨论

我们的卷积网络配置和ILSVRC2012以及ILSVRC2013比赛中表现最好的模型不同,我们在第一个卷积层中没有使用较大的接受域(如2012接受域11times;11,滑动步长4,2013接受域7times;7,滑动步长2),而是在整个网络中都使用了3times;3的卷积层堆叠,并且在输入的每一个像素上都进行了卷积(滑动步长1)。很容易发现,两个3times;3卷积层堆叠(中间没有空间池化)相当于5times;5的有效接收域;三个这样的层相当于7times;7的有效接受域。

既然这些有7times;7的有效接受域,那么我们用3个3times;3的的卷积层堆叠比一个单一的7times;7卷积层的好处是什么呢?首先我们使用了三个非线性校正层,而不是单一的一个,使得决策函数更具有判别性。其次,我们减少了参数的数量:假设三个3times;3卷积层堆叠的输入和输出都有C个通道,因此这个堆叠含有3(32C2)=27C2个权重;而一个单一的7times;7卷积层却需要72C2=49C2个参数,相对增加了81%。这相当于在7times;7卷积滤波器上强加一个正则化,迫使它们通过3times;3的滤波器来进行分解(中间有非线性加入)。

1times;1卷积层的使用(配置C,表1)是在不影响卷积层接受域的情况下增加决策函数非线性的一种方法。即使在这样的情况,1times;1的卷积层本质上相当于一个线性投影(输入输出通道数目相同),修正函数加入了非线性,值得注意的是,1times;1卷积层最近在Lin等人的“网络中的网络”结构中使用到。

小尺寸卷积滤波器曾被Ciresan等在2011年使用过,但是他们的网络深度没有我们的深,也没有在大规模的ILSVRC数据集上进行评估。Goodfellow等在街道数字识别任务中使用了深度卷积网络(11个权重层),并证明了增加深度可以带来更好的性能。GoogleNet,作为ILSVRC2014分类任务中最优秀的模型,虽然区别于我们的工作,但是相似的是,它也是基于非常深的卷积网络(22个权重层),以及很小的卷积滤波器(除了3times;3的卷积层外,还使用了1times;1和5times;5的卷积)。他们的网络拓补结构比我们的更加复杂,而且为了降低计算量,特征图的空间分辨率在第一层衰减更加严重。在4.5节中将会展示,我们的模型在单一网络分类准确率由于GoogleNet的网络。

3分类框架

在上一章中,我们介绍了网络配置的细节,在这一章,我们将对分类卷积网络的训练和评估的细节进行介绍。

3.1训练

卷积网络的训练过程基本遵循krizhevsky等人的方法(除了从多尺度训练图像上采样裁切的输入图像,稍后会解释)。也就是说,通过使用含动量的小批量(mini-batch)梯度下降(基于反向传播)优化多元逻辑回归来对模型进行训练。小批量的尺寸设置为256,动量设置为0.9。通过权值衰减(L2惩罚系数设置为5*10minus;4)以及对前两个全连接层执行dropout(dropout比率设置为0.5)来对训练进行正则化。初始学习率设置为10minus;2,当验证集准确率稳定时将学习率降低10倍。学习率总共降低了3次,训练一共进行了370K次迭代(74个阶段)。我们猜测,尽管和krizhevsky等人相比,我们的网络有更多的参数和更深的深度,但是网络收敛时间更少,这是因为:(a)更深的深度和更小的卷积滤波器尺寸隐式的增强了正则化;(b)某些层执行了预初始化。

网络权重的初始化是非常重要的,由于深度网络梯度的不稳定性,不合适的初始化将会阻碍网络的学习。为了避免这个问题,我们从训练配置A开始(表1),它足够浅,可以使用随机初始化进行训练。然后在训练更深的结构时,我们对前4个卷积层和最后3个全连接层使用网络A来初始化(中间层使用随机初始化)。我们没有降低预初始化层的学习率,允许它们在训练过程中进行改变。对于随机初始化,我们从均值为0且方差为10minus;2的正态分布中对权重进行采样。偏置项初始化为0。值得注意的是,在论文提交后,我们发现可以使用Glorotamp;Bengio中的随机初始化程序来对权重进初始化而不需要进行预训练。

为了获得卷积网络固定尺寸224times;224的输入图像,随机的从经过尺寸缩放的训练图像上进行裁切(每一张图像的每一个SGD迭代时裁切一次)。为了进一步对训练集进行数据增强,裁切图像进行随机的水平翻转和随机的RGB颜色转换。训练图像的尺寸缩放说明如下。

训练图像大小。用S代表经过各向同性缩放的训练图像的最小边,卷积网络的输入图像就是从中裁切的(我们也将S成为训练尺寸)。若裁切图像的尺寸固定为224times;224,原则上S可以取任意不小于224的值:如果S=224,裁切图像将会获取整幅图像的统计信息,可以完整的涵盖训练图像的最小边。如果Sgt;gt;224,裁切图像将会对应图像的一小部分,包含一个小的对象或者对象的一个部分。

我们考虑使用两种方法来设定训练尺寸S。第一种方法是针对单尺度图像的训练,固定S(注意到,在采样的裁切图像内的内容仍然能表示多尺度图像的统计信息)。在我们的实验中,我们评估了两种固定尺度下训练获得的模型:S=256(在现有技术下已经广泛使用)和S=384。我们先使用S=256来对一种卷积网络配置进行训练。为了加快S=384的网络的训练速度,使用S=256预训练的权值进行初始化,并且使用一个很小的初始学习率:10minus;3

第二种设定S的方法是多尺度训练,每一幅图像单独的从[Smin,Smax]中随机选取S来进行尺寸缩放(Smin=256,Smax=512)。由于图像中的对象可能是各种尺寸的,因此在训练中采用这种方法是有利的。这同样可以看作是一种尺寸抖动的训练集数据增强,使得一个单一模型能够识别各种尺寸的对象。考虑到训练速度,我们通过微调具有相同的配置单尺度模型的所有层,来训练多尺度模型,并使用固定S=384预训练模型。

3.2测试

在测试时,对于一个训练好的卷积网络和一张输入图像,由以下方法进行分类。首先,图像的最小边被各向同性地缩放成预定义的尺寸,表示为Q(我们也将此称为测试尺度)。我们注意到Q不一定要与训练尺寸S相同(第4节将会展示,对于每个S使用不同的Q将有助于

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239795],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。