卷积神经网络近期进展外文翻译资料

 2022-08-13 14:59:22

英语原文共 24 页,剩余内容已隐藏,支付完成后下载完整资料


摘要

在过去几年,深入学习在各种问题上都有良好的表现。例如视觉识别,语音识别和自然语言处理。在不同类型的深层神经网络中,卷积神经网络被最为广泛的研究的网络。在注释数据和图形处理器快速发展拥有强大功能的今天,卷积神经网络的研究迅速兴起并在各种任务上取得了最新的成果。本文就卷积神经网络的最新进展作一综述。从层设计、激活函数、损失函数、正则化、参数优化和快速计算等方面详细介绍了卷积神经网络的改进。此外,我们还会介绍卷积神经网络在计算机视觉、语音识别和自然语言处理中的各种应用。

关键词:卷积神经网络、深度学习

目录

1.引言 1

2.卷积神经网络基础组成部分 2

3.卷积神经网络的改进 4

3.1 卷积层 4

3.1.1 平铺卷积 4

3.1.2 转置卷积 4

3.1.3 空洞卷积 5

3.1.4 网络中的网络 6

3.1.5 初始模块 6

3.2 池化层 7

3.2.1 Lp池化 7

3.2.2 混合池化 7

3.2.3 随机池化 8

3.2.4 光谱池化 8

1.引言

卷积神经网络是一种常见的深度学习架构,灵感来自于生物的自然视觉感知机制。在1959年,休伯尔和维厄瑟尔动物视觉皮层细胞负责检测光学信号。受此启发,在1980年,福岛邦彦提出了卷积神经网络前身-认知控制。在1990年,Yann Lecun等人发表了一篇有重大影响力的文章,确立了卷积神经网络的现代框架,并在之后的工作中对其进行了改进。他们提出了一种名为LeNet-5的多层人工神经网络,该网络可以分类手写的数字。和其他的神经网络一样,LeNet-5拥有许多层,且可以通过反向传播算法进行训练。它能够得出原始图像的有效表征,使得在不进行任何预处理的情况下直接从原始像素中识别出视觉模式成为可能。同时Zhang等人研究,使用平移不变人工神经网络从图像中识别字符。然而,由于当时缺乏大量的训练数据和计算能力,他们的网络不能很好地处理更复杂的问题,如大规模的图像和视频分类。

从2006年开始。为了克服在训练深层卷积神经网络时遇到的困难,人们开发了许多方法。尤其是Krizhevsky等人。提出了一个经典的卷积神经网络结构,并在图像分类任务上对以前的方法进行了显著的改进。其方法的整体框架叫做AlexNet,与LeNet-5类似,但具有更深层次的结构。AlexNet取得成功后,研究人员又提出了其他的完善方法。其中最著名的要数ZFNet,VGGNet,GoogleNet和ResNet这四种。从架构的演变来看,一个典型的趋势是网络越来越深。例如在2015年第二届SVRC冠军ResNet深度是AlexNet的20多倍,是VGGNet的8倍。通过增加深度,网络便能够利用增加的非线性得出目标函数的近似结构,同时得出更好的特性表征。然而,这也增加了网络的复杂性,使得网络更难优化,更容易过度拟合。在此过程中,人们提出了各种方法从各个方面来解决这些问题。本文试图对近年来的研究进展作一个全面的回顾,并作一些深入的探讨。

在下面的章节中,我们确定了与卷积神经网络相关的分类。图1显示了本文的层次结构分类单元。我们首先在第二节会先列出卷积神经网络的组成部分。然后,我们在第三节介绍了卷积神经网络在卷积层、池化层、激活函数、损失函数、正则化和优化等方面的一些最新改进,并在第四节介绍了快速计算技术。接下来,我们在第五节讨论了卷积神经网络的一些典型应用,包括图像分类、目标检测、目标跟踪、姿态估计、文本检测和识别、视觉显著性检测、动作识别、场景标注、语音和自然语言处理。最后,在第六节归纳总结。

图1.1 本文层次结构分类单元

图1.2 (a) LeNet-5网络的架构,适用于数字分类。(b) LeNet-5网络中的特征可视化每层的特征显示在不同的区域中。

2.卷积神经网络基础组成部分

文献里有众多不同的卷积神经网络架构。然而,它们的基本组成结构都非常相似。以著名的LeNet-5为例,它由三种类型的层组成,分别为卷积层、池化层和全连接层。卷积层的目的是学习输入数据的特征表达形式。如图2(a)所示,卷积层由多个卷积核组成,卷积核是用来计算不同的特征图的。具体地说,一张特征图的每一个神经元与前一层一个区域的神经元相连接。这里的区域指的是该神经元在前一层的感受野。新的特征图可以通过一个学习到的卷积核在输入图像上第一次卷积得到,然后在卷积结果上使用元素级的非线性激活函数。注意,要生成每个特征映射,内核由输入的所有空间位置共享。通过使用一些不同的卷积核,就可以获得完整的新特征图。数学上,第l层卷积层的第k张特征图的区域(i,j)特征值,可以通过下面公式计算得到:

(2.1)

和第l层卷积层第k个滤波器的权重向量和偏置,是第l层输入区域(i,j)的中心。请注意,产生特征图的核是共享的。这样的权值共享机制可以减少模型的复杂度,也使得网络更加容易训练。激活函数给卷积神经网络引入了非线性因素,使得多层网络可以更容易的检测非线性特征。让a(∙)表示非线性激活函数。卷积特征的激活值计算公式如下:

(2.2)

sigmoid、tanh和ReLU是典型的激活函数。池化层的目的是通过降低特征图的分辨率来实现平移不变性。它通常放在两个卷积层之间。池化层的每一张特征图都和它对应的前一层卷积层的特征图连接。用pool(∙)来表示池化函数,对于每一张特征图,我们有:

(2.3)

是区域(i,j)的局部邻域。典型的池化操作为平均池化和最大池化。图2(b)示出了由前两个卷积层学习的数字7的特征映射。第一卷积层的核用于检测边缘和曲线等低级特征,而高层的核用于编码更抽象的特征。通过一些卷积层和池化层的堆叠,我们可以提取更多的抽象特征表现形式。

经过一些卷积层和pooling层后,会接着一或多层全连接层,它们是用来进行高层推理的。它们将前一层的全部神经元和当前层的全部神经元进行连接,产生全局语义信息。注意,全连接层并不总是必要的,因为它可以被1times;1卷积层代替。

卷积神经网络的最后一层是输出层。对于分类任务,softmax操作是最常用的。另一种常用的方法是支持向量机,它可以结合卷积神经网络特征来解决不同的分类任务。让表示一个卷积神经网络的全部参数(例如:权重向量和偏置)。通过最小化特定任务的损失函数可以获得该任务的最佳参数。假设我们有N个期望的输入输出关系{},其中为第n个输入数据,是它的对应目标标签并且是卷积神经网络的输出。卷积神经网络的损失函数计算公式如下:

(2.4)

卷积神经网络的训练是一个全局优化问题。通过最小化损失函数,我们可以找到最适合的一组参数。随机梯度下降法是优化卷积神经网络的最常用解决方法。

3.卷积神经网络的改进

自2012年AlexNet成功以来,卷积神经网络有了各种改进。在这一部分中,我们从卷积层、池层、激活函数、损失函数、正则化和优化六个方面描述了卷积神经网络的主要改进。

3.1 卷积层

基本卷积神经网络中的卷积滤波器是一种适用于底层局部图像块的广义线性模型(GLM)。当潜在概念的实例是线性可分时,它很适合抽象化。本文介绍了一些提高其表示能力的工作。

3.1.1 平铺卷积

卷积神经网络中的权重分配机制可以大大减少参数的数目。然而,它也可能限制模型学习其他类型的不变性。平铺卷积神经网络是卷积神经网络的一个变体,它平铺和多重特征映射以学习旋转和缩放不变特征。在同一层中学习不同的核,通过在相邻单元上的平方根池隐式学习复不变性。如图3(b)所示。卷积运算应用于每个k单元,其中k是块大小,以控制共享权重的距离。当平铺大小k为1时,每个地图内的单位将具有相同的权重,平铺卷积神经网络与传统卷积神经网络相同。他们在NORB和Cl-FAR-10数据集上的实验表明,k=2取得了最好的结果。Wang等人发现平铺卷积神经网络在小时间序列数据集上的性能优于传统卷积神经网络。

3.1.2 转置卷积

转置卷积可以看作是对应传统卷积的逆推计算。它也被称为反卷积和分步卷积。为了与大多数文献保持一致,我们使用“反褶积”一词。与将多个输入激活与单个激活连接起来的传统卷积不同,反褶积将单个激活与多个输出激活关联起来。图3(d)表明了在4x4输入上使用单位步长和零填充的3x3内核的反褶积操作。反褶积的步长给出了输入特征图的膨胀因子。具体地说,反褶积将首先对输入进行带填充的步长值的因子的上采样,然后对上采样的输入执行卷积操作。近年来,反褶积在可视化中得到了广泛的应用。识别、编码、语义分割、可视化问答、超分辨率。

图3.1 说明(a)卷积(b)平铺卷积(c)空洞卷积(d)反褶积

图3.2 线性卷积层与mlpconv层的比较

3.1.3 空洞卷积

扩张卷积神经网络是卷积神经网络的最新发展,它在卷积层中引入了一个更高的参数。通过在滤波器之间插入零,扩张卷积神经网络可以增加网络的接收场大小,使网络覆盖更多的相关信息。这对于在做预测时需要一个大的接收场的任务来说是非常重要的。在形式上,将信号F与r大小的核k卷积的具有扩张l的a1-D扩张卷积定义为,其中表示l-扩张卷积。该公式可直接推广到二维扩张卷积。图3(c)表示了三个扩张卷积层的示例,其中扩张因子l在每一层上呈指数增长。中间特征图F2通过应用1-扩张卷积从底部特征图F1产生,其中F2中的每个元素具有3x3的感受野。F3是通过应用2-扩张卷积从F2产生的,其中F3中的每个元素都有一个的感受野。最上面的特征图F4是由F3通过应用4-扩张卷积产生的,其中F4中的每个元素都有一个的接收场。可见,中各元素的感受野大小。扩展卷积神经网络在场景分割等任务中取得了令人印象深刻的性能,例如机器翻译、语音合成和语音识别。

3.1.4 网络中的网络

网络中的网络是Lin等人提出的一种通用的网络结构。它用微型网络代替了卷积层的线性滤波器,如多层感知器卷积(mlpconv)层,使得它能够逼近更抽象的潜在概念表示。NIN的整体结构是这种微型网络的叠加。图4示出了线性卷积层和mlpconv层之间的区别。形式上,卷积层(具有非线性激活函数,如ReLU)的特征映射计算为:

(3.1)

其中是位置(i,j)处第k个特征图的激活值。以位置(i,j)为中心的输入补丁。和是第k个滤波器的权向量和偏置项。作为比较,mlpconv层执行的计算公式如下:

(3.2)

其中,n是mlpconv层中的层数,等于。在mlpconv层,在传统卷积层之后放置1x 1卷积。1x 1卷积相当于ReLU成功的跨通道参数池化操作。因此,mlpconv层也可以看作是普通卷积层上的级联交叉信道参数池。最后。它们还应用全局平均池,该池在空间上平均最终层的特征映射,并直接将输出向量馈送到softmax层。与全连接层相比,全局平均池具有较少的参数,从而降低了过度拟合的风险和计算量。

3.1.5 初始模块

初始模块由Szegedy等人引入,可以看作NIN的逻辑顶点。它们使用可变的滤波器大小来捕捉不同大小的视觉模式,并通过初始模块来逼近最优的稀疏结构。具体地说,初始模块包括一个池操作和三种卷积操作(见图5(b)),并且1x 1卷积作为降维模块放置在3x3和5x5卷积之前,这允许在不增加计算复杂度的情况下增加卷积神经网

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[236262],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。