英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
空间变换网络
Max Jaderberg Karen Simonyan Andrew Zisserman Koray Kavukcuoglu
Google DeepMind, London, UK
{jaderberg,simonyan,zisserman,korayk}@google.com
摘要
卷积神经网络定义了一个异常强大的模型类,但仍然受限于缺乏以计算和参数有效的方式对输入数据进行空间不变的能力。在这项工作中,我们引入了一个新的可学习模块,即空间变换器,它明确允许网络中的数据的空间操作。这种可区分的模块可以插入现有的卷积体系结构中,使神经网络能够主动地在特征映射本身的条件下空间变换特征映射,而无需对优化过程进行任何额外的训练监督或修改。我们的工作表明,使用空间变换器会导致模型学习不变性的移动,规模,旋转和更一般的翘曲,导致在几个基准上的最先进的性能,以及一些类转换。
引言
计算机视觉领域发生了巨大的变化,并通过采用快速,可扩展的端到端学习框架 - 卷积神经网络(CNN)[18]而得到推进。 尽管不是最近的发明,但我们现在看到了一个基于CNN的模型的聚宝盆,它在分类,定位,语义分割和动作识别任务等方面取得了最先进的成果。
一个能够推理图像的系统的理想特性是能够从纹理和形状中解开对象姿态和部分变形。在CNN中引入局部最大共享层有助于满足这一性质,允许网络在空间上对特征位置具有一定的空间不变性。 然而,由于通常对于最大汇集(例如2times;2像素)的小空间支持,该空间不变性仅在最大汇集和卷积的深层次上实现,并且CNN中的中间特征映射(卷积层激活) 实际上并不是对输入数据的大型变换不变的[5,19]。 CNN的这种局限性是由于只有一个有限的,预定义的汇集机制来处理数据的空间排列变化导致的。
在这项工作中,我们介绍了空间变换器模块,它可以包含在一个标准的神经网络架构中,以提供空间变换功能。空间转换器的作用是以单个数据样本为条件的,并且在所讨论的任务的训练期间(没有额外监督)学习适当的行为。与合并图层不同,接受区域固定且局部,空间变换器模块是一种动态机制,可以通过为每个输入样本生成适当的变换,主动地对图像(或特征图)进行空间变换。然后对整个特征图(非局部)执行变换,并且可以包括缩放,裁剪,旋转以及非刚性变形。这允许包括空间变换器的网络不仅选择最相关(关注)图像的区域,而且还将这些区域转换为规范的,预期的姿态以简化随后层中的推理。值得注意的是,空间变换器可以用标准的反向传播进行训练,从而允许对它们注入的模型进行端到端的训练。
图1:使用空间变换器作为完全连接网络的第一层训练用于失真MNIST数字分类的结果。 (a)空间变换网络的输入是MNIST数字的图像,其随平移,缩放,旋转和杂乱而失真。 (b)空间变换器的定位网络预测应用于输入图像的变换。 (c)应用变换后空间变换器的输出。 (d)由空间变换器输出端上的后续完全连接网络产生的分类预测。 空间变换器网络(包括空间变换器模块的CNN)仅通过类别标签进行端对端训练 – 系统会被给予未知的变换。
空间变换器可以合并到CNN中以使各种任务受益,例如:(i)图像分类:假设CNN被训练成根据图像是否包含特定数字来执行图像的多路分类 - 其中图像的位置和大小数字可能会随着每个样本而显着变化(并且与班级无关);一个空间变换器可以对适当的区域进行裁剪和比例归一化,这可以简化后续的分类任务,并且可以实现更高的分类性能,参见图1; (ii)共定位:给定一组包含相同(但未知)类的不同实例的图像,可以使用空间转换器来在每个图像中定位它们; (iii)空间关注:空间转换器可用于需要关注机制的任务,如[11,29],但更灵活,并且可以纯粹用反向传播进行训练而不需要强化学习。使用注意力的一个关键好处是可以转换(以及如此参与)较低分辨率的输入,以支持更高分辨率的原始输入,从而提高计算效率。
本文的其余部分组织如下:第二部分讨论了与我们自己有关的一些工作,我们在第二节中介绍了空间变换器的制定和实施。第三部分最后给出实验结果。 第四部分为其他实验和实施细节在补充材料中给出,或者可以在arXiv版本中找到。
相关工作
在本节中,我们将讨论与本文相关的先前工作,包括用神经网络建模变换的核心思想[12,13,27],学习和分析变换不变表示[3,5,8,17,19,25 ],以及特征选择的注意和检测机制[1,6,9,11,23]。
Hinton [12]的早期工作着眼于为物体部分指定规范的参照系,这是一个在[13]中重现的主题,其中二维仿射变换被建模为创建由变换部分组成的生成模型。 生成训练方案的目标是变换的输入图像,输入图像和目标之间的转换作为网络的附加输入给出。 其结果是一个生成模型,可以学习通过组成零件来生成对象的变换图像。 Tieleman [27]进一步采用了变换部分组合的概念,其中学习部分被网络预测的变换显式仿射变换。 这种生成性胶囊模型能够从转化监督中学习用于分类的判别特征。
CNN表示对输入图像变换的不变性和等变性在[19]中通过估计原始图像和变换图像表示之间的线性关系来研究。 Cohen和Welling [5]分析了与对称组相关的这种行为,Gens&Domingos [8]提出的架构也利用这种结构,从而导致对称组更加不变的特征映射。 其他设计变换不变表示的尝试是散射网络[3],以及构造变换滤波器滤波器组的CNN [17,25]。 Stollenga等人 [26]使用基于网络激活的策略来控制网络过滤器对同一图像的后续正向传递的响应,因此可以允许关注特定功能。 在这项工作中,我们的目标是通过操纵数据而不是特征提取器来实现不变表示,这是在[7]中为聚类完成的。
有选择性地关注的神经网络通过获取作物来操纵数据,因此能够学习平移不变性。 像[1,23]这样的工作是通过强化学习来训练的,以避免需要可区分的注意机制,而[11]通过在生
图2:空间变换器模块的架构。 输入特征图U被传递到回归变换参数theta;的定位网络。 V上的规则空间网格G被转换成采样网格Ttheta;(G),它被应用于U,如第2节所述。 由3.3节产生扭曲的输出特征图V定位网络和采样机构的组合定义了空间变换器。
Spatial Transformer
成模型中利用高斯核函数来使用可区分的注意力机制。 Girshick等人的工作。 [9]使用区域提议算法作为关注的一种形式,[6]表明有可能用CNN回归显着区域。 我们在本文中提出的框架可以被看作是对任何空间变换的可微分关注的泛化。
空间变换器
在本节中,我们将描述空间变换器的表达式。 这是一个可区分的模块,它在单个正向通道期间将空间变换应用于特征映射,其中变换以特定输入为条件,产生单个输出特征映射。 对于多声道输入,每个声道都应用相同的变形。 为简单起见,在本节中我们考虑每个变换器的单变换和单输出,但是我们可以推广到多变换,如实验所示。
空间变换机制分为三部分,如图2所示。按照计算顺序,首先定位网络(3.1节)取输入的特征图,并通过一些隐藏层输出空间变换的参数 应该应用于特征映射 - 这会在输入上给出一个变换条件。 然后,使用预测的变换参数来创建采样网格,该采样网格是应该对输入映射进行采样以产生经变换的输出的一组点。 这是通过网格生成器完成的,如第3.2节所述。。 最后,特征图和采样网格作为采样器的输入,产生从网格点的输入采样的输出映射(3.3节)。
这三个组件的组合构成了一个空间变换器,现在将在下面的章节中对其进行更详细的描述。
3.1本地化网络
定位网络将宽度W,高度H和C通道的输入特征映射U isin; RHtimes;Wtimes;C与输出theta;(将要应用于特征映射的变换Ttheta;的参数:theta; = floc(U)相关联。 theta;的大小可以根据参数化的变换类型而变化,例如, 对于仿射变换theta;,在(1)中那样是6维的。
定位网络函数floc()可以采取任何形式,如完全连接的网络或卷积网络,但应包括最终回归层以产生变换参数theta;。
3.2参数化采样网络
为了执行输入特征映射的变形,通过应用以输入特征映射中的特定位置为中心的采样核心来计算每个输出像素(这将在下一部分中完整描述)。 按像素来说,我们指的是通用功能地图的元素,不一定是图像。 通常,输出像素被定义为位于像素Gi = (xti,yit)的规则栅格G = {Gi}上,形成输出特征图V isin; RH times;W times;C,其中H0和W0是高度 和网格的宽度,C是通道的数量,这在输入和输出中是相同的。
为了说明清楚,假设Ttheta;是2D仿射变换Atheta;。 我们将在下面讨论其他转换。 在这个仿射的情况下,逐点变换是其中(xti,yit)是输出特征映射中规则网格的目标坐标,,(xsi,yis)是定义采样
(1)
(a) (b)
图3:将参数化采样网格应用于产生输出V的图像U的两个示例。(a)采样网格是规则网格G = TI(G),其中I是身份变换参数,(b)采样网格是用仿射变换Ttheta;(G)扭曲规则网格的结果。
点的输入特征映射中的源坐标,并且 Atheta;是仿射变换矩阵。 我们使用高度和宽度的归一化坐标,使得当输出的空间界限内为minus;1 le; xti,yit le; 1,并且当输入的空间界限内为minus;1 le; xsi,yis le; 1(并且对于y坐标)。 源/目标转换和采样等同于图形中使用的标准纹理映射和坐标。
(1)中定义的变换允许将裁剪,平移,旋转,缩放和倾斜应用于输入特征映射,并且只需要定位网络产生6个参数(Atheta;的6个元素)。 它允许裁剪,因为如果变换是收缩(即左2times;2子矩阵的行列式具有小于1的行列式),那么映射的规则格将位于小于范围的平行四边形区域内。 图3显示了与身份变换相比,这种变换对网格的影响。
转换类别Ttheta;可能更受约束,例如用于注意的转换类型,通过改变s,tx和ty来允许裁剪, (2)
平移和各向同性缩放。变换Ttheta;也可以更一般化,例如具有8个参数的平面投影变换,分段仿射或薄板样条。事实上,如果变换关于参数是可微分的,则变换可以具有任何参数化形式 - 这极其允许梯度从采样点Ttheta;(Gi)反向传播到定位网络输出theta;。如果以结构化,低维度的方式对转换进行参数化,则可降低分配给本地化网络的任务的复杂性。例如,作为注意,仿射,投影和薄板样条变换超集的结构化和可微分变换的一般类是Ttheta; = Mtheta;B,其中B是目标网格表示(例如在(1)中,B是均匀坐标中的规则网格G),并且Mtheta;是由theta;参数化的矩阵。在这种情况下,不仅可以学习如何预测样本的theta;,还可以学习B来完成当前的任务。
3.3差分图像采样
为了执行输入特征图的空间变换,采样器必须取得该组采样点Ttheta;(G)以及输入特征图U并产生采样输出特征图V.
Ttheta;(G)中的每个坐标定义输入中的空间位置,其中采样内核被应用于获得输出V中特定像素处的值。 这可以写成
(3)
其中Phi;x和Phi;y是定义图像插值(例如双线性)的通用采样内核k()的参数,是输入的通道c中位置(n,m)处的值,并且Vic是像素的输出值 我在通道c的位置(xti,yit)。 请注意,采样对于输入的每个通道都是完全相同的,因此每个通道都以相同的方式转换(这保持了通道之间的空间一致性)。
理论上,只要可以根据xsi和yilt;
全文共14842字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[16077],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。