英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
深度学习的概率框架
安吉特·帕特尔(Ankit B.Patel) 谭阮(Tan Nguyen) 理查德·巴拉纽克(Richard G.Baraniuk)
莱斯大学贝勒医学院 莱斯大学 莱斯大学
ankitp@bcm.edu,abp4@rice.edu mn15@rice.edu richb@rice.edu
摘要
基于深度渲染混合模型(DRMM),我们开发了用于深度学习的概率框架,这是一种新的概率生成模型,可以显式地捕获由于潜在任务干扰变量而导致的数据变化。我们证明了深度渲染混合模型中的最大和推理产生了一种算法,该算法准确地再现了深度卷积神经网络(DCNs)中的操作,提供了第一原理指 导。我们的框架为深度卷积神经网络的成功和不足提供了新的见解,并为其改进提供了原则性途径。
通过期望最大化(EM)算法进行深度渲染混合模型训练是深度卷积神经网络(DCNs)反向传播的一个强大替代方案,并且初始训练结果是值得期待的。基于深度渲染混合模型(DRMM)和其他变体的分类在监督数字分类性能优于深度卷积神经网络(DCNs),训练速度更快,同时达到类似的准确性。而且,深度渲染混合模型(DRMM)适用于半监督和非监督学习任务,在MNIST基准测试中,在多个类别中提供了最新的结果,并可以与CIFAR10基准上的最新技术相媲美。
1引言
从识别图像中的物体到理解语音信号中的音素,人类可以熟练地完成一系列复杂的感官推理任务,尽管存在着诸如物体的位置、方向、大小以及发音、音高和音量等重大变化。事实上,在视觉、语音和自然语言处理等许多感官感知任务中,主要的挑战就是大量的这种令人讨厌的变量。麻烦的变化通过将具有少量变量的简单统计推断问题(例如,类别标签)转变为高维问题,使感知变得复杂。开发推理算法的关键挑战是如何剔除输入中所有有害的变化。在过去几十年里,大量的文献从无数不同的角度来研究这个问题,但是最困难的推理问题仍然无法解决。
最近,一种新的机器学习算法出现了,用于高干扰性推理任务,在许多情况下获得超人的表现。这种架构的一个主要例子就是深度卷积神经网络(DCNs)已经在视觉目标识别与定位,语音识别和语音部分识别
等任务中取得了巨大的成功。
深度学习系统的成功令人印象深刻,但一个基本问题仍然存在:它们为什么有效? 直觉可以解释他们的成功。一些解释集中在特征不变性和多层开发的选择性,而另一些则归功于原始的计算能力和可用的训练数据量。然而,除了这些直觉之外,一个用于理解、分析和综合深度学习体系结构的连贯的理论框架仍然难以捉摸。
在本文中,我们开发了一个新的理论框架,该框架为深度学习系统的成功和不足提供了见解,以及设计和改进的原则路线。我们的框架是基于一个明确捕捉变化由于潜在的有害变量的概率生成模型。渲染混合模型(RMM)通过一个渲染函数,将任务目标变量(例如,对象识别中的对象类)与任务扰害变量集合(例如,姿态)结合起来,明确地为扰害变化建模。深度渲染混合模型(DRMM)通过跨多个抽象级别的仿射干扰转换的产物进行渲染,以分层的方式扩展了渲染混合模型(RMM)。渲染混合模型(RMM)和深度渲染混合模型(DRMM)的图形结构允许通过消息传递(例如,使用max-sum/product算法)和通过期望最大化(EM)算法进行训练进行有效推理。我们框架的一个关键元素是将RMM/DRMM生成模型放宽为有区别的模型,以优化偏差-方差权衡。下面,我们证明了松弛DRMM中涉及的联合映射推断的计算与卷积神经网络(DCN)中的计算完全一致。
DRMM和DCNs之间的紧密联系为我们提供了一系列关于它们如何以及为什么能起作用和不能起作用的新见解。虽然我们的理论和方法适用于各种不同的推理任务(包括,例如,分类、估计、回归等),这些任务具有许多与任务无关的干扰变量(包括,例如,物体和语音识别),为了说明的具体性,下面我们将重点讨论视觉对象识别背后的分类问题。几个结果的证明出现在附录中。
2 相关著作
深度学习理论。我们的理论工作与其他几个这样的工作有相似的目标,例如i-Theory[1](本工作的早期启发之一),妨扰管理[24],散射变换[6],以及Arora等人提出的简单稀疏网络[2]。
层次生成模型。DRMM与几个层次模型密切相关,包括深层混合因子分析模型[27]和深层高斯混合模型[29]。
与上面的模型一样,DRMM尝试使用参数共享、明确地捕获有害转换的概念、学习选择性/不变性并促进稀疏性。然而,区别于其他DRMM方法的关键特性是: DRMM通过仿射变换的产物明确地为跨多个抽象层次的讨厌变化建模。这种分解的线性结构有双重目的:它使推理易于处理(通过最大和/乘积算法),并且它作为一个正则器,通过参数数量的指数减少来防止过拟合。关键的是,推理不是针对单个利益变量,而是针对妨害变量的整个全局配置。这是合理的低噪音设置。最重要的是,我们可以精确地推导出DCN的结构,将卷积、矫正线性单元、空间最大池化等DCN操作赋予有原则的概率解释。独立于我们的工作,Soatto等人[24]也强烈关注滋扰管理是定义好场景表现的关键挑战。然而,他们的工作将最大池化和ReLU视为对边缘可能性的近似,而我们的工作则根据特定概率生成模型中的最大和推理对这些操作进行了不同的解释。关于DCNs[14]中线性区域数目的研究与我们的研究是互补的因为它揭示了DCN可以计算的函数的复杂性。这两种方法可以结合起来回答这样的问题:需要多少模板才能准确地辨别?学习需要多少个样本?我们计划在今后的工作中继续探讨这些问题。
半监督神经网络。最近在为半监督学习(少量标记数据,大量未标记数据)设计的神经网络方面的工作,已经看到了类似生成的方法的复兴,如阶梯网络[17],堆叠什么地方自动编码器[31]和许多其他的。这些网络架构用一个或多个正则化项增加了通常的任务损失,通常包括一个图像重建错误,并联合训练。与我们基于DRMM的方法的一个关键区别是,这些网络不是由适当的概率密度产生的,因此它们必须分别学习自底向上识别和自顶向下重建权重,而且它们不能跟踪不确定性。
3 .深渲染混合模型:捕获滋扰变化
尽管我们在本文中重点关注DRMM,但我们定义并探索了其他几个有趣的变体,包括深度渲染因子模型(DRFM)和演化DRMM (EDRMM),这两个都在[16]和附录中进行了更详细的讨论。E-DRMM特别重要,因为它的最大和推理算法产生的决策树与随机决策林分类器[5]中使用的类型相同。
图1:图形模型描述(A)浅渲染模型和(B) DRMM。为了清晰度,所有对像素位置x的依赖都被抑制了。(C) DRMM的稀疏路径求和公式。渲染路径只有在活动时才有贡献(绿色箭头)。
3.1(浅)渲染混合模型
RMM是图像的生成概率模型,它明确地建模了同一物体c受滋扰g(g属于G)影响的图像I之间的关系,其中G是所有滋扰的集合(图形模型描述见图1A)。
在这里,micro;cg是一个模板,它是一个类c和滋扰g的函数。开关变量a = {ON, OFF}决定是否在一个特定的补丁上渲染模板。因此,a的稀疏性先验鼓励每个补丁有几个原因。噪声分布来自指数族,但不失一般性,下面我们用高斯噪声来说明。我们假设噪声的i.i.d.是像素位置x的函数,并且类和扰度变量根据类别分布独立分布。(独立只是发展的便利;实际上,g可以依赖于c。) 最后,由于世界是空间变化的,并且一个图像可以包含许多不同的对象,所以很自然地将图像分解成许多以单个像素x为中心的补丁。(1)中描述的RMM适用于补丁级别,其中c、g和a依赖于像素/补丁位置x。我们将在上下文清楚时忽略对x的依赖。
浅层RMM中的推理产生DCN的一层。现在我们将RMM与深度卷积网络(DCN)某一层的计算连接起来。为了使用RMM进行对象识别,我们必须边缘化有害变量g和a。将g和a的对数后验值最大化,然后选择最可能的类产生最大和分类器,该分类器计算图像最可能的目标和扰害变量全局配置
假设高斯噪声被添加到模板中,图像被归一化,使I的二范数为1,c, g均匀分布,(2)成为其中是由现代DCNs中矫正线性单元执行的软阈值操作。这里我们重新参数化了RMM模型,关系被称为生成参数约束。
我们现在证明(3)中的max-sum分类器的操作序列与DCN的一层所涉及的操作完全一致:图像归一化、线性模板匹配、阈值化和最大池化。首先,对图像进行归一化(通过假设)。第二,图像是用一组噪声缩放的渲染模板wcg过滤。如果我们假设RMM具有平移不变性,那么呈现的模板wcg会在DCN[10]中生成一个卷积层(参见附录引理a .2)。第三,产生的激活(假设的对数概率)通过池化层传递;如果g是一个平移干扰,那么取最大值除以g对应于DCN中的最大池。第四,由于切换变量是潜在的(未观察到的),我们最大限度地边缘化在分类时超过他们。这就导致了ReLU操作(见附录命题A.3)。
3.2深层渲染混合模型:捕捉抽象层次
对现代数据集来说,将RMM中的有害g边缘化是很难的,因为g将包含高维有害变量g的所有配置。作为回应,我们将RMM扩展为一个分层深度渲染混合模型(DRMM),将g分解为多个不同的烦人变量g(1), g(2),hellip;,g(L)在不同的抽象级别。DRMM图像生成过程从最高抽象级别(l= L)开始,随机选择对象类c(L)和总体麻烦事g(L)。随后是对较低级别的细节g(l)的随机选择(为了简洁起见,我们将转换变量a吸收为g),逐步逐级呈现更具体的信息。DRMM中的生成采用以下形式:
潜在变量、参数和帮助变量在附录B中详细定义。
DRMM是一种深层高斯混合模型(GMM),对潜在变量有特殊的约束。这里,c属于C和g属于G,其中C是目标相关妨害变量的集合,G是所有与目标无关的妨害变量在l级的集合。渲染路径被定义为序列(c(L), g(L),hellip;,g(l),hellip;,g(1))从根(整体类)到L = 0处的单个像素。micro;c(L)g是用于渲染图像的模板,它代表了从抽象到具体时部分渲染精细尺度细节的局部讨厌转换序列。请注意,每个都A是带有偏置项g的仿射变换,为了清楚起见,我们抑制了偏置项g。对应的图形模型如图1B所示。与前面一样,我们在层次结构的l级抑制了g(l)对像素位置x(l)的依赖。
DRMM的路径求和公式。我们可以通过将矩阵乘法展开为标量乘积来重写DRMM的生成过程。这为DRMM带来了一个有趣的新视角,因为每个像素强度Ix是到该像素的所有活动路径的总和,以及该路径上权值的乘积。如果渲染路径p上的每个开关都是激活的,即A = 1,则该路径p是激活的。虽然存在指数级的多种可能的渲染路径,但只有很小一部分是有效的,受a的稀疏性控制。图1C用图形描述了路径求和公式。
递归形式和非负形式。我们可以将DRMM重写为递归形式。我们将辅助潜变量z(l)称为中间呈现的模板。我们也将非负DRMM (n -DRMM)定义为DRMM,在中间渲染模板上有一个额外的非负性约束。后者是通过在自上而下的推理重构阶段使用ReLu操作在训练中强制执行的。在本文的其余部分中,我们将把重点放在NN-DRMM上,留下无约束的DRMM用于未来的工作。为简洁起见,我们将去掉NN前缀。
因素模型。我们还定义和探索了DRMM的一种变体,其中的顶级潜在变量是Gaussian。在其他方面,递归生成过程与DRMM相同。我们称之为深度渲染因子模型(DRFM)。DRFM与spike - slab稀疏编码模型[22]密切相关。下面我们将探索一些训练结果,但是我们将大部分探索留给未来的工作。(DRFM的浅版本RFM架构见附录C图3)
自由参数数。与具有参数的浅RMM相比,DRMM只有参数,自由的数量呈指数下降参数(这里是带有D的l层的单元数)。这使得有效的推理、学习和更好的泛化成为可能。注意,我们在这里假设了密集的(全连接的)g;如果我们施加更多的结构(例如平移不变性),参数的数量将进一步减少。
自底向上的推理。在浅RMM中,给定一个输入图像I, DRMM分类器推断出最可能的全局配置{c(L), g(L)}, L = 0,1,hellip;,L通过分两个阶段执行max-sum/product消息传递算法。自底向上(从细到粗)推断整体类别标签c,自顶向下(从粗到细)推断所有中间层次的潜在变量g在层次l。首先,我们将关注从细到粗的传递,因为它会直接导致DCNs。利用(3),给出了从细到粗的NN-DRMM推理算法来推断最可能的类别。
在这里,我们假设了偏差项crarr;为 0。在第二行,我们使用了max-product算法(max除以product的分配性,即对于一个agt; 0,max{ab, ac} = a max{b, c})。详情见附录B。这使得我们可以递归地重写(7):
其中I是第l层的输出特征映射,I和W是第l层的过滤器/权值。由(3)可知(7)和(8)的l迭代对应DCN的l层前馈传播。因此,DCN的操作具有从细到粗的概率解释DRMM中最可能的配置推断。
自上而下的推理。我们基于生成模型的方法的一个独特贡献是,我们对NN-DRMM有一个有原则的自顶向下推理算法推导(附录B)。得到的算法相当于一个简单的自上而下的重建项。
歧视性放宽:从生成型到歧视性分类器。我们已经构建了DRMM和DCNs之间的对应关系,但是映射还没有完
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[264538],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。