深度学习的概率框架外文翻译资料

 2022-08-05 11:22:11

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


摘要:我们在深度呈现混合模型(DRMM)的基础上开发了一个用于深度学习的概率框架,DRMM是一个新的生成概率模型,它将精确捕捉由于潜在任务干扰变量而导致的数据变化。我们推理产生了一个精确再现深度卷积神经网络(DCNs)中的运算,提供了一种新的方法原理推导。我们的框架为成功和成功提供了新的见解DCNs的缺点及其改进的原则性途径。DRMM公司通过期望最大化(EM)算法进行训练是一种强有力的替代方法对DCN进行反向传播,初步训练效果良好。分类基于DRMM和其他变体,在有监督的数字签名方面优于DCNs分类,训练2-3⇥更快,同时达到相似的精度。而且DRMM适用于半监督和非监督学习任务,在MNIST基准上实现多个类别的最新结果与CIFAR10基准上的最先进水平相当。

1.简介

人类擅长于从识别物体到复杂的感官推理任务,在一个图像中,理解语音信号中的音素,尽管有显著的变化,例如音高物体的位置、方向和尺度以及发音、音高和音量。事实上,视觉、言语和自然语言中的许多感官感知任务面临的主要挑战处理是这种讨厌的变化的一个很大的量。干扰变化使感知复杂化通过将简单的统计推断问题转化为少量变量(例如:类标签)进入更高的维度问题。推理开发中的关键挑战算法就是如何将输入中的所有干扰变化都考虑在内。在过去的几十年里,从无数不同的角度来探讨这个问题的大量文献已经发展起来,但是最困难的推理问题一直无法解决。

近年来,出现了一种新的机器学习算法,用于高干扰推理任务,在许多情况下达到超人的表现。这种建筑的典型例子是深度卷积神经网络(DCN),它在视觉的目标识别与定位,语音识别与词性识别等任务中取得了巨大成功。

深度学习系统的成功令人印象深刻,但一个根本的问题仍然存在:它们为什么会这样做工作?直觉可以解释他们的成功。一些解释侧重于特征的性质不变性和选择性在多个层次上发展,而其他人则相信原始的计算能力功率和可用训练数据量。然而,在这些直觉之外理解、分析和综合深度学习架构的理论框架仍然难以捉摸。

在这篇论文中,我们提出了一个新的理论框架,为这两个成功案例提供了见解以及深度学习系统的缺点,以及设计和改进的原则性途径。我们的框架是建立在一个生成概率模型的基础上的,该模型明确地捕捉到了变化由于潜在的干扰变量。渲染混合模型(RMM)显式地对干扰进行建模通过结合任务目标变量的呈现函数(如第30届神经信息处理系统会议(NIPS 2016),西班牙巴塞罗那。目标识别)和一组任务干扰变量(如姿势)。深度渲染混合模型(DRMM)通过一个混合模型的乘积,以分层的方式扩展RMM跨多个抽象层次的仿射变换。图形结构RMM和DRMM通过消息传递(例如,使用最大和或者乘积实现有效的推断算法),并通过期望最大化(EM)算法进行训练。我们的框架是将RMM/DRMM生成模型松弛为一个有区别的模型,以便优化偏差-方差权衡。下面,我们将演示联合计算所涉及的计算松弛DRMM中的映射推断与DCN中的映射推断完全一致。

2.相关工作

深度学习理论。我们的理论工作与其他一些类似的目标作为i-理论[1](这项工作的早期启示之一),妨害管理[24],散射变换[6],以及Arora等人提出的简单稀疏网络[2]

分层生成模型。DRMM与多个层次模型密切相关,包括因子分析的深度混合[27]和深度高斯混合模型[29]。

与上述模型一样,DRMM试图采用参数共享,捕捉显式地进行讨厌的变换,学习选择性/不变性,并促进稀疏性。然而,区别DRMM方法与其他方法的关键特性是:(i)DRMM方法通过仿射变换的一个乘积,对多个抽象层次上的变化进行建模。这种因式分解的线性结构有两个目的:它支持(ii)可处理的推理(通过最大和/积算法),以及(iii)它作为正则化器,以防止指数函数的过度拟合减少参数数量。关键是,(iv)没有对单个变量进行推断,有趣的是,相反,对于讨厌的变量的完整全局配置。这在低噪声设置下是合理的。最重要的是,(v)我们可以精确地导出DCNs的结构DCN操作,如卷积,校正线性单位,空间最大池与原则概率解释。独立于我们的工作,Soatto等人[24]也非常关注于妨害管理,这是定义良好场景表示的关键挑战。然而,他们的工作认为最大池和ReLU近似边缘化的可能性,而我们的这项工作对这些操作的解释不同,在一个特定的概率条件下的最大和推断生成模型。关于DCNs中线性区域数目的工作[14]是对我们的研究的补充,它揭示了DCN可以计算的函数的复杂性。两种方法可以结合起来回答这样的问题:需要多少模板才能获得准确区别?学习需要多少样本?我们计划在2010年继续探讨这些问题今后的工作。

Semi-Supervised神经网络。最近在半监督神经网络设计方面的工作学习(少量标记数据,大量未标记数据)已经看到了生成式的ap方法的复兴,如阶梯网络[17],堆叠什么地方自动编码器(SWWAE)[31]和其他许多人。这些网络架构通过一个或多个正则化增加了通常的任务损失术语,典型地包括一个图像重建错误,并联合训练。一个关键的不同之处在于:基于drmm的方法是这些网络不是由一个适当的概率密度和as产生的,因此必须借助于自底向上的识别学习和自顶向下的重建权重分开,他们无法追踪不确定性。

3.深渲染混合模型:捕获滋扰变化

虽然我们在本文中主要讨论DRMM,但我们还定义和探索了其他几个有趣的东西变体,包括深度渲染因子模型(DRFM)和进化DRMM (EDRMM),这两个都在[16]和附录中有更详细的讨论。E-DRMM尤其重要,因为它的最大和推理算法产生的决策树的类型在一个随机决策森林分类器[5]。

图1:图形模型描述(A)浅渲染模型和(B) DRMM。为了清晰度,已经抑制了对像素位置x的所有依赖。(C)稀疏路径求和DRMM的制定。渲染路径只有在活动时才有贡献(绿色箭头)。

3.1(浅)渲染混合模型

RMM是一个生成概率模型的图像,明确在同一物体c受滋扰的图像I之间的建模关系,其中g为所有滋扰的集合(图形模型描述见图1A)

这里,是一个模板,这个模板是类c和危害g的函数。交换变量决定是否在特定的补丁上渲染模板;因此一个先验a的稀疏性鼓励每个补丁有几个原因。噪声分布来自于指数的家庭,但在不丧失一般性的情况下,我们在下面的例子中使用高斯噪声N (0, sigma;21)。我们假设噪声是像素位置x的函数i.i.d.,并且噪声的种类和危害变量根据分类分布独立分布。(独立只是为了方便发展;实际上,g可以依赖于c。)最后,既然世界是空间变化,一幅图像可以包含许多不同的物体,这是很自然的图像上的一些以单个像素x为中心的补丁。(1)中描述的RMM应用于补丁级别,其中c、g和a取决于像素/补丁位置x。当它从上下文中明确时,我们将省略依赖于x。

浅层RMM中的推理产生DCN的一层。现在我们将RMM与深度卷积网络(DCN)一层的计算。进行使用RMM进行物体识别,我们必须排除烦人的变量g和a。最大化log-posterior在和上,然后选择最有可能的类产生最大和分类器

计算图像中最可能的目标和有害变量的全局配置。假设模板中加入了高斯噪声,然后图像归一化,如此,c, g是均匀分布的,(2)变成

这里是现代DCNs中由先进线性单元执行的软阈值操作。这里我们重新参数化了RMM模型时刻的参数

到自然参数

关系被称为生成参数约束。

我们现在证明(3)中的最大和分类器中的操作序列完全一致,DCN的一层涉及到的操作有:图像归一化、线性模板匹配、阈值和最大池化。首先,对图像进行归一化(通过假设)。第二,图像是使用一组噪声缩放的渲染模板进行过滤。如果我们假设在RMM中平移具有不变性,然后渲染模板在DCN[10]中生成卷积层。(见附件引理A.2)。第三,结果激活(假设的对数概率)通过一个池层被传递;如果g是一个平移干扰,那么取最大值除以g对应DCN中的最大池。第四,由于切换变量是潜在的(未观察到的),在分类时我们最大限度地边缘化超过他们。这就导致了ReLU操作(见附录命题A.3)。

3.2深层渲染混合模型:捕捉抽象层次

对现代数据集来说,将RMM中令人讨厌的边缘化是很难的,因为G将包含高维扰害变量g的所有构型。作为回应,我们延长了通过将g分解为若干个RMM,将RMM分解为一个分层深度渲染混合模型(DRMM)不同的妨害变量g(1),g(2),hellip;,g(L)以不同的抽象层次。DRMM形象生成过程从最高抽象级别(= L)开始,随机选择对象类别c(L)及整体妨害行为g(L)。然后是低级别的随机选择细节

(为了简洁,我们将切换变量a吸收为g),逐步呈现更多具体信息逐级

,直到这个过程最终在一个完全渲染中达到高潮d维图像I( = 0)。DRMM中的生成采用以下形式:

其中潜在变量、参数和辅助变量在附录B中有详细定义。DRMM是一种深层高斯混合模型(GMM),对潜在变量有特殊的约束。这里,

其中是目标相关妨害变量的集合,是所有与目标无关的妨害变量的集合。渲染路径被定义为序列,从根(整体类)到 = 0处的单个像素。micro;c(L)g是用来渲染图像的模板,表示局部的序列,当我们从抽象到具体时,部分呈现更精细的细节的讨厌的转换。请注意,每个都是一个带有偏倚术语的仿射变换,我们已经对其进行了抑制

清晰。对应的图形模型如图1B所示。和之前一样,我们抑制了在层次结构的级别上对像素位置的依赖性。

DRMM的路径求和公式。我们可以重写DRMM生成过程,将矩阵乘法展开为标量乘法。这产生了一个有趣的对于DRMM的视角,作为每个像素强度便是所有的和,到那个像素的活动路径,沿着路径的权值的乘积。绘制路径p是活跃的iff,路径上的每个开关都是激活的,即。虽然有很多可能的渲染路径是存在的,只有非常小的一部分,受a的稀疏性控制,是活跃的。图1C描绘了路径总和形成图形。

递归形式和非负形式。我们可以将DRMM重写为递归形式,如

,其中。我们将辅助潜变量z()称为中间呈现模板。我们也将非负DRMM (n -DRMM)定义为DRMM,在中间渲染模板上附加非负性约束,

后者是通过在自上而下的重建中使用ReLu操作在培训中实施的阶段的推理。在本文的其余部分中,我们将把重点放在NN-DRMM上,留下

无约束的DRMM用于未来的工作。为简洁起见,我们将去掉NN前缀。

因素模型。我们还定义和探索了DRMM的一种变体,其中存在顶级级别变量是高斯:而递归生成过程则不然与DRMM相同:

。我们称之为深度渲染宽带数字储频因素模型(DRFM)与spike - slab稀疏编码模型[22]密切相关下面我们将探索一些训练结果,但是我们将大部分探索留给未来的工作。(DRFM的浅版本RFM架构见附录C图3)

自由参数C的数量。与具有参数的浅RMM相比,DRMM只有参数,自由数量呈指数减少。(这里是在带有的第1层中的单元数)。这支持有效的推理、学习和更好的概括。注意,我们已经假设了密度(完全连接);如果我们施加更多的结构(例如平移不变性),则参数将进一步减少。

自底向上的推理。在浅RMM中,给定一个输入图像I, DRMM分类器推断最可能的全局配置, = 0,1,hellip;,L通过执行最大总和/产品消息传递算法分为两个阶段:(i)自底向上(从细到粗)推断整个类标记ccirc;(L)和(ii)自上而下(从粗到细),推断潜在变量在所有中间水平”。首先,我们将关注从细到粗的传递,因为它会直接导致DCNs。使用(3),从细到粗的NN-DRMM推理算法来推断最有可能的类别ccirc;(L)是由

在这里,我们假设了偏差项= 0。在第二行中,我们使用了max-product算法(乘积上最大值的分配性,即对于agt; 0,max{ab, ac} = a max{b, c})。详情见附录B。这使得我们可以递归地重写(7):

其中是层的输出特征映射,和是层的过滤器/权重。与(3)相比,我们看到(7)和(8)的次迭代对应于前馈传播在DCN的层。因此,DCN的操作具有从细到粗的概率解释DRM

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[262310],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。