英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
支持向量数据描述的深度学习
Sangwook Kim, Yonghwa Choi, Minho Lee
摘要
机器学习方法最关键的问题之一是过度拟合。过度拟合问题是指对未知数据来说模型的精度差,而对训练数据而言模型的精度接近完美的现象。这个问题在具有大量参数的复杂模型中尤为严重。本文提出了一种采用支持向量数据描述(SVDD)的深度学习神经网络模型。SVDD是支持向量机的一个变种,它通过在一类分类问题中获得最大边缘来得到较高的泛化能力。该模型力求获得深度学习的表现力。使用SVDD保持泛化能力。实验结果表明,该模型能够在不存在严重过拟合问题的情况下学习多类数据。
关键词:支持向量数据描述;深度学习;模式识别;泛化
1、简介
模式识别的机器学习算法本质上依赖于所提取特征的特点[1]。深层学习模型利用大数据集学习复杂函数,从而可以通过深层神经网络结构自动提取高层特征。这些模型使用无监督学习进行互连权值初始化,然后使用教学信号信息进行有监督学习。
传统的深层神经网络结构使用多个隐藏层而不是单一的隐藏层。然而,通常很难确定一个足够的学习算法来训练这些具有多个隐藏层的互连权重。因此,在传统机器学习的情况下,多层互连权重有望取代手工的特定领域的特征工程[2]。此外,近年来的神经科学研究为有效构建深层特征提取提供了进一步的解释和背景信息[1]。
早期的研究集中于深度架构的重要性[3,4]。然而,使用深度学习并不是很普遍,部分原因是除了一些模型外,没有有效的学习方法[5]。受限玻尔兹曼机(RBM)是由Smolensky[6,7]发明的一种生成性随机神经网络,它可以学习一组输入的概率分布。此外,在Hinton等人提出了具有对比发散性的RBM网络[8]之后,使用RBM网络的深度架构由于不需要复杂的人工特征工程而显示出最先进的性能,因此在许多模式识别应用中变得相当流行。尽管训练有素的RBM网络显示出良好的性能[9,10],但学习算法需要仔细设置用户确定的元参数,如学习率、动量、权值正则化代价、权值初值、稀疏性目标、隐藏单元数和每个小批量的大小[11]。如果没有对这些参数进行优化设计,训练就不会显示出最佳性能,或者容易受到过度拟合问题的影响。
过度拟合问题是机器学习方法中最关键的问题之一。这是一种模型对未观测数据的精度明显低于训练精度的现象。当模型偏重于训练数据时,这个问题就会出现,而在具有大量参数集的复杂模型(如多层神经网络)中更为严重。为了解决这个问题,人们提出了几种方法。例如,权重分配技术可以用于神经网络的情况;它是成功的卷积神经网络学习的重要组成部分,被认为是最成功的深度架构之一[12]。此外,交叉验证技术将训练阶段数据集划分为各自的训练集和验证集。在该技术中,通过使用验证集进行测试来选择具有最大泛化性能的模型[13]。同样,对于人工神经网络,也特别提出了dropout正则化方法[14]。该方法包括使用冗余神经网络进行模型平均,通过防止对训练数据的复杂共适应来减少过度拟合。此外,Goodfellow等人最近提出了Maxout网络,以增强dropout正则化方法的优势[15]。最近Wan等人也提出了DropConnect[16] ,这是Hinton的辍学的一个广义版本,用于正则化大的完全连接层。
支持向量机(SVM)是解决过度拟合问题的另一种方法。Vapnik[17]提出的支持向量机是一种有监督的机器学习算法。具有浅层结构的支持向量机通常用于分类和回归,尤其是核技巧,它仅根据在训练数据点的稀疏子集上评估的核函数来执行对新输入的预测[18]。利用结构风险最小化(SRM)原理对支持向量机进行训练,即在最大边缘下构造最优决策超平面。在支持向量机中,最大边缘保证了较高的泛化能力,因为泛化误差可以用边缘来限制。支持向量数据描述(SVDD)是SVM的一个变种,它可以围绕一类训练数据建立一个最小球体来构造决策边界[20]。因为相对较少的错误标记示例或离群值会显著降低性能,SVM通常对噪声模式或离群值敏感。换言之,离群值会严重影响决策边界和边缘的计算。然而,在训练过程中,SVDD考虑了对数据集离群值的鲁棒性,从而得到了一个更合理的决策边界,从而使决策边界不受噪声或离群值的影响。此外,鉴于浅层SVDD架构不能有效地表示离群值,我们可以努力寻找覆盖浅层数据的深层学习架构。Kim等人的目的是用两类支持向量机(SVMs)对深部结构进行训练,但目前还没有确定离群值或网络深度的合理准则。本文提出了一种新的具有SVDD的深度学习结构,以获得深度学习的表现力和SVDD的泛化能力。此外,选择具有置信度的最佳深度可以灵活地选择在该分布上具有最稳健的深层结构表示的层。
本文的其余部分安排如下:在第2节中,描述了与所提出的模型相关的工作。第三节概述了所提出的模型,第四节给出了实验结果。最后,在第5节中提出了总结意见和今后的工作。
2、相关工作
该模型采用基于级联SVDDs的深层结构。在本节中,将简要介绍SVDD以及与深层架构相关的过度设置问题。
2.1 支持向量数据描述
SVDD是传统SVM的变体,如前所述;因此,SVM和SVDD都在本小节中进行了简要描述。支持向量机是一种有监督的学习方法,广泛应用于分类和回归任务中。对于线性可分问题,支持向量机得到边缘距离分类超平面,并使超平面到每边最近数据点的距离最大。SVM支持向量表示距离超平面最近的训练数据点。因此,为了定义决策边界,支持向量机公式依赖于支持向量,支持向量是判别边界上和两类分离边界内的样本点。
Schoacute;lkopf等人使用超平面将目标对象与具有最大边距的原点分离[22]。该公式可与Vapnik的支持向量机进行比较;此外,还可以定义隐式映射来获得更灵活的数据集描述。该模型也称为单类支持向量机。在该模型中,原点被视为第二类的唯一成员,然后使用松弛参数将一类的数据与原点分离。
SVDD是Tax和Duin提出的一种方法,用于确定类的给定数据集周围的边界[20]。SVDD已经成功地应用于许多应用领域,如手写数字识别[23]、面部识别[24]和异常检测[25,26]。
SVDD的封闭超球体将高密度数据的内部区域与低密度数据的外部区域分开。一般来说,由于估计目标数据的概率密度需要大量样本,SVDD通过在给定数据周围构造一个球体来创建训练数据的描述;边界可用于检测哪些对象与所学习的训练集相似。简而言之,它对训练集中的离群值提供了一些鲁棒性[20]。
超球体可以定义为球心a和半径R。要使用超球体构建数据周围的闭合边界,最小化的误差函数可以定义如下:
F(, a)= (1)
有以下约束条件:
,=1,hellip;, N, (2)
其中代表训练数据集的第个样本向量。通过最小化方程(1)中的函数,可以得到最小的闭球。然而,为了允许训练集中离群值的可能性,从到球心a的距离不应该被严格认为小于。相反,应该对更远的距离进行惩罚。因此,使用松弛变量,最小化问题可以表示如下:
几乎所有的对象都在球体内
(4)
在这里,通过控制参数C,可以调整超球体体积和误差之间的平衡。使用拉格朗日乘子,方程(3)和(4)可合并如下:
利用拉格朗日乘子,和, hellip; ,N。这个函数L应该相对于R,a和最小化,相对于和最大化。此外,通过将偏导数设为零并将这些约束代入式(5),我们得到
它受和, hellip; ,N的约束。如果给定示例x,则示例与球体中心之间的距离计算如下:
其中
注意,这里,支持向量()被排除在计算外,因为它们不包括在球体中;即,它们被视为训练集中的离群值。此外,如果描述值不小于C,则测试样本被归类为离群值。与支持向量机相似,SVDDs也可以直接利用核扩展。因此,问题可以表述如下:
其中,是映射到高维特征空间的函数。利用映射和核函数,将式(7)转换为
式中,表示满足Mercer定理以及的核函数。SVDD的输出可计算如下:
在式(10)中,如果样本位于边界内,则输出为正值。如果样本位于边界之外,则输出为负。如果需要值介于0和1之间的概率输出,则可以使用规范化重新缩放输出。
2.2 深层神经网络结构中的过度拟合问题
通常通过过度约束神经网络来解决问题。利用Vapnik函数和Chervonenkis函数的饱和性质,对隐节点数固定的前向网络泛化所需训练样本数的下界进行了渐近估计[27]。虽然较小的网络无法准确地表示问题,但参数过多的网络实际上会受到过多的影响,导致测试数据的泛化性较差。据报道,为避免这种过度拟合已经做出了许多努力。属于这种方法的流行传统算法包括权重衰减[28]和权重共享[5,12,29,30]等。这些方法通常通过剪枝算法降低网络复杂度来达到目的。早停法可以用来避免对训练数据的过度拟合[31];但是,在深度学习中使用的范式[32]可能会有问题,因为早停法本身就是一个正则化器,可以显著影响获得的训练错误[33]。
以上的工作集中在模型的复杂性上。另一种减少过度拟合问题的方法是获得大量数据,因为泛化性能与网络的复杂性和训练样本的数量有关。在统计学习理论中,可能近似正确(PAC)框架[34]解决了理解数据集必须有多大才能提供良好泛化的问题。然而,深度架构随机梯度下降的训练方法也容易出现过拟合[33]。在早期训练中,小扰动允许模型参数从一个流域切换到附近的流域,而在后期训练中则不太可能从吸引子中“逃脱”。因此,早期的例子可能具有显著的影响,并且在实践中,在参数空间的特定区域中捕捉模型参数,这些区域对应于训练例子的特定和任意顺序。因此,虽然涉及到大量的数据,但是随机梯度下降方法在训练数据上,特别是在训练过程的早期呈现的数据上,会受到过多的限制。此外,由于在深度架构训练期间,各层参数之间存在着很强的依赖性[33],因此在这些架构中应仔细考虑泛化和过度拟合问题。
统计学习理论并没有给出实际误差的值,而是给出了一个上界。关键是选择达到最小上界的模型,以获得泛化性能最好的模型。本文主要研究了支持向量机及其变种SVDD的结构风险最小化(SRM)能力。在支持向量机学习中,边缘的最大化在一系列增加边缘的假设空间上执行SRM[35]。
3、拟建模型
在本节中,将解释使用SVDD的深层架构。如第1节所述,多层深层建筑为分类提取高度抽象的特征。此外,带有SVDD的深层用于捕获有助于区分模式的特征。
该模型的总体结构如图1所示。隐藏层使用SVDD值提取特征。在所提出的模型中,每一层在多类数据集中的每一个类上设置一个SVDD,即对于k类分类问题,每一个隐藏层由k个SVDD节点组成。由于SVDD测量的是训练球中心与测试样本之间的距离,因此选择可信度最高的SVDD节点来执行k类问题的每一层决策。
在该模型中,与传统的人工神经网络一样,一个隐含层的输入向量与前一层输出值是相串联的。因此,对于k类问题,隐藏层的输入向量的维数固定为k。然而,与传统的人工神经网络不同,在所提出的模型中,最终层和中间层都可以提供对测试数据的决策。由于描述可以被视为与每个SVDD节点的决策的可信度度量相关的值,因此如果数据不满足可信度规则,则使用转换后的特征向量将给定数据重新输入到下一层。否则,当前层将显示对数据的最终决定。这由图2中的二维示例来说明。
在图2中,是球的中心,和表示二维数据的每个轴。实线描述了球体的边界;包含测试样本的球体区域被识别为类标签。虚线表示类别确认区域。如果给定的二维基准位于置信区域内,则将其确定为类标签。如果它位于置信区域之外,则当前SVDD节点不会对此数据做出决定。在由多个SVDD节点组成的层中,如果没有SVDD节点做出决策或多个节点同时将数据分类为它们的类,则该数据被视为可疑数据,并被传递到下一层,在该层中输入下一个SVDD层。但是,值得注意的是,原始数据不会传播到下一层。这一点如图3所示。当给定的数据在当前层显示可疑结果时,通过将类1的SVDDs给出的的描述串接到k并作为向量来创建到下一层的输入。k维向量的元素是前一层的k个SVDD输出,其中是第个SVDD的描述输出值,可使用式子(10)和标准化运算来进行计算。因此,对于k类分类问题,深层的输入特征向量变为k维。
要确定信任区域,必须确定信任措施。例如,样本上第个节点的置信度可以定义如下:
其中是第个SVDD节点超球面的中心,是第个SVDD节点的半径,并确定了与样本和之间距离相关的置信度衰减速度。阈值用于确定样品是否合格。如果一个SVDD节点的置信度大于阈值,而其他节点的置信度小于阈值,则该样本在层中被分类为具有置信度的类。否则,样本将传播到下一层。算法1总结了上述训练过程。
图1 拟建的模型结构
图2 置信区域的描述示例
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[254235],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。