英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料
支持向量回归机的基本理论
Aly Farag Refaat M Mohamed
路易斯维尔大学
电气及计算工程学院
2004年12月
绪论
支持向量机理论(Support Vector Machines, SVM)由Vapnik最先创立,主要用于解决聚类问题。随着理论的不断完善与发展,目前支持向量机已经被成功引入到回归及密度估计问题中。支持向量机之所以被广泛运用,主要因其具有多个值得关注的特点和优良的实验性能。例如,支持向量机密度估计理论采用了结构风险最小化原理(Structural Risk Minimization, SRM),该原理在应用于传统学习算法如神经网络算法时,展示出优于传统经验风险最小化(Empirical Risk Minimization, ERM)的性能。结构风险最小化可以降低泛化误差的上界,即减小了测试数据的误差,这一点正好与经验风险最小化算法截然相反,这一差异使得结构风险最小化原理在统计学习应用中更具吸引力。
支持向量机密度估计的传统理论构造了一个与测试数据集相同维度的二次最优化问题,该方法在计算上避免了支持向量机陷入无解的模式识别中。
为了避免支持向量机的缺陷,现已有多种方法被引进到支持向量机学习中。这些方法包括简化支持向量机算法的优化准则(如核心 ADATRON),深化QP算法如共轭梯度法、分解技术(将大型QP问题分解成一些列子问题),序列最小优化算法(Sequential Minimal Optimization, SMO)及其各种延伸算法,多核判别分析,贝叶斯贪婪算法和组合算法。近年来,在大规模学习任务的复杂度降低处理上,主动学习法已经成为一种热门范例。主动学习法摒弃了从随机样本中学习的模式,反之,学习者具备能力选取所需的训练数据。通过反复迭代,每一步的输出都会被用做下一步数据的筛选依据。
这一学习思想展示了支持向量回归算法的数学原理,它是一种采用了平均场理论(Mean Field theory)的学习算法。平均场方法可提供有效的近似值,该近似值可以较好应对概率数据模型的复杂度。此外,平均场方法可以通过解决一系列相对简单地线性方程避免高维求和积分等复杂计算。在回归问题中,平均场方法可用来近似代替学习程序从而避免二次最优化,这一方法对高维回归问题具有较好适用性,后文有具体实验案例。
问题陈述及基本原理
回归问题有如下定义:
给定训练数据集合,输入向量,关联目标,找出函数近似符合数据点集间的关系,并且可用于推断出给定输入数据点时的输出数据。一般回归算法都有损失函数,它描述了估计函数与实际函数的偏离值。参照文献,损失函数一般为线性、二次损失函数及指数函数等。本文采用Vapnik损失函数,即损失函数,定义如下:
|
(1) |
图1 软间隔损失函数
其中,是重新定义的常数用于控制容忍误差。通过损失函数,对于任何训练数据,我们都可以尽快找到函数,该函数至多与实际目标具有误差,换言之,回归算法不在乎结果误差的多少,只要误差少于即可,但对于误差大于的结果一律排除。
为了更易于讲解,接下来的讨论通过描述线性函数开始,给定线性函数:
|
(2) |
其中,,是输入空间,,并且为向量的点积。
2回归问题的古典理论
如前文所述,回归算法的目的是为了找到适合数据点集的单调函数,公式(2)中的单调性意味着找到了一个小。确定这种单调性的一种方法是使范数最小,如,因此,回归问题可以表达为一种凸规划问题
|
(3) |
|
(4) |
公式(4)中蕴含的假设是函数在精度下几乎存在于所有阶数的中,换言之,该凸规划问题是可行的。有时或许这一点并不重要,因为我们会允许一定的误差存在。
类似的,对于应用于SVM Vapnik的“软间隔”损失函数,可以引入松弛变量来应对公式(4)中优化问题的其他不可行约束。因此,文献中提到的公式可以获得
|
(5) |
|
(6) |
其中,常量定义了的单调性与误差超出容忍的点间的平衡。这也符合之前损失函数的定义。如图1中所示,只有阴影区域外的点对结果有影响,因为误差被约束在了一个线性区域中。已有理论可以证实,在大多数情况下,形如公式(6)的优化问题可以通过其对偶问题得到更简单的解答。而且,对偶问题提供了SVM向非线性函数拓展的关键要素。基于此,我们接下来讨论利用拉格朗日乘除法的标准对偶化方法。
2.1对偶问题及二次规划
我们称公式(6)中的最小化问题为初始目标函数。对偶问题的核心思想在于通过引入对偶变量,依据初始目标函数及对应的约束条件构建拉格朗日函数。通过观察可以发现,拉格朗日函数具有对应着原始变量和对偶变量的鞍点。具有约束条件的初始目标函数可以被转化为拉格朗日函数的形式:
|
(7) |
其中,是拉格朗日算子,和是拉格朗日乘数。因此,公式(7)中的对偶变量需要满足如下约束
|
(8) |
鞍点对应的条件为原始变量的衍生导数需要减小到零达到最优情况。
|
(9) |
|
(10) |
|
(11) |
(注:指)
将公式(9)(10)(11)带入到公式(7)中,得到
|
(12) |
在公式(12)中,对偶变量由于公式(11)中的条件被消除了,公式(9)可以写成如下:
|
(13) |
由此叫做支持向量回归变形,可以看做训练模式的线性结合。
在某种意义上,一个支持向量函数的复杂度与输入空间的维数无关,只取决于支持向量的个数。此外,完整的算法可以通过数据间的点积表现出来。即使对评估,的值不需要被具体计算出来。这些结论对非线性拓展有着一定作用。
2.2支持向量
Karush-Kuhn-Tucker(KKT)条件是拉格朗日算符有解的基本条件,该条件要求在解点上,对偶变量及约束条件之间的乘积需接近于零。
|
(14) |
|
(15) |
从以上条件可以得到一些有用的结论。首先,只有满足相应的样本点位于敏感区域外侧。其次,,也就是意味着永远不会存在一组同时非零的对偶变量。可以概括如下结论:
|
(16) |
|
(17) |
对于公式(14),只有当,拉格朗日乘子可能非零,换言之,对所有敏感区域内部的样本点,均向零逼近,对于,公式14中的第二个因素为零,因为必须为零才能使得KKT条件满足。
因此,我们有一个关于的稀疏理论。具有非零相关系数的训练样本被称为支持向量。
2.3 b值计算
有很多种方法去计算公式(13)中的值,其中一种方法为:
|
(19) |
其中是支持向量(任何满足非零的输入向量)
3非线性回归:Kernel Trick
接下来讨论支持向量机算法的非线性情况。例如,可以通过一个简单的预处理将训练模式通过映射映射到特征空间中,接下来使用标准的支持向量回归机算法,接下来将以一个简单例子进行阐述。
考虑映射 ,如 (其中下角标对应着中的元素)。对此需要采用二次方程进行支持向量回归机二次转换。
尽管这一方法看起来是合情合理的,但是我们发现该方法在计算上很容易陷入不可行的情况,因为高维多项式等因素。
3.1 Kernel映射
为了克服上诉不可行的情况,关键一步在于映射的特点可以进行如下转变:
|
(20) |
如同前文所述,支持向量算法只取决于模式之间的点积,因此我们不需知道的具体,只需知道,我们可以将支持向量机优化问题转述为如下形式
|
(21) |
类似的,公式(13)中的扩展可以替换为
|
(22) |
这里需要注意在非线性情况下,最优化问题相当于寻找特征空间中的一个平滑函数,而非输入空间中。
文献已详细记载了可以采用的SVM kernel函数的条件细节。但大体上讲,任何半正定的重述Kernl Hilbert 空间都是一个可行的SVM kernel。或许 文献中最常见的kerenl是径向高斯函数(Radial Base Gaussian Function),定义如下:
|
(23 ) |
其中是一个参数。
4 回归问题的统计理论
如前文所述,SVM回归的古典理论核心问题在于优化问题,此类优化问题的解是三维空间中,即样本容量高度不可行。本节将讨论SVM回归的另一种理论来克服上述问题。
为了建立公式(1)中的贝叶斯结构损失函数,我们采用了指数模型。在本模型中,假设给定点时的正确输出值为,机器输入值为,,其间关系如下:
|
(24) |
由于训练样本中的元素被假设是统计随机而独立的向量,支持向量回归机的概率分布具有如下形式:
|
(25) |
其中,
|
由于在高斯先验分布的前提下,支持向量机具有最大的后验概率,所以的先验概率分布被认为是高斯过程(Gaussian Process, GP)。通常来讲,高斯过程是一个完全由均值向量和协方差矩阵决定的随机过程。因此,对于样本的先验概率可以表述为具有零均值(简单起见)和协方差矩阵:
|
(26) |
其中,是点的协方差矩阵。
根据贝叶斯定理,
|
(27) |
其中
令
|
(28) |
其中是一个均值为零的正态分布,其协方差矩阵为,则正态化常数可以表述为
|
(29) |
通过上述讨论,可以发现后验概率分布的估计是公式(27)的分子最大的情况。同样的,映射估计是一个可以满足下述等式最小的条件:
|
(30) |
传统的支持向量机理论研究内容基本如此,且按照传统方法会通过拉格朗日乘子法的二次规划去解公式(30)。优化问题的维度与训练样本的维度相同。因此。如果训练样本的容量增加,优化问题会逐渐变的不可解(从时间及精确度角度)。因此,为了避免二次规划等解法出现不可行的情况,学习算法的引进十分必要。接下来,本文将讨论一种可以适应需求的学习算法。
5 支持向量机回归学习的平均场理论
支持向量回归算法的大致思想是避免陷入二次规划的传统问题中。查阅文献可知,有人曾提出一种利用平均场理论去处理高斯分类问题的先进方法。中值理论的基本思想是假设其他变量的对某变量的影响可以集中在一个有效的中值区,
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[148867],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。