Kernel-based regression and regularization analysis
-
- Introduction
In statistical regression analysis, the input is often represented as an independent variable x, while the output is taken as a dependent variable y modeled by a nonlinear regressor function of the input x, corrupted by an additive noise ε. More precisely,,
The objective of regression analysis is to find the optimal estimation of the dependent variable y from x. The non-parametric MMSE estimator can be expressed in terms of the conditional probability distribution of y given x, i.e.
It is important to note that this statistical formulation will require knowledge of the joint distribution functions of the input/output variables. In practice, unfortunately, such knowledge is rarely to be had. In real-world applications of supervised machine learning,what is made available is often merely a finite training dataset of the input x and output y, from which robust estimators regressors are to be learned.
Given a finite training dataset, ridge regression (RR) is a popular technique that is useful for enhancing the robustness of linear regressors. The objective of this chapter is to extend RR to the kernel ridge regressor (KRR). Since KRR meets the LSP condition prescribed in Theorem 1.1, it facilitates the development of a kernel-matrix-based method for KRR. With the Gaussian kernels adopted, the KRR method bears a great similarity to some prominent techniques that are based on approximation theory, a windows approach, or neural networks.
The applications of kernel-based methods for regression and regularization basically fall into two categories.
bull; Regression/approximation application domain: Starting from the classic theory on linear prediction and system identification, e.g. [2, 94, 120, 151, 158, 212, 234], kernel methods facilitate systematically identifying optimal nonlinear functions of the input vector x to best predict the likely response of a system to the input. This will be the subject of the current chapter.
bull; Classification application domain: Kernel-based supervised learning models can be developed for training optimal decision boundaries to separate different classes of data samples. This subject will be treated in full in Chapter 9.
This chapter will address the following topics regarding kernel-based regularization techniques.
bull; Section 1.2 studies several linear regularization methods that are based on the training dataset, including the classical least-squares-error (LSE) and RR approaches.
bull; Section 1.3 extends the linear regression analysis to cases with nonlinear kernels. Formulations both in the intrinsic and in the empirical vector spaces will be developed. Once the nonlinear kernel has been specified, the intrinsic representation is already fully pre-specified, and only the parameters of the upper (and linear) network need to be learned. This basically covers the complete processes involved in the KRR learning model in the intrinsic space. Finally, since KRR meets the LSP condition, the intrinsic formulation can be converted into one with empirical representation.
bull; Section 1.4 reviews several regularization or estimation models using Gaussian RBF kernel functions, including
(i) the RBF approximation networks devised by Poggio and Girosi [209];
(ii) Nadaraya–Watson regression estimators [193, 295]; and
(iii) RBF-based back-propagation neural networks [200, 228, 296].
Section 1.4 also highlights the intimate relationships between these models and the RBF-based KRR learning model.
bull; Section 1.5 explores the flexibility and limitations of the adoption of multiple kernel functions for regression and classification problems.
1.2 Linear least-squares-error analysis
Statistical regression analysis
Regression analysis can be viewed as a system identification problem, where an unknown system is viewed as a black box characterized by its input x and the corresponding response y. A regression system is characterized by a deterministic but unknown function h(x), where the output is commonly expressed as
Here denotes the input vector, and ε is an independent zero-mean random noise.
In a basic regression learning model, see Figure 14.1(a), the observed output response is often assumed to be corrupted by statistically independent noise. Regression analysis involves determination of a nonlinear regressor function f (x) to best estimate the original model h(x) from the given statistical information on the independent variable x and dependent variable y.
1.2.1 Linear-least-MSE and least-squares-error (LSE) regressors
The MMSE regressor is a non-parametric method aiming at minimizing the so-called mean-squared error (MSE) [120, 151, 232]:
A linear estimator has a simple formulation:
The objective is to find the best vector w to minimize the MSE:
The optimizer can be expressed as
(1.1)
Linear-least-MSE regressor
Let us for simplicity assume that both the input and the output variables x and y have zero mean. The linear-least-MSE estimator aims at finding a linear solutionthat minimizes the MSE:
whose zero-gradient point with respect to w leads to a typical
剩余内容已隐藏,支付完成后下载完整资料
附录A 译文
基于核回归和正规化分析
1.1介绍
在统计回归分析中,输入通常表示为一个独立的变量x,而输出的因变量y是建模的非线性回归量输入x的函数,被一个附加噪声ε干扰,更准确地说:
回归分析的目的是从x中找到最优估计因变量y。非参数的人机系统工程估计可以根据x表示y的条件概率分布,即:
重要的是要注意,这个统计公式需要知道的输入/输出变量的联合分布函数。不幸的是,在实践中这样的条件很少。在实际监督机器学习的应用,可用一般就是一个关于输入x和输出y有限的训练数据集,从中可以得到稳定的估计解释变量。
给定一个有限的训练数据集,岭回归(RR)是一种流行的技术,有助于提高线性解释变量的稳定性。本章的目的是把岭回归(RR)扩展到内核岭回归量(KRR)。自从KRR满足LSP定理1.1中规定的条件,它促进了对于KRR的一种基于核矩阵算法的发展。随着高斯核函数被采用,KRR算法造就了一些基于近似理论、一个windows方法或神经网络的杰出技术。
基于回归和正则化方法的应用主要分为两类
- 回归/近似值执行标准工作的状况进展:从经典的线性预测和系统辨识
理论,如[2,94,120,151,158,212,234],内核方法便于系统确定最优非线性函数输入向量x的最佳预测可能的反应系统的输入。这将成为当前章节的话题。
- 分类执行标准工作的状况进展:基于监督学习模型可以开发培训最优决策边界分离不同种类的数据样本。这个问题将在第九章被完全解决。本章将讨论下列关于基于正则化技术的主题。
- 1.2节研究几种基于训练数据集的线性正则化方法,包括古典最小二乘误差(LSE)和岭回归(RR)方法。
- 内核岭回归量(KRR)的内在空间的完整流程。最后,由于内核岭回归量KRR满足LSP条件,内在表达式可以转换成一个用经验表示的表达式。
- 1.4节的评论使用高斯RBF核函数的几个正则化或估计模型,包括
- 由博吉奥和吉洛西设计的RBF近似网络[209];
- Nadaraya–Watson回归估计[193,295];以及
- 基于RBF反向传播神经网络
1.4节还强调了这些模型与基于RBF的KRR学习模型间的紧密关系
- 1.5节探讨了由于回归和分类问题而采用多个内核函数的灵活性和局限性。
1.2 最小平方差线性分析
统计回归分析
回归分析可以视为一个系统识别问题,一个未知的系统被视为一个黑盒,其特征是输入x和y相应的反应。回归系统的特征是确定的,但h(x)是未知函数,其输出通常表示为
这里表示输入向量,ε是一个独立的零均值随机噪声
在基本回归学习模型中,参见图14.1(a),观察到的输出响应通常是被认为是被统计独立的噪声。回归分析是从给定的统计信息的独立变量x和y因变量确定一个非线性回归量函数f(x)的最佳估计原始模型h(x)。
1.2.1最小线性均方误差和最小二乘误差(LSE)解释变量
最小均方误差回归量是一种旨在最小化所谓的均方误差(MSE)的非参数方法。[120,151,232]
一个线性估计量有一个简单的公式:
目标是找到最好的向量w来最小化均方误差
优化程序可以表示为:
(1.1)
最小线性均方误差回归量
让我们简单假设输入和输出变量x和y没有意义。最小线性均方差估计旨在找到一个最小化均方误差的线性解决方案:
它对w的零梯度点得出最佳线性最小均方误差估计量的典型公式[120]:
其中 (1.2)
这里我们设以及。
最小二乘误差(LSE)解决方案:有限的训练数据集
本节将研究给定一个有限的训练数据集的各种线性回归和正则化技术,让
表示输入训练数据集,并让
表示所需的响应值(或训练值)与X联系在一起,此外,让[X,Y]表示联合输入/输出训练数据集,更确切地说:
在数据统计文献中,线性回归是建立一个依赖(输出)变量y和一个独立多元(输入)随机向量x之间关系的常用技术。根据有限的数据训练集,线性回归分析可以表示为典型的线性最小二乘误差估计问题。更确切地说,它包括找到一个向量和一个阈值b这样能最好的近似所需的输出 ,即 。
简单起见,我们将暂时假设输入和输出样本为零均值,即以及。(如果不是,他们总是可以通过一个合适的坐标转换集中预调)在这种假设下,阈值b不再有用。(见问题1.5)因此,线性最小二乘误差问题包括找到一个向量这样估计函数可以最好地近似最小二乘误差里所需的输出:
(1.3)
这里估计误差定义为:
在矩阵表示法里,我们让X表示一个M times; N训练数据矩阵
(1.4)
并让S表示一个M times; M散射矩阵
此外,让y表示一个n维训练向量:。现在,最小二乘误差成本函数可由下列矩阵表示法重新表示:
(1.5)
对w的一阶梯度归零,我们有:
(1.6)
这就得出最佳最小二乘误差解决方案:
(1.7)
最佳线性无偏估计量
对于一个有确定且固定w的模型,高斯-马尔科夫定理指出,由于作为一个“最佳线性无偏估计量”使最小平方差解决方案具有一个重要优势。这意味着最小二乘估计量在所有线性无偏估计中有最小方差。
1.2.2岭回归分析
一个典型的用来克服回归分析里过拟合或不适定性问题的解决方案叫做岭正规化, 在这里岭惩罚项是对目标函数的优化来控制回归量系数。这得出了许多正则化问题中常用的典型的岭回归(RR)方法。[99,112,277]
根据有限的训练数据集,一个线性回归量的目标是最小化如下代价函数:
(1.8)
这里。它可以表明,最优决策向量是:
(1.9)
1.3基于核函数的回归分析
本节中,取决于目的应用程序的本征公式学习和实证空间以及两个选项之间最好的选择将得到完善。
bull; 本征空间方法。假设本征空间的维数是有限的,即,一旦非线性核函数确定,内在表示已经完全预先确定,并且上层 (和线性)网络的参数是可以通过相同的最小二乘误差优化公式习得。这就得出了本征空间的最小二乘误差学习模型。通过一个额外的岭正则化整合,我们可以得出本征空间的KRR公式。
bull; 实证空间方法。如果本征空间是无限的,即 ,KRR的本征空间公式将不再适用。幸运的是,KRR优化器满足LSP本征空间的条件,允许内在公式转换成一个经验公式。后者当时具有服从高斯核函数或者其他任何情况下的独特优势。
本征空间学习模型
典型向量, ,在本征空间里可以通过如下分解获得:
与内核相关的本征向量表示为:
图1.1 这两层网络展示了原始空间中的一个向量x怎样被映射到一个新的代表向量的本征空间。判别函数将被表示为一个新的基函数的线性组合。本征空间的维数用J来表示,这个维数可能是有限的或无限的。这里 组成了和特征本征向量空间的基函数集合,如图1.1所示。
在核方法里,估计函数普遍表示为的一个线性组合,即
(1.10)
如下面的阐述,阈值b有时可能不影响性能下降。
bull; 回归类型的应用程序。对于回归问题,输出值,所以它适合一个任意常数的转变。因此,坐标可以视为简单调心。假设输入特征向量(本征向量空间)和输出值没有意义,阈值参数b可能便于删除。这个条件很容易通过提前对一个适当的坐标系统进行调整得到满足。因此,不失一般性,对于数学分析中的简单符号,阈值b可能被删除,即。这种方法将在本章被采用,其重点是回归分析。
bull; 分类式应用程序。这些不是简单的回归问题,因为我们有一般二进制列值,如,不再适合这种转变。这将是10-13章中采用的方法,关注的焦点只在于分类。
内隐偏见的基向量
值得注意的是,本质上讲,已经包含在基础函数中的一个偏差项是由一个多项式核函数或者一个增强型内核函数导致的(见问题1.6和1.7)。当基函数中已经包含由内核函数引起的一个隐含偏差项[87],在不影响性能的情况下,阈值项b可以删除。例如,线性核函数跟一个一次多项式核函数之间的区别是后者含有一个隐含偏差项,而前者没有。详细例子见问题1.4-1.7。
1.3.1 最小二乘误差回归分析:本征空间
让表示一个跟x相关的估计函数(或应用于分类时的判别函数)。然后希望当 时尽可能接近。最小二乘误差旨在最小化下列代价函数:
(1.11)
这里表示近似误差。通过降低阈值,等式(1.10)里的估计函数可以简化为
(1.12)
它对应的最小二乘误差优化就变为
(1.13)
在矩阵表示法中,等式(1.13)可以表示为
(1.14)
这里
表示核特征数据矩阵本征空间。
在超定情况下,即,S可能会满秩。
基于内核的最小二乘误差解法具有跟等式(1.7)完全相同的形式:
回想一下,我们把本征空间的散射矩阵表示为。高斯-马尔科夫定理规定,如果输出噪声没有意义,不相关,且具有相同的方差,则最小二乘误差估计是一个“最佳线性无偏估计量”。换句话说,最小二乘误差估计量在所有的无偏估计量的任意输入分布内选择一个最小化均方误差的估计量。这个问题将在第十五章进一步阐述。
1.3.2内核岭回归分析:本征空间
在本征空间,内核岭回归量(KRR)旨在最小化下列目标函数:
(1.15)
这里。在矩阵表示法里,这一标准函数可以重新表示为
(1.16)
它可以表明等式(1.15)可以得出下列最佳解决方案。
(1.17)
由此可见,预测的输出响应可以表示为
(1.18)
1.3.3学习子空间属性(LSP):从本征空间到实证空间
式(1.15)的2-范数满足规定的条件定理1.1。对KRR问题
并且没有等于和不等于的约束。(见等式(8.50))
其最优解有本征空间的学习子空间属性:
(1.19)
1.3.4 内核岭回归量(KRR)学习模型:经验空间
回归问题可以重新变为实证空间表示。使用学习子空间属性,式(1.16)的判别函数可以写成
(1.20)
这里是个(N times;N)维内核矩阵。它关于a的零梯度得
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[497983],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。