英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
第二章 估计理论
2.1 线性模型
假设我们需要用三个预测变量来对响应变量进行建模,则模型的一般形式为
这里是一些未知函数,是误差。
在这个例子中,是具有可加性的,但是可以以更一般的形式输入。不过,如果我们假定是一个光滑的连续函数,则将会有很多种形式可供选择。即使只有三个预测变量,但我们通常也不会有足够的数据来直接估计。因此,我们通常假设它有更严格的形式,或许是线性的
这里是未知的参数,被称之为常数项。因此,问题简化为估计四个参数而不是无限维的函数。在一个线性模型中,参数输入是线性地,预测变量不一定都是线性地。例如:
是一个线性模型,但是
不是一个线性模型。一些关系可以转化为线性的,例如:可以通过取对数将其线性化。线性模型似乎有限制性,但是因为预测变量可以用任何方式进行转化和结合,它们确实非常灵活。”线性”这个词在日常用语中经常被用作简单的同义词。这给了偶然的观察者一个印象,线性模型只能处理小的简单数据集。这远非真实的线性模型,线性模型可以很容易地扩展和修改来处理复杂的数据集。线性也被用来表示直线,但是线性模型可以是弯曲的。真正的非线性模型很少是绝对必要的,而且通常是由一个关于变量之间关系的理论产生的,而不是实证研究。
2.2 矩阵表示
如果我们有三个预测变量以及一个响应变量,数据可能会以表格形式列出来,就像这样:
这里是数据集中的观察输或者案例数。
给定真实数据,我们可以把模型写成
但是,使用下标变得不方便,而且概念上也不清楚。我们将发现它在符号上和理论上都更简单地使用矩阵/向量表示。回归方程可以写成:
这里,,,以及
的一列包含了常数项,一个最简单的例子就是空模型,没有预测变量,只有一个
我们可以假定,因为如果我们不这样做,我们可以简单的将误差的非零期望吸收到均值中,得到零期望。
2.3 估计
线性回归模型将响应变量划分为系统分量以及随机误差项。我们想选择使得系统分量部分尽可能的解释响应值。几何上来说,响应值位于一个维空间中,即当,这里是参数个数。如果我们包含常数项,则为预测变量个数加1。从现在开始我们使用这种的定义。很容易弄混到底是参数的个数还是预测变量的个数,不同的作者有着不同的表述,所以这里需要注意。
问题即为找到使得尽可能的接近。在图2.1的几何表示中,的最优估计是很明显就可以看到的。
图2.1 估计的几何表示。
数据向量被正交投影到由所扩张的空间中。拟合值,以及拟合值与实际值之间的差用残差向量表示。
在这个意义上说,是模型空间中最好的估计。预测响应值用这个模型可以表示为或者,这里是一个正交投影矩阵。真实响应值和预测响应值之间的差为,被称之为残差。
模型的概念性目的是用简单的模型(维)尽可能地准确表示复杂的响应变量(维)。因此,如果我们的模型是成功的,数据的结构应该在维空间中被捕获,只剩下在一个维空间里的残差的随机变化。我们有
2.4 最小二乘估计
的估计也可以从非几何观点考虑。我们可以定义的最优估计,使得残差平方和最小。的最小二乘估计称为最小化:
对的各个变量分别求微分,并令为0,我们可以找到满足
此方程组被称为正规方程组。我们可以用几何方法推导出同样的结论。
现在我们假定是可逆的,则
被称之为帽子矩阵,它是在所扩张的空间上的正交投影。对于理论操作很有用,但是不要想着显示地去计算它,因为它是一个的矩阵,对于某些数据集来说,它可能非常大。下面一些有用的量可以用来表示
预测值或者说拟合值,残差,残差平方和(RSS)等于
然后,我们将展示最小二乘估计是所有可能的估计中最好的一个,当误差不相关且有相同的方差。是无偏的,并且其方差为。因为是一个向量,因此它的方差是一个矩阵。
我们也需要估计。我们得到,这也就意味着
作为一个的无偏估计。是这个模型的自由度。有时候你需要得到的某个特定元素的标准误差,则可以由来计算。
2.5 的计算实例
在一些简单的模型中,有可能得到的显示表达式。
1.当,1,并且,则1T1,所以
2.简单线性回归方程(一个预测变量)
我们可以用一个更简单的方法重新写这个方程
所以
接下来的工作就是通过计算重构那熟悉的估计,即
在更高维度中,通常是不能找到参数估计的显示表达式除非是一个非常简单的形式。所以通常我们需要用计算机来拟合这个模型。回归有很长的历史,所以在计算机出现之前,拟合一个简单的模型都是一个耗时费力的任务。当计算机很贵时,数据的分析是有限的。它的目的是将计算量保持在最低限度,并限制图的数量。在计算变得广泛和廉价之后,这种心态在统计实践中仍然存在一段时间。现在,拟合一个多元模型,并做出比一个合理的研究更多的图都是一件简单的事。分析师面临的挑战是,明智地选择这些信息,以提取数据中的关键信息。
2.6 高斯-马尔科夫定理
是一个合理的估计量,但是这有一些其他选择。尽管如此,还是有三个使用最小二乘法的好原因:
1.它是一个到模型空间的正交投影,是有几何意义的。
2.如果误差是独立同分布的,则它也是极大似然估计量。大致上来说极大似然估计是使得能够观测到数据的概率最大化时的值。
3.高斯-马尔科夫定理表明是最好的线性无偏估计(BLUE)。
为了理解高斯-马尔科夫定理,我们首先需要理解可估函数的定义。参数的一个线性组合是可估的,如果只存在线性组合使得
可估函数包括了对未来观测值的预测,这解释了它们为什么值得被考虑的原因。如果是满秩的,则所有的线性组合都是可估的。
假设,并且。假设模型的构造部分是正确的(显然这些都是很大的假设,所以我们将会在后面讨论它们的含义)。是一个可估函数;高斯-马尔科夫定理表明在的所有线性无偏估计类中,是最小方差的,并且是唯一的。
我们来证明这个定理。假设是的某些无偏估计,所以有
这意味着。这表明必须在空间中,换句话说就是也在空间的范围中,从而存在使得,所以
现在我们可以说明最小二乘估计量有最小的方差。取任意一个估计,计算它的方差:
但是
所以
又因为方差是非负的,所以
换句话说,有最小的方差。现在来说明它是唯一的。
如果,则上述关系将是等号,这就需要,则意味着。所以等号只会发生在的时候,因此这个估计量是唯一的,证毕。
高斯-马尔科夫定理表明,最小二乘估计是一个好的选择,但是它不需要误差是不相关且有相同方差的。即使误差发生了,但是是非正态的,非线性或者有偏估计可能会更好。所以这个定理并不是一直在告诉我们使用最小二乘估计。估计量不是普通最小二乘估计的情况我们也应该考虑。
1. 当误差是相关的或者方差不等时,应该使用广义的最小二乘法。
2. 当误差分布是长尾的,可能需要使用稳健估计,稳健估计中通常不是线性的。
3. 当预测变量之间是高度相关的,有偏估计例如岭回归可能会更合适。
2.7 拟合度
一些测量模型拟合数据好坏的方法是很有用的。一个通常的选择是,即所谓的决定系数或者方差解释百分数。
其范围是,值越接近1,意味着拟合越好。对于简单线性回归来说,这里是和之间的相关系数。等式定义为
图2.2 实线箭头代表当已知时响应值的变动
虚线箭头代表当未知时响应值的变动
从图2.2可以直观地看出的意义。假定你想要预测,如果你不知道,那么你最好的预测值是,但是其可变性将会很高。如果你知道,那么你的预测值将会由线性回归拟合所给出。如果之间有关系,那么这个预测的可变性将会降低。是1减去这两个预测差值平方和的比值。因此,最好的预测比值是0,则是1.
如果你的模型中没有常数项,则这里的的定义将会没有意义。这是因为定义式中的分母包含了只含有一个常数项的空模型的平方和。当没有常数项时,的定义是有可能被替代的,但是同样的图形的直观表示是不可用的,并且通过这种方式获得的与含有常数项的模型是不可比的。注意在没有常数项的模型中,要更高一些。
那么好的值指什么呢?这主要依赖于应用的领域。在生物学和社会科学中,变量通常更多的呈现弱相关性并且有一些噪声。我们希望这些领域里的稍微低一点,0.6可能会比较好。在物理和工程领域中,大多数数据都来自于严格控制的实验中,我们希望得到更高一点的值,0.6可能会有点低。当然,我在这里泛泛总结了一下某些特定领域的值,它对你判断你的值是有必要的。
有一个可代替的拟合测量方法则是,这个量与估计值的标准误差和预测有直接相关。使用的优点是是在响应单元中测量的,因此可以在特定的数据集的上下文中直接说明。这也可能是一个缺点,因为我们必须理解这中测量方法的实际意义,而是无单位的,很容易理解。
2.8 实例
现在,让我们来看一个例子,考虑加拉帕戈斯群岛的乌龟种类数。在数据集中有30个案例以及7个变量。我们从把数据读入R中开始,并且测试它(记住你首先需要利用library命令导入书中的数据)。
gt; data (gala)
gt; gala
Species Endemics Area Elevation Nearest Scruz
Baltra 58 23 25.09 346 0.6 0.6
Bartolome 31 21 1.24 109 0.6 26.3
变量为Species—在岛上找到的乌龟种数;Endemics—地方品种的数量;Area—岛屿的面积(km2);Elevation—岛屿的海拔高度(m);Nearest—离最近岛屿的距离(km);Scruz—离圣克鲁兹岛的距离(km);Adjacent—邻近岛屿的面积(km2)
数据是由Johnson和Raven (1973)展示出来的,也出现在Weisberg (1985)。为了简化,我已经填充了一些缺失值。在R中进行线性回归拟合的命令是lm( )
注意在模型中确定预测值的语法。这是Wilkinson-Rogers记号的一部分。在这个案例中,因为所有的变量都在gala数据框中,因此我们必须使用data=argument
gt; mdl lt; - lm (Species tilde; Area Elevation Nearest Scruz Adjacent, data=gala)
gt;summary (mdl)
Call:
lm (formula = Species tilde; Area Elevation Nearest Scruz Adjacent, data = gala)
Residuals:
Min 1Q Median 3Q Max
-111.68 -34.90 -7.86 33.46 182.58
Coefficients:
Estimate Std. Error t value Pr(gt;|t|)
(Intercept) 7.06822 19.15420 0.37 0.7154
Area -0.02394 0.02242 -1.07 0.2963
Elevation 0.31946 0.05366 5.95 3.8e–06
Nearest 0.00914 1.05414 0.01 0.9932
Scruz -0.24052 0.21540 1.12 0.2752
Adjacent -0.07480 0.01770 -4.23 0.0003
Residual standard error: 61 on 24 degrees of freedom
Multiple R-Squared: 0.766, Adjusted R-squared: 0.717
F-statistic: 15.7 on 5 and 24 DF, p-value: 6.84e–07
我们可以从这个输出结果中确定一些有用的量。其他的统计包产生的输出结果和这个类似。R的一个有用的特性就是可以直接计算自己感兴趣的量。当然,在这里是没有必要的,因为lm( ) 已经做了这个工作。但是当你的统计量不是预先打
全文共9614字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[14795],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。