非线性参数最小二乘估计的一种算法外文翻译资料

 2022-11-10 14:34:41

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


  1. Soc. Indust. Appi. Math.

Vol. 11. No. 2, June,1963

非线性参数最小二乘估计的一种算法

Donald W. Marquardt

简介:大多数非线性最小二乘估计算法都以两种方法中的一种为中心。一方面,模型可以扩展为泰勒级数并在假设局部线性的前提下对每次迭代计算的几个参数进行验证。另一方面,对最速下降法进行了各种修改。这两种方法经常不考虑,泰勒级数发是因为连续迭代的发散性,最速下降(或梯度法)是因为前几次迭代的收敛性极其缓慢。

本文提出了一种最大领域方法,该方法在泰勒级数法和梯度法之间进行了最优插值,插值基于截尾的泰勒级数在最大领域的基础上给出了非线性模型的充分表示。

将所得的结果推广到求解非线性代数方程组的问题。

绪论:让拟合的模型与数据相符,令

(1)

其中为自变量,为个参数的总体值,为因变量的期望值,设数据点为

, (2)

主要问题是计算这些参数的估计值的最小值:

(3)

为(1)式在第个数据点预测的y值。

众所周知,当在中为线性时,常数的轮廓为椭圆体,根据非线性的严重性,如果是非线性时,轮廓的弯曲的。然而,即使是非线性模型,其轮廓线在最小值附近近似为椭圆。通常轮廓表面在某些方向被极大地减弱并且在其他地方被拉长以至于使最小值位于长曲线的底部。

本文主要研究最小二乘估计的算法。为了讨论更广泛的非线性估计的统计方面以及在特定示例中应用,请参阅考文献中的[1],[2],[3],[4],[5],[6]项,其他参考文献见所引文献。

目前使用的方法:在泰勒级数方法中展开(有时也称为高斯方法[1],[7],或高斯牛顿法[4])如下:

通过线性项写出泰勒级数

(4)

(4a)

在(4)式中,被以符号形式替换,的收敛值为的最小二乘估计值。向量是对的一个小修正,用下表表示,用泰勒级数法计算。这些括号用于对基于线性化模型的预测与基于实际非线性模型的预测进行比较。因由(4)预测的值为:

(5)

现在,在(4)中出现线性。因此可以通过设置(对任意的j)的标准最小方法找到,因此被发现并用来解

。 (6)

并且

(7)

其中上标T表示矩阵的转置

,, (8)

(9)

实践证明,仅用的一小部分来纠正b是有帮助的,反之则可能超出可以被(4)充分表示的区域,并且会导致迭代的发散。文献[1]、[4]、[6]有很多种方法用来确定合适的步长,,一旦方向由指定。即使如此,收敛失败也并不罕见。

相比之下,梯度法只需从当前的实验值沿负梯度方向迈出一步即可。因此

(9a)

各种改进的最速下降法已被[5]用来部分地补偿通常导致梯度法收敛非常慢的表面的不良调节。梯度法与泰勒级数法一样,一旦确定了修正矢量的方向,就需要对步长进行仔细的控制。即便如此,缓慢收敛仍然是常态而非例外。

对于泰勒级数法[4],[7],推导出了一系列在的各种性质假设下都成立的收敛证明。给出了各种梯度法的收敛证明,例如[3],然而,数学证明单调性的从迭代到迭代,假设一个表现好函数就是无限精确的运算过程,充其量只是在实践中收敛的必要条件。这种证明本身并不能充分说明收敛速度。在这类理论方法中,对于绝大多数问题,我们必须寻求一种能立即用有限算法进行收敛的方法。

定性分析问题:针对泰勒级数法和梯度法的不足,对所涉及的基础原理进行了综合论述。首先,任何合适的方法都必须得到一个的方向在负梯度以内的修正向量。另一方面,沿着修正向量的值应该更大而不是更小。二是由于在大多数情况下伸长严重,通常是近90o远离(事实上,我们有监控这个角,对各种问题发现通常落在80olt; lt;90o的范围内)从这些因素似乎合理的情况下任何改进的方法将在某种程度上插入和,隐含在这两个修正向量方向的选择列出前确定一个可接受的步长。

所述的两种程序中都隐含着在确定可接受的步长之前选择校正向量的方向,在所描述的算法中,同时挖掘方向和步长。

算法的理论基础:该算法的理论基础包含以下几个定理,定理1和定理2是由Morrison[7]给出的,定理1的证明与Morrison的不同。这一证明可能使我们对定理1所涉及的几何关系有了更深入的了解。

定理1 对于任意的和令满足的方程为:

(10)

然后最小化在球面的半径满足等式:

证明:为了找到最小化

(11)

在以下约束条件下

(12)

一个驻点的必要条件需要通过拉格朗日方法

(13)

这里

(14)

其中是拉格朗日乘子。

因此,求导得

(15)

(16)

代入,(15)式满足的解决方案的方程。

(17)

通过将(17)式预先乘以,并在表单中编写,可以很容易地验证这一点,

(18)

然后代入(15)式和(10)式与(17)式相同。这个固定点实际上是一个最小值,从是正定这一点就可以看出来。

定理2 设为给定A值的解,则为A的连续递减函数,如

证明:由于对称矩阵A是正定的,则它可以通过坐标轴的标准正交旋转转化为对角矩阵D,从而不用改变点之间的距离。令变换,其中,且D的所有对角元素都为正。因此(10)式形式是,所以

(19)

然后,定义

(20)

这显然是一个的递减函数,这样。

为了便于证明下面的定理,这里清楚地展示了对角矩阵的标准正交变换。

定理3 设为与之间的夹角,则在时为一个连续的单调递减函数。既然独立于,由此可见,在时趋向于。

证明:我们首先观察到

(21)

因此(除了一个相关的比例因子,因为只有向量的方向是相关的)

(22)

通过定义

(23)

简化得到:

(24)

其中,(25)式的分母是正的,因为每个分子都是正的,因此是分子的符号。指出,分子可以写成

(25)

根据不等式,(25)式是正的。因此,总是正的,故是的单调递减函数。

对于非常大的值,矩阵由对角控制,由(10)式可知,,其中和g在极限中成正比,使得它们之间的夹角趋于零。另一方面,如果(10)式中的=0,那么(除了A是对角的一般情况)向量和g在某个有限角度处相交。由此可见,是一个连续的单调递减函数,这样。

测量范围:(6)式的解的相关性质在b-空间的线性变换下是不变的。然而,从所周知文献[3],梯度法的性质不是不变的。因此,有必要以某种灵活的方式来扩展b-空间。我们将选择以导数的标准差为单位缩放b-空间,取样本点i=1,2,hellip;,n。由于这些导数一般依赖于自身。当前试用值为在导数的求值中是必要的。尺度的选择使得A矩阵转化为之间的简单相关系数矩阵,事实上,这种尺度的选择已经广泛应用于线性最小二乘问题中,作为一种改进计算程序数值方面的手段。

因此,我们定义了一个缩放矩阵,以及缩放后的向量:

(26)

(27)

用泰勒级数校正法求解

(28)

然后求

。 (29)

算法构造:适当算法的大致轮廓现在已经清楚了,具体地说,在第r次迭代时,方程的构造为:

(30)

然后从(30)式方程是求出,然后结合(29)式得到,代入新的向量

(31)

将得到一个新的平方和,选择这样的非常重要。

(32)

从前面的理论可以清楚地看见,一个足够大的总是存在的,以至于(32)式将被满足,除非已经是最小值。需要某种形式的尝试和错误来找到一个值,该值将导致(32)式被满足,并将生成快速收敛到最小二乘算法。

在每一次迭代中,我们希望减小(近似地)附近最大的非线性函数的线性化会给足够的表示,因此,当条件是未经修改的泰勒级数方法能够很好的收敛时,选择的策略必须设法使用的一个小值,这在收敛过程阶段特别相关,当猜测在最小值附近时,当轮廓是渐进椭圆时,模型的线性扩展只需要在一个非常小的区域上是一个很好的近似。因此,只有在满足(32)式需要时才应该使用较大的值,虽然作为的函数确实有一个最小值,并且在第r次迭代时选择的这个值将最大化,这样的局部最优选择将是糟糕的全局策略,因为它通常需要一个值远远大于满足(32)式。这样的策略将继承最速下降的许多特性。例如,最初的快速进展之后是逐渐缓慢的进展。

因此,我们将采取以下策略:

令表示上一个迭代中的值,初始令,比较和。

  1. 如果,则让。
  2. 如果,且,则让。
  3. 如果,且,将依次乘以直到得到最小的,,则令。

通过该算法,我们总能得到一个可行域。此外,我们几乎总是得到在决定的因子内,泰勒级数为我们的目的提供了充分表示的最大领域。迭代在(对于任意的j)时收敛。对于一些合适的,比如说和一些合适的,比如说,的选择是任意的;在实践中被发现是一个很好的选择。

通常,条件iii.是很难出现的。因此,通常需要(30)式在每次迭代中为的两个值求解。标准的泰勒级数法需要一个这样的解。额外的线性方程的解通常比矩阵的求值计算量要少得多,因此每次迭代计算中折痕的小比例被迭代的功率增益所抵消。

可以注意到,当使用浮点运算时,通常需要积累(3)的平方和(用于测试i.和ii.)双精度,然后计算成单精度,如果不这样做,可能会导致不稳定的行为接近最小值,因为四舍五入存在误差。在极端情况下,可能还需要计算以达到双精度。

将加到矩阵的对角线上的一个必须的数值好处是复合矩阵总是比本身条件更好。

应用于其它问题:显然,所描述的方法可以应用于其它类型的问题。例如,它将使求解非线性方程的梯度法和牛顿-拉夫森法之间的插值,用于求解非线性代数方程系统,如用隐式方法求解非线性边值问题的同时存在非线性差分方程。从某种意义上说,这类问题是情况下最小二乘问题的特殊化,把要解的方程写下来

(33)

其中x是未知的k维向量。

对于梯度法,通常定义一个误差准则

(34)

对于试验向量进行修正,方向为负梯度,定义为

(35)

因此

(36)

其中

(37)

a是一个适当定义的常数。

在矩阵表示法

(38)

另一方面,牛顿-拉夫森法涉及到的展开。在泰勒级数中通过线性项得到等式

(39)

在矩阵表示法

(40)

其中矩阵一般不对称。我们将(40)预先乘以,然后得到和。矩阵A是对称的,然后矩阵A和向量g被标准化为。

新算法的应用给出了公式

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[19180],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。