英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
极限学习机: 一种新的前馈神经网络学习方案
黄广斌、秦渝朱、Kheong
电工电子工程学院
南洋理工大学
新加坡南洋大道639798号
电子邮件: egbhuang@ntu.edu.sg egbhuang@ntu
摘要
很明显, 前馈神经网络的学习速度一般比要求的慢, 而且在过去几十年中, 它一直是它们应用的一个主要瓶颈。背后的两个主要原因可能是1)基于缓慢梯度的学习算法被广泛用于训练神经网络,以及2)通过使用这种学习算法迭代地调整网络的所有参数。 与传统的实现不同,本文提出了一种新的学习算法,称为极限学习机(ELM),用于单隐层前馈神经网络(SLFNs),它随机选择输入权值并分析决定SLFN的输出权重。 理论上,该算法趋向于以极快的学习速度提供最佳的泛化性能。 基于现实世界基准函数近似和分类问题的大规模复杂应用实验结果表明,新算法在某些情况下可以产生最佳的泛化性能,并且可以比传统的前馈神经网络流行学习算法学得更快。
一,导言
从数学的角度来看, 前馈神经网络逼近能力的研究主要集中在两个方面: 紧凑输入集的普适逼近和有限集的逼近。许多研究人员探索了标准多层前馈神经网络的通用逼近能力 [1], [2], [3]。在实际应用中, 将神经网络训练成有限训练集。对于有限训练集的函数逼近, 黄和巴布里 [4] 表明单隐藏层前馈神经网络 (SLFN) 与大多数n隐藏神经元和几乎任何非线性激活函数可以学习N不同观测值为零。应该注意的是, 输入权重 (连接输入层到第一隐藏层) 需要在以前的所有理论研究工作和几乎所有前馈神经网络的实际学习算法中进行调整。
传统上, 前馈网络的所有参数都需要调整, 因而存在不同层参数 (权重和偏差) 之间的依赖性。在过去几十年中, 基于梯度下降的方法主要用于前馈神经网络的各种学习算法。然而, 很明显, 基于梯度下降的学习方法通常是非常缓慢的, 由于不恰当的学习步骤或可能容易收敛到局部极小。为了获得更好的学习性能, 这种学习算法需要许多迭代学习步骤。
它被显示了 [5], [6] 那 SLFNs (与N暗藏的神经元) 以任意地选择的输入重量可能学习N不同的观察以任意地小错误。与常用的思想和最实际的实现不同, 前馈网络的所有参数都需要进行调整, 因此在应用程序中, 可能不一定要调节输入权重和第一个隐藏层偏差。实际上, 在我们的工作 [7] 中, 一些人工和实际大应用程序的仿真结果表明, 该方法不仅使学习速度非常快, 而且具有良好的泛化性能。最近, 它在我们的工作进一步被严密地证明了 [8] 那 SLFNs 以任意地被分配的输入重量和暗藏的层数偏见和几乎任何非零的激活函数能普遍地近似任何连续的函数在任何紧凑的输入集。这些研究结果表明, 在前馈神经网络的应用中, 输入权重可能根本没有必要调整。
在输入权重和隐藏层偏差任意选择后, SLFNs 可以简单地考虑为线性系统, 并通过简单广义的方法分析确定 SLFNs 的输出权重 (将隐藏层链接到输出层)。隐藏层输出矩阵的逆运算。基于这个概念, 本文提出了一种简单的 SLFNs 学习算法, 它的学习速度比传统前馈网络学习算法 (如反向传播) 快上千倍。算法, 同时获得更好的泛化性能。与传统的学习算法不同的是, 所提出的学习算法不仅能达到最小的训练误差, 而且还能得到最小的权重范数。巴特利特的前馈神经网络泛化性能理论 [9] 指出, 对于前馈神经网络的训练误差较小, 权重范数越小, 网络的泛化性能就越好。有.因此, 所提出的学习算法对前馈神经网络具有更好的泛化性能。
新提出的学习算法往往达到最小的训练误差, 获得最小的权重范数和最佳泛化性能, 运行速度非常快, 以区别于其他流行的 SLFN 学习算法, 它被称为极端学习机器 (ELM) 在本文的背景下。
本文组织如下。第二节介绍了通用线性系统的摩尔-彭罗斯广义逆和最小范数最小二乘解, 它在开发新的ELM学习算法中起着重要的作用。第三节提出了一种新的单隐层前馈神经网络 (SLFNs) ELM学习算法。绩效评估载于第四部分。讨论和结论在第五节中给出。
二 准备
在本节中, 介绍了摩尔-彭罗斯广义逆。在本节中, 我们还考虑了一般线性系统的最小范数最小二乘解决方案Ax = my 在欧几里德空间, 其中isin; Rm xn 和y isin; R 。如 [5], [6] 所示, SLFNs 实际上是一个线性系统, 如果输入权重和隐藏层偏差可以任意选择.
A. 摩尔-彭罗斯广义逆
一般线性系统Ax = y的分辨率, 其中可能是单数的, 甚至可能不是方形的, 可以通过使用摩尔-彭罗斯广义逆 [10] 使其变得非常简单.
定义 2.1: [10] 矩阵G顺序n x m是矩阵的摩尔-彭罗斯广义逆 A 顺序 m x n, 如果
AGA = A,GAG = G,(AG)T = AG,(GA)T = GA (1)
为了方便起见, 矩阵的摩尔-彭罗斯广义逆将由Adagger;表示.
B.一般线性系统的最小范数最小二乘解
对于一般的线性系统Ax = y,我们说x是最小二乘解(ls.s.s)
Axcirc; minus;y = minx Axminus;y (2)
其中·是欧几里德空间中的范数。如果对于任何定义,x0isin;Rn被认为是最小范数Ax = y定义2.2:
线性系统yisin;Rm的最小二乘解
x 0le;x ,forall;x isin; {x : Axminus;yle;minus;y ,forall;z isin; R(3) }
这意味着, 解决方案x0被认为是线性系统Ax = y的最小范数最小二乘解, 如果它在所有最小二乘法解决方案中具有最小的范数。
定理 2.1: {p. 147 的 [10]} 让存在一个矩阵G,. 使得Gy是线性系统Ax = y的最小范数最小二乘解。 那么 G = Adagger;、摩尔-彭罗斯广义逆矩阵A是必要且足够的。
三 极限学习机器
在第二节中, 我们介绍了摩尔-彭罗斯逆和一般线性系统Ax = y的最小范数最小二乘解。现在, 我们可以为单个隐藏层前馈网络 (SLFNs) 和ntilde;隐藏神经元提出一种非常快速的学习算法, 其中ntilde;le; N, 训练样本数。
- SLFNs的近似问题
N 其中xim 函数g(x) 的数学模型为
N tilde;
beta; ig (wi ·x j b i ) = oj, j = 1,···、N、(4)
i = 1
其中wi = [wi1,wi2,...,win] T是连接第i个隐含神经元和输入神经元的权向量,beta;i= [beta;i1,beta;i2,...,beta;im] T是连接权重向量bi ith隐藏的神经元和输出神经元,和隐含神经元i和xj的内积的阈值。 输出神经元iswi·xj表示在本文中选择线性。tilde;
(5)
上面的N等式可以写得紧凑如:
H beta; = T (6)
H (w1,···,w N tilde; , b 1 , ···, bN tilde; , x 1 , ···,x N )
N xNtilde;(7)
T
如Huang和Babri [4]和Huang [6]所命名,H被称为神经网络的隐层输出矩阵; H的第i列是关于输入x1,x2,...,xN的第i个隐藏神经元的输出向量。
- 基于渐变的学习算法
正如前面的分析[4],[5],[6]所分析的,如果隐含神经元的数量等于不同训练样本的数量,N〜= N,则矩阵H是平方和可逆的,并且SLFN可以近似这些 训练具有零误差的样本。 然而,在大多数情况下,隐含神经元的数量远少于不同训练样本的数量,N〜N,H是一个非矩形的矩阵,并且可能不存在wi,bi,beta;i(i = 1,...,fi~)
H beta; = T 因此, 相反, 可能需要
特定的wcirc;i、circ;bi、beta;circ; (i = 1,···, Ntilde;), 这样
=H(wmincirc;1,···,wcirc;Ntilde;,circ;b1,···,circ;btilde;)beta;circ;minus;T (9)
H (w1,···,w N tilde; , b 1 , ···, b N tilde;)beta;minus; T
相当于最小化成本函数
当H未知时, 基于渐变的学习算法通常用于搜索Hbeta;minus; T的最小值。在最小化过程中, 使用基于梯度的算法, 向量w , 它是权重集 (wi、beta;i) 和偏见 (bi) 参数W是迭代调整如下:
W k
这里的eta;是学习速率。前馈神经网络中常用的学习算法是反向学习算法, 通过从输出到输入的传播, 可以有效地计算梯度。关于反向传播学习算法有几个问题:
1) 当学习率eta;太小时, 学习算法收敛得非常慢。但是, 当eta;太大时, 算法变得不稳定
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[22715],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。