英语原文共 25 页,剩余内容已隐藏,支付完成后下载完整资料
基于改进的布谷鸟搜索极限学习机的医疗数据分类
P. Mohapatra S. Chakravarty P. K. Dash
摘要
为了准确有效的模式分类,机器学习技术越来越多地应用于疾病的检查和诊断。在本文中,基于改进的布谷鸟搜索极限学习机(ICSELM)提供一种二进制医疗数据集的分类方法。极限学习机(ELM),作为一种培养单层前馈神经网络(SLFN)的学习算法,被广泛应用于分类领域。然而,为了使模型更加稳定,一种进化算法的改进型布谷鸟搜索(ICS)利用选择输入权重和隐藏偏差的方式,提前训练ELM。如ELM,穆尔-彭罗斯(MP)广义逆矩阵用于ICSELM来分析决定输出权重。为评估相应模型的效果,选取UCI机器学习库中的四个参照数据集,即乳腺癌、糖尿病、肝炎和Bupa。一系列有效的评估计量包括精度、灵敏度、特异性、混淆矩阵、一阶矩阵(Gmean)、F值和输出权值范数以及受试者工作特征曲线 (ROC)下面积的计算。对基础ELM模型、在线极限学习机(OSELM)、CSELM、和其他人工神经网络如多层感知器(MLP)、MLPCS、MLPICS和径向基函数神经网络(RBFNN),RBFNNCS,RBFNNIC等模型进行实验结果的分析和比较。实验结果表明,基于改进的布谷鸟搜索极限学习机(ICSELM)模型优于其他模型。
关键词
极限学习机(ELM)
在线极限学习机(OSELM)
布谷鸟搜索(CS)
基于极端学习机的布谷鸟搜索(CSELM)
基于改进的布谷鸟搜索极限学习机(ICSELM)
1 引言
以指数方式增长的越来越复杂的分类,连续数据的大量记录和功能已经成为数据挖掘中人类最具挑战的活动。在过去的20年中,它被应用于模式分类领域,例如光学字符识别[ 1 ],文本和图像分类[ 2 ],机器视觉[ 3 ],欺诈检测[ 4 ],自然语言处理[ 5 ],市场分割[6,7],生物信息学[ 8 ],蛋白质序列分类[ 9 ],生物医学图像分类[ 10 ]和现实世界的数据分类[ 11 ]。研究界越来越重视发展具有良好的泛化能力的快速准确的分类。现在已经有大量的分类器[ 12 ]可供使用,有足够能力改进分类器的品质,或者去设计更好的分类器用于处理更加复杂的数据集或者获得更加精确的结果。
目前,在文献中已经提出了各种基于分类的统计和软计算方法。传统的统计技术,如欧氏最小距离(EMD),二次最小距离(QMD)和K-近邻(KNN)分类[ 1 ]和贝叶斯决策理论[ 13 ],可以用于建立不同的分类器。统计方法[13,14]其中的一个缺点是它依赖于成功运行时潜在假设的正确性。不同于软计算方法,在统计方法中,用户为了成功的应用模型需要彻底掌握数据集的属性。然而,彻底掌握数据集属性并不总是可行的。一般情况下,基于分类的统计技术相比于基于分类的软计算方法缺少一定的精确度。
多层感知器(MLP)[ 15 ],径向基函数神经网络(RBFNN)[ 16 ],基于模糊规则的系统[ 17 ],自适应神经模糊系统(ANFIS)[ 18 ],支持向量机(SVM)[19,20],K近邻分类器(KNN)[ 21 ],朴素贝叶斯分类器[ 22 ],多项式分类器[ 23 ],CART [24],决策树分类[ 25 ],和随机森林[ 26 ]已在许多应用中用作分类器。然而,在所有分类中,研究人员最频繁和广泛地选择人工神经网络。将人工神经网络作为分类器,需要考虑的主要的事情是隐蔽层的数目,输入到隐层、隐层到输出层和学习算法[27]的权值,其中学习算法为反向传播(BP),递归最小二乘(RLS)和不同的进化学习算法。因此,作为分类器的人工神经网络的性能主要取决于结构和学习算法的正确组合。然而,人工神经网络的主要缺点是梯度下降的学习算法增加了模型的时间消耗和计算消耗[ 16 ]。在梯度下降学习算法中,由于初始参数是随机选择的,使得收敛速度变得非常缓慢而且经常被困在局部极小值。为了避免上述限制,黄等人提出了一种新的学习算法,即极端学习机(ELM)[ 11 ]。研究表明,ELM起源于随机向量函数(RVLF)[ 28,35 ]。然而黄[36]在文献[36]中有新的认为。ELM的两个主要优点是更快的学习速度和良好的泛化能力。文献调查显示,ELM已被广泛用于许多领域[ 37 - 43 ]。虽然极端学习机的一些变型[28–43]已经可用于多级分类,但仍存在一些问题,例如最优选择的网络规模需要大量的隐藏节点和选择激活函数。除ELM的随机性造成的额外不确定回归和关于普遍逼近和学习的分类问题。
在过去的七年里,研究人员利用ELM进行了大量的研究,在很多领域取得了进展,例如图像应用中的滤波器设计[44],销售预测[ 45 ],时间序列预测[ 46 ],电力系统经济调度[ 47 ],电力负荷预测[48,49],目标识别,飞机识别,聚类[ 50 ],实时故障诊断,终点预测模型,神经结构设计[ 51 ],疾病诊断[ 52 ],移动ad-hoc网络的流动预测,企业生命周期的预测,系统辨识,乳腺肿瘤检测等。对于分类问题特别的是,ELM已成功地用于基因表达分类[ 53 ],二类和多类数据分类[ 11,54 ]等各个领域。
在ELM中,利用输出权重的计算值来确定输入权重和隐藏偏差。在这一过程中,ELM尝试减少训练误差,并确定最小范数的输出量。由于在ELM中输入权重和误差选择的随机性,很多情况下,输出矩阵并不能显示出满列秩并导致系统产生非最优解的非正常态[ 55 ]。所以,为了提高ELM性能和确保产生最优解,采用改进的ELM [30,56–62]。改进的ELM不仅提供了更高的精度,而且保证了系统的稳定性。在改进的学习算法中,基于遗传算法的ELM[ 27 ],基于PSO的ELM[ 57,58,60 ],基于DE的ELM [61],基于群搜索法的ELM[62]已应用于文献中。近年来,元启发式算法已成功地应用于解决实际问题和优化困难问题。
因此,在本文中,杨和Deb[ 63–68 ]最近提出的例如布谷鸟搜索(CS)的最近发展起来的元启发式算法,可以用来提前训练ELM,以保证取得最优解。该算法是基于布谷鸟的繁殖行为和一些鸟类的Leacute;vy飞行行为[ 66 ]的组合。CS算法优于其他已有元启发式算法。Civicioglu [68]已经证明,与粒子群优化(PSO),差分进化(DE)和人工蜂群(ABC)相比,CSA具有更好的解决方案。其次,为了进一步提高基于布谷鸟搜索的极限学习机(CSELM)的精确性和稳定性,将改进的布谷鸟搜索算法[69,70]与极限学习机(ELM)相结合,即基于改进的布谷鸟搜索极限学习机(ICSELM),该模型已经实验性得用来对四种二进制数据集进行分类,包括乳腺癌、糖尿病、肝炎、Bupa。CSELM和ICSELM都会在计算输出权重前选择输入权重和偏差,保证了隐蔽层输出矩阵的满列秩。一个快速批量学习算法,即在线序列ELM(OSELM)[71–73]和其他两个基于人工神经网络的模型,MLP和RBF神经网络与BP学习算法,CS和ICS学习算法也可用来对上述二进制数据集进行分类,并与其他模型比较。对所有在本文中提到的模型的评估,利用一下一些考核方法,包括整体精度,灵敏度,特异性,混淆矩阵、Gmean测量,F值和ROC分析[ 54,74 ]。利用来表征CSELM和ICSELM系统的复杂程度,其中s表示样本数量,f表示数据集中的特征数。
本文的结构安排如下:在第2节对ELM和OSELM算法作出简要介绍。在第3节中分析布谷鸟搜索(CS),改进的布谷鸟搜索(ICS)和基于布谷鸟算法的CSELM和ICSELM。第4节中介绍所有基准数据集。这项研究中所使用的所有性能评估,在第5节中讨论。实验的输出和结果,在第6节。分析结果在第7节。最后,在第8节中给出结论。对于MLP和RBFNN的概述,分别在附录A和B中给出。
2 极限学习机概述
本节讨论了在此研究中使用的极限学习机(ELM)和在线极限学习机(oselm)。
2.1极限学习机
G.B.Huang [28,29]提出的极限学习机是训练单隐层的前馈网络(SLFN)的最先进的学习算法。它比简单的神经网络具有更快的学习速度,比传统的基于梯度的学习算法具有更好的泛化性能,极限学习机已经成为一个重要的概念和计算范例。ELM是摆脱迭代计算的,这使得ELM大大减少训练SLFN所需的时间,计算变得非常快速。SLFN在产生最优解时,通常需要大量的隐藏神经元。图1给出SLFN的结构。
和L隐藏节点相关的单隐层前馈网络(SLFN)的输出函数可表示如下:
对于激活函数的可加节点g,g被定义为:
上述公式可被写为:
在此
H表示神经网络的隐层输出矩阵。黄等[ 28 ]已经证明给出一个大于0的任意小的数值,如果隐层激活函数无穷可微,隐层神经元数的Lle;N,则输入权值和隐层的偏差可以被计算,然后可以利用以下方程训练SLFN去解决线性系统的优化问题:
这里可以表示为:
是的范数最小二乘最小的解决方案,表示彭罗斯-穆尔广义逆矩阵。
ELM的程序可以概括为以下三步:
步骤一 随机选择输入权重wi和隐层偏差bi
步骤二 计算隐层输出矩阵H
步骤三 利用方程得出输出量
2.2在线极限学习机(OSELM)
在线极限学习机(OSELM)是一个非常快速的批量学习算法,而且可以提供较好的泛化性能[71]。在此,OSELM可以对训练用数据一个一个或一批一批的学习。已经在训练中使用过的数据将被丢弃,以节省出更多的内存和计算负荷来处理新输入的数据。虽然很多类型的ELM已被广泛使用在许多应用中,在这里,利用OSELM批量学习的方法,ELM用作分类器。
OS-ELM的在线连续学习分为两个步骤。
步骤一 初始化
在步骤一中,训练数据的一小部分n0=(xi,yi),i=1,hellip;,N0(N0isin;N)作为初始化进程。初始输出权重矩阵是根据ELM算法通过随机分配的输入权重Wj和偏差bj计算,j=1,2,hellip;,L,计算如下:
这里
其中,代表初识隐层输出矩阵。
步骤二 顺序学习
当新的观察数组达到
即(k 1)的数据块,首先计算部分隐含层的输出矩阵。是(k 1)数据块的样本数量。接下来,利用输出权重更新下述方程,计算输出权重矩阵。可以计算
上述方程类似于递归最小二乘算法。每次一个新的数据块到达时,输出权重矩阵根据(13)和(14)进行更新。
更新方程(13)和(14)都是一块一块或一个一个计算的,一个一个计算数据可以看成是当数据块大小为1时的数据块计算。
其他的神经网络模型,即MLP [ 15 ]和RBFNN[ 16 ]利用了反向传播学习算法和所有四个数据集的CS和ICS进化学习算法。这两种模型分别在附录A和附录B中讨论。
3 布谷鸟搜索和布谷鸟搜索算法的特点
在这一节中,我们将讨论标准布谷鸟搜索,改进的布谷鸟搜索,基于布谷鸟搜索的极限学习机,改进的基于布谷鸟搜索的极限学习机。
3.1布谷鸟搜索算法
在处理复杂的工程优化问题中,遗传算法,遗传规划,差分进化,粒子群优化,蚁群优化算法等进化算法,被认为比传统方法更为成功。然而元启发式算法和Yang和Deb在2010年[64]提出的布谷鸟搜索(CS)已经成为比PSO, GA,DE and ABC [68]更好的解决方案。CS算法的灵感来自于布谷鸟的寄生行为,即布谷鸟选择其他宿主鸟存放鸟蛋的巢穴。一般情况下,布谷鸟的鸟蛋会比宿主鸟的鸟蛋早一些孵化。只要第一只布谷鸟幼鸟孵出后,首要的行动就是盲目得地将其他宿主鸟蛋推出巢穴,以此来增加布谷鸟幼鸟分享宿主鸟提供的事物的份额。除了从巢穴中驱逐其他宿主鸟蛋,布谷鸟还模仿其他宿主鸟的叫声,来获得更多的喂养机会。Yang和Deb进一步利用Leacute;vy flight [65]的概念去改进CS算法。Leacute;vy flight服从动物的随机游走和觅食行为的规律,而动物的下一步行动总是取决于当前行动和下一步的转移概率。正如Yang [64]提出的,CS中的三个主要策略基于:
·一只布谷鸟一次只产一颗卵,并将其放在一个随机选择的巢穴中。
·最好的巢穴和高质量的蛋(解决方案)会传给下一代。
·可用的宿主巢穴数量固定,且宿主鸟有Paisin;[0,1]的概率发现布谷鸟蛋是外来的。在这种情况下,宿主鸟既可以扔掉外来鸟蛋,也可以选择放弃该巢穴在新的地方重建一个新巢穴。最后的问题近似于以Pa确定n个巢穴中被新巢穴替代的量(在新位置的新的随机解决方案)。
产生一个新的解决方案,布谷鸟为i,Leacute;vy flight表示为:
其中,alpha;gt;0是与研究问题相关比例的步长。这个结果是更为智能的乘法。当其随机步骤来服从大步骤的Levy分布时,Leacute;vy flights从根本上提供了一种随机性(1lt;lambda;le;3)。
布谷鸟搜索算法:
3.2改进布谷鸟搜索
然而,为了提高系统的稳定性,利用Pa(概率因子)和alpha;(步长)稍微修改了标准的布谷鸟搜索算法,因此,设计了改进的布谷鸟搜索ELM算法(ICSELM)。在传统的CS算法中,Pa和alpha;值保持固定,并且在模拟中得出以下两个结论或问题:
·对于较小的Pa和较大的alpha;,为获得最优解,算法表现较差[60]且需要更多的迭代次数。
·对于较小的alpha;和较大的Pa,收敛速度变高而无法找到的最优解。
为了克服上述所述的限制,改进的布谷鸟搜索算法利用较大的alpha;,以及较大的PA值,但课逐步利用下面公式微调结果矢量。这使模型更加稳定。
Pa和alpha;的值可通过下式改良:
在这里,“NI”和“it”分别代表迭代总数和当前迭代数。
在这个研究中,改进布谷鸟搜索的参数是直接给定和实验得出的。如下:
改进布谷鸟搜索算法:
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[153819],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。