基于核岭回归的微阵列医学数据分类和改进的基于猫群算法的基因选择系统外文翻译资料

 2022-07-15 14:49:40

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


基于核岭回归的微阵列医学数据分类和改进的基于猫群算法的基因选择系统

摘要

基于微阵列基因表达的医学数据分类一直是生物信息学、机器学习和模式分类领域中最具挑战性的研究领域之一。这提出了核岭回归( KRR )的两种变型,即小波核岭回归( WKRR )和径向基核岭回归( RKRR )用于微阵列医学数据集的分类。微阵列医学数据集包含不相关和冗余的基因,这些基因导致大量的基因表达,即维数和小样本大小。为了克服微阵列数据集的维度问题,采用改进的猫群优化算法( MCSO )从数据集中选择最相关的特征。分类器的不足之处是通过使用四种二进制和多类的微阵列医学数据集来证明。乳房癌、前列腺癌、结肠癌、白血病数据集属于前者,白血病1、白血病2、SRBCT,脑肿瘤1属于后者。若干有用的业绩评价措施包括准确性、敏感性、特异性、混淆矩阵、Gmean、F评分和考虑ROC曲线下面积来检验模型的有效性。分析比较其他模型如simple岭回归( RR )、在线序贯岭回归( OSRR )、支持向量机径向基研究了函数( SVMRBF )、支持向量机多项式( SVMPoly )和随机森林。实验结果表明,KRR模型优于其他模型,与RKRR相比,无论数据集和WKRR如何产生更好的结果。最后,当在二进制和多类数据集的基础上比较结果时,发现二进制类的结果比不考虑模型的多类结果要好一点。

关键词:整体分类器微阵列医学数据;模式分类;改进的猫群算法;阻力比;克瑞及其变体;支持向量机与随机森林

1. 介绍

微阵列分析和分类对于癌症等最可怕的疾病的早期诊断和治疗非常重要。它显示出经济发达国家的发病率和死亡率最高,在发展中国家排名第二[1]。大多数情况下,人类罹患200种癌症,并采用微阵列技术来记录它们[2]。GLOBOCAN数据库、世界卫生组织、全球健康观察组织和联合国世界人口计划报告说,全球最常见的四种癌症是肺癌、女性乳腺癌、肠癌和前列腺癌[3]。它会导致异常和不受控制的细胞生长。它与基因组有关,由致癌基因引起。分子分析显示不同的癌症类型会有不同的基因表达谱[4, 5],然后这些可能被用来诊断不同的癌症。高密度DNA微阵列以平行的方式测量几千个基因的活动。这种新方法有助于为癌症患者提供更好的治疗手段,通过诊断癌症类型提高准确性[4, 5]。早期发现任何类型的癌症都会增加患者生存的机会。这种检测通常被认为是一个分类问题[6]。微阵列技术在一种细胞混合物中产生数千个基因(6000 - 60000)基因表达值的大数据集[7]。因此,有一个大样本容量就变得经济上禁止了。这种现象被称为是一种诅咒的维数(n)《样品的数量特征(p)》[8]。为了克服这个问题,微阵列医疗数据集需要减少维数[8]。降维方法大致分为两种类型,即特征提取[6, 7]和特征选择[8-11]。在特征提取过程中,将特征投影到一个具有低维度的新特征空间中,新特征作为原始特征的组合产生。广泛使用的特征提取技术是主成分分析(PCA)[12-14],核主成分分析(KPCA)[12],线性判别分析(LDA)[13, 14]和典型相关分析[15]

另一方面,特征选择方法有助于在不进行任何转换的情况下从原始特性集选择具有高度鉴别特征的子集。因此,特征选择在可读性和可解释性方面优于特征提取[9]。根据类[11]的存在与否,特征选择算法分为监督、无监督和半监督。监督特征选择方法包括过滤器、包装器和嵌入式模型。过滤器模型不使用任何分类器[11]。该技术通过观察数据的内在属性来评估特征的重要性。在这种方法中,所有的特征都是根据特定的统计标准来评分和排序的。因此,选择具有最高等级值的特性,删除低评分特性。与其他特征选择方法相比,滤波方法更快,但有三大局限性:(1)忽略与分类器的交互;(2)每个特征被独立地考虑,从而忽略了特征依赖;(3)确定特征的阈值点是非常困难的。包装器模型使用预先确定的学习算法的预测精度来确定所选特征的质量。这种方法在计算具有大量特性的大型数据集时是非常昂贵的。嵌入式模型通过利用这两种技术的优点来弥补这两种模型之间的差距[11]。文献中提出的特征选择方法是基于快速相关的滤波器[16],relief 算法[17],支持向量机递归特性消除[18],序列正向选择(SFS)[19]和序列向后消除[19]。在所有的方法中,SFS和SBE被广泛使用,因为它们的简单性和低的计算开销。但他们也有自己的局限性。顺序搜索方法的主要缺点是,当一个特征被删除时,在向后搜索时,它不能被重新选择,在一个特征被选中时,在向前搜索时,它不能被删除[20]。这就是为什么在搜索过程中引入随机搜索策略的原因,而特征选择过程对特定数据集变得不那么敏感。最流行的特征选择随机方法是遗传算法[21],模拟退火[22],蚁群优化[23],粒子群优化[24-26],微分进化[27, 28],细菌觅食优化[29],和声搜索[30],布谷鸟搜索[31],firefly[32],蝙蝠算法[33]和猫群优化[34]。因此,特征选择方法的主要优点是选择不转换,可读性更好,计算开销减少[6]

降维有助于提高微阵列医学数据集的分类精度。医学数据分类器的重要作用是为疾病的准确预测提供解释和依据[6]。许多传统的分类器,如KNN[35]、naive-bayes (NB)[36]、决策树[37]、random forest[38]、ID3[39]、C4.5[40]和各种基于神经网络的分类器,如多层感知器(MLP)[41]、RBFNN[42]、FLANN[43]、SVM[44-47]都在文献中找到。在所有的分类器中,ANN和它的变体被研究者广泛地用于分类医学数据集[48]。基于ANN的分类器的成功主要依赖于隐藏层的数量、每个隐藏层的节点数、隐藏层之间的权重值、隐藏到输出层的值以及学习算法。在文献中,人们普遍认为,当ANN与梯度下降学习算法相关联时,模型的性能就会变得非常耗时。它还增加了计算开销[48]。在此基础上,由于参数的初始随机选择,梯度下降学习算法的收敛速度变得非常慢,通常会被困在局部最小值中。为了避免上述所说的局限性,基于伪逆的神经网络[50-55]已经被许多研究者提出,如施密特[54],Pao[53], Broomhead和David Lowe[50]。基于伪逆的神经网络最近被重新命名为极端学习机器(ELM)[56],在ELM设置为零。然而,本文探讨了使用内核岭回归(KRR)[57, 58]的可能性,它最近被重新命名为内核ELM[59],用于微阵列数据分类。岭回归的体系结构与RVFL[55]和伪逆的神经网络有一定的相似性,在输入层与隐含层之间随机分配输入权值,利用伪逆公式学会了输出层与隐含层之间的权重。然而,岭回归在不同试验的分类准确率上产生了较大的变化,其隐藏节点数目相同。但是内核函数通过替换岭回归的隐藏层来解决这个问题。内核岭回归的主要优点是,核函数不需要满足美瑟定理,在输入和隐藏层之间的连接权重分配不需要任何随机性。文献表明,核岭回归与核伪逆的神经网络(KPINN)非常相似[57]。利用二次规划算法的概念,从数学规划中得到凸优化。它还借鉴了数学分析的内核表示思想,并采用了从机器学习理论中找到最大边缘分类器的目标[60]

本文提出了一种改进的猫群算法(MCSO)技术,从微阵列医学数据集和核岭回归(WKRR和RKRR)中选择最优的特征,对从MCSO算法获得的特征进行分类。这一领域的文献也表明CSO的性能比PSO好,尽管它的计算复杂度高于PSO[61]

此外,PSO和DE[62]有时会受到参数收敛和停滞问题的影响[63],而CSO中没有。此外,基于改进的猫群优化的特征选择方法(MCSO)能够在整个问题空间内提高搜索效率,从高维微阵列医学数据集得到最佳的最佳候选特征。提出的特征选择方法采用k近邻算法作为分类器,采用5倍交叉验证技术来确定分类精度。

本文组织如下:第2部分和第3节分别描述了流程模型和基准微阵列医疗数据集。第4节讨论了基于改进的猫群优化的特征选择方法(MCSO)。在本研究中使用的所有分类器分别是RR、OSRR、KRR、SVM和random forest等。第6节提出了绩效评估的措施。模拟结果和分析出现在第7和第8节。最后,在第9节中得出结论。

2.微阵列数据集分类的过程模型

所有的微阵列医学数据集都是用公式(1)所示的max-min归一化方法进行标准化。利用改进的猫群优化算法(MCSO)从这些归一化的数据集中选择最优的特征子集。对于每一个数据集,MCSO都被用来推导10个10 - 100个基因组成的10个子集。为了得到最优的候选特征,我们考虑了k近邻(KNN)分类器来确定分类精度。选择具有较低基因数和最高分类准确率的子集作为最优候选子集。得到的子集最终被分为训练和测试文件,并作为所有模型的输入,如RR、OSRR、WKRR、RKRR和SVM。

(1)

是原始值的归一化形式,和分别是-1和1,和分别是数据集的最小值和最大值。

3.数据集

演化算法由于其令人印象深刻的搜索功能而已被广泛用于特征优化。 在本节中,本节介绍了八个基准微阵列数据集[64-71]从http://www.gems-system.org下载http://datam.i2r.a-star.edu.sg/datasets/krbd/[64-71][66]。在8个数据集中,4个是二进制:乳腺癌,前列腺癌,结肠癌和白血病。其他4种是多类白血病、白血病、脑肿瘤和SRBCT。每个数据集被分成两个数据文件,即训练和测试。二分类的输出为0或1,而白血病1、白血病2、SRBCT和脑瘤1分别为0 ~ 2、0 ~ 3和0 ~ 4。表1给出了培训和测试所需样本的可用特性。

数据集

尺寸

样品

特征

选定的特征

功能降低比

训练样本

测试样本

乳腺癌

97*24482

2

97

24481

50

0.2

70

27

前列腺癌

136*12601

2

136

12600

50

0.4

101

35

结肠肿瘤

62*2001

2

62

2000

20

1.0

40

22

白血病

76*7130

2

76

7129

100

1.4

50

26

白血病1

72*5328

3

72

5327

50

0.94

45

27

白血病2

lt;

全文共18860字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[9403],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。