英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
基于离散小波变化和支持向量机的膜蛋白预测
摘要:
膜蛋白对于许多生物学功能至关重要,并且已成为基础研究和药物发现的吸引人目标。在基因组时代,随着新发现的蛋白质序列的空前增加,仅仅是通过传统的实验确定新发现的膜蛋白的类型既耗时又昂贵,所以急需找到一种便捷的方法快速而又准确的根据氨基酸的序列来判断出其膜蛋白的类型。在这项研究中离散小波变换(DWT)和支持向量
机器(SVM)用于预测膜蛋白的类型。使用具有小波函数bior2.4的SVM可以获得最大精度
分解尺度j = 4,Kyte–Doolittle疏水尺度。 结果表明,在预测膜蛋白的领域,这个方法可能对现有方法起重要的补充作用
1介绍
膜蛋白对于许多生物过程来说非常重要,例如细胞内膜蛋白的接触,表面识别,信号传导,酶的活性等。给定一个特定的膜蛋白,知道它属于哪种膜类型至关重要,因为这个信息可以提供线索以更好地理解其功能。在基因组数据中,我们估计在大多数基因组中约占所有基因的20%* 30%编码膜蛋白,与先前的估计一致。用X射线和核磁共振方法很难判断出膜蛋白的三维结构。由于膜蛋白和生物膜构成共同稳定的自然构象,在过去的实验中,只成功的探测到小部分膜蛋白的结构。因此,我们如何从小部分已知的膜蛋白结构去预测大量知的膜蛋白结构变成了预测膜蛋白类型的重要内容。最近,许多统计预测方法已经提出了用于预测膜蛋白类型的方法,例如致密的比对表面(DAS),人工神经网络(ANN),隐藏Markov模型(HMM),基于HMM的跨膜(TMHMM)等方法。在开创性工作中,在1982年,Kyte和Doolittle最初提出,利用氨基酸序列的疏水性可以预测膜蛋白的结构。在1999年,基于氨基酸的组成,Chou和Elrod引入了协变判别算法来预测膜蛋白的类型。随后,在2001年,为了整合蛋白质顺序效应他们提出将“伪氨基酸组成”用一组离散数表示。基于此概念,产生了一种新颖的方法——傅里叶光谱分析和伪氨基酸来组成来预测膜蛋白的类型。
支持向量机(SVM),作为一种效果很好的机器学习方法,由于其扎实的统计学习理论和吸引人的特征(包括有效避免过度拟合)处理较大特征空间的能力以及缺少局部最小值而在生物信息领域的研究中得到了应用[1]。但是,作为机器学习技术,SVM需要固定长度的模式;假如太短或太长的模式使用这种方法是不可行的。这些问题可以通过小波分析得以解决。作为信号分析的最新工具,小波分析自1980年出现开始一直广泛应用于许多科学领域。与傅立叶相反,仅阐明频谱信息的变换,小波变换最吸引人的特点是同时阐明频谱和时间信息。因此,小波变换已经应用与从序列中提取特征向量来预测膜蛋白的类型。
在这项研究中,基于氨基酸(AA)疏水性,我们开发了一种新方法(DWT_SVM)将离散小波变换(DWT)与SVM结合。这个方法包括三个主要步骤。 首先将膜蛋白的氨基酸(AA)每个残渣的能量转化为无疏水序列。 第二,疏水性是通过DWT分解为小波系数。这个将一维氨基酸(AA)序列因射到二维表示。 随后,使用统计方法,我们构建了一系列统计特征向量来代表膜蛋白序列。 最后,将DWT作为输入得到的特征系数,使用SVM算法来解决多分类问题。充分利用氨基酸(AA)疏水性数值,分解水平和小波功能的影响来预测膜蛋白的类型
2材料和方法
2.1材料
Chou[5]提供了注释良好的2059个蛋白质数据集,其中435是I型跨膜蛋白,152个类型Ⅱ型跨膜蛋白和1311多通道跨膜蛋白,51个脂链锚定的膜蛋白和110 GPI锚定的膜蛋白。在数据库中,没有一种蛋白质与数据库中的其他蛋白质的序列统一性大于30%。
2.2方法
小波变换(WT)定义为函数投影或一个信号f(t)到小波函数上。
T(a,b) = |
其中a是尺度,b是平移变量;它们属于实数R(n)并且agt;0。一种是小波分析函数。变换系数T(a,b)在信号的两个特定位置都找到了,t = b,对于特定的小波周期(即a函数)。依靠a和b绘制T(a,b),在曲面图中将其称为尺度图,特别是适合于检测奇点。 DWT将氨基酸序列分解为不同扩张的系数,然后从不同的profiles去除噪音成分,因此它可以为我们提供序列的结构,这些结构可以更有效地反映序列顺序效应。此外,计算WT,DWT是一种经济的方式,因为它仅在点的二进位网格,其中二次采样位于不同比例的不同尺度。因此,在这项工作中,DWT是首选的小波表示形式。 DWT使用a0= 2和b0 = 1,因此结果可以导致二进制的扩张和的二进位平移。因此,
此处,m = 1、2,hellip;,n = 0、1、2,hellip;。信号f(t)的小波系数通过以下公式获得:
T(a,b)=
Mallat [11]提出了通过一种假设离散信号为{C(n)},其中n是信号编号有效的算法来执行DWT。Mallat的算法如下
其中是信号分解水平为j近似系数(低频分量),是具体系数(高频分量)。原始信号由和重建。重建公式如下:
随着分解水平j的增加,可以观察到信号的更多详细特性。上面提到的过滤过程称为离散小波分解,我们将使用它来提取膜蛋白特征信息,用于SVM作为输入进行预测。
虽然现在可以使用等式6来估计蛋白质结构特征[20],它是冗余的并且涉及非常大的计算。 通常合理的假设是只有几个系数包含有关基础功能的信息,而其他系数可以归因于噪声。 因此,遵循“最大线”,“平均线” “最小线”和“标准偏差线” 的指数,用来预测膜蛋白的类型。 膜蛋白特征的最大线,平均线,最小线和标准差线在不同尺度上将其小波系数的最大值,平均值,最小值和标准偏差合并在一起。 因此,序列可表征为
4(m 1)维特征向量,可以直接放入SVM计算。
这里,,是小波系数在每一个子带的最大值,最小值,均值和标准差,他们的定义分别为:
hellip;
hellip;
这里,是详细小波系数的数量,近似小波系数的数量,是第j个尺度对应的第n个详细小波系数,是m尺度的第n个近似系数
现在,我们可以直接使用SVM执行预测。令为输入训练向量,为对应目标类。令N为输入向量的总数。然后可以将SVM分类问题转化为凸二次优化问题,公式为:
服从:
- ;
C是在边界和分类误差之间控制权衡的正则化参数。函数是满足Mercer条件的SV内核。SV内核函数的公式如下:
在这次研究中,选择径向基函数(RBF)作为内核函数,公式如下:
其中,是内核宽度参数,它是使用网格搜索根据训练集自动调整的LIBSVM软件中的策略[3]。
3结果和讨论
3.1 分解水平的影响
为了直接应用DWT,蛋白质氨基酸(AA)序列必须转换为实数。 由于在二级结构折成三级结构的过程中,疏水性起着至关重要的作用,我们首先将蛋白质AA序列映射为疏水蛋白序列,然后通过DWT处理这些疏水序列。 在这里,我们选择来自UniProtDatabank 数据库中索引1A33_HUMAN的蛋白质作为案例来描述使用DWT预测蛋白质的类型(图1)。
图1
索引1A33_HUMAN的蛋白质疏水性和小波分解水平从1到4的图如图1所示。图1中信号强度在y轴上显示,x轴表示沿序列的残基位置。C表示蛋白质1A33_ HUMAN的疏水图,cd1,cd2,cd3和cd4是分解水平j从1到4的规模,ca4表示水平为4的粗略标度。在DWT中,粗尺度(ca4)的系数捕获信号的总体和全局特征,而四个尺度(cd1,cd2,cd3,cd4)的系数包含局部细节。不同的系数向量在不同规模包含有关不同序列的特征的信息。受此属性的限制,我们需要选择适当的分解比例。一方面,分解规模过高的较短序列将在分解中引入不可避免的冗余。另一方面,分解规模太低的过长序列会忽略许多详细信息。为了选择适当的分解规模,测试序列将分别用3-6的分解规模和前面提到的2059个蛋白质进行分解。从表1中可以看出,
表1
Scales |
Success rate for each class (%) |
Overall(%) |
||||
Type I |
Type II |
Muti-pass |
Lipid |
GPI |
||
3 |
40.23 |
17.1 |
85.43 |
82.35 |
50.91 |
68.91 |
4 |
51.95 |
74.34 |
91.65 |
62.75 |
68.18 |
80.04 |
5 |
38.85 |
15.13 |
90.77 |
66.67 |
52.73 |
71.95 |
6 |
21.15 |
8.55 |
90.46 |
33.33 |
43.64 |
65.88 |
可以观察到那些分解规模为4的蛋白质的准确度最高,准确度约为80.04%,高于其他分解规模。因此,本研究选择规模4作为检测膜蛋白类型的合适分解尺度。
3.2 小波函数的影响
基于不同的基本函数,小波有不同的族,每个族对不同的信号都有其性质的拟合,得到的结果也不同。由于分析小波的特性影响了小波变换的性能,分析小波与信号的底层结构越匹配,从序列中提取的特征值就越高。为了研究小波对分类精度的影响,本研究选取了6个小波函数:Meyer10号Daubechies(Db10)、2.2号双正交(Bior2.2)和2.4号双正交(Bior2.4)、1号符号(Sym1)和8号符号(Sym8)。如表2所示
表2
Wavelets |
Success rate for each class (%) |
Overall(%) |
||||
Type I |
Type II |
Muti-pass |
Lipid |
GPI |
||
Bior2.2 |
41.84 |
76.31 |
87.03 |
82.35 |
75.48 |
75.96 |
Bior2.4 |
51.95 |
74.34 |
91.65 |
62.75 |
68.18 |
80.04 |
Db10 |
49.43 |
80.92 |
87.41 |
88.23 |
80.91 |
78.58 |
Sym1 |
41.83 |
92.10 |
87.72 |
86.27 |
77.27 |
77.76 |
Sym8 |
40.00 |
78.95 |
91.30 |
84.31 |
59.09 |
77.66 |
Meyer |
34.71 |
78.15 |
86.96 |
84.31 |
67.27 |
74.11 |
表2列出
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[409788],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。