英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
从本体论到语义相似性:基于本体论的语义相似性计算
甘明鑫1,窦薛1 ,蒋睿2
1北京科技大学经济与管理学院,北京100083
2清华大学自动化学院 北京100084,中国
收稿于甘明鑫,ganmx@ustb.edu.cn和瑞江; ruijiang@tsinghua.edu.cn
收稿日期2012年10月27日;接受日期2013年1月16日学术编辑:Y.Cai,S.Mohan,C.Proctor,K.Spiegel,andJ.Wang
摘要:本研究的主要目的是在本体论领域中获得更多的关注,并需要对本体术语之间的关系进行定量的度量,并在此基础上提出了一些基于本体的知识表示方法,使得开发用于推导术语之间基于本体的语义相似度的计算方法是必不可少的。尽管如此,利用各种可用方法,如何为特定应用选择合适的方法成为问题。有了这种理解,我们回顾了大多数存在的方法,这些方法在语义上存在着相同的语义相似性。我们将现有的方法分为五类:基于语义距离的方法,基于信息内容的方法,基于属性的方法,基于本体层次的方法和混合方法。我们总结了每个类别的特点,强调了这些方法的基本情况,优点和缺点。此外,我们还将介绍使用这些方法实施方法和应用的软件工具
- 介绍
最近的技术创新在高通量实验中已经成功地取得了现代生物学和生物医学研究的进展。微阵列技术同时测定了数千个基因的表达谱[1]。 串联质谱法可以对大量蛋白质进行测序和快速鉴定[4]。 事实上,高通量实验技术已经能够收集大量的组学,数据,而如何组织,解释和使用这些数据现在已经成为一个严重的问题[5]。 每种类型的数据都从特定的角度解释了正在研究的生物系统。 然而,为了充分了解该系统,需要整合多种类型的数据 - 通常来自不同的实验室并使用不同的实验技术获得。因此,数据的组织方式应该是跨越不同实验室的各种不同技术和可理解的标准。 换句话说,数据中包含的信息和知识应该使用一套标准化的受控词汇来描述。 幸运的是,本体提供了有限的组织信息[5]。
本体论是在某个领域中描述系统知识组成的系统[6]。 通过以分层方式组织领域中的概念(术语)并使用少量关系描述符描述关系之间的关系,本体提供了一个标准化的词汇表示域中的实体[7]。 特别是在生物和生物医学领域,已有相当多的本体[5]。例如,基因本体论(GO)包括三个独立的领域(生物学过程,分子功能和细胞成分),已被广泛用作标注基因功能的标准词汇和他们的产品跨越不同的种类[8]。人类的形态学(HPO)已被探索,以促进描述人类疾病表型的相关标准[9]。植物本体(PO)有用于植物结构和生长阶段[10]。 特别是,为了达到使用通用控制词汇表为多种异构数据源提供标准注释的目标,开放式生物和生物医学本体(OBO)代工厂提出了与不同生物和生物医学领域不同的本体开发协作[5]。 2012年10月20日,共有8种生牙和107种牙周病学在内,包括解剖学,健康,表型,环境和其他方面的25个领域[5]。
许多使用领域本体的应用需要量化两个术语之间的关系[11,12]。给定基础领域本体[13],这种关系的适当度量是术语之间的语义相似性。考虑到本体的层次结构[6],两个术语之间的语义相似性一般被定义为与邻接本体的层次结构相对应的距离。然而,对于本体甚至是已经使用本体注释的实体的进一步知识,可以对函数的分形形式进行改进,产生了用于计算术语语义相似性的大量方法[14-19]。更具体地说,我们将这些方法分为五类:(1)基于术语间语义距离的方法;(2)基于信息内容的方法;(3)基于特征的方法;(4)基于分类学结构的方法;(5)混合方法。 ,它是不可或缺的,该方法适用于感兴趣的应用。受此考虑的驱动,我们总结了本文中各种方法的特点,简要回顾了这些方法的可用软件实现方法,并介绍了生物医学和生物医学应用的典型实例。
- 生物和生物医学本体
快速生物学和实验技术的快速发展使得各种组学数据的爆炸性增长,而综合使用这些数据对于多个异构数据源的标准注释使用同一个控制对象。为实现不同领域本体的开发协调,开放的生物和生物医学本体(OBO)铸造厂 已被提出[5]。 OBO Foundry是一项协作实验,目的是创建受控制的白鼠共用于不同的生物学和医学领域。OBO Foundry的参与者事先同意采用一组原则来指导开发牙病的实践,以开发可互操作的人工验证参考本体用于所有生物医学研究的主干瘤。表1中,截至2012年10月20日,共有8项正畸学和107项临床试验。 这些本体可以进一步分为25个领域,包括解剖学,健康,表型和环境。
表一:OBO Foundry 领域
序号 |
领域 |
数量 |
1 |
不良事件,健康 |
1 |
2 |
算法 |
1 |
3 |
解剖学 |
39(3) |
4 |
深度解剖 |
1 |
5 |
免疫解剖 |
1 |
6 |
行为学 |
1 |
7 |
生物化学 |
3(1) |
8 |
生物功能学 |
1(1) |
9 |
生物过程学 |
3(1) |
10 |
生物序列 |
1 |
11 |
环境学 |
3 |
12 |
试验 |
8 |
13 |
基因组 |
1 |
14 |
基本健康 |
12 |
15 |
耳目科 |
1 |
16 |
脂肪 |
1 |
17 |
药剂 |
2 |
18 |
分子学 |
1 |
19 |
神经科学 |
3 |
20 |
外科 |
8(1) |
21 |
蛋白质 |
6(1) |
22 |
生育 |
1 |
23 |
资源 |
1 |
24 |
分类学 |
4 |
25 |
其他 |
11 |
总数 |
115(8) |
表2列出了8个成熟的本体。生物过程,细胞组分和分子功能属于基因本体论(GO),其目的是通过提供用于描述基因产物注释的术语的控制词汇来标准化表达基因和基因产物在物种间的特征表达[20]。具体来说,生物过程描述具有确定的开始和结束的操作或分子事件集合。分子功能描述了分子水平上基因产物的元素活性。细胞成分描述细胞的部分或其细胞外环境。生物学兴趣的化学实体(ChEBI)提供了一个受控词汇,主要用于描述小化合物,它们是自然界的产物或用于干预活生物体过程的合成产物[21]。表型质量(PATO)可以与其他本体论提供的表型注释结合使用,以描述表型的质量(如红色,异位,高温,融合,小型,无畸形)[5,22]。蛋白质本体论(PRO)用于描述蛋白质相关修饰形式,直向同源异构体和蛋白质复合物[23]。 牙体病学分为以下三类:基于进化相关性的蛋白质,由给定基因位点产生的蛋白质形式和含蛋白质的复合物。 非洲爪蟾的解剖和发育(XAO)旨在描述模型生物非洲爪蛙(非洲爪蟾)的注释[24]。 在这个本体论中,组织的谱系和发展的时机是组织化的视图,因此促进了爪蟾的基因表达模式,突变体和形态表型的基因表达。类似地,斑马化学和发育(XAO)为注释解剖学模型提供了控制词汇斑马鱼(Daniorerio)[25]。
表2:成熟本体OBO。
内容 |
领域 |
字首 |
生物过程 |
生物过程 |
GO |
细胞组织 |
解剖学 |
GO |
生物化学实体 |
生物化学 |
CHEBI |
分子功能 |
生物功能 |
GO |
蛋白质量 |
生物化学 |
PATO |
蛋白质本体论 |
蛋白质 |
PR |
非寄生虫发育 |
解剖学 |
XAO |
斑马鱼解剖和发展 |
解剖学 |
ZFA |
许多候选本体也被广泛用于各种研究领域。 例如,在医学研究中,人类表型本体(HPO)提供了描述人类疾病中表型异常的手段[9]。 该本体是基于在线曼德尔遗传算法(OMIM)数据库[26]和医学文献开发的,目前包含10,000多个术语和超过5万个对人类遗传疾病的注释。 在环境科学中,环境生态学(EnvO)旨在支持有机体或生物样品的
全文共19576字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[16354],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。