英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
语义健康知识图:
异构医学知识和服务的语义集成
摘要
随着医疗保健信息的激增,已经出现了大量的异构文本医学知识(TMK),它们在医疗保健信息系统中起着至关重要的作用。现有的集成和利用TMK的工作主要集中在简单的连接建立上,而很少注意使计算机正确,快速地解释和检索知识。在本文中,我们探索了一种新颖的模型来组织TMK并将其集成到概念图中。然后,我们采用一个框架以高精度自动检索知识图中的知识。为了对知识图进行合理的推理,我们提出了一种上下文推理修剪算法以实现有效的链推理。我们的算法以92%和96%的准确率和召回率实现了更好的推理结果,可以避免大多数无意义的推理。此外,我们实现了两个原型并提供服务,结果表明我们的方法是切实有效的。
目录
第1章 介绍 1
第2章 相关工作 3
第3章 问题描述 5
3.1初步 5
3.1.1健康数据描述 5
3.1.2文字医学知识来源 6
3.2问题描述 6
第4章 医疗信息组织模型 7
4.1模型概述 7
4.2医学知识模型 7
4.3健康数据模型 9
4.4术语表 11
第1章 介绍
作为当今医疗保健信息系统(HIS)不可或缺的一部分,文本医疗知识(TMK)在向患者和医疗从业者提供医疗保健知识和决策支持方面发挥着关键作用[1、2]。近年来,出现了大量的TMK,这是由于医学文献的持续数字化,生物医学知识的不断扩展以及分级在线医疗服务提供商的迅速普及引起的。面对如此大量的异构TMK,组织和整合相关信息,然后以有效的方式向用户提供有用的处理信息已成为一项挑战。为了应对TMK的激增,计算框架应满足以下三个基本要求:
(1)该框架应该能够组织和集成异构的TMK,并且还能够将它们与来自HIS的健康数据融合在一起,从而可以促进知识从数据到知识的传递。
(2)框架的知识表示应同时支持人和机器可解释性,以便可以对大量知识内容进行有效的查询和推理。
(3)框架应具有知识检索功能,该功能能够自动更新TMK以将最新知识推送给用户。
不幸的是,集成和利用TMK的现有工作无法满足上述所有要求。大多数常规方法通过匹配关键字[3-7]来利用异构知识。当执行复杂的查询(例如获取庞大的TMK背后的句法,语义和结构信息)时,计算系统无法解释人类的知识并无法有效地提供服务。他们的知识库始终由人工管理和更新,因此无法应对TMK的泛滥[5、6、8-10]。因此,有效的TMK集成和交付方法势在必行。
作为万维网的不断发展的扩展,语义Web技术在集成和搜索众多异构Web内容方面显示出巨大潜力。
通过使用本体和资源描述框架(RDF)将Web内容组织成概念图,语义Web技术使Web可以“理解”人类知识,并为庞大的异构Web内容提供有效的查询和推理框架。此外,机器学习的出现使大型图知识库的自动化构建成为可能。Google的知识图谱,DBPedia和YAGO是突出的例子[11]。语义Web技术的这些特性使其成为处理巨大的异构TMK时满足上述要求的理想选择。
在本文中,我们提出了一种新颖的方法来组织TMK并将其集成到概念图中。更具体地说,我们的贡献如下:
(1)我们提出了一个模型,将异构文本医学知识与健康数据相集成,可以支持语义查询和推理。
(2)基于该模型,我们采用了自动知识检索框架,将文本知识转换为机器可读格式,从而构造了语义健康知识图。
(3)提出了一种对知识图进行无意义推论的算法。实验结果证明我们的算法提高了推理结果的性能。
然后,我们利用语义Web技术实现语义健康知识图,并开发了两个用于语义查询和推理的原型。我们的方法可以满足上述三个要求。本文的其余部分安排如下。我们首先回顾第2节中的相关工作。在第3节中描述了问题之后,我们介绍了医疗保健信息组织模型。在以下两节中,我们描述了知识检索框架并提出了推理修剪算法。此外,我们还将在第7节中实现两个原型。最后,我们讨论我们的工作并在第8节中总结该论文。
第2章 相关工作
当在本节中,我们将回顾有关TMK集成和利用的现有文献。一些研究人员和组织为整合和利用TMK内容付出了很多努力,以应对异构TMK的爆炸式增长。最常用的方法是利用标准医学术语来集成异构TMK。通过标准的词库,例如统一医学语言系统(UMLS)[8],ICD9 / 10和SNOMED CT [9],可以使用术语映射策略来集成和查询异构TMK。这些方法已应用于各种领域[3–6],例如tranSMART [4],MayoExpert [5],大多数商业医疗保健信息系统[6]和各种在线医疗保健提供商。将医学知识组织和集成到案例中,也称为基于案例的推理(CBR),是集成TMK的另一种著名方法。但是,CBR知识库的建设始终需要专家的参与[12]。这些手动集成方法无法应对医学知识的快速增长。
先前的一些工作试图采用数据挖掘方法来提取相关信息。Nguyen等。 [7]应用了基于规则的分类方法来提供用户特定的信息。Stewart [13]利用语义内容分析方法进行相关内容检索。赖特等。 [14]提出了使用web2.0共享临床决策支持内容的框架。这些方法可以处理TMK的增殖。但是,它们的计算系统无法解释人类知识,也无法提供全面而复杂的检索结果。
面对这个问题,许多现有的研究提出了计算机可解释的知识表示方法。人工组织了大型生物医学本体,例如基因本体论,疾病本体论和“关联生命数据” [10]中的许多其他本体论,以创建计算机可解释的表示知识,但是它们主要关注分子水平,需要大量的人力。恩斯特(Ernst)等人。 [15]提出了一种自动方法,用于生物医学大知识图的构建,无法与健康数据集成。IBM Watson医疗保健系统采用认知技术通过理解自然语言并分析非结构化医疗保健数据来类似于人一样处理信息[16]。然而,沃森的高计算成本阻碍了其普遍应用。
基于集成的TMK,如何向用户提供相关的知识内容是另一个重要的过程,即推理过程。通常,利用集成的TMK进行决策支持的推理方法主要有四种:基于相似度匹配的推理,概率推理,基于逻辑的推理和基于机器学习的推理。基于相似性匹配的推理是最常用的方法,在大多数商业医疗保健信息系统[6],CBR系统[17]等中使用。概率推理和基于逻辑的推理广泛用于基于规则的临床决策支持系统中。概率推理使用贝叶斯推理规则来计算条件概率,从而找到最相关的内容,而基于逻辑的推理则使用逻辑语句或公理来辅助决策[18]。基于机器学习的推理使用诸如分类和聚类之类的技术来提供与用户相关的内容,如[7、13、15、16]中所使用的。但是,很少有推理工作专注于推理结果的验证。未经验证,推断可能会遇到不准确且毫无意义的结果。
总之,常规方法主要集中在通过来自多个异构知识源的关键字匹配直接创建连接。此外,当遇到复杂的查询(例如无法直接从TMK获取的语法,语义和结构信息)的复杂查询时,计算机无法传达人类的知识,并且表现不佳。与健康数据集成一直被忽略。他们的知识库始终由人工管理并更新为最新知识,因此无法应对TMK的激增。此外,很少有推理工作专注于推理结果的验证。
第3章 问题描述
在本节中,我们介绍一些基本的初步知识,包括健康数据和文本医学知识来源,然后描述了本文的问题。
3.1初步
3.1.1健康数据描述
本文使用的健康数据来自中国浙江某城市的健康信息系统(HISCZ)。该系统旨在通过城市卫生局的城市级数据共享平台来集成和共享居民的健康数据。市内医院,诊所或其他卫生机构的HIS必须遵守HISCZ数据存储标准。同时,HISCZ还符合健康数据元素价值域的分类和编码格式,即中国国家健康数据共享标准(CHDE)[19]。但是,CHDE并未规定某些临床叙述,例如医生访谈引起的主要抱怨。因此,我们从HISCZ研究的健康数据包括结构化,半结构化和非结构化数据。HISCZ的总体架构涉及居民医疗保健记录的六个主要部分(如图1所示),包括慢性病管理,老年保健,儿童保健,孕妇保健,疾病控制和医疗服务。在这里,我们主要关注包含门诊和住院患者医疗记录的医疗服务数据。
图1 健康信息系统的总体架构
3.1.2文字医学知识来源
在本文中,我们研究了两种类型的文本医学知识源:开放网络上的医疗内容和一本医学书籍[20],该书籍已通过光学字符识别(OCR)技术检索。公开的医疗内容主要是针对外行的医疗材料,包括两部分:常见疾病的自我诊断[21]和默克诊断手册中文版[22]。两种知识源都安排在特定的文档结构中,包括标题,章节和清单。
3.2问题描述
我们的目标是探索使用语义Web技术组织,集成和交付异构的巨大TMK的有效方法。因此,主要存在三个挑战:
(1)需要一个模型来组织和整合异构医学信息。电子病历(EHR)系统中的健康数据始终非常复杂。它包含许多连续变量和大量离散概念的混合[23]。它们中的大多数表示为需要自然语言处理的非结构化自由文本格式。此外,与医疗保健相关的术语可能会因不同的医生而异[24]。除健康数据外,TMK还面临类似的问题,例如多个异类变量,非结构化的自由文本格式以及术语使用不一致。因此,我们需要提出一个模型来处理这种异构的医学信息。而且,为了使计算机理解该信息,必须考虑基于概念图的知识表示方法。
(2)为了自动从异构文本知识源检索知识,需要有效的算法来处理这些文本TMK作为表示的模型。
(3)为了传递合理的健康知识,当我们在图知识库上执行查询和推理时,需要一种推理算法。
在以下各节中,我们将描述能够克服这些挑战的方法。
第4章 医疗信息组织模型
4.1模型概述
为了组织和整合异构医疗信息,我们提出了一种医疗信息组织模型,以将异构医疗信息标准化为可共享且一致的格式。为了增强语义适用性,我们使用概念图表示法对这些信息进行建模。我们的模型概述如图2所示。我们的模型包括三个部分:医学知识模型(MKM;请参见图4),健康数据模型(HDM)和术语表(TG)。医学知识模型用于将TMK组织成概念图。健康数据模型用于定义和规范来自EHR的复杂和非结构化健康数据的详细结构和关系,从而促进与TMK的集成。术语表提供了用于表达TMK和HDM实例的同义词库,并提供了语义映射以实现集成。在以下小节中,我们将详细描述每个部分。
图2 模型概述
4.2医学知识模型
医学知识模型(MKM)用于定义知识模式,以将TMK表示为概念图并与健康数据集成。为了使计算机能够阐明医学知识,我们提取了医学的文本格式医学知识模型其他知识基于概念性图形知识表示将知识提供给图形表达[25]:医学术语被分类并用作图的顶点(实体),描述医学术语之间关系的句子被抽象为图的边缘。另外,将解释实体的描述性知识作为实体的属性。此元知识构成了我们的图形知识库的基础。图3图示了关于肺炎的百科全书的图示。
图3 肺炎百科全书的概念图知识表示形式的插图
基于图知识表示,我们的MKM通过所需的医学知识之间的关系定义医学实体的类(或概念)要抽象和集成。 MKM中的概念实体在术语表中定义。为了说明知识模型中复杂的语义和关系,我们采用本体技术来表示MKM。实际上,生物医学领域中存在许多现有的知识模型。这些知识模型大多数集中在特定领域。例如,OBO铸造厂[26]已经开发了许多生物医学本体,这些本体在逻辑上结构合理且科学上准确。SemanticHealthNet [27]项目还开发了几种生物医学知识模型来共享知识。可以考虑使用此类知识模型并将其重新用于构建MKM。在本文中,我们特别关注于临床诊断和治疗过程中的知识。因此,我们建立了一个上层本体模型来描述临床诊断和治疗中的概念和关系。可以通过MKM集成现有的特定领域知识模型。为了达到理论上的合理性,我们使用现有的医学本体作为参考[28,29]。我们的MKM由3部分组成:
(1)临床表现:由临床医生记录的关于疾病的患者身体特征的表示[28],例如体征,症状,临床历史和实验室检查。
(2)诊断:解释过程的结论,该过程具有输入患者的临床图片并输出表明患者患有此类疾病的结论[28],例如疾病或紊乱。
(3)治疗:患者的内科或外科治疗[28],包括治疗方法和治疗计划。
图4 医学知识模型的说明(部分)
4.3健康数据模型
为了将异构健康数据与医学知识整合在一起,有必要将这些数据表达为可共享且一致的格式。幸运的是,许多研究已经注意到了这个问题。语义网提供了一个通用框架,允许跨应用程序,企业和社区边界共享和重用数据[30],并在医疗保健数据集成中得到广泛采用[31-33]。此外,已经建立了诸如HL7 [34],SNOMED CT [9]和ICD 9/10之类的现有标准来规范健康数据的概念模型
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236443],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。