在质量控制的网关中使用多种健康术语来改进信息检索外文翻译资料

 2022-12-29 11:07:32

在质量控制的网关中使用多种健康术语来改进信息检索

文 摘

背景:法语健康互联网资源(CISMeF)的目录和索引是一个质量控制的健康门户,主要用于法语的网络资源(n = 89,751)。最近,我们在目录结构上取得了重大改进,建立了基于法语的12个健康术语的多种术语,以克服网络词典的潜在弱点,这是自1995年以来我们用于索引和检索的主要和关键的术语。本研究的主要目的是评估利用好几个术语及其语义关系来提高CISMeF中Web资源索引和检索的增值价值,以提供满足用户期望的额外的健康资源。方法:将12个术语集成到CISMeF信息系统中多术语索引和检索。通过使用网格的层次结构,以及利用额外的12个术语和它们的语义链接,可以运行相同的30个查询集:(i)。对两种搜索模式进行了评价和比较。结果:与使用网格(16283对14159)( 15%)相比,对多术语搜索模式的整体覆盖进行了改进。这些额外的结果估计有56.6%的相关结果,24.7%的中间结果,18.7%无关。结论:多术语方法改进了信息检索。这些结果表明整合额外的健康术语能够提高回忆。自从执行这项研究以来,已经增加了21个其他的术语,使我们能够在多术语信息检索中进行更广泛的研究。

关键词:摘要与索引,编目,信息存储与检索,互联网,术语,词汇,控制

引言

在许多领域,互联网正在迅速成为公认的信息来源,包括健康。在这篇文章中,为了支持系统的资源发现和帮助用户找到他们正在寻找的健康信息,已经开发了几个健康网关:质量控制的主题门户是由科赫[1]定义为“应用一整套质量措施来支持系统资源发现的互联网服务”。这些信息搜索者可能是患者,但也可能是健康专业人士,比如医生正在寻找临床试验。卫生门户依赖这些词汇和控制词汇。其中一些是在[2]中进行评估的。这是一项已被证明的关键技术,可以有效地获取信息,因为它们提供了一个控制的词汇表来索引信息。因此,它们有助于克服在特定领域中关联和分组相关术语的自由文本搜索的一些问题。

在生物医学领域的框架下,几个健康门户可以评为品质管理如:Intute(英国),健康网站(一个)和CISMeF(法语卫生互联网资源的目录和索引)设计目录和索引的最重要来源机构卫生信息在法国(n = 89751)。Doc CISMeF[3]是与CISMeF相关的搜索工具。它不仅为卫生专业人员和医科学生提供最相关的资源,而且为病人、他们的家庭和网络公民提供了最重要的资源。我们将互联网资源定义为互联网网站和从这些资源获取的网络文件。从1995年到2005年,CISMeF使用了两种标准来组织信息:MeSH(医学主题词)同义词典[4](用于索引MEDLINE书目数据库的科学文献)和都柏林核心元数据集[5]。

为了对目录进行评估并确保其持续相关性,为了给用户提供最佳的信息,已经进行了几项研究和改进。许多工具已经被开发出来:他们利用自然语言处理、统计、词汇和背景知识等技术[6,7],网格的结构[8],但是基于编辑距离的简单的拼写校正器[9]。

面对越来越多的在线资源被编入索引并包含在目录中,CISMeF团队始终评估手动和高级自动网格索引技术。由于单个术语很难在其不同的环境中反映整个健康领域,2008年,CISMeF团队将一些健康术语的自动索引应用于“低优先级资源”。为此,开发了f - mti(法国多术语索引器)工具,用于索引CISMeF[10]中的卫生资源。除了网络辞典,还包括了四种健康术语:icd - 10(国际疾病分类)、SNOMED 3.5(药物的系统化命名法)、CCAM(美国CPT的法国equiva)和TUV(法国的治疗和临床使用药物的术语)。2009年,另一项研究[11]用f - mti评估了多术语索引的增加值,以自动索引CISMeF资源。该研究提出了将四个新的术语(孤儿院、ATC、药物名称、网格补充概念)集成到f - mti的知识来源,并对在线健康资源的标题和摘要进行自动索引的努力。f - mti的性能包括5个健康术语在CISMeF手动索引资源中,只有25.9%的精度和13.5%的召回率,而有9个术语的性能是27.9%( 2%)和19.7%( 6.2%)。使用9个术语而不是5个术语可以提高CISMeF web资源索引的改进。

在第一次使用多个术语进行自动索引的经验之后,我们尝试进一步深入并评估在CISMeF目录中基于覆盖和精度的多个术语所创建的信息检索(vs . mono -术语infor - UNK检索)。建议使用多种术语来增加搜索引擎识别的生物医学术语的词汇和图形形式。出于这个原因,CISMeF最近从一种单一的术语方法演化而来,将网格的主要标题和子标题运用到一个多重的终端。

方法

CISMeF信息系统的多术语版本

从一个单一的术语世界上的转变(限制到网格字典的索引和重新评估)到一个多终结的宇宙中,这是越来越多的因为每个术语不仅有不同的目标和上下文的用法,而且还试图克服网格系统的潜在缺陷(索引和搜索信息)事实上,根据使用的文本,某些术语可以比其他术语更合适。例如,药剂师可能更倾向于使用ATC(解剖治疗化学)分类或CAS代码来获得关于药物的更详细的信息。与此相反,医学专业的学生将使用网络词典来获得预期的书目资料。因此,CISMeF信息系统的多术语版本是通过将法语中可用的主要健康术语集成到一个结构中来实现的。除了网格同义词典,许多法国(或者他们的法语翻译)术语添加了(n = 12),即snom(医学系统化Nomen-clature)[12],ICF(国际分类功能,障碍和健康)[13],icd -(国际疾病分类,version10)[14],CCAM(常见的医学Proce-dures分类)[15],ICPC2(Pri-mary保健国际分类,第二版)[16],刚果民主共和国(咨询结果字典)[17],ATC(解剖学治疗化学)分类[18],MedDRA(医学词典监管活动)[19],MedlinePlus[20],是谁(不良反应术语)[21]和sev-eral法国码与药物有关。大多数这些术语(n = 9)存在于UMLS[22](统一的医学语言系统)Metathesaurus(例如MeSH,SNOMED,icd - 10)和一些(n = 3)都不是(对于以前的CCAM,DRC)。在卫生领域,UMLS项目是由美国国家医学图书馆发起的一项研究项目,目的是建立知识来源,以便促进卫生专业人员获取生物医学信息的系统的开发。在异构信息系统之间建立互操作能力的知识来源,解决因其差异而导致的几种术语的集成问题。UMLS的知识来源是元词库、语义网和专业词典,一个医学词汇。

我们的目标必须考虑到这些医学术语的可用性、分类、同义词典和法语的命名法以及它们之间存在的映射关系以确保它们的互操作性。为了实现信息检索中的语义扩展,我们进行了几个语义协调[23],如:

(i)通过UMLS的Metathesaurus来进行概念上的映射。由于相同的概念标识符(概念唯一标识符)概念(精确匹配),在UMLS元同义词典中可用的所有术语都被映射在一起。

(ii)术语的手工映射:例如,mesh - ccam;MeSH-ATC;

(iii)使用自然语言处理(NLP)方法的自动映射方法:例如:孤儿网。

多术语模型

为了在CISMeF信息系统中建立一个通用的和统一的模型,我们必须要考虑他们原始的格式(SQL格式,数据库,XML,等等)的模式,之后,每一个都通过生成他们的RDF[24](资源描述格式)格式来创建一个均匀的数据库。因此,我们结合在一起,在相同的结构、术语、术语、术语和分类中,具有特定的特异性而不丧失任何一种以任何形式进行的。模型在[25]中描述,它以“描述符”实体为中心,该实体包含所有可以描述术语概念的术语。这个类定义了通用术语的属性。特定的属性由另一个实体来表示,从而使每个术语的完整信息成为可能。描述符的定义是多种语言和不同类型的。为了允许用户查询的丰富和不被视为索引项,syno - nyms在模型中表示并添加到数据库中。每个描述符属于一个集成的术语。后者也在模型中表示。在相同的术语和术语之间的术语和术语之间的层次关系和术语之间的非层次关系,以及与语义网和UMLS的元同义词典一起执行的术语,也在模型中被重新提出。

多术语信息检索算法,在[26]中描述的信息检索算法是为了将搜索过程与CISMeF信息系统中集成的所有新术语进行泛化。

查询过程

用户查询被分割为单词和无关紧要的术语(停止单词,如,a,I)被消除。然后,最重要的单词列表的用户查询,词算法[26]的袋子被施行认识到最好的属于不同的术语描述符中可用CISMeF信息系统,然后下一阶段建立布尔查询医生CISMeF上执行。例如,剔除了从用户查询的“消化系统疾病”中不重要的单词(of,the)后,得到的单词包为{疾病;消化;系统}。然后,对术语描述符的识别揭示了laquo;消化系统疾病raquo;,这是一个网格描述符,laquo;消化道疾病raquo;,它是一个medli - neplus描述符,laquo;消化系统疾病raquo;,它是一个icd - 10描述符和laquo;消化系统疾病raquo;,它是一个SNOMED描述符。结果布尔查询是:(消化系统疾病)。(MSH)或(消化疾病)。mr[MED]和system . ti)或(消化系统的疾病)或(消化系统疾病,mr[SNO]),与mr:术语重新定义描述符;ti:这个词出现在标题中;ICD:该术语包括在ICD - 10中;MSH:这个术语是一个网格描述符;SNO:这个术语包含在snomed - ct中;MED:这个术语包含在MedlinePlus中。

信息检索算法

多术语信息检索算法是基于单词包的,它与单术语信息检索算法[26]有相同的三个步骤,其中包括以下步骤:

(i)在资源的标题或资源索引项的层次上进行搜索;

(ii)如果(i)提供0结果,搜索资源元数据(如作者、日期、编辑器、资源描述等);

(iii)如果(ii)提供0结果,搜索资源的全文。

信息检索的结果是通过索引的资源(直接或间接)(例如laquo;消化系统瘘raquo;、laquo;胆道疾病raquo;、laquo;消化系统异常raquo;等)和确定的术语描述符进行了丰富。当用户喜欢受限制的结果时,可以排除此选项。

样品测试

在37263个手动索引的web资源的CISMeF语料库和5059个自动编入索引的web资源自动索引的索引中,对多术语信息检索进行了评估,并自动索引了35,764个自动索引的web资源。对于语料库中的每一个手工索引资源,索引器选择标题、副标题并编写一个简短的摘要来概括web资源的含义。他们还通过选择一组属于CISMeF信息系统中可用的医学术语的术语(描述符)来描述和索引资源。

对于自动索引的资源,这个过程是由于单词算法的包而完成的[26]。它提供了不同术语的不同描述符,描述了资源的内容。对于每个资源,首先将标题/副标题拆分为句子。然后每一个句子都是标准化的(去掉了重音,所有的单词都换成了小写字母),然后把单词去掉,形成一袋最重要的单词。因此获得的“包”与cis - mef信息系统中的所有术语匹配。所有术语的术语,包括至少一个字的句子被检索。较长的火柴更适合较短的。对于前足类而言,以“脉络膜肿瘤”索引一种网络资源比“肿瘤”更精确,当构成的一袋文字包含在内时,

“脉络膜、肿瘤、癌症hellip;hellip;等等。”

评价

为了评估多术语域的潜在附加价值,定义了一组查询,主要基于Doc cismef搜索引擎的日志。这组查询(根据上面所描述的算法)只使用网格同义词典(ii),然后使用所有的CISMeF术语和(iii),最后使用所有术语,除了网格词典((ii)-(i))。对不同的资源进行了评估,第三步(iii)进行了评估。为了研究的目的,选择了10个查询,有11个查询,有2个术语,11个查询有3个术语,它们可能会在单一术语搜索(只使用网格)和多术语搜索之间产生不同的结果。这些查询列在表1中。为了度量使用多个术语的潜在附加价值,测试了CISMeF信息检索算法,以评估资源多术语索引术语和用户查询之间的映射。为了评估,人类专家被选为黄金标准。三个不同的专家进行了评估:(a)一个CISMeF indexer,他是一个药剂师和图书管理员(CL),(b)一个高级护理的高级医师

(c)职业性中- cine(LR)的一名初级医师。这些领域专家的作用是,利用所有的医学术语和仅使用网络词典的单一术语搜索模式来判断多术语搜索模式之间的不同资源的相关性。结果被三位专家评定为(i),如果资源与所要求的主题完美一致,(ii)如果它产生的噪音超过了精确度或其他(iii)中间值,那么就很好。对于每种查询类型(单字查询、两字查询和三词查询),每个专家评估了由多术语方法检索的一组相同的额外web资源的相关性(根据每个用户查询,被评估的web资源的数量介于1和268之间)。

另一项实验是在20个“世代”术语上进行的,这些术语对应于医学专业。

1个单词,2个单词,3个单词的查询

1个单词的查询

耳炎 哮喘 栓塞 高血压 风湿病 脊柱 降压机 疼痛 溃疡 内窥镜检查

2个词查询

病理解剖学 运动器材 尿路病 营养评价 呼吸器 血液生理 儿童发展 药房管理 寄生虫病

整形外科手术 胰腺的荷尔蒙

3个词查询

尿失禁 妇科手术 消化系统疾病 儿童精神运动发育 乳腺癌的治疗 肺外科手术

血管外科手术 神经系统疾病 档案护理男护士 鼻窝解剖

表2

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[280270],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。