自动文本摘要研究外文翻译资料
2022-08-12 16:48:00
英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
自动文本摘要研究
摘要
文本摘要致力于在保持文本原始思想的同时生成文本的摘要版本。尤其是网络上的文本内容正以指数级的速度增长。从如此大量数据中提取有用信息是一项重要的工作,并且需要一种自动机制来协助现有的信息存储库。文本摘要系统旨在帮助减少内容,从而保留相关信息并过滤文本的不相关部分。在输入方面,文本摘要系统中有两种基本方法。第一种方法是总结单个文档。换句话说,系统将单个文档作为输入,并生成摘要作为其输出。另一种方法是将多个文档作为输入,并生成一个摘要文档作为其输出。在输出方面,摘要系统也分为两种主要类型。一种方法是从原始文档中提取关键的句子以构建摘要输出。另一种方法更复杂一些,其中渲染的文本是原始文档的改写版本。本文将对自动文本摘要提供深入的介绍。我们还提到了一些评估技术来评估自动文本摘要的质量。
关键词:自动文本摘要,多个文档摘要,单个文档摘要,摘要评估技术
引言
由于每天都会产生大量的信息,因此很难通过手动方式找到所需的信息。万维网以网页,新闻文章,电子邮件和对世界各地数据库的访问的形式提供了大量内容。但是,其中许多内容可能没有用。因此,自动文本摘要已成为自然语言处理领域中的一个研究方向,以帮助查找相关文档[1]。自动文本摘要的目的是在无需阅读整个文档的情况下提取原始文本的要点。以下定义构成了有关文本摘要的基本假设。“摘要是由一个或多个文本产生的总结性文本,包含了原始文本中很大一部分信息,并且不超过原始文本长度的一半” [2]。根据Mani [3]的说法,“文本摘要是从一个或多个源中提取最重要的信息,以生成特定用户(或多个用户)和任务(或多个任务)的简化版本的过程”。在结构部件方面,自动文本摘要过程可以分为三个步骤[4、5]:
(1)识别:在此步骤中,确定了文本的要点和中心主题。它的一个简单形式是通过收集文本的关键词句来生成摘要。
(2)解释:第一步确定的一些重要主题更加紧密地结合在一起。在此步骤中,对原始句子进行一些修改可能是必要的。此外,在此步骤中,文本摘要的成功生成可能需要域知识。
(3)生成:第二步得到的结果是一个摘要,可能与读者的阅读习惯不一致。因此,此步骤的目标是将提取的摘要重新拟订为连贯的新文本。生成步骤是执行编辑的最后润色,为读者生成可以理解的摘要。
各种类型摘要
基于输入、输出、目的和语言的摘要[6],有不同的分类,我们将在以下小节中详细介绍。
2.1基于输入的摘要
就输入而言,摘要可以基于单个文档或多个文档[7]。早期的摘要尝试主要基于单文档摘要,系统从单个源文档生成摘要。但是,后来的发展带来了基于多个源文档的文本摘要。在多文档摘要中,将共享相似主题的多个文档作为输入。考虑到在多个文档之间进行裁定的额外复杂性,与单文档的文档摘要相比,多文档摘要任务按比例看难度更大。这是因为系统将必须删除文档之间的所有冗余,并且还须将内容协调为一致的摘要[8]。
2.2 基于细节的摘要
基于细节,摘要可以是指示性的或提供信息的。指示性摘要系统仅呈现文本的最重要思想。指示性摘要提供了本文所涵盖主题的整体视角。这种类型的摘要可帮助用户决定是否进一步阅读文本,它的典型长度约为原始文本的5%到10%[1,9]。而信息摘要系统涵盖了正文的各个方面,它的长度约为原始文本的20%至30%[10]。
2.3 基于输出的摘要
基于所生成的文本,摘要可以是提取性的也可以是抽象性的[11]。通过将文本的重要部分连接在一起而无需修改原始单词和句子即可生成摘要。这是产生摘要的简单而可靠的方法。但是,由于选择的句子可能不会彼此共享语义关系,因此存在产生不一致文本的风险。换句话说,提取方法可能会产生不一致的摘要[1]。
在抽象总结中,自然语言生成技术用于执行总结任务[12]。在这种方法中,人们试图通过识别关键概念来理解原始文档,然后将其转换为另一种语义形式,这相当于原始文本的简短表述[11,13]。
2.4 基于内容的摘要
基于内容,可以根据用户的需求来定制摘要。在这方面,摘要可以分类为通用、基于查询或特定于域的摘要。在基于查询的摘要中,通过选择与用户查询相对应的句子来生成摘要[14]。与查询相关的句子有较高的机会被提取出最终摘要。但是,由于基于查询的摘要系统专注于用户的查询,因此无法提供文档概念的整体视图。另一方面,一般性总结的目的是在不注意领域和主题的情况下总结整个文本[1]。通用摘要对此主题没有任何看法,并将文档视为唯一的文本,因此所有信息都具有相同的重要性级别[6]。特定领域的摘要器根据特定字段提供摘要[15]。为了给出一些示例,可以参考其中的许多内容,包括对商业新闻文章[16]、网页[17]和生物医学文档[18]的概述。这种汇总需要特定领域的知识来选择要总结的句子。
2.5基于语言的摘要
基于语言,有三种类型的摘要:单语言,多语言和跨语言[1、3]。在单语言摘要系统中,源文档和目标文档的语言是相同的。 FarsiSum是一种单语种文本汇总系统,仅针对波斯语文本生成摘要[19]。在多语言摘要系统中,源文档和生成的摘要可能使用某些语言。 SUMMARIST是一种多语言文本摘要系统,该系统基于一种提取方法,可以从英语,印尼语,西班牙语,德语,日语,韩语和法语等不同语言的来源中生成摘要[20]。跨语言摘要与多语言摘要相同,但是源文档和目标文档的语言必须不同。
3.文本摘要方法
摘要领域中的许多工作都集中在提高所生成摘要的质量上。到目前为止,我们已经应用了许多不同方法来执行第1节中提到的摘要任务。在本节中,我们希望阐明摘要系统中采用的各种计算方法。虽然解决摘要问题的方法可能因研究的不同而不同,但一般方法可分为统计,机器学习,基于语义和基于人工智能的四类。图1给出了文本摘要方法的层次结构视图。
及其
图1:文本汇总方法图
3.1 统计方法
此方法处理文本的某些统计特征,以识别文档的突出部分。统计方法的目标是根据物理特征而不是单词和句子的含义或是关系来选择句子。某些统计特征是词频,句子位置和关键词。本节将介绍其中一些统计功能。
单词频率是单词在文本中出现的次数。Luhn [21]使用词频来概括科学文章。在这种方法中,Luhn强调,文本中最常见的词代表其中最突出的概念。因此,词频用于对句子评分。通过比较每个句子的分数并提取分数最高的句子,可以生成摘要。 Baxendale [22]研究了一种机器技术来进行总结。他专注于句子的位置,并探讨了重要内容的最佳位置是段落的第一部分和最后部分。在检查了200个段落之后,他得出的结论是,在其中的85%中,主题句子出现在该段落的第一部分中,而只有7%出现在最后一部分中。Edmunson [23]引入了一种提取句子的方法,该方法不仅使用词频,还考虑了以下三个特征:
- 提示词:此功能提到某些提示词或短语(如“结果”、“例如”和“根据事实”等)的存在突出了包含这些短语的句子的重要性。
- 标题词:此功能可预测文档标题中出现的词与文本中概述的概念直接相关。因此,这些单词被视为识别重要句子的关键因素。
- 句子位置:此功能表明句子在段落中的位置显示了其对段落主题的重要性。例如,出现在段落开头的句子比段落的其余部分携带更多的信息。因此,每个段落的初始句子都是文档摘要中句子选择的潜在候选者,但最终分数是通过四个特征的线性组合来计算的。埃德蒙森(Edmundson)在400个文件中检查了此方法,获得的结果表明,与仅应用词频功能时相比,考虑提示词,标题词和句子位置将产生更高的合格摘要。实际上,他证明了单独使用单词频率会产生最糟糕的结果。统计方法易于执行,因为它们仅考虑文本的物理特征,然而这些方法不包含句子和单词的含义,可能会导致得到的摘要质量低下。
3.2机器学习方法
机器学习的思想是使用一组训练数据来训练摘要系统,该系统被建模为分类问题。句子分为两类:摘要句子和非摘要句子[24]。根据培训文档和摘要,估计选择句子作为摘要的可能性[25]。一些用于文本摘要的常见机器学习方法是朴素贝叶斯,人工神经网络和模糊逻辑[26,27]。
3.2.1 朴素贝叶斯方法
朴素贝叶斯是一种有监督的学习方法。在文本摘要中,由Kupiec等人引入的朴素贝叶斯分类[28],他们认为句子的选择是一个分类问题。通过这种分类,将每个句子放在二进制类别中,以确定是否将其包含在摘要中。此方法使用的特征是词频、大写词、句子的长度、段落中的位置和短语的结构。通过考虑k个特征并使用贝叶斯规则,将句子s包含在摘要S中的概率定义如下:
(1)
其中,P()为常数,根据训练数据估计P()和P(),并将分数分配给每个句子。然后将此分数用于选择将构成摘要的句子。根据分数大小,从高到低选取前n个句子构成摘要。
3.2.2 人工神经网络方法
人工神经网络是一种计算模型,应用于计算机科学和其他研究领域,它使用基于机器学习方法解决问题。Kaikhah等[29]使用人工神经网络对新闻文章进行汇总,以此作为在摘要中选择句子的一种方式。所提出的方法分为三个阶段:神经网络训练,特征融合和句子选择。训练阶段确定了应在文档摘要中显示的句子类型,人工阅读器会执行此操作,然后系统会学习摘要句子的模式。在训练了人工神经网络之后,应该确定特征之间的关系。在训练机器时,考虑以下七个特征:
- 紧跟标题的段落
- 段落在文档中的位置
- 句子在段落中的位置
- 段落的首句
- 句子长度
- 句子中主题词的数量
- 句子中标题词的数量
此步骤包括两个阶段:1)去掉不常见的特征,以及2)去掉常见特征的影响。因此,此步骤概括了摘要语句中必须存在的重要特征。在对网络进行训练和推广之后,可以使用该系统为摘要选择重要的句子。
3.2.3 模糊逻辑法
模糊逻辑是多值逻辑和布尔逻辑的扩展,由Lotfi Zadeh [30]引入,用于描述两个离散值(例如“1”和“0”,“高”和“低”)之间的中间值。模糊逻辑的优点是与现实世界的兼容性,而不是二值世界。例如,在描述天气状况时,在模糊逻辑中使用了不同的形容词,例如冷、非常冷、温暖、热和非常热等,而不仅仅是布尔逻辑的两个值。他将模糊逻辑用于自然语言处理,这称为带字计算。这项研究工作的重点是使计算机能够理解人类语言,而人类语言不是1和0的概念,布尔逻辑是无法实现的。在计算机中,需要对人类语言进行处理,“计算的对象是从自然语言中提取的单词和命题” [31]。
模糊逻辑的概念可用于文本摘要中,这是自然语言处理的一个分支,可帮助提取句子[32]。在使用模糊逻辑之前,需要对输入文本进行预处理,以使文本适合于模糊逻辑系统,其中包括停止删除单词,词干提取,POS标记等。然后考虑每个句子的某些特征,例如标题特征,句子长度和术语权重等,并且将所需的规则插入该系统的知识库中。之后根据句子特征和知识库中的可用规则,为输出中的每个句子获取从0到1的值。从输出中获得的值确定了最终摘要中存在或不存在的句子的重要性程度。
在Hannah等人的另一项研究中,使用模糊逻辑进行汇总,使用了相同的过程。提取了句子的七个特征[33]。提取的特征值被提供给模糊推理系统,并进行模糊处理以识别重要的句子。基于句子的重要性,模糊系统将句子模糊化为不重要、平均和重要等三个变量之一,这些变量用于选择构成摘要的句子。摘要一般由排名重要的句子生成,但如果摘要大小不令人满意,则也可使用平均等级的句子。但是,不重要的句子从不用于摘要[33]。
将获得的结果与Microsoft摘要生成器进行比较,以评估此方法的性能。为了执行比较任务,我们从DUC2002中选择了55个文档。模糊系统产生的平均精度为0.47,平均召回率为0.49,平均F量度为0.48。与精度为0.46、召回率为0.39和F量度为0.42的Microsoft摘要生成器相比,模糊系统具有更好的性能[33]。
机器学习方法可以有效地学习总结摘要所必需的功能,但是应该有一个训练语料库来学习摘要,而训练语料库因语言而异,并且不是每个文档都固定。
3.3基于语义的方法
进行汇总时,统计特征并不是全部有效,因为某些特征取决于文档的特定格式和书写风格[34]。例如,在标题词中,文档可能没有标题。还可能发生的是,所有的常用单词并不像较少的常用单词那么重要,在这种情况下,忽略出现较少的单词将提供不合格的摘要。基于语义的方法通过使用同义词库,词性标注,语法分析以及选择有意义的句子来生成摘要,从而识别单词和句子之间的关系[35]。在这种方法中,已经开发了诸如词法链,聚类和基于图的方法等各种技术,本文将在以下各小节中进行解释。
3.3.1词汇链方法
词汇链是文档中在语义上相互关联的单词序列。该方法包括三个步骤:文本分割,词法链识别,以及用于句子提取的最强词法链[36]。在分割文档的句子之后,识别在语义上相关的单词,并生成相关的单词链。为了识别词汇链,使用了WordNet。WordNet用于确定属于同一同义词集(同义词集)的单词。也就是说,出现在WordNet中同一同义词集中的单词在语义
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236591],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。