无监督关键词提取算法的组合外文翻译资料

 2022-08-09 16:09:50

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料


摘要

关键字提取在许多语言处理任务中扮演着重要的角色,例如文本摘要,文本分类和信息检索。然而,在通过结合几种方法来提高关键短语提取性能这一方面,并没有人做过研究。本文首先实现了三种具有代表性的无监督算法TfIdf,TextRank以及ExpandRank,然后提出了一种使用串行,并行和表决方法的通用框架,将这些算法结合起来以对关键词提取进行全面分析。并且在包括1040篇中国论文摘要的评估数据集上进行的实验结果证明了某些组合方法的卓越性能。

关键字:

关键字信息提取;关键词提取;无监督学习;方法整合。

第1节:介绍。

作为一组高质量的索引词,关键词是一个简短的文件摘要,关键词已经被用来获取关键信息,以提高自然语言处理应用程序的质量,例如文档摘要,信息检索,文档聚类和问题解答。但是,当前在互联网上的大部分文档上,关键字短语确仍未加标签或者没有正确的添加标签。现在需要来研究为这些文档自动生成关键字短语。

为了解决自动关键词提取的问题,已经开发了许多算法,可以粗略地将其分类为有监督或无监督的方法。有监督方法通常将这种问题重现为二进制分类任务,其中在带注释的数据上训练模型以此来确定给定短语是否为关键字短语。GenEx和Kea将短语在文档中的出现频率和位置作为分类候选短语的一类最重要特征。而KPSpotter提出了一种基于信息增益的关键词提取系统。赫尔特是探索了更多的语言知识。Nguyen等在科学出版物中,重点研究了利用显着形态现象来提取关键短语的方法。Treeratpituk等结合随机森林与基于无监督语料库的方法来识别关键短语。

迄今为止,无监督提取关键字短语的方法涉及了许多技术。Krulwich等采用斜体,首字母缩写词以及标头从文档中提取关键词。Barker等提出了一种简单的系统,用于从文档中选择名词短语来作为关键词。Muntilde;oz 则采用自适应共振理论神经网络发现了两个单词的关键词。赫斯特等在多语言模型之间采用了逐点KL散度来对短语的短语性和信息性进行评分。最近,Zhu等人构建了特征长度短,聚类系数高的小世界结构来提取关键词。Mihalcea等提出了TextRank(文本等级)模型来基于单词之间的共现链接对关键词进行排名。Wan等将TextRank(文本等级)扩展为ExpandRank(扩展等级),该扩展利用最近的邻居文档来提供更多的知识。Liu等将关键字短语提取视为从文档语言转换为关键字短语语言这样的问题。

先前的研究已经表明,这些算法在特定文档上的效果很好。然而,受监督方法的一个缺点是需要大量的训练数据,并且仍然显示出对于训练领域的偏见,从而破坏了它们很好地推广到其他新领域的能力。无监督方法的一个缺点是性能低下。到目前为止,没有系统尝试以固定的不同算法集合来处理任务。与单独采用某些方法来提取关键短语相比,采用某些方法结合使用时的效果会更好。

本文旨在灵活地整合实施不同无监督算法的结果,从而,获得更好或更可靠的关键短语提取结果。我们将在下一节中介绍无监督算法,并在第3节中简要介绍组合方法。然后,在第4节中,我们将重点放在合并一些关键短语提取算法和它们的性能表现上。最后在在第5节中总结本文并展望未来的工作。

第2节:无监督算法。

本节提供了三种用于关键字提取的经典无监督算法的简要概述。

A. TfIdf

TfIdf (术语频率-逆文档频率),根据词频和反文档频度为文档d中的每个词t分配分数,并且定义为:

TfIdf=times;log, (1)

其中表示文档d中单词t的次数;表示文档d中所有单词的次;D为文档总数; 是包含t的文档数。

B.TextBank

TextRank(文本等级),它和谷歌的PageRank(页等级)算法非常相似,它会建立一个表示文本的图形。每个顶点对应于词汇单位。它的目的是计算反映其重要性的每个顶点WS()的分数,然后采用与得分最高的顶点相对应的单词类型来形成给定文本的关键词。 WS()使用默认值初始化,并按照以下递归公式以迭代的方式进行计算:

在连接两个顶点vi和vj的边上添加权重wij,其权重是在w个单位的窗口内相应词法单位同时出现的次数;Adj(vi)表示邻域顶点集;d是设置为0.85的阻尼系数。显而易见,如果顶点具有许多高分邻居,那么它将获得高分。如前所述,在收敛之后,选择T%最高得分的顶点作为关键字。

C. ExpandRank

ExpandRank是TextRank的一种扩展,它是利用最近的邻居文档来提供更多知识以改进关键字短语的提取。每个文档都由术语向量表示,其中每个向量维对应于文档中存在的单词类型,其权重则由Tfldf来计算。具体而言,对于一个指定的文档d0,该方法首先从采用广泛使用的余弦量度的文本语料库中找到其k个最近的邻居。然后,使用从k 1个文档的较大文档集中(D = {d0,d1,d2,hellip;,dk})收集的候选单词的共现统计量来构建文档图形。在图中,每个顶点vi对应于D中的候选单词类型,并且如果相应的单词类型同时出现在文档集中w:单位的窗口中,则每个边连接两个顶点vi和vj。边缘的权重w(vj,vj)的计算如下:

其中simdoc(d0,dp)是余弦相似度,是以反映扩展文档集中文档dp的置信度值,而countdp(vi,vj)则是dp中单词vi和vj之间共现的计数。构造图形后,即可执行其余过程,其过程类似于TextRank。

第3节:组合系统。

不同合并方法的实现是最具挑战性的任务之一。

A.组合提取

为了提取关键短语,组合方法采用了一组可扩展的算法。在过滤器集中建模算法的组合,可以通过不同的方式来实现:

串行方法。关键字短语提取算法以连续的方式来作用,其中一种算法的输出为下一种算法提供输入。

并行方法。将几种算法应用于从原始文档中提取关键词的单独实现。 然后将结果相交。

投票方法。投票方法是并行方法的特例。每个术语均由关键字短语提取算法投票,以捕获其是否属于关键字短语的事实。当它从算法中获得足够的选票时,最终将一个术语声明为关键短语。

从技术上来说,每种组合都是将文档作为输入,然后将关键短语作为输出。

B.通用提取步骤

关键字短语提取的整个过程可以细分为以下步骤:

步骤1:候选关键字的选取。首先,采用中文分割技术将连续的输入文档转换为分割后的文档。然后将这些文档过滤掉不必要的单词标记,并使用启发式方法生成潜在关键字的列表,这些启发式方法通常包括:采用停用词列表来删除非关键字和带有某些词性标签的单词(例如,名词,形容词,动词等等)视为候选关键字。在所有的实验中,我们选择以下Penn Treebank标签N N和J J作为候选关键字。

步骤2:关键字的排名。一旦生成候选列表,下一个工作就是对这些关键字进行排名。要执行此任务,必须为关键字排名方法构建输入文本的表示形式。取决于这些方法,每个候选关键字都由其语法或语义关系表示,该关系使用共现统计,外部文档资源或其他语法线索定义。

步骤3:关键短语的形成。最后一步,采用候选关键字的排名列表来形成关键短语。当候选词(通常是由名词和形容词组成的序列)被选为关键短语时,其组成词的排名分数的平均值将其作为得分最高的词组。

第4节:合并提取结果。

A.数据集和评估

据我们所知,尚无中国黄金标准数据集带有指定的关键词进行评估。因此,我们从硕士或博士学位论文中收集了1040个中文摘要。这些文件由多个主题组成,包括自然科学,工程,农业,医学,哲学,社会科学,信息技术和管理科学等。所有文档均由作者手动添加关键字词组作为黄金标准。在此数据集中,每个文档的平均关键短语数为5.2。

为了评估关键短语提取结果,将自动提取的关键短语与手动注释的关键短语进行比较。如果一个建议的关键字短语与标准关键字短语之一完全匹配,则它是正确的关键字短语。精度,召回率和F度量用于作评估指标:

其中Ncorrect是给定方法正确建议的关键字短语的数量,Nstandard是手动作者注释的关键字短语的总数,Nautomatic则是自动提取的关键字短语的总数。

B.实验设置

在先前的实验中,我们已经发现了Tfldf,TextRank(文本等级)和ExpandRank(扩展等级)是代表性的无监督方法,可以提供令人满意的结果。因此,我们专注于这三个算法的组合,这使得我们拥有几个提取管道来进行评估:

·TfIdf。给定一个文档,计算每个候选单词的Tfldf分数,并将前N个词作为关键字输出。

·TextRank。我们将TextRank的共现窗口大小设置为1到8,因为这些参数值为评估数据集产生了最佳结果。

·ExpandRank。我们将同一数据集中其余文档中每个文档的最近邻居设置为0到2。其他参数是基于TextRank的结果设置的。

·Serial_Titr Tfldf。TfIdf的输出为TextRank提供了输入,并以此来提取关键字。

·Serial_Tier Tfldf。TfIdf的输出为ExpandRank提供了输入,并以此来提取关键字。

·Parallel_All Tfldf。TextRank和ExpandRank的结果以相交的方式合并。

·Voting_All Tfldf。TextRank和ExpandRank的结果以投票方式合并,其中至少有两种算法必须投票才能将候选关键字包含在最终关键字中。

C.结果与讨论

1)参数的影响。

采用三种无监督算法作为比较的基准。

在图4中,曲线上的点代表从t = 1选择为关键短语的顶点的百分比(左上)到t = 15(右下)。 离得更近的curse在右上方,那么此方法的整体效果更好。 我们展示了精确召回,当关键字提取时,TextRank的曲线谐波因子共现窗口大小w范围从1到8乘以1。从图中可以看到当w设置为7时,该方法可以获得最佳结果。

在图5中,曲线上的点表示来自n = 1 (左上方)到 n = 15(右下)。我们设定因素w = 7,这是先前分析中显示的最佳设置。当分解最近的邻居文档时,显示ExpandRank的精度调用曲线ķ 范围从0到2。从图中可以看出,当 k = 1,该方法仍然可以实现出色的性能。但是随着增加ķ,性能会略有下降。主要原因是ExpandRank采用文件级的外部信息可能会引入噪音。

2)性能比较与分析。

就数据集的精确调用曲线而言,性能可以更好地了解三种非监督算法Tfldf,TextRank和ExpandRank,及其组合Serial_TITR,Serial_TIER,Parallel_All和Voting_All。

对于TextRank,我们设置了因子 w 如7。对于ExpandRank,我们设置因子 w 和 ķ分别为7和1。对于串行方法,我们首先选择TfIdf gt; 0.01 时的选项,然后将其他因素设置为先前对参数影响的分析。对于并行和表决方法,将基于最大召回率选择每种算法的因子。

从图6中,我们有以下观察结果:首先,尽管它是这三种方法中最简单的一种,但是Tfldf是性能最好的系统。对于TextRank,选择

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238952],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。