藏文单文自动文摘研究的TextRank和LexRank技术的结合外文翻译资料
2021-12-25 16:57:34
The Mixture of TextRank and LexRank Techniques of Single Document Automatic Summarization Research in Tibetan
Abstract—Today is an era of knowledge economy and information dominated. Automatic summarization is an important research in the field of natural language processing, its purpose to explore human obtain valuable information from natural language texts. As the Tibetan information processing technology is backward, and the achievements of automatic summarization have not been publicly reported in Tibetan. This paper references the existed Chinese and English automatic summarization technology in domestic and foreign, and proposes a method of Tibetan automatic summarization. Combination with the advantage of keyword processing based on TextRank and processing of the relationship between sentences based on LexRank algorithm. Take full account of the frequency, part of speech, word position, word length, content and position of a sentence. In particular, the generated summarization considering the similarity of candidate sentences. Experiments analysis three summarization methods based on TextRank, based on LexRank and based on LexRank TextRank respectively, and using the ROUGE value to evaluate the effect of summarization. Experimental results show that, the effect of the mixture of TextRank and LexRank techniques of single document automatic summarization in Tibetan is better and accuracy reached 80%.
Keywords—automatic summarization; textrank; lexrank;Tibetan summarization.
I INTRODUCTION
Automatic summarization technology is extracting the most important and useful information automatically by using the machine from original document, and that is a condensed version of the original document. Automatic summarization is an important topic in the field of natural language processing, its in-depth study involving linguistics, natural language processing, machine learning, artificial intelligence and other related research areas.
In 1958, H. P. Luhn published an article entitled 'The Automatic Creation of Literature Abstracts', and then opened the prelude to the automatic text summarization technology research [1]. With the rapid development of the Internet and the emergence of a large number of electronic texts, compared with manual digest, the automatic summarization has the advantages of the quickly, fast, effective, objective, so that its practical value is fully reflected and the research of domestic and foreign also gradually increased. From the point of view of the relationship between the abstract and the original text, it can be divided into abstractive summarization and extractive summarization. This paper mainly researches the technology of extractive summarization which can be divided into the method based on text structure, the method based on text understanding, the method based on probability statistics, the method based on graph and so on [2]. The extractive summarization is composed of sentences which is extracted from the original document, and these sentences completely belongs to original text. The abstract can fully summarize the main contents of the document, that is, the abstract must contain enough of keywords (theme words). Therefore, taking these keywords as the starting point, this article researches the automatic summarization technology in Tibetan, namely the mixture of textrank and lexrank techniques of single document automatic summarization.
As the limitations of some technical means, the research of automatic summarization in Tibetan is very rare, and there is no system about automatic summarization in Tibetan to report publicly. In order to meet the needs of Tibetan people to read the document, it is necessary to research on automatic summarization technology of the Tibetan.
II RELATED RESEARCH
The method of graph model is widely used in the field of Chinese and English automatic summarization, and has achieved fruitful results.
Gunes Erkan[3]proposed a method to define sentence salience based on graph-based centrality scoring of sentences, it constructs the similarity graph of sentences provides us with a better view of important sentences compared to the centroid approach, which is prone to over-generalization of the information in a document cluster, the results of applying these methods on extractive summarization are quite promising, in particularly, they had tried to make use of more of the information in the graph and got even better results in most of the cases in LexRank. Rada Mihalcea[4] introduced the TextRank graph-based ranking model for graphs extracted from natural language texts and investigated the application of TextRank to two language processing tasks consisting of unsupervised keyword and sentence extraction, then it showed that the results obtained with TextRank are competitive with state-ofthe-art systems developed in these areas. And one year later, Rada Mihalcea[5] proposed a method for language
independent extractive summarization that relies on iterative graph-based ranking algorithms. Wei Furu .etc. [6] researched on graph based models for multi-document summarization that is sentence scoring algorithm based on graph model. And by connecting the sentence into a text map, and then using the global information on the graph to constantly iterative calculation of the importance of the sentence, so as to achieve a better effect of automatic text summarization. Ge Bin. etc. [7] firstly used the sliding window method to extract topic words, construct spatial vector and generate undirected graph.Then, based on the vector space model to calculate edge weights. Finally, by using the weight model of the similarity matrix of the document sentence, the sentence weight
藏文单文自动文摘研究的TextRank和LexRank技术的结合
摘要:当今是知识经济和信息时代。自动摘要是自然语言处理领域的一项重要研究,其目的是探索人类从自然语言文本中获取有价值的信息。由于藏文信息处理技术落后,自动汇总成果尚未公开报道。本文参考了国内外已有的中英文自动文摘技术,提出了一种藏文自动文摘的方法。结合基于TextRank的关键字处理和基于LexRank算法的句子关系处理的优点。充分考虑一个句子的频率、词性、词位、词长、内容和位置。特别地,生成的摘要考虑了候选句子的相似性。实验分析了基于TextRank、基于LexRank和基于LexRank TextRank的三种汇总方法,并利用胭色值对汇总效果进行评价。实验结果表明,采用TextRank和LexRank技术结合的藏文单篇自动文摘效果较好,准确率达到80%。
关键词:自动摘要 TextRank LexRank 藏文摘要
I介绍
自动摘要技术是利用机器从原始文档中自动提取最重要和有用的信息,即原始文档的压缩版本。自动摘要是自然语言处理领域的一个重要课题,其深入研究涉及语言学、自然语言处理、机器学习、人工智能等相关领域。
1958年,H.P. Luhn发表了一篇名为《文学文摘的自动创作》的文章,拉开了自动文本摘要技术研究[1]的序幕。互联网的迅速发展和大量的电子书的出现,与人工消化相比,自动摘要的优点迅速,快速、有效的,客观的,所以它的实用价值是充分反映,国内和国外的研究也逐渐增加。从摘要与原文的关系来看,可分为抽象概括和抽取概括。本文主要研究了基于文本结构的提取摘要技术、基于文本理解的提取摘要技术、基于概率统计的提取摘要技术、基于图形的提取摘要技术等。摘要是由从原文中提取的句子组成,这些句子完全属于原文。摘要能够充分概括文档的主要内容,即摘要中必须包含足够的关键词(主题词)。因此,本文以这些关键字为出发点,研究藏文自动文摘技术,即TextRank 和LexRank 技术结合的单文档自动文摘技术。
由于一些技术手段的限制,藏文自动文摘的研究非常少见,目前还没有藏文自动文摘系统公开报道。为了满足藏族人民阅读文献的需要,有必要对藏文自动文摘技术进行研究。
II相关研究
图模型方法在中英文自动文摘领域得到了广泛的应用,并取得了丰硕的成果。
Gunes Erkan[3]提出了一种基于图论方法定义句子突出中心得分的句子,它构造相似图的句子为我们提供了一个更好的观点重要句子重心方法相比,它是容易泛化信息文档的集群,应用这些方法的结果在采掘的总结是很有希望的,特别是,在LexRank的大多数情况下,他们试图利用图中更多的信息,得到了更好的结果。Rada Mihalcea[4]介绍了TextRank排名基于图模型从自然语言文本中提取并研究应用TextRank两个语言处理的任务组成的无监督关键字和句子提取,然后显示结果与TextRank竞争与state-ofthe-art系统在这些领域发展。一年后,Rada Mihalcea[5]提出了一种基于迭代图的排序算法的独立于语言的提取汇总方法。Wei Furu等[6]研究了基于图的多文档摘要模型,即基于图模型的句子评分算法。并通过将句子连接成文本图,然后利用图上的全局信息不断迭代计算句子的重要性,从而达到更好的文本自动汇总效果。通用电气。[7]首先利用滑动窗口法提取主题词,构造空间向量,生成无向图。然后,基于向量空间模型计算边缘权值。最后,利用文档句子相似矩阵的权重模型,对文档的句子权重进行建模和计算,并根据压缩比得到文档的主题句,形成摘要。
上述在汉英研究领域的自动总结研究取得了良好的成果,但这些方法并没有直接应用于藏文文本中。藏文和藏族文虽然属于藏文门,但句法上有很大差别。两种语言在句法上的主要区别是,汉语的主句是“主语-谓语-宾语”,藏语的主句是“主语-宾语-谓语”。因此,本文针对藏文文本的结构特点,提出了将textrank和词汇排序技术相结合的单文档自动汇总方法。
III预处理
A.分割和词性标注
由于本文的实验数据来自于一些藏文网站,不同的网站使用不同的编码,比如一些网站使用的是扩展的UNICODE编码区域,还有一些网站使用的是UNICODE编码的基本区域。因此,需要在藏文文本中统一编码。
本文将采用隐藏马尔科夫模型和基于B-Gram模态的藏文分割软件进行分词和标注,该软件由西北民族大学教授齐昆雨负责。藏文分割结果如图1所示。
B.停顿词过滤
任何语言中都有一些高频词,它们具有很高的功能性,如完整的语法规则,甚至语气和意义。但这些词缺乏表征,不能直接反映文章的主题,这些词往往被称为停顿词。停顿词一般分为两类:一类是言语词的薄弱部分,包括助词、连词、副词、代词、数词、量词、感叹词等,这些词没有实际意义,与类信息无关。另一种是单词出现在各种文档中,这些单词均匀分布在各种文档中,所以分类功能非常弱。过滤掉这些词可以降低特征空间的维数,降低噪声。在文档的概要任务ˈ和删除这些停止词可以让那些词的语义表示更加突出,一方面,它可以提高自动文摘的准确性,另一方面,也增加了绩效评估的合理性。停顿词分析可以在统计的基础上获得,也可以利用语言学知识进行人工结构。停顿词的一部分是:助词
c .权重计算
将藏文文献作为一个词的集合,本文统计一篇文章中每个词出现的频率以及所有的文本,然后计算出关键词的权重。其中,基于Term Frequency- reverse Document Frequency (TF-IDF)的权重计算方法应用最为广泛。TF-IDF用于评估一个单词对一个文件或语料库文档的重要性。TF是测试文档中给定单词的频率。其定义如下:
其中Nij是文档j中出现i的次数。Nj是文档j中的单词总数。一般来说,文档中单词出现的频率越高,tf值越大,单词对文档的重要性就越大。另一方面,如果一个单词在所有文档中出现的频率很高,那么这个单词就比较常见,而文档的表示形式就比较差,比如stop,这个属性就用IDF来表示,如式(2)所示:
从以上讨论可知,某一单词的表征取决于文档中该单词的TF,也取决于所有文档中的IDF。在实际应用中,通常结合TF和IDF,即TF-IDF公式如下:
其中,tfij为藏文i d中出现的字数i的频率,N为藏文文献集合中出现的藏文总字数,Ni为藏文集合中出现的字数i。为了减少不同藏文长度对藏文文本相似度计算的影响,我们一般选择将每个向量量归一化为单位向量,最后提出了藏文文本特征权重计算的公式:
四、基于TEXTRANK算法的自动摘要
基于图的排序算法的基本原理是“投票”或“推荐”,如图2所示。当图中a点和B点之间有联系时,a点和B点之间有联系,或者a点和B点之间有联系,或者a点和B点之间有联系,假设B点得到的选票越多,B点就越重要;此外,投票点A的重要性决定其投票的重要性;因此,B的分数是由它所获得的分数和给B投票的分数的分数决定的。
A.TextRank算法
利用textrank算法构造加权有向图G = (V, E),其中V是表示文档中每个单词的节点集合;E是边集,表示单词之间的相关性。节点vi与v j之间的边Eij的权值为wij, wij表示节点vi与v j之间的相似性。通过计算对应单词的TF-IDF向量的余弦距离得到wij。得到有向图g后,通过与其他节点S(v)的连接来计算每个单词S(v)的权值。S(v)的计算公式如式(5)所示。
其中,B(v)为指向节点v的节点集,F(v)为指向节点v的节点集,d为阻尼因子,取值范围为0 ~ 1。
公式(5)定义了一种递归算法来计算图中每个节点的分数:定义一个初值S(v),根据图的递归直到收敛。值得我们考虑的是,节点的初始值不会影响其最终得分,只会影响算法的收敛性。计算收敛后,图中每个节点的稳定性表示该节点对应单词的中心,即描述文档的能力。
B .提取关键字
首先,计算单词的权重,选择关键词。这里的词权值采用TF/IDF算法计算,选取权值词作为候选关键词。其次,分析文档中候选关键字之间的关系。最后,根据关系建立TextRank模型,该模型可以看作是从关键字序列中选择最重要的关键字的过程。
c .自动提取
本文的自动汇总策略如下:
(1)通过比较它们对关键词排序的重要性,提取出最重要的前3个关键词。
(2)搜索包含所有3个候选关键词的句子。
bull;如果有,则将句子提取为摘要。
bull;否则,搜索包含前2个候选关键字的句子。
bull;如果有,则将句子提取为摘要。
bull;否则,搜索包含前1个候选关键字的句子。
bull;如果有,则将句子提取为摘要。
bull;如果有,则将句子提取为摘要。
bull;如果不存在,则无法提取。
(3)从上述算法中提取句子,按照句子的顺序形成总结,并进行评价。
V LEXRANK算法
在LexRank算法中,它考虑了句子和句子之间的关系。词汇秩法使用词频来衡量句子之间的相似性。
本文将文档分为句子结构,根据相似度计算方法计算出相似度值并进行连接。相似度与阈值的比较是关联的关键。两个句子之间相似度的值大于我们设定的阈值,则认为这两个句子之间存在语义关系,需要连接。本文采用相同的分析方法绘制了无向图G= (S, E)。其中,sS表达一个句子,一边(是的,sj)我j党卫军E反映了s和j s彼此相关,节点的度d是两边连接的数量年代,反映的重要性信息包含在相应的句子。D越大,与相应的句子相关联的句子越多,这个句子中包含的信息就越重要,反之亦然。另一方面,如果一个节点的程度比较大,那么相关的句子也比较重要。首先,通过计算句子之间的相似度,构造了无向图G;其次,我们使用迭代计算方法,根据句子之间的联系来计算句子中包含的信息量;最后,选择一组包含抽象信息最多的句子。
A.计算句子相似度
相似性是一个复杂的概念,在许多信息论中经常被讨论。句子相似度的计算在抽象句子的提取和各种文本处理模块中起着重要的作用。句子相似度的度量是抽象系统中的一个关键问题。在一组相关的文献中,许多句子被预测是相似的,因为它们都是关于同一个主题的。一组文档可以看作是一个网络,这个网络可以看作是相关句子的集合。计算句子相似度的问题有两点。首先是如何定义两个句子之间的相似性。其次是如何计算句子之间的相似性。
句子相似度的计算方法主要有欧氏距离、余弦距离、Dice、Jaccard等。本文采用余弦相似度来衡量句子相似度:
其中,A和B是文档文本中的两个不同的句子。如果我们用A和B来表示两个句子, (x1,x2,..., xm) and (y1 ,y2 ,..., yn)是分别包含在句子A和B中的单词的集合。 s(xi, yi) 表示单词和之间的相似性。逐步计算,最终得到语义相似矩阵。
B.计算句子的权重
语义相似矩阵是由每个句子的权重构成的。建立矩阵后计算Lexrank得分的值。Lexrank评分可以定义为,根据Lexrank算法计算句子的权重。权重计算句子、句子位置(position score, Ps)、特殊指示短语(in, Is)对摘要有一定的影响。因此,句子W(s)的权重可以计算为公式(7)。
W(s)= Lexrankscore p (7)
VI结合LEXRANK和TEXTRANK算法
在本文使用LexRank方法时,我们发现仅使用LexRank算法来考虑句子和文档中的句子之间的关系,而不考虑单词的信息。一个潜在的问题是,所选的最优句子可能属于同一组,即,而不是代表。为了得到更好的总结,我们还应该考虑单词的信息。
为了解决这个问题,我们首先使用textrank算法得到每个单词的权重,然后相加得到句子的权重。其次,利用lexrank算法得到句子的权重。然后将这两种方法结合起来计算权重,结合LexRank和TextRank算法得到句子的权重。最后,使用这个权重来引用这个句子,并输出结果。在结合LexRank权值和TextRank权值的过程中,我们使用了一个简单的线性插值,如公式(8)所示。
其中,WT为TextRank的权重,WL为LexRank的权重,W为两个权重的组合。的值决定了这两部分的重量占总重量的比例。本文希望找到一个合适的值,使自动汇总的结果最好。
七、实验结果与分析
A.实验数据
对于汉语、英语自动总结的研究,国内外已经有了相对的标准,打开文本语料库,评价和对比比较容易。对于藏文来说,自动摘要的研究刚刚开始,目前还没有标准的文本集。
为了解决这一问题,本文采用爬虫技术从互联网上的几个藏文网站上搜集藏文新闻语料库。2015年2月至2015年10月,藏文语料库主要来源于藏文网站http://tibet.people.com.cn/、http://www.amdotibet.cn/、http://tb.tibet.cn/等。本实验共采集2400份文献(注:每份藏文文献至少含300字),人工整理出政治、经济、宗教、卫生、教育、生态环境6大类。每个类别由300-500个文档组成。训练集包含2186个文档,测试集包含214个文档。表1显示了训练集和测试集中包含的特性的数量。我们招募了一组志愿者对这些文档进行人工汇总。在手工汇总的过程中,我们将214份文档随机分配,确保每篇文章都有两位志愿者进行汇总。这些人工摘要将作为自动文摘评价的基础。
b .评价标准
摘要的评价一直是一个问题,人们很难认同一个摘要作为一篇文
资料编号:[3669]
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。