英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于文本摘要的主题模型自动加标签
万小军和王天明
计算机科学与技术研究所,北京大学计算语言学教育部重点实验室,中国北京100871{万小军,王天明} @pku.edu.cn
摘 要
主题模型所标注的主题是一个具有挑战性的问题。以前的研究已经用词、短语和图像来标注话题。在本文中,我们建议使用文本摘要进行主题标注,从最相关的文档中提取几个句子,以形成每个主题的摘要。为了获得对所有主题都具有高相关性、复杂度和区分度的摘要,我们提出了一种基于子模块优化的算法。对两个真实的文档集合进行了自动和手动分析,发现1)我们所提出的算法的摘要优于现有流行的摘要方法所提取的摘要;2)使用摘要作为标签比使用词和短语具有明显的优势。
1引言
统计主题建模在文本挖掘、自然语言处理和信息检索等许多研究领域中起着非常重要的作用。流行的主题建模技术,包括潜在狄利克雷分配(LDA)(BLI等人,2003)和概率潜在语义分析(PLSA)(霍夫曼,1999)。这些技术可以自动发现在文档集合中出现的抽象的“主题”。他们将文档建模为主题的混合,每个主题被建模为词的概率分布。
虽然发现的主题词分布有时是直观有意义的,但所有这些主题模型所共有的一个主要挑战是准确地解释每个主题的意义(Mei等人,2007)。当人们想浏览、理解和利用话题时,每个主题的解释非常重要。然而,对于用户来说,仅仅基于单词的多项式分布来理解所发现的主题通常是非常困难的。例如,这里有一个被发现的话题的最高级术语:{火英里地区,北南部人民海岸,南部破坏,北部河流州,星期五中央雨,高加利福尼亚天气}。如果用户对文档集合不太熟悉,用户不容易完全理解这个主题。当用户面对多个被发现的话题时,情况可能会变得更糟,并且在许多实用的文档集合中,主题的顶部术语常常是相互重叠的。
为了解决上述挑战,以前的一些研究已经提出使用短语、概念甚至图像来标记所发现的主题(Mei等人,2007;Lau等人,2011;Hulpas等人,2013;AleTras和史蒂文森,2013)。例如,我们可以自动提取短语“南加利福尼亚”代表前面提到的前述丰富的主题。这些主题标签可以帮助用户在一定程度上理解主题。然而,短语或概念作为主题标签的使用在实践中不是非常令人满意的,因为短语或概念仍然很短,并且在这些短标签中表达的信息不足以满足用户的理解。当使用一些歧义短语时,情况会变得更糟,或者使用多个不一致的离散短语作为话题。为了解决上述短标签的缩写,我们需要提供更多的上下文信息,并考虑使用长文本描述来表示主题。长文本描述可以被使用,或者用作短标签的有益补充。例如,下面是我们提出的方法产生的摘要标签的一部分,它为理解主题提供了更多的上下文信息。
阵雨和雷暴形成于东南部干燥地区,从北卡罗莱纳西部到阿拉巴马州中南部、德克萨斯中北部和东北部以及墨西哥湾中部和南部海岸。地震发生在一个大面积上,从三藩以北60英里的santa rosa延伸到圣克鲁斯,距离南部70英里。消防官员说,在洛杉矶市中心东北20英里处的鲍德温公园,有十四所房屋被毁,五座建筑和五座商业建筑被毁,当时75英里的阵风切断了电力线,引发了艾伦纸业公司的大火。
本文的贡献如下:
1)我们首次使用文本摘要进行主题标注;
2)提出了一种基于子模块优化的摘要算法,用于提取所有主题的高相关性、覆盖性和区分性的摘要。
3)自动和手动分析揭示了我们的算法所总结的有用性和优点。
2 相关工作
2.1主题标注
在主题建模技术发现主题之后,这些主题通常由他们的前N个词或术语来表示(BLI等人,2003;格利菲斯和Stayver,2004)。主题中的词语或词语根据该主题中的条件概率p(?? |??)进行排序。有时用户不容易理解基于术语的每个主题。有时话题是为探索搜索出版物提供了人工标注(王和McCalum,2006;Mei等人,2006),并且标记过程是费时的。
为了使主题表达更易于理解,使主题更容易理解,有一些研究建议自动寻找短语,概念,甚至图像主题标注。(梅等人,2007)提出使用短语(块或ngrams)进行主题标注,并将标签问题作为一个优化问题,包括最小化词分布之间的Kullback Leibler(KL)发散和最大化标签和主题模型之间的互信息。(刘等人,2011)还使用短语作为主题标签,他们建议使用监督学习技术排名候选标签。在他们的工作中,候选标签包括前五个主题术语和从相关的维基百科文章中提取的几个名词块。(毛等人,2012)提出了两种有效的算法,该算法通过利用主题之间的兄弟和父子关系自动地将简洁标签分配给层次结构中的每个主题。(寇等,2015)提出将主题和候选标签(短语)映射到单词向量和字母三元组向量,以找出哪个候选标签与该主题更语义相关。(胡尔普斯等,2013)提出了一种基于图中心度度量的主题标注新方法。与上述工作不同的是,Aletras和史蒂文森(2013)提出使用图像表示主题,其中每个主题的坎迪日期图像从Web中检索,并且通过基于图的算法选择最合适的图像。在最近的研究中(AleTras等人,2015),在文档检索任务中比较了3种不同的主题表示(术语列表、文本短语标签和图像标签),结果表明,文本短语标签比术语列表和图像标签更易于用户解释。列表和图像标签。
在上面的作品中,基于短语的标签仍然很短,有时不足以解释主题。不幸的是,以前的作品都没有使用文本摘要来表示主题。
2.2文档摘要
文档摘要的任务是以给定的文档或文档集的长度限制来进行摘要。这一任务在自然语言处理和信息检索领域得到了广泛的研究,以往的大部分工作集中于从新闻文档或集合中直接抽取句子来形成摘要。该摘要可用于帮助用户快速浏览和理解典型的多文档摘要方法包括基于质心的方法(RADEV等人,2004),整数线性规划(ILP)(吉利克等人,2008),基于句子的LDA(Chang andChien,2009),亚模函数最大化(林和BelMes,2010;林和Bil)。MES,2011),基于图的方法(Erkan和RaDeV,2004;WAN等人,2007;WAN和杨,2008),和基于监督学习的方法(欧阳等人,2007;Sin等人,2007)。虽然近年来提出了不同的归纳方法,但子模函数最大化方法仍然是最先进的归纳方法之一。此外,该方法易于跟踪,其框架非常灵活。人们可以设计特定的子模块函数来处理特定的摘要任务,而不改变整个贪婪选择框架。
虽然已经提出了各种总结方法,没有任何现有的作品已经调查或试图适应文件摘要技术的主题标记的自动标注任务。
3问题公式
给定一组从文本集合中提取的潜在主题,并且每个主题通过词语的多项式分布来表示,我们的目标是产生可理解的文本摘要作为标签来解释所有的主题。我们现在给出两个有用的定义供以后使用。
主题:每个主题?是的概率分布,其中V是词汇集,并且我们有。
主题摘要:在本研究中,每个主题?的摘要是从文档集合中提取的一组句子,它可以作为标签来表示潜在的含义。通常,在最近的DUC和TAC会议中定义的摘要的长度被限制为250个单词。
如(MEI等人,2007)中的主题标签的标准一样,每个主题的主题摘要需要满足以下两个标准:
高相关性:摘要需要与主题语义相关,即摘要需要与主题的所有代表性文件密切相关。相关性越高,摘要就越好。这个标准是直观的,因为我们不期望得到与主题无关的摘要。
高覆盖率:摘要需要尽可能多地覆盖主题的语义信息。总结通常包括几个句子,我们不希望所有的句子集中在同一条语义信息上。具有高覆盖率的摘要肯定不会包含冗余信息。该准则与多文档摘要的多样性要求非常相似。因为我们通常为文档集合中发现的所有主题生成一组摘要。为了便于用户理解所有的主题,总结需要满足以下附加标准:高歧视:不同主题的摘要需要有跨主题的区分。如果两个或多个主题的摘要彼此非常相似,用户很难正确地理解每个主题。话题间歧视越高,摘要就越好。
4我们的方法
我们提出的方法是基于子模块优化,它可以提取具有高相关性,覆盖和歧视所有主题的摘要。我们选择子模块优化的框架,因为框架是非常灵活的,不同的目标可以很容易地纳入框架。我们的方法的总体框架包括两个阶段:候选句子选择和主题摘要提取。这两个短语分别在后面的两个小节中描述。
4.1候选句子选择
在一个主题建模的文档集合中通常有成千上万个句子,所有的句子都或多或少地与每个主题相关。如果我们使用所有的句子摘要提取,总结效率将非常低。此外,许多句子不适合概括,因为它们与主题的相关性很低。因此,我们过滤掉大量不相关的句子,并把剩下的句子作为摘要提取的候选。
我们计算的Kullback - Kullback-Leibler(KL散度分布)之间的主题和Word文档中每个句子的整个随访收集。如下:
??(?)是单词W在主题中的概率。TW表示根据概率分布在主题中的前500个单词的集合。SW表示删除S字后的句子S中的一组单词。??(?, ?)表示句子S中W字的频率,???(?)表示去除停止字后句子S的长度。对于一个不出现在SW中的W,我们将??(?, ?)frasl;???(?)的值设为一个非常小的值(本研究中的0.00001)。然后,我们用发散分数A的递增顺序对句子进行排序。保持与主题最相关的前500个句子,这500个句子作为每个句子的后续摘要步骤的候选句子。请注意,不同的主题有不同的候选句子集。
4.2主题摘要提取
我们的主题摘要提取方法是基于子模块优化。对于与候选句子集V相关联的每个主题,我们的方法旨在通过在预算约束下最大化得分函数,从所有可能的摘要中找到最佳摘要:
其中???(?)表示摘要E的长度。E也用于表示摘要中的句子集合。L是一个预定义的长度限制,即本研究中的250个词。
?(?)是评价E的总体质量的得分函数,通常,?(?)需要是次模函数,所以我们可以用一个简单的贪婪算法来找到近似的理论总结。形式上,对于任何? sube; ? sube; ?\v,我们都有?(? ?) minus; ?(?) ge; ?(? ?) minus; ?(?),这意味着V的增量“值”随V被认为从A到B增长的上下文而减小。
在这项研究中,得分函数?(?)被分解为三个部分,并且每个部分评估摘要的一个方面:?(?) = ???(?) ???(?) ???(?)。其中???(?) , ???(?) 和 ???(?)分别评价摘要E的相关性、覆盖率和歧视性。我们将分别对它们进行详细描述。
4.2.1关联函数
不同于直观地测量总结和主题之间的相关性,通过KL散度之间的字分布,他们认为,测量的相关性E摘要的主题的相关性,总结的句子中的所有候选句子的主题如下:
???(?)=
其中V表示主题的候选句子集,E用于表示摘要的句子集,???(? ′ , ?)是句子? ′和?之间的标准余弦相似度,? isin; [0,1]是一个阈值系数。
上述函数是一个单调子模函数,因为当? ge; 0时,?(?) = ???(?, ?)是一个凹非减函数。度量了E与句子的相似性,是所能达到的最大值,当ge; 时,? ′被E饱和。当? ′已经被E饱和,这样,任何一个非常类似于? ′的新句子都不能进一步提高E的整体相关性,并且这个句子不太可能被添加到摘要中。
4.2.2覆盖函数
我们希望总结涵盖尽可能多的主题词,并包含尽可能多的不同句子。覆盖函数是这样定义的:当? ge; 0时是一个组合系数。
上面的函数是单调的子模函数,它鼓励总结E包含许多不同的词,而不是一小组词。因为?(?) = radic;?当? ge; 0时是凹非减函数,我们有 ?(? ?) le; ?(?) ?(?)。当使用x和y分别代表两个不同单词的两个频率值时,函数的值将比使用(? ?)表示单个单词的频率值时大。因此,这个功能的使用鼓励了更多不同的词在摘要中的覆盖。换言之,总结的多样性得到加强。
4.2.3判别函数
测量主题E和所有其它顶部IC{}之间的判别函数定义如下:当? ge; 0是一个组合系数
上面的函数仍然是单调子模函数。否定符号表示主题的摘要E可能与任何其他主题?尽可能不相关,从而使得不同的主题摘要有很大的差异。
4.2.4贪婪选择
由于???(?), ???(?) 和 ???(?)都是次模函数,?(?)也是子模函数。为了找到一个很好的近似最佳摘要,我们使用类似于(林和BelMes,2010)的贪婪算法来逐句选择句子并产生最终摘要,如算法1所示。
贪心算法1摘要提取
在该算法中,???(?)表示语句是s的长度,? gt; 0是比例因子。在每一次迭代中,在步骤4中发现目标函数的最大比率增加到缩放成本的句子,并且如果添加句子可以增加目标函数值而不违反长度约束,则将其选择为摘要并以其他方式绕过。
5评价和结果
5.1评价体系
我们使用两个文档集合作为评价数据集,如(Mei 等人,2007)AP新闻和SigMOD程序。AP新闻DataSet包含一套由TREC提供的2250个AP新闻文章。美联社新闻数据集共有43803个句子,词组大小为37547(删除停词后)。SigMod程序数据集包含一组2128至1976年间的SigMOD程序摘要,从ACM数字图书馆下载。在SigMod程序数据集中共有15211个句子,词汇量为13688。
对于主题建模,我们采用最流行的LDA来发现两个数据集中的主题。特别地,我们使用了在MalLeTooKIT1中实现的LDA
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[466741],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。