英语原文共 126 页
从网页文档中提取正文
摘要
最近几年,万维网的快速发展是非常惊人的。因为互联网上的海量信息,网页已经成为信息检索和数据挖掘技术例如商业搜索引擎、web挖掘应用等的潜在来源。然而,作为数据的主要来源的网页是由多个不是同等重要的部分组成的。因此,需要一个辨认并提取正文的方法来缓解这个问题。
在这篇论文里,我们处理了从网页文档中提取正文的问题。存在有非常多的能执行这个任务的方法,大多数之前的方法使用启发式规则来定位正文。在这个工作中,我们的贡献主要是网页内容提取模块的发展,这个模块使用了一个由机器学习和我们自己开发的启发式方法(即Largest Block String、String Length Smoothing和Table Pattern)组合而成的混合方法。我们的工作不同于以下的方法:内容提取模块,使用特征,数据集类型,启发类型和估计方法的操作设置。
根据我们的实验,机器学习和启发式方法的结合有一个积极的结果,并且和当前的网页内容提取方法相比也是有竞争性的。
第一章 引言
1.1商业视角的诱因
自20世纪90年代初诞生起,万维网已经经历了非凡的成长。起源于一个在CERN的为了访问多个文件形式的超文本系统,万维网快速成长为一个公众可以通过web浏览器进行访问的服务。伴随其惊人的成长,web也持续经历着许多变化,其中之一就和它的内容要怎么展现给用户有关。例如,一个现代web文档包含了不同类型的内容。如图1.1所示,一个新闻页面,除了文章作为正文发表之外,也包含了其他干扰内容,比如用户评论、导航菜单、页眉、页脚、其他页面的链接、广告、版权公告、散布在页面上的隐私政策。考虑到一个web文档包括多种内容形式的现实,它影响着人们浏览文档的方式。当浏览一个特定的web文档时,在大多数时间用户通常会注意正文并忽略其他内容。对于人们来说,这个行为能快速而精确地被完成因为他们可以使用他们的知识、视觉和网页布局来区分正文和其他部分。另一方面,因为电脑软件并没有像人类一样的天赋来区分正文和干扰内容,这对于商业搜索引擎、web矿工和其他各种使用web文档作为数据来源的应用来说变成了一个挑战。例如,一个搜索引擎,通常会把一个网页的全部文本编入索引,结果,那些作为无用信息的干扰内容仍保留在索引内。这些干扰信息的存在可能使这些信息检索应用的表现(例如搜索结果的质量、信息提取的精确度和索引的尺寸)降低。
为了缓和这个问题,一个在数据获取(如:爬虫)的过程中从web文档中单独提取正文的方法是必需的。对于清理web文档中的干扰内容,这项工作是必需的。就我们知识所及,并没有一种普遍认同的表达方式来描述这项工作。当然一些人[1][14]称其为web内容提取技术。
1.2运行设置
这个web内容提取在信息检索系统的数据获取阶段运行。至于问题域,在该论文里,我们为web内容提取选择了三个域,即:新闻、博客和论坛网站。
1.3论文目标和方法论
该论文的目标是:开发一个web内容提取方法,输入一个任意的HTML文档,可以提取正文并丢弃所有的干扰内容。
为了达成我们的目标,我们研究了一个现有的web内容提取的方法。web内容提取中的问题已经被研究者们所研究,许多种web内容提取方法被提出。一般来说,有两个问题被观察到。第一个问题是内容提取的源库,通常地,一个内容提取方法要么使用Document Object Model,要么使用HTML源码。第二个问题与内容提取的主流方法有关,Gottron[5]区分这些内容提取方法为两类并命名为单文档提取(single document extraction)和多文档提取(multiple document extraction)。
当我们的操作设置需要我们的内容提取模块在数据采集上运行时,我们需要一个相对轻便快捷的方法进行提取。通常地,单文档提取相对于多文档提取更快,因为它在提取中只需要关注手头的一个文档而不用查看同主机的其他文档。
多数现有的单文档提取操作的方法为了执行内容提取是基于确定的启发规则。比如,检查确定的特征,例如:超链接的数量、文本密度、HTML标签和文本的比例等。
对基于DOM的方法,现有的方法通常先执行网页分割来提取内容
定义1.1:网页分割是一种把一个网页的结构分解成一定长度的更小部分的工作。
网页分割的过程是必需的,因为一个单一的web文档内有多个DOM节点且我们需要聚焦于一定长度的DOM节点。
在本论文中,我们以DOM树形表示为基础,因为我们通过进入DOM节点来获得多种特征。并且,通过使用DOM节点,我们还能得到文档结构的信息,这对我们得到一些例如在文档中查明一定模式结构、遍历至文档的其他部分等等的理由有所帮助。
作为执行内容提取的主要方法,我们运用了一个混合的方法由机器学习和启发式方法。混合机器学习的原因是现有的仅使用启发式的方法通常只使用少量特征并且难以确定特征界限的阈值。通过机器学习的方法,我们可以使用多种特征并且这个学习算法自动的学习参数。此外,通过使用这种方法,我们可以在不同的网站上应用不同的学习结果。此外,我们也为一定类型的网站开发了一些其他的启发式方法来改进内容提取的结果。
有关机器学习的部分,我们将使用他执行两个工作,分别是环节分类(segment classification)和内容分类(content classification)。
定义1.2:分类是学习将每一个属性划分到预定类标记之一的目标功能的任务。在我们的示例中,这些类标记有正文、干扰内容、好的环节和坏的环节,这些属性包含DOM属性和我们可以从DOM属性中得到的特征。
环节分类返回被归类为好的部分的DOM节点,内容分类获取环节
分类的结果并进一步将DOM节点分为正文或干扰内容。我们将这两个分类过程命名为二阶段分类系统。另一个我们使用的为了分类的配置仅执行一次分类,我们将其命名为单阶段分类系统。对于单阶段分类,我们使用了正文和干扰内容两个类标记。
在我们的背景里,分类的目的是使指分类系统模型的预测建模能够用来判断不可见的实例的类标记。该任务的输入和输出的例子被展示在表1.1。
图1.2说明了分类任务的高级概述,训练数据集包含了来自被爬取网页的标签化的训练实例。对于学习算法,我们用几种算法进行了实验,来观察哪种分类系统有最好的系统。接下来,最好的分类系统模型能被应用于不可见的HTML文档来执行分类。
除了分类任务之外,我们添加了一些启发式方法作为补充,原因是仅使用分类和提取文本节点是不充分的。很多时候,在一个DOM节点里,有许多内嵌的干扰内容,比如:嵌入广告、用户评论、相关链接等,通过利用启发式方法,我们希望获得更多的准确的内容,如同我们在执行进一步过滤DOM节点。
1.4成果
该论文的成果是我们在web内容提取上的研究。准确地说,是我们开发了一个包含机器学习和启发式方法的web内容提取方法。对于机器学习的部分,我们发现了在网页里定义正文区域的重要特征、确定的分类系统模型的分类能力、单阶段和二阶段分类系统的比较。
对于启发式方法,我们开发了一些方法作为机器学习部分的一个补充。我们开发个三个启发式方法,分别名为Largest Block String (LBS), String Length Smoothing(SLS)和Table Pattern(TP)。这些启发式方法是打算在机器学习过程后执行进一步的内容提取。
我们比较了我们的方法和现有的启发式方法,并且根据我们的实验结果,机器学习和我们的启发式方法的结合在精确率和召回率的方面给出了积极的结果。关于实施部分,我们将我们的方法整合到了来自Teezir B.V的信息检索系统的一个web内容提取模块里。
1.5论文结构
该论文结构如下:第二章提供了一些有关于Teezir B.V的背景、Teezir信息检索框架以及我们的模块怎么和这个框架相适应;第三章描述了单文档提取的相关工作;第四章解释了我们关于web内容提取问题的方法;第五章描述了测量表现的评估方法;第六章给出了我们方法的实验和评估;最后,在第七章我们给出了工作的结论并对未来的工作提出了可能的改进。
第二章 背景
2.1 Teezir B.V.
Teezir是一家年轻的、有创新技术的、开发综合搜索解决方案的公司,这个解决方案建立在与信息检索和搜索技术相关的构建块之中。为了为他们的用户创造最好的业务解决方案,这些构建块可以被应用和定制。
除了Teezir的完全定制解决方案外,他们一般还有四个主要的解决方案来推动他们的技术发展。这些方案有专家寻找(expert finding)、空缺寻找(vacancy finding)、意见挖掘(opinion mining)和聚焦内容(focused content),这些解决方案的扇形图在图2.1有描述,每一个解决方案的描述如下:
专家寻找解决方案(Expert Finding Solution):这个解决方案能在一个组织或市场中与某些技能相匹配的对的人选。为了让人们能快速找到相关文档,这个文档搜索技术结合了信息的上下文和内容。这个解决方案基于人们为确定专业知识而编写的文档。
空缺寻找解决方案(Vacancy Finding Solution):这个解决方案从多个工作网站收集数据,比如个人简历,摘要和空缺等。为了找到空缺的最佳候选人以及相反地,它在全文空缺和候选简介之间执行匹配。
意见挖掘解决方案(Opinion Mining Solution): 这个解决方案能够深增加对产品发布和市场营销活动的有效性的领悟。这个解决方案通过爬取和分析网络上的相关来源来衡量人们的感知和意见。这能够随时监测客户的情绪和极性,并且也能和客户的竞争者进行比较。对于竞争者的Teezir解决方案的独有的特点是它可以直接接收用户问题然后执行情绪分析。而竞争者在他们提供情绪分析之前通常需要可能问题的列表。
聚焦内容解决方案(Focused Content Solution): 聚焦内容提供了一个单点接口为了访问有关于特定主题、域或访问群体的信息。内容可以从内部或外部资源(如网站、网络日志、数据库)收集,并且可以从文本格式到图像/视频格式有所不同。
2.2 Teezir框架
Teezir的搜索平台为披露数据的全过程提供了功能,也就是采集内容、分析文档、构建索引和搜索信息。Teezir的技术构建块的整体展示在图2.2。
因为我们的任务是开发一个在数据采集阶段运行的内容提取模块,因此我们主要关注Teezir技术的内容采集部分。内容采集的阶段之一是爬取。爬取是一个通常在超链接文档中自动收集数据的过程。爬虫会系统地跟踪文档之间的超链接,并将本地副本存储在数据库中。这个爬虫的行为是定义在一个能够设置我们需要的参数,例如深度、要获取的最大页面数、停止条件、重新爬虫的时间等的配置文件中。在这个过程中,爬虫需要处理内容类型的异质性。Teezir的爬虫程序能够处理大多数网站有的大部分HTML和JavaScript。
目前,Teezir使用一种复杂的融入了智能在其中的爬虫技术。这种智能将允许爬虫基于分类自动跟踪相关的链接。例如,给一个网页,这个爬虫可以侦查确定类型的链接,比如分页链接或工作空缺的公告。通过拥有这些知识,爬虫的行为将更加集中,被收集的数据将仅是根据客户需要的相关数据。
2.3 对Teezir框架的贡献
该论文对Teezir框架的贡献是web内容提取模块和训练模块。内容提取模块的职责是环节分类、内容分类和启发式方法。同时,训练模块允许用户生成能够被用来进行机器学习实验的训练数据集。我们使用现有的Teezir框架来搭载我们的模块。如图2.3所示,我们使用现有的来自Teezir的web爬虫和HTML语法分析器,且作为我们的内容提取模块的输入的是HTML文档的DOM树。内容提取模块的最终输出是一个来自HTML文档的正文文本字符串。
第三章 近期工作
根据Gottron[5],根据需要的页面数量来执行Web内容提取,有大致的两种不同的方法,即单文档提取和多文档提取。单文档提取使用启发式方法操作单个文档,而多个文档提取应用了在文档集合中的模板结构的分析。
如第1.3节所描述的,我们致力于单文档提取。除了启发式方法,单文档提取也可以基于内容提取的源代码分类,分为基于DOM和不基于DOM。对于基于DOM的方法,它们利用表示HTML文档结构的DOM树,并沿着这棵树导航来执行内容提取。对于不基于DOM的方法,它们仅使用一般的HTML源代码来做内容提取。
在本章中,我们概述了一些单文档提取算法,包括基于DOM和非基于DOM的方法。
3.1Crunch
Crunch框架是一个由Gupta等人[20]开发的内容提取项目。它使用web文档的DOM树表示,而不是原始的HTML文本。随着接受HTML页面的输入,Crunch将分析HTML字符串、构造DOM、递归地遍历节点并过滤后面的非信息内容。每个过滤器都可以打开或关闭并在一定
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。