英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
改进的集中爬网程序:使用网页分类和链接优先级评估
摘要
一个有重点的爬虫是特定于主题的,它的目标是有选择地从互联网上收集与给定主题相关的网页。然而,当前的聚焦抓取的性能很容易受到网页环境和多主题网页的影响。在爬行过程中,高度相关的区域可能会因为页面的整体相关性较低而被忽略,锚文本或链接上下文可能会误导爬行器。为了解决这些问题,本文提出了一种新的聚焦爬虫。首先,为了获得高度相关的web页面,我们构建了一个基于改进的术语加权方法(ITFIDF)的web页面分类器。此外,本文还介绍了一种链接的评价方法——链接优先级评价(LPE),它将网页内容块划分算法与联合特征评价(JFE)策略相结合,以更好地判断网页上的url与给定主题之间的相关性。实验结果表明,使用ITFIDF的分类器性能优于TFIDF,我们的聚焦爬虫在获取率和目标召回率方面优于其他基于广度优先、最佳优先、仅锚文本、仅链接上下文和内容块划分的聚焦爬虫。综上所述,我们的方法对于聚焦爬虫是有意义和有效的。
介绍
随着网络信息的快速增长,互联网已经成为最大的信息库。如何从海量的信息中获取感兴趣的知识成为当前研究的热点。但这些研究的首要任务是收集互联网上的相关信息,即抓取网页。因此,为了有效地抓取网页,研究人员提出了网络爬虫。网络爬虫是一种从互联网上收集信息的程序。它可以分为通用web爬虫和专用web爬虫[1,2]。通用的网络爬虫从庞大的互联网检索各个领域的大量网页。要查找和存储这些web页面,通用的web爬虫程序必须有很长的运行时间和巨大的硬盘空间。然而,特殊用途的网络爬虫,即聚焦爬虫,通过将其自身限制在一个有限的域内,可以产生良好的回忆性和良好的精度[3-5]。与通用的网络爬虫相比,有重点的爬虫显然需要较少的运行时和硬件资源。因此,有重点的爬行器在为有限的资源从web页面收集信息方面变得越来越重要,并已在各种应用程序中得到应用,如搜索引擎、信息提取、数字图书馆和文本分类。
分类web页面和选择url是聚焦爬虫程序的两个最重要的步骤。因此,有效聚焦爬虫的首要任务是建立一个良好的网页分类器,对给定主题的不相关网页进行过滤,引导搜索。众所周知,词频反文档频率(TFIDF)[6,7]是文本分类问题中最常见的词频加权方法。然而,TFIDF在计算权值时没有考虑不同页面位置的表达能力差异和特征分布的比例。因此,本文提出了一种改进的TFIDF方法ITFIDF来弥补TFIDF在网页分类方面的不足。根据ITFIDF,页面内容分为四个部分:标题、关键词、锚文本和正文。然后根据页面内容的表达能力为不同的部分设置不同的权重。也就是说,页面内容的表达能力越强,获得的权重越大。此外,ITFIDF通过引入项的信息增益,提出了新的加权方程来提高算法的收敛性。
选择url的方法还会直接影响集中抓取的性能。该方法确保爬虫获取与给定主题相关的更多web页面。url是从未访问列表中选择的,其中根据与给定主题相关的权重按降序排列url。目前,大多数加权方法都是基于链接特性[8,9],包括当前页面、锚文本、链接上下文和URL字符串。特别是当前页面是最常用的链接特性。例如,Chakrabarti等人提出了一种发现特定主题Web资源的新方法,Michelangelo等人提出了使用上下文图进行聚焦爬虫。基于此,我们提出了链路优先级评估(LPE)算法。在LPE中,通过内容块划分(content block partition, CBP)算法将web页面划分为较小的内容块。在对web页面进行分区之后,我们以一个内容块为单元,分别对每个内容块进行评估。如果相关,则提取所有未访问的url并将其添加到边界中,并将相关视为优先级权重。否则,请放弃内容块中的所有链接。
本文的其余部分组织如下:第2节简要介绍了相关工作。第三部分提出了基于ITFIDF的网页分类方法。第4节说明了如何使用LPE算法来提取url并计算相关性。第五部分提出了整个爬行结构。在第6节中,我们进行了几个相关的实验来评估我们的方法的有效性。最后,第七部分对全文进行总结。
相关工作
自WWW诞生以来,研究人员探索了各种不同的互联网信息收集方法。聚焦爬虫是信息采集的常用工具。有重点的爬虫程序受到选择url方法的影响。在接下来的部分中,我们将简要回顾一些关于选择url的工作。
聚焦爬虫程序必须计算未访问链接的优先级,以引导自己从internet检索与给定主题相关的web页面。链接的优先级受到全文的主题相似性和这些超链接[12]的特性(锚文本、链接上下文)的影响。公式定义为:
其中优先级(l)是优先级的链接l(1le;lle;L)和L链接的数量。n是检索网页的数量包括l的联系。Sim(,t)之间的相似主题t和全文,这对应于web页面p包括链接l。Sim(,t)是包含链接l的锚文本对应的主题t与锚文本之间的相似性。
在上面的公式中,已经提出了许多变体来提高预测链路优先级的效率。在此之前,研究人员将这些链接的全文的主题相似性作为优先排序的策略,如Fish Search[13]、Shark Search algorithm[14]和其他聚焦爬虫[8,10,15,16]。由于link所提供的特性,许多研究者利用网页中的锚文本和链接上下文来搜索web[17]。Eiron和McCurley[18]对企业内部网文档中的锚文本和真实用户查询的性质进行了统计研究。Li等人提出了一种基于决策树的锚文本引导的聚焦爬虫。Chen和Zhang提出了HAWK,它是一些著名的基于内容和基于链接的爬行方法的简单组合。Peng和Liu[3]提出了一种结合全文内容和未访问超链接特性的改进的聚焦爬虫。Du等人提出了一种基于语义相似向量空间模型的改进的聚焦爬虫。该模型结合余弦相似度和语义相似度,以链接的全文和锚文本作为文档。
网页分类
聚焦抓取的目的是获取特定主题的相关网页,并丢弃不相关的网页。这可以看作是一个二元分类的问题。因此,我们将使用最常用的文本分类[21]算法Naive Bayes来构建网页分类器。构建我们的分类器采用了三个步骤:首先剪枝特征空间,然后进行术语加权,最后构建网页分类器。
3.1. 修剪特征空间.
Web页面分类器将文档嵌入到一些特征空间中,这些特征空间可能非常大,特别是对于非常大的词汇表。特征空间的大小影响页面分类器的效率和有效性。因此,对特征空间进行修剪是十分必要和重要的。本文采用互信息[22]方法对特征空间进行裁剪。信息管理是信息论中度量信息的一种方法。它被用来表示两个事件的相关性。也就是说,MI越大,两个事件之间的相关性就越大。在本文中,MI被用来度量特征和类之间的关系。
计算MI有两个步骤:首先,计算当前页面中特征与每个类之间的MI,并选择最大的值作为特征的MI。然后,根据MI对特征进行降序排序,并保持比阈值高的特征。公式表示如下:
其中表示特征与类别之间的MI; 表示从语料库中任意选择的文档包含特征的可能性;表示从语料库中任意选择的文档属于类的可能性;表示此任意选择的文档属于该类并同时包含该特征的联合概率。
3.2. 加权.
修剪特征空间后,文档表示为=. 然后,我们需要通过加权方法来计算项的权重。 在本文中,我们采用ITFIDF来计算项的权重。 与TFIDF相比,ITFIDF的改进如下。
在ITFIDF中,网页分为四个部分:标题,关键字,锚文本和正文,我们根据它们对页面内容的表达能力为不同部分设置不同的权重。计算文档中术语的频率如下:
其中,,和分别表示标题中术语的出现频率,关键词,锚文本和文档的内容; ,,和是权重系数,并且gt;gt;gt;ge;1。
进一步的分析发现,TFIDF方法没有考虑特征分布的比例。我们还通过引入项的信息增益,开发了一个新的项加权方程。 新的权重计算公式如下:
其中是文档中术语的权重;和分别是文档中术语的项频率和逆文档频率;是术语的信息增益,可以通过下列公式得到:
是文档集D的信息熵,可以通过下列公式获得:
是术语的条件熵,可以通过下列公式获得:
是文档的概率。在本文中,我们基于[23]来计算,公式定义如下:
其中| wordset()| 指文档中所有术语的特征频率之和。
-
- 建立网页分类器
在修剪特征空间和术语权重之后,我们通过朴素贝叶斯算法构建网页分类器。为了降低计算的复杂度,我们没有考虑网页中术语之间的相关性和顺序。假设N是集合D中的网页数;是类别中的网页数。根据贝叶斯定理,页面属于类别的概率表示如下:
其中且值恒定;的值也恒定;是文档的网页术语;并且可以表示为的特征向量,即;因此,受的影响最大。根据以上独立性假设,的计算如下:
其中是文档中中术语的数量;是类别的词汇。
链接优先级评估
在许多不相关的web页面中,可能有一些区域与给定的主题相关。因此,为了更充分地选择与给定主题相关的url,我们提出了链路优先级评估(LPE)算法。在LPE算法中,网页通过内容块划分(content block partition, CBP)被划分成一些较小的内容块[3,24,25]。在对web页面进行划分之后,我们以一个内容块作为关联计算的单元,分别对每个内容块进行计算。在整体相关度较低的网页中,高度相关的区域不会被遮挡,但是该方法会忽略不相关内容块中的链接,其中可能会有一些链接相关网页的锚点。因此,为了解决这一问题,我们开发了JFE策略,即链接与内容块之间的关联评价方法。如果一个内容块是相关的,则提取所有未访问的url并将其添加到边界中,并且将内容块的相关性视为优先级权重。否则,LPE将采用JFE来评估块中的链接。
-
- JFE策略.
研究人员通常采用锚文本或链接上下文特征来计算链接与主题之间的相关性,以达到从不相关的内容块中提取相关链接的目的。但是,一些web页面设计人员没有在锚文本中总结目标web页面。相反,他们使用“点击这里”、“这里”、“阅读更多”、“更多”和“下一步”等词来描述锚文本中围绕他们的文本。如果我们计算锚文本和主题之间的相关性,我们可能会忽略一些目标链接。同样,如果我们计算链接上下文和主题之间的相关性,我们也可能会忽略一些链接或提取一些不相关的链接。
针对这种情况,我们提出了JFE策略来减少上述遗漏,提高聚焦爬虫的性能。JFE结合了锚文本和链接上下文的特性。公式如下:
其中是链接?和主题V之间的相似性;是链接u和主题V在仅采用锚文本功能计算相关性时的相似度;是仅使用链接上下文特征来计算相关性时,链接u与主题V之间的相似度;(0 lt;lt;1)是影响因子,用于调整和之间的权重。 如果gt; 0.5,则锚文本比JFE策略中的链接上下文功能重要; 如果lt;0.5,则在JFE策略中,链接上下文功能比锚文本更重要; 如果 = 0.5,则锚文本和链接上下文功能在JFE策略中同等重要。在本文中,被指定为常数0.5。
-
- LPE算法.
LPE用于计算当前网页链接与给定主题之间的相似度。它可以具体描述如下。首先,基于CBP将当前web页面划分为多个内容块。然后,利用相似度度量方法计算内容块与主题的相关性。如果一个内容块是相关的,则提取所有未访问的url并将其添加到边界中,并将内容块相似度视为优先级,如果内容块不相关,则使用JFE计算相似度,并将相似度视为优先级权重。算法1描述了LPE的过程。
预处理后,LPE根据TFC加权方案[26]计算每个术语的权重。 TFC加权公式如下:
其中是术语t在单位u(内容块,锚文本或链接上下文)中的出现频率;N是集合中特征单元的数量;M是所有术语的数量;是单词t出现的单位数。
然后,利用余弦测度法计算链接特征与主题之间的相似度。公式如下:
其中u是单位的特征向量,即u = ; v是给定主题的特征向量,即v = ; 和分别是u和v的权重。 因此,当u是内容块的特征向量时,我们可以使用上述公式计算。同样,我们也可以使用上述公式来计算和。
改进的聚焦爬虫
在本节中,我们提供了通过网页分类和链接优先级评估来增强的聚焦爬虫的体系结构。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237609],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。