英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
2012年国际信息和知识管理大会(ICIKM 2012)
IPCSIT vol.45(2012)copy;(2012)IACSIT Press,新加坡
聚焦式网络爬虫
Ayoub Mohamed H. Elyasir1 , Kalaiarasi Sonai Muthu Anbananthen2
Multimedia University, Melaka, Malaysia
1 Email: ayoub_it@msn.com, 2 Email: kalaiarasi@mmu.edu.my
摘要:网络爬虫是一种使用自动化方式遍历互联网的程序,并且根据用户需求下载网页页面或页面部分内容。由于各种各样的原因,现如今公开发布了有关网络爬虫的一小部分核心技术原理。但是,网络爬虫及其技术核心仍然处于阴影之中,这之间隐藏了许多技术原理。这是因为网络爬虫的应用范围涉及到了规模巨大的搜索引擎应用程序的技术核心,这些技术核心是搜索引擎成功的秘密秘诀。还有一系列相关保密措施,比如防止垃圾邮件的搜索、排序等功能,因此网络爬虫方法很少发布或公开发布。网络爬虫是许多应用程序中重要且脆弱(易受攻击)的部分,包括商业竞争情报、广告、营销和互联网使用情况的统计。在这次会议中,我们对比了两种主要类型的网络爬虫:标准网络爬虫和聚焦式网络爬虫,并且选择其中一种网络爬虫应用于未来的程序框架(教育领域的见解挖掘)。
关键词:网络爬虫,聚焦式爬虫,搜索引擎,统一资源定位器,规范化
1.爬虫简介
在过去的十年中,万维网已经从多个页面发展到由数十亿不同的对象组成的规模。为了能够使用这个庞大的数据库,搜索引擎下载部分万维网现有网页,并通过关键词搜索功能为互联网用户提供对该数据库的访问。搜索引擎的主要组件之一是网络爬虫。网络爬虫是一种网络服务,使用自动化方式遍历网页链接,创建相关页面的索引,从而完成用户查询,显示结果列表。也就是说,网络爬虫是根据用户的需求从互联网上有序的、自动的寻找和收集有关资源。不同的研究人员或程序员使用不同的术语指代网络爬虫,比如aggregators聚合器,agents代理、intelligent agents智能代理,spiders蜘蛛(将网络爬虫类比成蜘蛛遍历网)等等。
迄今为止,已经开发了各种各样的网络爬虫程序来达到一些特定的目标。其中某些些应用程序是恶意的,比如未经许可收集用户个人信息用来来传播、贩卖用户隐私。由于网络爬虫涉及到搜索引擎、商业竞争情报和互联网的使用统计,所以它们对市场具有重大的影响。不幸的是,网络爬虫仍然处于阴影之中,这是因为网络爬虫的应用范围涉及到了规模巨大的搜索引擎应用程序的技术核心,这些技术核心是搜索引擎成功的秘密秘诀。还有一系列相关保密措施,比如防止垃圾邮件的搜索、排序等功能,因此网络爬虫方法很少发布或公开发布。
2.网络爬虫
搜索是整个互联网中最突出的一项功能,互联网用户每次浏览网页时都会倾向于查看各种各样的主题和自己感兴趣的信息。网络爬虫是互联网搜索技术的代名词,目前用户可以免费使用规模巨大的搜索引擎。浏览器以外的部分不需要通过网络抓取客户端元素,数据抓取包括两个主要的后端部分,爬取数据:查找相关页面以及构建索引的过程;服务:接收来自搜索者的查询条件然后使用索引来确定相关结果的过程。
抓取是爬虫从互联网上收集页面的一种手段。抓取的结果是中央集合或分布式的网页集合。考虑到互联网的不断扩展,这个爬行集合只能保证是互联网网页的一个子集,实际上所抓取到的页面集合的大小远远小于互联网页面的总大小。网络爬虫的目标是通过设计提供作为整个互联网的代表性的小型、可管理网页集合。
网络爬虫在抓取网页的方式上可能会有所不同,这主要取决于网络抓取系统所能够提供的应用程序。爬虫根据其主要功能的不同,被分为标准网络爬虫和聚焦式网络爬虫。标准网络爬虫收集网页的行为是随机的,而聚焦式网络爬虫是根据一定的引导规则来执行爬取过程。下面的图1展现了标准网络爬虫程序通过节点(网页)分支,而不管节点域如何。聚焦式网络爬虫程序是遍历更深和更窄的特定节点域。图1中的起始节点root对于标准网络爬虫和聚焦式网络爬虫都是相同的。
在理想情况下,聚焦式网络爬虫只想下载和特定主题相关的网页,并且能够做到不下载其他所有网页。聚焦式网络爬虫在下载之前,预测当前页面与特定页面是相关的可能性的大小,一个可能性高的预测是就是链接。在另一种方法中,页面的相关性是在其被下载之后被确定的。被发送到索引的相关页面和这些页面中包含的URL添加到爬取列表,丢弃那些相关性较低的页面。
标准爬虫 聚焦式爬虫
图1:标准爬虫与聚焦式爬虫比较
2.1 标准网络爬虫和聚焦式网络爬虫的对照
下面的表1展现了标准网络爬虫和聚焦式网络爬虫之间的区别:
爬取方式 |
标准网络爬虫 |
聚焦式网络爬虫 |
同义词 |
无选择的网络爬虫 |
局部网络爬虫 局部网络爬虫可能指的是一种聚焦式网络爬虫,它不使用分类器,而是使用简单的引导规则 |
引入者 |
多方面、多个贡献者 |
Chakrabarti, Berg and Dom (1999) |
定义 |
通过自动和预定义的方式来随机的收集网页以浏览互联网 |
遍历与标准网络爬虫的方式相同,但是它仅仅根据域、应用程序、插入的查询等信息收集相互相似的页面 |
路径搜索 |
随机搜索,并且可能在遍历网络时失去它的路径 |
以稳定的性能完成小范围的路径搜索 |
网页 |
网页之间不一定互相相关或关联 |
网页必须与特定标准相关 |
启动种子 |
根种子 |
Root种子根据网页搜索引擎提供起点 |
结束种子 |
一些随机的种子 |
与遍历的种子有关 |
稳健性 |
倾向于出现URL扭曲 |
强大,可以反对任何扭曲,因为它遵循相关的URL路径 |
发现 |
宽度更大但是相关网页较少 |
与相关网页宽度小 |
资源消耗 |
由于基本路径遍历算法,资源消耗更少 |
资源使用率高,尤其是在多台机器上运行的分布式聚焦式爬虫 |
页面权重 |
出于优先级考虑,将权重值分配给网页 |
出于优先级和相关性积分考虑,将权重值分配给网页 |
性能依赖 |
爬取具有独立性 |
爬取取决于特定域内的链接丰富程度 |
灵活性 |
可以指定许多可选择的选项 |
由于其依赖性,所以灵活性不高 |
分类 |
没有分类,但严重依赖于传统的图像算法,如深度优先遍历或宽度优先遍历 |
区分相关网页和不相关页面,使用Naiuml;ve Bayesian,决策树,广度优先,神经网络或支持向量机(SVM)对其进行分类,其优于其他方法,特别是在应用于页面内容和链接上下文时 |
综述 |
更少的资源消耗和性能 |
更高的资源消耗和性能,以及高质量的、高相关性的网页集合 |
表1:标准网络爬虫和聚焦式网络爬虫之间的比较
通过上述比较中,我们可以发现聚焦式网络爬虫对于互联网进行遍历是更好的一个选择。通过特定的和引导的路径来缩小搜索范围的能力使得聚焦式网络爬虫在收集网页路径方面的质量更高(相比于标准是网络爬虫),聚焦式网络爬虫能够识别相关度最高的链接,识别相关度低的链接并跳过这些离题链接。格式错误的URL会导致抓取路径的方向错误,从而容易使得标准网络爬虫变形,因为它使用广度优先算法跟踪每个链接,并将其全部以抓取方式下载。由于标准网络爬虫的资源消耗较少,但是由于现在拥有以合理的价格计算提供的资源,所以聚焦式网络爬虫仍然是更好的选择。聚焦式网络爬虫不像标准网络爬虫那样可定制,但第一个工具(标准网络爬虫)可以根据页面内容和链接上下文对结果进行分类。此外,商业应用程序更偏向于聚焦式网络爬虫工具,因为领域依赖和一定的限制性,而某些爬虫通过主题爬取,某些爬虫通过区域和位置爬取。
3.评论聚焦式网络爬虫
由于搜索引擎网站在日常生活中的重要性,搜索引擎网站在全球互联网中的访问量是最大的。网络爬虫是整个万维网(WWW)中的主要功能以及主要模块,因为网络爬虫是无论哪一个搜索引擎的核心模块。标准网络爬虫是一种用于遍历网络的强大的技术,但标准网络爬虫在客户端和服务器上资源的使用方面都很杂乱。因此,大多数研究人员专注于研究能够收集与用户感兴趣的相应主题的相关度最高、最紧密的页面的算法体系架构。“聚焦式爬虫”这个术语最开始是由(Chakrabarti,Berg,&Dom,1999)引入的,聚焦式网络爬虫术语意味着抓取特定主题的网页。为了节省硬件资源消耗和网络资源消耗,聚焦式网络爬虫分析已经被爬取的网页页面内容,通过算法分析以进一步找到最大可能与规定主题相关度高的链网页接,并且忽略那些相关度低的网页链接集合。
Chakrabarti,Berg和Dom(1999)定义了一个包含三个组件的聚焦式网络爬虫,一个用于评估网页与所选主题的相关度高低的分类器,一个用于通过少量链接层来识别的相关节点的筛选器,以及一个由分类器和筛选器控制的可以配置的爬虫。我们可以尝试基于分类器和筛选器起初上添加其他的特征:从社会学的角度去扩展探索相关链接,根据给定的查询条件提取指定的网页,探索数据挖掘社区(培训),从而提高爬虫的爬行能力以得到更多高质量(相关度高)的网页和更少相关度低的网页。
网页页面的可信度的问题以被解决(Diligenti,Coetzee,Lawrence,Giles and Gori,2000),方法是根据页面数量以及页面的权重值来选择爬取的路径。 他们选择使用上下文图来捕获页面链接架构,包含有价值的页面并提供反向爬行功能以支持更详尽的搜索。他们还得到一个结论,认为只要有大量机器资源可供使用,聚焦式网络爬虫就是未来和标准网络爬虫的替代品。
Suel和Shkapenyuk(2002)形容出了在多个机器上运行的优化分布式网络爬虫的架构和实现方案。他们的抓取工具具有抗碰撞能力,并且可以通过增加参数与节点的数量扩展到每秒爬行数百页的速度。
CROSSMARC方法由Karkaletsis,Stamatakis,Horlock,Grover和Curran(2003)提出。CROSSMARC采用语言技术和机器学习技术进行多种语言的信息提取,主要包含三个重要组件:用于遍历网页的站点导航器,并将收集的信息转发给页面过滤器和链接评分器。页面过滤器是基于用户给定的查询条件过滤无关信息,链接评分器评估爬取链接的可能性的高低。
Baeza-Yates(2005)强调,搜索引擎中的抓取工具负责生成结构化数据,并且搜索引擎能够使用聚焦式网页抓取工具来优化检索过程,从而获得更佳的、令用户满意的搜索结果。Castillo(2005)为网络爬虫设计了一个新模型,该模型与搜索引擎项目(WIRE)集成在一起,并且提供了访问网络数据的元数据访问过程。他强调解释了如何捕捉相关度最高的网页,因为互联网上的网页数量是无限的,其中还包含着大量关联性弱的网页。他还表示,从主页上遍历五层页面就足以获取相应网站的概览快照,因此可以节省更多带宽资源并避免网络拥塞。
Rungsawang和Angkawattanawit(2005)试图通过使用知识库来增强聚焦式网络爬虫的学习能力,从而加强爬行过程。他们展示了一个优化的聚焦式网络爬虫的成果,该网络爬虫学习一个领域或者类别内的知识库中收集的信息。他们提出了三种知识库,来帮助收集尽可能多的相关网页,并且识别出与感兴趣的话题相关的关键词。
Liu,Milios和Korba(2008)提出了一种基于最大熵马尔可夫模型(MEMM)的聚焦式网络爬虫框架,该框架优化了爬虫的工作机制,使其成为基于最大的平均相似度在网络数据挖掘方面最佳的Best-First之一。使用MEMM,他们能够开发多个交叉和相关的功能,包括锚文本和URL中嵌入的关键字。通过实验,使用MEMM和包含
全文共7093字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[12685],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。