英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
基于SVM分类器的Web垃圾邮件检测
摘要
网络垃圾邮件是搜索引擎最近的问题之一,因为它有力地降低了网页的质量。 网络垃圾邮件具有经济影响,因为垃圾邮件发送者在搜索引擎上提供了大量的免费广告数据或网站,从而增加了网络流量。在本文中,我们实施了基于SVM分类器的垃圾邮件检测系统,将新的链接特征与内容和合格的链接分析相结合。 我们使用kullback-Leibler分歧来表征两个链接页面之间的关系。实验结果显示WEBSPAM-UK2006的F值为0.95%,WEBSPAM-UK2007数据集为0.44%。
关键词:语言模型(LMs),合格链接分析(QL),Kullback-Leibler发散(KLD),支持向量机(SVM),Web垃圾邮件检测。
第1章 引言
垃圾邮件是滥用电子邮件系统不间断发送不相关或未经请求的大量邮件。搜索引擎是查找数据或内容的主要方法。从过去十年来,搜索引擎一直是检索信息的必要工具。许多人在寻找合法的数据或内容时会收到垃圾邮件网站。网络垃圾邮件是搜索引擎最近的问题之一,因为它有力地降低了结果的质量。网络垃圾邮件具有经济影响,因为垃圾邮件发送者在搜索引擎上提供了大量的免费广告数据或网站,从而增加了网络流量。垃圾邮件总是对垃圾邮件发送者的财务有用,因为广告客户无需在网站上提供大量免费广告数据的运营成本。因此,建立反垃圾邮件技术来解决这个问题是至关重要的。垃圾邮件以许多不同的方式完成。其中一些是:网页搜索引擎垃圾邮件,博客垃圾邮件,在线广告垃圾邮件,维基垃圾邮件,手机短信垃圾邮件,互联网垃圾邮件,社交网络垃圾邮件和文件共享网络垃圾邮虽然最常用的垃圾邮件形式是电子邮件垃圾邮件和网络垃圾邮件[1]。
一般来说,链接垃圾邮件,内容垃圾邮件和隐藏这些是三种类型的垃圾邮件。 在链接垃圾邮件链接之间的页面,出于非价值的原因。在这种类型的网络垃圾邮件中,它包括创建链接结构,以利于页面排名,这为网站提供了更高排名的网站,其他高度排名的网站链接到该网站。垃圾邮件垃圾邮件是垃圾邮件发送者的最简单和最便宜的方法,因为垃圾邮件发送者可以直接访问他的网页,他们可以轻松地添加任何项目。在链接垃圾邮件发送者可以直接控制所有的网页。 垃圾邮件可以创建自己的链接场。在链接垃圾邮件发送者尝试增加目标页面的页面排名。在内容垃圾邮件中,非法数据可以在互联网上出现广告。在隐藏时,它是向搜索引擎发送不同内容的过程,而不是网站的常规访问者。
在垃圾邮件检测技术中,垃圾邮件和非垃圾邮件页面需要不同的值。这些值用于实现能够检测垃圾邮件页面的分类器。 在本文中,我们使用新功能来表征网页垃圾邮件页面,使用内容和基于链接的功能来检测垃圾邮件数据。为了改进网络垃圾邮件检测技术,我们使用了两组新的定性功能。在第一组中,一组基于链接的功能检查链路的可靠性。在第二组中,借助于语言模型(LM)方法提取了一组基于内容的特征。
第2章 相关工作
Luca becchetti等人已经提出了基于链接的网络垃圾邮件的表征和检测。在这种方法中,他们对一大批网页进行了统计分析,重点是垃圾邮件检测。他们研究了诸如度数相关性,邻居数量和通过链接的秩传播,信任等级等几个度量来构建几个自动Web垃圾邮件分类器。这项工作提出了对这些分类器的性能的研究,以及它们的综合性能。他们使用截断的页面排名和邻居数量的概率估计来构建一个自动分类器,用于使用几个基于链接的特征来链接垃圾邮件[2]。
Chapelle等通过内容和超链接方法提出了网络垃圾邮件标识。在这种方法中,垃圾邮件可以显着地检测搜索引擎的质量。通过超链接链接的两个页面通常是相关的,即使这是一个很弱的语境关系。他们分析了属于链接上下文的网页的不同信息来源,并对它们应用了kullback-leibler分歧,以表征两个链接页面之间的关系。在这种方法中,他们提出了一种基于混合聚类的有效的垃圾邮件检测技术,其结合了k均值,SVM,然后通过使用具有基于链接的特征和语言模型的C 5.0进行分类[1]。
Benczur等人提出了一种通过语言模型不一致方法检测人格特征的联系。 在这种方法中,他们提出了几个定性功能来改进Web垃圾邮件检测技术。此功能检查链接的可靠性和一组基于语言模型提取的基于内容的功能。最后,他们构建一个结合了三种类型的功能的自动分类器。在这种方法中,他们增加垃圾邮件检测率[3]。
Benczur等人提出了垃圾邮件排名全自动链接垃圾邮件检测方法。在这种方法中,垃圾邮件发送者打算通过创建大量指向它们的链接来增加某些垃圾邮件页面的页面排名。他们提出了一种基于个性化页面排名的概念的新颖方法,该方法检测具有不当的高页面排名值的页面,而不需要任何种类的白色或黑名单或其他人为干预手段。他们认为垃圾邮件页面的页面偏向分布有助于不必要的高页面排名[4]。
卡洛斯·卡斯蒂略(Carlos Castillo)已经使用Web拓扑方法提出了Web垃圾邮件检测。在这种方法中,他们研究了网页图表中的影响裙带链接,这是在页面排名方面。他们已经证明了依赖于随机游走的复位概率和串通集合的原始页面排名的页面排名增加[5]。
Gilad Mishne等已经提出用语言模型分歧方法阻止博客垃圾邮件。他们提出了一种通过比较博客文章中使用的语言模型,评论和评论链接的页面来检测博客评论中常见的链接垃圾的方法。他们提出了一种通过利用博客文章中使用的语言与该帖子的评论中使用的语言之间的区别来分类博客评论垃圾邮件的方法。 方法通过估计每个这些组件的语言模型,并使用众所周知的方法比较这些模型[6]。
Hector Garcia Molina等提出了网络垃圾邮件分类法。他们提出网络垃圾邮件是指旨在误导搜索引擎排名高于他们应得的页面的操作。这项工作提出了目前垃圾邮件技术的综合分类法,他们认为这可以帮助制定适当的对策。在这种方法中,他们提出了各种常用的网络垃圾邮件技术,并将其组织到分类[7]。
A. Ntoulas et al。提出了通过内容分析来检测垃圾网页。在这里,他们提出了一种使用合格的链接分析的方法。他们研究链接页面之间的差异。在这种方法中,他们使用C4.5分类器算法[8]。
马丁内斯等人提出了自动恢复破碎环节的推荐制度。 在这种方法中,他们提出了几种在网络上传播信任的替代方法。 这项工作表明,方法可以大大减少信任排名的顶部数量。
埃龙(Eiron)等人提出了网页搜索的锚文本分析。垃圾邮件网页已经成为信息检索系统的问题,因为这种现象可能导致其结果的负面影响。在这项工作中,他们解决了使用传播算法检测这些页面的问题,该传播算法以网络图形作为输入选择了一组在网络的其余部分上的垃圾邮件可能性[10]。
第3章 方法
A. SVM分类器
支持向量机是一类监督线性判别方法。在SVM分类器中将垃圾邮件词或链接视为一个单词。假设我们有n个兴趣的特征。在本文中,我们首先训练了具有N个数据点的SVM,每个数据点已被分类为垃圾邮件或非垃圾邮件。在SVM分类中,我们可以将数据点可视化为n维空间中的数据向量,如图1中的两个类所示。SVM分类器将空间划分为区域,并根据其区域分类定位新的数据点.SVM认为决策边界具有(n-1)维超平面的形式。如图1所示,决策边界是一条线。 SVM分类器尝试超平面,以最佳地提高边缘。边距是从超平面到最接近它的任一类中的数据点的距离。配置1显示问题归结为找到与超平面正交的向量w,最小化解决方案到标准二次优化问题。在本文中首先使用SVM分类器,我们对英国2006和英国2007年数据集进行了培训。
图1 支持向量机(SVM)[11]
B. 合格链接分析
在合格的链接分析中,无关联的链接可以找出哪些出于理由而不是优点。 这些不相关的链接包含垃圾邮件页面。在本文中可以研究页面链接的参数。合格的链接分析查找页面的参数。这些参数测量内部和外部链路之间或传出和传入链路之间的差异。
其他参数与链接和指向页面之间以及包含链接的页面之间的一致性有关。为了计算参数,我们开发了一个信息系统。通过使用信息检索系统,我们从通过一系列关于其链接的特征表示的每一页计算出品质因数。在合格的链路分析功能中,分析了Web链接的参数,断开的链接,传入的传出链接,外部内部链接和锚定文本拓扑。信息检索系统分析页面中的链接并从该页面中提取多个功能。合格的链接分析不仅提供关于可以使用来自链接和包含它的页面的信息来恢复其指向页面的链接的数量的信息,还提供关于每个链接的数据的信息。在网络垃圾邮件检测方法中,限定链接功能使用基于链接的功能来提取链接上的相关信息。在本文中,我们使用锚文本作为恢复链接的主要信息来源。在QL分析功能中,构造了一个复杂的查询和请求到一个搜索引擎。原始查询由从锚文本提取的术语组成,并且使用从其他信息源提取的术语来扩展此查询。所有扩展的查询都被提交到所选择的搜索引擎,并且使用SVM分类检索顶级文档。在本文中,我们认为如果链接指向的页面在与一些查询一起检索的页面集合中,则链接已被恢复。
图2 系统架构[1]
C. 语言模型
基于使用kullback-divergence的分布分析的语言模型方法。这个KL分歧用于计算两个特定文件的术语的概率分布之间的差异。该偏差用于测量源和目标页面的两个文本单元之间的差异。 KL分歧根据不同的分歧值来表征两个链接的网页之间的关系。用于计算来自源页面的信息偏差源。在网络垃圾邮件检测技术的锚文本,URL条款和内部和外部链接的信息来源考虑。
在本文中,锚定文本是首先考虑的信息来源。锚文本的主要功能是当页面链接到另一页时,此页面只能确保用户通过显示相关性并收集目标页面的信息来访问此链接。使用这个锚定文本拓扑结构,这段文本和链接页面之间的巨大差异显示了垃圾邮件的明确证据。 在这个信息来源有时,锚文本提供关于指向的页面的小的或没有描述性的价值和上下文信息。
该模板用于格式化纸张和样式文本。规定所有边距,列宽,行间距和文字字体; 请不要改变它们。你可能会注意到特点。例如,这个模板的头部比例比常规的要高。这种测量和其他方法是故意的,使用将您的论文作为整个诉讼的一部分的规范,而不是独立的文件。请不要修改任何当前的名称。
第4章 数据和实验结果
A. 数据
我们使用了两个公开的数据集,即WEBSPAM-UK2006和WEBSPAM-UK2007.WEBSPAM-UK2006数据集包括11403个域,WEBSPAM-UK2007数据集包括114530域。在本文中,这些域标记为正常和垃圾邮件。在这个系统中,WEBSPAM -UK2006数据集共有7982个域名,训练后2661个垃圾邮件和5321个正常数据可以找出.WebBS-UK2007有80171个域名,经过16035个垃圾邮件处理,64136个正常计数可以被发现。计算(表4-1)所示的示例数据集的可辨别性矩阵,
B. 实验结果
所有的实验都在具有I
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[141849],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。