英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
流量分析的异常检测方法比较
在本章中,我们将分析本书中考虑的对变点检测的不同算法(累积和控制图,拟合优度的皮尔逊的卡方和Kolmogorov-Smirnov(KS)检验以及交互信息(MI)算法)。
为了比较流量异常检测方法,我们对受监控的流量进行了深入分析,以了解流量在一天中的变化。
3.1 介绍
变点检测理论是一个通常可以帮助我们识别在时间序列中尤其是在网络流量中突变的课题。正如我们在第3.2节中介绍的那样,根据最新技术,文献没有深入对变点检测的不同方法进行比较,特别是统计控制图,拟合优度检验或基于信息熵的算法。作为第4章的引言,现有技术的作者专注于纵向交通分析(时间演变),以便识别突然的高峰变化,而不是进行24小时典型的日剖面分析,其优势在于能够确定每日资料中的流量模式。
本章的结构如下:首先,我们提供一个完整的技术分析,然后描述所使用的方法。本章继续对变点检测算法进行描述,然后对结果和讨论进行总结,然后得出结论
3.2 最新的研究水平
最重要的变点检测方法之一是统计控制图(SCC)算法,由W.A.Shewhart于1920年代在贝尔实验室首次引入统计过程控制的概念(SPC)[SHE 24],以及连续的方法例如发展于剑桥大学[PAG 54]的累加控制图(CUSUM)[BAS 93],还有呈指数增长的加权移动平均(EWMA)图表[COX 61]。
此外,还有其他几种基于流量统计分布的也可用于导出变点检测的算法:拟合优度测试。
另外,我们再考虑用一种被称为交互信息(MI)[SHA 49]的统计技术变点检测方法来计算不同时间间隔的流量,也可以用来检测流量变化。
文献显示针对不同变点检测方法的调查适用于任一互联网(IP)通用[PEN 07]或特定的协议网络协议或服务,例如IP语音(VoIP)[EHL 10]。但是,这是一项理论研究,结果并不是凭经验评估。
在[MAR 11]和[MAT 11]中,作者对应用于IP流量预测的SCC进行了比较。论文通过使用8周的纵向流量分析来检测突然的峰值变化,从经验上描述了EWMA,CUSUM和SPC在表现流量趋势方面的性能。他们得出结论,EWMA比CUSUM或SPC有更好的性能。
另外,后来的工作[CAR 12]证实了对于不同的流量序列,SPC和CUSUM可获得最佳性能,因此结论是SCC的性能取决于流量的变化。Oprea和Emile[OPR 13]也支持这些结论。作者基于突然的峰值变化又一次获得的比较结果表明,在算法的实际实现方面,CUSUM和EWMA不具有相同的适用性。
在[TAR 06]中,作者展示了SCC与拟合优度检验的比较。这项工作为检测网络入侵提供了两种方法。特别是,作者将CUSUM和EWMA算法与拟合优度的卡方检验进行了比较。实验表明,CUSUM算法比其他算法能够更好地检测攻击。但是,再次进行了纵向流量分析,即检测突然的峰值变化,而不是典型的日间研究,此外,作者还使用了详细的协议类型信息(例如,传输控制协议(TCP),同步位(SYN),用户数据报协议(UDP)和Internet控制消息协议(ICMP),其数据包的准确性极高,这在现有技术中是用到最多的方法,很多时候它是不可用或不可访问的。
在[BUL 12]中,我们可以找到SCC在基于频谱分析而非初始流量的变点检测中的应用。频谱分析在某些情况下进行了应用,在这种情况下,需要对流量进行顺序评估以检测峰值的突然变化,以提高准确性。作者再次得出结论,与大多数数据驱动方法一样,没有一种变点检测技术可用于所有类型的数据;不同的方法在不同类型的数据上表现更好。然而,这项工作并未研究典型的日间分析,仅基于SCC并使用模拟的时间序列数据。
在同一研究线[CAL 12]中,作者建议将CUSUM与小波的信号处理相结合,以再次检测突然的峰值变化。实验测试证明了所提出的解决方案针对不同流量异常检测的效率。
在[VER 08]中,作者使用MI理论来进行故障检测的选择。他们提出了基于判别分析和MI的故障诊断程序。为了获得良好的分类性能,他们使用新开发的基于变量之间的MI算法对重要特征进行了筛选,但是他们没有使用MI理论作为故障检测的标准。同样,在[AMI 11]中,作者提出了基于MI的特征选择。在其他方面,已经证明了MI在给定分类任务中选择最相关功能方面的有用性[DRU 14]。
在[SHA 06]中,作者利用该模型对入侵检测中的网络流量进行了动态建模,结果表明,该模型特别适用于检测诸如恒定比特率(CBR)攻击等方式
最后,在[MAT 14]中,作者讨论了在流量中存在变化趋势(变化是人为的结果)的情况下异常检测的问题。因此,这种趋势本身是不稳定的,在大多数情况下,就会造成变点检测算法结果有偏差。至为了解决这个问题,作者提出了一种消除固有日常模式的方法。在去除日常模式之后,他们获得了几乎正态分布的标准化样本,只要因此有足够的流量聚集,当从样本中去除夜间时段时,拟合度就会提高。
因此,本文利用每周模式的存在来估计并从测量中去除季节性,并提出了一种同时检测均值和方差变化的方法。这项工作依赖于流量类型和性质,因为他们的研究以VoIP呼叫为特色,因此该方法只能应用于遵循非均匀泊松过程的流量。这意味着他们需要为每个VoIP流(语音呼叫)提取性能指标,例如呼叫到达过程和呼叫保持时间分配,而该信息通常不可用。总而言之,他们的工作无法检测到交通繁忙时期(例如夜间)的变化。
这样,比较变点检测性能的最新技术基本上仅限于SCC算法[MAR 11,MAT 11,CAR 12,OPR 13],一些工作将基准扩展到了拟合优度测试([TAR 06]中的皮尔逊的卡方检验)而不是来自协议类型的检测突然峰值变化的详细流量。一些研究计划提出基于频谱分析[BUL 12]的变点检测或基于小波[CAL 12]的信号处理,但是当根据突然的峰值变化而不是典型的日间变化来分析流量时,所有这些方法都是有用的(24 h汇总流量)。
此外,在[BAD 14]中,作者回顾并评估了有关计算机网络中异常检测问题的最新研究。他们提供了异常检测问题的详细描述,并描述了其解决方案的不同分类。他们确定了两个级别来处理此问题。网络级别和应用程序级别。一方面,网络级检测分析网络中交换的消息的开头和/或有效载荷,而应用程序级检测则分析应用程序规范和/或在运行时检查其行为。
3.3 平均日初步分析
在我们的研究中,我们使用了来自拥有约15000个网络用户的大学校园的一系列网络流量,我们分析了8周用到最多的流量,这些流量在下行链路(从网络到用户)和上行链路(从用户到网络)收集于2011年10月至2011年12月之间。
我们将重点放在具有较高流量负载(下载)的链接方向上,并且为了将这项工作的研究集中在工作日内,我们没有考虑周末的流量。
因此,在我们的研究中,我们总共使用39个工作日,在不同学校的接口处监视下行流量(从网络到用户),每隔1小时增加一次,以获取平均吞吐量(kB/s)。
3.3.1 基准方案
图3.1表示每小时增加的工作日(下行线路)的监视流量,以kB/s为单位。此流量结果用于评估变点检测算法的基准方案。
接下来,我们分析多路复用流量的特征,因此分析了同一时期的全天序列。我们已经研究了之前提到过的横断面分析。图3.2表示了不同工作日的24小时流量情况。
图3.1 监控天的流量概况(下行线路,kB / s)
3.3.2 异常情况
为了测试算法的执行,我们创建了一个应用了该算法的异常情况,然后我们比较了从基准方案中获得的结果(即受监控的流量)。
为了创建异常情况,我们添加了有流量异常的新的一天的数据。默认情况下,第40天的流量情况是每个时段的流量平均值。
因此,新的一天在三个不同时间的情况如下:
1)低流量(凌晨4点);
2)繁忙时间(凌晨12点);
3)高平均流量(下午5点)。
图3.2 39个监控工作日的流量概况( 对于该图的彩色版本)
因此,我们按这三个时间间隔注入流量,这些时间间隔比整个系列的最大值高40%,比最小值低40%,比该时间段的最大平均值高40%,并且比最小平均值低40%。
因此,我们在添加受影响的流量之前和之后比较每种算法的值。图3.3显示了在39天的基本情况下均受到影响并加权的流量(灰色)。
3.4 提出的变点检测算法
在本节中,我们收集在本章中测试的算法:最相关的统计控制图(CUSUM),拟合优度的两个主要测试(皮尔逊的卡方检验和Kolmogorov-Smirnov(K-S)检验)和MI。该研究基于[CUA 14]中包含的结果,有关不同算法的概述,可以在第1章找到。
图3.3 交通均匀受到影响并造成沉重的负担( 为一个
图的彩色版本)
3.4.1 统计控制图
现有技术表明,没有哪个SCC算法可以与其他不同,但是SCC的性能取决于基本的流量特性[MAR 11,MAT 11,CAR 12,OPR 13,BUL 12]。为了简化这项研究,我们将重点放在最著名的一个上,也就是CUSUM图表,因为其他控制图方法(例如EWMA)的实施将产生相同的结果。
控制图执行测量值,该测量值是与期望值之间的标准偏差。特别的是,CUSUM(CUMulative SUM)是一种顺序分析算法,可让我们监视连续过程中的突然变化,例如流量变化。该算法在第1章中进行了概述。
SCC是显示数据样本是否落在正常变化范围内的图表。在CUSUM(也称为CSUM)中,进行测量时,将计算每个测量值与基准值之间的差,并将其相加起来。如果流量异常,则CUSUM值将逐渐偏离基准值。
在这项工作中,将一个期间的所有值与前一个期间的值进行比较。
3.4.2 拟合优度测试
拟合优度测试[CRO 12]用于得出给定的1天时间间隔是否显示独立于其余间隔(即,两个连续周期的相似程度)的流量分布,该间隔可用于确定变化。
在这项工作中,进行了两项主要的拟合优度测试。以下部分描述了这些测试:皮尔逊的卡方测试[CHE 54]和K-S测试[PET 77]。
3.4.2.1 皮尔逊的卡方检验(chi;2)
该测试测量每个结局发生的预期次数(假设模型是正确的)与观察到的每个结局发生的次数之间的差异[PEA 00]。第1章概述了该算法。
在这项工作中,认为观测值对应于当前的总时间段,并且是预期的前一时间段。为了计算每个时间间隔的统计信息,我们创建了一个直方图,其中包含不同日期的出现次数。
这些间隔在这些时间段内具有相似的概率分布,并且与相邻时间段无关,与其余时间相差很大。这使我们能够在这些时隙中检测网络行为的变化。
3.4.2.2 Kolmogorov–Smirnov 检验
该测试[PET 77]检查一组样品的分布是否符合理论分布。该算法在第1章中进行了概述。
为了检验假设,比较了两个累积分布函数(CDF),即经验分布和理论分布函数。
比较经验值时,将使用观察到的CDF和预期CDF,一个时期的CDF和比较相近时期的CDF。一旦计算了两个分布,就从两个函数之间的最大差异,两个连续CDF之间的最大距离确定了K-S统计量。
3.4.3 交互信息
MI是对一个随机变量包含的有关另一变量的信息量的度量。这意味着,如果两个随机变量都是独立的,则MI为零。第1章介绍了该算法。
在这项工作中,MI被用作两个连续时间间隔的流量之间相似性的度量。这样,MI可以测量一个流量周期包含的有关前一个周期的信息量,因此构成了一种检测流量变化的算法。
由于在图形方面没有可采用MI算法的参考值,因此当它们是自变量时,最小值应不为零,通常,归一化MI(MIn)值相对于一系列取值中的最大值才被使用。
3.5 分析算法的行为
在本节中,我们通过比较在标准情况和异常情况下获得的结果来选择不同变点检测方法。
3.5.1 方法
我们先对原始流量(构成基准情况)和异常受影响流量的四种情景(CUSUM,chi;2,KS和MI)进行了测试,然后在原始流量中增加了一天用来模拟一天的新变化。
在本节中,我们展示原始流量和受影响流量的算法所取值之间的差异,以百分比衡量。
正如我们在上一节中介绍的那样,流量在三个特定时段(低流量-4am,繁忙时间-12am和平均高流量-5pm)受到影响,比最高流量高40%,比最低流量低40%(按比例),比该时期(加权)的最大平均值高40%,比最小平均值低40%。
图3.4–3.7显示了不同算法的结果:CUSUM,X2,K-S和MI。每种算法的值表示从初始流量获得的值与受影响流量(其形状以灰色表示)获得值之间的差。
图3.4 高流量影响(人流)(对于该图的彩色版本)
总而言之,我们添加了新的虚拟天数作为基准,将每个小时的整体流量的平均值作为基准(可见每个图的灰色区域),在此基础上我们增加了(或减少了)这三个时段的流量,以测试在不同的流量情况下的结果:低流量(夜间凌晨4点),繁忙时间(中午12点)和平均高流量(下午5点)。
另外还要注意,纵坐标轴表示从初始流量获得的算法结果与添加了受影响流量的新日期的算法结果之间的差异。
图3.5 高流量影响(重量)( 对于该图的彩色版本)
<p
剩余内容已隐藏,支付完成后下载完整资料</p
资料编号:[238498],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。