英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

基于主成分分析的网络流量异常检测

摘要：使用流量矩阵来描述网络全局性能已经引起了网络研究领域的极大兴趣。由于网络流量的高维性和稀疏性，主成分分析（PCA）已成功地应用于流量矩阵分析。主成分分析是高维对象分析中最常用的方法之一。本文介绍了如何将主成分分析应用于流量矩阵分析和异常检测。实验结果表明，基于主成分分析的方法能够准确、高效地检测出单个节点和多个节点的异常。

关键词：流量矩阵；网络性能；主成分分析；异常检测

1介绍

随着网络规模的不断扩大和网络应用的迅速发展，网络安全正变得越来越重要。因此，网络异常检测已成为一个重要的研究课题。网络异常包括恶意攻击、节点或链路阻塞等。已有的工作表明，任何异常都会引起网络流量的异常变化。因此，监测网络中的流量变化来检测网络异常是可行的。

然而，根据大多数现有的检测方法，例如基于小波和指数平滑技术的方法，针对单个链路[1]或网络终端上的异常检测，都认为流量是一个在时域中的一维信号。但在实践中，链路流量水平上的许多流量异常可能发生在一个或多个链路上。它们通常在正常的流量模式中被淹没，这是由骨干链路上的流量聚合的高水平引起的，因此很难在链路级发现异常。如果一个异常被网络终端阻塞，流量检测的实时性将不能得到保证。因此，本文提出了一种基于PCA的方法来整体检测异常网络流量的方法。该方法处理整个网络的二维流量矩阵（TM），并且有效地检测异常。

TM由网络中的所有始发地（OD）流组成。OD流是从一个节点（称为入口点）流入网络，从另一个节点（称为出口点）流出的流量的集合。OD流经过由路由矩阵确定的路径，OD流的叠加构成主干链路上的业务。因此，研究OD流是十分有效的，通过研究OD流可以方便的找出网络的流量特性。也就是说，TM的特性隐含了链路级业务的特性。

具有N个节点的网络的TM包含n2条目。因此，具有数十个节点的中等规模网络可能包括数百或数千个OD流。随着时间的推移TM变化频繁，研究人员已经探索了许多流量分析方法。利用这些方法的分析结果开发了网络异常检测、故障诊断、网络资源优化以及相关领域的各种应用。Willinger等人提出了由TM分析扩散小波（DW）的方法[2]，但此方法复杂度高。此外，它只适用于一个流量matrixat时间，这意味着在一个网络中的所有系统将过度的计算所需。在文献[3]中，重力模型被应用于TM。但是模型本身不能准确地表示原始TM。基于小波的多分辨率分析（MRA）是由Crovella和kolaczyk[4]提出的TM分析应用。该方法不提供TM模型的稀疏模型，而是提供复杂的分解。

在本文中，我们采用基于PCA的方法来分析TMS。为了减少数据空间的维数，提取最少的主成分个数。提取的主成分可以包含原始数据的最大特征，并且尽可能少地丢失信息。由于TM是稀疏的，可以通过PCA有效地分析TMS；与其他OD流相比，很多OD流是非常小的甚至是零。原始数据空间的稀疏模型的特征可以用少量的主分量来完美地表示。基于PCA的分析结果可以应用于流量推断、流量预测、异常检测以及相关领域。

PCA是一种降维和多变量分析的算法。它首先应用于数据压缩、图像处理、神经网络、数据挖掘和模式识别。PCA之所以广泛应用主要是由于其三个显著特征。首先，在将高维数据压缩成一组低维数据之后，重建数据的均方误差与维度成反比。第二，模型稳定，无需调整参数。第三，对于给定的参数，压缩和解压缩是容易进行的。

论文的其余部分按如下方式组织。在第2节中，简要地描述了相关的工作。第3节介绍了TMS的PCA分析过程。在第4节中，我们提出了一种通过选择两个重要参数来诊断单节点异常的方法。在第5节中，我们通过改进选择的参数来扩展检测多结点异常的方法。与现有方法的比较在第6节中给出。本文在第7节结束。

2相关研究

Barford等人[7]提出了一种在IP流和SNMP数据中使用小波滤波器的准确和有效的链路级异常检测方法。通过观察高频和中频带中过滤流量的局部变化的急剧增加来检测异常，即使在背景流量充足的情况下也能检测到体积异常。但是该方法的弱点在于该方法有许多可调节度量标准，如果度量标准设置不当，性能可能会很差。另一种用于异常检测的方案使用基于概率或基于分析模型的方法。一旦发现模型偏差，就会发出警报[8]。在参考文献[9]，典型的基于贝叶斯的方法被应用于预测磁盘驱动器故障。在参考文献[10]，提出了一个特定的分析模型，用于有效诊断I/O系统内的异常情况。这些论文主要关注时间域中的一维数据。但是，同时建模和分析所有链路数据可能不切实际，因为即使采用这种方法的单链路模型也很复杂。

本文提出的方法针对以TM为代表的全局流量视图的异常检测。首先，TM由PCA分析，然后研究几个重要的度量标准。最后，针对节点断开和分布式拒绝服务（DDoS）攻击两种情况，提出了一种检测单节点和多节点异常的有效方法。

与我们的方法类似，扩散小波（DW）应用于参考文献[11,12]中的异常检测，也涉及整个网络的TM。基于DW的分析结合矩阵能量来检测和定位其工作中的异常情况，但他们没有考虑复杂的情况，主要开发了有关异常流量物理定位的应用。相反，我们的论文考虑单节点和多节点情况。我们将基于PCA的方法的检测结果与基于DW的方法和其他方法的检测结果进行比较，并表明它实现了更高的检测精度。

3主成分分析

一般的骨干网由许多节点组成，这些节点通过链路相连，称为存在点（PoP）。美国的骨干网Abilene在图1中给出。在这种情况下，流量异常专指OD流急剧波动，表示流量出现正向或负向变化[13]，其中合法和非法行为[14]。

由于主干网有12个节点，所以其业务矩阵包括12个条目。直接监控流量矩阵的每个OD流，判断网络是否存在异常是很困难的，因此在时间间隔内的流量矩阵中的OD流被重新组织为列向量。将这些列向量定义为随后采样时刻的OD流向量一起构成高维OD流矩阵，同时将PCA应用到这个矩阵中。

PCA将给定的高维样本集映射到新轴上的坐标变换方向[15]，称为主轴或主分量。在应用PCA之前，需要一个归一化程序来处理OD流矩阵。请注意，不同的OD流可能具有不同的尺度。因为我们认为所有的OD流同等重要，所以我们需要把流量转换成一个统一的尺度。然后，数据必须被调整到统一的均值。

主成分具有以下特征。第一主成分存在于样本最大方差的方向上，第二主分量对应于除了由第一分量表示的方差之外剩余数据中的最大方差方向，其他主要成分在剩余数据中获得最大方差。所有这些主要成分都是正交的。因此，主轴按其捕获的数据方差的数量按降序排列。

PCA的IRN的归一化OD矩阵Y应用产生n个主成分，根据参考文献[15]，第一主分量V1是对应于数据最大方差的方向矢量，并通过在该主成分是V的2-范式表示，和kyvk是沿诉进行迭代的分布式数据的方差成正比，如果以前我们选择了1个主轴，则残差为原始样本与对应于前M 1主轴的样本之间的差值。因此，根据参考文献[15]，第m个主成分定义为PCA的重要应用是研究的内在维度[16]的OD流。通过计算每个主分量所获得的方差，发现沿着以前的T维的方差是不可忽略的。因此，y表示的数据可以用t维子空间有效地表示。事实上，OD流的低维维数构成了我们提出的检测方法的基础。

4单节点异常检测

流量异常表现为由于各种原因（例如蠕虫，网络设备故障，DDoS攻击[17,18]，瞬间阻塞，路由表更改等等）导致的网络流量非正常负载水平。通过有效的方法检测异常情况并迅速采取行动来维持正常的网络运行，对于网络管理至关重要。网络异常分为两大类：断开节点和敌对异常行为，如DDoS攻击。在这一章里我们针对这两个异常类型进行研究。第4.1节中描述了两个重要度量，在第4.2节中，提出了一种涉及估计正常模式尺度的异常检测方法，在第4.3节中，我们对如何评价该的方法的性能进行了描述。

因为最近几年没有可访问的数据源，在我们的实验中使用的数据集是从2003–2004年Abilene网络的公开数据。虽然使用的数据源是旧的，但是由于这些数据集的共同稀疏性，基于PCA的方法将在今天的数据中同样显示类似的性能。

4.1参数选择

在这个部分中，选择了两个参数：相异性d和异常分数R。d表示待检测样本与其他样本之间的平均不相似度。R代表样品对第一主轴的投影偏离平均状态的程度。我们提出了一种基于这两个参数的异常检测方法。

4.1.1不同点

在我们的实验中，在给定的时间窗口内每组选择12个连续样本。当窗口太长时，由网络流量动态变化引起的巨大波动被视为异常。如果窗口太短，则PCA应用更频繁，导致大量时间开销。因此我们选择一小时作为时间窗口，即每个实验数据集包括12个样本。每个快照i上的每个流量矩阵都被识别为一个长列向量xi={x1i,x2i, : : : ;,xni}?，其中i=1,2,3hellip;12，N=144.N是阿比林网络中OD流量的数量。接下来，将12个列向量x1—x12组合成单个大矩阵X=[x1,x2,：：x12]包括同一小时内的所有OD流量。X中的每一行j表示在12个不同采样时间的特定节点对之间的OD流量，并且每列i在第i个快照处呈现全部144个OD流量的实例。

在应用PCA之前，我们需要通过归一化处理数据以形成矩阵Y。在将PCA应用于Y之后，可以得到所有144个主分量。图2a表示由每个主分量获得的方差的图。使用Y的协方差矩阵的特征值计算方差。

这个数字表明，尽管阿比林网络有144个OD流量，但每个OD流的差异可以得到的前几个主轴线，符合OD流的低有效维。

在图2b中实线曲线显示的数据到每个主轴上的投影向量的范数的UI，将所有主成分分为正常组和异常的阈值的方法为[19]。崔克检查先从1到144进行检查。如果库克C1K通过门槛，则将第一主成分视为正常的主成分，其他属于异常的主成分。经验阈值（即所有2价值规范投影向量的意思）作为阈值如图2B所示虚线。根据阈值，前11个主成分分为正常组记为V，并在异常的其他指示由V0：正常的子空间和子空间异常可以通过数据映射到V和V0获得，通过与S0表示，分别表示为：

当网络保持正常时，d略有波动。然而，当网络中出现异常时，d将明显改变，如图3所示。图3显示了在正常和异常情况下不同颜色的图像，其中较大的颜色值表示较大的相异性。它是一个对称的图像。水平轴和垂直轴都表示偏离量。坐标轴的i行和j列代表不同d之间的数据即在i、j的数据。对角线中的颜色值总是为零，因为一个样本与其自身之间的相异性等于零。图3a表示出了正常情况，图3a表示出了异常情况，其中节点1在第五时刻断开。如图3b所示，第五行和列中的颜色值明显较大，表明第五时刻样本S5之间的不相似性，而其他样本则大得多。因此，d可以反映网络流量异常。

参数DN被定义为时间I和任何其他样本之间的相异性的平均值，由以下公式确定：

图4a显示了正常情况。发现DN的平均值为2.5258，DN的方差为0.0081。因此，当网络保持正常时，DN波动平稳。图4b示出了在第五时刻的节点1断开的情况，其中DN呈现指示异常时刻的网络异常的突然“尖峰”。图4C示出了在第五时刻发生到节点7的DDoS攻击的情况。当节点7发生DDoS攻击时，观察到同样的现象。因此，可以容易地观察到异常。

通过许多组实验，可以获得类似的场景。在单个节点异常的情况下，可以在异常时刻捕获参数DN的图中的突然“尖峰”。因此，可以通过参数DN有效地检测节点断开和DDoS攻击的单节点异常。

4.1.2异常评分

在第4.1.1提出分离所有主成分，将它们基于阈值的方法分为正常组和异常组。我们知道，由一个正常主分量捕获的方差大于由一个异常分量捕获的方差，这意味着数据到正常主成分的预测将包含更多关于原始数据的信息。第一主成分包含最大的信息量。第二主成分包含余数最大的信息量等。因此，投影的第一主轴线u1，是最接近原始的OD流的性质，并表现了了OD最显著的模式。在图5中，绘制样品到第一主轴上的投影。图5a反映正常的情况，图5b对应异常的情况。如图所示，在正常情况下，投影的时间序列是相当平滑的。在异常情况下，可以观察到OD流量的显著增加。投影ju1j增加至4倍的正常情况下的平均值。因此，考虑到第一主分量上的投影可以反映网络流量变化。

度量异常分数R被定义为待检测的数据投影到第一主分量的比率与所有投影到第一主轴上的平均值的比率：

4.2异常检测

如上所述，可以通过监测两个参数DN和R来直观地诊断异常，但只通过这两个参数无法将将大的峰识别为异常。在下文中，可以通过研究这两个参数的分布来解决问题。

实验数据集包含288个样本，来自于阿比林网2004年3月2日期间的流量。使用功能normplot，证实DN和R参数服从正态分布，构成的基础上估计的正常模式的规模。

由于DN和R服从正态分布，大多数数据在正常情况下分布在有限的范围内。此属性用于异常检测。可以看出，在正常情况下，DN和R的置信区间在98%置信水平，如表1所示。根据表1中的DN和R1的标度，可以确定网络中发生单节点异常时的高精度。当得到一个样本的两个参数时，我们首先确定两个值是否在正常尺度内。如果不是，则表示交通可能是异常的。节点断开和DDoS攻击可以通过比较两参数正常尺度的检测，如表1所示。通过结合这两个参数，可以保证检测单节点异常（包括断开节点和DDoS攻击）和定位异常时刻的高精度。该方法在实际应用中效果良好。

4.3效果评估

4.3.1结果

我们首先实现我们的方法，然后开发一种方法来评估我们的算法的检测性能。从Abilene网络540个样品用于评价。对于单结点异常，进行了三组实验。在

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[23143]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于主成分分析的网络流量异常检测外文翻译资料

1介绍

2相关研究

3主成分分析

4单节点异常检测

4.1参数选择

4.1.1不同点

4.1.2异常评分

4.2异常检测

4.3效果评估

4.3.1结果

您可能感兴趣的文章

登录

1介绍

2相关研究

3主成分分析

4单节点异常检测

4.1参数选择

4.1.1不同点

4.1.2异常评分

4.2异常检测

4.3效果评估

4.3.1结果

您可能感兴趣的文章