基于数据挖掘的识别网络恶意流量分析算法研究外文翻译资料

 2022-11-13 16:03:15

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料


摘要

实时网络流量异常检测对网络信息的保密性、完整性、安全性至关重要。机器学习方法被广泛应用于识别基于具有独特统计特征的不同异常的数据流异常值。K-means聚类和高斯混合模型(GMM)都是有效的聚类方法,具有多种变化且易于实现。模糊聚类比硬聚类更加灵活,由于采用模糊聚类对数据进行自然处理,使得模糊聚类在入侵检测方面比硬聚类更具灵活性和实用性。模糊c-means聚类(FCM)是一种迭代优化算法,通常基于最小二乘法对数据集进行划分,计算量较高。本文在保证聚类精度的前提下对目标函数和距离函数进行了改进,降低了FCM算法的计算复杂性。提出一种FCM聚类GMM与特征变换方法相结合的方法,并将相关测试结果与聚类方法进行了比较。

索引:异常检测机器学习,FCM,GMM,统计分析,非负矩阵分解

1.介绍

入侵检测是基于入侵活动明显不同于正常系统活动从而可检测的假设。入侵活动可以大致定义为监视计算机系统或网络中发生的事件并分析其入侵迹象的过程。异常入侵检测系统(IDSs)旨在将异常活动与正常活动区分开[1]。

网络异常是指与正常运行的偏差。一些异常是由恶意入侵者故意造成的,例如拒绝服务攻击,而其他异常则可能是由网络中断或下游流量工程引起的意外。如果监视网络发现入侵者,需要快速检测来启动及时响应。

不同异常在网络统计中以不同的方式表现出来,因此设计一个有效的异常检测系统需要从大量的高噪声高维数据中提取相关信息,建立正常网络行为和异常的一般模型是比较困难的。基于模型的算法也不能 跨应用程序移植,即使网络流量的性质或监控的物理现象发生细微变化,也会使模型变得不合适。因此基于机器学习原理的非参数学习算法可取的,因为它们可以学习正常测量的性质,并自发地适应“正常”结构的变化[2]。

异常检测非常重要,因为数据中的异常可以转化为广泛应用领域中的重要的(通常是关键的)可操作信息。例如,计算机网络中的异常流量模式可能意味着被非法入侵的计算机正在向未经授权的目的站发送敏感数据。异常的MRI图像可能表明恶性肿瘤的存在。信用卡交易数据中的异常可能表明信用卡或身份被盗;航空传感器的异常读数可能表明航空器的某些部件出现故障。早在19世纪,统计学界就对数据中的异常值或异常现象进行检测研究。随着时间的推移,一些研究领域开发了各种异常检测技术。其中许多技术都是针对特定的应用程序领域专门开发的,而其他技术则是通用的[3]。

研究了许多方法,包括统计、机器学习、数据挖掘和免疫启发技术。聚类是一种用于异常检测的机器学习技术,基于这样的假设:正常的数据实例属于大而密集的簇,而异常不属于任何簇,也不会形成小而独特的簇。由于模糊聚类考虑了数据的性质,因此比硬聚类更加灵活,对异常检测也更加实用。传统的FCM聚类技术具有对检测到的聚类元素的隶属度进行量化的优点。GK-FCM (Gustafson-Kessel FCM)可以生成适应数据的形状和位置的簇[4]。然而FCM或GK-FCM的计算复杂度较高。我们改进了目标函数和距离函数,降低了计算复杂度,同时保持了分类的准确性,这对高容量实时网络流量异常检测至关重要。高斯混合模型(GMM)将数据分类为具有指定平均值、协方差和混合比例的子类。它对簇大小的区分很稳定,是FCM将数据实例分类为具有高斯分布的簇的一种实用方法。

本文的剩余部分结构如下:第2章讨论异常检测方法,第3章描述特征选择、化简和转换,第4章阐述K-mean、GMM、FCM及改进方法。在此基础上,第5章给出了一些仿真和比较结果,最后在第6章做出总结。

2.异常检测方法

用于处理异常检测问题的方法取决于可分析的数据的性质。异常检测有许多方法。我们可以将网络异常检测技术大致分为三类:分类、频谱分析[5]和聚类。由于字符限制,本章仅进一步描述基于聚类的相关方法。

聚类方法根据相似度对数据进行分类,相似度可以通过距离函数来度量,如欧式距离、切比雪夫距离或城区距离。一组好的簇应该有内部相似性和内部差异性。聚类作为一种数据分析和解释的算法框架,广泛应用于理解数据、揭示基本现象和可视化主要趋势。聚类可以分成两种类型:层次聚类使用以前建立的簇来查找连续的簇,分层聚类根据迭代过程一次性确定所有簇。子空间聚类、相关聚类和双聚类是新兴的聚类算法,已经应用于实际生活。基于密度的算法,如DBSCAN(具有噪声应用的基于密度的空间聚类),以及基于概率模型的技术,如AutoClass和K-means聚类,也变得流行起来。

期望最大化(EM)方法侧重于寻找最大分布可能性。EM用于将数据分组为少量的类,然后从不同的类中生成分类规则。基于概率模型的AutoClass允许自动选择类的数量和数据的软聚类,这允许将数据分配给多个簇。它对于网络流量工程中分类或个体应用识别的第一步是有效的。k -means的旨在将n个观测值划分为k个簇,其中每个簇的观测值都属于距离最近的一个簇。它类似于高斯混合的EM算法,试图使用迭代最优方法找到自然簇的中心[8]。

3.特征选择与约简

通常,数据集中的许多维度(测量的特征)在生成模型时并没有用。特征可能不相关或冗余。回归和分类算法可能需要大量的存储和计算时间来处理原始数据,并且即使这些算法成功了,得到的模型可能包含大量难以理解的术语。由于存在这些挑战,多元统计方法通常从某种降维方法开始。降维通常会导致更简单的模型和更少的测量变量,从而在测量成本高昂且可视化非常重要时具有优势。当特征的原始单位和意义很重要且建模目标是识别有影响的子集时,特征选择比特征转换更可取。当存在分类特征且数值变换不合适时,特征选择成为降维的主要手段。

非负矩阵因子分解(NMF)和主成分分析(PCA)是目前应用最广泛的特征变换方法。

3.1非负矩阵分解(NMF)

在现实世界中,由于相关设备的有限带宽、噪声和其他退化,我们使用的数据往往不准确。由许多维度(特征)表示的原始数据中包含的实际信息可能是重叠和相互关联的,因为它的定义不够精确。选择独立的、不相关的变量,通过特征约简得到它们的低秩近似,降低大型数据库的计算复杂度,通过线性或非线性变换将不同的变量组合起来,形成显著的特征,在大多数情况下都是必要的。

给定一个非负mtimes;n矩阵X和一个正整数k lt; min(m,n), NMF分别找到mtimes;k非负矩阵W和ktimes;n非负矩阵H,使X - WH之差的范数最小化。W和H是X的近似非负因子。W的k列表示X中变量的变换;H的k行表示X中原始n个变量的线性组合的系数在W中产生变化后的变量。由于k<X的秩,因此WH的乘积提供了X中数据的压缩近似值。建模环境通常会给出k的可能值[10]。

3.2主成分分析(PCA)

主成分分析使用正交变换将一组可能的相关变量的一组观测值转换为一组称为主成分的线性不相关变量的值。每个主成分都是原变量的线性组合。所有的主成分都是正交的,所以没有冗余信息。主成分的数量小于或等于原变量的数量 。该变换以第一主成分是空间中的单轴的方式定义。在该轴上投影每个观察值时,结果值将形成一个新变量。第二主成分是空间中的另一个轴,垂直于第一个。在此轴上投影观测值会生成另一个新变量。PCA对原始变量的相对缩放很敏感。

定义一个经验均值为零的数据矩阵XT,其中n行中的每一行代表不同的实验重复,并且m列中的每一列给出特定特征。X 的奇异值分解为 X = WSigma;VT,其中mtimes;m矩阵W是协方差矩阵XXT的特征向量矩阵,矩阵Sigma;是一个mtimes;n的对角线上是非负实数的矩形对角矩阵,并且ntimes;n矩阵V是矩阵XTX的特征向量矩阵。PCA变换由:YT = XTW给出。如果我们想要降低维度表示,我们可以将X投影到仅由前L个奇异向量定义的缩小空间中,WL:Y =(WL)T X =Sigma;LVT,Sigma;L是矩形单位矩阵。 X的奇异向量的矩阵W等于观察到的协方差C = X XT的矩阵的特征向量的矩阵W.

4.聚类方法及其改进

传统的硬聚类方法将每个数据点划分为一个聚类。然而,对网络流量特征的观察可能是不精确的。然而,模糊聚类可以将数据点(例如网络流量数据信息)划分为两个或多个具有不同归属度的簇。FCM根据特定或近似的输入信息生成精确的解决方案和结果。模糊聚类比硬聚类更灵活,并且由于自然地处理数据而对网络异常检测具有实用价值。

本节分别介绍了k-means、高斯混合模型、FCM和GK FCM聚类方法。FCM和GK FCM方法都可以有效地生成簇,但开销较大。在此基础上,提出了对FCM的改进,以简化计算和复杂度,这对于包含大量实时数据流的实时异常检测至关重要。还讨论了非负矩阵分解的特征约简和变换。

4.1K-means聚类

ThK-means聚类通常用于自动将数据集划分为k组。先选择初始聚类中心C,然后按如下方式迭代地细化它们:

  1. 将每个实例xk分配到最近的聚类中心。
  2. 每个聚类中心vi更新为其组成实例的平均值。

当实例分配给聚类没有进一步的变化时,算法会收敛。 聚类过程是目标函数最小化的迭代过程,

(1)

d2(xk,vi)是距离。

数据通常采用几何形式,如线或点。 当使用点时,点xk和簇中心vi之间的距离测量的形式由下式给出

(2)

当Ai = I时,测量是基于欧氏距离。

4.2模糊高斯混合模型(GMM)

结合多元正态密度分量,建立了高斯混合模型。它们通常用于数据聚类。通过选择最大后验概率来分配聚类。与K-means聚类一样,高斯混合建模使用迭代算法,该算法收敛于局部最优。当簇的大小和相关性与簇内不同时,高斯混合建模可能比k-means聚类更合适[12]。

对于具有簇C结构的D维数据集x,每个簇是由mu;i,Sigma;i参数化的高斯分布。簇i的密度是:

(3)

k簇的先验概率为ak,混合密度为:

(4)

其中x和mu;是1times;D向量,Sigma;是Dtimes;-D对称正定矩阵。 我们可以根据混合密度定义新的距离函数,如下所示:

(5)

它具有与FCM聚类中的物理距离相同的特征。 因此,在距离变换之后,我们可以使用FCM程序来实现基于聚类的高斯混合模型。 聚类过程是目标函数最小化的迭代过程,

(6)

其中m:[1,infin;]是一个加权指数,用于确定聚类的模糊度(模糊参数);值越大,模糊度越大。如果m=1,则集合是清晰的,而不是模糊的。(6)中的d2(xk,vi)是(5)中定义的距离。

迭代过程与传统的FCM相同,使用三次迭代,直到满足标准;通常达到预先配置的阈值。

5. 模拟和比较

以下小节演示了K-means和模糊高斯聚类模型生成的结果,并描述了使用NMF和PCA进行特征选择的影响。

5.1异常检测聚类结果

我们利用原始Netflow数据[13]提取的配置文件数据,利用K-means和模糊GMM选择27个特征[14]对数据流进行分类。对于除t2外的7个簇的所有模糊GMM算法,我们得到了相同的结果;表1中列出了聚类结果7(2)。将k-means和模糊GMM的结果进行比较,我们不仅发现k-means和模糊GMM之间存在差异,而且同一聚类算法的不同聚类数之间也存在差异,但是模糊GMM比K-means性能更好。对于异常检测,异常值是整个流量数据的一小部分。可以通过基于不同簇号或不同运行的相同技术来执行交叉验证。由于空间的限制,没有显示k-means的聚类结果。

5.2NMF和PCA

我们进行了NFM和PCA来实现特征转换,并注意到当我们选择最重要的15个特征时,聚类结果保持不变。NMF通过创建用户定义数量的特性来分解数据。每个特征都是原始属性集的线性组合,PCA可以提取比NFM更有效的特征,这可以通过进一步减少特征个数来证明。当降维为11时,使用PCA可以得到几乎相同的聚类结果,而NFM的性能要差得多,因为PCA执行正交变换,而NMF不执行。PCA比NFM具有更大的计算量,可以通过减少特征数来平衡。

6.总结

我们比较了使用k -均值、GMM、FCM和模糊GMM进行网络流量异常检测的不同聚类技术。NMF用于组合属性,进行特征约简和转换,使数据集更加实用。

实验结果表明,簇数的选择是数据分类的关键。重新运行聚类技术和交叉验证是正确分类数据的非常重要的过程。对于具有许多特性的数据实例,实现特性转换、选择和缩减是必要的。NMF是简化属性的一个有用工具。在异常检测中,异常值是巨大的流量数据流中的小部分,我们试图找到所有可疑的异常值。使用不同的聚类技术和不同的簇数,我们可以执行交叉验证,并找到更多可能的异常值。

Table 1. GMM clustering result

K

Class Distributions

2

Class 1 = *

Class 2 = 133.209.5.99, 133.35.156.38

3

Class 1 = 133.209.5.99

Class 2 = *

Class 3 = 222.218.165.173, 201.6.36.197, 200.51.48.26,

220.163.5.64,129.3

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[18353],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。