基于数据挖掘的网络异常流量检测

发表时间:2020/6/2   来源:《科学与技术》2020年第3期   作者: 韩冰茹
[导读] 当今互联网中的数据样本的数量、种类、规模和复杂性的呈现爆炸式增长

        摘要:当今互联网中的数据样本的数量、种类、规模和复杂性的呈现爆炸式增长,同时每个端口以及服务器上需要进行检测的的网络流量的规模也大大提高。虽然目前的网络流量跨多个维度并具有很多属性,但可以提取用作异常流量检测的属性不多,因此,需要把数据集中蕴含的信息价值较大的属性筛选出来进行异常流量检测。基于以上特点,本文提出了改进的K-Means算法,对原始K-Means算法初始质心的选择方法进行优化,使得算法可以进行更方便迅速的初始簇的选择,来大大降低迭代时间。由于一般离群点检测模型的准确率较低,本文还使用了关联规则挖掘算法,来从无异常数据的网络流量样本中筛选出纯净网络流量的特征属性,再根据这些特征对网络流量进行离群点检测。
        关键词: 数据挖掘;异常流量检测;K-Means算法;关联规则挖掘




Research on abnormal network traffic detection based on data mining
                                          HAN bingru
                                  Teacher:GUO yuhong
                This article is funded by the Academic Support Program
        of University of International Relations Project Number: 3262019SXK03

Abstract:The number, type, scale, and complexity of data samples on the Internet today are exploding. At the same time, the size of the network traffic that needs to be inspected on each port and server has also greatly increased. Although the current network traffic spans multiple dimensions and has many attributes, there are not many attributes that can be used for abnormal traffic detection. Therefore, it is necessary to screen out the attributes with large information value contained in the data set for abnormal traffic monitoring. Based on the above characteristics, this paper proposes an improved K-Means algorithm to optimize the original K-Means algorithm initial centroid selection method, so that the algorithm can be more convenient and rapid initial cluster selection, to greatly reduce the iteration time. Due to the low accuracy of the general outlier monitoring model, this paper also uses an association rule mining algorithm to filter out the characteristics of pure network traffic from network traffic samples without abnormal data, and then isolate the network traffic based on these characteristics Group point monitoring.
Keywords:Data mining; Abnormal traffic detection; K-Means algorithm; Association rule mining






1 绪论
        互联网技术在近几年取得了巨大进步,人们对互联网的依赖度随之增强。随着飞速发展的通信网络,网络攻击的威胁也日渐显著。根据第39次的互联网发展状况报告显示,高达九成的的信息安全漏洞是由于端口漏洞和拒绝服务攻击以及分布式拒绝服务攻击。在这样的条件下,创造更加可靠的网络环境,营造更加有效的信息保护技术迫在眉睫。网络流量异常检测可以找到网络环境与正常流量的差异,因可以作为改善当今网络安全环境的关键方法。流量异常检测技术,可以成为网络安全的第二道防线,与签名、防火墙等第一道防线形成互补,共同阻止网络攻击,保护网络生态环境。
        本文把网络流量异常检测与分析手段当作解决以上问题的关键,利用大数据环境下数据挖掘的特点,能够高效挖掘并检测网络异常流量,保护网络生态环境。
       
2 网络异常流量检测
        一个行之有效的网络异常流量检测系统也面临着诸多挑战,Tavallaee等人(2010)提出了网络流量检测系统普遍存在的三个不足之处:网络流量数据样本集、进行流量检测实验的特点以及对于网络流量检测系统性能评估的标准。随着大数据时代的到来,大量的各种各样的新数据在不断产生,这中间就有大量的从未被原始的网络流量检测方法记录过的攻击手段。所以,怎样高效地筛选出这些新的异常网络数据,并能过立刻有效防范,是网络流量检测方法亟待解决的关键问题。目前的网络流量检测,首先前提确保攻能够对于网络攻击立刻做出有效防御。目前环境中的网络异常流量检测算法有以下需求:
①当今互联网中的数据样本的数量、种类、规模和复杂性的呈现爆炸式增长,摩尔定律也已经不再适用于当今的互联网发展,同时每个端口以及服务器上需要进行检测的的网络流量的规模也大大提高。


②虽然目前的网络流量往往跨多个维度,具有很多属性,但可以提取用作异常流量检测的属性不多。因此,需要把数据集中蕴含的信息价值大的属性筛选出来进行异常流量检测,这样可以提高算法效率。
③网络流量异常检测系统应当具有及时性,能过对网络攻击检测做出实时反应。
        依据以上网络异常流量检测算法的需求,目前环境中的网络流量异常检测具有以下亟待解决的问题:
①当今互联网通信信息量巨大,对于大多数传统的机器学习模型,及时地从大量数据中提取有效属性并进行标记比较艰难,并且这些模型无法防范新出现的网络攻击。
②网络异常流量检测系统的准确率亟待提高。准确率低的原因之一是检测系统会将普通用户的数据样本识别为网络攻击数据。此外,网络流量检测系统有可能将攻击样本识别为普通用户数据,而这就失去了异常检测的意义。
③网络流量异常检测系统还应该在降低错误率的基础上,对检测算法进行尽可能的优化,减少算法运行消耗的用时与系统空间。

3基于改进K-Means算法的异常流量检测
3.1 基于改进K-Means的离群点检测算法
        K-means算法是无监督的数据挖掘算法,在很多领域的应用都很广泛。K-Means算法的思想即为按照数据点之间的长度,将数据据划分为K个簇,使得簇内的数据点的距离尽可能小。算法开始时挑选K个质心,通过多次改变质心重新计算,确定最佳质心数据。K-Means算法的优点是:原较简单,实现较为容易,收敛速度快,算法的聚类效果比较好,,主要需要调参的参数仅仅是簇数K。K -Means的缺点主要表现在K值的选取不好把握,且对于非凸的数据集比较难收敛。采用迭代方法,得到的结果只是局部最优,同时对噪音和异常点比较的敏感。
        为了降低这种敏感性,有人提出了不使用簇中数据点作为参照的方法,使用在簇中挑选一个的数据点来代表簇的方法。使用这种方法进行迭代,每个数据点实际上都是簇的质心。
        根据上述思想,有人提出了PAM算法,该算法对噪声点不敏感,鲁棒性较强。PAM算法与原始K-means算法核心思想十分相似,PAM算法最大的改进是在对聚类质心进行优化时,是通过计算一个簇中除质心之外的每个数据点到簇中其他数据点的最短距离来修正质心点,这种方法弥补了K-means算法对离群点敏感的缺点。PAM聚类收敛时间太长的主要原因是:最开始选择的K个数据点作为初始质心,因为是随机选择的,其与最终的质心的差距过于不确定,需要进行大量迭代来修正。那么改进的K-Means算法的思想是:选择初始质心点时,能够直接选择到与最终优化的质心十分相近的数据点,那么再运行PAM聚类方法时,就能较快收敛到最优解。因此我们对PAM的方法进行改进,通过获得较优的初始点,以求减少收敛的时间。
        本文对初始质心的选择方法进行进一步优化,使得PAM算法可以有更方便迅速的初始簇的选择,来大大降低的迭代时间。获得更方便迅速的的初始簇选择,并不意味着一开始就能够选择到最佳质心点,而能够选择出的最近似的质心数据点,可以最大程度地地表示簇内样本点的状态。由于最佳质心与近似质心的实际距离尽可能小,我们可以建立一个半径为R的超球体,最佳质心在以近似质心为球心半径为R的超球体体积内。现在只需在超球体内部而非整个聚类簇的数据点对半径进行替换,这样可以大大缩短迭代的时间。
3.2 实验结果
        本文所使用的数据样本集是DARPA99。DARPA99数据样本集包含了时间跨度为5周的模拟攻击数据。数据集中的前2周的样本是专门的训练数据。本文使用DARPA99数据集中第1周第1天的样本数据来提取关联规则,进行训练,用第4周第5天的样本数据来进行网络异常检测。
        下面通过实验对改进的K-Means算法以及原始K-Means算法的结果进行对比。
        对比进行对同一组样本集进行聚类时,改进的K-Means算法和原始K-Means算法所消耗的时间。所消耗时间越短,该算法的修正得到最佳质心用的迭代次数越少,算法越高效。聚类效果的评价是对最终输出的每个簇的数据点进行抽取,通过被抽取的数据中数量最多的类别来表示该簇的泪奔,再通过样本实际类别对进行检验,准确度指实际的正值数据在算法归类为正的数据中的比例。
        我们为了研究簇数对聚类效率的影响,改进的K-Means算法以及原始K-Means算法的簇数相同。半径因子的值设为为0.4。



        根据上述实验可以发现,刚开始的时候,随着簇数的增加,改进的K-Means算法并与原始K-Means算法在运行速度上差异不大。在簇数达到12的时候,改进的K-Means算法在消耗时间上展现出优势,在簇数值超过12继续增加的时候,两种算法的效率差异明显显现。改进的K-Means算法并没有在初始阶段效率就优于原始K-Means算法的原因,猜测是改进方法中多出了近似中心点选择的步骤,送一部分的固定时间消耗较为可观,当簇数K1值较小时,对于整体聚类算法运行时间影响较大,而当聚类簇数增加时,这一步骤固定时间影响逐渐变小,其减少迭代次数的优势也逐渐凸显。
       
       
【参考文献】
[1] Ahmed M, Mahmood A N, Hu J. A survey of network anomaly detection techniques[J]. Journalof Network and Computer Applications, 2016, 60: 19-31.
[2] Agrawal S, Agrawal J. Survey on anomaly detection using data mining techniques[J]. Procedia Computer Science, 2015, 60: 708-713.
[3] 张楠, 李洪敏, 卢敏, 等. 网络异常流量检测方法[J]. 兵工自动化, 2016, 9: 016.
[4] 卢鋆,吴忠望,王宇,卢昱. 基于 kNN 算法的异常行为检测方法研究[J]. 计算机工程,2007,(07):133-134+138.
[5] 华辉有,陈启买,刘海,张阳,袁沛权.一种融合Kmeans和KNN的网络入侵检测算法[J]. 计算机科学,2016,43(03):158-162.
[6] 王海忠. 基于决策树的网络流量分类系统的设计与实现[D].中国科学院大学(工程管理与信息技术学院,2014.
[7] 张国喜. 基于数据挖掘的入侵检测系统的设计与实现[D]. 东北大学,2013.
[8] 杜旭光. 基于多维关联规则的入侵检测方法研究[D].燕山大学,2014.
[9] 苏巴提,张晓. 基于改进的K-means算法的异常检测[J]. 软件导刊,2011,10(11):76-78.
       

       

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: