基于数据驱动的网络安全风险事件预测分析

发表时间:2021/3/17   来源:《中国电业》2020年31期   作者:陈泽鑫
[导读] 近年来,人们逐渐加大对网络安全的重视关注程度,
        陈泽鑫
        福建省亿力信息技术有限公司,福州   350003

        摘  要:近年来,人们逐渐加大对网络安全的重视关注程度,国家领导人明确阐释了网络强国重要思想,明确了网络安全对社会稳定运行的重要性。2019年我国网络安全等级保护制度进入2.0时代,本文首先针对网络安全问题引入等级保护2.0,接着说明了等级保护2.0对网络安全的核心要求进行了简要介绍,然后阐述了网络安全风险事件的定义,再详细介绍了基于数据驱动的网络安全风险事件预测关键技术,最后总结了关键技术以期提高我国网络安全水平。

        关键词:数据驱动;网络安全;风险事件;预测分析


        1.引言
        随着信息化时代的到来,各种网络及应用越来越多涉入社会和人们的生活,但随之而来的网络安全问题也越来越严重,对人们的日常生产生活、甚至国家安全构成了严重的威胁。国家领导人已经明确指出网络安全已经成为了国家战略,开展网络安全防护离不开相关标准以及法律法规的支撑,在此背景下,我国正式对外公布了网络安全等级保护制度2.0标准,等级保护2.0的颁布对于促进我国网络安全保护具有重要的现实意义[1]。此外,近年来,大数据技术得到了快速发展,已经广泛应用到各行各业,本文将其用来构建网络安全风险事件预测模型,并详细分析了基于数据驱动的网络安全风险事件预测关键技术。

2.等级保护2.0时代对网络安全的要求
        随着科学技术的发展,随着网络入侵行为趋于规模化、复杂化、间接化,国家对网络安全技术提出了更高的要求,为顺应时代发展,等级保护2.0对网络安全提出了更加严苛的要求。具体而言,需要积极通过先进的技术手段对网络行为开展研究,在这个基础上能够对潜在的网络攻击,尤其是新型的网络攻击进行预判,进而采取措施来应对可能出现的网络安全风险[2]。这就要求对以往出现的网络安全风险事件进行深入分析和研究,从而发现其中的关联关系,而通过大数据技术可以实现这种目的。
        基于数据驱动的网络安全风险事件预测模型能够实现下述两个目的:(1)持续检测,感知未知。发现以往的网络安全事件中哪些攻击成功躲过了防御系统,内网中是否存在已经被攻击者控制的机器,有哪些机器处于上线状态,每台机器的数据流量是多少,哪些机器存在不正常的访问行为等等。(2)看得更深,知道更多。通过对原有网络安全数据的分析,可以预测哪些攻击是真实的,哪些攻击时虚假的。除已经发现的机器遭受安全问题外,是否还存在其他机器同时被攻击。已有的网络安全线索是不是可以进一步拓展,从而发现更多的线索。
3.网络安全风险事件定义
        随着科技的发展,网络安全的种类也越来越多,组中常见的就软件被病毒感染、钓鱼邮件攻击等。但不管哪种类型的网络安全风险问题都离不开三个关键词,即脆弱点、威胁和资产。其中资产表示具有价值的网络攻击对象,威胁表示资产可能被破坏的因素,脆弱点表示资产自身的缺陷,攻击者就是利用这些缺陷发起攻击。网络安全风险事件必须同时包含有上述的几个关键因素。比如,某公司的服务器因为出现了系统漏洞,攻击者利用该漏洞对服务器进行攻击,导致公司业务中断7天。针对该网络安全风险事件的风险分析如表1所示。

124.基于数据驱动的网络安全风险事件预测关键技术
        如图1所示为基于数据驱动的网络安全风险事件预测建模流程图。


344.1网络安全风险事件问题建模
        建立基于数据驱动的网络安全风险预测模型时,首先需要针对以往的网络安全风险事件相关的数据进行整理、分析[3]。模型的建立就是找到特征因素与网络安全风险事件之间的联系,目的是通过对特征因素的分析预测未来可能出现了网络安全风险事件。基于数据驱动的建模过程归根到底就是分类问题,可以通过深度学习和机器学习算法来完成上述任务。假设已有的样本数据集为,S={(X1,Y1),(X2,Y2),.........(Xn,Yn)},其中Xi={(Xi1,Xi2.........Xim),yi∈{-1,1},i=1,2,...,n。
        需要说明的是,当yi为1和0时分别表示有、无风险事件出现。
        机器学习算法不管是在时间还是空间方面都不复杂,针对模型进行训练时能够很快收敛,但利用该算法来建立预测模型时,要求特征因素及其与网络安全风险事件之间的关联性较强,如若不然得到的结果就不尽如人意[4]。深度学习对大数据的处理能力更强大,目前已得到了广泛的应用。基于深度学习可以对大数据进行深度挖掘,从而发现大量潜在特征因素,因此其对特征因素与网络安全风险事件之间的关联性要求稍低。这种方法的缺陷是计算比较复杂、且必须要有庞大的历史数据作支撑。
4.2数据采集及数据处理
        数据是开展预测的基础,因此数据的容量和质量对于预测结果的准确性起着决定性作用。从已经发生的网络安全风险事件中提取得到的有用数据信息可以用来对建立的模型进行训练,通过训练可以找到特征数据与网络安全风险事件之间的关联性[5]。可见,已有的特征数据正确与否直接影响模型的正确性。
12344.14.24.2.1数据采集
        通过对网络中明确的脆弱点进行监控,可以采集得到大量的网络数据,这些数据主要包括用户的网页浏览记录、计算机/服务器等的运行日志、流量信息等,涵括的范围非常广泛。前文已述,高质量数据是建立预测模型的基础,通常而言,这些数据主要通过网络安全设备采集得到,比如计算机中安装的杀毒软件等都会采集大量的数据信息。
4.2.2数据处理
        数据处理就是针对采集得到的大量数据信息进行整理,剔除无用的信息,并对有用的信息进行整理、分类、存档。进行数据处理时用到的算法主要包括分词算法、规则库匹配算法等。由于针对网络安全风险事件都是用人类日常交流的自然语言进行记录,所以需要通过自然语言处理技术对这些记录过程进行转化。有些数据不是特别完整需要通过人工进行录入确保其完整性,或者基于其他数据来推导得到完整的数据。基于统计分析手段能够对噪声数据或者异常数据进行检验,从而发现大量数据中存在的无用数据,从而对这些无用数据进行剔除。
4.3特征工程
        特征工程就是针对数据进行分析从而得到与目标相关度最紧密的特征点。同时还需要针对这些特征点具体属性将其转化成为数值特征矩阵。如果样本的特征维度比较高,在计算过程中容易出现问题,其实应该通过特征选择技术明确不同维度特征与风险事件之间的联系度,将无关的特征维度剔除,达到降维的目的,从而提升模型运行速度。需要剔除的特征主要包括无关特征和冗余的特征,这两种类型的特征会在一定程度上降低模型预测的速度以及精度。在实际中,视频、图像等数据信息很难通过特征工程进行处理,这时需要借助表征学习方法来提取这些类型数据信息的特征数据。基于特征工程,能够对以往的网络安全风险事件相关的数据信息进行提取,进而利用这些特征数据对建立的预测模型进行训练,提升模型的精度。
4.4模型训练
        在得到特征因子并建立好预测模型后,就开始利用特征因子对预测模型进行训练,通过模型训练能够显著提升模型的预测精度,在此过程中需要用到深度学习和机器学习等算法。在实际操作中还会将样本数据划分成为不同类型,比如训练集、验证集和测试集。不同的数据结合作用不同,训练集主要用来对模型进行训练,验证集主要用来对模型的预测结果进行验证,而测试集主要用来对模型的预测能力进行测试。
4.5模型评估
        模型评估的目的是针对建立的预测模型进行评估,以评价其能力大小,关键在于构件评价指标。模型评估时需要重点考虑的两个因素是模型的效率和模型的性能。模型效率又包括时间和空间复杂度两个层面,时间复杂度主要是描述完成预测过程所需要的时间和工作量,而空间复杂度是描述完成预测的过程需要的内存空间。本文主要针对模型的性能进行评估。
        如表2所示为二分类混淆矩阵,对预测模型而言,正例表示出现的风险事件,用P表示,反例表示没有出现风险事件,用N表示。将预测得到的结果和成绩结果对比,两者能够吻合则认为“Ture”,用T表示,反之为“False”,用F表示。对于表格中的符号FP、FN、TP、TN等分别定义为假阳性、假阴性、真阳性和真阴性。这四个数据是进行其他数据计算的基础。

        下面针对常用的模型评估指标进行简要介绍:
        (1)正确率A。表示预测结果与实际结果能够匹配的数量,占据全部样本数量的比例。模型的正确率越高表示其性能越好。正确率的计算公式:
       
对于基于数据驱动的网络安全风险事件预测模型而言,应该尽可能提高其真阳率TPR值,而降低假阳率FPR值。如果预测模型的假阳率过高,将会显著增加网络安全防护成本。比如某事件经过预测模型处理后确认为网络安全风险事件,而实际却不是。但由于预测结果为风险事件,人们不得不花费大量的人力、物力和财力对该风险事件进行预防,从而浪费大量的资源。
5.结束语
        随着科学技术的发展,社会对于网络技术的依赖程度越来越高,网络已成为人们日常生产生活中必不可少的重要工具。但与此同时,社会上的网络安全风险事件经常发生,严重扰乱了社会的稳定繁荣,通过建立网络安全风险事件预测模型,能够对未来可能出现的网络安全事件进行预测,进而采取有针对性的措施来防止风险事件的出现,降低其对社会的不良影响。本文主要针对基于数据驱动的网络安全风险事件预测模型涉及到的关键技术开展了分析,以期能够提升我国网络安全风险事件的预防水平。


参考文献:
[1]□赵志远. 等保2.0时代已来[J]. 网络安全和信息化,2019,34(6):36-37.
[2]□等保2.0时代 感知未知是实现网络安全的重要基石[J]. 网络安全和信息化,2018,55(11):106.
[3]□陈兴蜀,曾雪梅,王文贤,等. 基于大数据的网络安全与情报分析[J]. 工程科学与技术,2017,49(3):1-12.
[4]□陆科达,万励,吴洁明. 基于数据挖掘技术的网络安全事件预测研究[J]. 科技通报,2012,28(6):37-39.
[5]□王雪. 基于时间序列分析的网络安全态势预测模型研究[D]. 北京:北京邮电大学,2014.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: