基于数据挖掘技术的计算机网络病毒防御技术探索

2022-04-06 09:59:59 | 浏览次数:

摘 要: 利用PE文件剖析器、00A规则生成器、可疑文件扫描器按照主动防御系统原理,生成了基于数据挖掘技术的DMAV病毒主动防御系统。通过对比不同杀毒软件的变形病毒、未知病毒检测效果,发现新设计的DMAV病毒主动防御系统较其他杀毒软件杀毒范围更广、效率更高。

关键词: 数据挖掘; 网络病毒; 变形病毒; 防御系统

中图分类号: TN915.08⁃34 文献标识码: A 文章编号: 1004⁃373X(2016)21⁃0120⁃03

Exploration of data mining technology based virus defense technology

for computer network

YU Li

(Department of Information Security Engineering, Xinjiang Police College, Urumchi 830011, China)

Abstract: According to the principle of active defense system, the PE file parser, 00A rule generator and suspicious file scanner are used to generate the DMAV virus active defense system based on data mining technology. By comparing the detection effects of different antivirus softwares dealing with deformation virus and unknown virus, it is found the new designed DMAV active virus defense system has wider antivirus scope and higher efficiency than those of other antivirus softwares.

Keywords: data mining; network virus; deformation virus; defense system

1 数据挖掘技术

1.1 数据挖掘概述

描述和预测是数据挖掘的两大主要任务。基于对这两大任务的不同角度理解,可以演变出不同的含义。其中,相关定义、分类和功能如表1所示。

1.2 数据挖掘过程及方法

数据挖掘主要经过以下几个环节进行操作:数据收集→数据预处理和数据清洗→数据挖掘→模型建立→模型评价。

其中,数据收集和数据预处理、数据清洗被划分为数据准备阶段,这一阶段的主要目的是收集相关价值信息并进行数据编码。数据挖掘阶段主要利用机器学习法、数据库法、统计学法、神经网络法等相关挖掘方法,通过不同的算法获得准确度较高的预测模型。模型建立和模型评价被划分为分析结果显示阶段,这一阶段主要是根据不同用户的需求剔除冗余信息,并反复采用新的挖掘算法进行数据优化和信息反馈。

1.3 数据挖掘应用及发展趋势

数据挖掘技术在不同的行业领域均有较大发展。当前应用较为广泛的主要是制造业、通信业、财务金融保险业、销售业等领域。此外在网络安全领域,数据挖掘技术由于其具备的高效性、准确性、可预见性等众多优点,在海量数据分析、病毒检测、信息提取及预测等方面也有广泛应用。

虽然数据挖掘在不同领域均有广泛应用,但在应用过程中也存在以下几方面的问题:数据源形式多样和数据缺失问题;网络和分布式环境数据挖掘问题;海量数据挖掘问题;数据挖掘系统交互性问题;数据挖掘算法可伸缩性和效率问题;数据表示和知识积累问题。这些问题都迫使数据挖掘技术需要进行更高层次的改进和发展。

2 病毒防御技术

2.1 病毒分类及特点

计算机病毒是指可以毁坏计算机相关程序、功能、数据文件,并影响计算机正常使用的一组程序代码或数据指令。根据相关病毒的传播繁衍方式的不同,当前的计算机病毒主要可分为恶意软件病毒、蠕虫、后门、间谍软件、特洛伊木马等病毒,其中后门是计算机安全领域最常见的病毒形式。

这些病毒常见的攻击方式有:复杂海量数据、进行进程枚举、盗取机密信息并获取相关权限、清除数据文件并下载垃圾文件、感染其他关联系统及计算机。不论何种病毒、何种攻击,都具有隐蔽性、潜伏性、不可预见性、感染性、破坏性、非授权性等特点。

2.2 病毒的发展历程

病毒从产生到现在,主要经历了加密病毒、单变形病毒、准变形病毒、全变形病毒四个阶段。其中,不同阶段病毒的特点如表2所示。

2.3 现阶段病毒常用的变形技术及防治

加密、程序演化、重定位是现阶段病毒常用的三种变形技术。加密技术主要是可以为病毒隐藏和抗分析提供相对安全的区域,以防止病毒分析软件检测分析。程序演化技术主要是通过等价指令交换、等价指令序列替换、指令重排序、增加和删除指令、插入垃圾指令等方法演化出各种各样的变异程序。

与病毒变形技术相对应的就是病毒检测防治技术。当前反毒软件主要采用的技术有特征码检测技术、虚拟机技术、主动内核技术、启发式查毒技术、行为查杀病毒技术。其中,特征码检测技术是通过提取病毒特征码进行检测;虚拟机技术是采用虚拟环境执行程序命令进行检测;主动内核技术是主动将防毒系统嵌入到操作系统内核进行主动防御;启发式查毒技术是通过查找病毒指令集数据库进行检测;行为查杀病毒技术利用一定的行为规则进行病毒判断。

3 基于数据挖掘技术的病毒主动防御系统DMAV

的设计和实现

3.1 DMAV系统的体系结构

本文开发的DMAV病毒主动防御系统原理为: 将可疑的PE文件压缩或加壳,之后将剖析后的数据文件导入到Win API函数中;API查询数据库对收集到的特征数据进行优化,同时结合00A数据挖掘算法形成关联规则;可疑文件扫描器利用规则库对Win API函数进行对比分析;满足任意规范就是病毒,否则是安全文件。DMAV系统体系结构图如图1所示。

从图1中可以看出,PE文件剖析器、00A规则生成器、可疑文件扫描器是构成该结构的三大主要模块。其中,PE文件剖析器的功能是提取、导出、汇编Win API函数序列;00A规则生成器利用不同数据挖掘算法进行关联规则挖掘;可疑文件扫描器的功能是进行可疑文件扫描。

3.2 PE文件剖析器

PE病毒是当前计算机安全领域中最为常见,也是数量最多、影响最大的病毒类型,因此本文主要对PE病毒进行分析。PE是Win32环境中自带的可执行文件格式,它可以在任何Win32平台中运行和识别。PE文件是通过检查并运行DOS MZ header的偏移量、PE header的有效性、节表、Import Table逻辑部分进行计算机装载的。

为了实现PE文件解剖器的相关功能,需采取如下步骤进行操作:检验PE文件的有效性;定位PE header;获取数据文件目录地址,并提取当中的VirtualAddress值;定位IMAGE结构,检查Original First Thunk值;判断是否为0,判断每个数组元素的元素值;遍历DLL引入函数,反复循环计算直到数组底部。相关调阅命令如图2所示。

3.3 00A规则生成器

00A规则生成器需要通过Apriori算法才能实现相关功能,具体步骤为:通过Apriori算法计算出00A频繁集;判断00A频繁集,如果oc%

本文采用00A⁃FP⁃growh算法代替00A⁃Apriori算法进行数据库扫描,提高了规则生成器的运行效率,降低了运行空间。其中对00A⁃FP⁃growh算法的描述如下:使用FP树挖掘频繁模式;将数据表SignatureDT输入到特征数据库DMAV⁃DB中;输出频繁模式完全集;构造FP⁃数,并进行数据挖掘。其中,00A⁃FP⁃growh算法、00A⁃Apriori算法、00A⁃DMAV⁃FPgrowh算法的规则生成器效率对比如表3所示。

4 实验结果及分析

本文对5 611个样本训练集和1 500个样本测试集进行实验分析。其中,训练集中的病毒主要有木马病毒、后门病毒、蠕虫病毒等互联网常见病毒。

4.1 变形病毒的检测及结果分析

通过DMAV病毒检测系统对病毒样本进行了扫描检测,得到了变形病毒的检测结果,如表4所示。通过表中的检测结果可以看出,DMAV病毒检测系统对变形病毒具有较高精度的检测效果。

4.2 未知病毒的检测及结果分析

对未知病毒的检测分析,本文采用DMAV系统和其他病毒扫描软件进行对比分析,病毒样本加入了全新的1 000个特征病毒,检测结果如表5所示。通过对比分析可以发现,利用00A挖掘算法开发的DMAV病毒检测系统对未知病毒的防御能力较其他杀毒软件有明显的优势,病毒检测的准确度和检测效率都有明显提高。其中,DMAV病毒检测系统的杀毒范围达到了92%,较其他杀毒软件提高20%左右。

5 结 论

本文首先简要介绍了数据挖掘的定义、分类、功能及发展应用趋势,其中数据挖掘的操作过程为:数据收集→数据预处理和数据清洗→数据挖掘→模型建立→模型评价。其次简要介绍了病毒的种类、特点和常见攻击方式,并对病毒产生的四个阶段的攻击方法和特点进行了分析,同时介绍了加密、程序演化、重定位三种常见的病毒变形技术。在此基础上,本文利用PE文件剖析器、00A规则生成器、可疑文件扫描器按照主动防御系统原理,生成了基于数据挖掘技术的DMAV病毒主动防御系统。通过对比不同杀毒软件的变形病毒、未知病毒检测效果,发现新设计的DMAV病毒主动防御系统较其他杀毒软件杀毒范围更广、效率更高。

参考文献

[1] 梁雪霆.数据挖掘技术的计算机网络病毒防御技术研究[J].科技经济市场,2016(1):25.

[2] 陈春.基于数据挖掘技术的计算机网络病毒防御分析[J].信息通信,2015(5):121⁃122.

[3] 黄伟杰.基于主动贝叶斯分类器检测未知恶意可执行代码的研究与实现[D].桂林:广西师范大学,2002.

[4] 黄小霞.电厂信息网络安全分析[D].西安:西安理工大学,2003.

[5] 王丽苹.自适应的分布式网络入侵检测及防御系统的研究与实现[D].西安:西北大学,2004.

[6] 王莉娜.分布式蠕虫检测与主动防御系统的研究与实现[D].西安:西北大学,2005.

[7] 潘凤.基于数据挖掘技术的安全事件分析平台的研究与设计[D].成都:成都理工大学,2009.

[8] 李智勇.数据挖掘在计算机网络病毒防御中的应用探究[J].电子测试,2014(12):46⁃48.

[9] 张铮.基于贝叶斯分类的入侵检测规则学习模型的研究与实现[D].南京:南京航空航天大学,2007.

[10] 符广全.基于Honeyfarm的蠕虫主动防御系统的研究与实现[D].苏州:苏州大学,2006.

[11] 王旭.基于增量式关联规则挖掘算法的研究及其在手机病毒检测中的应用[D].北京:北京邮电大学,2013.

[12] 谢方方.基于距离的孤立点挖掘在计算机取证中的应用研究[D].济南:山东师范大学,2014.

[13] 刘志祥.网络环境下计算机病毒的检测与防御技术研究[D].武汉:华中科技大学,2009.

推荐访问: 技术 计算机网络 防御 数据挖掘 探索