一种混合模式的恶意网页检测系统_第1页
一种混合模式的恶意网页检测系统_第2页
一种混合模式的恶意网页检测系统_第3页
一种混合模式的恶意网页检测系统_第4页
一种混合模式的恶意网页检测系统_第5页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种混合模式的恶意网页检测系统

0静态特征提取近年来,web已成为传播恶意软件(特洛伊木马、间谍软件、广告软件、蠕虫软件、rootkit等)的主要方式之一。根据微软最新发布的2008下半年度安全资情报告当前的检测方法大致可以分为两类:基于静态分析或动态执行的方法。静态分析的方法虽然有较高的检测速率,但恶意网页脚本通常会采用代码模糊变形和加密的手段改变代码的静态特征来躲避检测,因此单纯使用静态分析的方式因为很难获得较高准确率而无法在实际应用中部署。使用虚拟机环境动态执行的方法可以实现高准确率的检测,但在客户虚拟机外部即虚拟机监控层(virtualmachinemonitor,VMM)重构客户虚拟机操作系统API级语义是一项非常困难的工作,该问题也被虚拟机内检测(virtualmachineintrospection,VMI)研究领域称之为语义隔阂Moshchuk等人进行了基于动态执行的网页传播间谍程序检测研究此外,Christian等人提出了一种采用数据挖掘算法对网页静态属性进行特征提取建立分类模型的检测方法1恶意攻击技术对隐蔽下载的过程中浏览器主机内发生一系列会话事件做如下定义:E1自动重定向跳转;E2用户浏览器信息提取;E3客户端漏洞利用尝试;E4恶意程序下载;E5恶意程序安装;E6代码变形和加密变换。典型的隐蔽下载过程包含的会话事件模型如图1所示。特定的隐蔽下载可能会包含该模型中的全部或部分事件序列。当用户访问了包含恶意脚本的网页后,内嵌的脚本会引起浏览器自动重定向跳转到包含有漏洞利用脚本的服务器(E1);然后,脚本会校验用户浏览器的版本信息以及系统信息并进行系统可能存在的漏洞类型探测(E2);接着,恶意脚本会逐一进行系统漏洞利用尝试(E3);一旦漏洞利用成功获得了主机控制权后,恶意网页脚本会进行恶意程序的下载(E4),以及恶意程序的执行和安装(E5);整个会话过程中,为了逃避检测系统,某些步骤可能还会包括代码变形和加密变换过程(E6)。Web应用为了给用户提供更丰富的内容以及提高网页与用户交互性,类似于Javascript,ActiveXcontrol和多媒体播放等网页动态技术被广泛采用。而这些技术使得Web浏览器可以执行远程的脚本代码,为恶意的远程脚本执行提供了攻击通道,也是浏览器漏洞利用攻击的根源所在。目前恶意隐蔽下载密切相关的动态脚本技术主要有以下几种:(1)从站点外包含Js文件;(2)脚本向HTML文档中动态写入或执行字符内容(如document.write(),eval());(3)Javascript与activeXControl控件直接交互;(4)多态的编码方法。3种典型的攻击场景如图2所示。2基于相关性文本跟踪的检测算法2.1静态-动态混合检测框架根据上文描述的攻击模型,在各个攻击步骤中网页所表现出的静态特征(网页源码结构)以及动态执行特征(浏览器端事件序列),我们提出了一种静态-动态混合的检测框架,如图3所示。系统采用了二级串联结构。爬虫模块收集并下载待检测的网页文本;静态分析模块采用基于规则的分类模型对下载的网页文本进行离线分析;被分类器标记为可疑的url,将提交至第二级的基于虚拟机动态执行的验证模块进行验证,经动态执行验证的恶意网页文件和动态执行产生的触发事件序列记录将被保存在恶意网页数据库中,作为后续研究的资源。2.2httrack技术在图1给出的攻击会话模型中,恶意行为对应的静态特征属性分布在多个不同域名的相关网页集合里,而目前已知的基于数据挖掘的静态检测方法因此,我们提出了关联文件追踪合并的数据集采集方法,并将其应用于基于规则的分类器中。静态检测数据流图如图4所示。Seeder模块产生需要被检测的网站域名以及网页的url。爬虫模块采用了开源项目httrack作为基础,通过修改HTMLParser代码,仅提取网站三级目录以内的锚链接(如href)并将该类url标记为S,因为该类链接需要用户交互才会跳转,我们将其归类为“静态”链接。此外,攻击者为了达到最大化的攻击效率,大部分包含恶意脚本的页面存在靠近网站顶层的页面中以下我们对关联文本追踪合并技术做形式化描述:定义1待检测的HTML网页文档D对应的检测对象表示为一个五元组∑=<R,I,P,O,D>,其中R为网页文档D中自动跳转关系的集合,I为网页文档D中包含远程Js文件的关系集合。P为网页文档D中包含的JScript代码段的集合。O为网页文档D中包含的代码模糊与变形的代码段集合。网页文档D以及集合P,O中元素均有属性字段domain,其中domain指代元素所在的服务器域名,定义函数关系运算f同理,有:定义2五元组∑=<R,I,P,O,D>,则∀a∈(R∪I),f定义3∑如图5所示,在预处理模块中,对S类的网页文档D在数据库中进行关联运算得到∑2.3文本关联运算用于建立分类模型的数据集是2008年12月至2009年4月间收集的3143例恶意网页样本和12200例良性页面。我们应用文中描述的关联文本追踪合并的方法,对待检测的页面进行属性提取。一些符号的定义如表1所示。对待检测的S类的网页文档D在做文本关联运算得到∑系统使用了RIPPER算法来建立分类规则。RIPPER直接在数据集上顺序覆盖的算法逐一生成规则。我们对数据集使用了5折交叉验证,最后得出的性能预估为:有82.5%的恶意网页能被准确分类为恶意,98.5%的良性网页可以被认定为良性网页。以下列出了我们提取的分类规则集:2.4检测机制和检测框架在虚拟机环境中驱动Web浏览器(如InternetExplorer)模拟人机交互网页访问,并跟踪监控恶意网页脚本执行引起的虚拟机环境状态改变,已经被很多系统所应用系统在开源项目Wine基础上进行了扩展和修改。Wine项目在Linux环境中实现了一个WindowsAPI兼容层,通过对Windows操作系统的API层与Linux系统调用的转译,为Linux平台提供了Windows应用程序的执行环境。系统由两个层次构成:执行检测任务的Web浏览器和提供Windows环境仿真层的Wineclient作为普通的进程运行在Linux主机上,这种架构为恶意程序执行检测提供的很强的隔离性,因为利用Windows系统漏洞下载的恶意程序是无法直接在Linux环境下运行的。WineServer实现了WindowsAPI与Linux系统调用层直接的转译,使得IE浏览器获得近乎直接运行于Windows平台的性能;同时,通过对Wine代码的修改,我们增加了VMInstanceDispatcher模块,使得WineServer支持多个WineClient实例以支持多个url并行检测模式,提高检测的吞吐率。而且对每个运行的WineClient实例,建立独立执行环境,即为每个实例提供独立的隔离性。动态分析模块监测操作系统的触发事件和与之对应的Windows系统调用,以及在WineServer层进行API转译模块内部署的检测入口点如表3所示。并将每个恶意触发事件与文中提出的恶意攻击会话驱动模型建立了对应关系。例如在攻击会话模型的最后阶段E5执行和安装恶意程序,那么可能会触发M网页动态执行过程中在操作系统中产生可能的恶意触发条件记为M定义4={=0;=1,…,7},集合S的幂集表示为P(S),则TotalScore为采用这种计分规则,若被检测的页面执行中引起不同类型的触发事件,将导致TotalScore以非线性的形式迅速增加;而同类型的触发条件序列只会引起总分的线性慢速增加。这种计分方式能很好的描述多种不同种类的触发事件预示着更明显的恶意攻击行为特征,因此获得非线性的快速计分累计;单一同类型的触发事件序列只提供较弱的恶意攻击特征实证,仅产生TotalScore的加法慢速增加。TotalScore计分规则的示例如图7所示,其中设置w(1),w(3),w(4),分别为10,30,20。触发事件序列为(M3结果与分析3.1静态-动态混合系统假设待检测的恶意页面url总数为N,c为恶意url占总检测样本的比率,通常为常数。第一级静态检测系统虚警率和漏警率分别表示为FPR由于c可视为常量,因此静态-动态混合系统url检测平均时间由一级检测系统虚警率FPR在二级的检测系统中,根据一级和二级的检测分类混淆矩阵可推导出如下的关系而FP将式(5)~(8)分别代入式(9)、(10)。可以推导出混合系统的精度和召回率如式(11)、(12)所示。3.2检测性能分析为了获得更准确的性能评价结果,依据实际的网络环境中大约有99.95%的良性网页和0.05%的恶意网页的比例在第一级的检测中,有7315个网页被分类为恶意网页,其中有179个网页实际为恶意。将第一次检测分类为恶意网页的url进行二级的动态验证,在检测中,有168个网页个网页被鉴定为恶意网页,而有11个实际为恶意网页的url检测结果为阴性。而对第二级系统误判为阴性的11例恶意网页样本进行手动分析后发现,有6例为利用Mozilla浏览器相关漏洞实施的隐蔽下载攻击,另外2例因为检测系统中未安装相应的包含漏洞的控件而导致的误判。因此,针对Windows和IE浏览器相关漏洞进行攻击的网页,该系统实际的检测效率应比表4所示的更高。若在动态检测检测环境中增加更多的包含漏洞的浏览器插件,将会提高二级和混合系统的检测准确率依据对二级系统检测时间的记录,可分别计算出静态检测系统,动态检测系统以及混合系统的检测吞吐率如表4所示。应用式(4)推导出的混合系统吞吐率与实际测量的混合系统吞吐率完全吻合。3.3静态系统检测效率比较为了评估基于关联文本跟踪合并技术对数据挖掘算法的属性提取对检测准确率的影响,对本文提出的静态检测方法与现有的静态系统检测效率进行比较,如表5所示,结果显示,该方法将大幅提高检测的准确率。对本文提出的基于轻量级的动态系统与基于全系统虚拟技术的检测系统的效率进行比较如表6所示,结果显示应用本文提出的轻量级级虚拟机方法将系统恢复时间减少至3秒,同时IE获得近乎直接在Windows主机上运行的速度,所以整体的检测吞吐率获得很大的提升。4基于vmm层的系统试验本文提出了一个静态-动态混合模式的恶意网页检测系统。该系统采用二级串联的检测方式,大幅的提高了恶意网页检测的性能。关联文本追踪合并的思想应用于基于规则的分类器属性提取中,大大提高了静态检测算法的准确率。将设计的轻量级虚拟机来代替传统的系统级虚拟化检测进行的动态分析,消除了采用指令级转换的全系统虚拟机的3个限制

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论