(计算机应用技术专业论文)基于web日志分析的预警模型研究.pdf_第1页
(计算机应用技术专业论文)基于web日志分析的预警模型研究.pdf_第2页
(计算机应用技术专业论文)基于web日志分析的预警模型研究.pdf_第3页
(计算机应用技术专业论文)基于web日志分析的预警模型研究.pdf_第4页
(计算机应用技术专业论文)基于web日志分析的预警模型研究.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

长春工业大学顺上学位论文 摘要 随着i n t e r a c t 规模的不断扩大、应用不断增多,网络已经深入到我们生活的各方面, 给我们日常生活带来极大的方便,许多机构为了保护系统的安全性,采用了防火墙、 入侵检测和病毒保护系统等行之有效的安全措施;但是,随着计算机技术的发展,入 侵攻击手段日趋高明;再好的安全措施也不能确保整个网络系统的安全。因此,机构 应有能力在系统被攻击时能方便而快速地发现对方的攻击行为并采取措施,处理这种 紧急事务的关键之就是利用各种系统记录它们所发生的事件的日志。分析日志数据 己成为系统管理员评估系统运行状况和及时发现入侵者入侵行为的重要手段。 文章的研究重点是基于w e b 日志分析基础上的安全预警模型。文中提出了网站逻 辑模型和用户访问模型的概念。网站逻辑模型形式化表述网站的逻辑结构;用户访问 模型描述用户对w e b 站点进行访问的路线。本文的主要工作包括以下三个方面: 第一,通过h t t p 下载得到w e b 站点页面的源文件,分析源文件中超链接和服务器 控件所包含的u r l ,确定这些u r l 与当前页面的链接关系,对每个u r l 分别进行上述分 析,由分析结果获得网站逻辑模型。 第二,针对w e b 日志数据进行净化、识别等预处理后,在传统数据挖掘方法基础 上,改进挖掘算法并分析日志数据,总结用户频繁访问路径,以此作为用户访问模型。 第三,以图的形式描述网站逻辑模型和用户访问模型,并比较二者之间的异同。 如果用户访问路线图是网站逻辑结构图的子图,可以认定该用户活动属于正常访问, 否则即可判定用户访问行为异常,系统发出预警信息。 关键词:网站逻辑模型用户访问模型w e b 日志分析用户频繁访问路径 长春工业大学顿上学位论文 a b s t r a c t a c c o r d i n ga st h es c a l eo fi n t e r n e te n l a r g e sa n dt h ea p p l i c a t i o no fi n t e m e ti n c r e a s i n ga t e v e r ym o m e n t ,n e t w o r kc o m e st oe v e r ya s p e c to fo u rl i f ea n dg i v e sg r e a tc o n v e n i e n c et oo u r l i f e f o rp r o t e c t i n gs e c u r i t yo ft h es y s t e m , m a n yi n s t i t u t i o n su s es e c u r i t ym e a s u r es u c ha s f k e w a l l i n t r u s i o nd e t e c t i o na n dv i r u sp r o t e c t i o ns o f t w a r e b u t , a l o n gw i t i lt h ed e v e l o p m e n t o fc o m p u t e rt c c h n i c a l ,t h ea t t a c kr e c a l l sd e v e l o p 孕a d l l a l ;t h es e c u r i t ym e a s u r ec a n ti n s u r e t h ew h o l es a f e t yo fn e t w o r ks y s t e m t h e r e f o r e ,t h eo r g a n i z a t i o ns h o u l dh a v et h ea b i l i t yt o f i n da t t a c kb e h a v i o rq u i c k l ya n dm a k er e a c t i o nw h i l et h es y s t e mi sa t t a c k e d ;t h ek e ym e a s u r e t h a th a n d l e st h eb u s i n e s si su s ea l lk i n do fs y s t e m st or e c o r dw h a th a p p e n s a n a l y z i n gl o g d a t ah a sb c c o m e 柚i m p o r t a n tm e t h o dt oe v a l u a t et h es y s t e mc o n d i t i o na n dd i s c o v e rt h e i n t r u s i o n t h ek e yp o i n to fr e s e a r c hi nt h ea r t i c l ei st h es e c u r i t ) ,m o d e lb a s e do na n a l y s i so fw e b l o g t h ea r t i c l ep r o p o s e dt h ec o n c e p to fw e b s i t el o g i cm o d e lm a du s e ra t c c e s sm o d e l t h e w e b s i t el c l g i cm o d e lf o r m a l i z e st h el o # c a la r c h i t e c t u r eo fw e b s i t ea n dt h eu s e ra c c e s sm o d e l d e f i n e st h er o u t eo fu s e rv i s i t i n gt ot h ew e b s i t e t h em a i nw o r ko ft h ea r t i c l ei n c l u d e f o l l o w i n gt h r e ea s p e c t s : f i r s t , w ec a l lo b t a i nt h es o u r c ef i l eo fp a g et h r o u g ht h eh t t pd o w n l o a d i n g d e s c r i b e t h el i n kr e l a t i o n sb e t w e e nt h eu r la n dt h ec u r r e n tp a g eb ya n a l y s i st ot h eu r lw h i c hi n h y p e r l m ko f s o u r c ef i l ea n ds e r v e rc o n t r o l s t h e nw ec a na n a l y z er e c u r s i v ee a c hu r ll i k eo n s t a t e da n d g e tt h ew e b s i t el o g i cm o d e l s e c o n d ,a f t e rp r e p r o c e s s i n gt h ed a t ai nw e bl o g ,w ei m p r o v et h ea l g o r i t h mb a s eo n w a d i t i o n a ld a t am i n i n gm e t h o da n da n a l y z et h ed a t aa n ds u m m a r i z et h eu s e rf r e q u e n t l y a c c e s sp a t h sa n do b t a i nt h eu s e ra c c e s sm o d e l t h i r d ,t h ew e b s i t el o g i cm o d e la n dt h eu s e ra c c e s sm o d e la r eb o t hi n d i c a t e db yg r a p h w ec a nc o m p a r et h ed i f f e r e n c eb e t w e e nt w og r a p h s i f t h eu s e ra c c e s sg r a p hi ss u bg r a p ho f t h ew e b s i t el o g i c a lg r a p h ,w ec o n c l u d et h a tt h eu s e l - sa c t i v i t yi sn o r m a l ,o t h e r w i s ec o n c l u d e t h a tt h eu s e r sb e h a v i o ri su n u s u a l t h es y s t e mg i v e so f f w a m i n gi n f o r m a t i o n k e yw o r d s :w e b s i t el o g i cm o d e l ;l a s e ra c c e s sm o d e l ;w e bl o ga n a l y s i s ;u s e rf r e q u e n t l y a c c e s s e dp a t h s 长春工业大学顿上学位论文 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作 所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体己经 发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中 以明确方式标明。本声明的法律结果由本人承担。 4 1 论文作者签名 f 明 日期:三同- 7 年歹月了f 日 长春工业大学顿上学位论文 1 1 论文选题的背景 第一章绪论 随着计算机网络的不断发展,网络应用对网络安全性的要求越来越高,网络安全 已经成为不容忽视的重要课题。然而,目前的网络安全状况却不容乐观。 首先,支撑计算机系统和网络的基础技术中存在着许多漏洞。除此之外,应用系 统和计算机网络的使用过程中也存在着许多的安全漏洞。除了这些容易观察到的问题 以外,在基本的操作系统、应用程序和协议的设计与实现中还存在一些基本的漏洞。 通过非法利用这些漏洞,攻击者能盗走数据、控制系统或者进行报复性破坏“1 。 从目前报道来看,在各个领域的计算机犯罪和网络侵权方面,无论数量、手段, 还是性质、规模,已经到了惊人的地步。据有关方面统计,目前美国每年由于网络安 全问题而遭受的经济损失超过1 7 0 亿美元,德国、英国也均在数十亿美元以上,法国 为1 0 0 亿法郎,日本、新加坡问题也很严重。在国际刑法界列举的现代社会新型犯罪 排行榜上,计算机犯罪已经名列榜首。2 0 0 3 年,c s i f b i 调查所接触的5 2 4 个组织中, 有5 6 “遇到过计算机安全事件。因为与互联网连接而成为频繁攻击点的组织连续3 年 不断增加;遭受拒绝服务攻击( d o s ) 的案例则从2 0 0 0 年的2 7 “1 上升到2 0 0 5 年的4 8 。 调查显示,5 2 1 个接受调查的组织中9 6 拥有网站,其中3 0 “3 提供电子商务服务,这 些网站在2 0 0 5 年1 年中有2 0 “1 发现未经许可入侵或无用网站现象。更令人不安的事, 有3 3 的组织说他们不知道自己的网站是否受到损害。据统计,全球平均每2 0 s 就发 生一次网上入侵事件,黑客一旦找到系统的薄弱环节,系统中的所有用户均会受到被 入侵的威胁。 不难发现,人们面i | 缶来自网络系统的安全威胁日益严重。网络安全问题已经成为 影响网络发展、特别是商业应用的主要问题,并直接威胁着国家和社会的安全。由此 可见,计算机网络安全问题已经不容忽视,解决安全问题的任务迫在眉睫、刻不容缓。 1 2 论文研究的目的和意义 随着因特网的迅速发展,信息安全和网络安全变得越来越重要。传统的入侵检测 方法可以实时性的检测针对计算机系统的可疑或者入侵行为,安全系统从一个或者多 个主机系统收集反应网络系统不同方面活动的审计数据,采用统计分析和基于规则的 分析手段对这些审计数据进行连续分析,然后对分析结果进行解析,再送往安全管理 员接口进行显示和分析。目前大量入侵检测系统都应用了数据挖掘技术,可以从海量 数据中提取出尽可能多的隐藏知识,从而为正确的判断提供依据。 基于w e b 服务器日志分析的网络安全预警机制,是通过对w e b 站点逻辑结构的分 长春工业大学颤上学位论文 析,抽象出安全状态下w e b 服务器提供的服务、正常访问活动以及应用系统正常活动 的模型;结合分析日志文件中的数据所确定的用户访问情况的模型,对两种模型的比 较结果进行分析确定w e b 站点是否处于安全状态。与现有基于数据挖掘的入侵检测 方法不同在于,无需通过训练数据生成规则,形成规则库,而是以日志信息的基本颗 粒为单位,构造具有渐进式、多层结构的分析模型。该模型将当前的w e b 日志记录作 为处理数据,发现网络访问的异常,运用模型分析找出异常根源,为进一步采取相应 处理措施提供依据。 本文基于对网页源文件和w e b 服务器的日志分析,给出了一种网络安全预警机制 利用该机制,力求在网络攻击发生的前期对目标网络即将面临的攻击做出预报,从而 为网络安全构筑第道防线,为构造动态的网络防御体系提供依据。 1 3 国内外有关研究现状 日志分析是评估系统运行状况和及时发现入侵者入侵行为的重要手段。现有的日 志分析方法多数应用于入侵检测系统中,按照以下三个方面进行分类研究。1 。 1 3 1 统计方法 利用统计方法分析日志,主要根据主机日志来定义正常用户的行为模式,这类方 法主要以s r i ( s t a n f o r dr e s e a r c hi n s t i t u t e ) 的i d e s ( i n t r u s i o nd e t e c t i o ne x p e r t s y s t e m ) 和h a y s t a c k 实验室的h a y s t a c k 为代表。系统历史日志经过一段时间的训练之 后,将当前的用户行为与统计出的用户行为模式进行比较以确定当前行为是否异常。 这类检测系统的基本思想可d e n n i n g 在1 9 8 6 年提出的基于系统行为检测的入侵模 型系统。通过对主机日志数据的分析,利用统计理论提取用户或系统正常行为的活动 简档( p r o f i l e ) ,建立起系统主体( 单个用户、一组用户、主机甚至是系统中的某个关 键的程序和文件等) 的正常行为活动简档:检测时,如果系统中的日志数据与己建立 的主体正常行为特征有较大出入,就认为系统遭到入侵。 基于统计的用户活动简档通常由主体特征变量的频度、均值、方差、被监控行为 属性变量的统计概率分布以及偏差等统计量来描述。典型的系统主体特征有:系统的 登陆与注销时间、资源被占用的时间以及处理机、内存和外设的使用情况等。基于统 计的用户活动简档的监测器,通过对主机目恚中的数据进行统计处理,并与描述主体 正常行为的活动简档进行比较,然后根据二者的偏差是否超过指定的阀值来进一步判 断、处理。 长春工业大学顿上学位论文 1 3 2 基于规则集的专家系统 此类方法主要应用于i d e s 、d i d s ( d i s t r i b u t e di n t r u s i o nd e t e c t i o ns y s t e m ) 、 w i s d o m s e n s e ( w & s ) 和入侵签名分析为代表。1 。与统计方法不同,基于规则集的专家 系统利用知识库中的一些规则与主机日志中的事件进行匹配以检测入侵事件。 基于规则集的入侵检测技术通过收集入侵攻击和系统缺陷的相关知识来构成入侵 检测系统中的知识库,然后利用这些知识寻找那些企图利用这些系统缺陷的攻击行为。 在实现上,基于规则集的入侵检测系统只是在表示入侵模式( 知识) 的方式以及 在主机日志中检查入侵模式的机制上有所区别。主要实现技术可分为:专家系统、入 侵签名分析、状态迁移分析或者模式匹配等”。 1 3 3 机器学习 利用机器学习方法分析日志,并将其应用到入侵检测中目前还是相对比较新的一 种方法,利用主机日志的信息来学习用户的正常行为模式,通过主机日志中的历史事 件用一些学习算法来预测未来的用户行为,如果当前用户行为与预测结果相比较,出现 比较大的出入则认为是入侵事件。机器学习与统计方法不同之处在于:统计方法是统 计主机日志的历史数据得到正常的用户行为模式,并将其与当前用户行为比较;而机 器学习是学习历史数据来预测未来的用户行为并与当前用户行为进行比较来分析入侵 事件。t e r r a n 和c a r l ae b r o d l e y 在这方面做了不少工作。1 。 1 3 4 现有的日志分析技术存在的一些问题 目前,对于现有日志分析技术的研究已经到了一个比较成熟的阶段,很多日志分 析软件都能够实现基本的分析功能,但是,由于网络的不确定性因素很多,因此,日 志分析中仍然存在许多需要解决的问题。“。 ( 1 ) 不可记录的站点访问量:通常日志文件分析工具假定日志完全记录了访问信 息,但由于i n t e r n e t 上存在着各种各样的缓存机制,因此这种假定是不成立的。据统 计,在有些情况下,缓存能提供2 0 到5 0 的请求服务,这就意味着分析工具丢掉了很 多没有被记录的请求。 ( 2 ) 不能计算用户数:除非分析工具能够充分利用本身的用户跟踪机制或者解释一 个正在使用的w e b 站点,否则唯一用户的计数将超过其实际数目。这个问题在很大程 度上由前面提到的动态i p 地址引起。 ( 3 ) 计算页面逗留时间:用户在一个页面逗留的时间是用下一次访问时间与当前时 间之差。在这段时间中,用户完全有可能做其它事情。缓存也有可能使得从日志中看 3 长春工业大学顿上学位论文 来用户在两个页面浏览。另外,由于在用户离开站点时还没有可信的方法来记录,也 就没有办法计算用户在最后页面逗留的时间。 ( 4 ) 计算访问时间:访问时间通常是访问第一个页面和最后一个页面的时间差。由 于无法获得用户离开站点的准确时间,所以真实访问时间难以确定。 ( 5 ) 定义一个会话访问:“会话”和“访问”是用户所做出的完整请求的集合,但 问题在于用户突然离开时根本无法定义最后的会话。大多数工具都假定在一个时间段 内( 通常为1 5 3 0 分钟) 用户没有活动的话,就断定会话结束,用户己经离开。 由于传统的日志分析技术存在上述一些问题,造成分析结果不够精确,因此需要 在日志分析之前对日志中的数据进行预处理。清除与日志分析不相关的数据,适当增 加由于缓存等原因遗漏掉的数据,使得分析结果尽可能真实的反映用户的访问活动。 4 长春工业大学顿上学位论文 第二章论文相关技术综述 2 1 超文本传输协议h t t p 简介 2 2 1 统一资源定位符 每个w e b 页分配了一个唯一名称用来标识该页,该名称被称为统一资源定位符 ( u n i f o r mr e s o u r c el o c a t o r , u r l ) ,以用来访问条目的方案作为起始。实际上该方案指定 了传输协议,u r l 其余部分的格式则依赖于方案。例如,在h t t p 方案后面的u r l 有以 下形式: h t t p :h o s t n a m e :p o r t p a t h :d a r a m e t e r s ? q u e r y 其中,方括号代表可选项,h o s t n a m e 字符串指定作为服务器的那台计算机的域名 或口地址;p o r t 是可选的协议端口,只有在服务器不使用熟知端口的情况下才使用这 个选项;p a t h 是识别服务器某个文档的字符串;p a r a m e t e r s 是可选的字符串,指定由用 户提供的可选参数:? q u e r y 是当浏览器发送询问时使用的可选字符串。 2 2 2 超文本传输协议 浏览器和w e b 服务器之间进行通信所使用的协议被称为超文本传输协议 ( h y p e r t e x t t r a n s f e r p r o t o c 0 1 ) 。h t r p 协议有如下特点“: ( 1 ) 应用层( a p p l i c a t i o nl e v e l ) 。 h t t p 在应用层上操作,它采用一种稳定的、面向连接的传输协议,如t c p ,但 是不提供可靠性或重传机制。 ( 2 ) 请求响应( r e q u e s t r e s p o n s e ) 一旦建立了传输会话,一端( 通常是客户端) 向响应的另一端发送h r r p 请求。 ( 3 ) 无状态( s t a t e l e s s ) 每个h t t p 请求都是自包含的,服务器不保留以前的请求或会话的历史记录。 ( 4 ) 双向传输( b i d i r e c t i o n a lt r a n s f e r ) 大多数情况下,浏览器请求w e b 页面,服务器把副本传输给浏览器。h t t p 协议 也允许浏览器向服务器传输( 如用户在提交表单时) 。 ( 5 ) 协商能力( c a p a b i l i t yn e g o t i a t i o n ) h t t p 允许浏览器和服务器协商一些细节,如在传输中使用的字符集。发送方指定 它提供的能力,接收方指定它接收能力。 ( 6 ) 支持高速缓存( s u p p o r tf o rc a c h i n g ) 为了减少响应时间,浏览器将它接收的每个w e b 页的副本放入高速缓存。如果用 5 长春工业大学顿上学位论文 户再次请求该页,则h 1 v r p 允许浏览器询问服务器,确定从存储在高速缓存之后该页 内容是否发生改变。 ( 7 ) 支持中介( s u p p o r tf o ri n t e r m e d i a r i e s ) h t t p 允许从浏览器到服务器之问路径上的计算机作为代理服务器,将w e b 页放 入高速缓存并从中应答浏览器的请求。 2 2 超文本语言h t 儿简介 随着i n t e r n e t 的迅速发展,计算机标记语言以其自身独有的特点为信息共享提供 了许多便利,从而得到了用户的广泛重视,标记语言对促进i n t e r n e t 的发展也有着不 可磨灭的功劳,现就标记语言的特点、发展历史作一些简单的介绍嘲。 超文本标记语言h t 儿( h y p e rt e x tm a r k u pl a n g u a g e ) 是一种基于建立超文本超媒 体文档的标记语言,是s g m l 的一种应用,它具有通用的语义,适合于表示各系统域的 信息。h t m l 的应用十分广泛,它可用于描述超文本化的新闻、邮件与文档,超媒体文 档,操作菜单,数据库查询结果,嵌入图形的结构化文档等。 h t m l 提供如下的基本功能: ( 1 ) 发布带有标题、文本、表格、列表、图像等在线文档。 ( 2 】通过超级链接来获取在线信息。 ( 3 ) 设计各种表单来提交或查询信息。 ( 4 ) 在文档中直接包含电子表格、视频流、音频流等高级应用程序。 h t m l 还可以通过u r l 语法,描述跨越i n t e r n e t 各节点的超级链接,简单而实用的 实现跨整个i n t e r n e t 空间的数据存取,并且不因系统的不同而破坏文档的完整性。h t m l 最初是由t i mb e r n e rl e e 在c e r n 时开发,9 0 年代随着w o r l dw i d ew e b 的爆炸性增长 和n c s a 开发的m o s a i c 浏览器而流行于世界。h t m l 也在各方面都扩展着,1 9 9 7 年1 月, 万维网协会( w 3 c ) 的h t m l 工作组发布了h t m l 3 2 ,目前统一的版本是h t m l 4 0 。此版本 除了文本、多媒体和超级链接功能外,还支持更多的多媒体选项、脚本语言、样式表、 更好的打印功能和其它功能。但是,目前多数人认为,h t m l 还不稳定,此外,由于h t m l 对超级链接支持不足,以及缺乏空间立体描述,处理图形、图像、音频、视频等多媒 体能力较弱,图文混排功能简单,没有时间信息,不能表示多种媒体的同步关系等。 尽管如此,h t m l 仍然是目前最为广泛使用的标记语言。因此本文选择h t m l 页面做信息 自主抽取的研究。下面就h t m l 的语言结构做以下分析: h t m l 文档是由标记和元素组成的。h t m l 标记符确定了浏览器所显示文档元素的格 式,它由左尖括号和右尖括号组成。如 是位于h t m l 文档中的第一个条目,大多 数h t m l 标记是成对出现的,它们分别用作开始标记和结束标记,h t m l 的结束标记与开 始标记的唯一区别是多了个斜杠。h t m l 文档由标题( h e a d ) 和主体( b o d y ) 两部分组成。 6 长春工业大学顿上学位论文 标题部分包含文档的标题,主体部分包含文档的内容。为标明h t m l 文档标题部分的起 始和结束,可以使用标记( h e a d 和 。( b o d y 和 标明文档主体部分的开 始和结束。 和 用于显示w e b 页面的标题。此外还有: ( 1 ) h t m l 基于文本的标记 此标记可以指定一个句子、短语、单词和单个字符以某种特殊形式显示。 标记用途 打开和关闭粗体显示 打开和关闭对指定文本的强调显示 打开和关闭斜体显示 打开和关闭下划线显示 ( 2 ) 标题标记 为了改进文档的组织方式,可以把大文档分成若干章节。在每一个开始部分放置 一个标题,告诉浏墅者该节所包含的内容。在h t m l 文档中,可以把标题分为六级。这 些标题是 , , , , , 。标记 是最大的标题,然后逐级变 小。一般用 标识主要的标题,使用其它标记表示子标题。 ( 3 ) 段标记 段标记 产生一个换行,但标记 与一般标记不同,它不需要 作为结束标 记。 ( 4 ) 加载图片标签 :将由s r c 属性所指定的图片加载到此页面中。 ( 5 ) 链接标签 :为超文本链接标记。 ( 6 ) 表 下面是一个简单表的定义: s a m p l et a b l e c o l u m n1h e a d e r c e l ld a t a c e l ld a t a 其中: 是标题标签 为行定义标签,( t h 为列标题标签, 为表数据标签。 7 长春工业大学顿上学位论文 2 3w w w 网页链接概述 再嘲网页是利用超文本标记语言( h t m l ) 编制起来并利用超文本链接面建立联系的 一种信息组织方式。w 聊网页只有通过与其他的网页及其自身内容的链接,网页才能相 互交换信息,扩大使用价值。网页的不同链接体现了不同的信息功能,具有不同的特征 和规律。对w w w 网页链接进行分析对安全审计工作也有巨大帮助,网页链接的结构可 以看作网络资源的拓扑结构,了解这些内容,为今后的安全分析工作打下良好基础。 目前w w w 网页主要是采用超文本的组织方式,由许多不同信息节点和链组成“1 。节 点分为链源和链宿,链源是链的开端,链宿是链的目标,它们是链形成的基础。链是特定 节点之间的信息联系,它以某种形式将一个节点和其他节点联系起来。网页链接的结构 由节点( n o d e ) 、热标( h o t s p o t ) 和链( 1 i n k ) 三部分组成。w 啊采用客户机服务器的体系 结构,通过超文本技术,将许多网页链接起来,提供给用户利用。超文本系统一般分为三 个层次: ( 1 ) 表现层 即用户接口,由运行在用户计算机上的客户浏览程序管理。 ( 2 ) 抽象机器层 存储节点和链。服务器提供客户的数据采用超文本标注语言,网络采用的通信协议 标准是超文本协议。 ( 3 ) 信息库层 由因特网上的各种服务器组成,负责提供各种各样的信息资源。w w w 的客户软件 ( w e b 浏览器) 在用户端提供统一管理各种媒体的界面,负责向服务器提出请求,解释和 定位资源,利用统一资源定位器管理有关信息资源。 2 4w e b 日志数据的预处理 在w e b 日志分析中,主要是提供面向用户的信息分析,所以首先要从w e b 日志中 对用户会话进行识别,以此作为信息分析的基础。用户会话是一个用户在规定时间内 请求的所有w e b 页面的集合,多个用户会话组成了用户会话文件。但是,由于本地缓 存以及代理服务器( p r o x y ) 的存在,使得w e b 日志中的数据并不精确,增大了用户会话 识别的难度。例如,大多数w e b 页面浏览器都提供了页面缓存机制,用于提高下载速 度,减少网络流量。这样,当用户点击了浏览器上的“后退”按钮时,的这一访问行 为并没有记录在w e b 服务器的日志中。代理服务器为了减少i n t e r n e t 的对外流量,需 要进行有效的c a c h e 管理,也会产生同样的问题。另外,连接到同一个代理服务器的 多个用户访问w e b 站点时,记录在站点日志中的是一个( 即代理服务器的) i p 地址, 因而无法有效地区分出其中每个用户的实际浏览行为”1 。目前人们提出了几种方法,试 s 长春工业大学顿上学位论文 图解决这一问题,但都有其缺陷。 一种方法是使用c o o k i e s 。网站可以在这些位于客户端的c o o k i e s 文件中插入有关 用户的个人信息,称为c o o k i e 数据,用来自动的跟踪用户的访问行为,这种方法引起 争议的最大原因是对个人空间以及个人隐私的侵犯,并且需要用户的配合,例如用户 可以删除此c o o k i e 文件或选择不使用这种功能”1 。另一种方法就是在浏览器端运行一 个j a v a 代理,通过该代理向w e b 服务器发送准确的用户浏览信息。这种方法潜在地也 需要用户的合作,选择执行该项功能。本文暂不讨论这几种方法。尽管存在着以上这 些技术原因所带来的复杂问题,我们仍然可以通过在预处理过程中运用合理的假设和 规则来尽可能的减少这些问题的影响。 w e b 日志数据预处理包括数据净化、用户识别、会话识别等步骤。对日志进行预处 理的结果将直接影响到分析工作的进行,关系到w e b 日志分析的质量”1 。 2 4 1 数据净化 数据净化是指删除掉w e b 服务器日志中与日志分析算法无关的数据。由于w e b 日 志分析的目的主要是获得用户的浏览行为,因此只有利用准确描述用户浏览行为的数 据进行挖掘,才能得出正确的规则和模式。 数据净化有两种类型,一种不需要对站点拓扑结构的了解“1 。例如,清除掉状态代 码为“4 x x ”的客户端错误和“5 x x ”的服务器错误记录。又如,w e br o b o t 是一种沿着 w e b 页面中的超链接在w w w 中自动漫游,并利用h t t p 协议连续的从不同的服务器中读 取w e b 页面的程序。因此,需要清除掉像w e bs p i d e r ,w e b c r a w l e r 等网络信息发现系 统在w e b 日志中留下的记录”1 。大多数的数据净化工作都需要了解站点的拓扑结构。例 如,用户在浏览页面时,如果页面中包含有图像、声音等特殊元素文件,那么由于盯t p 协议对于向每个w e b 服务器文件中提出的访问也会作为单独的记录添加到日志中,园 而可以认为它们与用户的浏览行为无关,需要将它们从原始日志中清除出去。简单的 办法是通过检查请求文件( r e q u e s t - u r l ) u r l 后缀,删除后缀 为g i f ( g i f ) 、j p g ( ,j p g 、j p e g 、j p e g ) 、b m p ( b m p ) 、,m a p 等文件。对一个主要 包含图像文件的站点,就不宜简单的采用上面的方法将其所有的图像文件删除,此时 应根据站点的结构决定是否保留其中的部分图像文件。 另外,如果用户打开了一个帧页,那么该页中所包含的各子页面也将记录在日志 中。和上面提到的特殊元素文件类似,需要将这些子页面的记录从日志中删除出去, 这里页需要参考站点文件的具体结构。1 。应该指出,使用帧页面会打乱用户正常的访问 模式,使用户无法正确识别出当前页面,页面的u r l 也不能正常工作,因此,站点应 尽量避免使用帧技术。此外,不同的动态生成页面可能是由一个服务器脚本生成,因 而也就是同一个服务器请求生成的。此时需要了解提交给生成动态页面的服务器脚本 9 长春工业大学顿上学位论文 的参数设置,或请求历史的信息,用来分辨一条服务器请求。但是诸如“c o u n t c g i ” 等脚本,和上面提到的图片文件类似,是在访问页面时自动下载的,由于它们仅仅起 到统计它们访问次数的作用,因而可以将这些记录从f e b 日志中清除掉“”。 用户发出请求的方法主要有g e t 、p o s t 、h e a d 三种。g e t 表示请求一个页面,并传 回所请求的全部资源,p o s t 多用于提交表单。h e a d 是用的最少的方法,它用于检查文 档是否存在,而并不要求返回该文档。所以,我们可以将日志中请求方法是p o s t 和h e a d 的记录删除。 日志中有些数据项对以后的数据预处理和日志分析是无用的,如使用的协议及其 版本号、请求方法、状态码等,可以从属性中删除来降低要分析的数据的维数“。除 了上面介绍的内容,还要规范u r l 。绝大多数的服务器把对目录的请求理解为对 。d e f a u l t h t m ”或“i n d e x h t m ”的缺省请求。另外在u r l 前的w w w 有时也是可选的。 例如:w w w i c t a c c n 、i c t a c c n 、嗍i c t a c o n 、邢i c t a c c n i n d e x h t m 、。 在日志中都是对同一个文件的访问。所以,必须为u r l 选择一个公共的形式。 2 4 2 用户识别 w e b 日志分析主要目的是获得用户访问模式,所以必须识别出用户的具体访问序 列。但是,由于本地缓存、代理服务器、防火墙的存在,给用户识别带来了很大的困 难“3 : ( 1 ) 单个i p 地址多个服务器进程 例如,i s p 利用p r o x y 代理为用户提供服务,这样,同一个i p 访问同一个w e b 站 点( 同时) ,很可能是不同的用户。 ( 2 ) 多个i p 地址单个服务器进程 有些i s p 对来自同一个用户的请求,会随机分配若干个i p 中的一个给用户,这样, 一个用户进程会有不同的i p 。 ( 3 ) 多个i p 地址单个用户 从不同机器上访问w e b 的同一个用户因为不同的进程而拥有不同的i p ,这使得追 踪同一个用户的重复访问变得复杂。 ( 4 ) 多服务器进程单个用户 这种情况发生在用户打开多个浏览器窗口,同时对同个站点的不同w e b 页面进 行访问。 ( 5 ) 单客户多用户 多个人使用同台机器,如家庭或公用计算机。 这里我们给出一些假设,用来帮助用户识别。 假设1 : l o 长春工业大学顿上学位论文 如果用户访问日志中两条记录的i p 地址相同,但是代理日志表明用户所使用的操 作系统或浏览器类型不同,那么就认为这两条记录是来源于不同用户发出的请求。 假设2 : 如果访问日志中两条记录的i p 地址相同,但是用户当前请求的页面同用户已浏览 的页面之间没有直接链接关系,则认为这两条日志记录是由不同的用户发出的请求。 假设1 根据代理服务器下的用户代理进行划分,可以部分地区别出通过同一个代 理服务器访问站点的用户。假设2 将访问日志、引用日志和站点的结构相结合,并考 虑到本地缓存的影响,提高用户的浏览路径区别出具有i p 地址的不同用户。这两个假 设对更好地识别用户起到了辅助作用。 2 4 3 会话识别 在跨越时间区段较大的w e b 服务器日志中,用户有可能多次访问了该站点。会话 识别是将用户的访问记录分为单个的会话( s e s s i o n ) ,表示用户对站点的一次连续浏览 行为。进行会话识别最简单的方法是利用超时,如果用户对两页面的请求时刻的差超 过一定界限,就认为用户又开始了一个新的会话。有研究表明,通常用户浏览同一个 页面时间不会超过3 0 分钟”,因此可以取3 0 分钟作为超时界限。 2 4 4 路径完善 能够可靠识别不同用户的访问操作的另一个关键就是确定日志中是否有用户的请 求没有被记录”1 。路径完善的任务就是将遗漏的请求补充到日志文件中。由于本地高速 缓存的存在,用户浏览网页时,通过使用浏览器上的“b a c k ”按钮,得到的是本地缓 存中的页面,这一请求不会被记录在日志中,导致用户当前请求页面和已请求的最后 一个页面间没有超链接关系。可以通过检查日志记录中参考页的内容,确定当前请求 来自哪一页,若引用页内容不完整,可以借助站点的拓扑结构进行分析。如果,用户 访问的历史记录中有多个页面包含与当前请求页面的链接,则将请求时间最接近当前 请求页的w e b 页作为其来源,添加到用户会话中。 长春工业大学顿上学位论文 第三章基于w e b 日志分析的预警模型系统 本文讨论的安全预警模型主要包括两部分:网站逻辑模型和用户访问模型,全文 的研究重点围绕着上述两个模型进行。第二章已经介绍基本相关技术,在此基础上, 本章对网站逻辑模型以及用户访问模型的构造,系统的整体设计进行讨论。 3 1 网站逻辑模型 3 。1 。1 基本概念 在定义网站逻辑模型之前,首先介绍一些w 3 c 国际组织已经为w e b 访问信息定 义的一些基本概念,这些概念贯穿本文的所有章节,是进行w e b 页面分析的基础。 概念3 1 用户( u s e t ) :用户被定义为一个通过浏览器访问一个或多个w e b 服务器访问 者。对服务器而言,即使通过c o o k i e 也很难唯一和重复地识别一个用户。例 如一个用户通过机台p c 机访问w e b ;或者在一台机器上使用多个浏览器;或 者几个用户使用一台机器上的一个浏览器进行浏览。 概念3 2 页面文件( p a g ef i l e ) :个页面文件是通过h r r p 请求发给用户的文件。页面 文件一般静态存储于w e b 服务器上。一些动态页面文件源于数据库或 j a v a s c r i p t ,p h p ,a s p ,j s p 等技术,由w e b 服务器动态生成响应用户的请求。 概念3 3 客户端浏览器( c l i e n tb r o w s e r ) :是指具有一个独立口地址的,用户通过其访 问w e b 服务器的浏览器软件。客户端包括代理服务器软件。 概念3 4w e b 服务器( w e bs e r v e r ) :是指运行在互联网服务提供方主机上的w w w 服务 软件,目的是响应客户端发来的h t t p 请求。 概念3 5 用户访问会话( u s e rs e s s i o n ) :是指由一个用户发出的对w e b 世界的一次连续 h r r p 请求序列。 概念3 6 访问片段( e p i s o d e ) :任何有意义的用户访问会话或用户访问事务的子集,被 称为访问片段。 3 1 2 网站逻辑模型的含义 从逻辑上看,w e b 站点的基本构成元素是各个不同的网页文件和网页文件中包含 的一些不同功能,这些网页文件通过超链接或者事件处理程序相互联系。用户对w e b 站点的访问实际上是通过浏览器访问这些不同的页面文件,浏览想要获得的信息,或 者是执行页面中某些操作,获得相应的功能。那么,从某个页面文件转换到另外的页 长春工业大学顿上学位论文 面文件,通常依赖于用户的某种操作,这种操作可以是点击网页中的超链接,也可以 是执行服务器事件处理程序。每进行一次操作,用户通过浏览器所得到的w e b 页面就 会发生一次跳转。具体过程如下图: 图3 1 网页跳转流程 我们把每个网页文件定义为一种状态( s ) ,把每种处理过程定义为一种转换( c ) ,网 站逻辑模型g 定义为一个三元组: g = s = s 1 s 2 s n ,c = cc = ( s i ,s j ) ,f = f 1 f 2 f m ) 其中,f j = s nc d ,s k c l ,s | ( 3 1 ) ( 1 ) 集合元素s i 表示不同状态,网站中所有的网页文件构成了状态集s 。 ( 2 ) 集合元素c 表示从状态s i 经过c 能够转换到状态s j 。w 曲页面文件体现了不同 页面之间的超链接关系,超链接中包含有一个u r l ,表示链接到的页面文件的名称; 服务器端控件的执行则是通过用户向表单( f o r r a ) q b 填写信息,由浏览器提交给服务器, 服务器以这些信息作为参数在后台进行处理,再返回一个结果给浏览器。在表单的 h t m l 描述中,总是伴随着 标记,其中通常包含一个u r l 。将超链接中的u r l 和表单中包含的u r l 记做c ,将当前页面的u r l 记做s i ,即将跳转到的u r l 记做s j , 所有c 爿s l ,s j ) 构成转换集c 。 ( 3 ) 集合元素表示不同的功能。f j 为状态s 和转换c 的有序有限集合,s m 为初始 状态,s t 为终止状态。我们使用无向图来表示网页的链接关系,节点为页面文件,边为 处理过程,那么图中一条完整的链就构成了功能集f 。 3 1 3 构造网站逻辑模型 利用h t t p 协议,向w e b 服务器发出请求获得指定u r l 的网页文件,下载得到网页。 取出网页中超链接的u r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论