(计算机应用技术专业论文)校园网用户群体行为的研究与分析.pdf_第1页
(计算机应用技术专业论文)校园网用户群体行为的研究与分析.pdf_第2页
(计算机应用技术专业论文)校园网用户群体行为的研究与分析.pdf_第3页
(计算机应用技术专业论文)校园网用户群体行为的研究与分析.pdf_第4页
(计算机应用技术专业论文)校园网用户群体行为的研究与分析.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(计算机应用技术专业论文)校园网用户群体行为的研究与分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士学位论文 摘要 在网络使用过程中,由于用户具有各自的兴趣爱好和访问习惯, 因此其关注的内容不完全相同,使用网络的时间和服务也各不相同, 并且不同的用户群体不可避免地带有各自的群体行为特征。了解网络 用户的群体行为,能从更宏观的角度得到网络使用轮廓,一方面为用 户使用网络提供一定的指导意义,帮助其更加充分合理的利用网络资 源;另一方面也为网络管理者进行异常检测等网络管理工作提供理论 依据。校园网作为互联网的一个组成部分,其用户的专业性和使用网 络的目的性较强,决定了它可能比校外普通互联网用户具有更明显的 特征。探究和了解校园网用户群体行为特征,可以为校园网的网络规 划与建设等工作提供重要的理论基础,因此对校园网用户群体行为的 研究显得日渐重要。 本文提出一种从校园网用户群体角度出发,研究用户群体行为特 征的分析方法。由于网络使用受到诸多因素的影响,变化多而快,很 难用一套有效的机制对其进行概述,因此本文着重研究了用户群体行 为分析的方法。首先采集校园网主干数据流,通过流聚合等手段获得 分析的数据源;再经过数据预处理和数据选取从中得到能描述用户群 体行为且相关性最大的属性集合;然后对群体进行分类和标识,分别 以纵向和横向的角度从使用时间、使用服务、访问流量等方面提取出 用户群体行为特征;最后采用数据挖掘中的聚类分析从群体访问地址 倾向这一角度对地址属性进行分析,得出较为全面的用户群体行为特 江苏大学硕士学位论文 征。 本文还对数据挖掘的聚类分析在地址属性上的应用进行了深入 研究和讨论,针对以往聚类算法中没有考虑i p 地址的特征屙陛,聚 类结果分散不完整,且没有实现不同类间的最大相异度这几个问题, 提出一种新的聚类算法。算法结合最长前缀匹配和最近邻规则聚类算 法的概念,运用逐步优化的层次聚类的思想,自动并有意义地进行基 于数据集中地址属性的无监督聚类,得到用户群体对网站的使用偏 好。 本文对用户群体行为特征的研究与分析为下一步识别异常行为、 网络异常监测以及更好的进行校园网规划设计等做出了充分的理论 准备。 关键词:用户群体行为,行为分析,流聚合,地址属性,逐步优化的 层次聚类,行为特征 i i 江苏大学硕士学位论文 a b s t r a c t b e c a u s eo fd i f f e r e n ti n t e r e s t sa n dh a b i t s ,u s e r so ft h ei n t e m e td i f f e r f r o mo n ea n o t h e ri nt e r m so fi n f o r m a t i o nf o c u s ,t i m ec o n s u m e da n d s e r v i c e ss e l e c t e d t h u sd i f f e r e n tu s e rg r o u p sw i l l i n e v i t a b l yt a k eo n b e h a v i o r a lc h a r a c t e r i s t i c so ft h e i ro w n k n o w i n ga b o u tt h es o - c a l l e d g r o u pb e h a v i o r sc o u l dg a i n , i nam a c r os e n s e ,a ni n f o r m e dk n o w l e d g eo f t h es t a t eo fn e t w o r ku s e o nt h eo n eh a n d ,t h i sc a np r o v i d es o m e g u i d a n c ef o ri n t e m e tu s e r s e n a b l i n gt h e mt om a k eb e t t e ru s eo fn e t w o r k r e s o u r c e s ;o nt h eo t h e rh a n d t h i sc a na l s os e r v e 硒t h e o r e t i c a lb a s i sf o r n e t w o r ka d m i n i s t r a t o rt oc a r r yo u tm o n i t o r i n ga n ds i m i l a rw o r k s c a m p u s n e t w o r ku s e r s ,c o n s i d e r e da so n ep a r to ft h ei n t e m e tu s e r s ,a r es u p p o s e d t 0b em o r ep r o f e s s i o n a la n dw i t hs t r o n gp u r p o s e t h u st h e ym a yb e a r m o r eo b v i o u sc h a r a c t e r i s t i c s t h i st h e s i sf o c u s e so nt h i sp r o b l e mt of i n d o u tt h eg r o u pb e h a v i o r st o s u p p l yi m p o r t a n tt h e o r e t i cf o u n d a t i o nf o r n e t w o r km a n a g e m e n t , s u c ha sa n o m a l yd e t e c t i o n a sar e s u l bt h ea n a l y s i s o f g r o u pb e h a v i o r so nc a m p u sn e t w o r ki se v e nm o r ei m p o r t a n t t h i st h e s i s b r i n g sf o r w a r dam e t h o do fa n a l y z i n gu s e rg r o u p b e h a v i o r sf r o mt h ev i e w p o i n to fc a m p u sn e t w o r ku s e r s a st h eu s i n go f i n t e m e ti sa f f e c t e db yag o o dm a n yf a c t o r sw h i c hc h a n g e ss h a r p l y , i t s d i m c u l tt ou t i l i z ea ne f f e c t i v em e c h a n i s mt os u m m a r i z ei t s ot h i st h e s i s d o e ss o m er e s e a r c ho nt h ea n a l y t i cm e t h o do fg r o u pb e h a v i o r s f i r s t ,t h e f l o wd a t ao fc a m p u sb o r d e rn e ta r ec o l l e c t e da n dt h ed a t as o u r c ea r eg o t 1 1 1 江苏大学硕士学位论文 b yf l o wa g g r e g a t i o n ;t h e nb yp r e t r e a t m e n tt od a t aa n dd a t as e l e c t i o n ,t h e a t t r i b u t es e t sw h i c ha r eo ft h eh i g h e s tc o r r e l a t i o na n dc a r ld e s c r i b et h e u s e rg r o u pb e h a v i o r sa r ea c q u i r e d a f t e r w a r d s ,t h et h e s i sp u t st h eg r o u p s i n t od i f f e r e n tc a t e g o r i e sa n dm a r k st h e m ,a n dt h e ne s t a b l i s h e sb e h a v i o r a l c h a r a c t e r i s t i c so fu s e r g r o u p s f r o mb o t hh o r i z o n t a la n dv e r t i c a l p e r s p e c t i v e sa c c o r d i n gt ot i m ec o n s u m e d ,s e r v i c es e l e c t e d ,a n dv i s i t c u r r e n tc a p a c i t y f i n a l l yt h ec l u s t e ra n a l y s i so fn e t w o r kt r a f f i cf l o w s u s i n g an e wc l u s t e r i n g a l g o r i t h mi sp r e s e n t t h e nt h er e l a t i v e l y c o m p r e h e n s i v eb e h a v i o r a lc h a r a c t e r i s t i c so f u s e rg r o u p sa r eo b t a i n e d t h et h e s i sc o n d u c t sa l li n - d e p t hr e s e a r c ha n dd i s c u s s i o ni n t ot ot h e a p p l i c a t i o no ft h ec l u s t e ra n a l y s i st ot h ea d d r e s sa t t r i b u t e s t h ep o p u l a r c l u s t e r i n ga l g o r i t h m s ,s u c ha sk - m e a n sa n dd b s c a n ,n o tt a k i n gi n t o a c c o u n tt h ef e a t u r ea t t r i b u t e so f i pa d d r e s s e s ,m a k et h er e s u l t si n c o m p l e t e a n dc a r l ta c h i e v em a x i m i z ed i f f e r e n c eb e t w e e nc l u s t e r s an e w a l g o r i t h m , w h i c hc a r le f f e c t i v e l yi m p r o v ei pa d d r e s s e sc l u s t e r i n g ,i sp r o p o s e di n r e s p o n dt ot h o s el i m i t a t i o n s t h ea d v a n t a g e sa r ea sf o l l o w s :f i r s t l y , t h e i n i t i a lc l u s t e r sa r eg o tb yt h el o n g e s tp r e f i xa l g o r i t h ma n da d a p t e dv e r s i o n o ft h en e a r e s tn e i g h b o rc l u s t e r i n g a l g o r i t h m t h e nt h et h o u g h to f s t e p w i s e o p t i m a lh i e r a r c h i c a lc l u s t e r i n gi sa p p l i e dt ot h em e r g e n c eo ft h e n e a r e s tg r o u p so fi n i t i a lc l u s t e r s t h es i m i l a r i t yb e t w e e ni n i t i a lc l u s t e r si s d e t e r m i n e db yt h el o n g e s t p r e f i xo fi p a d d r e s s e sc o n t a i n e d i nt h e s e c l u s t e r s f i n a l l y , t h ea l g o r i t h ma u t o m a t i c a l l ya n dm e a n i n g f u l l yy i e l d s i v 江苏大学硕士学位论文 c l u s t e r st h a ta r ei 1 3a c c o r d a n c ew i t ht h ec h a r a c t e r i s t i c so f i pa d d r e s s e so n t r a f i l ef l o w s t h er e s e a r c h e rc o u l do b t a i nt h eu s e rb e h a v i o r a lt r e n da n d c u s t o mt ot h ew e b s i t e t h i sr e s e a r c ha n da n a l y s i so nt h eb e h a v i o r a lc h a r a c t e r i s t i c so ft h e u s e rg r o u p so fc a m p u sn e t w o r kc a np r o v i d ec o n s i d e r a b l et h e o r e t i c a lb a s i s f o rt h er e c o g n i t i o no fa b n o r m a lb e h a v i o r s , t h em o n i t o r i n ga n da n o m a l y d e t e c t i o na sw e l la sb e t t e rd e s i g no fc a m p u sn e t w o r k k e yw o r d s :u s e rg r o u pb e h a v i o r s ,b e h a v i o ra n a l y s i s ,f l o wa g g r e g a t i o n ,i p a d d r e s sa t t r i b u t e ,s t e p w i s e - o p t i m a lh i e r a r c h i c a l c l u s t e r i n g ,b e h a v i o r a l c h a r a c t e r i s t i c s v 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的 指导下,独立进行研究工作所取得的成果。除文中已注明引 用的内容以外,本论文不包含任何其他个人或集体已经发表 或撰写过的作品成果。对本文的研究做出重要贡献的个人和 集体,均己在文中以明确方式标明。本人完全意识到本声明 的法律结果由本人承担。 学位论文作者签名:_ 茅薨老 日期:2 0 0 7 年6 月8 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文 的规定,同意学校保留并向国家有关部门或机构送交论文的 复印件和电子版,允许论文被查阅和借阅。本人授权江苏大 学可以将本学位论文的全部内容或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和 汇编本学位论文。 保密厂1 在 年解密后适用本授权书。 本学位论文属广 不保密团。 一躲彬燧轹中 江苏大学硕士学位论文 1 1 课题的研究意义 第一章引言 随着互联网技术的迅速发展,各种互联网应用服务如即时通信、p 2 p 文件传 输、电子商务、远程教育等已经深入到人们工作和生活的各个角落,带动了经济 的繁荣和社会的进步,同时也给互联网用户带来了生活、工作、学习等各个领域 的极大便利,成为迅速获取信息、资源的一种重要途径i l j 。 一方面,随着互联网在人们生活和工作中应用的深入,用户对网站的服务质 量要求越来越高,网络服务提供商的管理工作也逐渐从盲目走向科学,需要定性 地分析用户的行为特征和各自的爱好【2 l 。另一方面,网络是上亿台计算机互联而 成,虽然相关的组网与管理技术在不断地完善,但人们对网络用户在局部和整体 范围内所体现出的行为特征依然没有一个完整的认识p l 。为此,网络用户行为的 分析和研究越来越重要,该研究对网络服务提供商了解整个网络的使用状况以及 各个群体对网络的需求时间和内容非常有意义,同时也为进一步调整网络拓扑结 构、提高缓存的利用与负载均衡等工作提供重要的理论依据。 同时,随着网络技术的发展,网络用户和网络上的信息,都面临严重的安全 问题,攻击和病毒层出不穷,非法使用网络的行为给网络负载带来了极大的隐患 和危害,严重可导致整个局域网瘫痪,相关的办公、学习都会受到影响。了解网 络用户行为,可以更及时准确地发现网络中的异常情况和非法用户的使用行为, 尽快对其进行监管并阻止病毒的攻击,对维护网络的正常运行、保证和提高网络 服务质量有重要的作用。 1 2 课题的研究背景 网络用户都具有各自的兴趣爱好和习惯,其使用网络时关注的内容、使用网 络的时间和服务也就不尽相同。不同的用户群体使用网络的行为也不可避免地带 有各自的群体特征。校园网用户由于其专业性和使用目的性较强,可能具有比校 外普通互联网用户更明显的特征。探寻校园网用户行为的特征是了解互联网用户 行为特征工作的一部分,并且校园网用户的使用情况是我们能够采集和了解到 江苏大学硕士学位论文 的,因此本文课题选择校园网的用户行为作为我们的研究对象。对它的了解将为 校园网络规划与建设、网络管理等许多相关研究工作提供重要的理论基础。 目前,网络用户行为研究4 】1 5 】【6 】主要是针对用户个体,研究其使用行为。在 受控用户正常对外进行网络访问的同时,获取该用户原始访问行为流量,并从中 提取用户行为特征。对用户群体的使用行为研究还较少,而了解用户群体的网络 行为,才能从更宏观的角度了解网络使用概况,指导用户充分合理的利用网络资 源,并为网络监测、异常行为发现、网络服务的完善等相关的网络管理工作提供 理论依据。 因此,如何了解和分析校园网用户群体行为是网络群体行为分析方面亟待解 决的问题,也是本文的主要工作。 1 3 论文的研究内容及体系结构 1 3 1 研究内容 本文工作首先讨论了网络用户行为分析的研究现状和意义,提出了分析的过 程,即通过采集校园网主干流量获取数据源,把用户群体行为作为研究目标,侧 重于了解校园网的用户群体行为概貌并分析每个群体的行为特征和不同群体在 使用时间、使用服务等方面的差异。 接着,通过研究目标数据采集和选取的方法,提出数据流的采集方法,并在 数据预处理和数据选取方面提出适合本文研究的方法,为下一步分析做准备。 本文的分析工作主要针对用户群体行为四个方面进行研究,即使用时间的宏 观分析,各类典型网络服务的使用时间变化趋势及各类服务的比较,同一时间范 围各类典型服务的使用人数比例和使用流量比例、变化趋势及各服务的比较。各 分析工作都从纵向和横向两个角度入手。 最后我们希望进一步从访问地址角度研究群体行为,提出一种改进的聚类算 法一逐步优化的层次聚类,对网络数据的地址属性进行聚类分析,并对聚类形 成的各个类( 簇) 做域名分析,由此得到基于访问地址偏好的群体行为。 2 江苏大学硕士擘位论文 1 3 2 论文的体系结构 全文共分六章,第一章为引言,第六章为全文总结与研究展望,第二章到第 五章为论文的主要部分,其中第二章到第五章一脉相承,相互联系,构成一个完 整的研究体系,如图1 1 所示: 图1 1 论文体系结构 3 江苏大学硕士学位论文 第二章网络用户行为分析的相关研究 在这一章,我们主要对目前网络用户行为分析的相关研究做了综述性的介绍 并在此基础上提出本文的研究特点。第一节首先分别介绍了网络用户和网络用户 行为的概念,然后分析了网络用户行为的研究意义和应用;第二节对目前国内外 网络用户行为的研究从几个不同角度进行分类讨论:第三节研究分析了数据挖掘 应用在这一领域的优越性,最后一节指出了本文研究工作的特点。 2 1 网络用户及网络用户行为的内涵 了解网络用户和网络用户行为的概念是研究工作的重要前提。这一节我们首 先介绍网络用户和网络用户行为的相关概念及分类,接着讨论了网络用户行为的 研究意义及其应用。 2 1 1 网络用户的概念及分类 网络用户,简单地说就是网络的使用者,然而人们对网络用户的具体内涵又 存在几种不同的看法,经概括提炼后得到了对网络用户较为准确的概述【7 】:指在 科研、教学、生产、管理、生活及其它实践活动中需要和利用网络获取和交流信 息的个体和群体,这种观点考虑到网络用户的潜在特性,同时认为网络用户应该 是具有利用网络资源条件的一切社会成员,包括个体和群体。 网络用户除了以个体和群体分类之外,还可以根据其构成因素如性别、年龄、 教育程度、行业性质、收入以及职业性质等进行分类1 8 】【9 l ,例如可以根据用户的 知识水平分为高级水平用户、中级水平用户和一般水平用户。以上主要是依据用 户人口统计特性进行分类,便于对用户分类研究。还有两种可以反映网络发展对 用户的影响的分类方法:第一种分类方法是美国学者将网络用户按照接触网络时 间长短和居家使用网络的频率分成四大类型1 9 l ,分别是将网络融入生活和工作的 网民( n e f i z e n s ) 、把网络当作一种协助工具的利用者( u t i l i t a r i a n s ) 、从网络获取 信息的使用者( e x p e r i m e n t e r s ) 和没有太多使用网络经验的新手( n e w c o m e r s ) , 这种分类方法反映出网络对用户生活方式和工作方式的影响;第二种分类方法是 4 江苏大学硕士学位论文 德国福瑞堡大学学者将网络用户按照专业领域和网络使用经验分为四种类型【1 0 1 , 分别是既熟悉领域知识又熟悉w e b 检索经验的用户、熟悉领域知识但不熟悉w e b 检索经验的用户、不熟悉领域知识但熟悉w e b 检索经验的用户、既不熟悉领域 知识又不熟悉w e b 检索经验的用户,这种分类方法反映出用户领域知识和信息 素质对用户的影响。 2 1 2 网络用户行为的概念及研究意义 由于网络用户行为是网络行为学研究的一个方面,因此在介绍网络用户行为 之前,我们需要先对网络行为学做初步的了解。网络行为学的定义【3 j 是:根据事 先定义的网络测度,测量主动流量或被动流量,通过被研究网络的测度值,进而 研究相应测度值的变化规律。网络行为学涉及到网络用户行为、网络流量行为、 网络硬件设备行为,网络管理行为、网络安全行为等方面。目前国际上已经认识 到对网络行为进行研究的重要性,很多研究机构和学术团体己展开了这方面的工 作,如c a i d a ( i n m e t 数据分析联合会) 和i e t f 的i p p m ( t h ei pp r o v i d e m e t r i c s ) 工作组。 下面介绍本文研究的网络用户行为。它是一个广义的概念,指用户在使用网 络资源中所呈现出的规律网络行为,可以用某些特征量的统计特征或特征量的关 联关系定量或定性的表示。网络用户行为可以在应用层、传输层及网络层有不同 的表现【2 1 。 掌握网络用户行为的基本特征有助于网络规划、网络管理等研究工作的进 行通过对网络用户行为的分析,去了解网络运行环境的网络应用和服务的实际 工作状况,了解网络系统存在的不足和问题,就可以及时了解和排除网络设备或 软件出现的故障,为应用和技术的改进提供参考,从而提高网络服务和应用的效 率和效果。 网络用户行为分析最常用的是在异常监测发现并抑制其非法活动方面,即将 用户的一些行为陆续存入记录中,将记录完整地存入数据库中,作为用户异常行 为分析的数据源。然后创建用户行为模式库,存储系统中各个用户的正常行为, 将采集来的用户当前行为与用户行为模式库中存储的用户正常行为进行模式匹 配,并根据匹配结果生成一个报警记录,存入系统的异常报警库l 川。 5 江苏大学硕士学位论文 据中国互联网信息中心( c n n i c ) 发布的中国互联网络发展状况统计报告 报告1 1 2 1 显示,截止2 0 0 6 年6 月3 0 日,我国网络用户人数已从2 0 0 3 年的6 8 0 0 万骤升至1 2 3 0 0 万人,仅次于美国。因此,了解广大网络用户的特征,分析其网 络行为及其影响因素,从而制定、调整互联网发展策略以使其健康地成长,就越 来越重要。 目前网络用户行为的研究近几年来,由于网络信息量的剧增和使用人数的增 长,校园网的建设规模也日渐扩大,但是随之而来,网络规划设计难度也都相应 地提高了。我校校园网经过这几年的发展已经具有一定的规模,在学校的发展和 对外交流上发挥着越来越重要的作用。随着i n t e m e t 的普及,越来越多的校园网 用户通过网络了解周围的世界,从而获取自己所需的信息和资源。这就带给我们 一个问题,即如何更好地去进行网络管理、网络规划和设计。要解决这个问题首 先要了解用户是如何使用网络的,也就是要对校园网用户使用网络的情况进行分 析,为站点管理员提供各种改进校园网络结构设计的信息,以方便用户使用及提 高网络性能,增强个性化服务。 2 2 网络用户行为分析研究现状 网络用户行为可以从多角度进行分析,以下从分析技术、采集的数据源、协 议层次三个角度对目前网络用户行为分析的方法进行了研究和分析。 2 2 1 分析技术 首先我们从分析技术角度来对已有的网络用户行为分析方法进行讨论和研 究,通用的方法有数据挖掘,主被动分析,分布集中式等。为了达到更好的分 析效果,在实际应用中这些方法通常是综合使用的。 首先我们来看一下数据挖掘方法在网络用户行为上的研究,目前主要有以下 几种: 1 序列模式挖掘 许多学者在通过序列模式挖掘得到用户行为模式上面进行了研究。从序列 集中挖掘用户行为模式,快速有效地确定频繁事件序列是其关键。目前国内外针 对序列模式挖掘提出的算法有:一种基于a p r i o r i 性质的算法g s p ”1 ,给出了比 6 江苏大学硕士擘位论文 特图索引表的构造、事件扩展、事务扩展以及支持度计算的算法,使频繁事件序 列能够简单快速地被确定;基于投影数据库的算法f r e e s p a n ”l ,提出采用位图 索引表的数据格式;基于前缀投影的算法p r e f i x s p a n l ;一种有效的基于前缀树 的频繁事件序列扩展方法【1 8 】。使用一种有效的基于前缀树的频繁事件序列扩展方 法,结合有效的剪枝技术,明显地加速了最大频繁事件序列的生成等等。 2 关联规则 关联规则1 1 4 】用于寻找给定数据集中的项与项之间的联系。首先对用户网络流 量进行协议投影,获得其行为的具体信息,然后采用关联规则等方法,将上面得 到的信息进行统计学习,从而得到该用户所特有的行为模式。实验结果表明,该 方法为进行用户网络行为特征提取和身份识别提供了一种新思路,另外也有助于 发现蠕虫或其他大规模入侵行为1 4 1 。 3 机器学习、神经网络和其他相关技术研究 文献【1 9 】中提出一种在不完善的网络中,数据库存贮数据的方法以及使用机 器学习和相关技术挖掘并发现网络行为趋势的方法。此方法已使用在a 1 _ & t 网络 中并识别了几种行为模式,可提高网络可靠性。文献 2 0 】提出了一种多分布主体 代理的径向基函数来分析网络行为的方法。用径向基函数神经网络用对本地数据 库的信息源进行分析处理,并且把分析处理的结果与规则库模块信息匹配,判断 网络运行是否正常。 在主,被动分析技术方面,有学者提出一种结合数据挖掘的主动行为分析技 术【4 l ,用以描述行为模式、判定行为倾向和发现行为异常。通过协议投影等预处 理技术,获得用户行为的具体信息,并以此为数据源构建主动行为分析所用的数 据库。此后,当用户再次开始访问网络时,就可以通过对其行为进行检测、分析 和匹配,以评估安全状况,识别用户身份,实现网络的安全管理。 在分布式,集中式网络用户行为分析领域,为了解决基于w e b 站点的网络用 户行为的检测和分析,文献【l 】提出了一种分布式网络用户行为分析模型,在环 境中设计多处信息采集器,使用在网段中用于捕获进出该网段的所有数据包程序 或在不同的应用服务器上,如w e b ,f t p ,b b s 等收集应用曰志文件并传送至预 处理程序的主机上,全面分析该站点用户的行为模式,采用分布式多主体代理能 够大大提高算法的效能。 江苏大学硕士学位论文 近年来,随着对个人隐私问题的关注,有学者提出了用于保护用户信息安全 的无侵犯模式原则【”i ,并应用“双标识”策略实现了用户信息的重用。在无侵犯模 式下,用户的隐私安全通过双标识的匿名强化方式得以保证。用户是挖掘过程的 重要参与者,可以检查、调整或删除个人所提供的数据以及由系统挖掘推理得到 的特征模式,并决定其数据的使用用途。 2 2 2 数据来源 下面我们从分析所用的数据来源角度对已有的网络用户行为分析方法做分 类和研究,从采集的数据源分,主要分为以下四种: 1 网络流量数据包 所谓网络数据包截获机制【2 2 l 般指通过截获整个网络的所有信息流量,根据 信息源主机,目标主机,服务协议端口等信息简单过滤掉不关心的数据,再将用 户感兴趣的数据发送给更高层的应用程序进行分析。一方面,网络截取模块要能 保证截取到所有网络上的数据包,尤其是检测到被分片的数据包( 这可能蕴涵着 攻击) 。另一方面,数据截取模块截取数据包的效率也是很重要的。它直接影响 整个入侵检测系统的运行速度。数据包的截取技术是依赖网卡的。而网卡可以通 过广播监听到以太网络上的数据包,这就是数据包截取技术的基础。网卡完成收 发数据包的工作,有两种接收模式:( 1 ) 混杂模式:不管数据帧中的目的地址 是否与自己的地址匹配,都接收下来;( 2 ) 非混杂模式:只接收目的地址相匹 配的数据帧,以及广播数据包( 和组播数据包) 。 目前普遍采用支持b p f 的l i b p e a p 数据包截获技术 2 3 1 ,通过主交换机上的 p o r tm i r r o r 或者分光器等方法,获得所需要的用户网络流量或采用p c a p 软件包 对数据进行采集。在w i n d o w s 平台下,则可采用由芬兰p o l i t e c n i c o d it o r i n o 开发 的w i n p c a p 类库,它基于b p f ( b e r k e l e y 分帧过滤器) 内核,妥善封装之后对外 提供调用接口,可以用来进行数据包捕获与分析。基于数据包内容来研究时,我 们需要对包的内容进行分析,还要用较大的磁盘资源备份所有的网络数据包分析 出多种网络用户行为,数据交换较大的网站属于哪种类型,网民上网的主要目的 是获取科研文献、浏览休闲娱乐信息聊天还是其它,网民频繁使用的网络服务是 哪些,因特网对青少年道德和性格的影响等。 8 江苏大学硕士学位论文 2 操作系统审计记录和系统日志【2 4 l 审计记录由包含在操作系统软件内部的专门的审计予系统生成。这些审计记 录是用于反映系统活动的信息集合,按照时间顺序组织成一个或多个审计文件, 当系统中的用户采取动作或调用进程时,引起相应的系统调用或命令执行,此时 审计系统就会产生对应的审计记录。审计数据最为突出的问题是庞大的数据量和 审计数据的复杂性。如果不对其进行精简,处理这么庞大的数据量将对系统的存 储资源和计算资源提出很高的要求。系统日志是反映各种系统事件和设置的文 件,l i n u x 提供了分类齐全的系统日志,并提供通用的服务,用于支持产生和更 新事件日志。尽管可以采用多种多样的格式和定义来产生及解释系统日志,但系 统日志的安全性与操作系统的审计记录相比要差一些。 3 协议控制信息 基于协议控制信息来研究网络用户行为访问方式,不关心数据包内容,只分 析某段时间内数据包的数量和尺寸,该信息可以用于分析网络资源占用情况,优 化网络拓扑结构,改善负载均衡,也可以用于分析是否有非法数据占用网络资源, 例如正常流量中的报文平均长度是一个较为稳定的数据,而在扫描攻击时会产生 大量的段报文,所以一旦出现大量扫描攻击发生,平均报文长度就会发生显著变 化,可以作为监测网络非法扫描的一种手段t 2 5 l 。 4 w e b 使用记录1 2 6 j 随着i n t e m e t 的普及和w w w 的迅猛发展,用户对w e b 访问的信息已经成 为世界上最大的信息仓库之一。而信息的爆炸式增长于人们注意力的有限性之间 的矛盾也随之加剧。w e b 使用挖掘正是解决这一矛盾的有效手段。w e b 使用挖掘 是w e b 挖掘的一种,后者还包括对w e b 内容挖掘和w e b 结构挖掘。获得用户使 用网络行为特征主要是通过w e b 使用挖掘实现,w e b 使用挖掘的结果通常是用 户群体的共同行为和共性兴趣,以及个人用户的检索偏好、习惯和模式等。 在w e b 使用挖掘【2 7 1 中,数据可来源于服务器、客户端、代理服务器,或从 某个机构的数据库( 包括商用数据或综合w e b 数据) 。各类数据不仅来源不同, 其使用方式也不同,从不同数据源采集到的使用数据将代表w e b 流量中不同部 分的导航模式,从单用户单网站浏览行为到多用户多网站的存取模式。服务器级 日志文件描述了多用户单站点的浏览行为,客户级日志文件通常给出了单用户多 9 江苏大学硕士学位论文 站点的用户浏览行为,代理级服务器日志文件跟踪多用户多站点的使用行为。 w e b 使用挖掘的用户模式1 2 8 1 主要应用在:1 通过对用户存取日志文件中的 存取事务进行聚类分析,发现用户的个性化搜索兴趣模式,根据个人的喜好,为 每个用户定制符合其个人特色的w e b 站点,提供符合其兴趣要求的个性化界面。 在信息的显示、网站结构及资源格式等方面动态进行定制。2 根据对用户访问 路径的分析,生成用于导航的用户局部网络视图。3 基于用户共同兴趣进行信 息导航。通常首先对用户群体进行聚类,找出各用户簇的共同特征,即该用户簇 所有用户的共同检索兴趣、习惯和模式,并据此进行信息定制。 2 2 3 协议层次 最后,我们从协议角度来对已有的网络用户行为分析方法进行研究分析,下 面列举最常用的两种协议层分析角度:网络层,应用层。 1 网络层 文献 2 5 1 1 2 9 1 从网络层对网络用户行为进行分析,从源端m 地址和目的端i p 地址的角度,可以把网络用户行为从宏观上分为4 种组合方式,具体如下: ( 1 ) 单i p 对单i p 的访问 此时,源地址和目的地址之间是一种典型的一对一的c s 模式,源m 发送请 求和目的口应答请求。该方式可反映出用户对该站点的偏好程度与访问频度。 ( 2 ) 单m 对多i p 的访问 该种方式研究的目的是分析该用户对不同的目的网站的兴趣和偏好程度,例 如用户对体育、股票、新闻和科学研究等站点的喜好程度,由此可以大致反映出 该用户的性格、职业和爱好等信息。 ( 3 ) 多i p 对单i p 的访问 该目的地址和源地址之间的关系是某站点和其用户群体之间的关系,此方式 的研究是网络用户行为分析的一个重点。这种方式的目的地址通常是某种类型的 服务性站点,例如门户站点、w w w 服务站点、f t p 服务站点、邮件服务站点、 搜索引擎站点等。多i p 对单i p 的访问可用于分析网站用户群体职业分布、行业 分布、地区分布等信息,从而优化网站结构设计、改善站点服务质量,使之成为 最受用户欢迎的站点。 1 0 江苏大学硕士学位论文 ( 4 ) 多i p 对多i p 的访问 该方式主要表现用户群体的多种行为。 每种访问方式对特定的网络用户行为分析和研究都有重要的意义。目前在网 络层的研究较多针对前三种访问方式,对群体的多种行为研究较少。 2 应用层 互联网实验室形成“中国城市居民互联网使用及消费行为研究系列报告 3 0 l ”, 该报告以互联网实验室独创的网民网络行为研究模型为方法论基础,把网络行为 分为基础网络行为和扩展网络行为,进而把所有网络行为分为5 大类,即信息查 询类,沟通交流类,休闲娱乐类,电子服务类,电子商务。依照研究模型,对网 民群体进行细分,得出1 0 类特色网民人群,这是从应用层次对用户网络行为的 一种比较通用的分类方式。 2 3 数据挖掘在行为分析上的优越性 当前网络结构日趋复杂,网络业务种类和业务数量急剧增多,如何让网络更 好地为用户服务就成了网络管理人员必须解决的问题。网络管理人员进行决策的 依据是反映网络状况和网络行为的海量历史数据,显然,没有必要也不应该把所 有的原始数据全部提交给网络管理人员,而是要对其进行分析,生成与管理和决 策问题相关的信息。 网络数据流 3 1 j 是网络中数据包组成的数据流。网络数据流设计是网络设计的 一部分,它强调应用科学的原理和技术去测量、特征化、模型化和控制业务。网 络数据流设计的目的就是通过运用一些分析方法对从各种渠道获得的反映网络 状况和网络行为的数据进行分析,再根据分析结果从业务角度和资源角度对一个 运作的网络进行性能评价、并能识别出己存在的问题或者对潜在的问题做出预 测,从而指导网络进行性能优化。采用数据挖掘技术对网络数据流分析具有优越 性,这是由数据挖掘的发展背景和特性所决定的。 计算机应用的普及产生了大量的数据,如何从海量数据中获得有价值的信 息,采用传统的数据库技术已经显得无能为力了,数据的迅速增加与数据分析处 理方法之间的矛盾越来越大,人们希望能够在对已有的大量数据分析的基础上进 行科学研究、商业决策或企业管理,从而达到为决策服务的目的。数据挖掘( d a t a 江苏大学硕士学位论文 m i n i n g ,d m ) 就是为了满足这种需求而迅速发展起来的一种新的数据处理技术。 它的实质是一种发现知识的应用技术和提取有用信息的过程。自2 0 世纪末提出 以来,引起了许多专家学者的广泛关注,并应用到金融,零售业、工业过程、电 力、医疗保健和政府决策等各个领域,取得了良好的社会效益和经济效益,具有 广泛的开发和应用前景。 由于数据挖掘是多学科综合产物,故目前还没有一个完整的定义,人们提出 了许多数据挖掘的定义【b j ,目前较为通用的定义为:数据挖掘就是从大量的、不 完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们 事先不知道的、但又是潜在有用的信息和知识的过程。 这个定义包括以下四个方面的含义1 3 2 : 数据源必须是真实的、大量的、含噪声的 发现的是用户感兴趣的知识 发现的知识要可接受、可理解、可应用,最好能用自然语言表达结果 发现的知识是相对的,有特定前提和约束条件的,并且面向特定领域 数据挖掘要解决的问题就是在庞大的数据中寻找有价值的隐藏信息,加以分 析,并将这些有意义的信息归纳成结构模式,提供给有关部门在进行决策时参考 【2 l 。数据挖掘涉及多学科技术的集成,包括数据库技术、统计学、机器学习、高 性能计算、模式识别、神经网络等,因此被信息产业界认为是数据库系统最重要 的前沿之一,是信息产业最有前途的交叉学科,已成为信息科学界的热点研究课 题。 数据挖掘是一个需要经过反复的多次处理过程,它的处理过程模型为数据挖 掘提供了宏观指导和工程方法,合理的处理过程模型能将各个处理阶段有机的结 合在一起,指导人们更好的开发及使用数据挖掘系统。从数据挖掘进入工程应用 领域起,就有人对数据挖挖掘的过程进行归纳和总结,提出了不同的数据挖掘处 理过程模型。其中,f a y y a d 等人给出的多处理阶段模型是一种通用模型,也是 目前最广为接受的一种处理模型嘲,如图2 1 所示 1 2 江苏大学硕士学位论文 圆圈圈圈匝囹 图2 1 数据挖掘通用模型 目前数据挖掘的主要研究内容包括基础理论、发现算法、数据仓库、可视化 技术、定性与定量互换模型、知识表示方法、发现知识的维护与再利用,半结构 化和非结构化数据中的知识发现以及网上数据挖掘等。 我们可以发现,数据挖掘的结果是一个概念化的知识,该知识反映了数据的 内在特性,是对数据所包含信息的更高层次的抽象。我们把数据挖掘技术应用到 网络数据流分析中,以网络数据流作为分析粒度,运用数据挖掘分析方法,就可 以对行为进行分类、提取行为特征并能找出各种行为之间的相互关系。 2 4 本文工作的特点 从上述对网络用户行为分析的研究和讨论可以看出,目前已有的研究方向大 都倾向于采用数据挖掘的技术,并且由于数据挖掘自身的特性适合使用在行为分 析方面,因此本文所进行的校园网用户使用行为分析的研究工作也同样借鉴了前 述分析研究工作,采用数据挖掘技术提取出校园网用户在网络的使用行为特征。 同时网络用户的定义将用户分为个体和群体,而目前网络用户行为研究主要 是针对用户个体,对用户群体的使用行为研究还较少。了解用户群体的网络行为, 能从更宏观的角度了解网络使用概况,因此本文着重研究校园网区域内受控用户 群体的行为特征。本文的工作有以下四方面的特点: 1 目标数据的获取。首先,已有的研究大多采用对服务器端的用户访问日 志进行分析。比如在电子商务网站中的推荐系统,就是根据日志中记录的用户历 次登录所访问的页面、点击的项目,来归纳出该用户的购物倾向。但是对于大规 江苏大学硕士学位论文 模园区网络的管理者,上述方法无法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论