




已阅读5页,还剩97页未读, 继续免费阅读
(计算机软件与理论专业论文)基于web日志的用户访问模式挖掘.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于w 曲日志的用户访问模式挖掘 专业:计算机软件与理论 硕士生:叶涛 指导教师:印鉴教授 摘要 在网络管理中普遍存在信息安全保障和资源有效分配等方面的问题,这些问 题都与用户的操作行为密切相关。本文针对基于w 曲日志的用户访问模式挖掘 问题进行了较为深入的分析和研究。 根据w 曲使用挖掘的处理步骤,以实际的月度w 曲日志数据为挖掘对象, 运用统计分析方法、回归分析方法以及关联规则方法等数据挖掘技术对w 曲日 志数据进行了较为深入和全面的分析挖掘。 通过统计分析方法,发现了用户访问行为的时间特征和信息需求特征,并分 析了影响网络运行状况的各种因素。 运用回归分析方法建立了预测分时段用户访问量的回归方程式。根据实际数 据的验证和评估,证明回归方程式能够较好地预测分时段的用户访问量。 采用最大值方法建立了描述分时段网络运行状况最大值的数量表,较好地预 测了分时段用户访问请求数据传输量和处理时间的最大值。 选择f p 觚w m 算法对用户信息需求的相关性进行了分析挖掘。为了避免在 挖掘过程中产生大量的关联规则,对f p g r o 叭h 算法作了改进,缩减了频繁模式 集的大小。根据不同类型用户的访问特点,分别设定了相应的最小支持数以及最 小置信度,并对挖掘出来的关联规则进行了筛选。对满足每一条关联规则的用户 数进行了统计,并计算其占总用户数的比重。经过分析挖掘,最终形成了描述用 户信息需求相关性的知识。 对用户访问模式的分析挖掘有助于网络管理人员及时掌握用户的访问行为 特点,制定出有针对性的管理措施,有效地管理用户访问行为,达到保障信息安 全和有效分配网络资源之目的。经过验证和评估,本文所提出的分析挖掘方法是 切实可行的,适用于日常的网络管理工作。 关键词:数据挖掘,w e b 使用模式挖掘,w 曲日志,用户访问模式 bu s a g em i n i n gf o ru s e r s a c c e s s i n gp a t t e r n s m a j o r :c o m p u t e rs o r w a r e 趾dt 1 1 e o 叫 n a m e :y et 1 0 s u p e n r i s o r :y i nj i 肌 a b s t r a c t t h e r ea r es o m ep r o b l e m ss u c h 嬲t l l es a f e g :u 盯do fi n f o m a t i o ns e 饥l r i 钾a i l dm e e n e c t i v ea 1 1 0 c a t i o no fr e s o u r c e si i ln e 觚o r km a i l a g 锄e i l t ;m e s ep r o b l e m sa r er e l a t i v e t 0t l l eb e h a v i o ro fo p e r a t o r s i n d 印mr e s e a r c h e sa r em a d eo nw e bu s a g em i i l i n gf o r u s e r s a c c e s s i n gp a t t 锄sb a s c do nw e bl o g si i lt h i sp a p e r a c c o r d i n gt om ep r o c e s so fw e bu s a g em i i l i n g ,c o m p r e l l e i l s i v e 觚di n d 印t 1 1 ( 【a _ t a m i n i n g a r em a d eo nm ea 曲u a lm o n t l l l yw e b 1 0 9 sb ym e a n so fs t a t i s t i c s 觚dr e 黟e s s i o n a n a l y s i sa n da s s o c i a t i o nr u l e s t h ef e a t u r e so fu s e r s v i s i t i n gt i m ea j l dn e e df o ri n f o n n a t i o n ,弱w e na st l l ev a r i o 髑 f a m o r sa 丘i e c t i n gt h es t a t u so fn 鲍o r k 锄- ed i s c o v e r e db ym e a l l so fs t a t i s t i c s t h er e 蓼e s s i o nf o m m l ai sb u i l tt op r e d i c tt h e 锄。眦to fu s e r s v i s i t i i l gi nd i f f 打e n t h o u r s i ti sv e r i f i e dm a tm er e 野e s s i o nf 0 m m l ai sc o 仃e c t l ya b l et of o r e c a s tm e 锄。嘶 o f u s e r s v i s i t i n gi nd i f j f e r i e n th o u r s at a _ b l ef i l 叫n gt 1 1 er e l a t i o nb 酣e e nh o u r sa n ds t a n l so fn 娟o r ki se s t a b l i s h e db v t a k i n gm em a x i m u l no fd a t af l o wa n dp r o c e s st i m ei i lo r d e rt o 删i c tm em a x i i i l 吼 o fd a _ t an o wa i l dp r o c e s st i m ei nd i 任矗e n th o u r s ni sv e r i 6 e dn l a tm et a b l ei sc o l l r e c t l y a b l et of o r e c a s tt 1 1 em a x 曲:l u mo fd a t an o wa n dp r o c e s st i m ei nd i h 白韧f i th o u r s t h ed a t am i i l i n gf 0 rn l ec o r r e l a t i o no fn l eu s e r s n e e d sf o ri n f o n n a t i o ni sm a d eb v m e a n so ff p g r o w t ha l g o r i m 1 mo r d e rt 0r e d u c em e 锄o u mo fa s s o c i a t i o nm l e s 。 f p g r o w ma l g o r i m mi si m p r o v e db yc u r t a i l i n gm e 自e q u e i l tp a t t e ms e t a c c o r d i n gt o m ed i f ! f ;i 才e n t 哆p e so fu s e r s ,m ed i 脓e n tm i i l i m 啪s u p p o r t 锄dm i i l i m 啪c o n f i d e n c e a r es e tt of i l t e rt l l ea s s o c i a t i o nr u l e s a r e rs 1 加m i n gm e 锄o m to fu s e r sm a ts a t i s 母 e a c ha u s s o c i a t i o nm l e s ,c o m p u t em ep r o p o n i o no ft 1 1 e s eu s e r si nt o t a l f i n a l l y f o mm e k n o w l e d g em a td e s c r i b e st l l ec o r r e l a t i o no fm eu s e r s n e e d sf o ri n f o r n l a t i o n w e bu s a g em “n gf o ru s e r s a c c e s s i n gp a t t 锄sc a i lh e l pn e t 、) l ,o r km a n a g e r ss e i z e i m m e d i a t e l ym ef e a t u r e so fu s e r s o p e r a 【t i n 2 t a k em e a s u r e st os a f e 毋l a l di n f o m a t i o n s e c 谢t y 锄da l l o c a t en l en e t w o f kr e s o u r c e se 丘- e c t i v e l y i ti sv 嘶f i e dt 1 1 a tm em e t h o d s o fd a t am i n i l l gi i ln l i sp a p e ri sp 嬲i c a li i ln e t 、) l r o r km a i l a g e m e l l t k e yw o r d s :d a t am i n i n g ,w 曲u s a g em i i l i n g ,w e bl o g s ,u s e r s a c c e s s i n g p a t t e n l s i i 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:v 亍7 吞 日期:九r d 孑年孑月加日 学位论文使用授权声明 本人完全t 解中山大学有关保留、使用学位论文的规定,口学柱有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制井允许论文进入学校图书馆、院系资料窀被查 阔,有权将学位论文的内容编 有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 计 备e m 一莎谱 r 期:印0 0 年i 月加日 日期:? 睹f 月莎日 中山大学硕士学位论文基于w 曲日志的用户访问模式挖掘 1 1 研究背景 第1 章引言 1 1 1w 曲服务与互联网的发展 w 曲服务是一种网络信息服务,它伴随着互联网的发展而产生,反之又对互 联网的发展起着重要的推动作用。 国际互联网i n t e n l e t 诞生于二十世纪六十年代末,由于当时用户联接到 1 1 1 t e m e t 需要经过一系列复杂的操作,加上网络的使用权限控制严格,网络信息 的表现形式单调枯燥,i n t e n l e t 的推广应用因此受到了限制。在二十世纪九十年 代以前,i n t 锄e t 主要为研究与学术领域的人员所使用。 w 曲服务的诞生则完全改变了这一状况。 1 9 8 9 年3 月,欧洲粒子物理研究所( c e r n ) 研究人员1 缸b e n l e r s l e e 提 出了一项研究计划,目的是让科学家们既能易于查阅同行的文章,又能在服务器 上方便地创建新文档。因此,t i mb 锄e r s l e e 创建了一种新的语言来传输和表现 文档,这种语言就是超文本标注语言h t m l ( h ) ,p e rt e x tm a r k 叩l a l l g u a g e ) ,它 是标准通用标注语言s g m l ( s t 跚d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 的一个子 集。s g m l 是1 9 8 6 年国际标准化组织( i s o ) 制定的标注语言标准,用以描述 电子文档及其构成。s g m l 是一种元语言,独立于操作平台、能够支持用户自定 义的标记,因此它独立于应用软件,并可以用来定义各种标注语言。用于操纵 h t m l 的协议被称为超文本传输协议h t t p ( h y p e r1 e x tt r a n s f i 玎p r o t o c 0 1 ) ,以 c l i e 州s e r v e r 模式工作,相应的服务器则被称为超文本传输协议守护进程h t t p d ( h y p c rt e x tt r a l l s f hp r o t o c 0 1d a 锄o n ) ,最初的客户端软件是基于文本的浏览编 辑器。h t t p 采用统一资源定位器u r l ( u l l i f o 彻r e s o u r c el o c a t o r ) ,用于标识 i n t 锄e t 主机上任何可用的数据对象,u r l 由访问协议、数据所在的机器、请求 数据的数据源端口、通向数据的路径、数据文件的名称等基本部分组成。t i m b e n l e 拇l e e 将他发明的信息系统命名为w 矾dw i d ew 曲( 简称w w w ) 。【1 】 1 9 9 2 年7 月,w w w 在c e r n 内部得到了广泛的应用,并对i n t e n l e t 产生 了极其重大的影响。 w 曲具有与系统平台无关和分布式的特点。w 曲通过超文本方式把i n t e n l e t 上不同计算机内的信息有机地结合在一起,并且可以通过超文本传输协议 ( h t t p ) 从一台w 曲服务器转到另一台w 曲服务器上检索信息。 w 曲可将文本、图形、音频、视频、动画等信息集于一体,在一个网页上同 时表现丰富多彩的多媒体信息,而在w 曲之前h l t e n l e t 上的信息只有文本形式。 w 曲具有交互功能,人们利用w 曲技术在互联网上建立电子业务处理系统, 实现了电子商务和电子政务。 此外,h t 锄e t 的许多其它功能,如e m a i l 、t e l n e t 、f t p 、w a i s 等都可 通过w 曲实现。 正是w 曲所具备的这些特性,使到w 曲技术迅速在互联网上传播开来, w w w 成为互联网上最为流行的信息服务方式,w w w 几乎成了h l t e n l e t 的代名 中山大学硕士学位论文基于w 曲口志的用户访问模式挖掘 词。自1 9 9 5 年以来,互联网用户数量呈指数增长趋势,平均每半年翻一番,互 联网以w e b 方式提供的信息服务更是层出不穷。【2 j ,4 j o 】 根据中国互联网络信息中心2 0 0 7 年7 月公布的第2 0 次中国互联网络发展 状况统计报告显示,截至2 0 0 7 年6 月,中国网民总人数达到1 6 2 亿,仅次于 美国2 1 1 亿的网民规模,位居世界第二;中国上网计算机数达到6 7 1 0 万;中国 网站数量已经达到1 3 1 万个。互联网已经充分融入中国网民日常的生活、工作、 学习以及娱乐之中,成为了人们获取信息的一种重要手段。w 曲服务是互联网重 要的网络服务方式,中国网民通过w 曲站点获取各种信息服务,如阅读新闻、 搜索信息、收发邮件、即时通讯、传输文件、在线影视音乐收看( 听) 及下载、 进行网上游戏、参与论坛b b s 讨论组、建立博客社区等。【7 j 目前,w 曲服务正逐步从w 曲1 0 向w 曲2 o 的转变,w 曲用户已经不再满 足于只是作为信息服务的消费者,他们还希望成为信息服务的生产者。在w 曲 运行模式上,用户不仅从w 曲站点读取信息,还可以在w 曲站点上撰写信息, 与w 曲站点信息服务提供者共同建设w 曲站点。w 曲站点由“c l i 酬s e r v e r 向 “w 曲s e i c e s ”转变,w 曲站点的管理工作也从专业人员专职管理逐步过渡到 专业人士与普通用户共同参与管理。【8 9 j 通过互联网,人们突破了原先在时间和空间上的限制,拉近了人与人之间的 距离,扩大了人类的生存空间。互联网推动了知识经济时代的到来,改变了人类 的生产方式和生活方式,促进了人类社会的政治、经济、教育、文化、科技等各 个方面向更高阶段的发展。在这一变革进程中,w e b 服务无疑起着及其重要的促 进作用。 1 1 2 内联网管理面临的问题 互联网的开放性以及w e b 技术的推广普及,用户可以方便地从互联网上获 取各种网络信息服务,但与此同时也带来相关的信息安全问题。为了既可充分利 用成熟的互联网技术,又能兼顾信息安全要求,人们创造了一种新的网络互联方 式i i l 心a i l e t 。 h l t r a i l e t ( 在本文中i n 仃a n e t 译作内联网) 是一种将h l t e m e t 技术应用于一个 组织机构内部,仅供机构内部使用,实现机构内部信息处理的网络互联方式。内 联网采用t c p i p 协议作为通信协议,主要以w 曲技术建立业务应用系统,对外 具有与因特网连接的接口,有相应的安全设施,防止内部和外部的攻击。 随着电子政务及电子商务的兴起和流行,越来越多的政府部门和企事业单位 纷纷建立起本部门的内联网来完成业务处理工作。为了保障内联网的信息安全, 通常要求内联网与互联网做到物理隔离或者逻辑隔离;同时为满足内联网用户对 互联网信息的需求,又通常采用代理方式,让用户通过代理服务器访问互联网。 目前网络管理普遍面临着信息安全保障以及网络资源有效分配等两方面的问题。 一、网络信息安全保障问题 内联网同时面临来自外部和内部两方面的安全威胁。虽然防火墙等安全保护 措施可以对付来自外部的安全威胁,但是更多网络信息安全问题来自于内部,具 体表现为内部人员的恶意破坏或者操作不当等。 内联网用户分布在各地,其访问动机和操作行为是千差万别的,访问内容可 能与工作有关,也可能与工作无关,在访问互联网的过程中,用户可能会接触到 中山大学硕士学位论文基于w 曲日志的用户访问模式挖掘 不良甚至有害信息,有意无意进行不当操作。根据实际观察,一些内联网用户在 办公期间访问互联网并没有从事与其工作无关的事情,而是从互联网下载与业务 无关的软件、游戏、电影或m p 3 文件等,存在使用聊天、股票、q q 等p 2 p 软 件的情况。 由于界面友好以及方便易用的特点,在用户的桌面环境中w 曲浏览器成为 了主要的客户端工具。在用户进行互联网访问时,病毒、黑客、木马类间谍软件 等有害信息能够通过各种途径不知不觉中侵入到业务网络中来,例如一些病毒会 以嵌入在网页中的a c t i v e x 等可执行代码形式进入到内部网络。 二、网络资源分配问题 当前内联网的主干网络速率已达到千兆级,用户桌面网络速率达到百兆级, 内联网连接互联网的链路带宽也在百兆以上,但是与用户的需求相比,网络资源 则显得供不应求。用户在上班时间集中访问互联网是内联网的普遍现象,用户大 量的访问请求集中于某一时间段,往往容易造成代理服务器负荷加重,用户请求 响应时间过长甚至超时而致使代理服务中断。 通过分析内联网代理服务的工作机制可以寻找到造成这些问题的原因。在代 理服务工作过程中,内联网用户向代理服务器发出访问请求,代理服务器接受用 户访问请求,然后以自身的i p 地址为源地址向用户请求的w 曲服务器发出请求, 在互联网上的w 曲服务器响应请求后将请求内容返回代理服务器,代理服务器 再将请求内容返回内联网用户。在这一过程中,用户请求的响应时间长短与以下 几个因素密切相关:用户端与代理服务器之间的通讯是否通畅;代理服务器 所能承担的工作负荷,即能够处理的请求任务数量;代理服务器与w 曲服务 器之间的i n t e n l e t 链路是否通畅;w 曲服务器处理请求的响应能力。 在内联网中,用户桌面带宽一般都在1 0 0 m b 以上,用户端与代理服务器之 间的通讯是不成为问题的。代理服务器与m t e n l e t 连接链路在通常情况下是有保 障的,因为有租用合同的法律约束。w 曲站点对用户请求的响应能力则取决于站 点服务器的性能高低以及网站信息是否便于用户检索,这些不属于内联网管理的 工作范围。因此,解决网络资源分配问题的关键在于提高代理服务的处理能力。 三、解决问题的方法和途径 针对网络安全和资源分配等管理问题,有三种解决方式可供选择:一是限制 用户使用,规定用户只能在网络管理部门限定的范围内访问互联网来保障信息安 全,并要求用户错开时间进行访问操作,以减轻代理服务器的负荷和减少并发的 网络流量;二是增加网络资源,通过提高互联网进出口链路的带宽、扩充代理服 务器的软硬件以及增加各种安全设施来达到管理目的;三是对用户访问请求实施 有效的调度管理,通过对用户访问行为的分析研究,根据管理要求和用户需求来 制定相应的管理策略,对用户访问请求实施调度管理,既可合理分配资源以满足 用户合法需求,又能保障信息安全。 由于工作需要,用户随时要从互联网获取和传递信息,这种合理的工作需求 不应受到限制而且必需得到满足。网络管理的根本目的是通过科学管理最大限度 地利用网络资源,使用户能够获得足够的网络资源来满足其合理的工作需求。限 制用户使用互联网的管理方式显然不符合网络管理的根本目的,所以第一种解决 方式是不可取的。 第二种解决方式则需要增加资金的投入。在实际应用中不可能没有限制地依 靠增加资源的方式来解决问题,毕竟资源总是有限的,而需求却是无限的,所以 这种解决方式并不是长久之计。 中山大学硕士学位论文基于w 曲日志的用户访问模式挖掘 第三种解决方式是立足在现有条件的基础上,通过对用户访问请求进行合理 有效的调度管理,实现资源利用最优化,那么无论当前网络的资源配置水平如何, 总能够使到资源利用率达到最高,从而最大限度地满足用户的需求。 对上述三种方式作比较之后可知,第三种解决方式,即对用户访问请求实行 有效的调度管理是提高代理服务处理能力、解决存在问题最为可取的办法。当然, 在实际应用中如果条件允许的话,通过增加网络资源以及有效调度管理等两种方 法同时并用,则无疑可提高代理服务的质量和水平。 对用户访问请求的有效管理应该达到以下的管理目标: 1 、对用户的访问请求进行审核,将与工作事务无关的访问请求过滤掉,减 轻代理服务器的工作负荷,释放被挤占的网络带宽。 2 、将用户访问行为限制在合法的范围内,保障网络信息安全。 3 、根据用户访问网站的情况,可以预知哪些网站是用户经常访问的,可以 预先下载相关内容存入代理服务器的缓存,避免大量的用户重复访问相同的内容 而挤占有限的带宽。 要实现以上管理目标首先要发现和掌握用户访问行为规律,然后再根据用户 的特点制定相应的管理策略,规范用户访问互联网的行为,杜绝非法操作,保障 网络安全,高效分配网络资源,为用户建立一个高效、快速、安全的互联网访问 环境。 现在关键的问题在于分析人员从什么地方去收集用户信息以及如何从中发 现用户访问行为规律。 代理服务器介于w e b 客户端和w 曲服务器之间,是用户与互联网网站之间 的通道和桥梁,它首先接收客户端的请求,接着从服务器端取回相应的页面,最 后将页面返回给客户端。代理服务器可同时为多个用户提供代理服务,用户每一 次对互联网的访问活动都以日志的形式记录在代理服务器中,访问日志信息包括 用户的i p 地址、访问的网站域名( 地址) 、访问时间、传输量等内容,它体现了 请求方与服务方之间多对多的关系,隐含着用户访问行为规律的信息。通过对代 理服务器访问日志的分析,可以了解到哪些用户经常访问互联网,用户会经常访 问哪些网站内容,访问请求一般发生在什么时间,持续时间有多长等用户特点, 这些信息为网络管理提供了决策依据。 目前代理服务器也自带了统计工具,但这些工具只能提供诸如每天访问次数 最多的网站、操作次数最多的用户等方面的简单信息,网络管理人员还无法直接 掌握到用户的访问行为规律。代理服务器每天产生数百万条同志记录,如果依靠 人工方式来分析和整理,必然会花费网络管理人员大量的时间和精力。面对复杂 的网络环境以及多变的应用需求,为了能够及时、有效地管理网络资源,网络管 理人员迫切需要运用w 曲挖掘技术对访问日志进行深入分析。 1 2 研究内容及方法 1 2 1 研究主题及数据的选择 由于w 曲技术的广泛应用,基于w 曲日志的用户访问模式挖掘问题正日益 成为人们关注的研究领域。本文研究主题是运用数据挖掘技术对w 曲日志进行 中山大学硕士学位论文基于w 曲日志的用户访问模式挖掘 挖掘分析,获取用户访问模式,为网络管理提供决策信息。 人的行为是指为达到一定目的而进行的活动,它包括行为的主体、客体、时 间、地点、原因、结果等基本要素。行为模式则是人们习惯性或者是相对固定的 行为方式,往往在实施对象、发生时间等行为基本要素方面具有重复性或者关联 性。 用户访问互联网目的在于获取其所需的信息和信息服务,所以用户访问行为 涉及三个基本要素:用户、访问时间以及访问对象。用户是访问行为的实施者, 访问时间即访问行为的发生时间,访问对象是用户从互联网上访问的信息或者获 取的信息服务,即访问行为的实施对象。 用户访问行为被分为如下4 类【l o 】: l 、单个用户对单个站点的访问; 2 、单个用户对多个站点的访问: 3 、多个用户对单个站点的访问; 4 、多个用户对多个站点的访问。 在用户访问操作过程中,相关的访问操作信息被记录在w 曲服务器、客户 端以及代理服务器的日志文件中。在w 曲服务器上,服务器日志记录了多个用 户对单个站点的访问操作信息;在客户端计算机上,客户代理日志记录了单个用 户对单个站点或单个用户对多个站点的访问操作信息;而在代理服务器上,代理 服务器日志则记录了多个用户对多个站点的访问操作信息,与此同时,代理服务 器内部c a c h e 还保存了用户的访问内容。 本文选择代理服务器的w 曲日志作为数据挖掘对象,以此研究多个用户与 多个站点之间的多对多的访问关系,从中挖掘出用户群体的访问模式。 在通常情况下,人们习惯于以一个月为一个周期来编制作息计划,所以遵循 人们的普遍习惯,本文以一个月为研究周期,以月度的代理服务w 曲日志数据 作为研究对象,每月进行一次用户访问模式的分析和挖掘。本文中所使用的w 曲 日志数据来自于实际内联网的代理服务器,选取了在2 0 0 7 年1 月期间内联网所 有用户的访问操作信息。 1 2 2 研究内容及其方法 事物是相互联系的,从同常的观察中可以得到以下基本事实: 1 、用户在一定时期内的访问次数体现了用户对于网络的依赖程度; 2 、用户访问行为的发生时间与用户的工作生活安排相关; 3 、用户的访问内容与用户的兴趣和需求相关。 4 、用户的访问行为必然对网络运行状况产生相关影响。 基于以上事实,从网络管理的需要出发,本文根据w 曲日志挖掘的处理步 骤,首先对原始的w 曲日志进行了预处理,在此基础上运用统计方法、回归分 析方法以及关联规则方法等数据挖掘技术对w 曲日志数据进行了分析挖掘,获 取了用户的访问操作特点,分析了用户访问行为对于网络运行所产生的相关影 响,发现了用户的访问行为规律,为网络管理提供了决策信息。 本文从以下两个方面对用户访问模式进行分析挖掘: 一、对用户访问行为的特点进行分析,掌握用户访问行为的规律 用户访问行为特点可以从用户类型、时间特征和信息需求特征等三方面来描 中山大学硕士学位论文基于w 曲日志的用户访问模式挖掘 述,因此对用户访问行为的特征挖掘可以分解为以下三个子问题: 1 、用户群组成结构特点的挖掘问题 对网络依赖程度不同的用户必然具有不同的访问特点,这些不同访问习性的 用户共同组成了网络的用户群。运用统计方法发现不同类型的用户,有助于准确 地区分和发现不同类型用户的访问行为特点。 2 、用户访问行为的时间特征挖掘问题 运用统计方法对用户在不同时间段的访问情况以及用户访问操作的持续时 间特点进行分析挖掘,揭示各类用户会在什么时间发出访问请求以及访问过程会 持续多长时间的行为规律;运用回归分析方法建立预测不同时间段用户访问量的 回归方程式,在用户群不变、用户访问行为不变以及网络配置不变的假设前提下, 可以预测各时间段的用户访问量。 3 、用户访问行为的信息需求特征挖掘问题 运用统计方法分析用户的信息需求结构,揭示用户对于各类信息的需求程 度;运用关联规则方法对信息需求的相关性进行挖掘,揭示用户在访问一种信息 ( 或者获取一种信息服务) 的同时访问另一种信息( 或者获取其他信息服务) 的 可能性。 二、分析用户访问行为对网络运行状况的影响,掌握网络运行状况的变化 规律 用户群的访问行为必然对网络的运行产生影响,对此首先需要分析影响网络 运行的因素,找出起主要作用的因素;其次掌握用户访问行为对网络运行影响的 规律,以预测不同时间段的网络运行状况。因此,可从两个方面进行分析挖掘: 1 、影响网络运行的因素分析 运用统计方法从用户类型、用户信息需求以及用户访问时间等三个方面分析 用户访问行为对网络运行状况的影响,发现影响网络运行的主要因素。 2 、预测分时段的网络运行状况 通过分析用户访问时问与网络运行状况之间的数量关联性,可以在用户群不 变、用户访问行为不变以及网络配置不变的假设前提下,预测各时间段的网络运 行状况,这对于网络调度管理有极大的帮助。 数据挖掘任务可以分为描述性挖掘和推断性挖掘。在上述研究问题中,预测 不同时间段用户访问量以及预测分时段的网络运行状况问题属于推断性挖掘问 题,其余挖掘问题则属于描述性挖掘问题,两者结合起来可以较为全面地揭示用 户的访问行为规律。 本文采用了t r a n s a c t i o n s q l 语言来编制实现数据挖掘的处理程序,并在 m s s o ls e e r2 0 0 0 数据库上运行数据处理程序来处理w 曲日志数据,获得了 体现用户访问行为特点的相关数据。通过对这些数据的分析研究,网络管理人员 可以及时地掌握用户的行为规律,制定出有针对性的管理措施来保障信息安全和 有效分配网络资源。因此,本文所提出的数据挖掘分析方法适用于日常的网络管 理工作。 中山大学硕上学位论文基于w 曲日志的用户访问模式挖掘 第2 章w 曲挖掘概述 w 曲服务是目前互联网发展最快、最为流行的一种网络服务,w 曲站点数 量不断递增,w 曲信息内容丰富而且随时被更新。与此同时,互联网用户数量也 在不断增长,用户需求日益多样化。对于网站的管理者而言,只有掌握用户的访 问兴趣、访问频度、访问时间等情况,才可能有针对性地优化网站信息服务,吸 引和留住用户。对于用户来说,则希望以最简捷的方式来获取最精确的信息和享 受到个性化的服务。解决这两方面的需求最好的办法就是w 曲挖掘,即运用数 据挖掘的思想和方法,在w 曲站点上挖掘出对网站的管理者和用户有用的信息。 本章对参考文献 1 0 ,1 1 ,1 2 ,1 3 ,1 4 的相关内容进行了整理和归纳,以简要的方式介 绍w 曲挖掘。 2 1w e b 挖掘的分类 w 曲挖掘可定义为:应用数据挖掘方法对w 曲页面内容、页面之间的链接 以及用户访问信息等各种w 曲数据进行分析,帮助人们从中提取知识,为访问 者、站点管理者以及包括电子政务和电子商务等基于互联网的业务活动提供决策 支持。 w 曲挖掘可分为w 曲内容挖掘( w 曲c o n t e n tm i i l i n g ) 、w 曲使用模式挖掘 ( w 曲u s a g em i n i n g ) 和w 曲结构挖掘( w 曲s 仃u c n 鹏m i i l i n g ) 三种类型。 一、w 曲内容挖掘 w 曲内容挖掘是指对w 曲页面的内容挖掘。w 曲页面信息主要包括文本信 息和多媒体信息,所以w 曲内容挖掘又可分为对w 曲页面文本信息的挖掘以及 对w 曲页面多媒体信息的挖掘。 w 曲内容挖掘的主要应用: 1 、提升搜索引擎的功能,使之具备更高效和更强大的检索服务。因此,w 曲 内容挖掘被认为是w 曲检索的延伸。 2 、根据页面内容的相似度进行用户的分类或聚类。 3 、为用户提供个性化服务。通过对用户过往检索内容的分析,预测用户可 能的需求。 二、w e b 使用模式挖掘 w 曲使用模式挖掘是对用户访问w 曲站点过程中记录下来的访问日志进行 挖掘,以挖掘出单个用户或群体用户的访问模式,因此w 曲使用模式挖掘也称 为w 曲访问信息挖掘、w 曲日志挖掘或者w 曲使用记录挖掘。 在用户浏览w 曲站点时,在w 曲服务器、用户客户端以及代理服务器上的 日志文件中记录下用户访问的基本情况,这些日志文件是w 曲使用模式挖掘的 主要数据源。 目前常用w 曲使用模式挖掘方法主要有路径分析、关联规则和序列模式的 发现、聚类和分类等。 w 曲使用模式挖掘的主要应用: 1 、改进w 曲站点的服务水平。通过对用户访问信息的挖掘,得到大多数用 中山大学硕士学位论文基于w 曲口志的用户访问模式挖掘 户的访问习惯、爱好和其他有用信息,利用这些信息可以指导网站管理者改进站 点结构和布局,以吸引更多用户。 2 、实现个性化推荐。个性化服务是网站争取更多用户、防止用户流失的重 要手段。 3 、发现导航模式。导航模式是指群体用户对w 曲站点内页面的浏览顺序模 式,导航模式是实现用户个性化服务的基础。 4 、分析访问特征。通过对客户端、服务器端、代理服务器端等不同用户访 问信息的挖掘,可以得到关于用户交互情况和导航情况的详细信息。在此基础上 建立模型,用于预测在一个给定站点上一个用户所访问的页面的概率分布。访问 信息的特性可以被用于在w 曲服务器上开展伸缩性和负载均衡的研究等方面。 三、w e b 结构挖掘 w 曲结构挖掘是对w 曲页面之间的链接关系进行挖掘,目的在于发现w 曲 站点的组织结构和网页链接关系,寻找蕴含在其中的有用模式。可以对页面及其 链接进行分类和聚类,以改善w 曲站点的页面组织和为用户浏览提供帮助。 2 2w e b 使用模式挖掘 本文的研究主题是对代理服务器的w 曲日志数据进行挖掘,发现用户群的 访问行为模式,属于w 曲使用模式挖掘的研究范围,因此下面对w 曲使用模式 挖掘作进一步的阐述。 一、w e b 使用挖掘对象 用户访问行为可划分为单个用户对单个站点的访问、单个用户对多个站点的 访问、多个用户对单个站点的访问、多个用户对多个站点的访问等4 类。 在用户访问过程中,用户访问行为的相关信息被记录在w 曲服务器、用户 客户端以及代理服务器中。在w 曲服务器方上,服务器日志记录的是多个用户 对单个站点的访问行为。在客户端计算机上,客户端访问代理记录的是单个用户 对单个站点或单个用户对多个站点的访问行为。在客户端代理服务器上,代理服 务器记录的是多个用户对多个站点的访问行为,同时代理服务器的缓存还记录了 多个用户对多个站点的访问内容。 分布于w 曲服务器、用户客户端以及代理服务器中的用户访问信息是w 曲 使用模式挖掘的数据对象。 二、w e b 使用模式挖掘过程 w 曲使用模式挖掘主要包括预处理、模式发现和模式分析等处理步骤。 1 、预处理 预处理是整个数据准备的核心工作和w 曲挖掘中关键的环节,是开展下一 阶段挖掘的基础,其质量好坏关系到挖掘结果的质量。预处理主要包括数据清洗、 用户识别、会话识别、路径补充和事件识别等步骤。 数据清洗其目的在于把日志中与数据分析、挖掘无关的项和记录清除掉。 用户识别是预处理的第二步。日志文件只是记录了主机或代理服务器的球 地址,要识别每一个用户,则需用c o o k i e 技术和启发规则来帮助识别。 会话识别是将w 曲页的访问序列组织成逻辑单元,以表征用户一次连续的 访问行为。会话识别的目的就是将用户所有的访问记录划分成单个的会话,一般 采用超时识别方法,当用户请求的页面之间的时间超过一定间隔,则认为用户开 中山大学硕士学位论文基于w 曲日志的用户访问模式挖掘 始了一个新的会话。 路径补充目的在于确认w 曲日志中是否有重要的页面访问记录被遗漏,如 果存在则将这些遗漏的请求补充到用户会话文件之中。 事件识别与要挖掘什么样的知识有关,针对挖掘目的将用户会话进行事件定 义。 2 、模式发现 在预处理之后,选择合适的挖掘方法和合适的模式来形成用户希望得到的知 识。对于预处理后得到的w 曲访问事务集,有许多挖掘技术可供使用,如统计 分析、关联规则、分类、聚类、序列模式等技术。 统计分析是分析用户行为最常用的方法。通过求出现率、求平均、求中值等, 统计最常访问的网页,每页平均访问的时间,浏览路径的平均长度等,以获得用 户访问行为的基本信息。 关联规则是通过分析用户访问网页间的潜在联系而归纳出的一种规则。关联 规则是如下的一种形式规则,如8 0 的用户在访问w 曲页面a 的同时,有可能 访问b 。在w 曲使用模式挖掘中,人们经常使用的a p r i o r i 算法或其变形算法。 聚类是把一组个体按照相似性归并成若干类别。在w 曲访问信息挖掘中, 聚类分为用户聚类和网页聚类。用户聚类是将具有相似访问特性的用户归为一 类,网页聚类是将内容相关的页面归在一个网页组中。 分类是将一组个体分门别类地归入预先设定类中。在w 曲访问信息挖掘中, 常用决策树、贝叶斯算法、k 近邻分类器等分类方法。 序列模式的目的在于找出页面依照时间顺序出现的内在模式。 路径分析最常见的应用是判定在一个w 曲站点中被最频繁访问的路径,利 用这些信息就可以更精细地来改进站点的设计结构。 3 、模式分析 模式分析是w 曲使用模式挖掘的最后一项步骤,通过选择和观察,将发现 的规则、模式和统计值转换为知识,再经过模式分析得到有价值的模式,即我们 感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。 中山大学硕士学位论文基于w 曲口志的用户访问模式挖掘 第3 章用户访问行为的特征分析 人的行为是指为达到一定目的而进行的活动,它包括行为的主体、客体、时 间、地点、原因、结果等基本要素。用户访问互联网行为的要素包括用户、访问 时间、访问对象,其中用户是访问行为的实施者,访问时间即访问行为的发生时 间,访问对象是用户从互联网上访问的信息或者获取的信息服务,即访问行为的 实施对象。因此,可以用三元组 来描述用户 的访问行为,其中用户标识用于区分用户,具有惟一性,通常是用户名或者用户 i p :访问时问是用户发出请求的时间,体现了用户访问行为的时间特性;访问对 象是用户请求的u r l ,体现了用户的信息需求特性。 代理服务是内联网最为常用的服务方式,代理服务器是内联网与互联网的接 口,w 曲日志记录了内联网用户群与互联网w 曲站点群之间访问与被访问的关 系,这是一种多对多的关系。w 曲日志数据提供了详细的用户访问操作信息,可 作为用户访问模式的挖掘数据。本文中所用的w 曲日志数据来自于实际内联网 的代理服务器,选取了在2 0 0 7 年1 月期间该内联网所有用户的访问操作信息。 本章根据w 曲使用挖掘步骤,以实际的月度w 曲日志数据为挖掘对象,运 用统计分析方法、回归分析方法以及关联规则方法对w 曲日志数据进行了较为 深入和全面的分析挖掘。 3 1 研究内容与分析步骤 一、研究内容 事物是相互联系的,不同访问习性的用户必然具有自身独特的行为特点,而 用户访问行为又与用户的作息安排和信息需求存在着相关性。从日常的观察中可 以认定以下基本事实: 1 、用户在一定时期内的访问次数体现了用户对于网络的依赖程度; 2 、用户访问时间与用户的工作生活安排相关; 3 、用户访问内容与用户的兴趣和需求相关。 上述事实与用户访问行为三大要素相对应,用户访问行为要素的特点共同构 成了用户访问模式的特征,所以本章从用户群的组成结构、用户访问行为的时间 特征和信息需求特征等三个方面对用户访问行为的特征进行分析挖掘。 二、分析步骤 本章按照数据挖掘处理步骤对w 曲日志数据进行分析挖掘,以获取用户访 问模式。具体步骤如下: 第一步,对原始w 曲日志数据进行预处理。 预处理是数据挖掘最为基础和关键的步骤,直接影响到数据挖掘的质量和效 率。在预处理过程中,对原始w 曲日志数据进行数据清洗和整理,剔除无关的 记录,提取与研究相关的属性数据,并进行数据特征化处理,形成用户会话数据, 为下一步的挖掘处理做准备。 第二步,运用统计方法对用户群的组成结构进行分析挖掘,揭示用户群的结 构特点。 第三步,运用统计方法对用户在不同时间段的访问情况以及用户访问操作的 中山大学硕士学位论文基于w 曲日志的用户访问模式挖掘 持续情况进行分析,揭示各类用户会在什么时间发出访问请求以及访问过程会持 续多长时间的行为规律;同时运用回归分析方法建立预测不同时间段用户访问量 的回归方程式。 第四步,运用统计方法分析用户的信息需求结构,揭示用户对于各类信息的 需求程度;运用关联规则方法进行信息需求相关性的挖掘,揭示用户在访问一种 信息( 或者获取一种信息服务) 的同时会访问另一种信息( 或者获取另一种信息 服务) 的可能性。 在通常情况下,人们习惯按月度来编排工作计划,因此本文以月度w 曲日 志数据作为研究对象,以一个月为研究周期对用户访问模式进行分析挖掘,以此 为基础可以预测用户在下一个月的访问行为。这些分析研究有助于网络管理人员 定期掌握用户的行为特点,及时制定出相应的管理措施,保障信息安全和有效分 配网络资源。 3 2 预处理 3 2 1 预处理的必要性 w 曲日志详细地记录了所有用户每一次的访问操作过程。 当用户打开浏览器后,首先要输入u r l 或点击链接,浏览器向代理服务器 发出访问请求,代理服务器从w 曲服务器取回请求页面返回给用户;接着用户 可能有两种选择:一是在返回的页面上继续点击链接,搜索其感兴趣的内容;二 是中断当前页面的浏览,另外输入u r l 浏览其他网页。在用户操作过程中,如 果由于用户操作失误而输入错误或无效的u r l ,或者u r l 对应的w 曲信息已经 不存在,那么用户的此次操作将是无效的。 用户的访问过程一一如实地被记录在代理服务器的访问日志中。因此,原始 的w 曲日志数据量庞大,而且包含一些用户无效操作或者错误操作的信息。 w 曲日志通常为w 3 c 的e l f f ( e x t e i l d e dl 0 9f i l ef o m a t ) 格式文本文件, 本文所用的w 曲
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030二手奢侈品电商平台商业模式创新研究报告
- 2025-2030中国风电设备连接系统技术创新与市场机会研究报告
- 2025-2030中国青年公寓行业数字化运营及发展策略研究报告
- 2025-2030中国青年公寓行业技术创新与投资潜力评估报告
- 2025-2030中国青年公寓绿色建筑与可持续发展战略报告
- 2025-2030中国青年公寓市场政策变动与行业调整趋势报告
- 高端精密模具研发生产项目2025:数字化制造可行性分析报告
- 2025年高速内圆磨床项目规划申请报告
- 2025年煤及矿产品批发服务项目立项申请报告
- 流筛选算法的跨学科研究-洞察及研究
- 防台风安全教育培训课件
- 《车用氢气传感器》
- 颈椎病治疗指南
- 普通饮片车间共线生产风险评估报告
- 物业员工安全知识教育培训
- 江苏省江阴市河塘中学2024-2025学年七年级上学期10月阶级段性练习语文试题
- GB/T 8492-2024一般用途耐热钢及合金铸件
- 读懂诗家语省公开课金奖全国赛课一等奖微课获奖课件
- EPC模式承包人建议书与承包人实施方案
- 主动防护网施工方案
- 2023年陕西省直和西安市接收军转干部划分条件
评论
0/150
提交评论