已阅读5页,还剩72页未读, 继续免费阅读
(计算机软件与理论专业论文)web日志用户群体分析系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 、 一 j | 8 7 9 二5 3 本人声明,所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽本人所知,除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得北京交通大学或其他教学机构的学位或证书而使用过的 材料。与我一起工作的同志对本研究所做的任何贡献已在论文中作了 明确的说明并表示了谢意。 本人签名: 日期:卫d 年土月日 北京交通大学硕士学位论文 关于论文使用授权的说明 本人完全了解北京交通大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校 可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。论文中所有创新和成果归北京交通大学计算机与信息技 术学院所有。未经许可,任何单位和个人不得拷贝。版权所有,违者 必究。 2 本人签名:必 日期:望量年土月日 摘要 随着互联网的快速发展,搜索引擎、门户网站等网络产品后台产生了大量 的w 曲日志。然而。原始的w 曲日志都是些一维的记录式数据,其格式大致上 都是“【某人】【某时】【用搜索引擎查询了某个关键词或者浏览了某个门户网站的网 页】”,从大量这样的曰志中获取用户信息是很困难的。 本文以w 曲挖掘理论为基础,以w 曲日志分析发展现状为背景,提出将多 个网络产品的w 曲日志结合起来进行分析,从中提取网络用户的群体特征,服 务于w e b 广告商和广大网络用户。并完成了一个w 曲日志用户群体分析系统的 设计与实现。 w 曲日志用户群体分析系统把关注点放在用户群体特征上,对大量的w 曲 日志数据进行整理和统计,生成多维的关于用户群体特征的信息。比如网络用 户中的男女比例、年龄分布、婚姻状况、职业分布、国家地区分布和所使用的 语言特征等等,并且把这些信息用直观的柱状图、饼状图或曲线图展示给广告 商或者其他感辫趣的用户看。 系统还生成一些关于搜索引擎热门查询关键词的统计报告,显示在段时 间内哪些关键词被查询的次数最多,并且用曲线图描绘出这些热门关键词在一 段时间内的变化趋势。 另外,系统对网址的访问情况进行全方位统计,对于网址管理者改善用户 体验有着很重要的参考价值。 本文的整个思想裁是从大量掩b 日志数据中提取有意义的信息。为广告商 提供用户群体特征,提高广告投放的效益。网络访问统计信息可以用于网站管 理员了解w 曲用户的情况,改善用户体验。 w 曲日志用户群体分析系统进一步丰富了w e b 日志分析的内容,并且使服 务对象更加广泛。 关键词;w e b 挖掘,w 曲日恚分析,用户群体特征,热门查询关键词, 网络访问 l 北京交通大学硕士学位论文 a b s 觚c t w i 山山er a p i dd e v e l o p m e n to fw e b r v i c c ,w e bp 砌u c t sj u s t 船s e a r c h 锄g i n e s a n dp o n a ls i t e sg e f a t ea1 缸g em 皿b e ro fw e bl o 簪t h er a wl o g sa r es i n g l e d i n 豫璐i o nd a t aj 璐t 鸹r c c o r d sw i i h 山ef b i n _ l a t “【s o m e b o d y 】【s o m e t i m e 】【v i e w e d s o m ep a g eo r a r c h e ds 0 i eq u e r y b ys e a r c he n g i n e 】,i ti sv e r yd i 伍c u l tt os q u e e z e s o m ev a l u a b l ei n f o 咖a d o nf r o m 山el o gs e a t h et h 髓i sp r 叩o san e wa p p 珏c a t i o no fw e b1 0 9 柚a l y s i sb a s e do nw 曲m i n i g t h e o r y t h en e wi d e ai st 0e x t r a c tw e bu r s p m 衄e sb ya n a l y z i n gt 量i ec o m b i n e dw e b l o go fs e v e r a lw 曲p r o d u c t s a n dc h ea p p l i c a t i o ns e r v e sf o ra d v e n i s e r s 姐do t h e rw e b u s e 墙 t h ew e bl o gu s e i s p r o f i l e s 柚a 】笋i ss y s i e mf o c u s e so n 璐e r s p m f i l e ss u c h 勰 g e n d e a g c ,m a f i 眦s t a t u s ,o c c u p a t i o n ,c o l i n t r y ,l 柚g u a g e 姐ds oo a di td i s p l a y s t h es t a t i s t i c sb y l u 脚擎a p h ,p i e 伊a p ho rl i n e 簪a p h t h es y s i e ms h o w st h eg r a p h s i oa d v e r t i s e r sa n do n 岵ru s e r s t h es y s t e ma l g e n e r a t c ss o m es t a t i s n c s 即o r to fs e a r c hq u e i i e s ,a n ds h o w s w h i c hq 眦r i e sa r et h eh o t t 嚣to 肿s a n dt h e 骶n do ft h eh o tq u 厢e sw n lb ea l s o d i s p l a y e d 1 na d 曲i o n ,t h es y s t e 】nc 柚s h o w t h e 咐o r k l l s a g e0 fs o m eo n e w e bs i t e t i l i s i sv e r yu s e f u lf o fw c bs i c ca d m i n i s 姐t o r st 0i n 巾f o v eu s e r 麟p c r i 叩c e 1 kc 即仃a lt h o u g h to ft h en 地s i si s 懿t r a c tv a l u a b ki n f 0 珊t i o nn d mal a 增e n 啪b e ro fw e bl o g s t h ei n f 0 加a t i o a b o u tu r s p r 0 6 l e sh e l p s 也ea d v e r t i s e r s i n c r e a 也eb e n 西t0 f t h e a d s ,粕d t h e i n f o 皿a 曲na b o u tn e 脚o f k l l s a g e i su db y 、e bs i i ea d i 删s t r a t 0 俗t 0i m p r o v ct h e 惦c rc x p e r i e t h ep a p e rd e s c 曲e san e w 、c bl o g 柚a l y r 如c 岫i n go nu s c rp m 彤e s k e yw o r d s :w e bn l i n i 】唱,w e b1 0 9 皿a i y s i s ,吣e rp r o f i l e s ,h o tq u e r i c s ,n e t w o r ku s a g e 2 1 1 研究背景 1 绪论 1 1 1 w 曲发展及研究现状 w w wn o d dw i d cw 曲) 起源于欧洲粒子物理研究中心( c e r n ) , 它是1 9 8 9 年由c e r n 的物理学家胁b e m e r s 领导开发的、用于在高 能物理协会的科学家之间传递和共享新的思想和研究成果的超文本 系统。w w w 以其开放、自由的信息服务方式和丰富多彩的内容吸引 了众多的开发者和使用者,一经出现,就得到了迅猛的发展,目前己 经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网 络,为用户提,共了一个极具应用和研究价值的信息源,并已成为世界 范围内信息共享和信息传播的最主要渠道之一。 围绕w 曲的研究大致可分三个方向,即w w w 系统技术,w e b 平台以及w c b 数据源。 ( 1 ) w w w 系统技术主要是由国际标准化组织和主要软件厂商进 行的对w w w 系统中关键技术的研究,包括叽1 甲协议。 h n 几语言,代理技术等。 ( 2 ) w 曲平台主要是在工业界内开展的把w 曲作为支持应用的信 息基础设施研究,包括搜索引擎、门户网站、远程教学、视 频点播等。 ( 3 ) w 曲数据源主要是把w e h 作为一个分布数据源研究,包括w c b ( 3 ) w 曲数据源主要是把w e h 作为一个分布数据源研究,包括w c b , 北京交通大学硕士学位论文 中的资源发现,数据模型和查询语言等。 1 1 2 w 曲日志的产生和意义 随着i n t e m e t 上w e b 服务的迅速发展,几乎各个政府部门、公司、 大专院校、科研院所等都在构建或正在建设自己的网站。而与此同时, 在构建网站建设中各个单位都会遇到各种各样的问题,那么对w c b 服务器的运行和访问情况进彳亍详细和周全的分析对于了解网站运行 情况,发现网站存在的不足,以促进网站完善和发展的重要性是不言 而喻的。尤其对于以w e b 服务为关键业务的互联网公司来说,更是需 要时刻监控服务器是否正常地提供服务,出现服务中断会对公司的业 务造成巨大的影响。因此,加强对w e b 服务器的监控和管理,对于每 一网站都是十分重要的课题。 管理w e b 网站不只是监视w e b 的速度和w e b 的内容传送,它要 求不仅仅关注服务器每天的吞吐量,还要了解对这些w e b 网站的外来 访问,了解网站各页面的访问情况,根据各页面的点击频率来改善网 页的内容和质量、提高内容的可读性,跟踪包含有商业交易的步骤以 及管理、桃b 网站“幕后”的数据等。由此可见,对w e b 服务器的监 控内容是很丰富的,对w e b 网站方方面面的信息都需要了解。 用户体验( u s e r e x d e r i e n c e ) 【1 1 ,成为时下互联网界内最为时髦和 关注的名词,也是一个网站能否吸引大量访问用户的一个重要指标。 为了更好地提供w e b 服务,监控、b 服务器的运行情况,了解网站 内容的详细的访问状况就越来越显得重要和迫切了。 上述要求都可以通过对w e b 服务器的日志文件的统计和分析来 实现。w e b 服务日志,就是在w e b 服务端产生的一些记录网站服务 器和客户端交互信息的一些记录式数据,其产生过程是:当浏览器发 8 出一个对站点资源的请求后,将一个包含请求信息体的请求信息发送 给w e b 服务器;w e b 服务器在收到并解析该请求信息,且确认无误 后,执行相应的操作,将一个结构类似的响应信息返回给浏览器,并 将客户端请求信息及服务器响应信息中的若干数据记录到w 曲服务 器日志文件中,作为客户端对站点资源当前请求的记录。 记录日志并且对其进行分析对于站点的运营有重要的意义,分析 用户从哪里来,友情链接、广告,还是搜索引擎,用户经常访问的栏 目或页面,甚至用户采用的搜索引擎关键字。所有这些信息都对网站 的稳定的运行,健康地发展,不断地提高用户体验以改善网站质量, 都是非常重要的。 随着w e b 日志的重要性被大家认识的越来越广泛,w c b 日志被 大量的产生和存储,网站服务后台时刻产生着大量的w e b 日志,而且 日志的数据规模仍然在以更快的速度增长,以百度的“贴吧”服务为 例,一天产生的日志量就在2 g 左右,大约1 0 0 0 万条 2 】。如此庞大的 数据量对日志的分析形成挑战,如何从大量的w 曲日志中迅速而准确 地获取特定用户的特定信息,成为近来非常热门的课题。 1 。2 立题意义与研究内容 1 2 1 w r c b 日志用户群体分析的意义 随着w 曲日志数据的迅速膨胀,日志统计分析系统在站点的用户 行为分析中扮演了重要的角色,尤其是对于来自搜索引擎的关键词访 问统计,是很有效的用户行为分析数据来源。而且对大量的日志进行 分析,用肉眼很难获取到有效的信息,必须借助于日志分析工具。 9 北京交通大学硕士学位论文 目前的日志分析工具大部分用于网络流量的统计和站点的访问 情况,用于保证网站的安全稳定和完善。那么,我们能否利用对网络 日志的分析,为网络用户来提供有用信息呢? 丰富的w 曲日志数据中有这样一类日志,它记录了用户的行为, 同时这些用户的个人信息又比较完备,这就为网络用户的用户群体特 征的分析和统计提供了数据基础。基于这样的数据可以获取到更为丰 富的更有价值的信息,而这个信息无论是从商业价值上讲,还是从目 前最热门的改善用户体验的角度,都具有十分宝贵的参考价值。 将w e b 日志分析用于获取商业信息的工具还不多,而且侧重点仍 然在网站的拥有者,并没有为广大用户提供开放的服务。本文将阐述 一个w e b 日志分析系统,把关注点放在w 曲访问日志的用户群体特 征上,而且是为广大网络用户服务的,因而是一个开放的系统。网站 所有者可以用它来改善用户体验,广告商也可以用它来投放高效的广 告,其它网络用户也可以了解他们关心的用户群体特征。 w e b 日志用户群体分析系统通过对多个网络产品的用户访问日志 ( 主要包括搜索引擎的关键字查询日志,电子邮箱的登录日志等等) 结合起来进行统计分析,将日志中蕴涵的网络用户的用户群体特征以 非常直观的形式呈现出来,广告商可以通过这个系统很清楚地知道有 没有必要投放广告以及投放的力度,网站管理员也可以根据这些统计 信息改善网站服务。 1 2 2 ,本文研究内容 本文主要研究内容就是通过实现一个网络日志,尤其是搜索引擎 日志的一个用户群体分析系统来描述w 曲日志的一个新颖而开放的 分析方向。通过对w 曲日志的统计分析,从一维的日志记录中获取各 种多维的关于用户群体特征的信息,比如用户群的年龄段分布,地域 分布,性格比例,职业分布等等。同时,统计出一段时间内最热门的 查询关键词,被访问最多的网页,以及受欢迎的程度在一段时间内的 交化情况等等,用一些直观的柱状图,饼状图和曲线图显示出来,给 广告商或者其他感兴趣的用产看。让每个使用这个系统的网络用户都 可以很清晰的了解当前网站的用户群体特征,以及当前最热门的搜 索,尤其对广告商来说,这些信息对于其有效的投放广告是非常宝贵 的。基于这个系统的研究,为w 曲日志分析提供更广泛和有效的应用 理念,让w 曲日志分析和挖掘延伸到更多的领域。 1 2 3 本文的组织结构 ( 1 ) 本文的组织结构如下: 第1 章绪论。介绍了本文地研究背景,综述了w c b 日志分析的 研究现状和发展概况,最后介绍了论文的立题意义和研究内容。 第2 章主要介绍了本系统所使用的主要技术。 第3 章论述本系统概述,明确本系统服务对象和主要服务内容。 第4 章对数据源进行介绍,并对其特征进行分折,为系统设计 做准备。 第5 章系统详细设计。介绍本系统的系统结构,模块划分,功 能细则和数据库的设计。 第6 章关键技术介绍。介绍本系统实现过程中所使用的主要技 术,主要叙述了数据的组织和存储以及s q l 查询语句的优化。 第7 章结论。介绍本系统实现的效果,肯定系统的应用价值, 提出了进一步的研究方向。 1 1 北京交通大学硕士学位论文 2 w e b 日志分析的理论基础 2 1 数据挖掘 2 1 1 数据挖掘的产生和定义 信息技术的发展,数据的丰富带来了对强有力数据分析工具的需 求,大量数据被描述为“数据丰富,但信息贫乏”。快速增长的海量数 据收集、存放在大型和大量的数据库中,没有强有力的工具,理解它 们已经远远超出了人的能力。这样,重要的决定常常不是基于数据库 中信息丰富的数据,而是基于决策者的直觉,因为决策者缺乏从海量 数据中提取有价值知识的工具。对数据挖掘的研究日益重要,成果也 越来越多,利用数据挖掘工具进行数据分析,可以发现重要的数据模 式,从而对商务决策、知识库、科学和医学研究等许多现实领域做出 巨大贡献1 3 j 。 数据挖掘,比较公认的定义是w j f i a w l e y 等人提出的:数据挖 掘,就是从大型数据库的数据中提取人们感兴趣的知识,这些知识是 隐含的、事先未知的潜在的有用信息,提取的知识表示为概念 ( c o n c 印t s ) ,规则( r u l e s ) 、规律限e g u l 盯i t i e s ) 、模式( p a t t e m s ) 等形式1 4 1 。 这里把数据挖掘的对象定义为数据库,而更广义的说法是:数据挖掘 意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。数 据挖掘的对象不仅仅是数据库,也可以是文件系统或其他任何组织在 一起的数据集合。例如:w w w 信息资源等。与数据挖掘关系密切的研 w 曲日志分析的理论基础 究领域包括统计( 乳舭) 分析、归纳学习( h d _ u c 曲ek a m i n g ) 和机 器学习( m a c h i n ck 黝i n g ) 等。特别是机器学习被认为和数据挖掘的关 系最密切。二者的主要区别在于:数据挖掘的任务是发现可以理解的 知识,面枧器学习关心的是提高系统的性能。因此训练神经网络来控 制一根倒立棒是一种机器学习过程,但不是数据挖掘。数据挖掘的对 象是大型数据库,一般来说机器学习处理的数据集要小得多1 5 】 2 ,1 2 数据挖掘的分类 从不同的角度出发,会有不同的关于数据挖掘的划分。我们从数 据挖掘的任务出发,对数据挖掘的分类如下【6 】: n 1 数据总结 数据总结的目的是对数据进行缩减,给出它的描述紧凑。最 传统的数据总结方法是对数据库的各个字段求和、求平均值、求 方差等统计操作,或者用柱状图、饼状图和曲线图等图形方式表 示数据。数据挖掘主要从数据泛化的角度来讨论数据总结。数据 泛化是一个把数据库中的有关数据从低层次抽象到高层次的过 程。由于数据库上的数据或对象所包含的信息总是最原始、最基 本的信息,人们有时希望能从较高层次的视图上透视数据,因此 需要对数据进行不同层次的泛化。以适应各种查询要求,数据泛 化目前主要有两种技术:多维数据分析方法和面向属性的归纳方 法( a o d 。 ( 2 ) 分类发现 分类在数据挖掘中是一项非常重要的任务,目前在商业上应 用最多。分类的目的是通过机器学习,产生一个分类函数或分类 模型( 也常常称作分类器,a a 辐i 丘c r ) ,该模型把数据库中的数据项 北京交通大学硕士学位论文 映射到给定类别中的某一个。分类可用于预测,预测的目的是从 历史数据记录中自动推导出对给定数据的推广描述。从而能对未 来数据进行预测。 ( 3 ) 聚类 聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。 它的目的是使得属于同一类别的个体之间的距离尽可能地小,而 不同类别的个体间的距离尽可能地大。聚类方法包括统计方法、 机器学习方法、神经网络方法和面向数据库的方法。在统计方法 中。聚类称聚类分析,它是多元数据分析的三大方法之一( 其它 两种是回归分析和判别分析1 。它主要研究基于几何距离的聚类, 如欧氏距离、明考斯基距离等。传统的统计聚类分析方法包括系 统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重 叠聚类和模糊聚类等。在机器学习中聚类称为无监督或无指导归 纳。因为和分类学习相比,分类学习的例子或数据对象有类别标 记,而聚类的例子则没有标记,需要由聚类学习算法来自动确定。 ( 关联规则 数据关联是数据库中存在的一类重要的可被发现的知识。若 两个或多个变量的取值之间存在某种规律性,就称为关联。关联 可分为简单关联、时序关联、因果关联。关联分析的目的是找出 数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数, 即使知道也是不确定的,因此关联分析生成的规则带有可信度。 2 1 3 数据挖掘的发展方向 数据挖掘的未来发展方向有如下几个方面吼 ( 1 ) 挖掘算法的效率和可扩充性 1 4 w 醣日志分析的理论基础 目前数据库数据量大,维数高,使得数据挖掘的收缩空间增 大,发现知识的盲目性提高。如何充分利用领域的知识,剔除与 发现任务无关的数据,有效地降低问题的维度,设计出高效率的 知识发现算法是下一步发展的重点。 ( 2 ) 增加数据的时序性。 在应用领域的数据库中,数据在不断地更新,随着时间的推 移,原来发现的知识将不再有用,我们需要随时问逐步修正发现 模式来指导新的发现过程。 ( 3 ) 增强与其它系统的集成。 知识发现系统应该是数据库,知识库,专家系统,决策支持 系统,可视化工具,网络等多项技术集成的系统。 ( 4 ) 提高交互性。 可以利用贝叶斯确定数据的可能性及其分布来利用以前的知 识,再就是利用演绎数据库本身的演绎能力发现知识,并用于指 导知识发现的过程。 ( 5 ) 现有模式的精练。 可以利用领域知识进一步提炼发现模式,从中提取有用的知 识。 ( 6 ) 用于互联网上知识的发现。 w w w 正日益普及,从中可以找到很多新的知识,已有一些 发现工具来发现含有关键字的文本,但对在w w w 上发现知识的 研究不多。有人提出利用多层次结构化的方法,通过对原始数据 的一般化,构造出多层次的数据库。w 曲挖掘的有关概念和技术, 正是在数据挖掘的基础上提出和发展起来的。因此,数据挖掘是 w c b 挖掘的理论和技术基础。 北京交通大学硕士学位论文 2 2 w 曲挖掘 2 2 1 w 曲挖掘的产生 w w w 是一个巨大的、分布广泛的和全球性的信息服务中心,它 涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许 多其它信息。w 如还包含了丰富和动态的超链接信息,以及w 曲页面 访问信息,这为人们提供了丰富的资源。然而基于以下原因,w 曲对 有效的资源和知识发现具有极大的挑战性【8 】【9 l : ( 1 ) 由于w 曲本身的庞大,用户难以准确定位所需要的信息。w 曲 有海量的数据,由于w 曲是无结构的、动态的,并且w 曲页 面的复杂程度远远超过了文本文档,给人们准确查找和定位 所需要的信息带来了极大的困难,即所谓的“信息爆炸,但 知识贫乏”。虽然目前有很多门户网站提供搜索引擎,通过基 于关键字的索引,能够在一定程度上帮助用户快速定位到所 学的文档。但是目前基于关键字的搜索引擎存在一些问题: 首先,对任意范围的话题,都可能包含成百上千的文档,这 使得搜索返回的文档数过干庞大,其中很多文档的质量并不 高。其次,很多与话题相关的文档并不包含关键字。这就是 多义问题。 ( 2 ) w 曲包含大量的信息,却难以发现信息之间潜在的知识多样 的、海量的w 曲数据中蕴含着许多有用的、潜在的、但不容 易被发现的知识和模式,这些知识可以指导人们的行为,给 人们带来利益,人们迫切需要发现这些知识和模式的方法和 工具。 w 曲日志分析的理论基础 ( 3 1w 曲是一个动态性很强的数据源。w 曲不仅以极快的速度增 长,而且其内容也在不断的发生着更新。诸如新闻信息、广 告宣传、股票信息、购物信息等都在随时变化,更加大了用 户选择有用信息的难度。 ( 4 ) 缺乏个性化的信息服务。一方面,对于不同层次、不同爱好 和使用目的的浏览者需要个性化的信息服务;另一方而,这 个问题涉及到w 曲门户站点的管理、组织和经营。w 曲站点 的经营和管理者为提高网站的声誉和效益,需要了解其客户 需要什么和想做什么。其中包括根据大多数客户的共同兴趣, 开展有针对性的信息服务,以及对特定的用户开展个性化的 信息服务和电子商务活动。 w e b 海量的数据明显超出了传统手工数据分析方法的分析能力。 传统的数据分析方法只能获得这些数据的表层信息,而不能获得数据 属性的内在关系和隐含的信息,即不能获得重要的知识。这样,快速 的数据产生与搜集技术和拙劣的数据分析方法之间形成鲜明的对照。 对海量的、结构复杂的、不确定的数据,很难从这些数据中发现内在 规律。 w 曲挖掘( w 曲m i n i n g ) 正是在这样的背景下产生并迅速发展起 来的。它是一门交叉性学科,涉及数据挖掘、计算机语言学、计算机 网络技术、信息学等多个学科。不同的研究者从各自的应用领域出发, 对w 曲挖掘的含义有着不同的理解,w 曲挖掘产品的开发也各有其侧 重点。例如,对门户站点经营方而言,他们需要好的自动辅助设计工 具,可以根据用户的访问兴趣、访问频度、访问时间动态地调整页面 结构,改进服务,开展有针对性的电子商务以便更好地满足访问者的 需求。 1 7 北京交通大学硕士学位论文 2 2 ,1 w r e b 挖掘分类 誊j 螽溺髫裁誊;1 :。二2 2 二。- 。_ 2 二_ r - z i 飘臣7 焉是霸r | i _ 岛1 i 豫鲤目i 蠛撼| 藏学枣鸯壤攒| 1 j| _ _ l 舅穗绰蜂 誊期j | 。一一一一一 ”一一一一 。 溶羹瓣l | | | ! 麓鬻隧攀骥j | ;i 搿:;l | 爨慧:= l | 摹黥磐i tv,t 图2 一1 w 曲挖掘分类结构图 w e b 上信息的多样性决定了w 曲挖掘任务的多样性。按照处理对 象的不同,我们将w e b 挖掘分为三大类,如图2 一l 所示【3 】: ( 1 ) w c b 内容挖掘 w c b 内容挖掘是指对w 曲页面内容进行挖掘,从w 曲文档的 内容信息中抽取知识。它分为w 曲文本挖掘和w e b 多媒体抢掘。 w 曲内容挖掘的重点是页面分类和聚类。w 曲页面的分类是根据 页面的不同特征,将其划归为事先建立起来的类。w 曲页面的聚 类是指在没有给定主题类别的情况下,将w 曲页面集合聚成若干 个簇,并且同一簇的页面内容相似性尽可能大,而簇间相似度尽 可能小【1 0 1 ( 2 ) w 曲结构挖掘 w 曲结构挖掘是从w w w 的组织结构和链接关系中推导知 识。由于文档之间的互连,能够提供出文档内容之外的有用的信 息。利用这些信息,可以对页面进行排序,发现重要的页面。这 方面工作的代表有p a g e r k 等。此外,在多层次w 曲数据仓库 ( m l - d 勘中也利用了页面的链接结构。 1 8 w 曲日志分析的理论基础 f 3 1 w 曲日志的挖掘 w 曲日志挖掘的主要目标是从w 曲的访问记录中抽取感兴趣 的模式。w w w 中的每个服务器都保留了访问日志f w 曲a c c e s s 1 0 曲,记录了关于用户访问和交互的信息。分析这些数据可以帮助 理解用户的行为,从而改进站点的结构,或为用户提供个性化的 服务。这方面的研究主要有两个方向:一般的访问模式追踪和个 性化的使用记录追踪。一般的访问模式追踪通过分析使用记录来 了解用户的访问模式和倾向,以改进站点的组织结构。而个性化 的使用记录追踪则倾向于分析单个用户的偏好,其目的是根据不 同用户的访问模式,为每个不同用户提供定制的站点或者是向用 户推荐用户感兴趣相关信息。 2 3 w e b 日志分析 2 3 1 w e b 日志挖掘 w 曲日志挖掘,又称为用户访问挖掘,是w 曲挖掘中很受关注 的一个问题。w 曲使用记录挖掘是通过挖掘w e b 日志记录,来发现用 户访问w 曲页面的模式。w 曲服务器通常保存了对w 曲页面的每一 次访问的w 曲日志,或叫w 曲l o g ,它包括了所请求的u r l 、发出请 求的i p 地址和时间戳等信息,提供了有关w c b 访问的丰富的信息。 w 曲使用记录的挖掘般可以分为三步:首先,原始的w 如l o g 数据 需要进行预处理,包括清洗、用户的识别、会话的识别和事务的识别 等,以便生成有意义和便于处理的数据;其次,在经过预处理的数据 上,可以进行模式的发现,可以采用的技术包括统计分析、关联规则 北京交通大学硕士学位论文 挖掘、聚类和分类、序列模式分析等;最后,挖掘出来的模式可以通 过知识查询语言、0 l 圩,以及可视化等方法展现给用户,进行分析。 从w 曲使用记录中挖掘出来的模式可以应用到许多方面,例如改进 w 曲站点的结构,通过w 曲缓存改进系统性能,建立个性化的w 曲 服务等。 2 3 2 w 曲日志挖掘方法 由于w e b 数据的特殊性,数据挖掘的一些成熟算法不能直接应用 到w 曲数据的挖掘。w 曲数据挖掘的方法和算法涉及诸多领域的知识, 如统计学、数据挖掘、机器学习和模式识别等。目前己经用于w 曲日 志和用户会话文件的分析及用户行为模式的挖掘方法主要有以下几 种【l l 】: ( 1 1 统计分析 统计分析是分析用户访问站点的行为数据的最常用的方法。 通过分析用户浏览页面的时间、用户的浏览路径和路径长度等信 息,可以获得用户访问站点的基本信息,如页面访问次数,日平 均访问人数,最受用户欢迎的页面等;也可以进行有限的错误分 析,如非法用户登录等。统计分析的结果可以用于提高网站的性 能、安全性以及优化站点结构和市场决策。 ( 2 ) 关联规则 关联规则指发现用户会话中经常被用户一起访问的页面集 合,这些页面之间并没有顺序关系。如果关联规则中的页面之间 没有超链接,则这是一个我们感兴趣的关联规则。挖掘关联规则 通常使用a p r i o r i 算法或其变形算法。关联规则既可以作为站点设 计人员优化站点的参照,也是在w 曲上进行市场开发和商务决策 w 曲日志分析的理论基础 的依据。同时关联规则还可以作为启发式规则为远程客户预取可 能请求的页面,减少服务器的响应时间,以减少用户的等待时间。 ( 3 1 聚类 聚类分析是把具有相似特征的用户或数据项归类。在w 曲日 志挖掘中,聚类分析主要有两类:用户聚类和页面聚类。用户聚 类将具有相似浏览行为的用户归类。利用这类知识可以在电子商 务中进行市场分割或者为用户提供个性化w 曲页面内容;页面聚 类则是将内容相关的页面归类。页面聚类的结果可以供搜索引擎 使用,用以根据用户查询的信息或历史记录,建立与相关删l 页面间的超链接。 ( 4 ) 分类 分类是将数据项划分成预先定义的类别。在、掩b 日志挖掘领 域中,分类主要是按照用户特征数据将用户归属到既定的用户类。 分类技术要求选择和抽取特征属性来描述指定的用户类别。分类 的方法主要包括决策树分类法、贝叶斯分类法、最近邻分类法和 支持向量机( s u p p o n 、忱t o rm a c h i n e ) 等。 ( 5 ) 序列模式 序列模式指在时序数据集中发现在时间上具有先后顺序的数 据项。在w 曲日志挖掘领域中,序列模式识别指寻找用户会话中 在时间上有先后关系的页面请求。利用发现的序列模式可以预测 用户即将可能请求的页面,这样就可以针对特定的用户组在页面 中放置不同的广告来增加广告的点击率( c l i c k t h r o u 鳓。 ( 6 ) 依赖性建模 依赖建模是w 曲挖掘领域另外一种非常有用的模式识别方 法。其目的在建立一种模型,该模型可以表示w 曲域中不同变量 北京交通大学硕士学位论文 之间的重要依赖关系。这种模式不仅可以提供分析用户行为的理 论框架,而且对于预测未来的w 曲消费具有潜在的作用。这些信 息也可以用于提高站点的在线销售额或为用户浏览导航提供方 便。 2 3 3 w 曲日志分析现状 目前国际上关于w 曲日志分析方面开展了一定的研究工作,并且 己经开发出了若干工具和系统。例如w 曲1 r c n d s l l 2 1 、a w s t a t s l l 3 】、 w e b a l i z e r 【、灿m l o g 等都是其中比较优秀的工具。这些日志分析工具 有一个共同的特点就是,他们主要是针对网站管理员的,网络用户并 不关心这些信息。后台管理员使用这些工具的目的在于了解用户的浏 览模式以及各个站点使用情况,从而协助管理者优化网站结构、提高 访问效率,对网站进行智能化设计,不断地满足网络用户日益提高的 快速、准确地获取信息的要求。而且目前的统计工具主要是对流量, 对访问地址进行统计,以改善站点的服务。 值得一提的是,w 曲r i k n d s ,这个日志分析工具的目标是对网上 客户行为分析、准确性要求比较高的大型企业、行业用户和电子商务 类用户。用户能够展开完整的商业活动层次结构来获得详细的分析结 果,了解网站访客对内容的反馈,以及他们何时、如何转化为客户; 在搜索引擎方面,w 苦b l h n d s 帮助网站识别在搜索引擎上投资的效 果,从而易于通过搜索引擎进行营销活动;在商业分析方面,网站可 以利用w j b t r c n d s 来确定哪些产品的需求量最大以及客户在哪里完 成或者放弃在线购物过程,根据这些信息,提高高利润产品生产线; 在内容有效性方面,w i b l l c n d s 提供了完整的内容分析,产品经理可 以确定哪些内容带来了高质量的访问,哪些内容使网站的访客迷惑, w r e b 日志分析的理论基础 以及哪些内容促使他们离开站点,利用w e b l y e n d s 来确定每个w 曲页 面的投资回报率。 w e b t r 锄d s 是以网络日志为数据源进行商业信息获取的一个代 表。然而这个工具是针对特定网站,特定公司的,它服务的对象依然 是生产者,帮助网站所有者或者管理者产生或者提高经济利益。到目 前为止还很少有开放的、面向广大网络用户的臼志分析系统,而从日 志中提取出来的某些信息对网络用户是很珍贵的,比如用户群体特征 信息、最近最流行的最热门的事物等等。 2 3 4 w 曲日志分析的难点 现在很多日志分析的软件都能够实现基本的分析功能,、但是,由 于网络的不确定性因素很多,因此,日志分析中仍然存在许多需要注 意的问题。 n ) 不可记录的站点访问量。通常日志文件分析工具假定日志是 十分准确地点击流记录,但由于i n t e m e t 上存在着各种各样的 缓存机制,因此这种假定是不成立的。据统计,在有的场所 缓存能提供2 0 到5 0 的请求服务,这也就意味着分析工具 丢掉了如此多的没有记录的请求。 ( 2 1 不能计算用户数。除非分析工具能够充分利用本身的用户跟 踪机制或者解释一个正在使用的w 曲站点,否则唯一用户的 计数将超过其实际数目。这个问题在很大程度上动态职地址 所引起的。 ( 3 ) 计算页面逗留的时间。用户在一个页面逗留的时间是用下一 个时间减去当前时间得到的。但在这段时间中,用户完全有 可能在干别的事。缓存还有可能使得在日志中看来在两个页 北京交通大学硕士学位论文 面中浏览。再者,由于在用户离开站点时还没有可信的方法 来记录,也就没有办法计算用户在最后页面逗留的时间,然 而由于最后页面通常是用户最感兴趣或者最希望得到的,因 此这一点对于内容站点而言是很不幸的。 f 计算访问时间。访问时间通常是用访问第一个页面和最后一 个页面的时间的差来表示的。然而由于在最后一个页面的逗 留时间不能准确地知道,因此用这种方法计算总会和实际访 问时间有偏差。 ( 5 ) 定义一个会话访问以及计算会话访问。“访问”和“会话” 是用户所做出的完整请求的集合,但问题在于用户突然离开 时根本没有办法定义最后的会话。由于通常在日志文件中没 有用户离开标志,要知道用户什么时候离开是很困难的。大 多数工具都假定在一段时间内( 通常是1 5 3 0 分钟) 没有活 动的话,就断定会话已经结束,用户己经离开。 ( 6 ) 计算页面访问频率,每次会话的平均访问页面数。因为以上 描述的数据问题,这里的任何计算都不可能不精确。 以上问题在记录日志时是不可避免的,在利用w 曲日志分析工具 进行分析时应该考虑到这些因素。 2 4 本章小结 本章主要介绍了w 曲日志分析的理论基础。w 曲日志统计分析作 为w 曲挖掘的一个方向,日益变得热门,本章为w 曲日志用户群体 分析系统的设计和实现做了必要的理论准备。 w 曲日志的数据来源和特征分析 3 w e b 日志的数据来源和特征分析 3 1 w e b 日志的数据来源 3 1 1 最基本的w 曲访问机制产生的日志 一个最基本的w c b 服务模型如图3 1 : ( 1 ) 客户端( 浏览器) 和w e b 服务器建立t c p 连接,连接建立以后, 向w c b 服务器发出访问请求,根据h r r p 协议该请求中包含 了客户端的口地址、浏览器的类型、请求的u r l 等一系列 信息。 ( 2 ) w e b 服务器收到请求后,将客户端要求的页面内容返回到客 户端。如果出现错误,那么返回错误代码。 ( 3 ) 服务器端将访问信息和错误信息记录到日志文件里。 凰 砸今 圄每 多个w e b 客户端 w e b 服务器 图3 1 w 曲访问机制示意图 北京交通大学硕士学位论文 下面是“l i 眦+ 印p a c h e ”环境下的一条c o 姗0 n 日志的内容: 2 1 8 2 4 2 1 0 2 1 2 1 一【0 6 门d e 啦0 0 5 :0 0 :0 0 :0 0 + 0 0 0 0 】 “g l 玎2 f a o e s l l n c w ,a d ,i a 2 1 5 l o g o g i fm i p ,1 1 ”3 0 4 o “h t t p :伽帆m p s 砷n e t m o z m 水0 m p a t i b l e ; m s 6 o ; w i i l d o w s9 8 、” 从上面的日志文件可以看出,日志记录包含了客户端的i p 地址、 访问发生的时间、访问请求的页面、w c b 服务器对于该请求返回的 状态信息、返回给客户端的内容的大小( 以字节为单位) 、该请求的 引用地址、客户浏览器类型等信息。 3 1 2 用户群体分析系统对w 曲日志的数据要求 从上节可以看到,最基本的日志里是没有用户信息的,这样的日 志只能做流量的统计,能统计出哪个页面访问量最大,但是没有办法 知道用户群体的特征。 特定的系统,对网络日志必然有特定的要求,我们要统计用户群 体特征,就必须要定制我们的w 曲日志,使日志信息中包含有用户信 息。日志是网站设计人员和开发人员可以控制的,写什么样的日志, 可以根据要求定制。当然,巧妇难为无米之炊,如果一个网站根本没 有任何用户信息,想让他们在写日志文件时加入用户信息是不可能 的。比如以前百度的搜索引擎,由于找不到用户信息,所以没有办法 提供用户查询日志,当然百度现在已经有贴吧和知道两个产品的注册 用户,也可以做有关用户行为分析的统计了。针对我们的系统,我们 对日志有如下的特定要求: ( 1 ) 日志在被统计网站中的分布要均匀,也就是说,对被统计对 象要公平,访问量大,日志量也要大。当然,这个是开发时 w 曲日志的数据来源和特征分析 做好的,除非修改程序,我们没有办法改变这个问题。 f 日志里要记录的信息一定要有用户信息,一定要知道这个用 户的主要属性,比如年龄、性别、国家、语言、职业、婚姻 状况等等,当然,其中有些属性是缺省信息是可以忍受的, 但是从普遍意义上看来,这些信息都应该是具备的。 ( 3 ) 除了用户信息,还要像普通曰志一样具有时间、i p 、访问的 u r l 或者q u e r y 的k e y w o r d 等等信息。 3 。1 3 主要数据源 本文实现的这个w e b 日志用户群体分析系统主要的数据基础是 m s 搜索引擎的查询目志和w w w m s c o m 的p v ( p a g e v i e w ) 日志, 前者就是w e b 用户在使用m s n 搜索引擎时,搜索引擎生成的记录用 户查询行为的日志:后者是w e b 用户在访问w w w m s n - c o m 对生成的 日志。由于搜索引擎和w 、w m s n c o m 的访客本身获取不到详细的用 户信息,所以只有这些日志还不够。所以还应该参考h o t m a i l 用户信 息和m s nm e s s c n g e r 用户信息。由于这个两个产品都需要用户注册, 因此有足够多的用户属性信息。根据这些用户产生的搜索引擎查询日 志和w w w 皿s n c o m 的p v ( p a g e v i e w ) 日志进行分析,自然可以分析 出这些用户的群体特征。因此,本系统主要数据源,也就是w e b 日志, 主要来源于以下几个产品: ( 1 ) m s n 搜索引擎。此类日志为主要数据源,搜索关键词的热门关键 词统计也基于此。 ( 2 ) h o t m a i l 邮件系统。主要提供用户信息,用户也可以选择此类日志 进行统计。 ( 3 ) m 蚰m 髓s c n g e r 注册用户。主要提供用户信息,用户也可以选择此 北京交通大学硕士学位论文 类日志进行统计。 ( 4 ) 唧m 蛆c o m 日志。本系统主要数据源,主要进行p v 统计,也 作为特定网站进行n e 咐o r ku s a g c ( 网络使用) 统计,统计其用户 群体特征和流量、访问量等特征。 3 - 2 源数据特征分析 3 2 1 日志数据格式说明 据: 数据源是一些定制的日志和用户信息数据。可以分为以下三类数 ( 1 ) 用户信息数据。其原始格式如下: 【u s e r i d 】【u s c m a i i l e 】【r e a l n 锄e 】【g e n d c r 】【a g e 】【c o u n 仃y 】【l a n g i i a g e 】【m a r i t a l 】【o 。c u p a t i o n 】【o t h e l 。】 解释如下: 【用户i d 编号】【用户账号名】【用户真实姓名】【性别】【年龄】【国 素瓠语言】【婚姻状况】【职业】【其他( 本系统不关心字段) 】 例子: 【1 0 ( i o i d 0 0 1 】【i v 缸】i j o h n 】【m a l c 】【2 7 】【e n g l i s h
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 克朋面条企业介绍
- 桥梁提升改造工程方案
- GMP基础知识试题附答案
- 2025年中级铁路扳道员职业技能鉴定理论考试题库(含答案)
- 招聘警务辅助人员191名笔试备考试题及答案解析
- 合肥辅警面试题及答案
- 广电局维护岗笔试题目及答案
- 云计算行业市场发展趋势研究
- 2025年事业单位招聘考试综合类无领导小组讨论面试真题试卷医疗卫生
- 2025年石家庄职业技术学院单招职业适应性考试题库附参考答案详解模拟
- 河流与湖泊课件-地理粤人版八年级上册
- 北京市海淀区2023-2024学年七年级上学期数学期中考试试卷(含答案)
- 医院感染管理科十五五发展规划
- 2025年及未来5年中国足浴服务行业发展潜力分析及投资战略咨询报告
- T/CSBME 056.1-2022血液透析器用中空纤维原料第1部分:聚砜
- 形势与政策(贵州财经大学)知到智慧树章节答案
- EzCad2软件使用说明书
- TPU的制造工艺流程--精选文档
- 工程材料管理办法20190416
- 日本乙脑PPT课件
- 防雷防静电检查表
评论
0/150
提交评论