(管理科学与工程专业论文)基于Web日志挖掘的应用研究.pdf_第1页
(管理科学与工程专业论文)基于Web日志挖掘的应用研究.pdf_第2页
(管理科学与工程专业论文)基于Web日志挖掘的应用研究.pdf_第3页
(管理科学与工程专业论文)基于Web日志挖掘的应用研究.pdf_第4页
(管理科学与工程专业论文)基于Web日志挖掘的应用研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(管理科学与工程专业论文)基于Web日志挖掘的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容摘要 随着i n t e r n e t 的迅速发展,网站的信息量呈指数增长,如何从这些海量数据中抽取潜 在的、用户感兴趣的知识是一个非常重要和有意义的课题。w e b 日志挖掘正是以此为目标 应运而生的。w e b 日志挖掘是对用户与w e b 服务器在交互时产生的数据使用数据挖掘技术 发现隐合的规律性知识,得到用户访问站点的频繁程度和行为模式,从而有利于网站设计 人员掌握用户的喜好和访问习惯,改善w e b 站点结构及页面间的超链接结构,提高站点的 服务质量,改进站点性能,更好地为用户提供服务。 论文主要从以下几个方面对w e b 日志挖掘进行分析和研究: ( 1 ) 提出了基于x m l 的w e b 日志挖掘数据源模型x w l v i m 提出了一种基于x m l 的w e b 日志挖掘数据源模型x w m m 。该模型提供方便和精确的数据 源搜集方式,搜集的数据内容齐全,实现来自访问日志的用户浏览记录和用户对网页操作 记录的有机融合,有较高的会话识别精度和性能,支持多维的w e b 挖掘分析。 ( 2 ) 提出了一种基于频繁特征子序列的聚类算法 提出了一种基于用户频繁特征子序列的w e b 日志聚类算法,该算法首先通过构建m n p 树改进了w a p 算法,产生用户频繁特征子序列及其出现概率集合,然后综合考虑页面顺序, 研究了访问序列相似度的计算方法,建立用户访问序列相似度矩阵,从而获得聚类结果集, 进而可以通过计算各类的中心,得到用户典型访问序列,能有效地挖掘用户群的访问模式, 具有较好的聚类质量和性能,为电子商务个性化服务提供了依据。 ( 3 ) 设计了基于x m l 的w e b 日志挖掘的原型系统x w m s ,并进行了初步实现 设计了基于x m l 的w e b 日志挖掘原型系统x w m s ,并进行了初步实现。对系统应具备的 功能如数据采集、数据预处理、模式挖掘、挖掘结果处理等涉及到的技术细节进行了详细 描述,并将前面研究的模型和算法集成到系统中来,初步验证了模型和算法的合理性和优 越性,并具有一定的应用价值。 关键词:w e b 日志挖掘x m lx w m m频繁特征子序列 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e m e t ,t h ea m o u n to fi n f o r m a t i o ni n c r e a s e sa ta n e x p o n e n t i a lr a t e ,h o wt of i n dp o t e n t i a la n di n t e r e s t i n gk n o w l e d g ef r o me n o r m o u sd a t ai sav e r y i m p o r t a n ta n dm e a n i n g f u li s s u e w e bl o gm i n i n gi st h a tu s et h ed a t ab e i n gp r o d u c e dw h e nu s e r s a r ec o m m u n i c a t i n gw i t hs e r v e rt of i n dc o n n o t a t i v ea n dd i s c i p l i n a r i a nk n o w l e d g eb yd a t am i n i n g t e c h n o l o g y w ec a i lo b t a i nt h ef r e q u e n c ya n db e h a v i o rm o d e lw h e nu s e r sv i s i tt h es i t e u s i n gt h e f r e q u e n c ya n db e h a v i o r , w ec a ng e tt h eu s e r sp r e f e r e n c e sa n da c c e s s i n gh a b i t s ,a d v a n c et h ew e b s i t es t r u c t u r ea n dt h eh y p e r l i n ks t r u c t u r eb e t w e e nt h ew e bp a g e s ,i m p r o v et h es e r v i c eq u a l i t yo f s i t e ,a n da m e l i o r a t et h es i t ep e r f o r m a n c ea n dp r o v i d eu s e r sw i t hb e t t e rs e r v i c e s t h ep a p e rm a i n l ya n a l y z e sa n dr e s e a r c h e sw e bl o gm i n i n gf r o mt h ef o l l o w i n ga s p e c t s : ( 1 ) t h ex m l - b a s e dw e bl o gm i n i n gd a t as o u r c em o d e lx w m mi sp r o p o s e d f i r s t l y , t h ex m l b a s e dw e bl o gm i n i n gd a t as o u r c em o d e lx w m mi sp r o p o s e d t h em o d e l p r o v i d e sc o n v e n i e n ta n da c c u r a t ew a y t oc o l l e c tt h ec o m p l e t ec o n t e n t so ft h ed a t aw h i c hh a sa h i g h e rr e c o g n i t i o na c c u r a c yo ft h ec o n v e r s a t i o na n dp e r f o r m a n c e t h em o d e lr e a l i z e st h e i n t e g r a t i o n o fu s e ra c c e s s l o g s a n dw e b s i t e o p e r a t i o n a lr e c o r d s ,a n ds u p p o r t s t h e m u l t i d i m e n s i o n a la n a l y s i so fw e bm i n i n g ( 2 ) t h ew e bl o gc l u s t e r i n ga l g o r i t h mb a s e do nu s e rf r e q u e n tc h a r a c t e r i s t i cs u b s e q u e n c ei s p r o p o s e d f i r s t l y , t h ea l g o r i t h mi m p r o v e st h ew a pa l g o r i t h mt h r o u g ht h ec o n s t r u c t i o no ft h em n pt r e e , a n dg e n e r a t e su s e rf r e q u e n tc h a r a c t e r i s t i cs u b s e q u e n c ea n dp r o b a b i l i t y , a n dt h e nc o n s i d e r st h e p a g eo r d e r ,c a l c u l a t a t i n gv i s i t i n gs e q u e n c es i m i l a r i t y , e s t a b l i s h i n gu s e ra c c e s ss e q u e n c em a t r i xi n o r d e rt oo b t a i nc l u s t e r i n gr e s u l ts e tw h i c hc a nc a l c u l a t et h ec e n t e ro f c l u s t e r s ,g e tt h et y p i c a lu s e r a c c e s ss e q u e n c e ,a n dc a ne f f e c t i v e l y a c q u i r eu s e r a c c e s sp a t t e m sw i t hb e t t e rq u a l i t ya n d p e r f o r m a n c eo ft h ec l u s t e r i n gt op r o v i d eab a s i sf o rp e r s o n a l i z e ds e r v i c eo fe - c o m m e r c e ( 3 ) t h ex m l - b a s e d w e bl o gm i n i n gm o d e ls y s t e mx w m si sd e s i g n e da n di m p l e m e n t e d t h ex m l - b a s e dw e bl o g m i n i n gm o d e ls y s t e mx w m si sd e s i g n e d a n di n i t i a l l y i m p l e m e n t e d ,a n dt h et e c h n i c a ld e t a i l so ft h es y s t e mf u n c t i o ns u c ha sd a t aa c q u i s i t i o n ,d a t a p r e p r o c e s s i n g ,p a t t e r nm i n i n ga n dm i n i n go u t c o m ep r o c e s s i n ga r ed e s c r i b e di nd e t a i l t h ep a p e r a l s oc o m b i n e dw i t hp r e v i o u sd a t as o u r c em o d e lx w m ma n dt h ew e bl o gc l u s t e r i n ga l g o r i t h m b a s e do nu s e rf r e q u e n tc h a r a c t e r i s t i cs u b s e q u e n c ef o rp a t t e mm i n i n g r a t i o n a l i t ya n ds u p e r i o r i t y o ft h em o d e la n da l g o r i t h mi sp r e l i m i n a r i l yv a l i d a t e d ,a n dt h em o d e lh a sc e r t a i na p p l i c a t i o n v a l u e k e y w o r d s :w e bl o gm i n i n g ;x m l ;x w m m ;f r e q u e n tc h a r a c t e r i s t i cs u b s e q u e n c e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不 包含其他人己经发表或撰写过的研究成果,也不包含为获得天津财经大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究 所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:劫户芝步 签字日期: z 。步x - 2 学位论文版权使用授权书 本学位论文作者完全了解天津财经大学有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查 阅和借阅。本人授权天津财经大学可以将学位论文的全部或部分内容编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位 论文, ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:彳刭世考导师签名:域 签字日期: z 。步,2签字日期:加吵f ,2 学位论文作者毕业后去向: 工作单位:留校工作 通讯地址:天津财经大学 电话:13 7 5 2 5 8 3 0 2 5 邮编:天津市河西区珠江道2 5 号 第1 章导论 1 1 w e b 日志挖掘的研究背景和意义 1 1 1w e b 日志挖掘的研究背景 随着i n t e r n e t 的迅速发展,w e b 上的信息量以惊人的速度增长。如今w e b 已经成为获 取信息最重要的手段之一,各种各样的网络应用早己走进各行各业,尤其是远程教育、电 子商务、搜索引擎等等。然而,i n t e r n e t 是一个具有开放性、动态性和异构性的全球分布式 网络,资源分布很分散,且没有统一的管理和结构,这就导致了信息获取的困难。同时, 千篇一律的商务站点缺乏传统商业活动中人的情感交流和互动,就像大量的没有针对性的 印刷广告,难以吸引顾客。有针对性地开展个性化服务,才能使商务站点吸引更多的用户。 如何从数以亿计的页面中发现需要的内容,如何合理有效地组织网站的拓扑结构,如何提 供个性化服务成了人们迫切希望解决的问题,尤其是对于电子商务网站来说更是如此。 其实,用户在网站上的活动己经隐含了他们的需求和兴趣,如果能对用户的行为加以 分析,就有可能发现一些潜在的规律。而w e b 服务器同志记录了大量的用户访问信息,如 用户的地址、访问日期和时间、访问方法、访问结果、访问信息大小等。它记录了访问者 的访问和交互的信息,通过分析这些数据可以帮助网站管理者理解用户的行为。w e b 曰志 挖掘使人们能够充分了解w e b 页面之间的关系,w e b 站点的组织与用户访问模式之间的关 联。利用w e b 日志挖掘,我们可以知道用户对网站的浏览模式;根据用户的浏览行为发现 相似行为的用户群;通过用户访问w e b 页面的情况将具有相同特征的页面分组,发现用户 的访问模式,分析日志记录中的规律,改进站点的性能和组织结构,提高用户查找信息的 质量和效率。w e b 日志挖掘在电子商务等领域具有非常重要的意义,因此w e b 同志挖掘技 术尤其受到研究人员的关注。 1 1 2w e b 日志挖掘的研究意义 w e b 日志挖掘的研究成果主要应用在以下几个方面: ( 1 ) 调整网站信息的组织和显示,优化服务性能。应用w e b 日志挖掘学习群体用户 的访问模式,并据此做出调整,使网站对于大多数用户来说更易于访问。这些调整可以是: 蒋英华基于w e b 日忐的数据挖掘 d j 天津:天津大学电子与信息工程学院,2 0 0 5 年:卜l 通过用户浏览路径进行挖掘来进行页面聚类从而调整网站的链接结构;合理设置广告 页面。 ( 2 ) 发现商业智能,辅助商业决策。在电子商务网站,把w e b 日志和顾客交易信息 相结合进行挖掘,能够发现关联购买集合、顾客的购买趋势,以及潜在顾客对商品的兴趣, 从而对商品信息在页面的显示进行调整以方便顾客浏览和购买,为顾客推荐相关商品,预 测顾客的购买兴趣,还可以把潜在的顾客转变为实际的购买者。 ( 3 ) 提供在线推荐和页面预取机制。由于w e b 用户的增加和网络固有的延迟,用户 对w e b 服务器的请求常常得不到及时的响应。为了提高服务质量,w e b 浏览器提供缓冲机 制,把用户曾经访问的w e b 页面保存在本地机器,以便减少再次获取该页面的时间,平衡 网络负载,提高响应速度。而w e b 预取机制却是对用户未来的请求进行预测,把用户可能 访问的页面预先取回放在本地或代理服务器,当用户要访问这些缓冲过的页面时,就不必 从远程服务器传输了,这样能大大减少用户等待的时间。因此,w e b 预取是一种主动的缓 冲。可以将活动用户距当前最近的短期访问历史与应用w e b 使用挖掘技术发现的模式进 行匹配,确定用户当前所遵循的浏览模式:并分析当前请求页面中的每一个超链接,从反 映用户兴趣的角度计算每一条超链接的质量,并把质量大于给定阈值的超链接推荐给用户 或将其指向的页面预先取到本地。 ( 4 ) 响应每一个用户的特定需求,为其提供个性化服务。互联网海量信息与用户狭 窄专一需求产生矛盾,一方面造成信息资源的巨大浪费,另一方面,为用户寻找所需要的 信息造成巨大困难,因而需要提供个性化服务。应用w 曲同志挖掘通过对用户访问历史 的分析,发现个体用户的访问模式,从该模式中学习、记忆用户的兴趣、爱好、习惯和需 求,建立个性化用户模型。把从w 曲上获取的源与个性化模型所描述的信息相比较,可以 主动地有选择性地向用户推荐符合其兴趣的个性化信息,如页面、链接、广告、经过裁剪 的文本和图片等。由于过滤了与用户需求无关的信息,因而大大提高了用户获取有用信息 的效率。 申瑞民,沈蓓,张同珍个性化数字服务模型 j 微电了学与计算机,2 0 0 1 年第1 期:2 1 1 2 1 5 宋擒豹,沈钧毅w e b 日志的高效多能挖掘算法 j 计算机研究与发展,2 0 0 1 年第3 期:5 2 5 6 刘振宇,阳小华基于w w w 用户浏览模式的路径提示算法 j 计算机工程,2 0 0 0 年第5 期:1 2 卜1 2 4 1 2w e b 日志挖掘的现状 1 2 1 国外的研究现状 随着i n t e m e t 的发展,在w e b 上进行交易正在逐渐取代传统的交易方式,成为人们购 买商品、取得服务的主要方式。尤其值得注意的是,越来越多的用户希望得到个性化的服 务。但是,由于大量用户在通过w e b 进行交易过程中没有明确的个性化需求,或者为了保 护隐私,在交易过程中故意隐瞒了身份,所以通过传统的手段往往不能准确地得到用户的 个性化需求,为了解决这个问题,w e b 日志挖掘就应运而生了。w e b 日志挖掘是建立在数 据挖掘理论基础之上的,国外的研究已经取得了初步成果。 学者m s c h e n ,h m a n n i l a ,t y a n 提出了可以将数据挖掘方法用于w e b 研究领域。 m a n n i l a 和c h e n 在研究过程中都假设去掉了图形文件、声音文件以后的w e b 服务器日志 如实地反映了用户在网站中访问的情况。m a n n i l a 把用户访问页面当作事件,从网站访问 日志中试着寻找用户访问网站的周期。 c h e n 提出了最大向前参引路径( m a x i m a lf o r w a r dp a t h ) ,并提出用这种方法把用户的 s e s s i o n 分解成为一个个访问事务,然后就可以在事务基础上,挖掘用户访问的模式。 t y a n 研究了如何动态地将用户进行分类,并根据同类用户访问页面的情况提供推荐页 面。 p e r k o w i t z 等人在人机界面研究领域提出了a d a p t i v ew 曲s i t e 的概念,主要研究的是如 何以历史访问为依据,使服务器提供的页面可以自动或者半自动化地调整。 h a n 把w e b 服务器访问日志集成到数据立方体结构( d a t ac u b es t r u c t u r e ) 中,这样就 可以对访问日志用传统的在线数据分析处理过程( o l a p ) 来处理日志数据了。 q m s c h e n ,j s p a r d ,p s y u e f f i c i e n td a t am i n i n gf o rp a t ht r a v e r s a lp a t t e r n si naw e be n v i r o n m e n t i a j p r o co ft h e1 6 t h i e e ei n t e r n e tc o n f 。o nd i s t r i b u t e dc o m p u t i n gs y s t e m s c ,u s a :i e e ee d u c a t i o n a l a c t i v i t i e sd e p a r t m e n t ,1 9 9 6 :3 8 5 3 9 2 ( 矽t a ky a n ,m a t t e wj a c o b s e n ,h e c t o rg a r c i a m o l i n a ,u m e s h w a rd a y a l f r o mu s e ra c c e s sp a t t e r n st od y n a m i c h y p e r t e x tl i n k i n g a i np r o c e e d i n g so ft h e5 t hi n t e r n a t i o n a lw o r l dw i d ew e bc o n f e r e n c e c ,f r a n c e : e 1 s e v i e rs c i e n c eb v ,1 9 9 6 :1 0 w 一1 0 1 4 m i k ep e r k o w i t z ,o r e ne t z i o n i a d a p t i v ew e bs i t e :a u t o m a t i c a l l ys y n t h e s i z i n gw e bp a g e s a i n p r o c e e d i n g so ff i f t e e n t hn a t i o n a lc o n f e r e n c eo na r t i f i c i a li n t e l l i g e n c e c ,m a d i s o n :a c m ,2 0 0 0 :1 5 2 1 5 8 j h a n ,0 r z a i a n e ,m x i n d i s c o v e r i n gw e ba c c e s sp a t t e r n sa n dt r e n d sb ya p p l y i n go l a pa n dd a t am i n i n g t e c h n o l o g yo nw e bl o g s a i np r o c a d v a n c e si nd i g i t a ll i b r a r i e sc o n f c ,u s a :i e e ec o m p u t e rs o c i e t y , 1 9 9 8 :】9 2 9 k l e i n b e r g 和t o m k i n s 给出了挖掘w 曲链接结构来识别权威w - e b 页面的方法,权威页 是指具有高质量的页面,或者页面所针对的话题具有针对性。k l e i n b e r g 提出了h i t s 算法, 该算法是利用h u b 页搜索权威页,它提供了指向权威页面的链接集合。 从总体来说,w e b 日志挖掘方法可以分为以c h e n 为代表的基于w e b 事务的方法和以 h a n 为代表的基于数据立方体的方法。这两类方法均要进行用户识别和会话识别,而用户 识别和会话识别都要受到本地浏览器缓存、防火墙和代理服务器等的影响。具体实现时, 基于w e b 事务的方法采用复杂的h a s h 数据结构存储侯选项集,对其进行维护和搜索还会 增加额外的负载。 目前已陆续有一些w 曲日志分析工具投入使用,而现有w 曲日志分析工具( 如e x o d y 公司的w e b s u x e s s ,w e b t r e n d s 公司的l o g a n a l y z e r 等) 大多数都只是对w e b 日志中的数 据进行简单的统计,如某一个u r l 的访问次数和访问时间等,很少对日志中隐含的关系 进行分析,更难较好地发现用户的访问模式。为了挖掘访问模式,w e b 同志中的数据首先 需要转换为若干访问序列;此外,为了挖掘用户感兴趣的访问模式,减少挖掘和解释评价 模式的时间,访问模式挖掘还应能体现用户对模式的约束。研究表明,现有数据挖掘产品 ( 如s a s 的e n t e r p r i s e m i n e r ,o r a c l e 的d a r w i n ,c o g n o s 的s c e n a r i 等) 都不能完成w e b 日志数据转换的任务;而在访问模式挖掘方面,它们或者不能挖掘访问模式,或者只能挖 掘简单的访问模式,都不能体现用户对访问模式的约束。如s i m o n f r a s e r 大学的 w e b l o g m i n e r 将w e b 日志中的数据组织为数据立方体,然后在其上进行o l a p 和数据挖掘。 由于w e b l o g m i n e r 不是专门针对访问模式的挖掘工具,所以并没有考虑访问模式的特殊性。 h u m b o l d t 大学的w u m 挖掘w e b 同志中的访问模式,并提供一个集成了日志准备、模式 查询以及可视化的环境,但其模式查询语言m i n t 在表达访问路径模式上的约束时不够灵 活。因此现有的日志挖掘研究及分析工具都有尚待改进的地方。 1 2 2 国内的研究现状 国内互联网是从1 9 9 7 年开始迅速蓬勃的发展起来的。直到1 9 9 9 年,国内互联网用户 达到一定数量以后,国内学者才开始关注w e b 数据挖掘,相比国外起步较晚。国内的学者 在基于w e b 同志挖掘的个性化服务方面主要侧重于理论研究,比较突出的有: 西安交通大学沈均毅教授等人提出以w e b 站点的u r l 为行、以u s e r i d 为列,建立 j m k l e i n b e r ga n da t o m k i n s h p p l i c a t i o no f1 i n e a ra l g e b r ai ni n f o r m a t i o nr e t r i e v a la n dh y p e r t e x t a n a l y s i s a 。i np r o c 1 8 t ha c ms y m p p r i n c i p l e so fd a t a b a s es y s t e m s ( p o d s ) c ,p h i l a d e l p h i a :a c m , 1 9 9 9 :1 8 5 1 9 3 u r l u s e r i d 关联矩阵,元素值为用户的访问次数,然后对列向量进行相似性分析得到相 似客户群体,对行向量进行相似性度量获得相关w e b 页面,对相关页面进行进一步处理, 以发现频繁访问路径,并提出了w e b 页面和客户群体的模糊聚类算法;另外他们还提出了 基于b a y e s 概率的用户访问路径及其发现算法。 西安交通大学陆丽娜教授等人采用基于事务的方法,研究w e b 日志挖掘预处理及用户 访问序列模式的挖掘方法,提出了一种基于扩展有向树模型进行用户浏览模式识别的w e b 日志挖掘方法。 华中理工大学胡和平教授等人提出了应用多维立方体挖掘w e b 日志的多维关联规则的 方法。 中国科学技术大学王熙法教授等人提出基于神经网络的w e b 用户行为聚类分析方法。 中国科学院计算技术研究所高文教授等人对w e b 站点的访问日志进行事物识别后,根 据群体用户对w e b 站点的访问顺序进行路径聚类,最终每一个聚类集就反映出该聚类中的 全体用户的访问兴趣,为了得到这种根据用户访问兴趣而对用户的化分,提出了k p a t h 路 径聚类方法。 中国科学院数学研究所周龙镶教授等人分析了w e b 用户浏览活动规律,提出了有关 w w w 浏览路径的一些基本概念,设计了基于用户访问模式的浏览路径优化算法。 上海交通大学尤晋元教授等人引入w e b 页面的内容链接比和页组的组内链接度,修改 了频繁访问页组支持度的计算公式,提出了基于页面内容和站点结构的页面聚类挖掘的改 进算法。 清华大学马少平教授等人提出一种利用w e b 服务器日志文件,运用n 元预测模型对用 户未来可能进行的w e b 访问请求进行预测。 从研究的角度,现有的基于w e b 服务器日志数据的研究大致可以分为三个方向:( 1 ) 理解用户意图;( 2 ) 改进系统设计;( 3 ) 分析系统性能。由于它们实现的功能不同,采取 的主要技术也不同。 以理解用户意图为目标的研究,一般是通过算法从w e b 服务器日志中找出频繁的用户 访问路径或访问模式。这些都是为了从大量的w e b 同志数据中找出一定的模式和规则。 以改进系统设计为目标的研究,由于w e b 服务器的设计与建设的主要复杂性随着设计 者及用户的变化而不断自我调整,研究如何以日志数据为依据,对w e b 服务器的组织和表 邢东山,沈钧毅,宋擒豹从w e b 日志中挖掘用户浏览偏爱路径 j 计算机学报,2 0 0 3 年第2 4 期:3 5 4 2 现形式进行调整,从人机交互和软件a g e n t 领域提出a d a p t i v ew e bs i t e 的概念,在技术手段 上与数据挖掘技术有某些交叉和重叠。 以分析系统性能为目标的研究,主要是从统计学的角度,对日志数据项进行多种简单 的统计,如频繁访问的网页,单位时间访问数,访问数据量随时间分布图等。目前己有的 绝大多数商用及免费的w e b 日志分析工具都属于这种类型,这些工具的用户一般是w e b 服务器的管理者。通过这些统计数据,管理员可以对w e b 服务器作相应的调节,如缓冲设 置,镜像站点设置等。更进一步,如果将w e b 日志视做关系表,利用数据挖掘技术还可以 发现许多有价值的信息,如利用关联规则可能发现用户所在地区与某被访问页面间的关 系。此外,许多数据挖掘的技术如时间序列分析,多层关联规则和分类技术等亦可用于 w e b 日志的分析,帮助管理员发现用户的访问规律。 1 3 论文研究的内容、创新点和意义 1 3 1 论文研究的内容 论文主要做了以下几个方面的工作: ( 1 ) 提出了一种基于x m l 的w e b 日志挖掘数据源模型x w m m ,该模型提供方便和 精确的数据源搜集方式,搜集的数据内容齐全,有较高的会话识别精度和性能,可以提供 w e b 挖掘算法分析所需要的数据。 ( 2 ) 对w e b 日志挖掘算法进行了研究,提出了一种基于用户频繁特征子序列的w e b 日志聚类算法,该算法首先产生用户频繁特征子序列及其出现概率集合,然后综合考虑页 面顺序,研究了访问序列相似度的计算方法,建立用户访问序列相似度矩阵,从而获得聚 类结果集,进而可以通过计算各类的中心,得到用户典型访问序列,能有效地挖掘用户群 的访问模式,具有较好的聚类质量和性能,为电子商务个性化服务提供了依据。 ( 3 ) 设计了基于x m l 的w e b 日志挖掘原型系统x w m s ,并进行了初步实现。对系 统应具备的功能如数据采集、数据预处理、模式挖掘、挖掘结果处理等涉及到的技术细节 进行了详细描述,并结合x w m m 数据源模型和基于频繁特征子序列的聚类算法进行了模 式挖掘。根据挖掘的结果,分析网站的不足,并根据用户的购买习惯等访问模式及时调整 网页结构和内容,为用户提供在线推荐等个性化的服务,从而提高用户对电子商务网站的 忠诚度。 1 3 2 论文研究的创新点 从研究内容可以看出,论文的创新有以下几点: ( 1 ) 提出了一种基于x m l 的w e b 日志挖掘数据源模型x w m m 。 目前w e b 曰志挖掘技术存在较多问题,大部分w e b 挖掘方法都使用w e b 日志作为数 据源,冗余数据多,预处理方法不精确且效率低,为挖掘算法提供质量较差的数据源。因 此提出了一种基于x m l 的w e b 日志挖掘数据源模型x w m m 。该模型基于w e b 日志记录 各种电子商务关键事件的数据,包括登陆、浏览、购买、放入购物篮、离开等;可以采集 到用户在网站会话期间各方面的访问数据,实现来自访问日志的用户浏览记录和用户对网 页操作记录的有机融合,并能够很好地进行用户会话识别,兼容已有的w e b 挖掘算法,支 持多维的w e b 挖掘分析。 ( 2 ) 提出了一种基于用户频繁特征子序列的w e b 日志聚类算法。 序列模式挖掘算法w a p 算法没有考虑访问序列的连续性,但用于挖掘连续频繁访问序 列时挖掘的效率比较低。而大多数传统的w e b 事务聚类算法并没有考虑用户访问的顺序性, 而用户访问页面的顺序在挖掘用户访问模式时是非常重要的。通过以上的分析,结合w a p 算法和事务聚类算法的优点,并改进它们的不足,提出一种基于用户频繁特征子序列的w e b 日志聚类算法。该算法首先通过构建m n p 树改进了w a p 算法,使其可以高效地挖掘出连 续的频繁访问序列,进而可以产生用户频繁特征子序列及其出现概率集合。然后综合考虑 页面顺序,给出了访问序列相似度的定义,在此基础上建立用户访问序列相似度矩阵,从 而获得聚类结果集,通过计算各类的中心,得到用户典型访问序列,进而可以更好地分析 用户的浏览行为,发现更多的用户的购买习惯等访问模式,具有较好的实用性,为电子商 务个性化服务提供了依据。 1 3 3 论文研究的意义 ( 1 ) 可以在海量的访问数据中分析用户的浏览行为,发现具有共同兴趣特征的用户群 体的访问模式,辅助构建个性化的推荐系统来主动帮助用户选择喜欢的商品,既方便用户, 又节约了用户的时间和精力,还可以帮助企业发现潜在市场,改进商品营销策略; ( 2 ) 可以根据挖掘的结果帮助网络管理员对网站结构进行调整,提供浏览建议,动态 地为用户定制个性化的网站,使用户成为电子商务网站的中心,从而提高用户对电子商务 网站的忠诚度,这也是电子商务在全球范围取得成功的必要因素,所以具有很强的理论意 义和应用价值。 1 4 论文组织与结构 论文的章节结构为: 第一章介绍了论文的研究背景、研究意义、w e b 日志挖掘的国内外研究现状以及本论 文的内容组织与结构。 第二章介绍了w e b 数据挖掘的定义、特点及其分类;详述了w e b 日志挖掘的一些基础 知识、具体过程、主要技术及其应用;介绍了x m l 及其在w e b 日志挖掘中的应用。 第三章提出了一种基于x m l 的w e b 日志挖掘数据源模型x w m m ,并对其做了详细的 描述。 第四章提出了一种基于用户频繁特征子序列的w e b 日志聚类算法。 第五章设计了基于x m l 的w e b 日志挖掘原型系统x w m s ,并进行了初步实现。对系 统应具备的功能如数据采集、数据预处理、模式挖掘、挖掘结果处理等涉及到的技术细节 进行了详细描述,并结合x w m m 数据源模型以及基于频繁特征子序列的聚类算法进行了 模式挖掘。 第六章是全文总结和展望。总结了论文的主要工作和结论,对将来的研究工作进行展 望,提出了进一步的研究方向。 第2 章w e b 日志挖掘综述 2 1w e b 数据挖掘 2 1 1w e b 挖掘的定义 近年来,因特网的飞速发展与广泛应用,使得w e b 上的信息量以指数级的速度增长, 为数据挖掘提供了丰富的数据源和新的研究课题。面对w e b 丰富的信息内容,巨大的数据 量,加之由于万维网分布、动态、海量、异质、复杂、开放性的特点,人们如何从这海量 的数据中,查找自己想要的数据和有用信息,迫切需要- - + 0 0 新的技术能自动地从w e b 资源 上发现、抽取和过滤信息。因此出现了w e b 挖掘技术。 w e b 挖掘,是数据挖掘技术在w e b 环境下的应用,是对文档的内容、可利用资源的使 用以及资源之间的关系进行分析,以发现有效的、新颖的、潜在有价值的、并且最终可理 解的模式和规则。它以从w e b 上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体 挖掘为基础,并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、 自然语言理解等技术,将传统的数据挖掘技术与w e b 结合起来。w e b 挖掘可在多方面发挥 作用,如搜索引擎结构的挖掘,搜索引擎的开发,改进和提高搜索引擎的质量和效率,确 定权威页面,w e b 文档分类,w 曲l o g 挖掘,智能查询等。 2 1 2w e b 挖掘的特点 w e b 挖掘是将传统的数据挖掘同w e b 结合起来的技术,与一般的数据挖掘有一定的共 同之处,但并不完全等同。与一般的数据挖掘相比,w 曲挖掘有以下几点特性: ( 1 ) w e b 挖掘的资料来源是所有可能得到的网络相关资料。包括i n t e r n e t 中各网页包 含的文字、图形和声音等内容、网页与网页之间的链接、网页内部的链接以及整个网站的 主要结构,另外还有网站系统的使用者在网站内部各项存取行为的日志文档资料,以及使 用者的个人信息。 王新马,万青,潘文林基于w e br 志的用户访问模式挖掘 j 计算机_ t 程与应用,2 0 0 6 年第2 1 期:1 5 6 1 5 6 涂承胜,鲁明羽,陆玉昌w e b 挖掘研究综述 j 计算机1 = 程与应用,2 0 0 3 年第1 0 期:9 卜9 2 苏新宁,杨建林,江念南,等数据仓库和数据挖掘 m 北京:清华大学出版社,2 0 0 6 年:2 1 5 2 1 5 ,1 8 5 1 8 5 ( 2 ) 上述提到的网络相关资料从原始日志文件中提取出来时并没有经过筛选、清洗和 转换,是不具有规则性的资料。因此,这些资料必须经过前期处理和特殊的转换之后才能 用于w e b 挖掘分析。 ( 3 ) 由于w e b 挖掘在获取可供挖掘的资料时不是从数据库或数据仓库中直接选取的, 而是必须通过各种不同的通路从网络上取得。这些通路包括:利用各种代理( a g e n t ) 到 i n t e m e t 中的各网站将各种资料带回,或是从各个不同的系统主机取得相关的日志文档资 料。取回这些资料后必须依据各种资料的特性加以处理并利用适合的方式做挖掘的工作。 2 。1 3w e b 挖掘的分类 一般地,w - e b 挖掘可分为3 类:w 曲结构挖掘、w 曲内容挖掘和w 曲日志挖掘。 ( 1 ) w 曲结构挖掘 整个w e b 空间里,有许多有用知识包含在w e b 页面超链接结构与w e b 页面结构之中。 w e b 结构挖掘的目的就是发现页面的结构和w 曲间的结构,在此基础上找出权威页面。 w e b 结构挖掘主要是通过对w e b 站点的结构进行分析和归纳,将w e b 页面进行分类,以 利于信息的搜索。因为超文本之间的链接,w w w 显示的信息远比文档内容多。利用这些 信息,可以对页面进行排序,发现重要的页面。这方面工作的代表有p a g er a n k 和c l e v e r 。 此外,在多层次w e b 数据仓库( m l d b ) 中也利用了页面的链接结构。发现的知识可以被 用来改进搜索引攀。 ( 2 ) w e b 内容挖掘 w e b 内容挖掘是指对w e b 页面内容进行挖掘,从w e b 文档的内容信息中抽取知识。 w e b 文档文本挖掘、基于概念索引的资源挖掘和基于代理的技术都属于w e b 内容挖掘。 w e b 内容挖掘的重点是页面分类和聚类。w e b 内容挖掘对w e b 上大量文档集合的内容进行 总结、分类、聚类、关联分析,以及利用w e b 文档进行趋势预测等。其中最重要的是文本 的特征、分类和聚类,在这里不再作过多叙述。 ( 3 ) w 曲日志挖掘 w e b 日志挖掘的主要目标则是从w e b 的访问日志和其他信息中抽取感兴趣的模式。 w w w 中的每个服务器都保留了访问日志( w e b 服务器同志数据,记录了关于用户访问和 交互的信息) 。w e b 同志挖掘工具发现和分析用户的行为,从而帮助网站设计人员改进站 点的结构以提高访问率,或为用户提供个性化的服务。这方面的研究主要有两个方向:一 毛困君,段立娟,干实,等数据挖掘原理l j 算法 m 北京:清华大学出版社,2 0 0 5 年:2 l l 一2 j 1 般的访问模式追踪和个性化的使用记录追踪。一般的访问模式追踪通过分析使用记录来了 解用户的访问模式和倾向,以改进站点的组织结构。而个性化的使用记录追踪则倾向于分 析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。 2 2w e b 日志挖掘的理论基础 2 2 1w e b 日志挖掘的定义 w e b 日志挖掘是w e b 挖掘的一个重要组成部分。w e b 日志挖掘是通过挖掘w e b 日志 记录以发现用户访问w e b 页面的模式,挖掘有用模式和预测用户浏览行为的技术。r o b e r t c o o l y 将w e b 日志挖掘定义为数据挖掘技术应用在大型w e b 资源中以分析w e b 站点的使 用。w e b 日志挖掘的结果通常是用户群体的共同行为和共性兴趣,以及个人用户的检索 偏好、习惯和模式等。 2 2 2w e b 日志挖掘的过程 w e b 同志挖掘的过程如图所示: 图2 1w e b 日志挖掘的流程 资料米源:作者编制 ( 1 ) 数据收集 日志数据主要是来源于服务器端、客户端、代理服务器端的数据。这些数据不仅意味 着存放的位置不同,其中还包含了w e b 世界中不同的浏览模式。通常,客户端的日志包含 了单用户多站点的浏览模式,服务器上的日志则意味着多用户单站点模式,代理服务器上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论