已阅读5页,还剩74页未读, 继续免费阅读
(计算机应用技术专业论文)基于web日志挖掘的原型系统研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西华大学学位论文独创性声明 f 幽f l l l fl l l l l l l l l l l l f l l l l l r l l fj i f llrfrlllrflijp|rll;iiiii i lr i g y 18 8 4 5 5 9 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学雠文作孝张p 弘指删雠:獬 日期:砷f f 。f 日期 驯,歹z i 西华大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校 攻读学位期间论文工作的知识产权属于西华大学,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西 华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复印手段保存和汇编本学位论文。( 保密的论文在解 密后遵守此规定) 篙篙篇;彬省磊j 西华大学硕士学位论文 摘要 在i n t e r n e t 信息大爆炸的年代,用户大量地借助搜索引擎获取所需信息。然而现有 的信息检索系统基本对不同用户键入同一查询词返回同样的结果集,忽视了用户自身的 知识领域背景和兴趣趋向,使用户陷入了信息资源迷航状态。为此,信息检索领域拓展 开了一个新兴的研究方向个性化检索研究。 提供个性化检索的前提条件是要能准确地识别用户并合理的建立其知识兴趣背景。 w e b 日志中含有大量的用户记录信息,通过对相关信息的挖掘可以识别出单一用户,通 过分析用户的浏览行为信息可以抽取用户特性信息,从而构建出用户知识兴趣背景。结 合用户知识兴趣背景,对不同用户键入同一查询词进行用户识别,分析其领域知识、兴 趣偏好、喜好趋势等信息,从而返回相对不同用户意图需求的结果集,实现个性化检索, 提高查全率、查准率以及用户的满意度。 本文重点研究通过w e b 日志挖掘技术建立用户知识兴趣背景,实现个性化检索原型 系统。主要研究内容如下: 探讨了针对w e b 日志数据预处理阶段的数据清理技术,同时对数据预处理主要几个 步骤进行了详细分析、阐述。针对基于词频的t f i d f 算法忽略了用户知识兴趣与文档相 关性问题,结合对w e b 日志中用户浏览行为和查询日志中用户隐式反馈信息的分析,提 出了页面相关性权重计算方法;针对t f 计算中忽视了词条与文档结构的问题,提出了词 条的重要度影响因子e i v ;最后将页面相关性权重、词条重要度影响因子与基于词频的 t f i d f 算法相结合,提出了一种偏加权t f i d f 算法用于用户特征信息抽取,并在此基础 上运用向量空间模型构建用户知识兴趣背景,把r o c c h i o 反馈算法进行了相应衍化以应 用于对用户知识兴趣背景的实时分析和更新,最后实现了个性化检索原型系统易 搜。 最后,对当前论文的工作进行总结,展望了个性化检索的进一步发展。 关键词:w e b 挖掘;个性化;w e b 日志;t f i d f ;数据预处理;用户知识兴趣背景 基于w e b 日志挖掘的原型系统研究与实现 a b s t r a c t i na l le r ao fi n t e m ai n f o r m a t i o ne x p l o s i o n ,t h eu s e r su s u a l l ya c q u i r ei n f o i t s a t i o nb y m e 龇l so fu s i n gs e a r c he n g i n e h o w e v e r , i g n o r i n gt h ek n o w l e d g eb a c k g r o u n da n di n t e r e s to f t h eu s e r s ,t h ee x i s t i n gi n f o r m a t i o nr e t r i e v a ls y s t e mg i v e st h es a l l er e s u l t st ot h es a m eq u e r y i n p u tb yt h ed i f f e r e n tu s e r s ,a n dm a k e st h eu s e r si n t oat r e ks t a t eo fi n f o r m a t i o nr e s o u r c e t h e r e f o r e ,t h i sl e a d st oan e wr e s e a r c hd i r e c t i o nf o rt h ei n f o r m a t i o nr e t r i e v a lf i e l d t h es t u d y o np e r s o n a l i z e di n f o r m a t i o nr e t r i e v a l t h ep r e c o n d i t i o nf o rp r o v i d i n gt h ep e r s o n a l i z e dr e t r i e v a li st oa c c u r a t e l yi d e n t i f yt h e u s e r sa n dr e a s o n a b l ye s t a b l i s ht h e i rk n o w l e d g ea n di n t e r e s t b a c k g r o u n d 砀e 6l o g c o n t a i n sal o to fu s e rl o g s 硒eu s e r s k n o w l e d g ea n di n t e r e s tb a c k g r o u n d 跚b ee s t a b l i s h e d t h r o u g hm i n i n gt h er e l a t e di n f o r m a t i o nt oi d e n t i f yt h es i n g l eu s e ra n da n a l y z i n gt h eu s e r s b r o w s i n gb e h a v i o r st oe n r i c ht h eu s e r s c h a r a c t e r i s t i c s c o m b i n i n gw i t ht h eu s e r s k n o w l e d g e a n di n t e r e s tb a c k g r o u n d ,t h e p e r s o n a l i z e dr e t r i e v a ls y s t e mc a ng i v et h ec o r r e s p o n d i n gr e s u l t s t ot h es a n l eq u e r yi n p u tb yt h ed i f f e r e n tu s e r st or e a l i z et h ep e r s o n a l i z e dr e t r i e v a l ,e n h a n c et h e r e c a l lr a t i oa n dt h e p r e c i s i o nr a t i o ,a n di m p r o v et h er i s e rs a t i s f a c t i o n n i st h e s i sf o c u s e so ne s t a b l i s h i n gt h eu s e r s k n o w l e d g ea n di n t e r e s tb a c k g r o u n db y m e a n so f 6l o gm i n i n gt e c h n o l o g ya n dr e a l i z i n gt h ep e r s o n a l i z e dr e t r i e v a lp r o t o t y p e s y s t e m :乃em a i nc o n t e n t sa r ea sf o l l o w i n g s : t h i st h e s i sm a i n l yd i s c u s s e st h ed a t ac l e a n i n gt e c h n o l o g yo fw 曲l o gd a t ap r e p r o e e s s i n g s t a g ea n dg i v e sa ni n t r o d u c t i o no nt h em a i ns e v e r a ls t e p so fd a t ap r e p r o c e s s i n g 、矾t hr e g a r d t h a tt h et f i d fa l g o r i t h mb a s e do i lt h ew o r df r e q u e n c yi g n o r e st h ec o r r e l a t i o nb e t w e e nt h e u s e r sk n o w l e d g ea n di n t e r e s ta n dt h ed o c u m e n t s ,c o m b i n i n gw i t ha n a l y z i n gt h eu s e l 瞎 b r o w s i n gb e h a v i o r sa n dt h eu s e r s i m p l i c i tf e e d b a c ki n f o r m a t i o ni nw 曲l o g , t h i st h e s i s p r o p o s e st h ep a g ec o r r e l a t i o nw e i g h t a n dc o n s i d e r i n gt h a tt h et fc a l c u l a t i o ni g n o r e st h e i m p o r t a n c eo ft h ee n t r y sp o s i t i o ni nt h ep a g e ,t h i st h e s i sp u t sf o r w a r dt h ee i vt h a ti st h e i m p o r t a n tf a c t o ro ft h ee n t r y t h e n , c o m b i n i n gw i t ht h ep a g ec o r r e l a t i o nw e i 曲t t h e i m p o r t a n tf a c t o ro ft h ee n t r ya n dt h et f ,i d fa l g o r i t h mb a s e do nt h ew o r df r e q u e n c y , t h i s t h e s i sp r e s e n t st h ep a r t i a lw 西g h t e d 硼m d fa l g o r i t h m f u r t h e r m o r e , t h i st h e s i se s t a b l i s h e s t h eu s e r s k n o w l e d g ea n di n t e r e s tb a c k g r o u n d ,m a k e su s eo fr o c c h i of e e d b a c ka l g o r i t h mt o u p d a t ea n dd or e a l t i m ea n a l y s i so n 也eu s e r s k n o w l e d g ea n di n t e r e s tb a c k g r o u n d , a n d r e a l i z e st h ep e r s o n a l i z e dr e t r i e v a lp r o t o t y p es y s t e m e a s vs e a r c h e r f i n a l l y , t h ew h o l et h e s i si ss u m m a r i z e da n dt h ep r o s p e c to nt h ef u r t h e rd e v e l o p m e n to f p e r s o n a l i z e dr e t r i e v a li sm a d e k e yw o r d s :w e bm i n g ;p e r s o n a l i z e d ;w e bl o g ;t f i d f ;d a t ap r e p r o c e s s i n g ;u s e r s k n o w l e d g ea n di n t e r e s tb a c k g r o u n d , 2 2 4w e b 挖掘对象j 1 0 2 2 5w e b 挖掘处理过程11 2 2 6w e b 挖掘分类1 1 2 3w e b 日志挖掘1 4 2 3 1w e b 日志挖掘相关术语1 4 2 3 2w 曲日志挖掘对象1 4 2 3 3w e b 日志挖掘一般过程15 2 3 4w c b 日志挖掘常用技术1 6 2 4 个性化17 2 4 1 个性化信息推荐18 2 4 2 个性化信息检索1 9 本章小结。1 9 第三章个性化检索2 0 3 1 个性化检索2 0 i i i 基于w e b 日志挖掘的原型系统研究与实现 3 1 1 个性化检索涉及的相关技术2 0 3 1 2 个性化检索评价指标2 l 本章小结2 2 第四章w e b 日志预处理研究2 3 4 1w c b 日志介绍2 3 4 2w e b 日志预处理过程2 4 4 2 1数据清理2 4 4 2 2 用户识别2 6 4 2 3 会话识别2 6 4 3 用户点击日志2 7 本章小结2 7 第五章用户知识兴趣背景2 8 5 1 用户知识兴趣背景概述2 8 5 1 1 知识兴趣背景的研究对象:2 8 5 1 2 知识兴趣背景的获取方式以及构建方法2 9 5 2 用户知识兴趣背景表示方法概述3 0 本章小结31 第六章构建用户知识兴趣背景3 2 6 1本文用户知识兴趣背景表示方法3 2 6 2 数据过滤3 3 6 3基于词频统计的t f i d f 算法3 4 6 4 改进的偏加权t f i d f 算法3 5 6 4 1 用户交互页面权重分析。3 5 6 4 2 改进的偏加权t f i d f 实现3 6 6 5 用户知识兴趣背景构建3 7 6 6 用户知识兴趣背景更新3 8 6 6 1r o e e h i o 反馈算法3 8 6 6 2 基于r o e e h i o 反馈算法衍化的用户知识兴趣背景更新3 9 本章小结。4 0 第七章基于用户知识兴趣背景的优化重排4 1 7 1 基于用户知识兴趣背景的检索结果集分类4 1 7 2 优化重排4 2 7 2 1 文档向量的相关性4 3 i v 西华大学硕士学位论文 7 2 2 文档与查询的相关性4 3 本章小结。4 3 第八章个性化检索系统原型。4 5 8 1原型系统设计与架构一4 5 8 2 原型系统相关模块介绍4 6 8 2 1 信息采集器4 6 8 2 2 索引器、检索器以及用户接口模块4 7 8 2 3 用户知识兴趣背景模块4 8 本章小结。4 8 第九章原型实现与实验分析。4 9 9 1实验平台的软硬件环境4 9 9 1 1 系统软、硬件环境。4 9 9 1 2 l a r b i n 和x a p i a n 简介4 9 9 2实验分析5 0 9 2 1w e b 日志预处理实验5 0 9 2 2 偏加权t f i d f 实验5 1 9 2 3原型系统系统性能试验。5 4 第十章结论5 7 1o 1 总结5 7 1 0 2 研究展望5 7 参考文献5 9 攻读硕士学位期间发表的论文及科研成果6 4 致 射6 5 v 西华大学硕士学位论文 第一章绪论 1 1 研究背景、目的 2 0 0 9 年的中国搜索引擎报告表明:用户在一次搜索后,有7 8 2 的用户会在搜索不 到理想结果后采用“更换关键词”的方法重新搜索,有7 2 的用户会用“增加或者减少 关键词”的方法重新搜索。另外有6 5 8 的用户会选择更换搜索引擎,6 3 2 的用户会 选择从结果中再次搜索,只有1 9 7 的用户表示放弃继续搜索。与此同时,相对2 0 0 8 年,新闻搜索的使用率下降幅度较大,下降了5 4 ,专业资料的使用率下降了3 4 , 企业产品及购物信息搜索的使用率下降了2 7 ;生活信息和本地信息的搜索使用率也 略有下降,下降幅度约为1 。 2 0 1 0 年7 月1 5 日中国互联网络发展状况统计报告指出:我国现有站点数2 , 7 8 7 ,4 8 0 个;网民规模达到4 2 亿,互联网普及率较2 0 0 9 年底提高2 9 个百分点攀升至3 1 8 。 搜索引擎使用率增长了3 个百分点,达7 6 3 ,用户规模已达3 2 亿人,半年内增长3 9 1 2 万人,增幅达1 3 9 ;同时用户使用搜索引擎获取信息的频率也在不断增加。 上述数据分析表明:i n t e m e t 信息量在不断膨胀;用户利用搜索引擎获取信息的依 赖性进一步增强;用户对搜索引擎的使用尝试更加趋于多元化;搜索的精准度无法满足 用户的信息需求。搜索引擎所存在的问题更趋于明显,主要表现在以下几点: ( 1 ) 面向关键字的检索:目前搜索引擎技术大多是对查询词进行简单匹配,然而用 户常常并不能准确抽象地描述出想要查询的内容,使得搜索返回的结果中包含大量冗余 的、甚至无关的信息,查准率不高。 ( 2 ) “信息迷航 :现有搜索引擎不考虑用户信息偏好,对不同用户提供相同的界 面和服务,检索出成千上万的结果,然而用户也很难快速找到满足自己所需的信息。究 其原因是:不同用户输入相同查询词时,领域背景、知识结构等差异使其对相同查询词 理解参差不齐,信息需求各异。所以即使同一查询词,不同用户所期待的检索结果也各 不相同。 ( 3 ) 检索结果单一化:现有的搜索引擎基本上是:不同用户输入相同查询词,返回 同一检索结果集,即“一个搜索适用所有用户的模型,并不对用户的行为和知识兴趣 进行跟踪学习,没有形成个性化的信息检索。 通常,不同领域背景、不同知识结构的用户会键入不同的查询词,对文档相关性的 判断以及检索结果的要求也不尽相同。即使同一个用户,在不同时期也有所侧重。然而 w c b 日志中包含大量真实的、隐式用户信息,如何合理利用这些信息,将“个性化 体 现在信息检索中,减少冗余信息、垃圾信息,提高查准率是当前研究的重点。 基于w e b 日志挖掘的原型系统研究与实现 文研究的问题就是在这一背景下提出来的。本论文主要针对搜索引擎返回结果页 息冗余过大、缺乏个性化检索进行基于w e b 使用日志挖掘的个性化原型系统研 现。通过收集分析w e b 日志记录,基于用户识别、会话识别、w e b 挖掘等技术, 得用户的领域知识、兴趣以及行为习惯,从而建立用户知识兴趣背景,并对其背 实时扩展、细化;通过用户键入的查询词进行用户意图识别,结合其知识兴趣背 ,推断出用户的需求,使用户免于在大量的信息中浏览、搜索,从而实现个性化 索。即将w c b 检索从被动的接受访问者请求转化为与用户交互并主动感知访问 求,从而实现检索对用户的个性化服务。 个性化研究意义及其现状 性化研究直到2 0 世纪9 0 年代才被作为一个独立的概念提出来【1 2 】。个性化是指 统通过跟踪、分析用户的访问行为并针对不同用户需求、兴趣自动实现提供不同 式的过程。由传统的“我们提供什么,用户接受什么”服务模式的转变为“用户 么,我们就提供什么 的智能信息服务方式,更具有针对性【3 】。个性化检索系统 过收集和分析用户信息来学习用户兴趣和行为,发现用户隐藏的兴趣并构建用户 趣背景以及群体用户的行为规律分析模型,从而提供个性化的检索,提高检索精 着w c b2 0 技术发展成熟,个性化推荐有了迅猛发展,近年来,国际上研究个性 系统( p e r s o n a l i z e dr e c o m m e n d i n gs y s t e m s ) 的人越来越多,根据实现个性化服务的 致可分如下几类:协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 系统、基于内容( c o n t e n t b a s e d ) 的推荐系统、基于规贝, l j ( r u l e b a s e d ) 的推荐系统、混合( h y b r i d ) 推荐系统以及最近兴起的 基于用户一产品二部图网络结构叫咖o r k b a s c d ) 的推荐系统【引。 回顾个性化服务发展,具有里程碑意义的两次开拓性事件分别是: 第一次:三个经典系统的推出,标志着个性化服务的开始【5 】。分别是: 1 9 9 5 年3 月,在美国人工智能协会( a a a i ) 春季会议上:卡内基梅隆大学 r o b e r ta r m s t r o n g 等人基于机器学习的基础上提出了个性化导航系w e b w a t c h e r , 斯坦福大学的m a r k ob a l a b a n o v i c 等推出的个性化推荐系统l i r a ,麻省理工学 院h e n r y l i e b e r m a n 在同年8 月的国际人工智能联合大会上也给出了一种新的个 性化导航智能系统一l e t i z i a 。 第二次:1 9 9 7 年, c o m u u n i c a t i o no f t h ea c m ) 杂志针对个性化推荐系统研究 做了专题报道,标志着技术界已经高度重视个性化服务发展。 其它主要研究工作有: 1 9 9 6 年,d u n j am l a d e n i e 基于w e b w a t c h e r :针对特定用户,通过学习用户以前的 浏览模式来得到用户兴趣模型,在用户浏览网页时提供帮助,将用户感兴趣的链接突出 2 西华大学硕士学位论文 显示出来,从而提出个性化推荐系统p e r s o n a lw e b w a t c h e r t 6 1 ;同年,加州大学k r o n e 分 校的b r i a ns t a r t 等人依据发现用户感兴趣页面价值变化,发布了通知用户访问的个性化 服务智能体s y s k i l l & w e b e r t 7 】;著名的网络公司y a h o o ! 也推出了个性化入口m y y a h o o ! 。 1 9 9 7 年,a t & t 实验室以及斯坦福大学y o a v sh o h a m 和m a r k o b a l a b a n o v i c 都基于 合作方式对个性化推荐系统做了相关研究并推出了r e f e r r a lw e b 、p h o a k s 以及f a b 哺j 个性化推荐系统。区别是前者仅基于合作方式,后者考虑了内容的影响。 19 9 8 年,a l e x a n d e rp r e t s c h n e r 通过研究指出个性化应该包括个性化的应用、用户模 型的创建和表示、评价和过滤算法、协作或个体过滤、系统架构。 1 9 9 9 年,个性化服务首次在电子商务领域进行相关研究。例如:德国t a n j a j o e r d i n g 实现了其原型系统e l f i 明;同年,麻省理工学院的h e n r yl i e b e r m a n 基于合作方式研究推 出了个性化导航系统l e t sb r o w s e 1 0 】。此时,个性化服务研究逐渐在全球拓展开来【l 。 2 0 0 0 年,学术论文数字图书馆的c i t e s e e r i l 2 】实现了个性化推荐功能;同年4 月,个 性化协会成立。它旨在推动个性化服务的发展,同时保护个性化服务发展中涉及的用户 隐私【1 3 】1 3 。 。 2 0 0 1 年,纽约大学g e d i m i n a sa d o m a v i c i u s 和a l e x a n d e rt u z h i l i n 把个性化服务应用 于电子商务网站系统建设中并构建了针对个人的用户模型系统;随后,i b m 公司在 w e b s p h e r e z ( w w w i b m e o m w e b s p h e r e ) 电子商务平台上也拓展了个性化功能,便于商家开 发针对本行业的个性化电子商务网站等。 2 0 0 5 年,s u s a ng a u c h 等人认为个性化是指在合适的时间将恰当的信息提供给特定 的用户。并且他们把个性化分为显式的个性化和隐式的个性化两类,前者已经在商业系 统如y a h o o 、s e n d c ut o o l b a r 、f u r l 中使用了数年,后者实现起来较难【1 4 j 2 0 0 7 年a h us i e g 也做了相关研究并认为实现有效的个性化信息检索首要解决两个 重要问题【1 5 】:准确地识别用户的背景和以匹配特定背景的方式组织信息。 。 与国外相比,国内关于个性化研究起步较晚,主要有:南京大学应用机器学习,自 然语言处理、超文本技术实现了w e b a c c e s s 系统;清华大学研制的p i n s 系统和b o o k m a r k 系统用于自动收集和记录用户的习惯和兴趣,跟踪用户的信息需求等。以及清华大学路 海明等人提出的基于多a g e n t 混合智能实现个性化推荐系统。四川大学和香港城市大学 联合开发了个性化远程教学原型系统e t e a c h e r ,中国人民大学研究的个性化图书管理 系统以及东北大学对网络个性化数据挖掘技术的研究等。 另外,目前主流商业搜索引擎也开始提供个性化定制服务。例如o o o g l e ,b a i d u 等, 它们允许用户设置自己喜欢主题和结构、定制自己感兴趣领域信息内容等。 3 基于w e b 日志挖掘的原型系统研究与实现 w e b 日志挖掘研究意义及其现状 在信息检索领域中,用户行为信息是通过分析包含用户提交的查询词、点击序列和 页面以及其他属性的w e b 日志记录来获取,而用户真实的检索意图和需求则是隐 这些行为日志背后,无法直接获得。通过w e b 挖掘技术,可以进行用户识别,并 用户知识兴趣背景;结合用户知识兴趣背景分析明确用户查询意图,通过计算文档 户知识兴趣主题之间的相关程度,主动将相关度较高的文档返回给用户,从而提高 率和查准率。同时用户的相关行为信息实时反馈给系统以更新用户知识兴趣背景, 于进一步挖掘和检索系统的优化重排。因此,w e b 日志挖掘对于个性化检索具有广 市场应用前景和理论研究价值。 m s c h c n ,h m a n n i l a ,t y a h 首次提出将传统的数据挖掘方法应用于互联网应用研 域。伴随着i n t e r n e t 的迅速普及以及数据挖掘技术的不断发展,国内外专家、学者 领域的研究取得相当大的成果。 1 国外研究现状 c o o l e yr 、m o b 础e rb 等人首次给出了w e b 挖掘定义并还将其划分成三个阶段, 是:数据预处理、模式发现和模式分析。他们使用了用户识别、页面视图识别等方 行数据预处理;采用关联规则和序列模式进行模式发现;最后使用一种类s q l 语 行模式分析,并据此开发了w e b 使用挖掘系统w e b m i n n e r t l 6 】,随后,在此基础 开发了w e b s l f t 1 7 j 系统。 c h e r t 等人将数据挖掘技术应用于w e b 服务器日志挖掘中,去除w e b 日志中用户点 面附属文件( 图片、音视频等) 的请求记录;并以此反映用户对网站的真实访问情况。 同时他们提出了最大前向引用( m a x i m a lf o r w a r dr e f e r e n c e sm f r ) 概念【1 8 】,用于将用户会 话分解成浏览模式挖掘事务中一个个更小粒度的访问事务,进而在访问事务基础上辨识 出用户的访问模式。m 锄1 i l a 【1 9 】等人则把用户访问页面当作事件,通过数据挖掘技术试 着从w e b 日志中挖掘频繁访问路径,即用户访问网站的规律。 y a n 【2 0 】研究如何利用w e b 日志对同类用户的访问情况进行聚类为其他用户推荐可 能感兴趣的页面;h a r t 2 1 】等人则把数据立方体结构( d a t ac u b es t r u c t u r e ) 应用到w e b 服务 器日志中,使用传统的在线分析处理( o l a p ) 过程实现w c b 日志挖掘。 另外,有一些w c b 日志分析工具也已投入使用,如w e b t r e n d s 公司的l o g a n a l y z e r , e x o d y 公司的w e b s u x e s s 等。不过它们多数都只是对w e b 日志中的数据项进行简单的 统计,如统计某一个u r l 在特定访问时间内的访问次数。 4 西华大学硕士学位论文 1 3 2 国内研究现状 在国内,很多大学和科研机构对w e b 使用挖掘展开了积极的研究工作并取得了一 定研究成果。 华中理工大学胡和平教授等人提出了应用多维关联规则【捌的方法将w c b 日志集成 到多维立方体中后再进行挖掘。 中国科学技术大学王熙法教授等人通过w e b 日志用户行为分析出会话向量,并统 计出频繁数据集,对其归一化生成模式向量【2 3 1 ,利用s o f m 模型聚类出用户簇。 中国科学院数学研究所周龙镶教授等人,在分析用户浏览站点的活动规律基础上, 提出用于实现挖掘用户浏览路径的优化算法【2 4 1 。 上海交通大学尤晋元教授等人改进了根据站点结构和页面内容的页面聚类算法,同 时还改进了用于计算用户频繁访问页组支持度的公式【2 5 1 。 华中科技大学殷贤亮等人针对w e b 日志挖掘中的会话识别问题提出了一种改进的 基于时间间隔的识别方法【2 6 】,他们通过使用访问时间间隔超出某个阈值来识别会话,并 根据页面内容及站点结构确定的页面重要程度对该阈值进行调整,2 0 0 7 年李超锋等人将 生物信息学中经典的d n a 蛋白质序列比对算法【2 7 】加以改造应用在w e b 会话相似性度量 方面。 清华大学马少平教授等人提出利用n 元( n 伊锄) 预测模型【2 8 】来分析w e b 服务器日 志,预测用户未来可能请求访问的w e b 页面。 复旦大学郭新涛等人基于w e b 日志中的搜寻路径量化用户寻找目标花费的平均时 间提出了一种能够有效压缩搜寻路径( 降低时间费用) 的超链接w e b 使用挖掘方案【2 9 】应 用于优化站点设计方面。 中国科学院计算机研究所邢东山等人通过对w e b 日志构建用户浏览偏爱树( p n t ) 进 行用户浏览兴趣模式的挖掘,发现用户浏览偏爱路径 3 0 1 。 目前国内研究成果中具有代表性的原型系统主要有两种。一种是由般若公司开发的 网站智能分析w e b i a m ( w e bi n t e l l i g e n ta n a l y s i sa n dm a n a g e m e n t ) 系统,另一种则是由西 安交通大学【3 1 】开发的w e b 日志挖掘实验系统s w l m s ( s i m p l ew e bl o gm i n i n gs y s t e m ) 。 总体而言,从研究的目的分析,针对w e b 日志挖掘的研究大致可以分为以下四个 方向: 1 、识别用户意图,通过相应算法从w e b 日志找出有规律的用户访问模式规则或频 繁访问路径。 2 、优化w e b 站点性能,运用统计学的方法统计w e b 日志中的数据项,主要包括: 时间推移w e b 访问数量变化分布图、用户频繁访问页、单位时间访问次数等。 5 调整站 户提供 兴趣和 进的偏 重排检 及词条 算法。 数据的 馈算法 全文共分1 0 章,具体组织结构安排如下: 第1 章绪言 阐述个性化的研究背景与目的、研究的意义以及w e b 日志挖掘相关的国内外研究 情况和进展,最后引出本文的研究课题。 第2 章数据挖掘与w e b 挖掘 阐述数据挖掘、w e b 挖掘技术的概念和分类以及w e b 日志挖掘的流程和常用算法; 详细分析w e b 日志,最后给出个性化服务的相关概述。 第3 章个性化检索概述 介绍了个性化检索的基本类型、以及个性化检索中所使用的相关技术和评价个性化 检索系统性能的三个判定标准。 西华大学硕士学位论文 详细介绍w e b 日志预处理的过程及方法,主要对预处理过程中的数据清理、用户 识别、会话识别三个阶段进行重点分析,最后简扼介绍了用户点击行为日志。 第5 章用户知识兴趣背景 介绍了构建用户知识兴趣背景所需的数据研究对象、信息获取的方式,并对表示其 用户知识兴趣背景的方法进行了阐述。 第6 章构建用户知识兴趣背景 本章针对t f i d f 算法的不足,结合文档与用户知识兴趣的相关性,词条在文档结 构中权重等因素,提出一种偏加权t f i d f 算法;详细阐述了用户知识兴趣模型的构建; 最后结合r o e c h i o 反馈算法与用户键入词频分析衍化出一种新的r o e c h i o 反馈算法,用 于用户知识兴趣背景更新,并对其基本思想进行了阐述。 第7 章基于用户知识兴趣背景的优化重排 利用用户知识兴趣背景分类检索结果集为相关与不相关两类,结合查询词、相关页 面文档以及不相关页面文档分析,在b m 2 5 0 0 算法模型基础上提出了一种新的检索结果 集重排方法。 第8 章个性化检索系统原型 针对传统检索与原型的架构进行了介绍并阐述了其中的差异,简要介绍了其实现的 相关技术。 第9 章实验分析 对原型系统构建过程中的w e b 日志数据清理、用户知识兴趣背景构建、检索系统 性能的评价进行了相应实验分析,结果表明基于本文提出的构建用户知识兴趣背景的方 法对实现个性化服务有很大的帮助。 第1 0 章总结和展望 对本文的主要工作进行总结,并对未来工作进行展望。 基于w e b 日志挖掘的原型系统研究与实现 第二章数据挖掘与w e b 挖掘 随着i n t e r n e t 技术的发展,在w w w ( 万维网,简称w e b ) 出现1 0 年左右的时间内网 络资源在飞速地增长,面对如此海量的数据,用户想要找到自己的需要的数据必须借助 搜索引擎。由于搜索引擎是基于查询词的简单匹配,忽视分析用户的查询意图以及信息 需求,因此查全率较低;除此以外,。也不能针对特定的用户实现自动个性化服务。由于 w e b 的无结构性、动态性以及w e b 页面的复杂程度远超过文本文档。为了解决这些问 题,大量的研究者将传统的数据挖掘技术和w e b 结合起来构成了当今比较活跃的一个 研究领域w c b 挖掘。 2 1 数据挖掘概述 2 1 1 数据挖掘定义 数据挖掘( d a t am i n i n g ) ,也叫数据开采,即:按照既定的业务目标从大量的、不完 全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事并先不知道的、 但能被人理解的潜在有用信息的一种知识的高级处理过程。 数据挖掘涉及的学科领域和方法很多,有多种分类法。 ( 1 ) 根据挖掘对象分为: 1 与数据库技术结合形成基于磁盘存储挖掘,针对关系数据库的数据挖掘 是典型代表,同时多媒体数据库的数据挖掘、时态数据库的数据挖掘、 空间数据库的数据挖掘等也得益于数据库技术的发展; 2 与i n t e r a c t 结合形成基于异构数据源挖掘。例如:针对电子商务、多媒 体等领域数据挖掘的数据源; 3 与移动计算结合形成实时数据挖掘。 ( 2 )根据挖掘技术分类,可分为预测模型化、聚类、数据归纳、依赖模型化以及 发现变化和偏差等; ( 3 )根据挖掘方法可分为:机器学习方法、数学统计方法、面向数据库方法、神 经网络方法和混合方法以及可视化技术、知识表示技术等。 总之,数据挖掘立足于从一个全新的角度,将机器学习、数据库技术、统计学等学 科领域知识结合并应用于深层次的发掘存在于大量数据内部丰富的、有效的、新颖的、 具有潜在效能的乃至最终可被人类理解的模式。 2 2w e b 挖掘 f i g 2 1d a t am i n i n gp r o c e s s 2 2 1w e b 挖掘基本概念 w e b 挖掘是对数据挖掘技术的一种新的发展和应用,是针对w e b 页面之间的结构, 页面内容,用户访问信息,电子商务信息等在内的各种w c b 数据进行挖掘,以最终发 现可理解的、有效的、新颖的、潜在有用的信息以及模式规则的过程,并将其应用于改 进站点设计,电子商务等领域。 目前为止,关于w e b 挖掘的确切定义还没有很明确而权威的说法。国外普遍认为: w e b 挖掘,就是利用数据挖掘技术自动地从w e b 文档和w e b 活动中抽取感兴趣的潜在 的有用模式和隐藏信息的过程【3 2 1 。国内则各持己见,有的人认为是在大量已知数据样本 的基础上得到数据对象间的内在特性,并以此为依据在w e b 中进行有目的信息提取过 程。比较认可的是文献 3 3 】中对w e b 挖掘给出的定义: 定义2 1 ( w e b 挖掘1 :w e b 挖掘是指从大量的与w e b 相关的资源和使用集合s 中发 现有用的、感兴趣的和隐含的模式m 。如果将s 看成是输入,m 看作输出,那么w 比 挖掘的过程就是从输入到输出的一个映射: :s _ 彤 总之,w e b 挖掘技术是一个崭新的领域,它以数据挖掘、文 基础,并融合了多个学科领域,如:人工智能、信息获取、模式 仓库、软计算、数量统计自然语言理解等3 4 1 。 9 基于w e b 日志挖掘的原型系统研究与实现 2 2 2 数据挖掘与w e b 挖掘 相对于传统的数据挖掘技术相比,w e b 数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋租凭赔偿协议书
- 房屋租金抵扣协议书
- 房屋维修责任协议书
- 房屋装修损坏协议书
- 房屋购买内部协议书
- 房屋鉴定转让协议书
- 房展会展位合同范本
- 房租共借人合同范本
- 房车停车位合同范本
- 房院转让协议书范本
- 工程款结算申报流程及范本模板
- 人工智能导论期末考试题库及答案2025
- 学堂在线 研究生生涯发展与规划 章节测试答案
- 2025年危险化学品安全作业特种作业操作证考试试卷实操技能
- 润滑油测试分析评估指南(2025年第二版)-安东帕
- 精神科患者安全防护护理方案
- 初中化学跨学科实践活动的教学设计研究
- 房地产市场报告 -2025年成都房地产市场半年报
- 2025高中地理教师课程标准考试测试卷及答案(共三套)
- 二衬混凝土裂缝控制
- 湖北省武汉市汉阳区2024-2025学年七年级下学期期末考试英语试卷(含答案无听力原文及音频)
评论
0/150
提交评论