(计算机软件与理论专业论文)基于web使用挖掘的个性化推荐服务研究.pdf_第1页
(计算机软件与理论专业论文)基于web使用挖掘的个性化推荐服务研究.pdf_第2页
(计算机软件与理论专业论文)基于web使用挖掘的个性化推荐服务研究.pdf_第3页
(计算机软件与理论专业论文)基于web使用挖掘的个性化推荐服务研究.pdf_第4页
(计算机软件与理论专业论文)基于web使用挖掘的个性化推荐服务研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河海大学硕士研究生论文摘要 摘要 随着】n t e r n e t 应用的迅速发展,网上信息迅速增长,信息种类也越来越多,人们面对太 多的信息无法选择和消化,此种现象称为信息过载。i nl e r n e t 上信息资源分布的广泛性又给 用户寻找感兴趣的信息增加了困难,也就是所渭的信息迷失。当前主要采用搜索引擎来检索 w e 0 的信息,人多数搜索引擎缺乏主动性,来考虑个体用户的兴趣偏好,因而未能有效地 解决信息过载和信息迷失的问题。为了有效地解决信息过载和信息迷失给人们带来的种种困 扰。最近研究者们提 j 了一种被认为能有效斛次这些问题的技术一w e b 个性化服务技术。 基于w e b 使用挖掘的个件化服务是目前w e b 个性化服务中应用和研究的关键技术,w e b 使 用挖掘主要应用于个性化推荐服务,商业智能和w e b 站点优化。本文主要对基于w e b 使用挖掘 的个性化推荐服务中若干关键技术进行了研究。 本文的主要研究内容如下: 1 w e b 使用挖掘的方法研究。详细的研究和探讨了w e b 使用挖掘的整个过程( 如:数据收 集、数据预处理、模式发现、模式分析以及应用) 。 2 提出了一种可扩展兴趣表示模型( s t m ) 。首先,介绍了目前个- 陛化推荐服务系统中 表示用户浏览兴趣和c i ( c l u s t e ,si n t e r e s tc h a r a c t e r i s t j c ,后文将用c t ”代替“聚类的兴趣特征”) 的若干方法,分析了它们各自的不足之处。然后,提出了一种可扩展兴趣表示模型( s i m ) 。 s i m 利用用户会话( 后文将用“会话”代替“用户会话”) 的所有2 会话片断的特征来表示s t ( s e s s i o n si n t e r e s tc h a r a c t e r i s t i c ,后文将用“s i ,代替“用户会话的兴趣特征) 。s i m 是一个可扩 展模型,根据具体应用的需要s i m 可以调整从2 一会话片断中抽取特征的数目来调整它表示s i 和c i 的准确性。实验结果表明,s i m 有效提高丁表示s i 和c i 的准确性。 3 提出了一种基于会话聚娄的个性化推荐算法( s c r e c ) 。首先,详细分析了目前基于 聚类挖掘技术的个性化推荐方法的若干不足之处。然后,提出了一种基于会话聚类的个性化 推荐算法( s c r e c ) 。数据预处理阶段和会话聚类阶段,s c r e c 利用sj m 表示s i 和c i ,推荐产生 阶段,s c r e c 利_ e ; 2 一会话片断在聚类中的权重和当前会话与聚类的相似性来产生推荐。实验 结果表明,基于会话聚类的个性化推荐算法( s c r e c ) 可以有效提高推荐系统的服务质量。 关键宇:w e b 使用挖掘、兴趣表示模型、个性化推荐、会活聚类、推荐算法 基于w e b 使用挖掘的个性化推荐服务研究 a b s t r a c t w i t ht h er 8 p i dd e v e j o p m e n to ft 1 1 ei n t e m e ta p p i i c a t i o n s ,t h e r ei sas h a r p i yi n c r e a s e dd e m a n d o ni n f o 丌n a t i o ns e r v i c e sv i at h ei n t e m e t w h i l et 1 1 eh u g ea m o u n to fi n f o r m a t i o nd i s t r j b u i e do nt h e n t e m e tm a k e si th a r d e rf o rt h ei n d i v i d u a lu s e ra c q u i r ew h a th eo rs h en e e d s s u c hap h e n o m e l l o n c o u l db ec a j l e di n f o r r na t j o no v e r l o a d a tt h es a m et i m e t h ed i s 砸b u t i o no fi n f b m a t j o no nt h e i n l e m e fm a k e si h ei n d i v i d u a lu s e rn n du s e m io n em o r ed i m c u l t t h a tj ss o c a l l e di n f o 丌n a t i o n a s t r a y b e i n gj n s u m c j e n t i n p o s l t i v ec h a r a c t e r i s t i ca n dl a c kf o r t a k i n gu s e i n t e r e s t i n t o c o n s i d e r a l i o n ,m o s ts e a r c he n g i n e sp r e s e n t l yh a v en o ty e ts o l v ep r o b i e m si n c i u d i n gj n f o 呻a t i o n o v er l o a da 1 1 di n f 0 丌n a t i o na s t r a yu n t 订r e c e n t l mt h ew e bp e r s o n a l i z a t i o ns e r v i c eh a sb e e np r o p o s e d s oa st os e n l ed d w nt h o s ei s s u e s t h ew e bp e r s o n a l j 动t i o ns e r v i c eb a s e do nw e bu s a g em n gi sl h ek e yt e c t l l l i q u ei nb o t h r e s e a r c h e sa n d 印p l i c a 廿o n st h ew e bu s a g em i n i n gc o u l db ea p p l i e di nt 1 1 ep e r s o n a l i z a d o ns e r v i c e , t h ec o m m e f c i a li n t e l l i g e n c e ,a n di m p r o v i n gt h es t m c t 【l r eo ft h ew e b s j t e s i nt h ep a p e lt h ek e y t e c h n o l o g i e si np e r s o n a l i z a t i o nr e c o m m e n d a 廿o ns e r v i c eb a s e do nw e bu s a g em i n i n gw e r es t i l d i e d i nd e t a i l t h em a i nc o n t e n ti nt h ep 印e ri sa sf o l l o w s t h ew e bu s a g em i n i n gw a ss t u d i e dc o m p l e t e j y i n c l u d i n gd a t ac o l l e c t i o n ,d a t ap r e p a r a t i o n , p a n e md i s c o v e 吼p a n e ma 1 1 a l y s i s ,a n da p p l i c a t i o n s 2 as c a l a b l ei m e r e s tm o d e l ( s l m ) w a sp r o p o s e d f i r s t ly ,s o m em e l h o d st op r e s e ma i l dt 1 1 e m e a s u r eu s e ,s b r o w s i n g i n t e r e s t sa n d c l( c l u s t e r si n t e r e s tc h a r a c t e r i s t i c )j nt h e p r e s e n t p e r s o n a l i z a t i o ns e r v i c es y s t e m s 、v e r ej n t r o d u c e da 1 1 d 也e 王rd e n c i e n c yw a sa n a l y z e d t h e n ,a s c a l a b l ei n t e r e s tm o d e l ( s l m ) w a sp r o p o s e d t h es j mm a k e su s eo fu s e rs e s s i o n s2 一s e g m e n t c h a r a c t e r l s t i ct op r e s e n ts i ( s e s s i o n si n t e r e s tc h a r a c t e s “c ) t h es i mi sas c a l a b l em o d e l _ i tc o u l d b ea d a p t i v et ot h ec h a r a c t e s t i cw h i c hw a se x i r a c t e df r o m2 一s e g m e n ts oa st oa d j u s t t h ea c c u r a c y o ft h ep r e s e n t a t i o no fs ia n dc i t h ee x p e m e n t a lr e s u l ts h o w e dt h a tt h es i mi m p r o v e d e 舱c t j v e l yt h ea c c u r a c yo f b o t hs ia n dc i 3 ap e r s o n a l i z a t i o nr e c o m m e n d a t i o na l g o n t h mb a s e do ns e s s i o nc l u s t e r ( s c r e c ) w a s p r o p o s e d f i r s t l yt h ed e n c i e n c yo ft h ep e r s o n a l i z a i i o nr e c o m m e n d a t i o nb a s e do nc i u s t e rm i n i n g e c h n o l o g yw a sa n a l y z e dj nd e t a i l t h e nap e r s o n a l i z a l j o nr e c o m m e n d a t i o na l g o r i t h mb a s e do n 河海大学硕= 卜研究生论文 摘要 s e s s j o nc 】u s t e r ( s c r e c ) 、v a sp r o p o s e d d u d n gt h es t a g eo fd a t ap t 。p a r a t i o na n dc l u s t e r i ”g ,s l m c o u l db eu dl op r e s e n is ia n dc i d u r i n gt h er e c o m r n e n d a t i o ns l a g e ,t h ew e i g h to f 2 一s e 磬n e mj n t h es e s s j o na n d1 h es i m i l a r i t yo rt h ec i u s t e rc o u l db eu s e df o rr e c o m m e n d a t i o n t h ee x p e n m e n t a l r e s u l is h o w e dt h a ts c r e cc o u i de n h a | 1 c el h es e r v i c eq u a l i t yo ft h er e c o m m e n d a l i o ns y s t e m e 仃e c t i v e l y k e y w o r d s :、v e bu s a g em n g ,i n t e r e s tp r e s e n t a t i o nm o d e l ,p e r s o n a i i z a t j o nr e c o m m e n d a t i o n , r e c o m m e n d a t j o na i g o n t h m - lj 】一 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果。与我一 同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。如不实,本人负全部责任。 敝储瀣釉:锌。卜圳年3 月砂日 学位论文使用授权说明 河海大学、中国科学技术信息研究所、国家图书馆、中国学术 期刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件 或电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论 文外,允许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊 登) 授权河海大学研究生院办理。 论文作者( 签名) : 河海大学硕士研究生论文第一章绪论 1 1 研究背景 第一章绪论 1 w 曲个性化服务产生的背景 随着i m e m e t 应刷的迅速发展i n t e m e t 己成为最大分布式信息库,网上有各种各样的 信息资源,例如:新闻、商品信息、数字图书馆、个人主页笔。刷时由于i m e m e t 具各力便、 快捷和便宜使用的特点,使它被认为是最理想的电子商务环境。最近儿年已经出现r 许多电 子商务网站,例如:易趣、掏宝网、阿里巴巴等。各种信息迅速增 = = ,信息种类也越来越多。 人们面对太多的信息无法选择和消化,即淹没在繁杂的信息中,此现象称为信息过载。 t n t e m e t 上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,用户不知道如何 更有效地发现自己所需的信息资源,就是所谓的信息迷失。 近年来,研究者们已经提出用各种方法来解决这些问题,例如:机器学习,信息检索, 人工智能,数据管理等。当前主要采用搜索引擎来检索w e b 上的信息,例如:g o o g l e ,y a h o o , 百度等。它们为用户获取信息提供了便利。然而,随着网络资源的不断丰富和网络信息量的 不断膨胀,现有搜索引擎技术不足逐渐显现u 来。大多数搜索引擎缺少主动性,没有考虑个 体用户的兴趣偏好,未能有效地解决信息过载和信息迷失的问题。最近研究者们提出了一种 被认为能有效解决这些问题的技术一w e b 个性化服务技术。 w e b 个性化服务是指针对不同用户提供不同的服务策略和服务内容的服务模式,其实质 就是以用户需求为中心的w e b 服务。个性化服务通过收集和分析用户信息来学习用户的兴 趣和行为,进而实现主动推荐服务。因此,通过网络提供的个性化服务可以比较有效的解决 用户“信息过载”和“信息迷失”的困扰。 w e b 挖掘是实现w e b 个性化服务核心技术之一。是将传统的数据挖掘同w e b 结合起米, 进行w e b 挖掘,即从与、 ,相关的资源和用户浏览行为中抽取感兴趣的、潜在有用的模 式和隐藏的信息,为用户提供个性化推荐服务和协助管理者优化站点结构,提高站点效率, 更好地为用户服务。 w e b 个性化服务是一个非常活跃的研究领域,其目标是用领域知识表示用户的信息需要 和兴趣,向用户提供个性化的信息服务和主动信息服务,无论从理论研究还是商业应用都具 有重要意义。 皋予w e b 使用挖掘的个睦化推荐服务研究 2 w e b 挖掘及其分类 w e b 数据挖掘( w 曲d a t am i n i n g ) ( 简称、b 挖掘) 是数据挖掘技术在v 娓b 环境下的应 用,是从数据挖掘发展过来的集w e b 技术、数据挖掘、计算机技术、信息科学等多个领域 的一项技术。w e b 挖掘就是从与、 n ,相关的资源和用户浏览行为中抽取感兴趣的、潜在 有用的模式和隐藏的信息。根据挖掘对象的不同,可以将w e b 挖掘分为三类【1 】:w e b 内容 挖掘( w e bc o n t e n t m 确g ) 、w e b 结构挖掘( w e bs t n l c m r e m j n i t l g ) 和w e b 使用挖掘( w e bu s a g e m i n i n g ) 。如图f l 所示。 图1 1w 曲挖掘的分类 ( j ) w e b 内容挖掘 w e b 内容挖掘是从w e b 页面内容及其描述信息中获取潜在的,有价值的知识或模式的过 程。w e b 内容挖掘分为文本挖掘和多媒体挖掘两类;对于文本文档( 包括t x t 、p o s t s c r i p t 、 p d f 、h t m l 等) 的挖掘称为文本挖掘。w e b 文本挖掘数据对象既可以是结构化的、已可以是半 结构化的、非结构化的。w e b 文本挖掘的结果既可以是对某个文本内容的概括,已可以是对 整个文本集合得分类结果或聚类结果,还可以利用w e b 文档进行趋势预测等”。 多媒体信息挖掘“1 ,主要是指通过对w e b 上的音频,视频数据和图像进行预处理,应用 存储和搜索技术与标准的数据挖掘方法集成,对其潜在的、有意义的信息和模式进行发掘的 过程。多媒体信息挖掘可以应用丁语言识别、图形和图像处理等研究领域。 ( 2 ) w e b 结构挖掘 w e b 结构包括不同页面之问的超链接结构和一个页面内部的可以用h t m l 、l 表示成的树 形结构,以及文档u r l 中的目录路径结构等”。 w e b 结构挖掘是从岬w 的组织结构和链接关系中推导知识。主要是通过对w e b 站点的结构 进行分析、变形和归纳,:留w e b 页面进行分类,以利于信息的搜索。 ,一 河海大学硕士研究生论文 第一章绪论 w e b 结构挖掘所得到的模式,可以揭示许多蕴涵在w e b 内容之中的有用信息。如通过文档 之问的超链接,可以挖掘出文档之间的引用关系,从而帮助我们找到与削户请求相关的权威 页面;通过分析w e b 页面内部树形结构可以发现与给定页面集合相关的其他页面;w e b 页商 的u k l 同样可以反映页而的类型以及页面之问的从属关系,通过分析页面u r l 信息,可以找到 改变了位置的w e b 页面的新位置。 ( 3 ) w e b 使用挖掘 w e b 使用挖掘从w e b 的访问记录中抽取感兴趣的模式,是对用户亩问w e b 站点时在服务器 端留下的防问记录进行挖掘。这些数据主要包括船务器端日志记录、代理服务器端日志记录、 客户端日志记录等。它通过挖掘w e b 口志文件及其数据来发现用户访问w e b 页面的模式。可以 提供有关用户的知识,对用户的访问行为、频度、内容等进行分析,得到关于用户的行为和 方式的模式,从而改进站点结构,或为用户提供个性化服务。 w e b 使用挖掘通常需要经过数据收集、数据预处理、模式发现、模式分析及其应用五个 阶段: 数据收集:w e b 用户访问数据可以从三个方面收集:服务器端( s e n ,e r ) 、客户端 ( c l i e m ) 和代理服务器端( p r o x y ) ,其中主要是服务器端的数据。 数据预处理阶段:主要对用户访问日志( 包括服务器日志、客户端日志和代理服务 器口志) 进行数据整理、_ _ f 】户识别、会话识别、路径补充、事件识别和格式化等处理,形成 用户会话文件或用户事务文件。 模式发现阶段:对数据预处理所形成的用户会话文件或用户事务文件,利用数据挖 掘的一些有效算法( 例如:关联规则、聚类、分类、序列模式等) 来发现隐藏的模式、规则。 模式分析阶段:主要是采崩合适的成熟的技术和工具,进行模式的分析,从而辅助 分析人员理解,使采用各种挖掘技术得到的模式得到更好的利用。目前常用的方式有:采川 类似s 。l 的形式化查询进行分析,先将数据导入多维数据立方体中,在利用o l a p 工具进行分 析并提供可视化的结果输出。 模式应用阶段:w e b 使用挖掘得到的结果,可以用下重构w e b 站点的页面之间的链接 关系,及重构w e b 站点的拓扑结构、发现相似的用户群体,开展个性化的信息服务和有针对 性的电了商务活动,应用信息推拉技术构建智能化w e b 站点。 本”简单介绍w e b 使用挖掘的各个阶段,本文将在第二章将详细分析w e b 使用挖掘的整个 过程。 雉于w e b 使用挖掘的个睦化推荐服务研究 3 w e b 使用挖掘与个性化服务 w 曲挖掘是实现、耽b 个性化服务的核心技术之一。w e b 使用挖掘是w r e b 挖掘的种重 要的挖掘方法,它在个性化服务中扮演着重要角色。w e b 使用挖掘是从w e b 的访问记录中 抽取用户感兴趣的模式。通过对用户浏览网站的使用数据收集、分析和处理,建立用户行为 和兴趣模型,这些模型可以帮助理解用户行为,改进站点结构以及为用户提供良好的个性化 服务。由于个性化推荐所面临的关键问题是需要对大量非注册用户的行为模型进行深层理 解,传统的协同过滤方法很难处理非注册用广的情况,而w 曲使用挖掘能较好处理这类问 题;同时,借助于w e b 使用挖掘可以从传统的基于使用数据的静态建模转换到基于用户操 作行为的动态建模,在系统里帮助改善用户的网络使用经验。因此,基于w e b 使用挖掘建 立的个性化系统是实现良好个性化服务的一个有效途径。本文将主要探讨基于w 曲使用挖 掘的个性化推荐服务。 4 基于w e b 使用挖掘的个性化推荐服务系统的框架结构 图1 2 描述了基于w 曲使用挖掘的个性化推荐服务系统的框架结构。这个框架结构主要 包括两个部分:离线部分和在线部分。离线部分由数据预处理和w e b 使用挖掘组成,在线 部分由实时推荐引擎组成。离线部分已可以称为模型获取阶段,而在线部分则可以称为模型 应用阶段。 数据预处理主要对w 曲使用数据进行各种处理( 例如:数据整理、会话识别、用户识 别、路径完善、事务识别以及格式化等) ,从而为后续的w e b 使用挖掘提供可以直接处理的 数据源。w e b 使用挖掘可以通过各种挖掘算法( 例如:关联规则、聚类、分类、序列模式等) 从经过预处理数据源发现隐藏的模式、规则。本文主要研究聚类算法发现用户的兴趣特征。 由于数据预处理和w e b 使用挖掘的时间开销比较大,不自e 满足个性化推荐服务的实时性要 求,所以必须将这两个操作离线进行,挖掘结果可以供在线部分的推荐引擎直接使用。在线 部分的推荐引擎根据当前会话结台w 曲使用挖掘结果为当前用户提供高效的个性化推荐服 务。 个性化推荐服务的表现形式可以为推荐的超链接列表、推荐的商品列表,推荐的广告列 表,经裁减的文本或图像列表等。 河海大学硕士研究生论文第一章绪论 图1 2 基于w e b 健用挖掘的个性化推荐服务系统的框架结构 1 2 个性化推荐服务的研究现状及存在的问题 1 研究现状 随着i n l e 丌l e i 应用迅速发展导致“信息过载”和“信息迷失”问题的出现,w 曲个性化技术 已越来越受到人们的重视。为了给用户在w e b 上提供更方便、更智能、更个性化的服务。 到目前为止,所开发的比较著名的个性化推荐服务系统有: 1 v a n t i 系统7 j :利用自适应规则为每一组相同的用户t 方问模式实现定制化。 2 f o o t 口r i n i s 系统【8 】= 利用可视化技术,为用户提供w 出站点被频繁访问的路径。 基于w e b 使用挖掘的个降化推荐服务研究 3 s i t e h e l p e r 系统| 9 l = 利用分析每一个用户已经访问的w e b 页,学习用户的兴趣模式, 从用户感兴趣的w 曲中提取关键词,然后,提供给用户,系统基于用户相关反馈技术为用 户推荐其他相关w e b 页。 4 w c b w a t c h e r 系统”o ”:采用跟踪用户浏览w e b 站点的行为或者访问路径方法学习 用户的萌问模式,将用户可能感兴趣的w e b 页面在线推荐给用户。 5 b a m s h a dm o b a s h e r 等人i ”】提出一种新的推荐v v e b 推荐系统,该系统基于防同特征 和内容特征为用户提供个性化推荐服务。 另外基下w e b 挖掘的个性化推荐服务的研究主要有以下几类: 1 n a s r a o u i 等人【1 2 】采用聚类用户访问模式方法,预测用户未来的访问行为, 2 c o o l e y d e 等人和b u c h n e r 等人利用数据挖掘技术从访问的l o g 文件中提取用户 的访问模式,用于市场决策和智能推荐服务。 3 s c h e c h t e r 等人根据用户的访问路径模式预测用户未来可能的h t t p 请求,让代理 服务器执行预取操作,将相关w 曲页放入其c a c h e 中,以加快访问速度。 还有,m o b a s h e l b ,c 0 0 l e y r 等人”卅提出通过u r l 聚类产生推荐的方法。 m o b a s h e l b ,d a i h 等人1 ”提出通过w e b 使用挖掘和、v e b 内容挖掘结合提高推荐质量的方法 等。各种数据挖掘方法如关联规则技术1 1 ”,聚类挖掘技术例川被广泛的应用于、b 日志 分析中以提高个性化推荐服务质量。 2 目前存在的问题 w 曲个性化推荐服务获得了广泛关注,在实际的电子商务,智能网站等方面已得到了广 泛应用。但是,随着电子商务系统、智能网站、用户数量规模越来越大,个性化推荐服务面 临一系列的挑战,在阻f 几个方面还有待改进: 1 大多数个性化推荐系统主要是给注册用户提供服务,而很少考虑为非注册用户提供 推荐服务。 2 用户个性化兴趣模型表达的准确性问题:这是目前个性化研究领域普遍存在的难题, 特别是如何准确、及时地跟踪用户个人兴趣的变化,还是一个尚待深入研究的课题。 3 目前的信息推荐技术都存在着各自的缺点,综合各方面知识,改进提高推荐算法, 是一个重要的研究课题。 4 实时眭与推荐质量之间的平衡问题:个性化推荐系统的推荐质量和实时性是一对矛 盾,_ 人部分推荐技术在保证实时性要求的同时,往往是以牺牡推荐服务质量为提前的。在提 供实时推荐服务的同时,如何有效提高推荐系统的服务质量,需要做进一步深入的研究。 一 河海大学硕- l 研宄生论文 第一章绪论 5 安全性问题:在众多的个性化系统中,均未考虑用户的个人隐私问题。只有在充分 保障系统安全的基础上才能有效地实现个性化服务。 6 系统评价:目前还没有建立一种有效的个性化信息服务评价体系。 本文主要对上述问题中的用户个性化兴趣模型表达的准确性问题、个性化推荐系统推荇 质量问题进行了研究和探讨。 1 3 本文主要工作及结构 1 本文的主要工作 针对个性化推荐服务面临的一系列挑战,本文对基于w 曲使用挖掘的个性化推荐服务 中若干关键技术进行了有益的探索和研究。本文的研究内容主要包括w 曲使e j 挖掘的方法, s i 和c i 表示方法,推荐算法等,主要的工作如f : 1 w e b 使用挖掘的方法研究:详细的研究和探讨了w e b 使用挖掘的整个过程( 如:数 据收集、数据预处理、模式发现、模式分析以及应用) 。 2 针对s l 和c i 表示方法的研究:兴趣是指个人对客观事物的选择态度。准确的表示 用户浏览兴趣和c i 是基于w e b 使用挖掘的个性化推荐服务的基础。首先,介绍了目前表示 用户浏览兴趣和c i 的若干种方法,分析了它们各自的不足之处,例如:表示方式过于简单、 不具备扩展性等。然后,本文提出一种可扩展兴趣表示模型( s i m ) ,s i m 利用用户会话的 所有2 一会话片断( 长度为2 的路径片断) 的特征来表示s i ,根据具体应用的需要s i m 可以 调整其表示s l 的精确度;接着,介绍了如何利用s i m 表示c i ,分析了s l m 表示s i 和c i 的复杂性和准确性。实验结果表明,s i m 有效提高了表示s i 和c i 的准确性。 3 针对个性化推荐系统推荐质量的研究:提出了一种基于会话聚类的个性化推荐算法 ( s c r e c ) 。首先,详细分析丁目前基于聚类挖掘技术的个性化推荐方法的若干不足之处。 然后,提出了一种基于会话聚类的个性化推荐算法( s c r e c ) 。数据预处理阶段和会话聚类 阶段,s c r e c 利用s i m 表示s i 和c i ,推荐产生阶段,s c r e c 利用2 会话片断在聚类中的 权重和当前会话与聚类的相似性米产生推荐。实验结果表明,基于会话聚娄的个性化推荐算 法( s c r e c ) 可以有效提高推荐系统的服务质量。 2 本文的结构 全文共分为五章,具体的章节安排如下: 第一章,介绍了w e b 挖掘与个性化服务的研究背景、国内外的研究现状咀及个性化推 基于w 曲使用挖掘的个性化推荐胀务研究 荐服务目前存在的主要问题,最厉,介绍了本文的研究内容和结构。 第二章,w e b 使用挖掘的方法研究。详细的研究和探讨了w 曲使用挖掘的整个过程( 如: 数据收集、数据预处理、模式发现、模式分析以及应用) 。 第三章,提出了一种可扩展兴趣表示模型( s i m ) 。首先,介绍了目前表示用户浏览兴 趣和c i 的若干种方法,分析了它们各自的不足之处,然后,详细介绍了一种可扩展兴趣表 示模型( s j m ) 。最后,通过实验对s 1 m 和传统的向量模型表示s j 和c i 的准确度进行了比 较。 第四章,提出了一种基于会话聚类的个性化推荐算法( s c r e c ) 。首先,详细分析了基 于聚类挖掘技术的个性化推荐方法的若干不足之处。然后,详细介绍了一种基于会话聚类的 个性化推荐算法( s c r e c ) 。最后,通过实验对s c r e c 和目前的推荐方法的推荐精度率和覆 盖率进行了比较。 第五章,总结了全文,展望下一步工作。 河海大学硕士研究生论文 第= 章w e b 位用挖掘 第二章w e b 使用挖掘 本章对w e b 使用挖掘的方法进行了研究,详细的研究和探讨了w 曲使用挖掘的整个过 程( 例如:数据收集、数据预处理、模式发现、模式分析以及应用) 。 2 1w e b 使用挖掘的概述 w e b 使用挖掘是从w e b 的访问记录中获取有价值的信息或模式的过程,就足对用户访 问w c b 时在服务器上留下的访问记录进行挖掘。 w 曲的基本结构是:客户端一代理服务器一w 曲服务器。客户端记录的是单个用户访问 多站点的信息,代理服务器日志记录的是多用户访问多站点的信息,w e b 服务器r 志则记录 多用户访问单个站点的信息。因此,用户使用模式的挖掘有3 种类型:客户端、代理服务器 端和w 曲服务器端。根据挖掘目的和应叶j 方向,挖掘的用户使用模式的侧重点己不尽相同。 客户端、代理服务器端的用户使用模式的挖掘,涉及到整个w 曲,与半结构化的w e b 的描述模型直接相关。半结构化的w e b 数据模型是研究w e b 数据挖掘、信息检索、智能搜 索引擎以及w 曲用户使用模式挖掘的前提和重点。w e b 服务器端的用户使用模式挖掘,挖 掘的重点是用户的频繁访问路径、用户聚类等。 w e b 使用挖掘的数挺源主要包括:w e b 日志文件( 包括服务器日志、客户端日志和代 理服务器日志) 、w 曲站点的拓扑结构和站点文件、用户的注册信息、用户调查信息、c o o k j e s 以及与网站服务相关的数据库数据等。 w e b 使用挖掘的目的是在海量的w e b 日志数据中自动、快速地发现用户的使用模式, 如频繁访问路径、频繁访问页面组、用户聚类、u r l 聚类等。w e b 使用挖掘的一般过程如 下所述: 数据收集:w e b 用户访问数据可以从二个方面收集:服务器端( s e r v e r ) 、客户端( c l i e n t ) 和代理服务器端( p r o x y ) ,其中主要是服务器端的数据。 数据的预处理:预处理主要对w e b 日志文件( 包括服务器口志、客户端日志和代理服 务器日志) 进行数据整理、用户识别、路径完善、会话识别、事件识别和格式化等处理,形 成用户会话文件或用户事务文件。 挖掘处理( 模式发现) :对经过数据预处理形成的用户会话文件或用户事务文件,利用 数据挖掘的一衅有效算法( 例如:关联规则、聚类、分类、序列模式笔) 来发现有用的、隐 基于w 曲使用挖掘的个性化推荐服务研究 藏的模式、规则。 模式分析:主要是采用台适的成熟的技术和工具,进行模式的分析,从而辅助分析人员 理解,使采用各种挖掘技术得到的模式得到更好的利用。目前常用的方式有:采用类似s o l 的形式化查询进行分析,先将数据导入多维数据立方体中,在利用o l a p 丁具进行分析并 提供可视化的结果输出。 模式应用:w e b 使用挖掘得到的有用模式可以用于重构w 曲站点的页面之问的链接关 系,及重构w 曲站点的拓扑结构、发现相似的客户群体、开展个性化的信息服务和有针对 件的电子商务活动,应用信息推拉技术构建智能化w e b 站点。 2 2 数据收集 w 曲用户访问数据可以从三个方面收集:服务器端( s e r v e r ) 、客户端( c l j e n t ) 和代理 服务器端( p r o x y ) ,其中主要是服务器端的数据。以下分别介绍这三个方面: 1 服务器端数据收集 网站服务器中一般有3 种类型的日志文件用来记录用户的访问行为:a c c e s sl o e s 、r e f e r l o g s ,有的系统还记录有c 0 0 k i el o g s ,除此之外还有用户提交的查询信息、注册信息和站 点的结构信息等。 a c c e s s l o g s :访问日志文件,详细记录了每个用户的访问行为,是w e b 使用挖掘的 主要数据源。 r e f e rl o g s : 记录了用户请求页面信息的情况,用户什么时间访问以及访问路径的 形式都记录在r e f e r l o g s 中,i 沁f e r l o g s 可用于用户识别、路径完善等。 c o o k i el o g s :由w 曲服务器产生的标记号,并由客户端持有,标识用户和用户会话。 虽然通过用户的标记号,易于识别用户,但是由于h n 甲协议的无序性和用户的隐私问题, 跟踪用户仍然不是一件容易的事。另外,使用c o o k i el o g s 要经用户同意。 2 客户端数据收集 对于客户端数据的收集不便于进行,因为客户端的用户比较复杂,但是可通过远程代理 ( j a v a s c i p t 或j a v aa p p l e t ) 进行。j a v aa p p l e t 能记录用户的所有行为但存在效率问题, j a v a s c r ip i 显然对效率影响不大,但不能记录用户所有的动作。 3 代理服务器端数据收集 大多数用户都是通过代理服务器登陆网站的,所以可以通过代理服务器不仅可以收集多 河海大学硕士研究生论文第二章w 曲使用挖掘 个用户的行为,还可以收集对多个阿站的行为。 收集到的这些数据大致可分为以下几类1 2 2 】f 2 3 】: 内容数据:用户在页面上看到和使用的真实数据,主要是文本和图像。 结构数据:捕述页面内容如何组织的数据。页面的结构可以用h t m l 、x m l 表示为 树型结构。h t m l 标志成为树的根;页面结构可用连接不同页面的超链接来表示。 使用数据:描述页面使用模式的数据,如i p 地址、u r l 、页面引用、访问时间和日 期等,表示用户的 j - 为模式。典型的使用数据来自服务器口志。 用户数据:有关w e b 站点用户的统计信息,包括用户注册信息和个人资料,如用户 名、学历、职务、年龄、收入和个人爱好等。 本文基于w e b 使用挖掘的个性化推荐服务主要是挖掘服务器端使用数据实现个性化推 荐服务,所以本文将丰要讨论对使用数据的处理。本章的后面部分将介绍对使用数据的数据 预处理、模式发现、模式分析及应用。 2 - 3 数据预处理 1 日志记录的内容 w e b 服务器日志记录着用户访问该站点时每个页面的请求信息。日志记录的格式主要分 为两种:通用日志格式( c o m m o nl o gf o 丌t l a t ,c l f ) 和扩展型日志格式( e x t e n d e dl o gf o m l a t ) 。 其主要结构如表2 1 所示。 域描述 日期( d a t e )用户请求页面的日期 时间( t j m e ) 用户请求页面的具体时间 i p 地址( c - i p ) 客户端主机的i p 地址或d n s 入口 客广名( c s - u s e m a m e ) 客户端的用户名 服务器名( s c o m p u t e m a m e ) 服务器名称 服务器p 地址( s i p ) 服务器的i p 地址 服务器端口( s p o r t ) 服务器的端r = 】号 方法( c s m e l h o d ) 用户的请求方法 u r l 资源( c s u r i - s l e m ) 用户的请求页面 基于w e b 使刚挖掘的个性化推荐服务研究 u r l 查询( c s u r i - q u e r y ) 用户进行的查询 协议状态( c s s t a r l l s )返回h n p 的状态标识 ( s c _ b ”e s ) 服务器发送的字节数 ( c s _ b ”e s )服务器收到的字节数 ( 1 i m e t a k e n )完成浏览所花费的时间 ( c s v e r s i o n ) 传输用的坼议版本 ( c s h o s t )服务器的操作系统 ( c s ( u s e r _ a g e n t ) ) 服务的提供者 c 0 0 k i e ( c s ( c 0 0 k j e ) ) c o o k j e 标识符 ( c s ( r e f e r e r ”用户浏览的上页 表2 1w e b 日志记录的主要信息 上表中一些是扩展型日志格式中添加的记录项,其中一些内容在实际应用中是用不到 的,如c o o k j e 和u 也查询。c o o k i e 是在服务器端产生的,记录用户的状态或访问路径,但 是由于涉及到隐私问题,c o o k i e 的使用需要用户的配合;u r l 查询是用户查询所需要的信 息时在服务器端产生的记录。 典型的口志记录形式如下:6 1 1 5 5 3 9 2 2 8 一 1 1 a u 2 0 0 5 :0 0 :3 5 :3 3 一0 5 0 0 】 ”g e t s u r v e y h j s t o 讲h t r r l h t t p 1 1 ”2 0 0 1 】6 3 】” h n p :,v 州2 5 0 0 s zc o 吲m o z i l l 矾o ( c o m p a t i b l e ;m s i e 5 5 ;w i n d o w s n t 5o ) ”。 由于服务器并不记录用户的浏览行为,所咀如果用户的请求是通过本地( 如在i e 浏览 器中按”后退键”) 或p r o 珂端的缓冲区得到满足;则服务器端并不记录此次请求,因此日 志文件中的记录并不能完全地反映用户的访问行为。 2 数据预处理的过程 数据预处理i ”1 是在将日志文件转换成数据库文件之后进行的,其目的是把w e b 日志 转化为适合进行数据挖掘的有效数据。对w 曲使用数据的预处理主要包括数据整理、会话 识别以及事务识别,由于存在用户端缓存和代理服务器端缓存,因此在要求比较高的个性化 推荐服务中还需要进行路径完善;如果w e b 站点没有使用c o o k i c 技术或内嵌会话标识技术, 则需要进行用户识别;最后,会话数据必须被格式化成符台相应数据挖掘算法的数据模型, 则需要进行格式化。 ( 1 ) 数据整理( d a t af i l t e i n 2 ) 河海大学硕士研究生论文第二章w e b 使用挖掘 数据整理是指根据需求,对日志文件进行处理,包括去除无关紧要的数据、合并某些记 录、对用户请求页面时发生错误的记录进行适当的处理等。 当用户请求个页面时,与这个页面有关的图片、音频等信息会自动下载,并记录在曰 志文件中:而如果挖掘的目的是_ f 1 户使用模式,这些信息显然用处不大( 除非图片、音频等 是用户请求显示的,即用户所需要的内容正是这些图片和音频等文件) ,所以可以把日志中 文什的后缀为g i f 、j p g 、j p e g 等的记录去除。但是,当挖掘的目的是为了进行网络流量分析 或为页面缓冲与预取提供依据时,这些信息又会显得格外重要,所以在去除这些记录的时候 定要把相关信息记录下来。可以选择将其中的“发送字节数”和“接收字节数”这两个域的内 容记录下来。此外,后缀名为c g i 、j s 和j s 的脚本文件因对后面的分析处理不造成任何影响, 所以应该去除。 可以定义一个缺省的规则库来帮助去除记录,而且这个规则库可以根据上e 在分析的网站 类型进行修改。例如,对于主要包含图形的站点,日志中的图形文件可能代表了用户的显示 请求,此时就不能将图形文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论