(计算机应用技术专业论文)结合站点内容和结构的个性化推荐技术的研究与实现.pdf_第1页
(计算机应用技术专业论文)结合站点内容和结构的个性化推荐技术的研究与实现.pdf_第2页
(计算机应用技术专业论文)结合站点内容和结构的个性化推荐技术的研究与实现.pdf_第3页
(计算机应用技术专业论文)结合站点内容和结构的个性化推荐技术的研究与实现.pdf_第4页
(计算机应用技术专业论文)结合站点内容和结构的个性化推荐技术的研究与实现.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(计算机应用技术专业论文)结合站点内容和结构的个性化推荐技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

结合站点内容和结构的个性化推荐技术的研究与实现摘要 摘要 w e b 个性化推荐系统根据用户的浏览模式预测用户需求,并向他们提供个性化的 推荐服务。目前,个性化推荐系统已成为研究热点,应用前景广阔,尤其是在电子商 务以及网络学习方面。然而,尽管人们对个性化推荐技术的探索研究取得了一定的成 果,并逐步有商业化的推荐系统问世,但是这些系统的推荐质量以及用户的满意度始 终是不尽如人意的。 基于以上背景,本文设计并实现了一个改进的个性化推荐系统,该系统将w e b 内容挖掘及结构挖掘的技术应用到w e b 使用挖掘的过程中,用以提高推荐的质量。 本文的研究内容主要有: 1 获取w c b 日志数据、页面内容及站点结构信息,将它们作为个性化推荐系 统的数据源,并针对w e b 中文网页以及个性化推荐系统的特点,对数据进 行预处理,以提高用户访问模式识别的精确度。 2 在分析传统事务识别方法不足的基础上,结合网页内容对事务识别方法进行 适当的改进,将内容挖掘中的文本聚类算法引入到事务识别的过程中。根据 改进后事务识别方法的需要,对文本聚类算法作相应的修改。 3 通过事务聚类获得最初的用户访问模式,进而,将相关邻接页面考虑在内, 扩展用户的访问模式同时,根据站点结构信息计算页面的相对权重,作为 在线推荐列表中页面排序的重要依据。 4 确定当前用户感兴趣的主题为该用户的访问模式;将候选推荐集中的w e b 页面是否已被当前用户访问过所带来的推荐权值差异考虑其中,确定最终的 推荐函数;设计并实现具有较高精确性及较低时间复杂度的推荐算法。 本文给出了评估推荐系统有效性的实验方法及评估标准,将结合站点内容和结构 的w p r s 推荐系统与仅以日志作为数据源的推荐系统做比较,从实验结果可以看出, w p r s 系统获得了较好的推荐精确度、覆盖率以及f l 度量值,因此能够显著地提高 w 曲站点的推荐质量。 关键词:个性化推荐,w e b 挖掘,事务识别,文本聚类,模式识别 作者:苏晶 指导教师:徐汀荣 a b s t r a c t w e bp e r s o n a l i z e dr e c o m m e n d e rs y s t e m s a n t i c i p a t et h en e e d so fw e bu s e r sa n d p r o v i d et h e mw i t hr e c o n u n e n d a t i o n sa c c o r d i n gt ot h e i rn a v i g a t i o np a t t e r n s n o w a d a y s ,t h e r e s e a r c ho fp e r s o n a l i z e dr e c o m m e n d e rs y s t e m sh a sa t t r a c t e dal o to fa t t e n t i o n s u c h s y s t e m sh a v eb e e ne x p e c t e dt oh a v eab r i g h tf u t u r e ,e s p e c i a l l yi ne - c o n l n l e r c ea n d e - l e a r n i n ge n v i r o n m e n t s h o w e v e r , a l t h o u g ht h e yh a v eb e e ni n t e n s i v e l ye x p l o r e di nt h e w e bp e r s o n a l i z e dr e c o m m e n d a t i o nf i e l d s ,a n dt h e r eh a v eb e e ns o m ec o r m n c r c i a l i z e d s y s t e m sg r a d u a l l y , t h eq n a l i t yo ft h er e c o m m e n d a t i o na n dt h eu s e rs a t i s f a c t i o no fs u c h s y s t e m sa r es t i l ln o to p t i m a l t h i sp a p e r d e s i g n sa n di m p l e m e n t san o v e lw e br e c o m m e n d e rs y s t e m ,w h i c h c o m b i n e su s a g ed a t a , c o n t e n td a t aa n ds t r u c t u r ed a t ai naw e bs i t et oi m p r o v et h eq u a l i t yo f w e bs i t er e c o m m e n d a t i o n t h ec o n t e n t so f t h i sp a p e ra r ca sf o l l o w s : 1 c o l l e c tw e bd a t af r o ms e f v e rl o g ,p a g ec o n t e n ta n ds i t et o p o l o g ya sd a t as o u r c eo f t h ew e bp e r s o n a l i z e dr e c o m m e n d e rs y s t e m , f u r t h e r m o r e ,m a k ep r e p r o c c s s a c c o r d i n gt ot h ec h a r a c t e r i s t i co fc h i n e s ew e bp a g e sa n dr e c o m m e n d e rs y s t e m , f o rt h ep u r p o s eo f a c q u i r i n gu s e r s n a v i g a t i o n a lp a t t e r n sm o r e e x a c t l y 2 a n a l y z et h ed r a w b a c k so ft r a d i t i o n a lt r a n s a c t i o ni d e n t i f i c a t i m e t h o d s a n d p r o p o s e a r ti m p r o v e do n e ,w h i c hc o m b i n e sc o n t e n td a t ao f w e b p a g e s ,a n da p p l i e s d o c u m e n tc l u s t e r i n ga l g o r i t h mi nt h i sp r o c e s s i na d d i t i o n , m o d i f yt h ec l u s t e r i n g a l g o r i t h ma c c o r d i n gt ot h en e e do f t h ep r o p o s e dm e t h o d 3 c l u s t e rt h e s ec o n t e n tc o h e r e n tt r a n s a c t i o n st o g e n e r a t ep r i m a r y u s e r s n a v i g a t i o n a lp a t t e r n s f u r t h e r m o r e a u g m e n tt h e s ep a t t e r n sw i t l lt h e i rl i n k e d n e i g h b o r h o o d s , a n dc o m p u t ew e i g h tb a s e do ns i t ec o n n e c t i v i t y , b yw h i c ht h e s e p a g e si nr e c o m m e n d a t i o n l i s ta r eo r d e r e d 4 r e c o g n i z et h ec u r r e n tf o c u s e dt o p i co fi n t e r e s t st ot h ea c t i v eu s e ra sh i s n a v i g a t i o n a lp a t t e r n d e f i n e t h e p a g er e c o m m e n d a t i o nr a n k j n gf u n c t i o n , c o n s i d e r i n gt h a tw h e t h e rap a g eh a sb e e nv i s i t e db ya c t i v eu s e ri nh i sc u r r e n t s e s s i o ns h o u l db ed i s t i n g u i s h e da m o n gp a g e st ob es u g g e s t e d d e s i g na n d i m p l e m e n tar e c o m m e n d a t i o na l g o r i t h m w i t h l l i g l la c c u r a c ya n dl o wt i m e t h e r e s e a r c ha n d i m p l c m c m a t l o oo f 瑚m j ,捌r e c o m m e n d a t i o n c o n ss d e n n g w e b c o n t 哪t a r 一、 铀$ m j a u r e a b s t r a c t c o m p l e x i t y f i n a l l y , t h i sp a p e rp r e s e n t st h ee x p e r i m e n t a lm e t h o d o l o g ya n de v a l u a t i o nm e c h a n i s m t om g a 吼l r et h eq u a l i t yo f r e c o m m e n d e r s y s t e m ,a n dc o m p a r e so u rs y s t e mw h i c hc o m b i n e s c o n t e n td a t aa n ds t r u c t u r ed a t a , w i t hs y s t e m sw h i c h o n l yc o l l e c tw e bu s a g ed a t as i m p l y t h er e s u l to f e x p e r i m e n ts h o w st h a to u ts y s t e mg a i n sp r e f e r a b l er e c o m m e n d a t i o na c c u r a c y , c o v e r a g ea n df 1m e a s u r e m e n tv a l u e ,a sa r e s u l to fw h i c hi tc a l ls i g n i f i c a n t l yi m p r o v et h e q u a l i t yo f w e b s i t er e c o m m e n d a t i o n k e y w o r d s :p e r s o n a l i z e dr e c o m m e n d a t i o n , w e bm i n i n g , t r a n s a c t i o ni d e n t i f i c a t i o n , d o c u m e n tc l u s t e r i n g ,p a t t e r ni d e n t i f i c a t i o n i i i w r i t t e nb ys u j i n g s u p e r v i s e db yx ut i n g r o n g 图表目录 图2 1 数据挖掘的处理过程1 0 图2 2 w e b 挖掘的分类图1 3 图4 1 改进后的事务识别流程3 3 图4 2 簇c l u s t e r 的类图定义3 7 图4 3 最小相似度阈值与文本簇个数的关系4 2 图4 4 簇的最大容量与文本簇个数的关系。4 2 图4 5 最小相似度阙值与事务识别个数的关系4 3 图4 6 簇的最大容量与事务识别个数的关系4 3 图5 ,l 图的邻接表g r a p h 的类图定义4 8 图5 2 结合站点结构对用户访问模式的扩展5 3 图6 1 个性化推荐系统的系统框架图5 6 图7 1w p r s 系统的文本聚类结果6 7 图7 2w p r s 系统识别出的事务数据库 图7 3w p r s 系统识别出的模式数据库6 8 图7 4w p r s 系统的推荐界面6 8 图7 5 推荐页面个数与推荐精确度的关系7 0 图7 6 推荐页面个数与推荐覆盖率的关系7 l 图7 7 推荐页面个数与f l 测度的关系7 l 图7 8 活动用户访问长度与推荐精确度的关系7 2 图7 9 活动用户访问长度与推荐覆盖率的关系7 2 图7 1 0 活动用户访问长度与f l 测度的关系7 2 表4 1 三种基于向量空间模型的相似度度量公式比较3 6 表4 2 两种常用事务识别方法与改进事务方法的比较4 5 表4 3 最大前向引用序列及改进后事务识别算法的结果比较4 5 矿9 5 7 0 0 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:基鑫日期:堕! ! 查: 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:蔓! 墨 目 导师签名:旌姐茎日 期: 1 o o b 皇 期! :! :! 结合站点内容和结构的个性化推荐技术的研究与实现第一章绪论 第一章绪论 本章主要介绍了基于w e b 挖掘的个性化推荐技术的研究背景和意义,以及个性 化推荐技术目前在国内外的研究现状,并在分析了现有系统所存在不足的基础上,提 出了本文的研究内容及目标,最后给出论文的章节安排 1 1 选题依据及意义 互联网上蕴藏了海量的信息,对用户来说已经大大超过了可能的阅读量,而每个 用户都会有自己特定的爱好和需求,即他只对某些特定的资源感兴趣,通常用户在汲 取有用信息的同时也无奈地接受了许多无用信息,浪费了大量的时间。所以用户希望 站点根据不同的用户浏览模式提供不同的服务,从而可以更方便快捷地定位到自己感 兴趣的信息。与此同时,站点也希望能够提供用户个性化的服务,并且希望能够根据 用户的兴趣不断地调整页面本身的结构及内容,改进服务,以便能更好地满足不同用 户的各种需求,从而提高网站的支持率和经济效益 对于网站制作者来说,把全部信息都堆到每一位用户面前绝不是明智的做法,忽 视了社会效益。理想的做法是把信息展示给需要的人看,将网页的内容从原先的以“网 站”为中心转变成以“用户”为中心,尽可能地自动调整以迎合每位用户的浏览兴趣, 从而让每位用户都能够感觉到他是网站的唯一用户。 如何才能更有效地获取有用信息,如何才能更有效地把信息推荐给用户,早已成 为许多用户及网站制作者共同关心的热点问题,由此,w e b 个性化推荐技术应运而生, 并且能够有效地解决上述问题。然而,现有的w e b 个性化推荐系统仍然普遍存在以下 不足: ( 1 ) t o 于缓存、代理服务器、防火墙等的存在,使服务器端的日志文件具有更高 的复杂性和数据的非精确性,从而导致挖掘出的用户访问模式不一定正确。并且当站 点结构或者某些页面内容发生变化时,由w e b 志挖掘出的用户访问模式的精确性会 显著降低,进而严重影响推荐的效果。所以仅仅以日志文件作为数据源是远远不够的; ( 2 ) 在数据预处理的最后一个阶段,系统采用最大前向引用序列( m f r ) 等方法将用 户会话划分为一系列的事务,由于事务划分的任意性而导致划分出的结果不能很好地 满足模式识别的需要; ( 3 ) 现有的个性化推荐系统主要以用户以前的访问模式作为推荐依据,导致些 第一章绪论 结合站点内容和结构的个性化推荐技术的研究与实现 新添加的、用户可能感兴趣的页面未能推荐给用户。 ( 4 ) 如果一个站点在设计上不合理,从而使得很多用户终止于并不感兴趣的页面。 而人们对日志文件的分析结果却恰恰相反,常常认为用户最终的访问页面是用户真正 感兴趣的内容页面,从而误导未来的推荐操作; ( 5 ) 将很多匹配与计算操作放在在线状态下完成,导致推荐的时间效率较低。 基于现有系统所存在的以上问题,本文设计并实现了一个改进的w c b 个性化推荐 系统( w p r s ) 。该系统利用w e b 使用挖掘技术,并结合站点的内容及结构信息,分析 用户的浏览模式,根据用户的当前访问需要,自动实时地为用户提供推荐页面,实现 个性化服务。 1 2 国内外研究现状 早期使用最为广泛的个性化推荐技术是协同过滤。基于协同过滤的推荐系统收集 用户对页面的评价信息,用于识别用户的兴趣。如果当前用户被识别为与用户u s e r 属 于相同的兴趣类,并且用户u $ e r 对于某个页面有相当高的评价时,则将该页面推荐给 当前用户。然而协同过滤技术存在很多的问题【l 】,这种技术必须依赖于用户的输入, 比如用户对网页的评价,一方面很多用户可能不会留下任何评价信息,另一方面用户 的评价也不一定是可靠的,即便代表了当时用户的兴趣,但随着用户年龄的增长有可 能会过时,从而导致推荐的精确度和质量明显下降。另外,在这种技术中,用户访问 模式的匹配操作不得不在在线状态下进行,对于大型数据集,势必会导致生成推荐列 表的过程产生严重的延迟,服务器响应时间令人无法接受。 为了支持大规模的w e b 应用,降低在线推荐过程的时间复杂度,并提高推荐的精 确性,很多个性化推荐系统将基于内容过滤的技术和协同过滤技术结合起来完成推 荐,这种方式采用协同过滤技术对用户分组,同时采用基于内容过滤的技术进行推荐。 f a b t z l 、a n a t a g o n o m y t 3 】、d y n a m i cp r o f i l e r l 4 和y o d a n 等个性化系统,都是将基于内容 过滤和协同过滤两种技术结合起来实现的。 近些年来,w 曲日志挖掘技术越来越受到关注,并被广泛地应用于构造个性化的 推荐系统当中。基于w e b 日志挖掘的推荐系统以w 曲服务器的日志文件作为输入,应 用数据挖掘技术获取用户的访问模式,并据此产生推荐列表。w 曲服务器的日志文件 记录了用户的浏览历史,其中包含了与用户兴趣及访问模式相关的许多隐含信息,所 以在基于w 曲日志挖掘的推荐系统中,可以动态地获取用户的访问模式并实时地更新 2 结合站点内容和结构的个性化推荐技术的研究与实现 第一章绪论 模式,而且用户访问模式的获取是在离线的状态下完成的,因此推荐过程效率较高, 精确度较好。然而在此类推荐系统中,仅仅以日志文件作为数据源,只侧重于对用户 访问路径的研究,对用户访问页面和推荐页面间的内容相关性、以及页面超链接结构 中所隐含的页面文档之间的联系等考虑不充分,从而在一定程度上影响了推荐效果。 在基于w e b e i 志挖掘的个性化推荐系统中,访问页面关联规则【6 7 1 和访问模式聚类【8 , 9 1 分析是两种最常用的技术。 目前这方面的研究重点放在如何将w e b 内容挖掘以及w e b 结构挖掘中的技术有 效地结合在日志挖掘的过程中,用以提高访问模式发现的精确性。很多文章中介绍了 这种结合后的推荐系统。文献 1 0 1 提出的方案,将内容挖掘结合在日志挖掘的过程中。 离线状态下,采用聚类技术获取站点的用户使用描述文件( u s a g ep r o f i l e s ) 和内容描述 文件( c o n t e n tp r o f i l e s ) ;在线状态下,将活动用户的当前会话分别与离线状态下获取的 使用及内容描述文件相匹配产生两个候选推荐集,最后将两个集合中推荐值较高的页 面集合作为最终的推荐集推荐给用户。文献 1 1 】提出的方案,将结构挖掘结合在日志 挖掘的过程中。离线状态下,分别采用关联规则、序列模式、连续序列模式挖掘算法 获取三种不同的用户访问模式;在线状态下,根据页面相对于当前用户所在位置的网 内超链接度,分别从三种访问模式中选取推荐集。文献【1 2 】提出的方案中,将使用挖 掘与内容挖掘技术结合起来。离线状态下,根据w e b 服务器上的日志文件,找出频 繁最大前向路径集,生成含有导航页和内容页的频繁访问路径图;在线状态下,根据 用户当前访问窗口的页面内容和候选推荐集中页面的内容相关性来计算推荐集。在这 三种方法当中,内容或者结构挖掘与日志挖掘的结合只能在在线状态下进行。文献 1 3 】 提出的方案中,将w e b 日志挖掘、内容挖掘与协同过滤技术结合起来。离线状态下, 从日志数据中获取页面集合以及访问用户集合,并计算页面间的内容特征相关性;在 线状态下,识别活动用户的兴趣,找出它的近邻,并根据离线模块中计算出的与当前 会话中页面内容相关的页面集合,以及在线获取的与活动用户使用相关的页面集合生 成推荐列表,排序后推荐给用户。由于在线模块比较匹配操作较多,这种结合的时间 效率相对较差。 1 3 本文研究内容 通过对当前国内外所开发的各种个性化推荐系统及其不足的分析,本课题的研究 内容如下: 3 第一章绪论 结合站点内容和结构的个性化推荐技术的研究与实现 ( 1 ) 数据收集阶段:由于服务器日志文件提供的可用信息太少,因此结合网页内 容信息及网站结构信息,用以提高用户访问模式识别的精确度。 ( 2 ) 数据预处理阶段:改进划分事务的方法,使其成为与用户的某一个信息需求 相关的予会话;采用w e b 内容挖掘技术中的文本聚类算法将页面按照相似程度归为若 干个类别,据此用于识别事务,从而可以方便快捷地得出更为精确的用户访问模式; 根据实际应用需求,对文本聚类算法进行改进。 ( 3 ) 访问模式发现阶段:从事务聚类的结果中获取最初的用户访问模式;借助于 w e b 结构挖掘技术,将一些邻接的相关页面考虑在内,更增强了推荐的精确性和全面 性;根据网站结构信息计算推荐列表中页面的相对权重,作为在线推荐列表中页面排 序的重要依据;将计算权重的工作放在离线状态下完成,用以提高在线推荐的效率。 ( 4 ) 在线实时推荐阶段:确定当前用户感兴趣的文本主题即为该用户的访问模式: 将候选推荐集中的w e b 页面是否己被当前用户访问过所带来的推荐权值差异考虑其 中,确定最终的推荐函数;设计并实现具有较高精确性及较低时间复杂度的推荐策略 与推荐算法。 本文所提出的方法在离线的状态下结合w e b 日志数据以及网页内容数据,用以 构造能够更好地满足用户需求的访问模式。而且,仍然是在离线的状态下,结合站点 结构数据对访问模式进行扩展改进,在扩展模式的同时,根据链接信息计算w e b 页 面的相对权重,作为在线推荐列表中页面排序的重要依据。扩展后的用户访问模式可 直接用于在线的推荐过程中。 1 4 本文的组织结构 根据上述研究工作,本文的内容分为八章,每一章的具体内容如下: 第一章为“前言”部分。本章主要阐述了选题的依据及意义,介绍了w e b 个性化 推荐技术目前在国内外的研究现状,并在此基础上,提出了本文要研究和解决的问题 及目标。 第二章为“个性化相关概念与技术”部分。本章主要介绍了个性化的定义、个性 化推荐的实现方法以及个性化推荐与w e b 挖掘的关系,数据挖掘与w e b 挖掘的相关理 论和技术。 第三章为“面向个性化技术的数据预处理”部分。本章分别介绍了w e b e l 志数据、 内容数据以及结构数据的预处理过程。 4 结合站点内容和结构的个性化推荐技术的研究与实现 第一章绪论 第四章为“结合内容挖掘的事务识别改进”部分。本章针对传统事务识别方法的 不足,结合页面内容对事务识别方法进行了适当的改进,将内容挖掘中的文本聚类算 法引入到事务识别的过程中,提高了事务识别的精确性。 第五章为“结合结构挖掘的模式识别改进”部分。本章主要讨论用户访问模式识 别的方法,首先通过事务聚类获得最初的用户访问模式,考虑到新添加页面对推荐的 影响,结合站点的结构信息对识别出的用户访问模式进行扩展改进。 第六章为“个性化网页实时推荐”部分。本章详细的介绍了w e b 个性化推荐系统 ( w p r s ) 的离线模式挖掘部分和在线实时推荐部分,并设计了时间复杂度较低、精确 度较高的在线推荐策略与算法。 第七章为“实验评估”部分。本章给出了评估推荐系统有效性的实验方法及评估 标准,并给出了详细的实验结果。 第八章对本文所做的工作及贡献进行了总结,并指出需要进一步完善的部分及今 后的研究发展方向 5 第二章个性化相关概念与技术结合站卢内容和结构的个性化推荐技术的研究与实现 第二章个性化相关概念与技术 要研究w e b 个性化推荐技术,首先需要明确个性化服务及个性化推荐的概念, 并要对实现个性化推荐的w e b 挖掘技术有充分的了解本章将对个性化的相关概念 及技术做详细介绍 2 1 个性化简介 2 1 1 个性化的定义 个性化服务是指针对不同用户提供不同的服务策略和服务内容的服务模式,其实 质就是以用户需求为中心的w 曲服务。个性化服务通过收集和分析用户信息来学习 用户的兴趣和行为,进而实现主动推荐服务。因此,通过网络提供的个性化服务不仅 可以减轻用户“信息过载”的困境,而且可以帮助企业建立友好的客户关系。 个性化服务的最直接实现形式即为个性化推荐系统,该系统收集和统计活动用户 对站点的近期访问信息,分析其浏览路径,与挖掘的模式进行比较匹配,并根据匹配 程度进行排序,为活动用户预测下一步最有可能访问的页面,将排序后的结果附加在 现行用户请求页面之后,从而进行页面推荐1 1 4 1 。近几年,随着电子商务的快速发展, 也推动了个性化推荐系统的发展,推荐系统已经成为电子商务中的主流发展方向。目 前,推荐系统比较完善的著名电子商务网站有:亚马逊、当当网站、e b a y 等。 推荐系统可以为电子商务网站带来一系列的好处,例如,能够更好地吸引新的访 问者,并将访问者变换为潜在购买者,同时可以增加客户在网站的驻足时间和他们对 网站的兴趣度。另外,推荐系统可以为不同的用户推荐他们可能会感兴趣的内容,提 高用户的访问效率,从而相应提高网站的支持率。 2 1 2 个性化推荐的实现方法 目前存在着许多个性化服务系统,它们提出了各种思路用以实现个性化服务。个 性化服务系统所采用的推荐技术可以分为两种:基于规则的技术和信息过滤技术。信 息过滤技术又可分为基于内容过滤的技术和协同过滤技术。而近些年来,w e b 日志挖 掘技术越来越受到关注,并被广泛地应用于构造个性化的推荐系统当中。 6 结合站点内容和结构的个性化推荐技术的研究与实现 第二章个性化相关概念与技术 ( 1 ) 基于规则的推荐技术( a s s o c i a t i o nr u l e - b a s e dr e c o m m e n d a t i o n ) 基于规则的方法是根据用户的静态特征和动态属性来制定产生式规则,通过规则 匹配推算出用户还没有浏览过但可能是感兴趣的网页,然后依据规则的支持度的大小 对页面进行排序,并将排在前n 项的页面推荐给用户。 基于规则的推荐技术较多地应用于电子商务网站,该推荐技术根据用户浏览和购 买的日志生成规则,向用户推荐感兴趣的商品。基于规则的系统如i b m 的 w c b s p h e r w w w i b m c o m w e b s p h e r e ) 、b r o a d v i s i o n ( w w w b r o a d v i s i o n c o r n ) 、l o g ( w w w i l o g 锄) 【1 5 】等。基于规则的推荐系统的优点是简单直接,缺点是规则质量很难 保证,而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以管理。 ( 2 ) 内容过滤推荐技术( c o n t e n t - b a s e df i l t e r i n gr e c o m m e n d a t i o n ) 内容过滤方法通过比较资源与用户的兴趣文件来推荐信息,其关键问题是用户兴 趣度的提取和相似度的计算。 由于基于内容过滤的推荐需要进行匹配计算,因而较多地应用于可计算的文本领 域,如浏览页面的推荐、新闻组中的新闻推荐等。基于内容过滤的系统优点是简单有 效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源, 只能发现和用户已有兴趣相似的资源。p e r s o n a lw e b w a t c h e r 1 6 】是一个基于内容过滤的 原型系统。 ( 3 ) 协同过滤推荐技术( c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o n ) 协同过滤推荐技术是应用最成功的技术,也称为面向用户( u s e r b a s e d ) 的技术协 同过滤方法通过用户聚类技术来寻找n 个最相似的邻居,根据相似用户预测当前用 户的兴趣并推荐信息 与基于内容过滤的技术不同,协同过滤方法并不比较资源与用户模型的相似性, 而是通过比较用户之间的相似性来推荐信息。具有相似兴趣的用户被视为一个用户 类,当用户对某类信息感兴趣时,该信息就可以推荐给同类的其他用户。 对于一个初次上网的用户,采用基于内容过滤的技术是难以实现推荐的,因为系 统中不存在该用户的访问历史数据。但应用协同过滤技术,系统便可以根据该用户当 前的访问模式和对其他用户历史数据的分析,为其找到相似的访问模式,根据该模式 对应的点击率进行推荐。 该方法在实践中常遇到两个很难解决的问题,一个是稀疏性,即在系统使用初期, 由于系统资源还未获得足够多的评价,系统很难利用这些评价来发现相似的用户。另 7 攀 第二章个性化相关概念与技术结合站点内容和结构的个性化推荐技术的研究与实现 一个是可扩展性,即随着系统用户和资源的增多,系统的性能会越来越低。o r o u p l e n s n e t p e r c c p f i o n t l 7 j 是一个基于协同过滤技术的原型系统。 由于基于内容过滤和协同过滤技术各自的特点,目前已有一些推荐系统探索将二 者结合的推荐方式,这种方式采用协同过滤的方式对用户分组,采用基于内容过滤技 术进行推荐。 ( 4 ) 基于w e b 日志挖掘的推荐技术 w 曲日志挖掘是从用户的网络行为中抽取用户感兴趣的访问模式。通过对用户浏 览网站的使用数据的收集、分析和处理,建立起用户的行为和兴趣模型,这些模型可 以帮助理解用户行为,改进结构站点以及为用户提供良好的个性化信息服务。由于个 性化推荐所面临的关键问题是需要对大量非注册用户的行为模型进行深层理解,传统 的协同过滤方法很难处理非注册用户的情况,而w 曲日志挖掘能较好地处理这类问 题;同时,借助于w e b 日志挖掘可以从传统的基于使用数据的静态建模转换到基于用 户操作行为的动态建模,在系统里帮助改善用户的网络使用经验。基于w 曲日志挖掘 建立的个性化推荐系统是实现良好个性化服务的一个有效途径。 2 1 3 个性化推荐与w e b 挖掘 数据挖掘,特别是w e b 挖掘技术的发展为个性化推荐技术注入了新的活力,目前 已成为实现w e b 个性化推荐的核心技术之一。w e b 挖掘技术是实现隐式数据收集的一 种有效的手段,更是支持基于内容过滤和协同过滤技术的有力工具。通过w e b 挖掘, 可以进行页面内容的相似性分析,从而实现页面内容的分组,对基于内容过滤的技术 给予支持;还可以进行用户访问模式的相似性分析,从而实现根据访问模式对用户的 分组,对协同过滤技术给予支持。此外,通过w e b 挖掘的具体方法,可以获得应用于 推荐的相关信息:页面关联分析可以获得用户经常一同浏览的页面的相关情况,页面 访问量分析可以获得用户对网站中各网页的访问量,用户访问模式归类可以获得用户 按访问兴趣的分组情况,用户分类则可以获得在用户分组基础上,每一组用户准确的 类别等。总之,通过w e b 挖掘,我们能够在准确获得用户信息的基础上,为用户提供 个性化推荐服务。 8 结合站点内容和结构的个性化推荐技术的研究与实现第二章个性化相关概念与技术 2 2 数据挖掘技术 随着数据库和各类信息系统应用的不断深入,数据量的日益积累,每年都要积累 大量的数据,并呈现指数增长趋势,大量信息是当今信息社会的特征,是我们的宝贵 财富,然而面对海量数据,我们往往无所适从,无法发现数据中存在的关系和规则, 无法根据现有的数据预测未来的发展趋势,从而导致了“信息爆炸,而知识贫乏”的 现象。面对如此挑战,数据挖掘技术应运而生,并得以蓬勃发展,越来越显示出其强 大的生命力。 2 2 1 数据挖掘概述 数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中 发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息 和知识的非平凡过程【埔】。它是- - f l 涉及面很广的交叉学科,融合了数据库、人工智能、 机器学习、统计学等多个领域的理论和技术。数据库、人工智能和数理统计是数据挖 掘研究的三根强大的技术支柱。数据挖掘的方法及数学工具包括统计学、决策树、神 经网络、模糊逻辑、线性规划等。 数据挖掘技术从一开始就是面向应用领域的,它不仅是面向特定数据库的简单检 索查询调用,而且,要对数据进行微观、中观乃至宏观的统计、分析、综合和推理, 以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的 活动进行预测。 也正是因为数据挖掘技术具有广泛的应用价值,才使得它在短短几年内,就在理 论上取得了重大进展,并逐渐得到实际应用。应用是数据挖掘的目标和发展动力,数 据挖掘实际应用的开发也有助于对数据挖掘的进一步理解。数据挖掘的应用范围涉及 社会的所有领域。 2 2 2 数据挖掘的处理过程 数据挖掘的过程可分为三步曲1 19 】:数据准备( n a mp r e p a r a t i o n ) 、数据挖掘( d a t a m i n i n g ) 、结果的解释和评估( i n t e r p r e t a t i o na n de v a l u a t i o n ) 。数据挖掘的处理过程如图 2 1 所示。 数据准备阶段包括三个子步骤:数据选取( d a t as e l e c t i o n ) 、样本数据预处理( d a t a 9 , 秽 聱 * 蠢 第二章个性化相关概念与技术 结合站点内容和结构的个性化推荐技术的研究与实现 p r e l 舯c e s s i n g ) 和数据变换( d a t at r 孤s f o 珊a t i o n ) 。首先根据数据挖掘方法和工具的要求 选择合适的数据( 样本、训练集、测试集等) ,并对选择的数据进行预处理( 离散化、连 续化、编码等) ,最后进行的数据变换的主要目的是消除数据维数或降维( d i m e n s i o n r e d u c t i o n ) ,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变 量个数。 数据准备一+ | 数据挖掘专一结果评价一- | 数据准备一- 数据挖掘 一结果评价 一一 : 图2 1 数据挖掘的处理过程 数据挖掘阶段首先要确定挖掘的任务或目的,如数据分类、聚类、关联规则发现 或序列模式发现等。确定了挖掘任务后,就要决定使用什么样的挖掘算法。选择实现 的算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法 来挖掘;二是要根据用户或实际运行系统的要求,有的用户可能希望获取描述型的 ( d e s c r i p t i v e ) 、容易理解的知识( 采用规则表示的挖掘方法显然好于神经网络之类的方 法) ,而有的用户只是希望获取预测准确度尽可能高的预测型( p r e d i c t i v e ) 知识。选择了 挖掘算法后,就可以实施数据挖掘操作,获取有用的模式 结果的解释和评估阶段是将发现模式过程及结果以用户容易理解的、能够接受的 形式,如利用信息的可视化技术展现给用户,然后根据需要对数据挖掘过程中的某些 处理阶段进行优化,为其提供满意的决策支持。 数据挖掘仅仅是整个过程中的一个步骤,数据挖掘质量的好坏有两个影响要素: 一是所采用的数据挖掘技术的有效性,二是用于挖掘的数据的质量和数量( 数据量的 大小) 。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则 挖掘的结果是不会好的 整个挖掘过程是一个不断反馈的过程,比如,用户在挖掘途中发现选择的数据不 太好,或使用的挖掘技术产生不了期望的结果,这时,用户需要重复先前的过程,甚 至从头重新开始 可视化技术在数据挖掘的各个阶段都扮演着重要的角色,特别是在数据准备阶 1 0 结合站点内容和结构的个性化推荐技术的研究与实现第二章个性化相关概念与技术 段,用户可能要使用散点图、直方图等统计可视化技术来显示有关数据,以期对数据 有一个初步的了解,从而为更好地选取数据打下基础。在挖掘阶段,用户则要使用与 领域问题有关的可视化工具。在表示结果阶段,则可能要用到可视化技术以使得发现 的知识更易于理解。 2 2 3 数据挖掘的技术和方法 数据挖掘涉及的学科领域和方法很多,联系密切的领域主要有人工智能、归纳学 习、机器学习和统计分析等,它可以利用的技术有人工神经网络、遗传算法、决策树、 邻近算法、规则推理、模糊推理等。数据挖掘系统利用的技术越多,得出的结果精确 性就越高,其中最为常用且最典型的分析方法主要有以下几种: ( 1 ) 分类 分类包括的挖掘技术将找出定义了一个项或事件是否属于数据中某特定子集或 类的规则,该类技术是最广泛应用于各类业务问题的一类挖掘技术,该技术包括两个酽 子过程,即创建模型和预测分析。 分类算法中最知名的是决策树方法( d e c i s i o nt r e e ) ,此外还有神经元网络、k 邻近、 。 l l s d 、支持向量机( s v m ) 和贝叶斯( b a y e s i a n ) 分类等方法。决策树是一种有指导的学 习方法,它排除噪音的强壮性以及学习反义表达能力,使其更适合于文本分类。主要 的决策树方法有c a r t 、i d 3 、( 2 4 5 ( c 5 o ) 和s p r i n t 等。 8 ( 2 ) 预测 预测是指利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的 种类、特征等。典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立 线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可以求出 该时间的状态。 近年来,发展起来的神经网络方法,如b p 模型,实现了非线性样本的学习,能 进行非线性函数的判别。分类也可以进行预测,但分类一般用于离散数值,回归预测 用于连续数值,而神经网络方法的预测既可以用于连续数值,也可以用于离散数值。 ( 3 ) 序列模式 时间序列模式的目的是寻找事件之间时间的相关性,这里强调时间序列的影响。 在序列模式中,需要找出的是某个最小时间内出现比率一直高于某一最小百分比( 阈 值) 的规则。这些规则会随着形式的变化做适当的调整。 第二章个性化相关概念与技术 结合站点内容和结构的个性化推荐技术的研究与实现 ( 4 ) 关联分析 关联分析的目的是挖掘隐藏在数据间的相互关系,自动探测以前未发现的隐藏着 的模式。经常被表达为规则的形式,一条形如x - _ y 的关联规则可以解释为:满足x 的数据库元组也很可能会满足y 。目前采用的主要的关联规则挖掘算法有a p r i o r i 及 其改进算法、f p g r o w t h 算法等。 ( 5 ) 聚类 聚类是将数据集划分为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论