(计算机应用技术专业论文)基于代理结构的web个性化推荐技术的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于代理结构的web个性化推荐技术的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于代理结构的web个性化推荐技术的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于代理结构的web个性化推荐技术的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于代理结构的web个性化推荐技术的研究与实现.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机应用技术专业论文)基于代理结构的web个性化推荐技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东 北大学 硕士学 位论文 摘要 基于代理结构的we b 个性化推荐技术的研究与实现 摘要 信息时代的到来为以 i n t e m e t 为核心的各种网络技术的发展提供了巨 大空间,同时各种 各样的 针对e - s e rv i c e 技术的 研究也相继出 现。 在涌现的 众多课题中,围绕为访问w e b网 站 的互联网用户提供方便快捷的个性化服务的w e b 个性化推荐技术的研究工作, 成为了目 前的 研究热点之一。 w e b 个性化是指w e b 网 站根据发现的 用户喜好、 动态地为用户定制观看的内容或提供浏 览建议。 具体地来说,就是网 站为上网的每个用户提供一对一的 服务和指导. 本文重点讨论如何在代理体系结构的 基础上设计和实现为访问 用户提供高质t个性化推 荐服务的个性化推荐系统 s m a rt w e b a 本文通过分析现有的荃于不同 体系结构的个性化推荐系统的特点, 从蓦于代理结构的 个 性化推荐系统具有独立于客户机和w e b 服务器存在的主要特点出发, 确定了以代理结构为基 础进行个性化推荐技术研究的目 标,并阐述了利用 w e b使用挖掘相关技术设计和实现 s m a r t w e b 推荐系统的过程。 s m a rt w e b 推荐系统由离线挖掘子系统和在线推荐子系统两部分组成。 本文在设计和实现 s m a rt w e b 推荐系统各个功能 模块的 过程中, 从提高推荐系统整体性能的角度出 发, 在离线子 系统方面提出了 根据网站结构和聚类分析方法对初始推荐规则集进行筛选, 根据筛选出的 推 荐规则集进行在线推荐的思想: 而在在线子系统方面通过为推荐规则集建立索引进一步提高 了推荐系统的响应速度。 最后本文从推荐响应时间和推荐效率两个方面对 s m a rt w e b推荐系统进行了性能评价。 实验表明, s m a r t w e b 推荐系统具有更高的 推荐准确性和更快的响应速度。 因 此具有较强的可 行性和实用性。 关健词:e - s e rv i c e w e b 个性化推荐系统 w e b 挖掘 东 北大学 硕士学位论文 a b s t r a c t s t 叻 a n d i m p le m e n t a t i o n o n t e r s o n a ciz e d r e c o m m e n d a t i o n z e c h n 匆 u e s b a s e d o n b r o v ab s t r a c t w i t h t h e c o m i n g o f i n f o r m a t i o n a g e , n e t w o r k t e c h n o l o g y d e v e l o p s r a p i d l y . a s a re s u l t , m a n y r e s e a r c h p r o b l e m s a b o u t e - s e r v i c e t e c h n o l o g y a p p e a r o n e a ft e r t h e o t h e r . a m o n g t h e m , t h e w e b p e r s o n a l i z e d r e c o m m e n d a t i o n t e c h n o l o g y h a s b e c o m e a k e y r e s e a r c h i s s u e , w h i c h c a n p r o v i d e p e r s o n a l i z e d s e r v i c e s f o r i n t e r n e t c l i e n t e x p e d i e n t l y . w e b p e r s o n a l i z a t i o n m e a n s t h a t a w e b s i t e c a n c u s t o m i z e b r o w s i n g c o n t e n t o r g i v e b r o w s i n g s u g g e s t i o n f o r u s e r s d y n a m i c a l l y a c c o r d i n g t o t h e i r b r o w s i n g f a v o r s . t h i s t h e s i s f o c u s e s o n h o w t o d e s i g n a n d i m p l e m e n t a w e b p e r s o n a l i z e d r e c o m m e n d a t i o n s y s t e m b a s e d o n p r o x y , w h i c h n a m e i s s m a rt we b - a c c o r d i n g t h e a n a l y s is a n d c o m p a r i s o n a b o u t t h e a r c h i t e c t u r e s o f d i ff e r e n t k i n d re c o m m e n d a t i o n s y s t e m s , t h e p e r s o n a l i z e d re c o m m e n d a ti o n s y s t e m b a s e d o n p r o x y h a s a d v a n t a g e s w h i c h m a k e i t c a n b e p u t i n t o p r a c t i c e w i t h o u t i n c r e a s i n g t h e b u r d e n o f c l i e n t a n d we b s t a t i o n . t h i s t h e s i s i n tr o d u c e s h o w t o u s e we b u s a g e mi n i n g t e c h n o l o g y t o i m p l e m e n t t h i s r e c o m m e n d a t i o n s v s t e m i n d e t a i l . t h e s m a rt w e b s y s t e m i s c o m p o s e d o f t w o p a r ts : t h e o ff - l i n e m i n i n g s u b - s y s t e m a n d t h e o n - l in e re c o m m e n d a t i o n s u b - s y s t e m . i n o r d e r t o h a v e t h e s y s t e m m a k e g o o d p ro g r e s s i n i t s c a p a b il i t y , t h e re c o m m e n d a t i o n s y s t e m m a k e s u s e o f t h e w e b s i t e s t r u c t u re a n d c l u s t e r i n g a n a l y s i s m e t h o d s t o fi l t e r a s s o c i a t i o n r u l e s d i s c o v e r e d i n o ff - l i n e m i n i n g s u b - s y s t e m , a n d t h e n c o n s t r u c t s a n i n d e x d a t a s t r u c t u re a c c o r d i n g t h e f i l t e r e d r u l e s t o e n h a n c e t h e s p e e d o f r e c o m m e n d a t i o n i n t h e o n - l i n e rec o mme n d a t i o n . i n t h e l a s t c h a p t e r , t h e t h e s i s e v a l u a t e s t h e c a p a b i l i t y o f s m a rt w e b s y s t e m i n s p e e d a n d e ff i c i e n c y . t h e e x p e r i m e n t r e s u l t s s h o w t h a t t h e s m a r tw e b s y s t e m h a s b e tt e r p re c i s i o n o f r e c o m m e n d a t i o n a n d f a s t e r s p e e d ; t h e re f o re , i t i s f e a s ib l e t o p u t t h i s re c o m m e n d a t i o n s y s t e m i n t o p r a c t i c e . k e y w o r d s : e - s e r v i c e , p e r s o n a l i z a t i o n , re c o m m e n d a t i o n s y s t e m , w e b m i n i n g 一 卫 u - 东北大学 硕士学位论文独创性声明 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。 论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或 撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确 的说明并表示谢意。 学 位 论 文 作 者 签 名 : 顾 日期: ? .砧 , t . 1 3 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人授权东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。 ) 学位论文作者签名: 签字日 期:7 心 日 派 再 、 i ; . 导师签名: 签字日期: 秘在 飞 刃 , 了 r . 1 了 东北大学硕士学位论文 第一章 前言 第一章 前言 1 . 1课题来源 本文的 研究内容来源于国家自 然科学荃金资助项目“ i n t e rn e t 上支持高 质量e - s e r v i c e s 的 零输入个性化技术的 研究” 项目 批准号:6 0 1 7 3 0 5 1 ) ,该课题在对个性数据采集技术、 w e b 数据仓库技术、 面向个性化的w e b 数据挖掘技术、 个性化规则解析技术以 及个性化服务推荐 技术等关键技术进行研究的基础之上, 提出了一 种结合数据挖掘、 规则解析和信息集成技术 的c ( c o l l e c t in g ) m ( m in in g ) r ( r e c o m m e n d i n g ) 个 性 化 方 法, 并 设 计 和 实 现了 一 个 基于 代理结构的w e b 个性化推荐系统s m a rt we b . 本文土要讨论在基于 代理结构的s m a r t w e b 系统中如何使用信息过滤和w e b 挖掘等相关 技术为用户提供高质量、 零输入的个性化推荐服务, 即在用户正常浏览w e b 页的同时, 在不 增加用户额外输入的前提下, 如何实现针对用户个性化需求的网页信息的发掘与推荐, 题目 是:基于 代理结构的w e b 个性化推荐技术的 研究与实现。 1 . 2问题提出 随着 i n t e m e t 技术的发展,迅速增长的网 上信息在为我们的生活和工作提供了 极大方便 的同时, 也使上网的 用户越来越难以 依靠自 身的力量在浩瀚的 i n t e rn e t 信息海洋中获得自 己 所需要的内容。于是,各种推荐系统、搜索引擎纷纷涌现,这些系统给用户带来了方便,也 带来了 不便。 分析当 前的推荐系统和搜索引擎。 其推荐和搜索机制存在潜如下问 题: 就推荐和导航而言, 首先,网 站提供的推荐和导航信息更多的是从网站的 利益、 而非 用户的 利益出发,因而用户难以 从中 获得自已 所需要和感兴趣的 信息;其次,即便网 站在推 荐时考虑了 用户的需求和兴趣, 但对于不同的 用户,目 前许多的网 站提供的 推荐内 容往往千 篇一律缺少个性化特征,也就是说没有注惫到不同 用户的需求和兴趣是千差万别的; 就信息搜索而言,目 前的网 站提供的 搜索界面虽然形式不尽相同。 但其实质仍然是基 t 关键字、 或 在此 关键字基础上 扩充的 新关 键字的 匹 pe a i g 0 3 , 而这种匹 配方法很难真je 体 现用户的需求和兴趣。 例如,当我们输入 “ 数据挖掘” 一词作为关键字查询时, 得到的只是 含有该关键字或由该 关键字扩充得到的 新关键字的若干网页链接, 而与之相关的“ 知识发现” 方面的 信息却可能因为不满足关键字或扩充关键字的匹配要求而无法得到 ( 因为在 “ 数据挖 掘” 的 文本中 可能很 少或根本不出 现“ 知识发 现” 一词。 搜索引争本身 并不知道在数据库技 术、人工智能领域里, “ 数据挖掘”与 “ 知识发现” 是意义相同或相近的) , 另外,当 我们输 入 “ 搜索引擎”一词作为关键字时,系统不能区分、我们也无法向系统表明我们是要查找包 东北大学硕士学位论文 第一章 前言 第一章 前言 1 . 1课题来源 本文的 研究内容来源于国家自 然科学荃金资助项目“ i n t e rn e t 上支持高 质量e - s e r v i c e s 的 零输入个性化技术的 研究” 项目 批准号:6 0 1 7 3 0 5 1 ) ,该课题在对个性数据采集技术、 w e b 数据仓库技术、 面向个性化的w e b 数据挖掘技术、 个性化规则解析技术以 及个性化服务推荐 技术等关键技术进行研究的基础之上, 提出了一 种结合数据挖掘、 规则解析和信息集成技术 的c ( c o l l e c t in g ) m ( m in in g ) r ( r e c o m m e n d i n g ) 个 性 化 方 法, 并 设 计 和 实 现了 一 个 基于 代理结构的w e b 个性化推荐系统s m a rt we b . 本文土要讨论在基于 代理结构的s m a r t w e b 系统中如何使用信息过滤和w e b 挖掘等相关 技术为用户提供高质量、 零输入的个性化推荐服务, 即在用户正常浏览w e b 页的同时, 在不 增加用户额外输入的前提下, 如何实现针对用户个性化需求的网页信息的发掘与推荐, 题目 是:基于 代理结构的w e b 个性化推荐技术的 研究与实现。 1 . 2问题提出 随着 i n t e m e t 技术的发展,迅速增长的网 上信息在为我们的生活和工作提供了 极大方便 的同时, 也使上网的 用户越来越难以 依靠自 身的力量在浩瀚的 i n t e rn e t 信息海洋中获得自 己 所需要的内容。于是,各种推荐系统、搜索引擎纷纷涌现,这些系统给用户带来了方便,也 带来了 不便。 分析当 前的推荐系统和搜索引擎。 其推荐和搜索机制存在潜如下问 题: 就推荐和导航而言, 首先,网 站提供的推荐和导航信息更多的是从网站的 利益、 而非 用户的 利益出发,因而用户难以 从中 获得自已 所需要和感兴趣的 信息;其次,即便网 站在推 荐时考虑了 用户的需求和兴趣, 但对于不同的 用户,目 前许多的网 站提供的 推荐内 容往往千 篇一律缺少个性化特征,也就是说没有注惫到不同 用户的需求和兴趣是千差万别的; 就信息搜索而言,目 前的网 站提供的 搜索界面虽然形式不尽相同。 但其实质仍然是基 t 关键字、 或 在此 关键字基础上 扩充的 新关 键字的 匹 pe a i g 0 3 , 而这种匹 配方法很难真je 体 现用户的需求和兴趣。 例如,当我们输入 “ 数据挖掘” 一词作为关键字查询时, 得到的只是 含有该关键字或由该 关键字扩充得到的 新关键字的若干网页链接, 而与之相关的“ 知识发现” 方面的 信息却可能因为不满足关键字或扩充关键字的匹配要求而无法得到 ( 因为在 “ 数据挖 掘” 的 文本中 可能很 少或根本不出 现“ 知识发 现” 一词。 搜索引争本身 并不知道在数据库技 术、人工智能领域里, “ 数据挖掘”与 “ 知识发现” 是意义相同或相近的) , 另外,当 我们输 入 “ 搜索引擎”一词作为关键字时,系统不能区分、我们也无法向系统表明我们是要查找包 东北大学硕士学位论文 第一章 前言 含该词的文章, 还是要查找具有搜索引擎功能的网站: 就结果的发布而言, 用户在进行查询和浏览时, 所要求的可能仅仅是某些网页、甚至是 网页中某个片断的信息,但得到的却是大量相关、甚至不相关的页面链接,用户需要在这众 多的页面链接中 不断进行手工的 或自 动的 “ 二次搜索” , 才可能获得满意的结果。 上述问 题的存在,从互联网用户和被访问网站两个方面体现了目前对 “ 为用户个性化的 需求提供个性化的服务” 的需求, 即在用户浏览网页的时候: 网 站如何根据用户的访问需求, 准确的给出 用户可能需要的信息,也就是说如何向 用户给出 准确的 推荐信息。 这一要求实际 上包含着这样几个问题: .网站如何准确地理解用户的需求: 。网站如何根据用户的需求在i n t e m e t 信息中获得真正相关的内容; 网站以何种形式将这些内容发布给用户。 同时这些问 题的 存在也为“ w e b 个性化技术” 这一主题赋予了新的内涵,即根据用户的 个性化需求,为其重新组织相关的信息内容,并按其感兴趣的个性化形式予以发布或推荐, 这就是 i n t e m e t 上个性化信息的重组与发布问题。目 前的各种搜索引擎和推荐系统从广义上 讲都是在进行 i n t e m e t 上信息的 重组与发布工作, 但其功能显然不能为用户所满意,因 而问 题的实质是: 现在并非没有信息重组和发布的工具,而是缺乏能够使这类工具高效工作的支 持技术。 我们所述的“ 高效” 并非搜索引擎和推荐系统本身的执行效率,而是其信息发布内 容的高 质皿与形式的多样化, 继而引发的是其支持技术的 性能与效用, 这涉及用户个性化需 求的 获取、 针对需求的个性化信息的 搜索与推荐、 针对该搜索或推荐结果的个性化信息展示、 以及与之相关的理论与应用技术的研究, 这也正是本课题所要提出和解决的问题。 1 . 3本文的研究工作 本文将以 一个基于代理结构的w e b 个性化推荐系统s m a r t w e b 为基础, 具体研究如何使 用w e b 使用挖掘和个性化推荐技术为用户提供高质量、 零输入的个性化推荐服务, 研究的问 题主要包括: ( 1 ) 为什么 要采用基于代理体系结构的 个性 化推 荐系 统? ( 2 ) 推荐系 统如何对w e b 数据源应用w e b 使 用 挖掘 相关 技术进行处理得到用于 在线推荐 的信息? ( 3 ) 推荐系统如何准 确地区分出 各个在线 用户、 获得用户的 访问 信息并 对用户 信息 进行 管理? (4 ) 推荐系统如何利用离线 挖掘出 的 推荐信息 对在线 访问的 用户进行推荐? ( 5 ) 推荐系统以何种形式将推荐信息返回给用户? 东北大学硕士学位论文 第一章 前言 含该词的文章, 还是要查找具有搜索引擎功能的网站: 就结果的发布而言, 用户在进行查询和浏览时, 所要求的可能仅仅是某些网页、甚至是 网页中某个片断的信息,但得到的却是大量相关、甚至不相关的页面链接,用户需要在这众 多的页面链接中 不断进行手工的 或自 动的 “ 二次搜索” , 才可能获得满意的结果。 上述问 题的存在,从互联网用户和被访问网站两个方面体现了目前对 “ 为用户个性化的 需求提供个性化的服务” 的需求, 即在用户浏览网页的时候: 网 站如何根据用户的访问需求, 准确的给出 用户可能需要的信息,也就是说如何向 用户给出 准确的 推荐信息。 这一要求实际 上包含着这样几个问题: .网站如何准确地理解用户的需求: 。网站如何根据用户的需求在i n t e m e t 信息中获得真正相关的内容; 网站以何种形式将这些内容发布给用户。 同时这些问 题的 存在也为“ w e b 个性化技术” 这一主题赋予了新的内涵,即根据用户的 个性化需求,为其重新组织相关的信息内容,并按其感兴趣的个性化形式予以发布或推荐, 这就是 i n t e m e t 上个性化信息的重组与发布问题。目 前的各种搜索引擎和推荐系统从广义上 讲都是在进行 i n t e m e t 上信息的 重组与发布工作, 但其功能显然不能为用户所满意,因 而问 题的实质是: 现在并非没有信息重组和发布的工具,而是缺乏能够使这类工具高效工作的支 持技术。 我们所述的“ 高效” 并非搜索引擎和推荐系统本身的执行效率,而是其信息发布内 容的高 质皿与形式的多样化, 继而引发的是其支持技术的 性能与效用, 这涉及用户个性化需 求的 获取、 针对需求的个性化信息的 搜索与推荐、 针对该搜索或推荐结果的个性化信息展示、 以及与之相关的理论与应用技术的研究, 这也正是本课题所要提出和解决的问题。 1 . 3本文的研究工作 本文将以 一个基于代理结构的w e b 个性化推荐系统s m a r t w e b 为基础, 具体研究如何使 用w e b 使用挖掘和个性化推荐技术为用户提供高质量、 零输入的个性化推荐服务, 研究的问 题主要包括: ( 1 ) 为什么 要采用基于代理体系结构的 个性 化推 荐系 统? ( 2 ) 推荐系 统如何对w e b 数据源应用w e b 使 用 挖掘 相关 技术进行处理得到用于 在线推荐 的信息? ( 3 ) 推荐系统如何准 确地区分出 各个在线 用户、 获得用户的 访问 信息并 对用户 信息 进行 管理? (4 ) 推荐系统如何利用离线 挖掘出 的 推荐信息 对在线 访问的 用户进行推荐? ( 5 ) 推荐系统以何种形式将推荐信息返回给用户? 东北欠学硕士学位论文 第一章 前言 ( 6 ) 怎样对推荐系统的性能进行评估? 1 . 4本文组织结构 根据上述研究内容, 可将本文的内容分为五章,每一章的具体内容如下: 第一章为 “ 前言”部分。本章主要介绍本文研究j作的课题来源,并通过分析当前推荐 系统和搜索引擎存在的问题引出了本文的研究课题 “ 为用户的个性化需求提供个性化的服 务” ,井对本文围绕 “ 基于 代理结构的w e b 个性化推荐技术” 进行的主要研究 作进行了概况 性的介绍 第二章为“ 背景知识及相关工作” 部分。本章主要介绍针对基于代理结构的个性化推荐 技术进行研究的相关技术背景知识和研究动态,具体内容包括个性化的定义、实现技术和实 现方式; w e b 挖掘与个性化推荐的关系;w e b 挖掘的分类、 特点和具体应用,w e b 使用挖掘相 关技术在个性化推荐中的应用等等: 第三章为 “ 个性化推荐系统结构的 研究”部分。本章首先对传统的个性化推荐系统的分 类方法进行了介绍与分析,然后着重阐述了基于体系结构的个性化推荐系统的分类方法,最 后通过对不同体系结构下 推荐系统特点的 分析,指出了 本文采用基于代理体系结构来研究推 荐系统的原因。 第四章为 “ 基于代理结构的个性化推荐系统的研究与实现”部分。 本章对一个基于代理 结构的个性 化推荐系统 s m a rt w e b的研究与实现过程进行了详细介绍。具体内容包括对推荐 系统总 体结构的介绍, 对推荐系统的离线挖掘子系 统中 涉及w e b 使用挖捆技术的各个部分的 设计与实现细节的阐述以 及对推荐系统的 在线推荐子系统中的各个功能模块的实现过程和它 们如何利用离线挖掘子系统的挖掘结果进行在线推荐进行的详细说明。 第五章为 “ 推荐系统的性能评价”部分。本章从推荐系统的响应时间和推荐效率 ( 包括 推荐准确率和覆盖率) 两方面入手通过对在线推荐子系统的推荐引擎模块的性能进行测试达 到了对本文论述的基于代理结构的个性化推荐系统 s m a r t w e b的性能进行评价的目的,并最 终得出了“ 本s m a rt w e b 推荐系统具有较强的可行性和实用性” 的结论。 第六章为 “ 结束语”部分。本章对本文所做的工作和贡献进行了总结,并指出了进一步 研究工作的方向。 东北欠学硕士学位论文 第一章 前言 ( 6 ) 怎样对推荐系统的性能进行评估? 1 . 4本文组织结构 根据上述研究内容, 可将本文的内容分为五章,每一章的具体内容如下: 第一章为 “ 前言”部分。本章主要介绍本文研究j作的课题来源,并通过分析当前推荐 系统和搜索引擎存在的问题引出了本文的研究课题 “ 为用户的个性化需求提供个性化的服 务” ,井对本文围绕 “ 基于 代理结构的w e b 个性化推荐技术” 进行的主要研究 作进行了概况 性的介绍 第二章为“ 背景知识及相关工作” 部分。本章主要介绍针对基于代理结构的个性化推荐 技术进行研究的相关技术背景知识和研究动态,具体内容包括个性化的定义、实现技术和实 现方式; w e b 挖掘与个性化推荐的关系;w e b 挖掘的分类、 特点和具体应用,w e b 使用挖掘相 关技术在个性化推荐中的应用等等: 第三章为 “ 个性化推荐系统结构的 研究”部分。本章首先对传统的个性化推荐系统的分 类方法进行了介绍与分析,然后着重阐述了基于体系结构的个性化推荐系统的分类方法,最 后通过对不同体系结构下 推荐系统特点的 分析,指出了 本文采用基于代理体系结构来研究推 荐系统的原因。 第四章为 “ 基于代理结构的个性化推荐系统的研究与实现”部分。 本章对一个基于代理 结构的个性 化推荐系统 s m a rt w e b的研究与实现过程进行了详细介绍。具体内容包括对推荐 系统总 体结构的介绍, 对推荐系统的离线挖掘子系 统中 涉及w e b 使用挖捆技术的各个部分的 设计与实现细节的阐述以 及对推荐系统的 在线推荐子系统中的各个功能模块的实现过程和它 们如何利用离线挖掘子系统的挖掘结果进行在线推荐进行的详细说明。 第五章为 “ 推荐系统的性能评价”部分。本章从推荐系统的响应时间和推荐效率 ( 包括 推荐准确率和覆盖率) 两方面入手通过对在线推荐子系统的推荐引擎模块的性能进行测试达 到了对本文论述的基于代理结构的个性化推荐系统 s m a r t w e b的性能进行评价的目的,并最 终得出了“ 本s m a rt w e b 推荐系统具有较强的可行性和实用性” 的结论。 第六章为 “ 结束语”部分。本章对本文所做的工作和贡献进行了总结,并指出了进一步 研究工作的方向。 东北大学硕士学位论文第二幸 背景知识及相关工 作 第二章 背景知识及相关工作 本章将主要针对本文个性化推荐研究所涉及的一些背景知识和相关工作进行概括性的介 绍, 具体内容包括个性化的定义、个性化服务的实现、 w e b 挖掘技术对个性化推荐的支持、 w e b 挖掘的分类、 特点和w e b 使用挖掘相关技术在个性化推荐中的应用等几个方面。 2 . 1个性化的定义 个性化 指的是不同的人 和事物具 有其独有的不同于 其它人和事物的 特征,正是有了 这些 特征的 存在才使事物与事 物、人与人能够相互区别。两个物体可能在材料、 形状、 颜色、功 能等很多 方面存在差异, 每个人在日 常生活中也都能表现出与众不同的特征, 包括性格外貌、 衣着服饰、 饮食习惯以 及兴趣爱好等等方面, 这些都是个性化的具体表现。正因为有了 个性 化, 大千世界才能如此多姿多彩。 而对于 w e b网 站来说, 每一个光顾网站的用 户都有不同的 访问习惯和兴趣,从而表现 出不同的 浏览 行为。 例如:商务网 站的 用户,面对网上 不同的商品广告,对每个广告的 访问 时间 和访问 频度是不同的。 教育网站的用户, 面对不同的 学习内容, 所表现出的学习兴趣和 关 注程度也是不同的。 用户的访问 t是目 前衡煲一个网 站是否成功的主要依据,如果网 站的 网页内容能 够尽可能 地根据用户的浏览兴趣进行动态调整,使得每个用户感觉好像他是该网 站的唯一用户, 那么可以 相信这种具有用户亲和力的网站比 起其它同 类网站更有可能保留并 吸引来更多的用户, 更有可能获得成功。 而为了 实现这一目 标就要求网 络服务的 提供者必须 改变过去 对所有用户提供统一界面、同 样内 容的方式, 针对用户不同的兴 趣、爱好,提供不 同 的服务, 朝着w e b 个性化的 方向努力。 一般来说, w e b 个性化是指w e b 网 站根据发 现的 用户喜好, 动态地为用户定 制观看的内 容或提供 浏览 建 议 d 0 0 , 具体地来说, 就是网 站为 上网的 每个 用户 提供一 对一的 服务 和指导 c d a 0 0 r v 9 7 . 个性 化服 务可以 分为 初级和高级 两种方 式 于。 1 。 初级 方式是由 系统 在网 页上提供选项 ( 如c h e c k b o x ) , 根据用户的选择对网页的形式和内容进行定制。高 级形式则 是系统具有自 主学习 功能,即通过分析用户的 访问 行为,自 动地实现某种程度的个性化。而 后者最直接的实现方式就是当 用户上网 浏览、访问 的时候,由 系统自 动地向 用户推荐相关的 内 容和用户可能感兴趣的页面,为用户导航 l wo 1 , l 0 0 , l l 0 2 , a f k 0 0 . 这种推荐或导航 一 般在服务 器 端实 现, 理论上也可以 在 代理 端 a y 9 7 , w c 0 2 ) 和 客户端实 现 2 . 2 个性化服务的实现 为了实现个性化服务。 首先需要跟踪和学习用户的兴趣和行为,并设计一种合适的表达 东北大学硕士学位论文第二幸 背景知识及相关工 作 第二章 背景知识及相关工作 本章将主要针对本文个性化推荐研究所涉及的一些背景知识和相关工作进行概括性的介 绍, 具体内容包括个性化的定义、个性化服务的实现、 w e b 挖掘技术对个性化推荐的支持、 w e b 挖掘的分类、 特点和w e b 使用挖掘相关技术在个性化推荐中的应用等几个方面。 2 . 1个性化的定义 个性化 指的是不同的人 和事物具 有其独有的不同于 其它人和事物的 特征,正是有了 这些 特征的 存在才使事物与事 物、人与人能够相互区别。两个物体可能在材料、 形状、 颜色、功 能等很多 方面存在差异, 每个人在日 常生活中也都能表现出与众不同的特征, 包括性格外貌、 衣着服饰、 饮食习惯以 及兴趣爱好等等方面, 这些都是个性化的具体表现。正因为有了 个性 化, 大千世界才能如此多姿多彩。 而对于 w e b网 站来说, 每一个光顾网站的用 户都有不同的 访问习惯和兴趣,从而表现 出不同的 浏览 行为。 例如:商务网 站的 用户,面对网上 不同的商品广告,对每个广告的 访问 时间 和访问 频度是不同的。 教育网站的用户, 面对不同的 学习内容, 所表现出的学习兴趣和 关 注程度也是不同的。 用户的访问 t是目 前衡煲一个网 站是否成功的主要依据,如果网 站的 网页内容能 够尽可能 地根据用户的浏览兴趣进行动态调整,使得每个用户感觉好像他是该网 站的唯一用户, 那么可以 相信这种具有用户亲和力的网站比 起其它同 类网站更有可能保留并 吸引来更多的用户, 更有可能获得成功。 而为了 实现这一目 标就要求网 络服务的 提供者必须 改变过去 对所有用户提供统一界面、同 样内 容的方式, 针对用户不同的兴 趣、爱好,提供不 同 的服务, 朝着w e b 个性化的 方向努力。 一般来说, w e b 个性化是指w e b 网 站根据发 现的 用户喜好, 动态地为用户定 制观看的内 容或提供 浏览 建 议 d 0 0 , 具体地来说, 就是网 站为 上网的 每个 用户 提供一 对一的 服务 和指导 c d a 0 0 r v 9 7 . 个性 化服 务可以 分为 初级和高级 两种方 式 于。 1 。 初级 方式是由 系统 在网 页上提供选项 ( 如c h e c k b o x ) , 根据用户的选择对网页的形式和内容进行定制。高 级形式则 是系统具有自 主学习 功能,即通过分析用户的 访问 行为,自 动地实现某种程度的个性化。而 后者最直接的实现方式就是当 用户上网 浏览、访问 的时候,由 系统自 动地向 用户推荐相关的 内 容和用户可能感兴趣的页面,为用户导航 l wo 1 , l 0 0 , l l 0 2 , a f k 0 0 . 这种推荐或导航 一 般在服务 器 端实 现, 理论上也可以 在 代理 端 a y 9 7 , w c 0 2 ) 和 客户端实 现 2 . 2 个性化服务的实现 为了实现个性化服务。 首先需要跟踪和学习用户的兴趣和行为,并设计一种合适的表达 东 北大学 硕士学位论文第二章 背景知识及相关二作 方式。为了 把资源推荐给用户,必须组织好资源, 选取资源的特征,并采用合适的推荐方式。 下面从个性化推荐的实现技术、资 源描述文件的表达、 用户描述文件的表达与更新三个方面 讨论个性化服务的实现。 2 . 2 . 1个性化推荐的实现技术 w e b 个 性化 推荐是上 世纪末 被提出的, 目 前个性化推 荐的 实现 技术可以 分为四 类 a y 0 0 , w m 0 3 1 : 第一 类是 手 工 决 策技 术; 第 二 类是 基于 超链 接 的 技 术; 第 三类 是 基于内 容 的 过 滤 技 术( c o n t e n t b a s e d f i l t e r in g ) : 第四类 是协作 过滤技术 c o l la b o r a t iv e f i lt e r in g ) 。 下 面对这儿项 技术 进行简要介绍。 手工决策技术 手 工决 策 技 术 是由w e b 站点 管 理 员 根 据 用 户 统 计 数、 静 态 个 性 文件或 者 会 话 ( s e s s i o n ) 历 史, 制定若千规则, 推荐系统根据这些规则为特定的用户 提供特定的内容以及网页结构, 例 如, 意火 利 米兰 理t 大学开发的t o r r i 系统 c f p 9 9 1 及其f ir e fl y 等 著名系统, 这 种系统容易实 现,但效率比较低。 超链接技术 采用超链接技术的 推荐系统一般使用图论的 相关算法来发 现给定集合当中最具代表性或 被集合当中其他元素引用最多的元紊。搜索引擎大多就是采用这种技术,其中最著名的系统 当 数g o o g l e 搜索 引 擎。 基于内容的过滤技术 基于内 容的过滤技术利用信息资源与用户兴趣的 相似性来过滤信息, 其优点是简单、有 效, 缺点 是难以区分信息资源内容的质量与形式, 而且只能推荐与用户已有兴 趣相似的信息 资 源, 而不能为用户发现新的感兴趣的信息资源。 基于内容的过滤技术需要根据每个用户的 访问内容建立用户文档,并对网站的内 容 如 商务网 站中的商品、教育网站的课程内容等) 进行分类, 然后当用户访问该网站时, 根据该 用户的访问内 容文档,查找网站中与 该内 容文档匹配或者相似的文档类,根据该文 档类中的 内容向 用户进行推荐。 协作过滤技术 协作过滤技术是利用用户之间兴趣的相似性 来过滤信息, 其优点是能够为用户发现新的 感兴趣的信息, 缺点之一 是在系统使用初期,由于 相关信息资源未获得足够多的评价,系统 很难利用其来发现相似的用户,缺点之二是随着系统信息资源的增多,系统的性能 会越来越 差 r v 9 7 o 东 北大学 硕士学位论文第二章 背景知识及相关二作 方式。为了 把资源推荐给用户,必须组织好资源, 选取资源的特征,并采用合适的推荐方式。 下面从个性化推荐的实现技术、资 源描述文件的表达、 用户描述文件的表达与更新三个方面 讨论个性化服务的实现。 2 . 2 . 1个性化推荐的实现技术 w e b 个 性化 推荐是上 世纪末 被提出的, 目 前个性化推 荐的 实现 技术可以 分为四 类 a y 0 0 , w m 0 3 1 : 第一 类是 手 工 决 策技 术; 第 二 类是 基于 超链 接 的 技 术; 第 三类 是 基于内 容 的 过 滤 技 术( c o n t e n t b a s e d f i l t e r in g ) : 第四类 是协作 过滤技术 c o l la b o r a t iv e f i lt e r in g ) 。 下 面对这儿项 技术 进行简要介绍。 手工决策技术 手 工决 策 技 术 是由w e b 站点 管 理 员 根 据 用 户 统 计 数、 静 态 个 性 文件或 者 会 话 ( s e s s i o n ) 历 史, 制定若千规则, 推荐系统根据这些规则为特定的用户 提供特定的内容以及网页结构, 例 如, 意火 利 米兰 理t 大学开发的t o r r i 系统 c f p 9 9 1 及其f ir e fl y 等 著名系统, 这 种系统容易实 现,但效率比较低。 超链接技术 采用超链接技术的 推荐系统一般使用图论的 相关算法来发 现给定集合当中最具代表性或 被集合当中其他元素引用最多的元紊。搜索引擎大多就是采用这种技术,其中最著名的系统 当 数g o o g l e 搜索 引 擎。 基于内容的过滤技术 基于内 容的过滤技术利用信息资源与用户兴趣的 相似性来过滤信息, 其优点是简单、有 效, 缺点 是难以区分信息资源内容的质量与形式, 而且只能推荐与用户已有兴 趣相似的信息 资 源, 而不能为用户发现新的感兴趣的信息资源。 基于内容的过滤技术需要根据每个用户的 访问内容建立用户文档,并对网站的内 容 如 商务网 站中的商品、教育网站的课程内容等) 进行分类, 然后当用户访问该网站时, 根据该 用户的访问内 容文档,查找网站中与 该内 容文档匹配或者相似的文档类,根据该文 档类中的 内容向 用户进行推荐。 协作过滤技术 协作过滤技术是利用用户之间兴趣的相似性 来过滤信息, 其优点是能够为用户发现新的 感兴趣的信息, 缺点之一 是在系统使用初期,由于 相关信息资源未获得足够多的评价,系统 很难利用其来发现相似的用户,缺点之二是随着系统信息资源的增多,系统的性能 会越来越 差 r v 9 7 o 东北大学 硕士学 位论文第二章 背景知识及相关工 作 协作过滤技术的基础不是当 前用户自 己的访问 历史, 而是许多与之具有相同或相似访问 行为的用户的访问历史,即当用户上网浏览时, 系统根据其他与该用户具有相同或相似访问 模式 ( 习 惯) 的 用户的访问 历史对 该用户 进行 推荐 g 14 0 9 2 , r i s 9 4 , s m 9 5 , r in g o是 应用 这一 技 术的 一个 音乐主 题的 推荐原 型系 统 s m 9 5 o 在r in g o 中, 系统根据 每个用户 对不同 音 乐土 题 的点 击率 ( r a t in g ) 对用 户分 组,同 一 组的 用户 对相同主 题的 音乐具 有相近的点 击率。 与基于内 容的过滤技术相比, 协作过滤技术对于用户行为的分析更加方便,它所分析的 是 用户对于网页或者网页中各项内容的点击率, 而非网页内容本身。点击率的高低可以 代表 用户的喜好一般认为对相同网页内容的点击率相近的用户具有相同或者相似的浏览兴趣和 访问习 惯,即访问 模式,因此可以 根据对网 页内 容的点击率对用户进行分组。当 用户上网访 问时, 根据其访问模式找到与其对应的 组,向 其推荐该组中点击率较高的网页内 容。应用这 一技术进行推荐时, 系统同样需要建立用户访问文 档,但其中存储的是各组用户的访问模式 以 及点击率较高的网 页, 而非某个具体用户的 访问内容。由 于荃于内 容的过滤技术和协作过 滤技术有各自 的 特点,目 前,己有一些推荐系 统探索将二者结合的推荐方式。 2 . 2 .2资 源描述文件 个性化服务系 统 所应用的 领域决 定了 它所处理的 资 源。 a n a t a g o n o m y , s m a r t p u s h t s r 9 9 应用的 领域是报纸; g r o u p l e n s 应用的 领域是u s e n e t 新闻; c i t e s e e r m用的 领域是科技文 档: f ir e f ly 应用 的 领域 是 音 乐 和电 影: a r n a z o n .c o m , e b a y 应 用的 领域是电 子商 务; 还 有 一些 个 性 化服务系统并不面向 特定的领域,它们用于导航、 推荐、 帮助或搜索, 不过它们所处理的资 源不太相同,比 如p e r s o n a l we b wa t c h e r , w e b wa t c h e r , l e t tz i a 处理we b 页与链接: wc b s i f t 处理w e b 访问日志:s it e 5 e e r , p o w e r b o o k m a r k w q d 9 9 处理b o o k m a r k 和相关文档: s y s k il l还有一些处理 e - m a i l k 9 9 等等。目 前, 个性化 服务系统所处理的 资源都属于 文本范畴, f ir e f ly 面向 音乐 和 电影, 其实现方式是通过用户评价喜欢的 音乐家和电影来进行协作过滤, 所以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论