(计算机应用技术专业论文)个性化推荐系统技术与应用.pdf_第1页
(计算机应用技术专业论文)个性化推荐系统技术与应用.pdf_第2页
(计算机应用技术专业论文)个性化推荐系统技术与应用.pdf_第3页
(计算机应用技术专业论文)个性化推荐系统技术与应用.pdf_第4页
(计算机应用技术专业论文)个性化推荐系统技术与应用.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)个性化推荐系统技术与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着互联网技术的应用普及 现代电子商务的迅猛发展 充斥在网络上的资 源数量呈指数增长的趋势 海量的信息同时呈现在用户面前 从而出现了所谓的 信息爆炸 和 信息过载 现象 个性化推荐系统在这样的背景下应运而生 在过去的二十年里 个性化推荐技术得到了长足的发展 已经成为当前解决信息 过载最有效的工具之一 然而就目前而言 个性化推荐技术和系统的研究还停留 在初步阶段 远没有达到完善的地步 仍然存在很多问题亟待解决 本文根据推荐算法的不同 分别介绍了基于规则的推荐系统 基于内容的推 荐系统 基丁协同过滤的推荐系统以及混合推荐系统 在此基础上 本文简要地 分析了传统的基于用户的协同过滤技术和传统的基于关联规则的推荐技术各自 存在的一些缺陷 并分别提出了相关的解决方案 本文的主要研究内容如下 1 简要叫顾了推荐系统产生的背景 研究现状以及相关的儿种常见推荐算 法 2 简要分析了传统的基于用户的协同过滤算法所存在数据稀疏性问题和 冷启动问题 并针对该问题提出一种基于用户兴趣传播的协同过滤算法 u s e r i n t e r e s t st r a n s m i s s i o n u r r 该算法在用户兴趣维度上计算用户之间的相似性 同时考虑了兴趣在不同用户间的传播 在数据比较稀疏的情况下 u i t 算法通过 用户兴趣的传播使计算得到的用户相似性结果更加准确 在一定程度上缓解了数 据高维度和稀疏性问题 3 针对传统的基于关联规则的推荐系统不考虑用户社会性所带来的 些 问题 本义提出并设计了一个基于共性群组关联分析的个性化推荐系统 首先根 据系统用户之间的兴趣行为相似性构建用户偏好关系网络 进而通过在用户偏好 关系网络中进行社凼挖掘 得到多个代表不同兴趣的共性群组 然后在各个共性 群组中挖掘频繁项集以获得相关的共性群组规则库 最后通过匹配用户历史行为 与所在共性群组规则库的频繁项集来对群组成员提供个性化推荐服务 关键词 推荐系统用户兴趣传播关联规则火性群组个性化服务 a b s t r a c t w i t ht h ep o p u l a r i t yo fi n t e r n e ta n dr a p i dd e v e l o p m e n to fe c o m m e r c e t h ew e b r e s o u r c e si n c r e a s ee x p o n e n t i a l l y d u et ot h eh u g ea m o u n to fl e s o u r c e s t h e p h e n o m e n o no ft i n f o r m a t i o ne x p l o s i o n a n d i n f o r m a t i o no v e r l o a d a r i s e s u n d e r t h i sb a c k g r o u n dp e r s o n a l i z e dr e c o m m e n d e rs y s t e m sw e r ep r o p o s e da n db e c o m ea h o ti e s e a r c ht o p i c i nt h ep a s tt w e n t yy e a r s s i g n i f i c a n tp r o g r e s s e sh a v eb e e nm a d ei n 沁o m m e n d e rs y s t e m s h o w e v e r t h er e s e a r c h o n p e r s o n a l i z e d r e c o m m e n d e r t c c l l l l 0 1 0 9 ya n ds y s t e m ss t i l lr e m a i n sa ta l li n i t i a ls t a g e a n dal o to f p r o b l e m sn e e dt o b es o l v e d a c c o r d i n gt 0 t h ed i f f e r e n c e so fr e c o m m e n d a t i o na l g o r i t h m s t h i s t h e s i s i n t r o d u c e sf o wk i n d so fr e c o m m e n d e rs y s t e m s r u l e b a s e dr e c o m m e n d e rs y s t e m s c o n t e n t b a s e dr e c o m m e n d e rs y s t e m s c o l l a b o r a t i v ef i l t e r i n gb a s e dr e c o m m e n d e r s y s t e m s a n dh y b r i dr e c o m m e n d e r s y s t e m s t h em a i nr e s e a r c hw o r k s o ft h i st h e s i sa f e a sf o l l o w s f1 g i v e sab r i e fr e v i e wo f t h er e s e a r c ho fr e c o m m e n d e rs y s t e m s a n df o u rk i n d s o fr e c o m m e n d a t i o na l g o r i t h m s 2 a n a l y z e st h es p a r s i t ya n dc o l ds t a r tp r o b l e mi n t h et r a d i t i o n a lu s e r b a s e d c o l l a l o r a t i v ef i l t e r i n ga l g o r i t h m t h e np r o p o s e san o v e l c o l l a b o r a t i v ef i l t e r i n gm e t h o d b a s e do nu s e ri n t e r e s t st r a n s m i s s i o n u i t t h i sm e t h o dc o m p u t e su s e rs i m i l a r i t i e sm t h ed i m e n s i o no fi n t e r e s t s a n dc o n s i d e r st h ei n t e r e s t st r a n s m i s s i o nb e t w e e n d i f f e r e n t u s e r s t os o m ee x t e n t t h i sm e t h o dc a nn o to n l yc o p ew i t ht h eh i g hd i m e n s i o n a l i t ya n d s p a r s ed a t ap r o b l e m s b u ta l s oh a v eh i g h e rp r e c i s i o n 3 p r o p o s e sa n dd e s i g n sa ni m p r o v e d a s s o c i a t i o nr u l e b a s e dr e c o m m e n d e rs y s t e m b yd i v i d i n ga 1 1u s e r si n t od i f f e r e n ti n t e r e s tg r o u p s f i r s t b u i l d st h e u s e r s n e t w o r k a c c o r d i n gt os i m i l a r i t yb e t w e e nu s e r sb e h a v i o ra n di n t e r e s t s s e c o n d d i s c o v e r s c o m m u n i t i e so nt h ec o n s t r u c t e dn e t w o r kt og e tan u m b e ro fg r o u p sr e p r e s e n t l n g d i 腩r e n ti l l t e r e s t s t h e n m i n e sf r e q u e n ti t e m s e t s i ne a c hg r o u pt oo b t a i nr u l e s b e l o n g i n gt od i f f e r e n tg r o u p s a tl a s t p r o v i d e sp e r s o n a l i z e d s e r v i c et ou s e 娼b y m a t c m n gt h eh i s t o r i c a lb e h a v i o ro ft h et a r g e tu s e ra n df r e q u e n ti t e m s e t so f t h er e l a t e d g r o u p k e yw o r d s r e c o m m e n d e rs y s t e m u s e r i n t e r e s t st r a n s m i s s i o n a s s o c i a t i o nr u l e i n t e r e s tg r o u p s c o l l a b o r a t i v ef i l t e r i n g 励耖 f 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文 是本人在导师指导下进行研究工作所取得的成 果 除已特另 j d n 以标注和致谢的地方外 论文中不包含任何他人已经发表或撰写 过的研究成果 与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明 作者签名 磁 签字日期 竺生 丝 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一 学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权 即 学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版 允许论文被查阅和借阅 可以将学位论文编入 中国学 位论文伞文数据库 等有关数据库进行检索 可以采用影印 缩印或扫描等复制 手段保存 汇编学位论文 本人提交的电子文档的内容和纸质论文的内容栩一 致 保密的学位论文在解密后也遵守此规定 引币放幺 陟肚 导师签名 二 签字日期 堡 望 第1 章绪论 1 1 研究背景与意义 第1 章绪论 随着互联网技术的应用普及和现代电子商务的迅猛发展 充斥在网络中的资 源数量呈指数增长的态势 海量的信息同时呈现片j 户面前 使得用户感觉无所适 从 很难从中找到自己真正感兴趣的资源 从而出现了所谓的 信息爆炸 和 信 息过载 问题 在信息化的今天 用户经常使用搜索引擎来寻找自己所需要的资 源 然而传统的搜索引擎技术没有考虑用户的特性 将所有用户等同处理 返回 给用户一样的资源序列 而且反馈的信息量非常大 不能从根本上帮助用户解决 这个问题 刘建国等 2 0 0 8 因此 如何根据每个用户的偏好特性从互联网海 量信息中寻找满足用户需求的信息 进而推荐给用户 已经成为业内研究人员越 来越关注的问题 个性化推荐系统 a d o m a v i c i u se ta l 2 0 0 5 r e s n i c kc ta l 1 9 9 7 就是在这种背 景下诞生的 它能够根据用户的兴趣特征 从互联网的海量信息中挖掘用户可能 感兴趣或需要的资源 并对用户做m 相应的推荐 推荐问题实质上就是通过分析 用户已选择的资源 包括音乐 电影 书籍 网页 饭店 旅游景点等等 来预测 片j 户对未选择资源的喜欢程度 并将预测的结果以某种有效的形式展现给用户 比如将预测值较高的资源推荐给用户 近年来我国的各人i t 公司非常荤视个性化推荐系统方面的研发上作 华为 公司针对传统的移动广告存在的众多弊端 如 垃圾广告深受用户反感 群发广 告成本高 难以实现大面秋宣传等 与中国科学技术大学计算机学院语义计算 和数据挖掘实验章展开合作 联合提出了一个基于社会网络的快速关联规则挖掘 算法 并将此算法应用到了个性化广告推荐系统中 该推荐系统可以根据用户特 定的兴趣和喜好特征 向用户推荐其可能感兴趣的j 告 从而尽可能地避免用户 对广告的反感 同时提高广告受众的针 对性 减少不必要宣传削减广告成本 在 此丁作基础上 二者就 相关项推荐方法和装置 及 群组推荐方法和系统 联 合申请了相关专利两项 另外 阿里巴巴数据仓库部门成立了阿里巴巴个性化推荐系统团队 该团队 自丰研发的针对b 2 b 电子商务定制的个性化推荐系统已经在阿里巴巴网站得到 了多处应用 并受到业务部门的 泛好评 为了使该系统能够在实践中不断完善 和创新 为客户带来更好的用户体验 促进阿里巴巴电子商务b 2 b 平台的建设 为社会创造更大的价值 阿里巴巴个性化推荐系统团队与中国科学技术大学计算 第l 章绪论 机学院语义计算和数据挖掘实验室展开多项课题合作 包括 推荐算法的探索性 研发 时间相关模式在推荐系统中的使用 s p u s t a n d a r dp r o d u c tu n i t 标准产品 单元 的自动处理等等 个性化推荐系统是互联网技术和现代电子商务发展的产物 研究个性化推荐 技术与系统具有非常重要的理论和实际意义 在理论研究方面 个性化推荐技术和系统的研究具有较高的学术价值 自 二 个世纪9 0 年代以来 个性化推荐技术与系统受到了国内外研究人员的广泛关注 并逐渐应用到各个行业 然而传统个性化推荐技术还存在一些难以克服的缺点 如评分数据的稀疏性 预测结果的精确性 推荐的实时性以及算法扩展性等等 s a r w a rbm 2 0 0 1 这些问题严重影响了推荐系统的性能 已经成为国内外 学者的研究焦点 一个比较典型的例子就是n e t f l i x 开出1 0 0 万美元的高额奖金 奖励给能把他们网站的产品推荐准确度提高1 0 的人 在实际应用方面 随着互联网技术和现代电子商务的快速发展 个性化推荐 技术的研究具有实践方面的需求 信息时代的到来改变了人们的牛活方式 越来 越多的用户需要而日 习惯于从互联网中来获取感兴趣的信息或从电子商务网站 中购买需要的商品 b a d r u le ta l 2 0 0 0 但同时网络上的信息量每天都在快速 增长 用户很难在短时间内寻找到自己感兴趣的信息 这使得j j 户对个性化服务 产生了迫切的需求 从企业方面来说 个性化推荐系统对企业的贡献也是不可忽 视的 它不仅可以增加网站的交叉销售能力 从而提高企业销售额 而且 通过 向用户提供舒心的个性化服务 还能提高网站用户的忠诚度 s c h a f e re ta l 2 0 0 1 a c mc o n f e r e n c e 的调查报表指出 亚马逊很早就意识到推荐系统能存电子商务 上发挥的巨大作用 目前亚马逊3 5 的销售直接来自其推荐系统 c h o i c e s t r e a m 的调查显示 4 5 的用户更喜欢到有产品推荐功能的网站上去购物 而在过去6 个月里花费了 1 0 0 0 以上购买商品的用户里 这个数宁提高到了6 9 同一个 调查显示 4 l 的用户更加关注符合他们口味的个性化广告 1 2 国内外研究现状 个性化推荐系统研究直到2 0 世纪9 0 年代才被作为 个独立的概念提出米 r e s n i c ke ta l 1 9 9 4 随着w e b 2 0 技术的同益成熟和电子商务的发展 推荐 系统逐渐成为一项重要的研究内容 得到越来越多国内外学者的关注 a c m 的 数据挖掘小组s i g k d d 早在1 9 9 9 年就设立了以网页挖掘技术和推荐技术为主题 的w e b k d d 研讨组 同年召开的人机界面会议c h i 9 9 也设立了特别兴趣小组 片 以促进个性化推荐技术的发展 近年来 我们国家的专家学者也越来越重视个 2 第1 章绪论 性化推荐系统方面的研究工作 对推荐系统的发展起到了积极的促进作用 周涛 等人通过将用户 项目表示成一个二部分图来建立用户 项目的关联关系 进而提 出了一个基于网络结构的个性化推荐方法 z h o u e la l 2 0 0 7 在个性化推荐系统技术研究逐渐成为学术界的一个热点的同时 也出现了许 多著名的大型推荐系统实例 如a m a z o n c a m 最大的网上书店 它记录了所有 用户的商品购买和网页浏览情况 然后对这些记录的分析 产生目标用户的推荐 列表 l i n d e ne la l 2 0 0 3 e b a y 当前最人的网络交易平台 它使用用户反馈 模型机制来促进买卖双方的交易 反馈包括一个满意度的评分以及关于其他客户 的相关评述 系统根据反馈信息向用户提供推荐 m o v i e l e n s 电影推荐系统 它在为用户提供个性化服务之前要求用户至少对其中1 5 部电影进行评分 系统 通过用户的评分情况 寻找与目标用户相似性程度较高的邻居用户 然后根据这 些邻居用户的评分信息 来产生对目标用户的推荐 r i n g o 音乐推荐系统 它 可以预测目标用户对所有音乐的评分值情况 并将评分值较高的音乐推荐给用户 s h a r d a n a n de ta 1 2 0 0 3 根据推荐算法的不i 司 当前已有的个性化推荐系统大致可以分为以下几类 基于规则 r u l e b a s e d 的推荐系统 基于内容 c o n t e n t b a s e d 的推荐系统 协同过滤 c o l l a b o r a t i v ef i l t e r i n g 系统 新兴的基于用户 产品二部图网络结构 n e t w o r k b a s e d 的推荐系统 以及混合式 h y b r i d 推荐系统 协i 司过滤系统 是目前应用最为广泛的个性化推荐系统 其核心思想可以分为i 部分 首先 利 用用户的历史行为信息计算用户之间的相似性 然后 利用与同标用户相似性程 度较高的邻居用户对其它产品的评分信息来预测目标用户对特定产品的喜好程 度 最后系统根据这一喜好程度来对目标用户产生个性化推荐 1 3 本文研究内容与结构安排 基于1 1 节所述的课题背景 本文的研究工作主要集中在以下三个方面 1 深入研究了个性推荐系统中常见的几类推荐算法的关键技术 并对各类 算法的优缺点进行了简要分析 2 针对传统的协同过滤推荐技术所面临的两个主要问题 数据的高维稀疏 和冷启动问题 提出了一种新颖的协同过滤改进算法一基于用户兴趣传播的协 同过滤方法 该方法在兴趣维度计算用户相似度 同时考虑了兴趣在不同用户间 的传播 实验证明该方法不仅能够有效地防止数据稀疏性和冷启动问题 而且具 有更高的预测准确度 3 针对传统的基十关联规则的推荐系统不考虑用户社会性所带来一些问 第1 章绪论 题 提出并设计了一个基于共性群组关联分析的个性化推荐系统 该系统首先根 据系统用户之间的兴趣行为特征相似性构建用户偏好网络 接着通过在用户偏好 关系网络中进行社凼挖掘 得到多个代表不同兴趣的共性群组 然后在各个共性 群组中挖掘频繁项集以获得相关的共性群组规则库 最后通过匹配用户历史行为 与所在共性群组规则库的频繁项集来对群组成员提供个性化服务 本文的研究工作共分为以下五章 第一章 绪论 简要介绍了推荐系统的研究背景及意义 大致阐述了国内外 研究现状 最后给出了本文的研究内容与结构安排 夺第二章 个性化推荐系统及相关技术概述 简要介绍了推荐系统的定义 一 般描述 以及常见的儿种推荐技术 并阐述了推荐算法几种的评价标准 第三章 提出了一种基于用户兴趣传播的协同过滤方法 以缓解传统协同过 滤方法中的商维度和数据稀疏性问题 夺第四章 提出并设计了一个基于共性群组关联分析的个性化推荐系统 该系 统克服了传统基于关联规则的推荐系统所存在的一些不足 第五章 总结与工作展望 总结了全文 并对进 步的研究工作进行了展望 4 第2 章个性化推荐系统概述及其相关技术 第2 章个性化推荐系统及相关技术概述 个性化推荐系统是为缓解信息过载问题而产生的一种信息服务技术 它根据 用户历史行为信息来构建用户兴趣模犁并通过该模型向用户推荐其可能感兴趣 的信息 作为信息服务最有力的一种手段 推荐系统被广泛应用于电子商务 广 告推送 电影推荐等包含海量信息并需要提供个性化服务的应用领域 本章将简 要介绍个性化推荐系统的一般描述 组成结构 关键技术以及常见的几种推荐算 法 2 1 引言 传统的推荐系统定义为 推荐系统通过收集用户信息获取用户个人兴趣 根 据推荐算法 对用户进行产品推荐 a d m o m a v i c i u se ta l 2 0 0 5 与搜索引擎不 同的是 推荐系统不需要用户主动地对其感兴趣的资源进行描述 而是通过显式 或隐式的方式来收集用户的历史行为信 g t 包括网站访问 购买行为 评分信息 等等 进而利用这些历史信息来构建用户的兴趣模型 并根据该模型寻找用户 可能感兴趣的信息以进行推荐 一般来说 个性化推荐问题可以简化为预测目标 用户对未评分资源的评分情况问题 一旦系统可以基于目标用户已有评分信息来 预测用户对未评分资源的评分情况 就可以向该用户推荐那些评分值较高的资 源 a d m o m a v i c i u s 等人 2 0 0 5 指出 推荐问题可以形式化地描述为 用c 表 示推荐系统中所有用户的集合 s 表示表示系统中所有资源项目 如商品 书籍 电影 旅馆等 的集合 设定一个效用函数矽 c s 9 r 其中r 为一给定评分 区间的有序集合 可以使用该效用函数来衡旱 特定资源项目s s 对特定用户 c c 的效用性 对于系统的任意用户c c 推荐的任务就是选出特定资源项 s s 使得该用户的效用函数够达到最大 即有 v c c s a r g m 建 妒 c s 2 1 5 o 在基于评分的推荐系统中 经常使用用户对资源项目的评分值来表示资源项 目对用户的效用值大小 评分值的大小反映了用户对该资源项的喜好程度 例如 在一个评分值区间为 l l o 的推荐系统中 用户j o h n 对电影 阿郎的故事 的评 分值为9 而对 十面埋伏 只评4 分 则表示j o h n 非常喜欢 阿郎的故事 这部电影 而不大喜欢 十面埋伏 根据不同的应用场景 效用函数 p 可来源 第2 章个性化推荐系统概述及其相关技术 于用户的定制信息 如用户主动向系统提供自己的评分信息 也可以使用系统计 算出来的评分预测值 可以用一个描述文件来定义用户集合c 中的每个元素 该描述文件记录了用 户的性别 年龄 婚姻状况 收入 学历等多项特征 同样地 资源项目集合s 中的每个元素也可以用一个项目特征集合来表示 例如 在电影推荐系统中 s 为一电影集合 每部电影可以用电影i d 电影类型 导演 主演 发行年月等 一系列特征来描述 在推荐系统中 效用函数伊并没有在整个c x s 空间上进行定义 而只是给 出了其在该空间的某个子集上的定义 因此 推荐系统的核心任务就是把妒扩展 到整个c x s 空间上 对于基于评分的推荐系统来说 效用函数驴初始时只在那 些已经拥有评分的片j 户 项目对上有定义 例如 在电影推荐系统m o v i e l e n s o r g 上 新用户注册时 需要提供其若干已经看过的电影的评分值 表2 一l 给出了一 个用户一电影评分矩阵 其中评分值位于区问 l 1 0 之问 0 表示用户还未给相应 的电影进行评分 因此 该推荐系统的任务是预测未评分电影的评分值 并根据 预测结果米 虹生相应的推荐电影 表2 1 1电影推荐系统评分矩阵片段 无极 变形金刚 阿郎的故事 哈利波特 张磊 4098 李明o08o 林 l q lj 5008 杨杰 3760 可以用来预测推荐系统中未评分资源项目的评分值的方法有很多 比较典型 的有机器学习 启发式方法和近似理论等 下一节将根据预测方法的不同来对推 荐系统进行分类 2 2 常用推荐算法 推荐算法是推荐系统的核心 是其最重要的组成部分 根据推荐算法的不同 常见的推荐系统可以分为基于规则的推荐系统 基于内容的推荐系统 基于协同 过滤的推荐系统以及混合型推荐系统 本小节将逐步介绍这几种推荐算法的关键 技术 并对它们的优缺点情况进行简要分析 6 第2 章个性化推荐系统概述及其相关技术 2 2 1 基于规则 r u l e b a s e d 的推荐系统 关联规则作为数据挖掘领域内的一项重要技术 已经被广泛应用于电子商务 推荐系统中 它通过挖掘用户交易数据库来产生用户的购买模式 然后结合用户 的历史购买行为 产生对目标用户的推荐列表 主要用于实现交叉销售 b a m s h a d e ta l d y e r o w v n 1 9 9 9 s a n d v i ge ta l 2 0 0 7 w e s l e ye ta l 2 0 0 1 2 0 0 1 关联规则 的一个典型例子是购物篮分析 即分析用户在每次购买行为中所购买商品之间的 内在联系 发现那些经常被同时购买的商品 从而帮助电子商务网站在用户下订 单和付款时向其推荐相关商品 对于基于关联j i 则的推荐系统来说 其作用机理就是 首先统计得到挖掘出 的规则前件 然后针对目标客户的历史购买行为 向该客户推荐规则后件 具体 的算法流程如图2 1 所示 d y e r o w e n 1 9 9 9 基于关联规则的推荐算法 s t e p l 使用关联规则挖掘算法 找出所有满足最小支持度和最小置信度的关 联规则 并存入规则库r 中 s t e p 2 对每个当前客户c 设置一个候选推荐集合只 并初始化为空 搜索规则库r 找出被客户c 支持的所有关联规则集合见 即关联规 则左部的所有商品出现在客户c 的历史购买行为记录中 将出现在集合r 中任一规则右部的商品加入候选推荐集 从候选推荐集尸 中删除用户已购买过的商品 根据关联规则集合r 的置信度对候选推荐集尸 所有候选项从大n d 进行排序 如果一个商品出现在多条规则中 则选择置信度最高的 规则作为排序标准 从候选推荐集只选择置信度最高的前 个项作为推荐结果返回给客 户c 图2 1 基于关联规则的推荐系统算法 就上述算法而言 第一步中的关联规则的挖掘比较耗费时间 在一定程度上 成为了算法的瓶颈 当前已经存在很多关联规则挖掘算法 比较著名的有a p r i o r i 算法 f p g r o w t h 算法 d h p 算法等 基于关联规则的推荐算法 其优点是 容易理解 研究技术较为成熟 有广 泛的研究基础 另外实现的软件 技术人员等也比较丰富 所以实践建设条件比 较好 但另一方面 关联j i i 则应用于推荐系统时 也存在一些缺点 7 第2 章个性化推荐系统概述及其相关技术 1 由于用户事务数据规模庞大 因此在模型建立阶段 即挖掘关联规则以 产生规则库 需要耗费大量的时间 一种解决的方法是提前在离线阶段完成系统 模型的建立 挖掘关联规则 并将得到的规则加以存储备用 2 数据的前期预处理工作非常繁杂 典型的 数据预处理的一个必要步骤 是 数据清洗 即消除系统中的噪音数据和不相关数据 同时将各种异构数据 转换成标准数据格式 由于异构数据的多样性 前期的预处理往往比较繁杂 时 常需要人工进行分析 实施格式转换等工作 3 鉴于上述种种耗时的复杂 t 作 基于关联规则的推荐系统经常无法进行 快速反应的实时推荐 即使可以提前在离线阶段完成关联规则的模型建立 当新 数据来临时 也难以经常修改模型 进行规则库的更新 所以推荐的准确性 虑 变度不好 2 2 2 基于内容 c o n t e n t b a s e d 的推荐系统 基于内容的推荐系统通过分析系统用户已经评价过的资源项目的特征来获 取对用户兴趣的描述 通过比较用户与资源项日之间的相似性来实现推荐的功 能 它不是根据用广对资源项目的评分信息 而是根据用户已经选择了的项目的 内容信息来进行相应的推荐 a d o m a v i c i u s 2 0 0 5 基于内容的推荐系统首先为系统用户和资源项目分别建立一个描述文什 然 后根据用户已选择的项目的描述文件 来更新用户的描述文件 用 的描述文件 通常记录了用户的兴趣 爱好 需求等非常个性化的信息 这些信息可通过系统 显式或隐式地跟踪用户行为来获取 在定制了用户描述文件后 系统比较用户兴 趣与资源项目的描述文件的相似性 然后选择相似性程度较高的资源项目推荐给 用户 例如 在基于内容的电影推荐系统中 系统首先分析和提取用户已经评分 过的且评分值较高的电影的共性 如电影风格 丰演 产地 导演等 然后将 这些共性与其它电影的特征进行比较 最后将相似性程度较高的电影推荐给该用 户 得益于信息检索 i n f o r m a t i o nr e t r i e v a l 和信息过滤 i n f o r m a t i o nf i l t e r i n g 方面的出色研究 b e l k e n c r o f t 1 9 9 2 r i c a r d o b e r t h i e r 1 9 9 9 当前已经出 现了很多基于内容的推荐系统 比较典型的有u n e s e t 新闻系统 k o n s t a ne ta l 1 9 9 7 f a b 网页推荐系统 b a l a b a n o v i ce ta 1 1 9 9 7 等 建立资源项目s 的描述文件c o n t e n t s 也就足一些用来描述项目j 特性的 词组集合 通常可使用特征抽取的方法从项目s 的特征描述中获取得到 c o n t e n t s 一般来说 可以制定一些关键词来表示系统资源项日的特征 这样 任何一个项目s 都可以表示成一些关键词的集合 即有 c o n t e n t s 嵋 嵋 l w w i 其中咝 f 1s i k 表示第 个关键词的权重 第2 章个性化推荐系统概述及其相关技术 即其对资源项目s 的重要程度 权值w 的计算方法有很多种 其中最著名的就表征文本特征的印一i d f t e r m f r e q u e n c y i n v e r s ed o c u m e n t f r e q u e n c y 方法 s a l t o n 1 9 8 9 这种方法的 形式化定义为 假定系统中含有 个文本文件 关键词k 在n 个文本文件中出 现 k 在文本文件d 中出现的次数为 则k 在文本d 中的词频觋可以定义 为 f 卵口 告 2 2 m a x j 牙 其巾 分母的最大值可以通过计算文件d 中所有关键词k 的频率得到 然 而 在众多文件同时出现的关键词对于表述文件的特性以及区分文件的关联性的 贡献度都是很低的 因此需要将珥 与该关键讧j 在文本中出现次数的逆 肼 结合起来使用 其中 仞f 定义为 皿 f l o g 二 2 3 刀i 那么 关键词k 在文本d 中的砑一i d f 可以定义为 w t f xi d f t q q 基于内容的推荐系统推荐与目标用户以往选择的资源项目最为相似的项日 即将未选择的资源项目与用户已经选择的项目进行相似性的对比 进而向用户推 荐匹配程度较高的项日 或者直接向用户推荐与其描述文件最为相似的项同 同 定义资源项目的描述文件一样 可以使用向量 k 比 2 w c 来定义用户c 的描 述文件u s e r p r o f i l e c 其巾每个分量比 表示关键词岛对用户c 的重要程度 因 此推荐系统中的用户和资源项目都可以使用t f i d f 公式表述成w 和叱 此时 系统的效用函数定义为 烈gs s c o r e u s e rp ro f i l e c c o n t e n t s 2 5 由上述 u s e r p r o f i l e c 和c o n t e n t s 都可以表示成关键词的权值向量 设为 万和瓦 则效用函数利用c o s i n e 相似性计算方法为 如 文瓦而2 旃 矗惫亿6 其中 k 为系统中的所有关键词总数 除了传统的信息榆索和信息过滤方法外 还可以将b a y e s 分类 决策树 聚 类分析 人工神经网络等机器学习的方法应用到推荐系统 c h i e ne ta l 1 9 9 9 g e t o o r e ta l 1 9 9 9 y he ta l 2 0 0 2 与信息检索和信息过滤方法不同 这些算法 9 第2 章个性化推荐系统概述及其相关技术 并非基于一个效用函数来进行推荐 而是利用机器学习和统计学习方面的技术通 过分析系统已有的数据来建立系统模型 进而基于该模型对用户进行推荐 在基于内容的推荐系统中 最核心的问题之一是如何构建和更新用户描述文 件 这也足当前国内外学者的研究焦点 例如 s o m l o h o w e 2 0 0 1 以及z h a n g 2 0 0 2 等人提出可以利用自适应过滤技术来对用户描述文件进行更新 该方法 的基本思路为 首先 收集用户的喜好信息 构建用户描述文件 把每个用户的 兴趣点都划分到若干个个主题文件 然后将w e b 文件流中的文本内容依次跟目 标用户的书题文件进行比较 最后将相似性程度较高的w e b 文件推荐给用户并 同步更新用户的描述义件 更早地 r o b e r t s o n 和w a l k e r 2 0 0 0 及z h a n g 2 0 0 1 等人提出了一种设定最佳匹配度阈值的算法 其核心思想是 首先 在用户描述 文件中建立一些主题文件用于表示用户的兴趣点 然后 系统根据系统已存在的 数据与用户描述文件的市几似性程度的概率分布来确定 个最佳匹配度阈值 这样 系统就可以很方便地区分一个资源项目是否与用户的描述文件相关 只有那些与 用户描述文件相似性程度大于前述最佳匹配阈值的资源项目才能影响用户描述 文件的更新 实验证明 该方法可以存提高算法精确性的同时 极大地提高系统 的运行效率 基于内容的推荐系统不需要使用系统用户的评分信息 而只需要获取用户和 资源项目的描述文件 凶此它具有如下几个优点 通过使用用户和商品的描述文 件 可以较好地解决冷启动问题 由于不需要用户的评分数据 因此可以较好地 缓解系统评分数据稀疏性的问题 日j 以发现隐藏的 暗信息 从而推荐新出现 的资源项目和非流行的项目 通过列出推荐项目的内容特征 可以较好地解释推 荐该项目的理由 使有该系统具有较好的用户体验 然而 基丁 内容的推荐系统由于受剑信息检索技术的约束 也具有一些难以 克服的缺点 1 特征提取的能力有限 通常只能对资源进行简单的特征提取 对于多媒 体 图形 视频 音乐等 等数据 缺乏有效的特征提取方法 2 推荐的资源范围过于狭窄 这是由于系统总是尽可能向用户推荐与其描 述文件最符合的资源项目 因此往往无法发现用户描述文件以外的潜在兴趣 2 2 3 基于协同过滤 c o l l a b o r a t i v ef i l t e r i n g 的推荐系统 协同过滤是目前研究最多 应用最为广泛的个性化推荐技术 其核心思想是 首先 基于系统巾的已有评分数据 计算给定用户 或项目 之间的相似性 然 后根据计算得到的相似性 寻找与目标用户 或项目 的最近邻居集合 最后使 j h j 最近邻居集合中的用户 或项目 的评分情况来预测目标用户对目标项目的评 1 0 第2 章个性化推荐系统概述及其相关技术 分值 以此来产生对目标用户的推荐 其基本原理如图2 2 所示 一 标项气 t i n i b 目标用户 黧 参麓 誊超 气 e 燮戮 i o 鬻 燃鍪i 譬 燮 鬻 入 湃分衰 协同过滤算法 刮躲畴胪舳辆 刮黧三翟三 输出形式 图2 2 协同过滤系统推荐流程 本小节将重点介绍协同过滤的两个基本算法 基丁用户 u s e r b a s e d 的协 同过滤算法和基于项目 i t e m b a s e d 的协同过滤算法 其中 u s e r b a s e d 协同 过滤是出现最早 也是在实际生活r f l 应用最广泛的推荐技术 它以用户 项目评 分矩阵中的行 用户 为基础来计算用户之问的相似性 相反 i t e m b a s e d 协同 过滤技术则是以用户 项目评分矩阵中的列 项目 为基础来计算项目之间的相 似性 这两个算法的共i 司点在于二者都基于用广 项目评分矩阵米建立推荐系统 模型 进而为用户提供个性化推荐服务的 1 基于用户 u s e r b a s e d 的协同过滤 基于用户的协同过滤方法 a h n 2 0 0 8 d e l g a d oe ta l 1 9 9 9 h e r l o c k e re ta l 1 9 9 7 k o n s t a ne ta l 1 9 9 7 r e s n i c ke ta l 1 9 9 4 s a r w a re ta l 2 0 0 0 也被称为最近邻 协同过滤法或k n n k n e a r e s t n e i g h b o r k 最近邻 算法 其核心思想可以分 为三部分 首先 使用用户的已有评分信息来计算用户之间的相似性 然后 寻 找与目标用户的相似性程度较高的用户加入其最近邻居集 进而利用最近邻居集 中的用户评分信息来预测目标用户对末评分项目的喜好程度 最后系统根据这一 预测情况来产生目标用户的推荐列表 一般来说 基于用户的协同过滤算法可以 分为三个阶段 表示 r e p r e s e n t a t i o n 最近邻居集构建 n e i g h b o r h o o df o r m a t i o n 推荐生成 r e c o m m e n d a t i o ng e n e r a t i o n 1 表示 如表2 2 所示 可以用一个m n 阶矩阵r m 刀 来表示用户对资源项日的评 分信息 其中朋行表示系统中的聊个用户 l 列表示系统中的 个资源项目 r 表示用户f 对项目 的评分值 称该矩阵为用户 项目评分矩阵 评分值可以使用 2 进制的0 和l 来表示特定用户对相应项同的偏好情况 喜欢 不喜欢 或购买状 态 已购买 未购买 也可以使用某个评分值区间来表示用户对项目的喜好程 度 如 m o v i e l e n s 中用户对电影的评分情况为0 到5 之间的整数 0 表示用户 第2 章个性化推荐系统概述及其相关技术 对该电影没有评分 l 到5 则表示用户对该电影的喜欢程度 算法的目标是通 过预测目标用户对未评分项目的评分值来决定应该将哪些项目推荐给目标用户 表2 2 用户一项目评分矩阵r i t 锄 l l1 2 乃 厶 u s e r r l lr 1 2 r l j r 砌 踢r 2 l r 2 2 r 2 j r 2 n ur i r i 2嘞r i r m 足以 r m y 2 最近邻居集构建 计算用户的最近邻居集合 n e a r e s t n e i g h b o r 是基于用户协同过滤算法的最 关键步骤 对目标用户c 算法寻找与其相似性程度最高的k 个用户 以此形成 该用户的最近邻居集合n c c i 乞 c c 硭n c hn c 中的用户c k 根据其 与用户c 之问的相似性s i m c k c o ksk 由大到小进行排列 般s i m q c 的 取值范围为 1 l s i m c k c 越接近1 表示用户q 和c 之间的相似性程度越高 s i m c k c 越接近一l 表示用户c 和c 具有相反的兴趣爱好 s i m c k c 0 则表示表 示用户c 和c 之问相似性程度为0 在u s e r b a s e d 推荐算法巾 用来度量用户之间的相似性的方法有很多 最常 见的有三种 p e a r s o n 相关系数 a d o m a v i c i u se ta l 2 0 0 5 a h n 2 0 0 8 r e s n i c ke ta l 19 9 4 余弦棚似性 a d o m a v i c i u se ta l 2 0 0 5 舢氓2 0 0 8 和约束p e a r s o n 栩关 系数 a h n 2 0 0 8 h e r l o c k e r e ta l 2 0 0 2 设r f r 分别表示用户u v 对项f 的 评分 这三种方法都定义了用户 和 的共同评分项集 l i il 也 0a n d 氐 0 i 表示全部项目空问 p e a r s o n 相关系数 p e a r s o nc o r r e l a t i o nc o e f f i c i e n t 用户甜和1 之间的p e a r s o n 相关系数定义为 川 r 一民 r 一r s 2 朋 v 2 4 e i l m r 兰u i r u 2e i e r v i 一 g v 2 2 7 其中 冠 豆 分别表示用户 v 在共同评分项集l 上的评分均值 即有 1 2 第2 章个性化推荐系统概述及其相关技术 瓦 南丕如 冠 南乏凡 余弦相似性 c o s i n es i m i l a r i t y 在夹角余弦方法中 把用户的评分信息看作是栉维项目空间上的向量 用户 之间的相似性通过向量间的余弦夹角来度量 二者的夹角越小则表示他们相似性 程度越高 将用户材和v 在共同评分项集l 上的评分向量分别表示成向量面和哥 则用户材和1 之问的夹角余弦定义为 s i m u y c o s f f 哥 厅 移 剧 r 凡 而丽 霍蓊丽q 8 约束p e a r s o n 相关系数 c o n s t r a i n e dp e a r s o nc o r r e l a t i o nc o e f f i c i e n t 用户 和 之间的约束p e a r s o n 相关相关系数定义为 r 一r m d r 订一r m e d 舰州 忑蓑葛雨霉雨 q 9 其中 如耐表示系统评分区问的中值 如在r i n g o 系统中 由于其采用了7 分评 分制 因此有r 甜取为4 利用上面介绍的用户相似性计算结果 可以生成一个用于存放用户相似性结 果的m m 阶矩阵s m 小 s 中的元素s 表示用户u 和v 之间的相似性 由于小 能将用户本人选作其最近邻用户 因此矩阵s 的对角线的元素全为0 在得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论