




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
协同过滤技术在个性化推荐中的应用研究 摘要 随着i n t e r n e t 和信息技术的飞速发展,个性化推荐作为一种崭新的智能信 息服务方式,根据用户提出的明确要求,或通过对用户个性、习惯、偏好的分 析,准确地向用户提供感兴趣的信息和服务,从而有效地解决了“信息过载” 和“信息迷失”带来的种种问题,成为许多学者关注和研究的热点。 个性化推荐的具体实现方法有很多,其中协同过滤推荐算法是目前运用的 最为广泛也是比较有效的一种,主要包括u s e r b a s e d 和i t e m b a s e d 推荐算法。然 而,随着系统规模的不断扩大,用户评分数据极端稀疏等问题使其推荐质量严 重下降。因此,必须对传统的协同过滤推荐算法加以改进。 本文所做的主要工作和创新点如下: ( 1 ) 对个性化推荐系统进行了深入研究,包括个性化推荐系统的应用现状、输 入与输出、主要分类和推荐系统实现的具体方法,如:基于规则、基于内容、知识工 程、数据挖掘和协同过滤方法。 ( 2 ) 对协同过滤推荐算法进行研究分析,包括基于用户的协同过滤推荐算法和 基于项目的协同过滤推荐算法。并且指出传统协同过滤推荐算法所存在的不足,主要 包括:用户评分数据的稀疏性问题;推荐算法的实时性问题;推荐系统对于新用户的 “冷开始 问题。 ( 3 ) 提出了一种协同过滤推荐算法的改进方法,将u s e r b a s e d 和i t e m b a s e d 协同 过滤推荐算法的思想相结合,通过形成项目相似集,由用户对相似项目的评分 来智能地预测用户对未评分项的评分,填充用户评分矩阵,有效解决了用户评 分数据稀疏情况下传统相似性度算法所存在的不足。另外,在形成用户最近邻 居时,引入高评分阈值,重点考虑高评分项目对推荐产生的影响,更能代表目 标用户的实际兴趣爱好,从而显著提高个性化协同过滤推荐算法的推荐精度。 关键词:个性化推荐系统,协同过滤技术,相似性,推荐算法,平均绝对偏差 r e s e a r c ho nc o l l a b o r a t i v ef i l t e r i n gi np e r s o n a l i t y r e c o m m e n d a t i o ns y s t e m s a b s t r a c t a l o n gw i t h t h e r a p i dd e v e l o p m e n t o fi n t e r a c ta n di n f o r m a t i o nt e c h n o l o g y , p e r s o n a l i z a t i o nr e c o m m e n d a t i o nh a sb e c o m eo n em e t h o do ft h en e wi n t e l l i g e n ts e r v i c e a c c o r d i n gt ot h ea n a l y s i so fc o n s u m e r s i n d i v i d u a l i t y , h a b i ta n df a v o r , t h es y s t e mp r o v i d e s i n f o r m a t i o na n ds e r v i c et ot h ec o n s u m e rw h i c ht h e yw a n t c o n s e q u e n t l y t h ep r o b l e mo f “i n f o r m a t i o no v e r l o a d i n g a n d “i n f o r m a t i o nm a z e ”h a sb e e ns o l v e d t o d a y , m o r ea n dm o r e r e s e a r c h e r sh a v ef o c u s e do nt h i sf i e l d , t h e r ea r em a n y w a y s t oa c t u a l i z ep e r s o n a l i z a t i o nr e c o m m e n d a t i o n 1 1 1 em o s tp o p u l a ra n d e f f e c t i v eo n ei s c o l l a b o r a t i v e f i l t e r i n g ,i n c l u d i n g u s e r - b a s e da n di t e m - b a s e d r e c o m m e n d a t i o na r i t h m e t i c h o w e v e r , t h ee f f i c i e n c yo ft h i st e c h n o l o g yd e c l i n eb yt h e i n c r e a s i n gn u m b e ro fu s e r sa n di t e m s ,w h i c hr e s u l t st oe x t r e m e l ys p a r s ed a t ao fu s e r s a s s e s s m e n t sa n do t h e rp r o b l e m s t h e r e f o r et h et r a d i t i o n a la r i t h m e t i cn e e di m p r o v e t h em a j o rc o n t r i b u t i o n so ft h et h e s i sa r ea sf o l l o w s : ( 1 ) t h i st h e s i ss t u d yd e e p l yo np e r s o n a l i z a t i o nr e c o m m e n d a t i o ns y s t e m ,i n c l u d i n gi t s a p p l i c a t i o ns t a t u s ,i n p u ta n do u t p u tf o r m a t ,c a t e g o r ya n dm e t h o d st oa c t u a l i z e ,f o re x a m p l e , r u l e - b a s e d ,c o n t e n t b a s e d ,k n o w l e d g ee n g i n e e r i n g ,d a t am i n i n g a n dc o l l a b o r a t i v e f i l t e r i n ga p p r o a c h ( 2 ) c o i l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o na r i t h m e t i c i sr e s e a r c h e d ,i n c l u d i n g u s e r - b a s e da n di t e m - b a s e dr e c o m m e n d a t i o na r i t h m e t i c t h e ni t i s a p p o i n t e d t h a t c o l l a b o r a t i v ef i l t e r i n ga p p r o a c hs u f f e rf r o mm a n yc h a l l e n g e s ,s u c ha s :s p a r s i t y , s c a l a b i l i t y a n dc o l d - s t a r tp r o b l e m ( 3 ) t 1 1 ei m p r o v e dm e t h o do fc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o ni sp o s e d i tu n i t e st h e i d e a so fu s e r - b a s e da n di t e m b a s e dr e c o m m e n d a t i o na r i t h m e t i c i te v a l u a t e sr a t i n g so f i t e m sb yt h es i m i l a ri t e m sa n dm a ys o l v et h ep r o b l e m ss u c ha ss p a r s i t y f u r t h e rm o r e ,i t c a l c u l a t e st h en e a r e s tn e i g h b o r so ft a r g e tu s e rb ya ni m p r o v e dw a yt h a to n l yc o n s i d e r st h e r e c o r d sw i t hh i 曲r a t i n g s a sr e s u l t ,i tm a yg e ta c c u r a t er e s u l t so fp e r s o n a l i t y r e c o m m e n d a t i o nq u i c k l y k e y w o r d s :p e r s o n a l i z a t i o nr e c o m m e n d a t i o ns y s t e m ,c o l l a b o r a t i v ef i l t e r i n g ,s i m i l a r i t y , r e c o m m e n d a t i o na l g o r i t h m ,m a e ( m e a na b s o l u t ee r r o r ) 图表清单 图1 1 信息过滤技术5 图2 1 基于规则的方法1 3 图2 2 数据挖掘基本流程1 5 图2 3w e b 数据挖掘分类1 6 图3 1 推荐算法的分类2 0 图3 2 基于用户的协同过滤推荐算法主要步骤2 1 图4 1 基于余弦和基于p e a r s o n 相似度算法的比较2 7 表4 。1 最近邻居集大小对预测效果的影响3 2 图4 2 三种推荐算法m a e 值的比较3 2 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得金月巴王些太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签字: 签字日期:硼瘿年6 月f 7 日 学位论文版权使用授权书 本学位论文作者完全了解佥目墨王些盍堂有关保留、使用学位论文的规定,有权保留并向 国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权 金月巴王些丕 堂一可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名:孪鱼龟 导师签名: 签字日期:。哂降f 月f 1 日 签字日期: 妒年加少日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 致谢 首先我要感谢我的导师王浩教授,在研究生阶段近三年的学习和生活期间, 给予了我无微不至的关怀和教导。王老师渊博的学术知识、严谨的治学态度、 诲人不倦的育人精神都使我受益匪浅,并将指导我在今后的人生道路中不断进 步。值此论文完成之际,谨向导师王浩教授致以最诚挚的敬意和衷心的感谢。 同时,也要感谢计算机与信息学院的其他老师对我的教导,感谢实验室的杨静老 师和甘杨兰、方芳学姐在数据挖掘方面对我的启发,以及其他的实验室同学,在每周 的研讨会中,与你们的交流让我获得了更多更新的知识。 最后,我要感谢我的父母对我的养育和教导。是他们教给我做人的道理, 给予我克服困难的勇气,他们的爱与支持将永远成为我前进的动力。 作者:宋真真 2 0 0 7 年5 月 1 1 引言 第一章绪论 我们现在生活在一个信息化的时代。i n t e r n e t 技术的发展和普及使信息获 取和发布的方式发生了巨大的飞跃和本质性的变化,w o r l dw i d ew e b ( 简称 w w w ) 成为信息传播的主要载体之一。就中国的情况而言,根据c n n i c 于2 0 0 6 年1 月17 日发布的第17 次“中国互联网络发展状况统计报告”中的数据,中 国大陆的上网用户总人数已经超过1 1 1 亿,上网计算机4 9 5 0 台,c n 下注册域 名数和网站数分别达到1 0 9 万和6 9 4 万。 面对这样铺天盖地的网络信息量,似乎是能够满足大家对信息的需求,但 是实际的情况是:对于9 9 的用户来说,w e b 上9 9 以上的信息是毫无用处的。 随着时间的推移,人们越来越感觉到这个数字时代的图书馆并不像真正的图书 馆那样支持有组织的信息管理和检索。恰恰相反,它只是一个个杂乱无章的信 息仓库。如何在呈指数级增长的信息量中快速、高效地获取有用的信息已经成 为人们关注的焦点。 个性化推荐作为一种崭新的智能信息服务方式n 1 ,根据用户提出的明确要 求,或通过用户个性、习惯、偏好的分析,准确地向用户提供感兴趣的信息和 服务,从而有效地解决了“信息过载”和“信息迷失”瞳1 带来的种种问题。 目前运用于个性化推荐的技术很多,除了传统的基于内容的过滤技术外,主要有 口h 引:贝叶斯网络( b a y e s i a nn e t w o r k ) 、关联规则( a s s o c i a t i o nr u l e s ) 、聚类( c l u s t e r i n g ) 、 h o r t i n g 图( h o r t i n gg r a p h ) 和协同过滤技术( c o l l a b o r a t i v ef i l t e r i n g ) 。其中协同过滤是推 荐系统中应用最早也是最为成熟的技术,有许多网站就采用了该技术建立推荐系统 如:m i i l a z o n c o m ( 互联网上最大的书店) ;c d n o w c o m ( 互联网上最大的c d 商店) ; m o v i e f i n d e r c o m ( 互联网上访问量最大的电影网站之一) 等等。 然而随着电子商务网站规模不断扩大,推荐系统中的访问者对象和属性的维数变 得越来越大,导致推荐系统的效率和推荐质量严重下降。为了能准确预测用户的兴趣 并产生高质量的推荐结果,特别是面对数据的稀疏性、计算的复杂性上所遇到的问题, 必须对传统的协同过滤推荐算法加以改进。 1 2 个性化推荐技术 1 2 1 推荐系统简介 在人们借助互联网上丰富的信息资源、功能强大的搜索引擎和快捷的传送 手段,使文献资料的搜集和获取变得十分容易的同时,也逐渐发现要准确、快 速地查找自己所需的信息越来越困难。这其中有两方面的原因:一方面,人们 一次搜索得到的结果可能有成千上万条,但其中有用的却很少;另一方面,由 于不同类型、不同载体的数据库大量增加,使得网站的用户界面变得十分复杂, 用户使用不同的资源往往需要使用不同的检索软件并需对路径及其他一些参 数进行必要的设置。这就大大增加了用户检索和利用网上信息资源的麻烦。面 对这一挑战,推荐系统应运而生,并显示出强大的生命力。 推荐系统通过与用户交互,将其感兴趣的信息主动推荐给用户,在计算机 研究领域划分中一般被划分到人机交互领域( c o m p u t e r h u m a ni n t e r a c t i o n ) 。该 系统汇聚了信息检索和智能系统的技术。典型的推荐系统有c d 和音带推荐系 统( 如:c d n o w e o m ) ,电影推荐系统( 如:m o v i e c r i t i c c o m ) ,书籍推荐系统等等。 另外还有先进的网页搜索引擎,社会网络过滤器,采用h a m e s s 信息检索技术 的半结构数据推荐系统,以及科学软件选择器等等。现在,推荐系统在电子商 务领域中得到了广泛的应用,利用从客户的行为中分析出的知识和商品的自身 特点来指导用户选择最适合自己需要的商品,同时为电子商务企业实现增值。 推荐系统正逐渐成为电子商务系统的标准模块之一。 推荐系统在帮助了客户的同时也提高了顾客对商务活动的满意度,换来对 商务网站的进一步支持。一般来说,推荐系统可以通过以下几个方面增强电子 商务的销售能力订1 : ( 1 ) 帮助用户检索有用信息 除了有明确购物目标的用户,大多数访问者只是随意浏览,可能并没有购 买意向,或是对自己的需求比较模糊,很难有耐心在海量的商品目录中逐项查 找是否有自己感兴趣的商品。如果这个时候推荐系统能够有针对性地向浏览者 提供高质量的商品推荐的话,就可能引起访问者的兴趣,从而使浏览者转变成 购买者。 ( 2 ) 促进交叉销售 推荐系统可以通过向客户推荐额外的商品来提高站点企业的交叉销售量。 在用户结帐时,根据购物车中已有的商品向他们推荐一些和已购物品相关的商 品,例如同一类型的打折c d 等。 ( 3 ) 提高客户忠诚度 一个成功的推荐系统服务,实际上在商家与客户之间建立起一条牢固的纽 带。如果顾客每次购买商品的时候,都能够得到推荐系统高效的商品推荐,那 么无疑会吸引顾客的下次光临。同时,客户越多地使用推荐系统,推荐系统就 可以更加适合用户的需要,为客户提供更好的服务,从而提高客户对该网站的 忠诚度。 1 2 2 个性化推荐技术 所谓个性化推荐陋1 ,其实质就是“以用户为中心”,根据用户提出的明确要 求,或通过对用户个性、习惯、偏好的分析,准确地向用户提供感兴趣的信息 和服务,满足用户的个体需求。其个性化的实质是针对性,即对不同的用户采 2 取不同的服务策略,提供不同的服务内容。推荐的实质是主动性,即自动按照 用户的信息需求提供相应的服务,从而实现“信息找人,按需服务”的目标。 个性化推荐技术应尽可能地迎合每个用户的浏览兴趣,并不断调整自己来适应 用户的浏览兴趣变化,使得每个用户都有是该站点唯一用户的感觉。 具体来说,衡量高质量个性化推荐技术的标准主要有以下几个方面嘲: ( 1 ) 推荐信息的准确性 信息推荐系统提供的信息要尽可能地满足用户的需求,这就需要对用户需 求的准确把握、对信息内容的准确把握、对信息内容和用户需求之间相关性的 准确把握。 ( 2 ) 推荐信息响应的及时性 网络应用所面对的用户往往是数以万计的。面对大量用户的信息需求,推 荐系统要能够及时做出有效的反馈。 ( 3 ) 推荐信息的用户中心性 推荐系统要以用户为中心进行服务,这就要求方便用户的使用。例如:系 统主动将信息推荐给用户;用户可以方便地表达自己的需求;系统要及时适应 用户需求的变化。 个性化的推荐对于改善顾客关系、培养顾客忠诚度以及增加网上销售方面都起到 了明显的效果,因此成为当今的一个研究热点。许多的大学和公司己经开始投入研究 和相应的实践,并取得了一些成就。如何构建一个推荐系统使它能够实时地、准确地 向用户提供更加贴近生活的在线服务,如何为每个顾客提供独特的商品信息,如何使 推荐技术更高效的应用到这个领域中,这些问题将不断地推动电子商务个性化服务技 术的发展,创造出更多的社会价值和经济价值。国外在1 9 9 6 年已经开始有了相关的 研究,但是在这方面我国的起步较晚,相对来说这方面的研究还很少,因此及早对这 方面进行研究成为我们义不容辞的责任。 1 3 协同过滤技术 1 3 1 信息检索 信息检索技术主要对应于用户的查询,是指根据用户提供的需求信息,从 数据库中返回相应的符合要求的信息。一个比较典型的例子就是在数字图书馆 中,读者通过输入查询关键字来查找相关领域的书籍。而图书馆的搜索引擎则 根据接收到的用户的输入,结合内容索引,返回符合输入的书籍信息。信息检 索的研究内容主要包括索引技术和查询技术。索引技术是检索前的准备部分。 它对资源内容进行分析,并将资源内容表示为计算机可处理的数据结构。查询 技术通过接口接受用户需求,并返回用户需要的资源信息。不难看出,信息检 索技术一般应用于大规模的数据库中,而且该数据库往往是相对静止的。它无 法主动为用户做出推荐,除了用户自己输入的查询,它无法进一步发掘出用户 更多的潜在兴趣。 1 3 2 信息过滤 信息过滤,也就是所谓的信息的选择性传播。与信息检索不同,信息过滤 关注用户的长线需求h 们( 指在一段时间内,比较固定的信息需求) ,是为非结构 化及半结构化的数据设计的,主要用来处理文本信息。其目标是帮助用户处理 大量的信息,对动态的信息流进行筛选,着重于排除用户不希望得到的信息。 该技术需要建立基于用户兴趣爱好的描述文件,其作用相当于一个过滤器,使 用它来确保只有那些令用户感兴趣的信息被推荐给用户。 信息过滤技术可分为基于内容的过滤技术和协同过滤技术,如图1 1 所示。 基于内容过滤的技术是通过比较资源与用户描述文件来推荐资源。它根据信息 的内容特性进行过滤,将信息流和用户档案文件进行匹配,基于匹配程度确定 该信息流对用户是否有价值。基于内容的过滤技术主要集中在文本信息推荐领 域,国外一些网站己经基于该项技术开发出了利用基于规则的代理服务,它分 析用户的使用风格、监测信息的内容特征、判断其是否是用户感兴趣的,并向 用户提供建议。 但是基于内容的过滤方法也存在不足之处,主要表现在以下方面n : ( 1 ) 处理文件的类型存在局限性 它通常只能对基于文本的资源进行比较简单的特征提取,在一些多媒体领 域如图形、图像、视频、音乐等,目前还没有有效的特征提取方法。即使是文 本资源,其特征提取方法也只能反映资源的内容,但是难以提取资源的质量、 风格等信息。 ( 2 ) 推荐的资源过于狭窄 系统尽可能向用户推荐最符合用户档案的信息,因此,推荐将只局限于与 用户以前浏览资料类似的信息。而且这种方法仅对有相似特征的项目进行推 荐,使用目标用户的反馈,尽管用户的兴趣也可能被其他用户的兴趣所影响。 与此同时,另外一项过滤技术的出现恰恰弥补了以上基于内容过滤方法的 不足,它就是协同过滤技术。 4 c o i l a b o r a t i v o 图1 1 信息过滤技术( 资源,描述文件,过滤器) 1 3 3 协同过滤 协同过滤( c o l l a b o r a t i v ef i l t e r i n ga p p r o a c h ) ,又称社会过滤 1 2 o 它从用户 那获得综合的协同信息,形成总的规则,或倾向于用户间或倾向于项目间的关 联来预测单个用户兴趣。 在该项技术中,用户通过相互协作来选择信息,它主要依据其他和自己兴 趣相似的用户,通过他们对信息做出的评价来挑选信息。协作方常常是用户所 信任的朋友、同事以及和自己兴趣相似的用户等,依据他们的判断向用户推荐 信息。其中这个技术最大的优点在于它不再根据物品本身进行分析,从而避免 了对多媒体等不规则文件的读取。取而代之的是对用户的行为进行分析,从而 完成过滤。通过对该项技术的深入研究,人们开始完善这项技术,从而产生了 自动化协同过滤技术。采用该技术的系统自动收集用户对信息的评价,搜索具 有相同兴趣喜好的用户,然后根据具有相同兴趣喜好的用户对信息的评价产生 推荐结果。 和基于内容的过滤方法相比,协同过滤具有如下优点n 引: ( 1 ) 适合于内容难以分析的资源 协同过滤不关心资源的具体内容,因此,在难以分析资源内容的情况下, 例如图形、图像、视频、音乐等多媒体文件作为资源内容时,协同过滤是很好 的选择。 ( 2 ) 新奇的推荐 协同过滤可以发现内容上完全不相似的资源,用户对推荐信息的内容事先 是预料不到的。这也是其它过滤技术无法做到的。 与传统方法相比,协同过滤技术有许多无法替代的优势,是迄今为止个性 化推荐系统中应用最为成功的技术,也是人们研究的热点。现在已经存在大量 5 的协同过滤推荐方法,其中相当多被用于实践并取得很大的成功。 t a p e s t r y n 4 1 是最早实现的基于协同过滤的推荐系统中的一个。它适用于关系 较为亲密的成员中,例如办公工作组等团体的成员,并且要求他们都对项给出 显式的评价。不难看出,它不可能适用于大型团体,因为大型团体成员数量庞 大,期望其中每名成员都相互认识是不现实的。 s h a r d a n a n d 和m a e s 设计了一个用于音乐领域的协同过滤系统“r i n g o , 并在这一系统中实验了一组用于计算用户间距离的方法,包括皮尔逊相关和余 弦向量。他们比较了各种算法的平均绝对误差m a e ( m e a na b s o l u t ee r r o r ) ,这 是评价推荐系统性能优劣的最常用标准之一。几乎所有协同过滤算法对于预测 精确度的评价都对这一标准进行了参考,本文的实验部分也将使用它进行评 价。 g r o u p l e n s n 印是一个著名的用于实践的协同过滤系统。g r o u p l e n s 的开发小 组创建了一个新的基于近邻的协同过滤系统,用于u s e n e t 上文章的评价。他 们使用了1 5 的整数作为评价的等级,对于距离的计算则使用了皮尔逊相关性 算法。该系统取得了很好的效果。 b r e e s ee t a 1 将协同过滤分为基于存储和基于模型这两类。最常见的基于 存储的协同过滤算法都使用了最近邻算法。基于模型的系统是以从数据归纳出 来的模型为基础,比较了包括贝叶斯网络及决策树在内的一些算法。 p e n n o e k 和h o r v i t z 提出“个性诊断”算法( p e r s o n a l i t yd i a g n o s i s ) ,它计算 某名新用户属于某种潜在“个性类型( p e r s o n a l i t yt y p e ) ”的可能性,用户的爱 好是其个性类型的表征。一名用户的个性类型就是他对项的“真实评价”向量。 “真实评价 与用户实际做出的评价的误差为高斯噪音n 引。当确定了一名用户 的个性类型后,p d 找出这名用户与系统中其他用户属于同一个性类型的可能 性,从而得出这名用户可能喜爱某个新项的可能性。 d e l g a d o 为协同过滤带来了一种基于代理的方法,开发了一些将评价数据 与其他信息源( 例如用户地理位置等) 混合起来的算法。他使用加权多数表决 ( w e i g h t e dm a j o r i t yv o t i n g ) 来综合不同信息源的推荐。 b i l l s u s ,p a z z a n i 和p r y o 通过不同的方法将s v d n 刀运用于协同过滤。s v d 通过降低维度,可以大大减小计算量,同时它也通过抓住用户一项目矩阵的主 要信息,保证了预测和推荐的质量。除了s v d 以外,其他的矩阵分解方法也 被用于对用户一项目矩阵的分析。这类方法都具有计算量小的特点其精确度 在某些情况下也并不降低。 i b m 创建了一个基于图形理论的算法n 引,它创立和维护了一张有向图,图 上的节点代表了用户,而有向边则代表了“可预测性”,预测就是对这些有向 边的加权求和。除了基于图形理论外,算法中还引入或创造了其它新的概念。 例如,算法通过阶层分类的手段将项的内容也融入了评价的过程。另外,类似 6 于计算机的多级存储,算法还根据用户对项目过去的评价频度,将项目分为了 两个等级,在不影响算法表现的基础上,大大提高了算法的运算速度。 不难看出,协同过滤方法非常多样。根据各种不同的出发点,诸如聚类、 神经网络、社会选择、线性处理和图形理论等许多计算机技术都可以被运用于 协同过滤领域。协同过滤的概念也由简单至复杂,它与其它领域的相互关系也 不断地被发掘,并由此产生了不少有用的算法。同时,协同过滤的运用范围也 在扩大,在诸如信息交流、评价预测、商品推荐和无线网络等许多领域大显身 手。 然而,随着推荐系统中访问者对象和属性维数的大幅度增加,协同过滤推荐技 术也逐渐面临着一些挑战,在本文的第三章将对该问题进行详细分析。 1 4 课题来源与本文组织 1 4 1 课题来源 合肥工业大学科学研究发展基金“基于粗糙集合的聚类研究 ( 编号 0 6 2 1 0 1 f ) 1 4 2 本文组织 第一章简要介绍了推荐系统和个性化推荐技术的内容,并介绍了协同过 滤技术的主要特点和应用举例,最后给出全文的内容组织: 第二章对个性化推荐系统的应用现状、输入与输出以及分类进行了研究, 并重点介绍个性化推荐实现的主要方法; 第三章详细介绍了协同过滤推荐算法,包括基于用户和基于项目的协同 过滤推荐算法,并分析了传统算法存在的不足; 第四章提出了一种基于用户协同过滤推荐算法的改进方法,给出了该方 法的思路以及具体实现步骤,并通过实验仿真测试检验了改进方法的推荐质 量; 第五章对全文进行总结,并对下一步的工作进行了展望。 7 第二章个性化推荐系统研究 2 1 个性化推荐系统应用现状 2 1 1 应用举例 近几年,电子商务的快速发展推动了个性化推荐系统的发展。在国外,几乎所有 大型的电子商务系统,例如:e b a y ( w w w e b a y c o m ) ,r e e l ( w w w r e e l c o m ) , a 1 t l a z o n ( w w w a m a z o n c o r n ) ,m o v i e f i n d e r ( w w w m o v i e f i n d e r c o m ) 等等,都已经不同程 度的使用了各种形式的个性化推荐系统。在国内,个性化推荐也在电子商务领域初见 端倪。很多企业已经十分注重通过这种方式来提高自身电子商务的竞争力。例如新浪 商城、网易商城、s o h u 在线购物以及当当网上书店也都有适合自身网站特色的推荐 系统。 到目前为止,所开发出来的比较著名的个性化推荐系统有: i b m 公司a b a l l m a n 等人研究的s p e e d t r a c e r 系统。它是最早通过重构用 户漫游路径来识别用户会话的系统。不使用c o o k i e s 或用户注册信息,这样就 保护了用户的隐私。它能够发现最普遍的用户漫游模式及经常一同访问的网页 群组。 意大利p a o l ob u o n o 等人研究的推荐系统中,从显示和隐式两方面获得用 户模式及用户评价,以此作为推荐依据。 a v a n t i 系统n 引:利用自适应规则为每一组相同的用户访问模式实现定制 化。 f o o t p r i n t s 系统晗盯:利用可视化技术,为用户提供w e b 站点被频繁访问的 路径。 s i t eh e l p e r 系统乜:采用分析每一个用户已经访问的w e b 页,学习用户的 兴趣模式,从用户感兴趣的w e b 中提取关键词,然后提供给用户。系统基于用 户相关反馈技术为用户推荐其它的相关w e b 页。 w e bw a t c h e r 系统心别:采用跟踪用户浏览w e b 站点的行为或者访问路径方 法,学习用户的访问模式,将用户可能感兴趣的w e b 页在线推荐给用户。 b a m s h a dm o b a s h e r 等人提出一种新的w e b 推荐系统,该系统基于协同特 征和内容特征为用户提供个性化推荐服务口副。 n a s r a o u i 等人采用聚类用户访问模式方法,预测用户未来的访问行为比4 j 。 c o o l e y d e 等人和b u c h n e r 等人,利用数据挖掘技术从访问的l o g 文件中提 取用户的访问模式,用于市场决策和智能推荐服务瞻5 | 。 s c h e c h t e r 等人根据用户的访问路径模式预测用户未来可能的请求,让代理 服务器执行预取操作,将相关w e b 页面放入其c a c h e 中,以加快访问速度晗6 | 。 m o b a s h e r b 、c o o l e y r 等人提出通过u r l 聚类产生推荐的方法拉引。 m o b a s h e r b 、d a i h 等人提出通过w e b 使用挖掘和w e b 内容挖掘结合提高 推荐质量的方法汹3 。 当然还有很多个性化推荐系统,这里就不一一列举了。 2 1 2 存在的问题 在实际的电子商务,个性化推荐技术获得了广泛关注与应用。但是,随着 系统、网站用户数量规模越来越大,个性化推荐技术也面临一系列的挑战,存 在一些问题有待改进: ( 1 ) 用户信息的获取方式单一 许多推荐系统都要求用户在浏览过程中对所推荐的物品进行评价,并且大 多通过调查问卷方式。这无疑增加了用户的负担,因此调查数据的真实性、准 确性都大打折扣。另一方面,大多数推荐系统主要是给注册用户提供服务,而 很少考虑非注册用户。因此,新用户和浏览站点较少的用户被系统收集的用户 信息较少,采用某些推荐预测算法也就并不合适。 ( 2 ) 推荐的实时性与推荐质量间的平衡问题 现有的基于单一协同过滤的推荐系统能实时查找上万个邻居。但对于庞大 的网上用户群体来说,对其邻居的搜索开销将会非常大。个性化推荐系统的实 时性和推荐质量是一对矛盾,大部分推荐技术在保证实时性要求的同时,往往 以牺牲推荐质量为前提。在提供实时推荐服务的同时,如何有效提高推荐系统 的服务质量,仍需进一步深入的研究。 ( 3 ) 用户个性化兴趣模型表达的准确性问题 这是目前个性化推荐研究领域普遍存在的难题,特别是如何准确、及时地 跟踪用户个人兴趣的变化,还是一个尚待探讨的课题。 2 2 个性化推荐系统的输入与输出 2 2 1 输入 不同类型的个性化推荐系统,其输入信息也不尽相同,根据不同的输入信 息产生不同类型的推荐。个性化推荐系统的输入可以是用户当前的行为,也可 以是用户访问过程中的历史行为。在大型的电子商务系统中,为了产生高质量 的推荐,推荐系统可能需要多种类型的输入信息。 个性化推荐系统的输入信息主要表现为以下形式: ( 1 ) 隐式浏览输入 将用户访问电子商务w e b 站点的浏览行为作为推荐系统的输入,用户的浏 览行为与访问一般的w e b 站点没有区别,并不知道推荐系统的存在。用户当前 正在浏览的商品、用户购物篮中选择的商品、用户的浏览路径等都可以作为隐 式浏览输入信息。 ( 2 ) 显式浏览输入 9 也是将用户的浏览行为作为电子商务推荐系统的输入,但与隐式浏览输入 不同,用户的显式浏览输入是有目的的向电子商务推荐系统提供自己的兴趣爱 好。例如,电子商务系统提供一系列热门商品供用户选择,用户只选择浏览自 己感兴趣的商品列表,电子商务根据用户的浏览行为向用户提供个性化的推荐 服务。 ( 3 ) 关键字商品属性输入 用户在搜索引擎中输入关键字作为推荐系统的输入,或者将用户当前正在 浏览的商品类别作为推荐系统的输入。这种类型的输入不同于用户随意的浏览 行为,用户输入的目的就是在系统中搜索自己需要的商品。 ( 4 ) 用户评分输入 将用户对商品的数值评分数据作为推荐系统的输入。个性化推荐系统列出 一系列商品让用户评分,用户的评分可以是一个数值,数值大小表示用户对商 品的喜好程度,也可以是一个布尔值,例如:0 代表不喜欢,1 代表喜欢。用 户提供的评分数据使得系统可以为用户提供个性化的推荐服务。 ( 5 ) 用户文本评价输入 用户对已经购买的商品或自己熟悉的商品以文本的形式进行个人评价,推 荐系统本身并不能判断这些评价的好坏。其他用户浏览该商品时,可以看到用 户对商品的文本评价信息,作为参考。 ( 6 ) 编辑推荐输入 将该领域专家对特定商品的评价作为推荐系统的输入。领域专家对商品的 性能特点进行全面详细的介绍,用户通过专家的专业介绍,可以对自己并不熟 悉的商品加深认识,从而决定是否购买该商品。 ( 7 ) 用户购买历史输入 个性化推荐系统将用户的购买历史作为隐式评分数据。一旦用户购买了特 定商品,则认为用户喜欢该商品。推荐系统根据用户的购买历史产生相应的推 荐。但是用户购买了某件商品并不代表用户喜欢该商品,所以在精确的推荐系 统中,用户可以对购买的商品进行重新评分,从而使推荐系统产生更加精确的 推荐。 用户的输入信息是我们进行推荐的主要依据,推荐系统根据这些输入信息 对目标用户进行个性化推荐。如果一个推荐系统没有相关的输入信息,它所实 现的推荐功能将只能是非个性化的。 2 2 2 输出 不同类型的个性化推荐系统,其输出也各不相同。大型的推荐系统可以同 时向用户产生多种不同形式的输出。 个性化推荐系统的输出信息主要表现为以下形式瞳引: l o ( 1 ) 建议 这种方式是个性化推荐系统中最为普遍的一种输出。推荐系统根据用户表 现出来的行为特征或系统的销售情况,将经计算得到的推荐结果提供给用户。 主要包括单个项目建议和推荐列表两类。 单个项目建议随机性比较大,例如基于简单的销售排行向用户推荐热门商 品。而推荐列表对用户的行为特征进行深入分析,发现用户的购买行为模式, 从而产生个性化的推荐。例如t o p n 推荐,根据用户的喜好向其推荐最可能吸 引他的n 件产品。 ( 2 ) 文本评价 个性化推荐系统向目标用户提供其他用户对该商品的文本评价信息。个体 文本评价对每个物品而言,所有用户得到的个体文本评价均相同,因此个性化 不强。 ( 3 ) 历史评分 向目标用户提供其他用户对商品的数值评分信息。个体评分输出没有大量 的文本描述信息,因此更加简洁明了。个体评分输出比较适合于个体数值评分 数据比较少的场合。 除此之外,其它的输出形式还包括统计评分、电子邮件、编辑推荐等等, 但主要的输出形式还是以上介绍的三种。 2 3 个性化推荐系统的分类 个性化推荐技术,可以根据用户获得推荐系统推荐的自动化程度和持久性 程度两个标准叫来进行区别: ( 1 ) 自动化程度( d e g r e eo f a u t o m a t i o n ) 自动化维度范围可以从完全的自动推荐到完全的手工推荐,从客户的观点 来看,自动化程度意味着客户为了得到推荐系统的推荐,是否需要显式的输入 信息。 ( 2 ) 持久性程度( d e g r e eo fp e r s i s t e n c e ) 持久性维度范围可以从完全暂时性的推荐到完全永久性的推荐,暂时的推 荐完全基于客户的单一会话( s e s s i o n ) ,并且不基于这个客户先前会话的任何信 息。永久性的推荐是基于客户的多个会话。 也有学者认为除了上述两个特征外,个性化程度( d e g r e eo f p e r s o n a l i z a t i o n ) 也是评价个性化推荐技术的重要指标之一,用来反映推荐结果符合用户兴趣爱 好的程度。 根据以上标准可以将个性化推荐系统分为以下几种类型: ( 1 ) 基于产品属性的推荐系统( a t t r i b u t e b a s e dr e c o m m e n d a t i o n s ) 主要基于产品的属性特征,向用户产生推荐列表。该推荐系统需要客户输 入他所需要产品的属性特征,因此属于手工推荐方式。基于产品属性的推荐也 可以是瞬时的也可以是个性化的,这取决于电子商务网站是否保存有客户偏好 的记录。 ( 2 ) 相关性产品推荐系统( i t e m t o i t e mc o r r e l a t i o nr e c o m m e n d a t i o n s ) 推荐系统根据客户感兴趣的产品推荐相关的产品,由于它不需要客户购买 产品的历史记录,只需了解客户当前选择的产品,因此是瞬时的。如果推荐系 统产生的推荐是基于客户长期较少改变的购买模式,可以认为它是自动的,如 果需要客户明确输入一些感兴趣的产品后产生推荐,可以认为它是手工。 ( 3 ) 相关性客户推荐系统( p e o p l e t o p e o p l ec o r r e l a t i o nr e c o m m e n d a t i o n s ) 又称协作过滤或社会过滤推荐系统。它考虑了用户的评价信息,根据客户 与其他已经购买了商品的客户之间的相关性进行推荐。它分析用户兴趣,在用 户群中搜索指定用户的相似用户( 最近邻居) ,综合这些相似用户对某一信息的 评价,形成系统对该指定用户对此信息的喜好程度的预测。该系统不需要客户 输入任何信息,推荐系统根据用户当前的行为产生相应的推荐。根据用户当前 的浏览行为或用户当前购物车的信息产生推荐结果,不同用户得到的推荐结果 各不相同。而且不同的客户所得的推荐是根据其个人的具体情况得到的,个性 化程度较高。因此,协作过滤技术在个性化推荐系统中迅速成为一项深受欢迎 的技术。 2 4 个性化推荐的主要方法 通过研究,许多学者为个性化推荐的具体实现提出了各种方法与思路,本 文主要介绍以下几种。 2 4 1 基于规则的方法 基于规则的方法允许系统管理员根据用户的静态特征和动态属性来制定 规则,规则可以由用户定制,也可以利用基于关联规则的数据挖掘技术来发现, 利用规则来推荐信息依赖于规则的质量和数量,一个规则本质上就是一个 i f - t h e n 语句,规则决定了在不同的情况下如何提供不同的服务。用户描述文件 和资源描述文件需用相同的关键词集合来进行描述。信息推荐时的工作过程是 这样的:首先根据当前用户阅读过的感兴趣的内容,通过规则推算出用户还没 有阅读过的感兴趣的内容,然后根据规则的支持度( 或重要程度) ,对这些内容 排序并展现给用户。 基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年3D打印的工业制造
- 工商银行2025淮南市秋招面试典型题目及参考答案
- 2025行业政策环境分析报告
- 邮储银行2025营口市数据分析师笔试题及答案
- 建设银行2025楚雄彝族自治州秋招笔试EPI能力测试题专练及答案
- 邮储银行2025咸阳市秋招笔试英语题专练及答案
- 工商银行2025牡丹江市秋招英文面试题库及高分回答
- 交通银行2025景德镇市信息科技岗笔试题及答案
- 交通银行2025自贡市小语种岗笔试题及答案
- 交通银行2025黔东南苗族侗族自治州秋招笔试性格测试题专练及答案
- 冻品知识培训课件
- 伐木安全课件
- 【MOOC】心理学与生活-南京大学 中国大学慕课MOOC答案
- mcn跟达人签约合同的模板本
- 《小学英语教学设计》课件全套 陈冬花 第1-10章 小学英语教学设计概述-小学英语课堂管理
- 开发商购房合同范本
- 医德医风及行风建设培训
- DB43T 2464-2022 旱地烟田冬季绿肥还田技术规程
- 沪粤版物理八年级上册单元过关练习试题含答案(全册)
- 三级安全教育记录及表格
- 职业健康中心建设方案
评论
0/150
提交评论