已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)个性化服务研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着信息的日益增长,个性化服务的需求越来越迫切。由于用户 兴趣的不同和行为的差异,如何为不同的用户提供不同的服务成为一 个具有挑战性的问题。在研究领域和商业应用上都取得了巨大成功的 协作过滤推荐技术目前还存在很多尚未解决的问题,本论文正是为了 探索这些问题的解决之道。 论文的主要内容包括: 首先,论文讨论了实现个性化服务的关键问题,用户的描述、资 源的表达和个性化推荐技术。这是了解个性化服务技术的发展、存在 的问题、以及进行研究的基础。 其次,论文详细的分析了协作过滤推荐技术,传统的协作过滤算 法只考虑了用户评分信息而没有考虑到用户的社会背景信息,并且缺 乏对用户评分是否可信的考虑。针对这个问题,论文提出了基于用户 社会信息的相似度计算,以及对用户的评分进行信用评估的方法,从 而找到更加相似的邻居用户和更加可信的用户评分进行计算,改善推 荐效果。 最后,协作过滤算法产生的预测值通常是个小数,还需要判定 为对应到某个评分级别的整数。传统的算法按照“四舍五入”原则生成 判定值,考虑过于简单,忽略了用户的评分趋势。因此,论文提出了 基于用户评分趋势的预测值判定算法,考虑预测值与评分级别之间的 偏离,以及用户的评分趋势,再对预测值进行判定,有效地提高了推 荐的性能和精度。 关键词个性化服务,协作过滤,社会信息,可信度,预测值 a b s t r a c t p e r s o n a l i z e ds e r v i c e sa l eh i 曲l yd e m a n d e da l o n gw i t ht h ee x p l o s i o n o fi n f o r m a t i o no ni n t e m e t b e c a u s eo ft h ed i v e r s i t yo fu s e r s i n t e r e s t sa n d b e h a v i o r ,i ti sag r e a tc h a l l e n g et op r o v i d ea p p r o p r i a t es e r v i c e sf o r d i f f e r e n tu s e r s c o l l a b o r a t i v ef i l t e r i n gh a sm a n yp r o b l e m st ob es o l v e d , w h i c hi st h em o s ts u c c e s s f u lp e r s o n a l i z e dr e c o m m e n d a t i o nt e c h n o l o g yi n r e s e a r c hf i e l d sa n db u s i n e s sa p p l i c a t i o n s t h i st h e s i si st os o l v et h o s e p r o b l e m s t h em a i nc o n t e n to f t h i st h e s i sc a nb es u m m a r i z e da sf o l l o w s f i r s t ,t h i sp a p e rd i s c u s s e st h em a j o rp r o b l e m so fp e r s o n a l i z e d s e r v i c e s ,s u c h a s r e p r e s e n t a t i o n o fu s e r p r o f i l e ,r e p r e s e n t a t i o n o f r e s o u r c e s ,a n dr e c o m m e n d a t i o nt e c h n o l o g i e s 。t h o s ea r et h eb a s eo f u n d e r s t a n d i n go f t h ed e v e l o p m e n to f p e r s o n a l i z e ds e r v i c e st e c h n o l o g i e s , e x i s t e n tp r o b l e ma n dt h ep r e c o n d i t i o no f r e s e a r c h s e c o n d l y , t h i sp a p e ra n a l y s e sc o l l a b o r a t i v ef i l t e r i n g i nd e t a i l s h o w e v e r , e x i s t i n gc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m so n l yc o n s i d e ru s e r s m a r ki n f o r m a t i o nb u td on o tc o n s i d e ru s e r s s o c i a li n f o r m a t i o n a n dd o n o tc o n s i d e rt h ec r e d i t a b i l i t yo fu s e r s m a r k t os o l v et h i sp r o b l e m ,t h i s p a p e rp u t sf o r w a r dt h ec a l c u l a t i o no fs o c i a li n f o r m a t i o ns i m i l a 矗毗a n d c r e d i te v a l u a t i o no fu s e r s m a r k s ,s ow ec a nf i n dm o r es i m i l a rn e i g h b o r s a n dm o r ec r e d i b l em a r k st oc a l c u l a t e f i n a l l y , t h ep r e d i c t e dv a l d ep r o d u c e db yc o l l a b o r a t i v ef i l t e r i n g a l g o r i t h mi sa l w a y sad e c i m a lf r a c t i o n ,a n dn e e d st ob ei u d g e da sa l l i n t e g e rc o r r e s p o n d t os o m eg r a d e h o w e v e r , e x i s t i n gc o l l a b o r a t i v e f i l t e r i n ga l g o r i t h m s r o u n dp r e d i c tv a l u ea n dg e tt h ej u d g m e n tv a l u e s i m p l yw i t h o u tc o n s i d e r a t i o no fu s e r s g r a d et r e n d t os o l v et h i sp r o b l e m t h ep 印e rd e s c r i b e saj u d g m e n ta l g o r i t h mf o rp r e d i c tv a l u eb a s e do n u s e r s g r a d et r e n d t h ea l g o r i t h mc o n s i d e r st h ed i s t a n c eb e t w e e nt h e p r e d i c t e dv a l u ea n dt h eg r a d ev a u e , a n du s e r s g r a d et r e n d ,a n dt h e ng e t s t h ej u d g m e n tv a l u e e x p e r i m e n t a lr e s u l t ss h o wt h a to u rp r o p o s e d a l g o r i t h mo u t p e r f o r m st r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m k e yw o r d s p e r s o n a l i z e ds e r v i c e s ,c o l l a b o r a t i v ef i l t e r i n g ,s o c i a l i n f o r m a t i o n ,c r e d i td e g r e e ,p r e d i c t e dv a l u e 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名日期: 年上月垂 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名 翩签越吼珥年虫幽 硕士学位论文 第一章绪论 第一章绪论 个性化信息服务是信息服务发展的必然趋势,将被动接受用户的请求转化为 主动感知用户的信息需求,实现对用户的主动信息推送服务。个性化服务通过收 集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐。它的特点是能 为不同的用户提供不同的服务,以满足他们不同的需求。本章首先分析个性化服 务的研究意义与研究背景,然后讨论国内外的研究状况和进展,在此基础上提出 本论文的工作与贡献。 1 1 研究背景 1 1 1 个性化服务的引入 w e b 已成为人们获取信息的一个重要途径,由于w e b 信息的日益增长,人 们不得不花费大量的时间去搜索和浏览自己需要的信息。知名的搜索引擎 y a h o o ! 、g o o g l e 和百度满足了人们一定的需要,但由于其通用的性质,仍不能满 足不同背景、不同目的和不同时期的用户查询请求。 随着电子商务应用的日益普及,越来越多的商品可供人们挑选。尽管人们可 以更加轻松地买到自己需要的物品,但是不得不在数目繁多的商品中进行痛苦的 选择。很多时候,人们希望有人向他们进行推荐。同时,虚拟的网络环境决定了 用户不可能直接接触商品,从而不能更全面地了解商品的质量特征。企业及时准 确地提供个性化的商品信息给用户,并提供舒适的购物环境,逐渐成为电子商务 企业的核心竞争力。如何为用户筛选感兴趣的商品已经成为一个重要的问题。 目前,数字图书馆的研究与应用日渐深入,人们在解决如何存储海量信息的 同时,又面临如何将它们展现给用户。由于用户兴趣的不同和行为的差异,如何 为不同的用户提供不同的服务成为一个突出的,也是一个具有挑战性的问题。 1 1 2 个性化服务的概念 个性化服务就是针对这些问题而提出的,基于信息用户的信息、行为、习惯、 偏好和特点,来向用户提供满足其各种个性化需求的一种服纠1 1 。个性化服务技 术能充分提高系统的服务质量和访问效率,从而吸引更多的访问者。 所谓个性化服务,实质上就是一种以用户需求为中心的服务。图1 1 描述了 个性化服务的实质。首先,不同的用户通过各种途径访问资源;其次,系统学习 硕七学位论文第一章绪论 用户的特性,创建用户访问模型;最后,系统根据得到的知识调整服务,以适应 不同用户的个性化需求。 1 2 研究现状 1 2 1 发展历程 用户 o 八 个性化服务 、 ? 学习 个性化服务系统用户模型 图1 1 个性化服务的实质 1 9 9 5 年- 1 9 9 7 年,美国人工智能协会春季会议,国际人工智能会议,a c m 智能用户接口会议和国际w w w 大会等重要会议发表了多篇个性化服务原型系 统的论文,标志着个性化服务研究的开始。1 9 9 7 年3 月,c o m m u n i c a t i o n so f t h e a c m 组织了个性化推荐系统的专题报道,表明个性化服务已经受到相当的重视。 2 0 0 0 年8 月,c o m m u n i c a t i o n so f t h ea c m 再次组织了个性化服务的专刊,个性 化服务的研究已经进入快速发展阶段。2 0 0 0 年,美国n s f 基金开始支持有关个 性化服务的研究。同年4 月,以美国为主的多国个性化研究机构和网络公司成立 了个性化协会,旨在推动个性化服务的发展,同时保护个性化服务中涉及的用户 隐私【3 1 。 1 2 2 个性化服务模式 i n t e r a c t 上的个性化信息服务大致可分为三类嘲: 个性化推荐服务:推荐服务以导航、过滤和推荐的形式出现。所谓个性化信 息导航是指在用户访问i n t e m e t 的过程中进行前瞻搜索,找出用户感兴趣的信息, 提示用户下一步的浏览路径;个性化过滤则是指在用户访问i n t e m e t 的过程中对 信息进行预处理仅将用户感兴趣的信息呈现给用户价性化推荐是指在用户访问 i n t e m e t 的过程中对信息进行预处理,将用户感兴趣的信息推荐给用户,提示用 户浏览。 2 硕士学位论文 第一章绪论 个性化站点;个性化站点是一些大型网站推出的,以减少用户浏览负担、提 高用户访问效率为目的的个性化服务。这种个性化服务形式的主要目的是提高网 站的易用性。 个性化信息检索:随着i n t e r n e t 中信息量的指数增长,i n t e m e t 信息检索系统 的检索效率日益受到关注。为不同的用户提供有针对性的检索结果,也即个性化 信息检索,成为一种新的个性化服务形式。 1 2 3 个性化推荐技术 目前,国内外围绕个性化服务技术进行了大量的研究工作,它们提出了各种 思路来实现个性化服务。根据推荐方法的不同,个性化服务技术可以分为基于规 则的技术和信息过滤技术。信息过滤技术又可分为基于内容的过滤技术 ( c o n t e n t - b a s e df i l t e r i n g ) 和协作过滤技术( c o l l a b o r a t i v ef i l t e r i n g ) 。 基于规则的技术:规则可以由用户或管理员来制定,也可以利用基于关联规 则的挖掘技术来发现,利用规则来推荐信息依赖于规则的质量和数量,基于规则 的技术的缺点是随着规则的数量增多,系统将变得越来越难以管理,且一套规则 往往只适用于一个专门的系统。 基于内容的过滤技术【5 】 7 1 :基于内容的过滤技术是通过比较资源和用户描述 文件,推荐与用户兴趣相似的资源。它的关键问题是相似性计算。基于内容的过 滤技术的优点是简单有效,缺点是只能推荐和用户已有兴趣相似的资源,不能为 用户发现更多新的兴趣,而且,如果用户的描述文件没有正确表达用户的兴趣, 那么该方法推荐的资源可能和用户真正的兴趣根本不相关。 协作过滤技术1 8 】,【9 】:协作过滤是根据用户之间的相似性来互相推荐资源,它 的关键问题是相似用户群的发现。它与基于内容的过滤技术的不同点在于:它比 较的是用户描述文件,而不是资源与用户描述文件。协作过滤技术的优点是能应 用于那些不能直接获取特征的资源,还能为用户发现更多新的兴趣。缺点是存在 两个难以解决的问题数据稀疏性和可扩展性,也就是指随着系统用户和资源的增 多,系统的性能会越来越低。目前,这方面的研究主要是围绕解决这两个问题展 开的,目的是提高过滤的精度与效率。 1 2 4 个性化服务系统 ,根据个性化服务技术的不同,个性化服务系统可以分为:基于规则的系统、 基于内容的过滤系统和协作过滤系统。 硕七学位论文第一章绪论 基于规则的系统比如:b r o a d v i s i o n ( w w w b r o a d v i s i o n c o r n ) 、i b m 的 w e b s p h e r e ( w w w i b m c o m w e b s p h e r e ) 、i l o g ( w w w i l o g c o r n ) 等,它们允许系统管 理员根据用户的静态特征和动态属性来制定规则,一个规则本质上是一个 i f - t h e n 语句,它规定了在不同情况下如何为用户提供服务。基于规则的技术的 优点是简单直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规 则的数量增多,系统将变得越来越难以管理。 基于内容的过滤系统比如:c i t e s e e r l l 2 1 、e l f i t l 3 1 等,它们根据资源和用户兴 趣的相似性来推荐信息。基于内容的过滤技术的优点是简单有效,缺点是只能推 荐和用户已有兴趣相似的资源,不能为用户发现更多新的兴趣。 协作过滤系统比如:f i r e f l y i ”】、g r o u p l e n s l 8 】等,它们根据用户之间的相似 性来互相推荐信息。协作过滤技术的优点是能应用于那些不能直接获取特征的资 源,还能为用户发现更多新的兴趣,缺点是存在两个难以解决的问题,一个是数 据稀疏性,也就是指在系统使用初期,由于系统资源还未获得足够多的评价,系 统很难利用这些评价来发现相似的用户。另一个是可扩展性,也就是指随着系统 用户和资源的增多,系统的性能会越来越低。目前,这方面的研究主要是围绕解 决这两个问题展开的,目的是提高过滤的精度与效率。 还有一些个性化服务系统如:a n a t a g o n o m y 1 8 1 、d y n a m i cp r o f i l e r t l 9 1 等,它们 同时采用了基于内容的过滤和协作过滤这两种技术,又称为基于内容的协作过滤 技术。 本论文的研究工作就是围绕这些问题展开的,并受到国家自然科学基金的支 持。 1 3 论文工作与贡献 国家自然科学基金委在2 0 0 4 年立项“基于信息过滤的个性化服务理论和技 术研究”( n o 6 0 4 7 3 0 7 8 ) ,对相关问题开展研究,本论文的研究成果是该项目的 重要内容之一。 本论文的工作是围绕个性化服务技术展开的,研究的主要内容是协作过滤的 算法中用户的相似度计算与预测值判定的问题。选择这些问题作为研究的重点主 要基于如下四点考虑: 1 基于规则的技术的研究主要集中在规则的自动发现上【2 3 3 8 1 ,由于自动发 现的规则在很多情况下是不相关或是微不足道的,因此需要人工的参与才能决定 规则的好坏,这样很难保证规则的质量,而且不能动态更新。而信息过滤技术可 4 硕士学位论文第一章绪论 以自动跟踪和学习用户兴趣,推荐与用户兴趣相关的资源。 2 现有的信息过滤技术都存在缺点。基于内容的过滤技术虽然简单有效, 但要求用户的兴趣能得到正确的表达。由于资源类型的不确定性和多样性,内容 过滤需要选取资源特征,对每个资源都要都要进行准确的描述,缺乏领域应用的 通用性。 3 协作过滤技术,完全是从用户的角度出发,无须对资源进行准确描述, 对应用领域具有通用性,并且可以为用户发现更多的新兴趣。而且,在现有的应 用领域中,协作过滤得到了广泛的应用,是应用最广的个性化服务技术。因此, 协作过滤是最值得研究的一种技术,也是目前被众多个性化服务技术的研究者研 究得最广泛的一种技术。 4 现在的协作过滤技术还存在许多尚待解决的问题,如准确性、数据稀疏 性、可扩展性和预测值判定问题等,已有的研究成果主要是围绕数据稀疏性和可 扩展性两个问题展开的,但是对推荐的准确性等其它问题的研究太少。因此,这 些问题的解决对个性化服务技术的研究具有重要意义。 本论文综述了个性化服务的研究现状,针对核心的个性化推荐技术,从用户 出发,重点研究了用户相似度的计算和信用评估,以及协作过滤的预测值判定问 题。主要研究工作和贡献如下: 1 论文讨论了实现个性化服务的关键问题,用户的描述、资源的表达和个 性化推荐技术。这是了解个性化服务技术的发展、存在的问题、以及进行研究的 基础。 2 对于在研究领域和商业应用上都取得了巨大成功的协作过滤推荐技术, 进行了进一步的分析。传统的协作过滤算法只考虑了用户评分信息而没有考虑到 用户的社会背景信息,并且缺乏对用户评分可靠性的分析。针对这个问题,论文 提出了考虑用户社会信息的改进算法和考虑用户可信性的改进算法。 3 协作过滤算法产生的预测值通常是一个小数,还需要判定为对应到某个 评分级别的整数。传统的算法按照“四舍五入”原则生成判定值,考虑过于简单, 忽略了用户的评分趋势。因此,论文提出了基于用户评分趋势的预测值判定算法, 考虑预测值与评分级别之间的偏离,以及用户的评分趋势,再对预测值进行判定, 有效地提高了推荐的性能和精度。 4 对全文所开展的工作进行了总结,并指出了进一步的研究工作。 硕士学位论文第一章绪论 1 4 论文的组织结构 论文共分五章,结构如下: 第一章为绪论,介绍了本文的研究背景,个性化服务的关键技术,并阐述了 它们在国内外的研究现状。在总结了个性化服务所面l | 每的理论和技术障碍的基础 上,提出了本文的研究方向。 第二章深入讨论个性化服务技术的关键问题,包括用户的描述、资源的表达、 个性化推荐技术。这是了解个性化服务技术的发展、存在的问题、以及进行研究 的基础。 第三章描述了协作过滤技术,对相关问题进行了改进。3 1 节介绍了传统的 协作过滤算法;3 2 节描述了基于用户的社会信息的相似度计算方法;3 3 节讨论 对用户进行信任评估的机制;3 4 节通过实验对比改进后的算法与传统算法,证 实了改进算法的有效性。 。 第四章是围绕协作过滤技术中的预测值判定问题展开的。4 1 节描述协作过 滤技术存在的预测值判定问题和研究进展;4 2 节定义了相关的假设和概念;4 1 3 节设计了判定算法;4 4 节通过实验验证预测值判定算法的效果。 第五章为综述,总结了论文的工作,并且指出了进一步的研究方向。 本论文中所涉及到的许多理论、技术和方法,作为国家自然科学基金项目“基 于信息过滤的个性化服务理论和技术研究”中的一部份工作,对个性化服务技术 的发展是有重要意义的。 6 亟生毽i 金毫 筮三童仝性他避釜拄盔 第二章个性化服务 本章深入讨论实现个性化服务的关键问题,用户的描述、资源的表达、个性 化推荐技术,并且详细介绍了个性化推荐技术中的主流技术。这是了解个性化服 务技术的发展、存在的问题、以及进行研究的基础,同时对个性化服务系统的设 计与实现具有指导作用。 2 1 个性化服务定义 何谓个性化服务? 个性化服务的内涵是什么? 目前仍众说纷纭。在本文参阅的 文献中,以下有关个性化服务的定义具有一定的代表性: 1 个性化服务,首先应该是能够满足用户的个体信息需求的一种服务,即 根据用户提出的明确要求提供信息服务,或通过对用户个性、使用习惯的分析而 主动地向用户提供其可能需要的信息服务。其次,个性化服务也应该成为用户展 现自我,宣传个性的一个窗口。具有一定个性的个体通常都有表现自我,表达自 我,让他人了解自我的愿望。最后,个性化服务应该是一种培养个性,引导需求 的服务,这样可以帮助个体培养个性、发现个性,引导需求,促进社会的多样性 和多元化发展1 2 ”。 2 网上个性化服务是指作为互联网络使用者的个人,可以按照自己的目的 和需求,在某一特定的网上功能和服务方式中,自己设定网上信息的来源方式、 表现形式、特定网上功能及其他的网上服务方式等,以达到最为方便快捷地获取 自己所需的网上信息服务内容的目的幽1 。 3 所谓个性化服务就是根据用户的知识结构、信息需求、行为方式和心理 倾向等,有的放矢地为具体用户创造符合个性需求的信息服务环境,为其提供定 向化的预定信息与服务,并帮助用户建立个人信息系统1 2 s l 。 综上所述,所谓个性化服务,最直接的概念就是“以用户为中心”的服务模式。 它根据用户提出的明确要求,或基于用户的学科、偏好等个人特征,通过用户定 制、系统推荐和推送功能,主动向用户提供其可能需要的信息和服务。 个性化服务的第一个层次是提供一个个性化的接口供用户进行个性化定制, 系统根据用户提出的明确要求。向每一个用户提供符合要求的信息;第二个层次 是通过对用户个性、使用习惯的分析和跟踪,系统不断学习、挖掘用户潜在的兴 趣特征,主动向用户推荐其可能感兴趣的信息,提供智能的信息服务。 7 鲰堂位j 金塞蕴三童仝撞丝腿签拉苤 从前面几个不同的个性化服务定义的表述中可以看出,个性化服务具有几个 非常明确的特点【2 8 】: 1 针对性:个性化服务的根本就是以用户为中心,所有的服务必须以方便 用户、满足用户需求为前提。通过研究用户的行为、兴趣、爱好和习惯来自动组 织信息内容和调整服务模式,以便为用户提供更具针对性的信息服务。 2 可定制性:个性化服务允许用户充分表达个性化需求,动态地定制自己 想要的用户界面、信息资源、信息服务种类和服务方式,创造适应个人知识结构、 心理倾向、信息需求和行为方式的信息活动环境,从而获得“量身定制”的信息服 务。 3 主动性:个性化服务能够主动感知不同用户的个性化信息需求,并将用 户所需要的信息及时推送给用户。这种“信息找人”的主动服务模式与传统“人找 信息”的被动服务模式截然不同。 4 智能性:个性化服务中采用了推理反馈、机器学习和智能代理等人上智 能技术,能够通过跟踪和学习用户的兴趣偏好和使用模式,建立用户模型和信息 模型,不断挖掘用户潜在的兴趣特征,实现信息的智能推荐和智能过滤,从而显 著提高信息服务质量。 2 2 个性化服务技术 个性化服务的实现,需要多种相关技术支持,主要有:用户描述技术、资源 表达技术和个性化推荐技术。 2 2 1 用户描述的技术 实现个性化服务需要跟踪和学习用户的兴趣和行为,并研究用户兴趣的表达 方式。一方面,需要决定学习的信息源和收集的方式。由于需要用户的参与,考 虑到用户信息的敏感性,只能收集用户公开和反馈的信息,因此,必须研究有效 的学习机制,从有限的信息中挖掘出有用的信息。另一方面,由于用户兴趣的多 种多样和变化不定,需要研究能满足这种要求的用户兴趣的表达方式。 用户兴趣需要采用合适的方式表达,不同个性化服务系统的用户描述文件各 有其特点,从内容上可以划分为:基于兴趣和基于行为两种类型【3 ”。基于兴趣 的用户描述文件可以表示为加权矢量模型、类型层次结构模型、加权语义网模型、 书签和目录结构等。基于行为的用户描述文件可以表示为用户浏览模式或访问模 亟堂焦论塞 筮三童仝性位腿经撞丕 式。在具体实现时可以综合基于兴趣和基于行为这两种表达方式。 2 2 2 资源表达的技术 为了把资源推荐给用户,必须选取资源的特征,并采用合适的推荐方式。由 于资源类型的多样性( 文本、图像、音频和视频等) ,资源的表达成为一个突出 的问题,特别是那些不能直接从资源本身获取特征的表达。另方面,如何将资 源推荐给用户也是一个关键的问题,这里需要研究个性化推荐的方式,也就是如 何根据用户的兴趣来推荐相关的资源。 资源的表达需要获取资源的特征,并表示为合适的方式。由于资源类型的多 样性,资源特征的选取成为个突出的问题,特别是那些不能直接获取特征的资 源,因此,很难全面展开个性化服务技术的研究。不过,个性化服务技术已经应 用到许多领域,已经开发出很多原型系统。比如:s m a r t p u s h 3 2 1 应用领域是报纸; g r o u p l e n s 应用领域是u s e n c t 新闻;c i t c s e e r 应用领域是科技文档;f i r e f l y 应用 领域是音乐和电影;a m a z o n o d m ,e b a y c o m 应用领域是电子商务。 2 2 3 个性化推荐的技术 不同的服务形式需要相应的支撑技术。如果要实现个性化推荐,就需要相应 的个性化推荐技术:要实现混合推荐,还需要用户聚类技术,以发现具有相近兴 趣的用户;要实现个性化网站,就需要针对单个用户的数据挖掘技术和网站自适 应技术。在个性化服务的相关技术中,数据挖掘技术目前己经发展得较为成熟, 且在许多数据处理软件中都有较为广泛的应用。不同的是,现有数据挖掘技术是 针对群体用户的,在应用于个性化服务时需要做相应的改进。而网站自适应技术 从1 9 9 6 年开始就己经成为人工智能领域的研究热点,其研究成果可以直接应用 于个性化站点的实现之中。 2 3 个性化推荐技术 个性化推荐可以采用基于规则的技术、基于内容的过滤技术,还有协作过滤 技术f 3 j 。前面已经提到支持这些技术的个性化服务系统,现在从实现角度分析这 几种技术。 2 3 1 基于规则的技术 规则可以由用户制定,也可以利用基于关联规则的挖掘技术来发现 2 3 , 3 4 1 ,利 9 亟堂焦途毫筮三童全性化避釜拄丕 用规则来推荐信息依赖于规则的质量和数量,基于规则的技术的缺点是随着规则 的数量增多,系统将变得越来越难以管理。一个规则本质上是一个i f - t h e n 语句, 规则可以利用用户静态属性来建立,也可以利用用户动态信息来建立。为了利用 规则来推荐资源,用户描述文件和资源描述文件需用相同的关键词集合来进行描 述。信息推荐时的工作过程是这样的:首先根据当前用户阅读过的感兴趣的内容, 通过规则推算出用户还没有阅读过的感兴趣的内容,然后根据规则的支持度( 或 重要程度) ,对这些内容排序并展现给用户。 用户资源 l z 氘; 瑶f 具体值的动态规面k 夕 、关键词层弋 憋岁。一性的静搠,蹩型 图2 - 1 基于规则的推荐 基于规则的系统一般分为三部分( 如图2 1 所示) :关键词层、描述层、和 用户接口层。关键词层提供上层描述所需的关键词,并定义关键词间的依赖关系, 在该层可以定义静态属性的个性化规则。描述层定义用户描述和资源描述,由于 描述层是针对具体的用户和资源,所以描述层的个性化规则是动态变化的。用户 接口层提供个性化服务,根据下两层定义的个性化规则将满足规则的资源推荐给 用户。 2 3 2 基于内容过滤的技术 基于内容的过滤技术是通过比较资源和用户描述文件,推荐与用户兴趣相似 的资源( 如图2 - 2 a 所示) 。它的关键问题是相似性计算,对于矢量空间模型来说, 通常的方法是余弦相似性计算。基于内容的过滤技术的优点是简单有效,缺点是 只能推荐和用户已有兴趣相似的资源,不能为用户发现更多新的兴趣,而且,如 果用户的描述文件没有正确表达用户的兴趣,那么该方法推荐的资源可能和用户 真正的兴趣根本不相关。 l o 2 3 3 基于协作过滤的技术 协作推荐是指通过相同或相近兴趣的用户对资源的评价向用户推荐信息的 方式( 如图2 2 b 所示) 协作推荐实质上是现实生活中经常采用的推荐方式,如 两个兴趣相近的朋友相互推荐爱听的音乐、爱看的书等。 用户a 描述文件 兴趣 用户b 描述文件 兴趣 过滤器 吴用户用户a 吴吴t 月户b ( ) 基于内容的过滤技术( b ) 协作过滤技术 图2 - 2 信息过滤技术 与基于内容的推荐不同,协作推荐并不比较资源与用户模型的相似性,而是 通过比较用户之间的相似性来推荐信息。具有相近兴趣的用户被视为一个用户 类。当用户对某信息感兴趣时,该信息就可以推荐给同类的其他用户。 由于协作推荐不依赖于待推荐资源的内容,因而不仅适于可计算的文本领 域,还可以广泛应用于其他领域,如音乐,电影、书等。其代表系统有: w e b w a t e h e r l 4 2 1 、c n - o u p l e n s i s 等。协作推荐的优点是可以发现用户可能感兴趣的 新信息,而不局限于用户已经感兴趣的信息,但在实践中遇到几点难以解决的问 题。归纳起来有下面五个方面: 1 数据稀疏性,也就是指由于系统中用户和资源数目非常多,而每个用户 仅会评价一定数目的资源,因此打分矩阵会非常稀疏,两个用户共同评价的资源 可能非常少。 2 系统的可扩展性,也就是指随着系统用户和资源的增多,该方法的性能 会越来越低。 3 系统的准确性,也就是指随着系统用户和资源的增多,该方法的性能会 越来越低。 4 新用户问题,当新的用户加入系统时,还没有对任何资源评价,找不到 该新用户的邻居来预测他对资源的评价,按照协作过滤算法的处理方法,不能生 亟堂僮论塞筮三童仝焦业腿盘越苤 成对该用户的推荐。新资源也存在同样的问题。 5 用户评分矩阵的真实可信性。现有的推荐系统有的要求用户对资源评 分,利用评分矩阵进行推荐计算,有的则抽取用户访问资源的网络l o g 隐式的得 到用户资源兴趣度矩阵进行推荐计算。由于种种原因,评分矩阵中存在相当数 量的噪音数据,影响推荐结果。 6 用户预测值的判定问题。在传统的协作过滤算法中,预测某个用户对某 个资源的预测值p ,其结果都是精确到小数点后若干位的小数。在实际的推荐系 统中,用户对资源的评分都是对应到某个评分级别的,即一个整数,所以预测值 p 还需要判定为对应到某个评分级别的正整数。怎样判定预测值p 的评分级别, 是一个有待解决的问题。 2 3 4 混合推荐技术 混合推荐是指既通过比较资源与各个用户模型的相似度进行基于内容的推 荐,又通过相近兴趣的用户群进行协作推荐的一种推荐方式。目前提供混合推荐 服务的系统还不是很多。斯坦福大学推出的f a b i o l 基于内容的合作推荐系统是其 中最有影响力的系统。它根据用户对浏览页面的标注构建用户模型,并根据用户 模型的相似性寻找具有相似兴趣的用户。f a b 结合用户模型和邻居模型推荐用户 感兴趣的页面。 由于可以发挥两种推荐方法的优点,抵消两种推荐方法的缺点,因而混合推 荐具有更好的推荐性能。如为了克服合作推荐的稀疏性问题,可以利用用户浏览 过的资源内容预期用户对其它资源的评价。这样可以增加资源评价的密度,利用 这些评价再进行基于内容的推荐,从而提高合作推荐的性能。 2 4 本章小结 个性化服务技术是目前非常流行的一种技术,面对日益增长的w e b 信息, 要满足不同背景、不同目的和不同时期的查询请求,必须针对不同用户提供不同 的服务才能真正解决这个问题。另一方面,随着电子商务的不断发展,个性化服 务显得越来越重要,它能将电子商务网站的浏览者转变为购买者、提高电子商务 网站的交叉销售能力、提高客户对电子商务网站的忠诚度。 本章深入讨论了实现个性化服务的关键问题:用户描述文件的表达与更新、 资源的表达、个性化推荐、个性化服务体系结构和个性化服务系统。这是了解个 性化服务技术的发展、存在的问题、以及进行研究的基础,同时对个性化服务系 1 2 绣堂焦i 金奎 第三童仝丝化腿釜拉盔 统的设计与实现具有指导作用。 目前,个性化服务的研究取得很大进展,但仍存在很多尚未解决的问题:( 1 ) 由于用户兴趣是多方面和动态变化的,因此,跟踪、学习和表达用户兴趣是一个 最基本也是难以解决的问题;( 2 ) 现有的信息过滤技术都存在缺点,基于内容的 过滤技术虽然简单有效,但要求用户的兴趣能得到正确的表达。协作过滤技术能 为用户发现更多新的兴趣,但它存在一些需要解决的问题;( 3 ) 由于学习信息源 的多样性,因此很难评测和分析不同学习信息源的有效性。 亟土堂僮途塞 篮三重垃挂过遗茸丕 第三章协作过滤算法的研究 协作过滤( c o l l a b o r a t i v ef i l t e r i n g ) 技术是至今为止最成功的个性化推荐技 术,被应用到很多领域中( 3 6 1 ,口7 1 。协作过滤技术根据用户之间的相似性进行互相 推荐,它的关键问题是相似用户群的发现。它与基于内容的过滤技术的不同点在 于:它比较的是用户之间的相似性,而不是资源与用户之间的匹配程度。协作过 滤技术的优点是能应用于那些不能直接获取特征的资源,并且能为用户发现更多 新的兴趣。但是,传统协作过滤算法在应用中还存在很多问题,如准确性、稀疏 性、可扩展性、用户评分真实度、预测值的判定等等。本章针对传统的协作过滤 算法的这些缺点进行研究,提出了两个新的概念:用户社会信息相似度和用户可 信度,设计了相应的计算方法,改进了传统的协作过滤算法。实验表明,论文提 出的改进算法提高了协作过滤算法的精度和效率,在一定程度上克服了传统算法 存在的部分问题。 3 1 协作过滤算法 本节首先描述传统的基于近邻法的协作过滤算法,然后分析其存在的问题 在此基础上,讨论目前的研究状况和进展。 3 1 1 协作过滤 在现实生活中,每个人都会有自己的爱好和兴趣,具有相同爱好和兴趣的人, 通过某种渠道认识后,发现彼此趣味相投,自然就会结识而成为朋友。所以,大 家经常听到类似于“牌友”、“棋友”、“球友”等称呼。当这些“友”的数量足够多时, 就会成为一个团队,有的团队甚至组成“爱好者协会”。在这些“爱好者协会”中的 会员,彼此之间就会相互推荐各自喜欢的东西。例如“电影爱好者协会”的会员彼 此之间就会互相推荐自己爱看的电影,“饮食爱好者协会”的会员就会互相推荐自 己爱吃的食物和餐馆等。基于协作过滤的推荐实质上正是我们现实生活中经常采 用的这种推荐方式,两个兴趣相近的人成为朋友,他们相互推荐各自爱听的音乐、 爱看的书、爱看的电影等。 协作过滤技术,是推荐系统中应用最为广泛的技术之一。“c o l l a b o r a t i v e ”的 名字本身就已经说明了协作过滤算法的主要思想。协作过滤基于这样的假设:为 用户找到他真正感兴趣的内容的好方法是,首先找他与他兴趣相似的用户,然后 将这些用户感兴趣的内容推荐给此用户。 1 4 3 1 2 研究状况与进展 目前提出了很多协作过滤的算法,大体可以分为两类叨: 基于内存的算法( m e m o r y - b a s e d ) :基于内存的算法利用用户对资源打分的 整个评分矩阵来进行预测。算法首先利用相似性计算方法为当前用户找到最相似 的近邻,然后利用近邻向当前用户推荐最合适的资源,该方法也称作基于近邻用 户的协作过滤算法。由于该方法不需要提取资源特征,能随数据的变化而变化, 实现也比较简单,并且具有较高的效率,所以在实际应用中被大量采用。文献 2 6 1 提出了基于近邻项目的协作过滤。基于用户和基于项目的两种算法准确度与采用 的实验数据有关,没有绝对的好坏之分,要根据问题的不同和数据集的特点,选 择合适的方法。文献1 3 3 1 贝t | 将两种方法有机的结合在一起,得到了更好的效果。 基于模型的算法( m o d e l b a s e d ) :基于模型的算法首先利用一些机器学习算 法比如;贝叶斯网,聚类和基于规则的方法建立用户评价模型,然后利用该模型 进行预测,这种算法的优点是能提高预测时的性能,但预测精度和基于内存的算 法差不多p 刀。由于模型训练比较费时,所以这种算法不太适合于数据更新频繁 的系统,在实际应用中的使用不是非常广泛。 基于近邻用户的协作过滤算法应用最为普遍,但在实践中遇到一些尚未解决 的问题。归纳起来有以下几个方面: 1 稀疏性:也就是指由于系统中用户和资源数目非常多,而每个用户仅会 评价一定数目的资源,两个用户共同评价的资源可能非常少。尤其是在系统使用 初期,由于系统资源还未获得足够多的评价,因此打分矩阵会非常稀疏,该方法 很难利用这些评价来发现相似的用户。 2 可扩展性:也就是指随着系统用户和资源的增多,该方法计算的代价会 越来越大,性能会越来越低。 3 准确性:预测用户对资源评分的准确程度和效率还有待提高。 4 新用户( 资源) 问题:当新的用户加入系统时,还没有对任何资源评价, 无法找到该新用户的邻居,因而无法预测他对资源的评价,不能生成对该用户的 推荐。新资源也存在同样的问题,没有用户对新资源进行过评价,因此无法对任 何用户推荐该资源,只有等到有用户自己对该资源评价之后才能推荐给与该用户 相似的用户。 5 评分的可信性:现有的推荐系统有的要求用户对资源评分,利用评分矩 亟堂位途奎簋三童拯侄蓝选挂苤 阵进行推荐计算,有的则抽取用户访问资源的网络日志隐式的得到用户资源兴 趣度矩阵进行推荐计算。由于各种主观和客观的原因,评分矩阵中存在相当数量 的噪音数据,影响推荐结果。 6 用户兴趣的动态变化:在现实生活中,用户对资源的需求是随着时间的 推移不断改变的,现有的协作过滤算法只利用用户资源评分矩阵来计算用户的 相似度,而未考虑用户访问资源的具体时问,因此无法反映出用户的兴趣随时间 的变化过程,当用户兴趣发生改变的时候,现有的推荐系统无法及时发现,从而 导致推荐质量降低。 7 预测值判定问题:在实际的推荐系统中,用户对资源的评分都是对应到 某个评分级别的,即一个整数,经过协作过滤算法得到的预测值p 是一个小数, 还需要判定为对应到某个评分级别的正整数。传统的算法仅仅是按照“四舍五入” 原则对p 取整,考虑过于简单,缺乏对这个问题的有效解决。 对于第一个问题,文献【8 1 1 ,3 9 提出了基于内容的协作过滤方法,也就是利 用用户浏览过的资源内容来预测用户对其他资源的评价,进而利用这些评价当作 用户的评分来进行协作过滤。但是对于新用户和不经常浏览资源而是完全依靠推 荐来选择资源的用户,这种方法就失效了。 对于第二个问题,文献 4 0 1 提出了l s i ( l a t e n ts e m a n t i ci n d e x i n g ) 方法来降 低维空间,从而可以发现用户问的相似性;文献【4 1 】利用了关联规则发现算法来 发现资源之间的关联关系,然后利用资源之问的关联强度来进行资源的推荐;文 献 2 8 】通过一些策略从训练集中选择最合适的实例,去掉冗余和不相关的实例, 提高了协作过滤的速度,也提高了算法的精度;文献 3 7 1 提出了基于聚类和基于 贝叶斯网的方法,基于聚类的方法提高了协作过滤的性能,但影响了算法的精度, 基于贝叶斯网的方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 男性生殖健康管理专家共识(2026版)
- 非物质文化遗产漆扇作文(3篇)
- 疗愈花园与康养景观设计专题研究-专题研究报告
- 小额贷款服务乡村振兴与普惠金融实践研究专题研究报告
- 混凝土卸料作业安全方案
- 高龄患者机器人辅助内镜手术的麻醉管理要点
- 高血脂患者的植物固醇营养干预研究
- 高血压患者家庭血压监测的规范化指导
- 高温作业医疗干预成本控制
- 幼儿园家园协同幼儿行为问题干预效果研究-基于2024年协同干预记录与行为变化
- 2024年“湖北工匠杯”全省检验检测行业职业技能大赛(农产品食品检验员)试题库(含答案)
- 第4章-动车组列车餐饮服务操作技能《高速铁路列车餐饮服务》
- 7、辽、西夏与北宋的并立
- 关于领导干部报告个人有关事项的规定全文
- 电梯井钢结构安装安全技术交底
- 耕地占补平衡用户手册
- 嘘 - 副本【经典绘本】
- 《最重要的事 只有一件》读书笔记PPT模板思维导图下载
- 医学导论 第二篇 医学教育与医学学习
- GB/T 20303.1-2016起重机司机室和控制站第1部分:总则
- 工会经费使用管理常见问题解答
评论
0/150
提交评论