(计算机应用技术专业论文)个性化信息服务的研究与实现.pdf_第1页
(计算机应用技术专业论文)个性化信息服务的研究与实现.pdf_第2页
(计算机应用技术专业论文)个性化信息服务的研究与实现.pdf_第3页
(计算机应用技术专业论文)个性化信息服务的研究与实现.pdf_第4页
(计算机应用技术专业论文)个性化信息服务的研究与实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)个性化信息服务的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 个性化信息服务是在网上信息激增的背景下发展起来的,它包括基于合作的推荐和 基于内容的推荐。 基于合作的推荐根据用户之间的兴趣相似性来推荐资源,它把和目标用户具有相似 兴趣的其他用户的意见提供给目标用户。随着系统中资源数目和用户数目的不断增加, 在整个资源空间上用户评分数据极端稀疏,给有效的查找最近邻居带来了很大的困难。 本文采用了一种推荐算法基于矩阵划分和兴趣方差的合作推荐算法,它采用矩阵分 块的思想来缩小最近邻搜索的范围,矩阵分块时,首先依据资源已有的分类体系对资源 进行分类,然后对资源数比较多的类,由于没有明确的分类体系,所以采用了聚类方 法,这大大降低了矩阵的维度和稀疏等级。在计算最近邻时,引入了兴趣方差的概念, 提高了计算虽近邻的准确度。实验证明,本文提出的这种算法在预测精度上较传统的推 荐算法和没有引入兴趣方差的推荐算法有很大的提高。 基于内容的推荐利用信息资源与用户兴趣之间的相似性来过滤信息,把符合用户兴 趣的资源推荐给用户。在传统的信息推荐系统中,用户模型是用一组表征用户兴趣的关 键词来表示的,词与词之间是孤立的,由于没有考虑词之间的内在关系,造成了系统推 荐质量的下降。本文设计了一个信息推荐系统c a r l n f o ,在这个系统中弓l k y 人工智能 界的一个概念o n t o l o g y 。它根据词之间的关系把零散的关键词组织成一个网状结构,提 供了一个用户特征的抽象视图,在推荐时系统能够区分用户的明确兴趣和潜在兴趣,并 根据用户的实际选择对用户模型进行修正。初步实验验证了系统的可行性。 关键词:矩阵分块;兴趣方差;本体;用户模型;潜在兴趣 个性化信息服务的研究与实现 r e s e a r c ha n dr e a l i z a t i o no fp e r s o n a l i z e dr e c o m m e n d a t i o n a b s t r a c t p e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e mb e c o m e sp o p u l a ri nt h ec o n t e x to fi n f o r m a t i o n e x p l o s i o n i t c o n s i s t so f e o l l a b o r a t i v e f i l t e r i n g a n dc o n t e n t - b a s e d f i l t e r i n g i n f o r m a t i o ni sr e c o m m e n d e dt ot h et a r g e tu s e rb a s e do nr e o o m m e n d a f i o n so fo t h e ru s e r s w h oh a ss i m i l a ri n t e r e s t sw i t hh i mi nc o l l a b o r a t i v ef i l t e r i n g n em a g n i t u d e so f i t e m sa n du s e r s i nt h es y s t e mr e s u l t si nt h ee x t r e m es p a r s i t yo f u s e r r a t i n gd a t a , w h i c hm a k e s i td i f f i c u l tt of i n d n e i g h b o r se f f e c t i v e l y i nt h i sp a p e r , ar e c o m m e n d a t i o na l g o r i t h m - m a t r i xp a r t i t i o na n di n t e r e s t v a r i a n c eb a s e dc o l l a b o r a t i v ef i l t e r i n g a l g o r i t h m i sp m p o s e d 。i t p a r t i t i o n st h eh u g e m a t r i xi n t o s o m es u b m a t r i x e si no r d e rt or e d u c et h es c a l e o f s e a r c h i n g n e a r e s t n e i g h b o r s w h i l ep a r t i t i o n i n g t h em a t r i x ,i tf i r s te l a s s f i e sr e s 0 1 1 , r o e sb a s e do n e x p l i c i te l a s s f i e ds y s t e mo fr e s o l l l c , c s ,a n dt h e n c l u s t e r st h o s ec l a s s e sw h i c hc o n t a i n sm o r er e s o u r c e sr e l a t i v e l yb e c a u s et h e yh a v en oe x p l i c i t c l a s s f i e ds y s t e m m o r e o v e r , t h ec o n c e p to f i n t e r e s tv a r i a n c ei sa d o p t e dt oi m p r o v et h ev e r a c i t y o f s e a r c h i n g n e a r e s t n e i g h b o r s i tp r o v e s t h a tt h i sm e t h o dc a no b t a i nab e t t e r p r e d i c t i v ep r e c i s i o n , c o m p a r e dw i t ht r a d i t i o n a lr e c o m m e n d a t i o na l g o r i t h r aa n da 1 9 0 f i t h mw h i c hd o n tt a k ei n t o a c c o u n ti n t e r e s tv a r i a n c e 。 i n f o r m a t i o ni sr e c o m m e n d e dt ot h er i s e rb a s e do nt h es i m i l a r i t yb e t w e e ni n f o r m a t i o na n d h i so w ni n t e r e s t si nc o n t e n t - b a s e df i l t e r i n g i nt r a d i t i o n a lr e c o m m e n d a t i o ns y s t e m ,u s e r p r o f i l e i sd e n o t e dw i t has e to f k e y w o r d sw h i c hd e n o t e st h ei n t e r e s t so f u s e r sa n d t h e ya r ei s o l a t e d o w i n gt o n o tc o n s i d e r i n gt h el a t e n tr e l a t i o n a m o n gw o r d s ,t h eq u a l i t y o ft h e s y s t e mi s w e a k e n e d 、i nt h i sp a p e rar e wi n f o r m a t i o nr e c o m m e t l d a t i o ns y s t e m - c a r l n f oi si n t r o d u c e d r t a k e st h er e l 鲥o i i sa m o n gw o r d si n t oa c c o u n t i tc a nm a k es c a t t e r e dk e y w o r d si n t oam e s h y s 虮| c m r es oa st op r o v i d ea na b s t r a c tv i e wo fn s e r s c h a r a c t e r s i tc a nd i s t i n g u i s h e x p l i c i t i n t e r e s t sw i t hl a t e n ti n t e r e s t s t h em o d i f i c a t i o no fu s e rp r o f i l ei sm a d eb a s e do nl l s e r sa c t u a l c h o o s e s t r u c t u r i n go f o n t o l o g yi sr e a l i z e ds e m i a u t o m a t i c a l l y 1 1 1 ef e a s i b i l 时o f t h es y s t e mi s p r o v e db yo u r # m a r ye x p e r i m e n t s k e yw o r d s m a t r i xp a r t i t i o n ;i n t e r e s tv a r i a n c e ;o n t o l o g y ;u s e r p r o f f i e ;i n e x p l i e i t i n t e r e s t i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名:鹾红堑日期:趔i 旦 大连理工大学硕士学位论文 引言 伴随着互联网技术的发展和普及,h t e m e t 渗透到了人们工作、生活、学习的各个 领域,人们通过网络得到了不受时空限制的快捷、便利、高效的信息服务,对网络的依 赖越来越大,i n t e m e t 已经成为人们获取信息的主要渠道。 在现代化信息服务环境下,用户的信息需求f :t 趋多元化和个性化,不同的用户之间 存在明显的个性差异。随着社会信息化进程的加速,个性化的生产和服务开始流行。与 标准化的产品和服务相比,个性化的产品和服务更能满足用户的个体需要,更能提高产 品的服务质量。 个性化服务并不是一个现在才有的概念。实际上,在工业大生产之前,个性化服务 是一种司空见惯的服务模式人们穿的衣服,戴的帽子都是根据个人的特点专门定做 的。生产力发展后,为了提高生产的效率,大量的产品被标准化以利于批量生产,人们 消费的东西不再是为其个人专门定制的,而是很多用户使用完全相同的产品。标准化和 批量化是以降低服务质量为代价的。随着物质产品的日益丰富,个性化服务又重新受到 人们的重视。 个性化推荐的研究主要包括两方面:对基于合作推荐的研究和对基于内容推荐的研 究。基于合作的推荐类似于自然社会的“物以类聚”法则,合作推荐能够处理一些机器 难以进行自动内容分析的信息,在电子商务方面取得了很大的发展。但随着系统规模的 扩大,数据变得很稀疏,本文针对数据的高维稀疏性进行了研究,通过实验验证了基于 矩眸分块和兴趣方差的台作推荐算法的预测性能。对于基于内容的推荐,传统的推荐系 统在组织用户的兴趣信息时,是用一组罗列的关键词,本体是一组概念及其概念之间的 关系的集合,本文引入了本体的概念,对本体的构建,兴趣模型的抽取过程及其推荐过 程进行了研究。 个性化信息服务的研究与实现 1 概述 1 1 个性化信息服务产生的背景 w w w 自从出现以来获得了飞速发展,中国互联网络信息中心( c n n i c ) 发布的 第十四次中国互联网络发展状况统计报告中显示,截止到2 0 0 4 年6 月3 0 日全球接入 i n t e m e t 的站点约有4 6 0 0 万个 1 1 。相应地,i n t e m e t 中的信息量也在迅速的增长,截止 到2 0 0 2 年3 月,世界上最大的搜索引擎的数据库中大约有9 6 8 ,0 0 0 ,0 0 0 篇索引文档 2 】, 这么庞大的信息源给用户快速找到自己需要的信息带来了很大的困难。 在传统的服务模式下,系统对所有的用户是一副面孔,针对不同用户的同一请求产 生的结果是一样的,毫无个性可言。为了找到真正感兴趣的信息,用户要耗费大量的时 间和精力,而且系统是有求则应,无求不动,信息是被动的为用户服务的。 如何从海量的数据和信息中高效地获取有用信息,如何从迅速激增的信息中及时获 取最新的信息,如何满足各种不同用户的不同信息需求,都是新的信息服务系统需要解 决的问题。个性化推荐系统应运而生,它将是未来信息服务的主流模式,能实现信息 的“按需服务”。 个性化服务并不是一个现在才有的概念。古人常说的“因材施教”,即根据学生的 能力、性格、志趣等具体情况采用不同的教育方式、教授不同的知识,就是教育领域中 的一种典型的个性化服务。 “个性”一词来源于拉丁语p e r s o n a ,其原意是指希腊罗马时代戏剧演员在舞台上 敷的假面具,它代表剧中人的身份 3 】。随着社会的发展,个性一词被赋予了新的含义, 更多的用于形容个人与他人不同的特性。 在现代汉语词典2 0 0 2 年增补本上对个性的解释是 4 :在一定的社会条件和教育环 境下形成的一个人比较固定的特性。 什么是个性化( p e r s o n a l i z a t i o n ) ,目前尚无标准定义。在现有的资料中,有一些对 个性化的理解; i b m 认为【5 :个性化是搜集、存储站点访问者的信息,在对这些信息进行分析的 基础上,在合适的时间将合适的信息传递给每一位用户的过程。 美国学者r i c h a r dd e a n 认为 6 】:个性化是指让w e b 站点更多地回应每个用户的个 人需要。 文献 7 】认为:个性化的含义是使事物具有个性,或使其个性凸现,它包含两层含 义,其,个性是需要经过培养而逐步形成的,这个过程我们可以称之为使个体个性化 2 大连理: 大学硕士学位论文 的一个过程;其二,个体总是具有一定个性的。让这釉个性得到别人的了解、认可,并 在一定的空间中得以体现、展示,是每个个体都拥有的潜在需求,这个过程我们也称之 为个性化的过程。 文献【8 认为个性化信息是指由人类个体特性所决定的其对信息需求的一种信息组 合,也就是由人类个体特性对信息需求的决定关系产生的一系列对个体有用的信息;个 性化信息服务的主要目的就是要为用户提供一种个性化的信息。个性化信息服务应该是 能满足用户的个体信息需求的一种服务,即通过对用户个性,使用某种分析技术主动的 向用户提供可能需要的信息的服务。 个性化信息服务是网络信息环境发展的产物,是信息服务发展的必然趋势。个性化 信息服务的研究越来越受到重视。1 9 9 5 年至1 9 9 7 年,美国人工智能协会春季会议 ( a a a d 、国际人工智能联合大会( i j c a i ) 、a c m 智能用户接口会议( a c m i u i ) 和国际w w w 大会等重要会议发表了多篇个性化服务原型系统的论文,标志着个性化 服务研究的开始。1 9 9 7 年3 月,c o m m u n i c a t i o i l so fa c m 组织了个性化推荐系统的专题 报道,个性化服务已受到相当的重视。2 0 0 0 年8 月,c o m m u n i c a t i o n so f a c m 再次组织 了个性化服务的专刊。个性化服务的研究已经进入快速发展阶段。此外,i e e e i n t e l l i g e n ts y s t e m 、i e e ec o m p u t e r 、u s e rm o d e l i n ga n du s e r - a d a p t e di n t e r a c t i o n 也发表了 有关个性化服务的重要成果。2 0 0 0 年,美国n s f 基金开始支持有关个性化服务的研 究。同年4 月,以美国为主的多国个性化研究机构和网络公司成立了个性化协会,蓦在 推动个性化服务的发展,同时保护个性化服务中涉及的用户隐私。 近几年,我国学术界也开始了个性化服务的研究,已经有相当一批有实力的科研机 构投入到这个领域的研究中来。一些网站( 如y a h o o ! 、s i n a 等) 也推出了个性化服 务,允许用户定制自己感兴趣的信息。 1 2 个性化信息服务的研究意义 互联网技术引发的信息革命极大地推动了社会各行业的信息化建设,信息服务的个 性化逐渐渗透到电子商务、财政金融、远程学习等领域,表达出人们对个隆化服务的强 烈需求,促进了科研人员对个性化信息服务的研究。主要表现在: ( 1 ) 电子商务的个性化服务 在电子商务中引入个性化技术,其商务模式由以供应商为中心向以客户为中心的模 式转变,利用个性化的服务工具来了解和学习客户的需求与喜好,根据客户的爱好,向 用户推荐其可能感兴趣的商品,从而使用户在面对电子商务网站提供的上万甚至上百万 种产品时,能够更好地选择到自己满意的商品。 一3 一 个性化信息服务的研究与实现 ( 2 ) 金融领域的个性化服务 当银行业已从新技术的应用中获益,它面临的一个严峻挑战就是:如何通过传统的 一对一关系模式为客户提供优质服务而使其耗资最低。实现的关键在于了解每个客户长 期的需求和目标,并且在帮助客户实现目标的同时,有效的促进客户对该银行的坚定信 任,使客户和银行都能获取最佳效益。 ( 3 ) 远程学习的个性化 以网络为基础的远程学习方式,以每一个个体的学习需求为基础,使用某种个性化 服务工具,了解学习者的学习习惯,分析他的学习方法,评估学习效果,找出学习的最 佳时间段,提供最佳的课程学习组合,最终为学习者定制适合他的学习进程,这样会刺 激学习者的学习热情,增加学习的效率。 综上所述,人们在很多领域都需要个性化的信息来帮助自己迅速获取需要的信息。 个性化信息服务实现了“信息找人”的目标,使得信息能主动为用户服务。 1 3 个性化推荐算法的分类 根据推荐所采用的技术,个性化推荐可以分为:基于内容的推荐( c o n t e n t - b a s e d f i l t e r i n g ) 、基于合作的推荐( c o l l a b o r a t i v ef i l t e r i n g ) 和混合推荐( h y b r i df i l t e r i n g ) 。 基于内容的推荐通过比较信息资源与用户的兴趣模型之间的相似性来推荐信息。图 1 1 是基于内容推荐的典型结构。 图1 1 基于内容的个性化推荐 f i g 1 1c o n t e n t - b a s e dp e r s o n a l i z e dr e c o m m e n d a t i o n 这种推荐方式是根据用户以前的兴趣来推测用户以后的兴趣。其优点是实现简单, 适合处理文本信息,但由于它总是向用户推荐与用户模型匹配的信息,因而不能为用户 发现新的感兴趣的资源。 4 一 大连理工大学硕士学位论文 基于合作的推荐与基于内容推荐不同,它并不比较资源与用户兴趣之问的相似性, 而是通过比较用户之间的相似性来推荐信息。把和目标用户具有相似必趣的其他用户 ( 称为邻居) 的意见提供给目标用户。图1 2 是合作推荐的典型结构。 图1 2 基于合作的个性化推荐 f i g 1 2c o l l a b o r a t i v ef d t e r i n gr e c o m m e n d a t i o n 合作推荐的优点是可以发现用户可能感兴趣的新信息,而且它能处理难以进行机器 自动内容分析的信息,比如艺术品、电影等,也能基于一些复杂的、难以表达的概念比 如质量、品位等进行推荐。其缺点是如果一个信息没有被同类用户群中的任何用户浏览 过,那么它就不可能被推荐给该类中的其他用户,而且,如果一个用户的兴趣比较特 别,没有与他兴趣相似的用户,那么他就无法享受到个性化推荐服务。 这两种推荐方式各有优缺点,有些研究者提出将它们结合起来,实现混合推荐。混 合推荐的原理是既比较资源与各个用户模型的相似性,进行基于内容的推荐,又对用户 的相似性进行分析,找出目标用户的若干个最近邻居,进行合作推荐。图1 3 是混合推 荐的典型结构。 5 个性化信息服务的研究与实现 图1 3 混合推荐 f i g 1 3h y b r i df i l t e r i n g 目前提供混合推荐服务的系统还不是很多。s t a n f o r d 大学推出的个性化系统f a b 9 是其中最有影响力的系统。它根据用户对浏览页面的标注构建用户模型,并根据用户模 型的相似性寻找具有相似兴趣的用户。国内一些学者对此也进行了大量的研究。大连理 工大学的林鸿飞提出了基于混合模式的文本过滤模型 1 0 。其基本思想是将基于内容的 过滤方法和合作过滤方法结合起来,给出了用户评注的权威性和一致性度量,以便更好 地运用用户的评注信息。曾艳和麦永浩提出了基于内容预测和项目评分的协同过滤算法 f 1 1 】。 需要说明的是,在不同的论文中,“推荐”有时又被称为“过滤”或“导航”。 它们在本质上是相同的。另外,对于基于合作的推荐,不同的论文中也有不同的称呼 法,“协同推荐”,“协作推荐”,“社会推荐”指的都是基于合作的推荐。 1 4 本文的主要工作及章节安排 本文对基于合作的推荐和基于内容的推荐分别进行了讨论。对基于合作的推荐,采 用了一种基于矩阵划分和兴趣方差的合作推荐算法,它采用矩阵分块的思想来缩小最近 邻搜索的范围,矩阵分块时,首先依据资源已有的分类体系对资源进行分类,然后对资 源数比较多的类,由于没有明确的分类体系,所以采用了聚类方法,这大大降低了矩阵 的维度和稀疏等级。在计算最近邻时,引入了兴趣方差的概念,提高了计算最近邻的准 一6 一 大连理工大学硕士学位论文 确度。实验证明,这种算法在预测精度上较传统的推荐算法和没有引入兴趣方差的推荐 算法有很大的提高。 对基于内容的推荐,我们设计了一个推荐系统c a r l n f o ,它引入了o n t o l o g y ,把零 散的关键词组织成一个网状结构,提供了一个用户特征的抽象视图。 全文共分为4 章。第一章是概述,主要介绍了个性化信息服务产生的背景、研究意 义及个性化推荐算法的分类。第二章详细介绍了基于合作的个性化推荐,提出了基于矩 阵划分和兴趣方差的推荐算法。第三章详细介绍了基于内容的个性化推荐,提出了基于 o n t o l o g y 的个性化推荐。第四章是全文的总结和下一步研究方向的展望。 一7 个性化信息服务的研究与实现 2 基于合作的个性化推荐系统 2 1 研究现状 t y p e s t r y 是最早提出来的基于合作的推荐系统,是x e r o xp a r c 研究中心提出的 个研究型推荐系统,用于过滤电子邮件、推荐电子新闻 1 2 】。系统提供电子文档存储、 用户评价存储和协同推荐服务。在t y p e s t r y 系统中,设计了一种类似于s q l 的查询语 言t q l ,用户的查询请求中必须明确指出与自己兴趣爱好相似的其他用户。由于用户之 阃必须了解对方的兴趣爱好,因此t y p c s l r y 推荐系统只适用于用户群体比较小的场合。 a c f ( a c t i v ec o l l a b o r a t i v ef i l t e r i n g ) 是c a r n e g i e - m e l l o n 大学开发的合作推荐系 统,用于电子文档推荐 1 3 1 。a c f 系统通过指针实现协同推荐服务,指针包含指向电子 文档的超链接、电子文档的上下文信息以及用户撰写的电子文档评论。在a c f 系统 中,用户可以通过主动的方式将创建的指针推荐给其他可能感兴趣的用户,也可以将创 建的指针保存在系统中供其他用户查看。a c f 系统只适合用户群体比较小的场合。 g r o u p l e n s 是由m i t 开发的合作推荐系统,用于新闻组信息推荐【1 4 】。系统通过用 户的评分信息自动搜索用户的最近邻居,然后根据最近邻居的评分信息产生最终的推荐 结果,适合于用户数量比较大的场合。 m o v i e l e n s 是m i n n e s o t a 大学开发的研究型合作推荐系统,用于推荐电影 1 5 】。与 g r o u p l e n s 不同,m o v i e l e n s 系统是一个基于w e b 的推荐系统,系统通过浏览器的方式 进行用户评分数据收集与推荐结果显示,用户使用更加方便。 r i n g o 推荐系统是由m i t 媒体实验室开发的研究型推荐系统,用于提供个性化的音 乐推荐服务u 6 。系统可以向用户推荐用户最喜欢的音乐,预测用户最不喜欢的音乐, 也可以预测用户对特定音乐的评分。 v i d e or e c o m m e n d e r 推荐系统是b e l l c o r e 开发的推荐系统,用于推荐电影 1 7 j 。系 统通过电子邮件的方式收集用户的评分数据。系统提供推荐结果时,同时向用户提供用 户最近邻居的电子邮件联系方式,以及用户与最近邻居的相似度等信息。 另外合作推荐在商业上也取得了巨大的成效,目前,几乎所有大型的电子商务系 统,如全球最大的网上书城a i n a , z o n c o m 、最大的激光唱片商店c d - n o w c o m 、e b a y 、 当当网上书店等都采用了合作推荐技术。 国内也有一些学者对此进行了大量的研究。林鸿飞和王剑峰就合作模式的文本过滤 模型进行了讨论 1 8 1 。高凤荣等提出了一种基于稀疏矩阵划分的个性化推荐算法 1 9 】。 邓爱林等对基于项目评分预测的推荐算法进行了探讨 2 0 】。 8 大连理工大学硕士学位论文 一 2 2 合作推荐算法介绍 合作推荐算法可以分为两大类;基于模型的算法( m o d e l b a s e d ) 和基于内存的算法 ( m e m o r y - b a s e d ) 。 基于模型的算法首先构造一个用户评分的数据模型,运行期间将建立的模型调入内 存。一般来说,系统采用概率方法来预测目标用户对未评分项目的评分。一般采用某种 机器学习算法来建立模型。常用的机器学习算法有b a y e s i a n 网络技术、聚类技术 ( c l u s t e r i n g ) 等。 基于内存的算法运行期间需要将整个用户数据库调入内存,因此可以利用最新的用 户数据产生推荐。 由上述定义可知,基于用户的合作推荐算法( u s e r - b a s e d ) 、基于h o r l h a g 图技术 的合作推荐算法和基于项目的合作推荐算法( i t e m b a s e d ) 都属于基于内存的推荐算 法,而c l u s t e r - b a s e d 合作推荐算法、基于b a y e s i a n 网络技术的推荐算法和基于关联规 则的推荐算法( r u l e - b a s e d ) 则都属于基于模型的推荐算法。 随着系统中项目的不断增多,用户数据库变得非常庞大,利用整个用户数据库产生 推荐非常耗时,从而使得整个推荐系统的实时性难以保证,这也是基于内存的推荐算法 面临的主要挑战。在基于模型的推荐算法中,建立的模型相对于原始数据集要小得多, 因此能有效的缓解推荐算法的实时性问题。但模型相对于原始用户数据而言具有浠后效 应,为了保证模型的有效性,必须周期性的对模型进行更新。 在下面的章节中对这几种推荐算法有简单的介绍。 2 2 1 基于模型的推荐算法 ( 1 ) 基于b a y e s i a n 网络技术的推荐 b a y e s i a n 网络是一个带有概率注释的有向无环图。每一个节点表示一个变量,即一 个事件,各变量之间的弧表示事件发生的直接园果关系。它利用训练集创建相应的模 型,模型用决策树表示,节点和边表示用户信息。模型的建立可以离线进行。训练得到 的模型很小,所以对模型的应用非常快。但随着用户的不断增多及用户兴趣爱好的变 化,b a y e s i a n 网络的学习过程也要重新进行,因此这种方法适用于用户的兴趣爱好变化 比较慢的场合。 ( 2 ) c l u s t e r - b a s e d 推荐 聚类是根据数据的不同特征,将其划分为不同的数据类。它的目的是使得属于同一 类别的个体之间的距离尽可能的小,而不同类别上的个体问的距离尽可能的大。 一9 一 个性化信息服务的研究与实现 聚类讨算可以离线进行,所以在线的推荐算法产生推荐的速度比较快。但推荐质量 并不是很高,比如当某用户处于一个聚类的边缘肘,对该用户的推荐精度就比较低。 ( 3 ) 基于关联规则技术的推荐 关联是发现诸如一个交易中的项目集暗示着另一个项目集的所有这类规则。关联分 析是指利用关联规则进行数据挖掘。 关联规则技术在零售业得到了很大的发展。关联规则挖掘可以发现不同商品在销售 过程中的相关性。系统根据生成的关联规则模型和用户当前的购买行为向用户产生推 荐。关联规则模型的生成可以离线进行,因此可以保证系统的实时性要求。 ( 4 ) 基于降维的推荐 奇异值分解( s i n g u l a rv a l u ed e c o m p o s i t i o n ,s v d ) 技术在信息检索领域得到了广 泛的应用。奇异值分解 2 2 】是一种矩阵分解技术,它可以将一个m x n 的矩阵r 分解为3 个矩阵: r = 瓦s o d o ,瓯= d i a g ( c r , ,c r 2 ,q ) 其中口,口2 o r o ,t o 和上b 分别是m x r 和n x r 的正交矩阵( t o 7= i ,d a d o7 = d ,是矩阵r 的秩mi n ,九) ) 。岛是一个r x r 的对角矩阵,所有 的口,大于0 并按照大4 , j i 匾序排列,称为奇异值( s i n g l l l a rv a l u e ) 。通常对于矩阵 r = 瓦d 0 ,岛,d o 必须是满秩的,奇异值分解有一个优点,它允许存在一个简化 的近似矩阵。对于岛,保留k 个最大的奇异值,将其余的用0 来替代,这样,我们就可 以将& 简化为仅有k 个奇异值的矩阵( 露) 。因为引入了0 ,可以将岛中的值为0 的 行和列删除,得到一个新的对角矩阵s 如果矩阵乃,玩据此简化得到矩阵兀d ,那 么有重构的矩阵肛t s d ,风一r 。奇异值分解能够生成初始矩阵月的所有秩等于k 的矩阵中与矩阵r 最近似的一个。 奇异值分解能够有效的降低项目空间的稀疏程度。但降维会导致信息丢失,降维效 果与数据集密切相关,在项目空间维数很高的情况下,降维的效果难以保证。 2 2 2 基于内存的推荐算法 2 2 2 1u s e r - b a s e d 合作推荐算法 u s e r - b a s e d 合作推荐根据与目标用户具有相似兴趣的其他用户( 称为目标用户的 “邻居”) 的观点产生对目标用户的推荐。它基于这样一个假设【2 l 】:如果用户对些 项的评分比较相似,则他们对其它项的评分也比较相似。系统使用统计技术搜索目标用 户的若干最近邻居,然后根据最近邻居对项的评分预测目标用户对未评分项的评分。 例如,用户评分数据如表2 1 所示。 i o 大连理工大学硕士学位论文 表2 1 用户评分数据 u s e r - b a s e d 推荐算法需要预测用户a n d y 对项“g o l d e n e y e ”的评分。通过数据分析 发现,s m i t h 和a n d y 对电影的评分比较相似。s m i t h 对“g o n ew i t ht h ew i n d ”、“l o s t w o r l d ”、“e m m a ”的评分分别为5 ,4 ,3 ,而a n d y 对这几项的评分分别为5 ,4 , 2 ,他们二者的相似度最高,即s m i t h 是a n d y 的最近邻居,因此,s m i t h 对 “g o l d e n e y e ”的评分对预测值的影响最大。相比而言,t o m 和r o s e 不是a n d y 的好邻 居,所以,t o m 和r o s e 对“g o l d e r t e y e ”的评分对预测值的影响相对小些。在实际的 预测过程中,只搜索与当前用户相似性最高的前若干个邻居,然后根据相似性大小预测 当前用户对未评分项的评分。 j由上面的例子可以看出,用户相似性度量、最近邻查询和预测评分是u s e r - b a s e d 推 荐算法的主要工作。其实现过程如图2 1 所示。 $ l 局氆吗lr l ” i l 嘞磁l o o o o 形成用户一项目矩阵形成最近邻产生推荐 图2 1u s e r - b a s e d 推荐的实现过程 f i g 2 1p r o c e s so fu s e r - b a s e dr e c o m m e n d a t i o n ( 1 ) 用户项目矩阵的形成 要形成用户一项目矩阵首先要获得用户对项目的评价。评价分为显式评价和隐式评 价两种。对一些难以进行机器自动内容分析的信息,比如音乐、电影等,要知道用户对 个性化信息服务的研究与实现 其感兴趣的程度,一个比较方便的做法就是让用户对其打分,分值高低代表了用户的兴 趣程度,分值一般为卜5 之间的一个整数,这就是显式评价。在这种方式中推荐系统向 用户提供一个信息列表,要求用户对其中全部或部分信息进行评价,系统获得用户的这 些初始化信息后,就能将用户加入到用户库中,随着用户不断使用推荐系统,用户信息 不断积累,从而为用户提供越来越符合其个人需要的推荐。c n o u p l e n s 、r i n g o 采用的都 是这种方式。国内大连理工大学n 维网( h t t p :w w w e n w e l l n e t ) 的音乐频道在收集用户 兴趣时,也是采用了让用户打分的方式,当用户选择一首歌曲时,系统会弹出一个对话 框,让用户对此歌曲进行评分。采用这种方式,系统实现比较容易,但这样做会打断用 户的行为,而且用户的评分也不一定是其真实兴趣的反映。雨采用隐式方式则不需要用 户干预,它希望从用户的行为中获得用户信息。目前在形成用户一项目矩阵时以显式方 式获得用户评分数据为主。 获得用户对项目的评分后,用一个m x n 阶矩阵a x n ) 来表示,m 行代表胛个用 户,列代表n 个项目,第f 行第,列元素最,代表第i 个用户对项目,的评分。这里说 的项目即用户评分的对象,比如音乐、电影等。用户评分数据矩阵如表2 2 所示。 表2 。2 用户项目矩阵 ( 2 ) 形成最近邻 最近邻查询是整个u s e r - b a s e d 合作推荐算法的核心部分,其效果和效率很大程度 上决定了推荐的效果和效率。 度量用户i 和,之间的相似性方法如下,首先得到用户f 和,评分过的所有项,然后 通过不同的相似性度量方法计算他们之间的相似性,记为s m 。度量两个用户之间的 相似性,般有3 种方法:余弦相似性、相关相似性和修正的余弦相似性。 1 2 一 大连理l 大学硕士学位论文 余弦相似性:把用户评分看作是t 7 维项目空间上的向量。如果用户对某个项目没有 评分,则将此评分假设为0 。通过计算两个向量之间的夹角余弦来度量两个用户之间的 相似性。见公式2 1 : j i m ( i ,) = n r , :1 ( 2 1 ) r ,t ,r j ,女:用户i ,对项目k 的评分。 相关相似性:通过p e a s o n 相关系数来度量两个用户的相似性。计算时,首先找到 两个用户共同评分过的项目集功,然后计算这两个向量的相关系数。见公式2 2 : s i m ( i ,) = ( 2 2 ) 如:用户f 和,共同评分过的项目集,r 渺用户i 对项目c 的评分, 虿:用户f 对资源的平均评分。 修正的余弦相似性:在余弦相似性中没有考虑不同用户的评分尺度问题。修正的余 弦相似性通过减去项目的平均评分来弥补这种不足,见公式2 3 : 咖肛篙暑c 。l i汜s,,j吲。( r 一面2 + 限。一万) 2 “ 夏:项目c 的平均评分。 计算完用户之间的相似度后,对一个用户“,产生一个按照相似度大小排列的“邻 居”集合= o ,则认为门铂j 不是最近邻居,记跏以沙= o 。否则,取目刃为,和 j 的相似度,其中e 为离散型随机变量的数学期望,0 为设定的方差阈值。 其中,在厶l ,单独存在的矩阵中,和j 的相似度为0 ,即西- l s 户= s m = 0 。 采用这种做法,可以定程度的避免共同项很少时,最近邻计算不准确的问题。这 么做是基于这么一个想法:两个用户是最近邻居,当且仅当这两个用户在其每个兴趣领 域内都相似。在我们的实验中,o 取0 1 。 比如用户l 和用户2 在其兴趣领域“d w a r o a ”,“c o m e d y ”,“t h r i l l e r ”中的相 似度分别为0 1 ,o 8 ,0 1 ,也就是说这两个用户只有在类c o m e d y 中是很相似的,而 在d r a t r l a 类和t h r i l l e r 类中的相似度是很低的,直觉告诉我们他们不是邻居用户。 计算这几个离散值的方差,得到其方差为o 3 ( 。) ,则系统认为用户l 和2 不 是最近邻居。 计算完,和其他用户的相似度后,按大d , t 4 序,选择前个作为,的最近邻,这里 涉及到的取值问题,因为的值影响到系统的推荐精度,这一点在2 , 6 3 2 节中介 绍。 一2 2 大连理:c 大学硕士学位论文 另外,实验中,我们考虑了邻居的多寡闯题。由于每个用户的最近邻数目并不一定 相同,如果对每个用户都设定同一个,那样如果一个用户的邻居很少,则相似度很小 的用户也参与到对目标用户的推荐工作中,这样势必造成系统推荐质量的下降。因此, 设定一个相似度阈值so ,只有大于so 的用户才有资格参与到对目标用户的推荐工作 中。 2 5 3 产生推荐 按照2 2 2 1 中介绍的推荐公式,计算目标用户对所有未评分项目的评分,然后选 择预测评分最高的前若干个项作为推荐结果反馈给目标用户。 2 6 实验及结果分析 2 6 1 实验数据 实验采用的数据集是m o v i e l e n s ( h t t p :w w w g r o u p l e n s o r g ) 。m o v i e l e n s 中的数据来 源于m i n n e s o t a 大学进行g r o u p l e n sr e s e a r c h 项目时收集的数据。m o v i e l e n s 是基于 w e b 的研究型推荐系统,在1 9 9 7 年建立。每星期都有上百的用户访问该系统,进行电 影评价和获得关于电影的推荐。 m o v i e l e n s 数据集包含m o v i e s d a t 、r a t i n g s d a t 和u s e r s d a t 。m o v i e s d a t 中包含了 1 6 8 2 部电影的详细描述信息( 代号、电影名和所属类别) ,u s e r s d a t 中包含9 4 3 位用户 的详细信息( 用户i d 、性别、年龄和从事的职业) 。r u l i n g s d a t 中包含9 4 3 位用户对 1 6 8 2 部电影的1 0 0 ,0 0 0 条评分记录( 用户i d 、电影代号、评分值和时间戳) ,评分值 为从1 到5 的整数,数值越高,表明用户对该电影的喜爱程度越高。在m o v i e l e n s 数据 集中每个用户至少有2 0 条评分记录。 为了度量整个数据集的稀疏性,引入稀疏等级的概念,其定义2 # 1 9 1 用户评分数据 矩阵中未评分条目所占的百分比。因此,m o v i e l e n s 数据集的稀疏等级为: 1 - - 1 0 0 0 0 0 r 1 6 8 2 4 9 4 3 ) - = o 9 3 6 9 5 3 。 实验中,我们把数据集进一步划分为训练集和测试集,测试集中每个用户都有1 0 条评分记录。 2 6 2 评价标准 预测评价标准主要分为以下两种类型: ( 1 ) 统计准确性标准( s t a t i s t i c a l a c c u r a c y m e m o s ) 通过系统对目标项的预测值与用户对目标项的实际评价值进行比较获得对系统预测 准确性的评价。 2 3 - h a e t l 信息服务的研究与实现 一一 平均绝对误差m a e ( m e a na b s o l u t ee r r o r ) 较早的在s h a r d a n a n d & m a s e s 1 6 及 s a r w a r 等用于评价系统预测的性能。其它的标准还有如:r m s e 0 o o tm e a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论