




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘的数字图书馆个性化推荐算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 互联网使得目前数字图书馆中的信息资源更加丰富,但随着信息量的 膨胀,出现了“信息过载”和“信息迷向”现象。为了更好的为用户提供 符合其偏好特征的信息,个性化推荐技术成为数字图书馆领域重要的研究 内容并得到研究者越来越多的关注。其中协同过滤技术和基于关联规则的 推荐技术也是个性化推荐领域研究的重点,本文针对以上两个问题展开了 研究。 首先,在协同过滤推荐技术方面,分析了目前存在的问题,指出随着 数字图书馆系统用户数目和图书资源数目的日益增加及用户专业背景的差 异,而导致的评分矩阵在整个项目空间上极端稀疏,使得推荐结果与用户 的兴趣偏差较大。针对该问题,在传统协同过滤提出了一种基于聚类技术 的推荐算法,该算法将s o m 和k - m e a n s 技术相结合对图书资源进行聚类, 从而缩小了近邻搜索的范围和需要预测的图书资源数目,很好地解决了矩 阵稀疏性问题,提高了推荐的准确度。 其次,为了增加馆藏的借阅率,本文采用关联规则分析来进行借阅模 式挖掘从而获得图书馆用户的兴趣爱好,分析出不同类读者所借书目的集 合,自动为读者提供与这类书相关的其它书籍。但直接使用频繁模式增长 算法会产生数量非常可观的关联规则,再根据这些规则向用户推荐主题会 给系统造成很大的负担,且可能造成大量重复的推荐,产生了大量的计算 冗余。通过对频繁模式增长算法的改进,并结合了在线推荐和离线推荐方 法,达到了较满意的推荐效果。 最后,对上述研究技术进行了实验分析及验证,并对今后的研究工作 进行了展望。 关键词数字图书馆;协同过滤;聚类;关联规则:个性化推荐 燕山大学工学硕士学位论文 a b s t r a c t w a ht h ed e v e l o p m e n to fi n t e r n e t ,t h ei n f o r m a t i o nr e s o u r c e so fd i g i t a l l i b r a r yc u r r e n t l yb e c o m er i c h e r , b u tw i t ht h ee x p a n s i o no fi n f o r m a t i o n , t h e p h e n o m e n o no f i n f o r m a t i o no v e r l o a d a n d m i s l e a d w e r ea p p e a r e d i no r d e r t o p r o v i d e t h ec h a r a c t e r i s t i c so ft h e i rp r e f e r e n c e i n f o r m a t i o nt o b s e r s , p e r s o n a l i z e dr e c o m m e n d a t i o nt e c h n o l o g yb e c o m e sa ni m p o r t a n tr e s e a r c hf i e l d i nd i g i t a ll i b r a r ya n da t t r a c t sm a n yr e s e a r c h e r s a t t e n t i o na lt h es a i t i m e 。 c o l l a b o r a t i v ef i l t e r i n gt e c h n o l o g ya n da s s o c i a t i o n r u l e sr e c o m m e n d a t i o n t e c h n o l o g ya r et h ek e yr e s e a r c hp o i n t i np e r s o n a l i z e dr e c o m m e n d a t i o nf i e l d s i m u l t a n e o u s l y , t h er e s e a r c hf o rt h e s ei s s u e sa r ef o c u s e di nt h i sp a p e r f i r s t l y , t h ee ) 【i s t 协gp r o b l e m so ft h er e c o m m e n d e d c o l l a b o r a t i v ef i l t e r i n g t e c h n o l o g y , w e r ea n a l y z e d w i t ht h ei n c r e a s i n gn u m b e ro fd i g i t a ll i b r a r yu s e r s a n db o o kr e s o u r c e s ,t h ee v a l u a t em a t r i xw a se x t r e m e l ys p a r s ei nt h ew h o l e p r o j e c t s i n c et h ed i f f e r e n c e sb e t w e e nu s e r s p r o f e s s i o n a lb a c k g r o u n da n d r e c o m m e n d a t i o n sm a d em o r ee r r o r sw i t hu s e r si n t e r e s t , ar e c o m m e n d a t i o n a l g o r i t h mb a s e do nc l u s t e r i n gt e c h n o l o g y i s p r o p o s e d i n t h i s p a p e r t h i s a l g o r i t h ma g g r e g a t e s t h el i b r a r yr e s o u r c e sb yc o m b i n i n gt h ek - m e a n s t e c h n o l o g ya n dt h es e l f - o r g a n i z i n gm a pt e c h n o l o g y i tr e d u c e st h es c o p eo f n e i g h b o rs e a r c h i n ga n dt h en u m b e ro fl i b r a r yr e s o u r c e sw h i c hn e e df o r e c a s t t h ep r o b l e m so fs p a r s i t yw e r es u c c e s s f u l l yr e s o l v e da n dt h ea c c u r a c yo ft h e r e c o m m e n d a t i o nw a si m p r o v e d s e c o n d l y , i no r d e rt o 碰l a n c et h er a t eo f b o o kb o r r o w i n g ,a s s o c i a t i o nr u l e s w e r eu s e dt oo b t a i nu s e r s h o b b i e s t h ea n a l y s i so fi n h o m o g e n e o u sr e a d e r s p r e f e r e n c ep r o v i d e sr e l a t e db o o k st ou s e r s i ft h e1 7 1 , - g r o w t hw 勰d i r e c t l yu s e d , t h eh u g ea m o u n t so fs u b s t a n t i a la s s o c i a t i o nr u l e sw e r em a d e i tw o u l dp l a c ea l l h e a v yb u r d e nt or e c o m m e n d e ds y s t e ma c c o r d i n g t ot h e s er u l e s a tt h es a m et i m e 。 t h er u l e sm a yc a u s es u b s t a n t i a ld u p l i c a t i o no fr e c o m m e n d a t i o na n dm a k eal o t o f r e d u n d a n c yt e r m s as a t i s f a c t o r ye f f e c to n t h er e c o m m e n d a t i o nw a sa c h i e v e d t h r o u g hi m p r o v i n gt h ef p _ g r o w t ha l g o r i t h m sa n dc o m b i n i n go n l i n ea n do f f i i n e r e c o m m e n d e dm e t h o d o l o g i e s f i n a l l y , i ta l s og i v e so u tt h ea n a l y s i sa n dv e r i f i c a t i o nt oa l lt h et e c h n o l o g y w h i c hw e f em e n t i o n e di nt h ep a p e r s u b s e q u e m l y , t h ep r o s p e c t sf o rf u t u r e r e s e a r c hw e r em a d e k e y w o r d sd i g i t a ll i b r a r y ;c o l l a b o r a t i v ef i l t e r i n g ;c l u s t e r i n g ;a s s o c i a t i o nr u l e s ; p e r s o n a l i z a t i o nr e c o m m e n d a t l o n m 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于数据挖掘的数字图 书馆个性化推荐算法研究,是本人在导师指导下,在燕山大学攻读硕士学 位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部 分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要 贡献的个人和集体,均己在文中以明确方式注明。本声明的法律结果将完 全由本人承担。 作者签字委毛点日期:泖年,月,7 曰 燕山大学硕士学位论文使用授权书 基于数据挖掘的数字图书馆个性化推荐算法研究系本人在燕山大 学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成 果归燕山大学所有,本人如需发表将署名燕山大学为第一完成单位及相关 人员。本人完全了解燕山大学关于保存、使用学位论文的规定,同意学校 保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。 本人授权燕山大学,可以采用影印、缩印或其他复制手段保存论文,可以 公布论文的全部或部分内容。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密彳 ( 请在以上相应方框内打“4 ”) 作者签名:墨怎曩 日期:) 卯7 年,月,7 日 导师签名:彳& z 百刍 日期忍叼年f 月7 7 日 第1 章绪论 第1 章绪论 1 1 数字图书馆发展背景及意义 随着现代信息技术革命的深入发展,特别是信息载体的数字化以及信 息传播的网络化发展,以书刊资料为主要收藏载体的传统图书馆面临巨大 的挑战,越来越难以适应数字时代的要求,使得图书馆的发展经历了从印 刷纸张图书馆到自动化集成图书馆到数字图书馆的三个阶段【i j 。 7 0 年代计算机和通信技术的发展与融合,促进了图书馆联机网络的发 展,出现了一批联机编目网络和一些商业性联机信息检索系统 2 1 。8 0 年代 图书馆自动化的显著特点是图书馆联机网络进一步发展并与图书馆界先后 建立的自动化集成系统联成一体 3 】。处于自动化阶段的图书馆较为普遍地 采用计算机和自动化集成管理系统辅助采购、编目、流通、检索、内部管 理等业务,两且建立了机读目录数据库和二次文献检索数据库。用户可以 通过图书馆联机公共检索目录和联机信息检索系统查询书目和二次文献信 息。9 0 年代兴起的“数字图书馆”一词,起源于1 9 9 3 年由美国国家科学基 金会( n s n 、美国国防部尖端研究项目机构( d a r p a ) ,国家航空与太空总署 ( n a s a ) 联合发起的数字图书馆创始工程1 4 1 。以后“数字图书馆”一词迅速 被全球计算机界、图书馆界及其他相关领域所使用。数字图书馆的研究和 开发从此得到了各国计算机和图书馆等领域的高度重视。 数字图书馆的定义至今还难以确定,没有一个共同的规范和界定基础。 从广义上讲,数字图书馆是计算机可处理的、有序组织的信息集合,也可 看成是存储数字信息的仓储,它使用数字技术进行信息资源的组织和管理, 用户可以通过网络高效方便地查询、检索信息以获得信息服务,并且其信 息存储和用户访问不受时间和地域限制。由于采用了数字化信息载体,在 网络和通信技术的帮助下,数字图书馆能够比传统图书馆提供更全面、更 细致、更高效的信息服务。数字图书馆提供快速的数字化资源创建、标引 燕山大学工学硕士学位论文 和检索能力,提供世界范围内的资源共享。数字化资源一旦创建,能够无 损耗无限期的重复利用,能够真正存储海量数据,节省了大量的人力物力, 带来具大的经济效益。 数据量的增长体现了人们的信息需求,数字图书馆的目的正是服务于 人类的信息需求。数字图书馆为人们查找所需的信息提供了方便,一般来 说,有两种方法用来查找所需的信息:搜索和浏览。数字图书馆中信息量 的快速增长使信息检索变得很困难,返回过多的检索结果。例如,在a c m 数字图书馆中查询“d i g i t a ll i b r a r y ”结果数为1 0 78 9 5 条,查询“d a t a b a s e ” 返回的结果数为2 72 4 6 条,“p e r s o n a l i z a t i o n ”的查询结果为20 4 9 条。对于 一个查询用户,可能浏览的结果链接数一般为个到十个。数字图书馆是一 个庞大的数字资源库,为用户提供优质服务是数字图书馆的关键。但数字 化资源量的不断增加使得数字图书馆中拥有越来越多的用户,海量的数字 资源如何为海量的用户提供高效的访问也是一个急需解决的问题,现有的 数字图书馆无法为用户提供满意的个性化服务,尤其是不能针用户个性化 的信息,如用户的访问历史、用户的知识水平、教育程度、用户访问的资 源的标题、内容、资源被访问的频率、资源的影响因子等为用户推荐符合 其偏好特征的信息,数字图书馆环境下的个性化推荐技术就是充分利用用 户的个性化信息,把用户需要的信息传送给用户,把和用户无关的信息过 滤掉,使数字图书馆能够根据用户的特点为不同时期、不同背景、不同目 的的用户提供不同的服务,以满足不同的需求,实现个性化信息检索和信 息推荐,提高数字图书馆的服务质量,提高资源的利用率。 1 2 研究现状 个性化推荐是指根据用户的兴趣特点,向用户推荐其感兴趣的信息, 其原理是根据用户模型寻找与其匹配的信息,或者寻找具有相近兴趣的用 户群,而后相互推荐浏览过的信息个性化推荐技术是个性化服务的一项主 要技术。该技术己经在数字图书馆、电子商务、w e b 检索等各个领域广泛 应用,不同领域个性化推荐技术根据用户的个性化信息主动为用户提供感 2 第l 章绪论 兴趣的资源。 1 2 1 个性化推荐的研究现状 下面按照基于规则的推荐、基于内容的推荐、协作过滤的推荐来介绍 个性化推荐的研究现状。 ( 1 ) 基于规则的推荐基于规则的推荐是指根据已经生成的规则向用 户推荐信息方式,该方式较多的应用于电子商务网站,根据用户浏览和购 买的日志生成规则,通过规则推算出用户还没有浏览的或未购买的感兴趣 的内容,然后根据规则的支持度,对这些内容排序并展现给用户。 基于规则的推荐系统,如i b m 的w e b s p h e r e ,b r o a d v i s i o n ,i l o g s l 等,允许系统管理员根据用户的静态特征和动态属性来制定规则,一个规 则本质上是一个i f - t h e n 语句,规则决定了在不同的情况下如何提供不同 的服务。规则可以利用用户静态属性来建立,也可以利用用户动态信息来 建立。基于规则的推荐系统的优点是简单、直接,缺点是规则的质量很难 保证,而且不能动态更新,随着规则数量的增多,系统将变得越来越难以 管理。 ( 2 ) 基于内容的推荐基于内容的推荐是指通过比较资源与用户模型 的相似程度向用户推荐信息的方式。由于基于内容的推荐需要进行匹配计 算,因此较多的应用于可计算的文本领域,如浏览页面的推荐、新闻组中 的新闻推荐等。 基于内容过滤的系统如p e r s o n a lw e b w a t c h e r l 6 1 ,s y s k i l l & w e b e r t 7 1 。 l e t i z i a i 8 1 ,c i t e s e e r 9 1 ,i f w e b 1 0 】,s i f t e r l l l l ,p v a l l 2 1 ,w e b m a t e 【1 3 l , w j b a c e 【1 4 1 ,e l f i t l 5 1 和w e b p e r s o n a l i z e r 1 6 】等,它们利用资源与用户兴趣的 相似性来过滤信息。基于内容过滤的系统其优点是简单、有效,缺点是难 以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源, 只能发现和用户已有兴趣相似的资源。 ( 3 ) 协同过滤推荐协同过滤推荐是指通过相同或相近兴趣的用户对 资源的评价向用户推荐信息的方式。该方法是通过比较用户之间的相似性 燕山大学工学硕士学位论文 来推荐信息,即先对用户进行分类,既适用于可计算的文本领域,又可应 用于其它领域,如音乐、电影、书等。 协同过滤推荐的代表系统主要有:w e b w a t c h e r t l 7 1 ,s i t e s e e r o s l , l i k e m i n d s 0 9 l ( w w w m a c r o m e d i a c o r n ) 等。协同过滤推荐的优点是可发现用户 可能感兴趣的新信息,而且对推荐对象没有特殊要求,能处理非结构化的 复杂对象,如音乐、电影。缺点是存在两个难点:一是稀疏性,即在系统 使用初期,由于系统资源还未获得足够多的评价,系统很难利用这些评价 来发现相似的用户;另一个是扩展性,即随着系统用户和资源的增多,系 统的性能会越来越低。 基于内容和协作过滤方法的结合有助于克服各自的缺点。已经有很多 工作把两种技术合并以获得更精确的推荐,称为混合推荐技术。混合推荐 是指既通过比较资源与各个用户模型的相似度进行基于内容的推荐,又通 过相似兴趣的用户群进行协同过滤推荐的一种方式。该方法具有较好的推 荐性能,它同时采用了基于内容的推荐和协同过滤推荐两种技术,结合这 两种技术可以克服各自的一些缺点,为了克服协同过滤推荐的稀疏性问题, 可以利用用户浏览过的资源内容预期用户对其它资源的评价,这样可以增 加资源评价的密度。利用这些评价再进行基于内容的推荐,从而提高协同 过滤推荐的性能。提供混合推荐服务的系统o p e n b o o k m a r k l 2 0 1 , w e b s l f t l 2 ”,f a b 2 2 1 ,a n a t a g o n o m y l 2 3 1 和d y n a m i cp r o f i l e r 2 4 】等。 1 2 2 数字图书馆推荐系统存在的问题 用户使用推荐系统希望得到真正想要的信息,如果系统推荐的信息对用 户没有多大用处,则用户将放弃使用该推荐系统,现有的技术和算法面临 以下挑战。 ( 1 ) 最初评价问题如果要推荐的对象无法使用特征来表达,则不能使 用信息过滤技术进行推荐,需通过和用户具有相似偏好的其他用户对内容 的评价向用户推荐,但如果一个对象没有被任何用户加以评价,就得不到 推荐。反过来,没有被推荐的对象也很少得到用户的评价。绝大多数用户 4 第1 章绪论 选择从其他人的评价情况下得益而不愿花费精力和时间对内容评价。如果 没有其他机制解决“最初评价”问题的话,仅仅依赖用户的利他主义来克 服“最初评价”问题是不够的。 ( 2 1 数据稀疏问题协同过滤技术在计算两个用户间的相似度时要求 两个用户至少对某两个对象都进行了评价。而在实际情况下,大部分用户 对对象的评价不到对象数目的1 。如a m a z o n c o r n 中有百万册书籍,即使 一个用户对1 的书籍发表意见,对用户来讲也是非常庞大的( 万册) 。所以 在计算用户相关性( 或相似度) 时,许多用户根本是无关的。 ( 3 ) 可扩展性系统中用户的增长和内容的大量增加带来的计算代价 的复杂度不是线性的,很难满足基于w 曲的推荐系统的实时性要求。 ( 4 ) 数据空间的扩展现在推荐系统只考虑用户对内容的评价,有两个 维:用户和对象,u s e r x l t e m s r a t i n g s ,没有考虑其他特征。如用户希望 不同时期借阅不同的书,这样就涉及到3 个维,用户、对象和时间。u s e r i t e m s x t i m e 寸r a t i n g s 面对这些挑战,在推荐算法的具体设计和实现上,以协同过滤技术为 主,在克服其缺陷( 数据矩阵的稀疏性、可扩展性、噪音等) 的基础上结合 其他技术,改进推荐结果的质量。 1 3 本文主要研究内容 本文在广泛调研和对大量中外文献分析的基础上,结合当前个性化服 务推荐技术的前沿,主要进行以下工作。 针对传统协作过滤算法存在的评价矩阵稀疏性问题,提出了一种基于 聚类技术的推荐算法,该算法采用自组织特征映射网络和k - m e a n s 技术相 结合对图书资源进行聚类,经聚类技术对资源项进行预处理后再进行推荐, 从而缩小了近邻搜索的范围和需要预测的图书资源数目,很好地解决了因 用户专业背景差异而导致的评价矩阵稀疏性问题,提高了推荐的准确度, 并且通过实验对算法的性能进行了验证分析。 另外,本文还提出了关联规则和在线推荐算法的研究和改进,通过对 壅坐奎兰三堂堡主兰垡丝苎 频繁模式增长算法的改进,减少规则数量,避免重复的推荐,运行的效率 大大提高,并结合了在线推荐方法,达到了较满意的推荐效果。 1 4 本文的组织结构 本文各章的结构安排如下。 第1 章为绪论,本章主要介绍了数字图书馆个性化信息推荐系统提出 的背景及其研究意义,介绍了推荐系统的研究现状,分析了数字图书馆个 性化信息推荐系统面临的主要挑战,介绍了本论文主要的研究工作及取得 的主要研究成果。最后,给出了本文的整体组织结构。 第2 章为数字图书馆个性化服务,本章是对整个数字图书馆个性化服 务研究现状的回顾,涉及个性化服务系统的体系结构及关键技术到个性化 服务系统的多个方面,力图描述数字图书馆个性化服务研究的全貌。 第3 章为基于聚类的数字图书馆推荐算法研究,将自组织特征映射网 络和k - m e a n s 技术相结合对图书资源进行聚类,从而缩小了近邻搜索的范 围和需要预测的图书资源数目,很好地解决了因用户专业背景差异而导致 的评价矩阵稀疏性问题,提高了推荐的准确度。 第4 章为关联规则和在线推荐算法的研究和改进,在基于关联规则的 推荐技术方面,直接使用频繁模式增长算法会产生数量非常可观的关联规 则,再根据这些规则向用户推荐主题会给系统造成很大的负担,且可能造 成大量重复的推荐。通过对频繁模式增长算法的改进,运行的效率大大提 高。并结合了在线推荐和离线推荐方法,达到了较满意的推荐效果。 第5 章为实验验证。本章对推荐的评价标准进行了介绍,并详细介绍 了评价的主要指标和主要方法。然后,对实验环境及数据来源进行了说明。 最后通过对改进前和改进后的算法性能进行比较,对相关结果进行分析。 6 第2 章数字图书馆个性化信息服务 第2 章数字图书馆个性化信息服务 2 1 个性化信息服务系统的服务方式 个性化信息服务技术目前还不够成熟,各种应用还处于发展之中,目 前主要有以下服务方式。 首先是传统图书馆服务向网络的迁移,如很多个性化系统都提供了借 书、续借、预订、图书馆通知功能等。这些功能传统的图书馆都己具备, 通过向网络的迁移,用户可以随时随地地使用这些服务,使用起来更加方 便,图书馆的工作效率也大大提高了。 其次是一些在网络条件下产生的一些新的服务项目,如数字化制作服 务、视频点播、借阅到期提醒等。这些服务充分发挥了信息设备的优势, 其效果是传统图书馆服务所无法企及的。 还有主动信息服务,这是最能体现个性化信息服务优势的服务方式。 主动信息服务主要依靠建立用户模型和信息过滤技术,根据用户的个人兴 趣和需求对图书馆的信息流进行过滤,仅将用户可能感兴趣的信息发送给 他们。 主动信息服务还可分为两类,一类是在线的内容推荐服务。如一些网 站根据用户浏览网页的主题和内容等信息推测用户的兴趣,并向用户推荐 主题和内容类似的网页。另一类是离线的信息推送服务,系统通过数据挖 掘,人工智能技术分析用户日志或用户个人信息数据库,建立用户兴趣模 型,进而将一些用户可能需要的信息通过电子邮件等形式主动推送到用户 手中。比如,著名的电子商务网站a m a z o n e o m 和e b a y c o r n 根据用户过去的 购买记录或者拍卖记录,对每个用户建立他的客户模型,给每个用户发去 他们最可能购买的商品资料【2 5 1 。这样不但降低了成本,还可以相应的增加 用户购买率。 其他的服务方式还有使用界面风格的定制,功能的定制等。允许用户 7 燕山大学工学硕士学位论文 对系统显示界面的颜色、布局、背景等做出选择,定制自己常用的网站、 数据库、图书资源等的链接,这样系统根据用户身份的不同提供不同的显 示界面,使系统更加人性化,也方便了用户的使用。 2 2 典型个性化服务系统的分析 每个个性化服务系统都有自己的特点,下面分析一下在数字图书馆研 究领域具有代表性的3 个系统。 ( 1 ) t a p e s t r y 系统1 9 9 2 年g o l d b e r g 等人首次提出了关于“协同过滤”的 描述,并研制了从文集中检索特定文章的t 印e s t r y 【2 6 】系统。t a p e s t r y 系统允 许用户对阅读过的文章发表意见,其他用户不仅可以根据关键字检索文章, 还可以根据用户的评注意见决定阅读哪些文章。在t a p e s t r y 系统中,设定 的前提是每一个用户相互了解,这样用户知道哪些人的评注意见值得考虑, t a p e s t r y 不是自动地根据用户的兴趣向用户推荐。而是需要用户构造复杂 的查询才能得到检索结果。虽然t a p e s t r y 系统相对后来的系统有很多不足 之处,但从这时起,关于推荐系统和协同过滤技术的研究已引起广泛注意。 ( 2 ) f a b 系统f a b 2 7 】是s t a n f o r d 大学数字图书馆项目的一部分,它的设 计思想是,从用户已经评价的文档中抽取一定特征组成用户概况表( u s e r p r o f i l e ) ,一个用户具有一个用户概况表,使用t f i d f 向量表示。同样地, 也使用t f i d f 向量来描述文档,计算用户概况信息与文档间的相似度,把 与用户概况表内容相似程度高的文档向用户推荐。另外,比较两个用户概 况表内容的异同,得到两个用户间的相似度,把和某一用户相似的其他用 户的意见向该用户推荐,综合这两种推荐得到对特定用户的推荐结果。另 外一种推荐的情形是,打分特别高的网页将会直接向用户的最近邻居们( 即 和用户具有相似偏好的其他用户) 推荐。 ( 3 ) c i t e s e e r 系统c i t e s e e r 是n e c 研究院包含5 0 万篇计算机科学方面 的文章的在线数字图书馆,它采用自动引用索引提高数字图书馆中科学文 献分发或检索的质量。考虑了文档间的引用关系按照文章声望的高低向用 户发布,另外有些系统也考虑文章的名声,首先把文档间的链接结构表示 8 第2 章数字图书馆个性化信息服务 为一有向图,图的结点为w e b 页,人度为指向结点的页的数目,出度为结 点包含的超链接数目。计算w e b 页的声望是基于这样的假定:如果一个网 页有另外一个重要网页指向它,则这个网页也是重要的,如g o o g l e ,i b m 的c l e v e r ,c o m p a c td i g i t a l 2 8 能j w e ba r c h e o l o g y 2 9 1 等产品或原型系统。这些 系统从大的分类上讲为信息检索系统,但同时也包含了信息过滤及协同过 滤技术。 2 3 个性化服务的关键技术 为满足用户的需求个性化服务在数字图书馆领域得到了较快的发展, 按其关键技术可分为个性化的信息描述、个性化信息获取和用户建模。 2 3 1 个性化信息描述 用户个性化信息用来描述用户的个性化特征和偏爱,用户的很多特征 和动作都能不同程度的反映用户的偏爱,如用户的性别、年龄、所在国家 和地区、职业、教育程度、婚否、爱好、专业领域,阅读的文章内容等。 对个性化推荐系统来说,最重要的是用户的参与,为了跟踪用户的兴趣与 行为,有必要为每个用户建立一个用户描述文件。用户描述文件刻画用户 的特征与用户之间的关系,用户描述文件表达不同的个性化服务系统中的 用户描述文件各自的特点,用户描述文件从内容上可以划分为基于兴趣的 和基于行为的两种类型。基于兴趣的用户描述文件可以表示为加权矢量模 型、类型层次结构模型、加权语义网模型、书签和目录结构等。基于行为 的用户描述文件可以表示为用户浏览模式或访问模式。在具体实现时可以 综合基于兴趣和基于行为这两种表达方式。用户描述文件可以用文件来组 织,也可以用关系数据库或其他数据库来组织。目前有一些系统采用基于 x m l 3 0 l 的r d f ( r e s o u r c e d e f i n i t i o n f r a m c w o r k ) 3 1 】来表达用户描述文件,并 利用支持x m l 的数据库系统来存储用户描述文件,这样不仅利用了x m l 的优点,也保持了系统的性能。 9 燕山大学工学硕士学位论文 不同的个性化系统的用户个性化信息的内容会有所不同,亚利桑那大 学的z a n h u a n g 等人提出的基于图的推荐算法中,用户描述信息包括所在国 家、城市、生日、教育情况、职业、性别、婚否、是否有孩子、孩子个数、 孩子的平均年龄,表示成一个特征向量来描述用户的个性。c a r n e g i em e l l o n u n i v e r s i t y 开发w e b w a t e h e r t 3 2 】系统的用户个性化信息在初始时以关键字 列表的形式给出,用户浏览后要给出是否找到所需信息的反馈信息,用它 来更新个性化描述。p e r s o n a lw e b w a t c h e r l 3 3 1 不需用户给出表示目的的关键 字和对结果页面的评价,只记录用户请求的页面地址。明尼苏达大学的 g r o u p l e n 系统是一个n e t n e w s 协作过滤系统。用户需要显式给出反馈信息, 系统记录用户浏览的页面以及所花费的时间。s t a n f o r d 大学的f a b 系统是一 个基于协作过滤的推荐系统,把内容过滤和协作过滤技术相结合,用户个 性化信息用加权关键字向量表示,从用户喜欢的页面中提取的关键字权重 被加到用户个性化信息中相应关键字的权重值上。s u s a ng a u e h 等人把 o n t o l o g y 用于个性化信息的描述中,根据用户浏览的网页以及网页的内容、 长度、浏览时间等产生用于描述用户个性的概念层次 3 4 】。大多数推荐系统 都是基于用户行为进行推荐的,即通过分析用户的行为获取用户的个性化 描述信息。 2 3 2 个性化信息获取 不同系统的个性化信息不同,获取的方式也不同,主要有两种方式: 显式获取和隐式获取。 用户第一次使用个性化系统时,系统可要求用户注册自己的基本信息, 如姓名、性别、年龄、职业等,并填写自己感兴趣的内容。用户的自然情 况和兴趣爱好都可能随着时间的变化而变化,系统需保持用户个性化信息 与用户当前情况的一致性。系统可以让用户自主地修改个性化信息,也可 以根据用户的反馈信息自动修改。通过用户主动给出自己的基本信息或反 馈信息而获得个性化信息的方法称为个性化信息的显式获取,显式获取个 性化信息的方法简单而直接,用户信息是显式给出的和确定的,可作为个 1 0 第2 章数字图书馆个性化信息服务 性化服务的依据。但是,它存在两个主要的问题:一方面,用户一般都很 注意个人信息的保密性,因此在收集用户信息之前,需要分析用户愿意提 供什么信息。另一方面,用户提供的信息过少时不能充分表达用户的个性, 而系统要求过多的用户干预则会让用户厌烦。一般情况下,很少有用户向 系统主动表达自己的喜好,因此这种做法很难收到实效。 隐式获取是在用户与系统交互的过程中,通过分析用户的行为获取用 户的个性化信息。个性化信息的隐式获取不要求用户提供什么信息,由系 统自动完成,隐式获取又可分为行为跟踪和日志挖掘【3 ”。 比较实际的做法是行为跟踪,因为用户的很多动作都能暗示用户的喜 好。不同的系统中用户有不同的动作,如电子商务中用户的动作是购买; w e b 检索中用户的动作是提交查询、浏览、前进、后退、点击鼠标、拖动 滚动条等;数字图书馆中用户的动作包括查询、浏览、下载、标记书签、 反馈信息等。研究表明,简单的动作( 如点击鼠标1 不能有效地揭示用户的 兴趣,而浏览页面和拖动滚动条所花的时间可以有效地揭示用户的兴趣。 用户查询、访问页面、标记书签能有效揭示用户的兴趣。 个性化信息获取常采用数据挖掘的方法,通过分析系统日志可以获得 相关页面、相似用户群体和用户访问模式等信息,个性化服务系统可以利 用这些信息创建或更新用户个性化信息。w e b 日志挖掘 3 6 1 中最常使用的方 法是根据网页的点击次数来评价用户对该网页的兴趣,其实这种方法是不 完整的,而且经常是不正确的,但该方法可用于辅助其它曰志分析技术。 尽管w e b 日志的信息不够全面,但还是可以从中发现许多有意义的信息, 比如通过收集用户顺序请求的日期和时间,可以分析出用户在每个资源上 所花费的时间,从而可以推断用户对该资源感兴趣的程度;通过收集用户 感兴趣的领域,有利于对用户感兴趣的内容进行分类;通过分析用户请求的 顺序有利于预测用户将来可能的行为,从而推荐合适的信息。 2 3 3 用户建模 用户建模是指从有关用户兴趣和行为的信息中归纳出可计算的用户模 燕山大学工学硕士学位论文 型的过程。可计算性是用户模型的基本要求,在个性化服务系统中的用户 模型不是针对用户个体的一般性描述,而是一种面向算法的、具有特定数 据结构的形式化的用户描述。 用户建模是个性化服务的基础和核心,无论何种形式的个性化服务, 都需要首先建立对用户的描述,然后才能据此提供针对不同用户的个性化 服务。根据建模过程中用户的参与程度,用户建模技术可以分为用户手工 定制建模、示例建模和自动用户建模。 2 3 - 3 1 用户手工定制建模用户手工定制建模是指用户模型由用户自己 手工输入或选择的用户建模方法。如用户自己输入感兴趣的关键词列表, 或选择感兴趣的栏目等。卡内基梅隆大学的w e bw a t c h e r 和y a h o o 站点1 9 9 6 年推出的m y y a h o o 是用户手工定制建模的典型代表。但用户手工定制建模 存在着3 个方面的不足。 ( 1 ) 因为建模过程完全依赖于用户,容易降低用户使用系统的积极性; 用户不愿意参于对系统的训练,即使用户知道对系统进行训练会给自己带 来好处。 ( 2 ) 用户难以全面、准确的罗列自己感兴趣的栏目或关键词,从而导致 用户模型不够准确。 ( 3 ) 当用户兴趣发生变化时,用户必须重新输入用户模型;用户手工定 制的用户模型是静态的这与用户兴趣的渐变性不符。 2 3 3 2 示例用户建模示例用户建模是指由用户提供与自己兴趣相关的 示例及其类别属性来建立用户模型的建模方法。由于用户对自己的兴趣和 偏好等最有发言权,因此由用户提供的有关自己兴趣的示例最能集中、准 确的反应用户的兴趣和偏好等特点,加州大学i r v i n e 校的s y s k i l l & w e b e r t 是 示例用户建模的典型代表。 2 3 3 3自动用户建模 自动用户建模是指根据用户的浏览内容和浏览行 为自动构建用户模型、建模过程无须用户主动提供信息的建模方法。 自动用户建模的主要代表有卡内基梅隆大学的w e bw a t c h e r ,德国国 家研究中心的e l h 麻省理工学院的l e t i z i a 等。 自动用户建模实际上是改进了示例用户建模方法中的示例获取途径, 1 2 第2 章数字图书馆个性化信息服务 将其转化为无须用户标注的自动示例获取方法。通过对用户浏览页面的聚 类和分类就能够得到用户感兴趣的主题,从而实现自动建模。此外,w e b 日志挖掘也是一条实现自动用户建模的途径。自动用户建模虽然存在着容 易引入噪声,不利于构建高质量的用户模型的缺点,但是,自动用户建模 无需用户主动地提供信息,不会对用户造成干扰,有利于提高个性化服务 的易用性,促进个性化服务的快速发展。 2 4 个性化服务的主要形式 下面将从个性化信息检索、个性化推推荐、个性化网站来介绍个性化 服务的主要形式。 2 4 1 个性化信息检索 信息检索是用户寻找、定位感兴趣信息的主要途径,i m e m e t 信息检索 服务的质量决定了用户使用i n t e m e t 信息的效率。现有的i n t e r n e t 检索服务没 有考虑用户的差异,对于任何用户,只要输入的关键词相同,返回的检索 结果就完全相同。而实际上,不同用户由于背景知识、兴趣爱好等方面不 同,需要的信息则往往是不同的。当用户利用搜索引擎搜索信息时,往往 会得到大量无用的信息充斥其间,而真正满足用户需要的信息则淹没在搜 索返回的信息海洋中了,这种现象已经受到用户越来越多的不满。 传统的信息检索根据用户提交的检索词在文本集中查找匹配的文本。 数字图书馆中的文本检索模型有三种:布尔模型【3 7 1 、向量空间模型3 8 】和概 率模型1 3 。传统的检索方法是通用的方法,相同检索词的检索结果相同。 传统的检索显然不能满足不同背景、不同目的和不同时期的查询要求。个 性化信息检索为了满足这一要求,需要重新考虑用户检索要求的表达,并 考虑新的支持个性化服务的检索模型。 个性化检索的最简单的表达方式是把用户的检索条件表示为关键字列 表。但是关键字列表不能完整地表达用户的需求,不同的关键字对不同时 燕山大学工学硕士学位论文 期的用户或不同背景的不同用户来说有不同的级别。因此,很多系统使用 结构化信息来表示用户的需求,如p e a ,s i t e s e e r ,p s u n ,s i t e i f 等。s m a r t p u s h 把用户个性化信息存储成由4 0 6 0 0 个节点组成的概念层次,把概念层 次与用户的查询相结合【4 0 1 。k a n s a s 大学的s u s a ng a u c h 等人把用户个性化信 息构造成4 4 0 0 个节点构成的概念层次,用于检索和导航,提高了返回结果 满意程度,是通过_ n i c o l ag u a r i n o 实现的【4 1 】。o n t os e e k 系统针对产品目录 的检索问题,把结构化的内容表示和语言o n t o l o g y 相结合,提高了基于内 容检索的查全率和查准率。c a r n e g i em e l l o n 大学的l e e j a yw u 等人提出一种 同时适合于向量空间和度量空间的处理离散查询的方法,用于多媒体数据 和传统数据库,f a n gl i u 等人提出的个性化w e b 检索方法中根据用户的描 述信息把用户查询限制在某个类别范围之内,从而提高了查询的准确性和 查询效率。微软研究院的s u s a nd u m a i s 表明概率模型比矢量空间模型更好 地表达了用户的兴趣和变化【4 2 1 。 2 4 2 个性化推荐 个性化推荐可以采用基于规则的技术、基于内容过滤的技术和协作过 滤的技术。 2 4 2 1 基于规则的技术规则可以由用户定制,也可以利用基于关联规 则的挖掘技术来发现,利用规则来推荐信息依赖于规则的质量和数量,基 于规则的技术其缺点是随着规则的数量增多,系统将变得越来越难以管理。 一个规则本质上是一个i f t h e n 语句,规则可以利用用户静态属性来建立, 也可以利用用户动态信息来建立。为了利用规则来推荐资源,用户描述文 件和资源描述文件需用相同的关键词集合来进行描述。 信息推荐时的工作过程是这样的,首先根据当前用户阅读过的感兴趣 的内容,通过规则推算出用户还没有阅读过的感兴趣的内容,然后根据规 则的支持度( 或重要程度) ,对这些内容排序并展现给用户。 2 4 2 2 信息过滤技术信息过滤技术可分为基于内容过滤的技术( c o m e n t b a s e df i l t e r i n g ) 和协作过滤技术( c o l l a b o r a t i v ef i l t e r i n g ) 。基于内容过滤的 1 4 第2 章数字图书馆个性化信息服务 技术是通过比较资源与用户描述文件来推荐资源。它的关键问题是相似度 计算,对于矢量空间模型来说,通常采用的方法是余弦
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Brand KPIs for hotels:Blue Tree Hotels in Brazil-英文培训课件2025.5
- 光源光束稳定控制技术研究
- 行政职权目录
- 柠都新城项目部工作计划13P
- 合肥租赁公司管理制度
- 介绍学校中队活动方案
- 中考地理复习教案第7课时 亚洲和欧洲
- 从化迎新春活动方案
- 仓颉造字活动方案
- 仙人线下活动策划方案
- 广东省深圳市南山区2023-2024学年七年级下学期期末语文试题(含答案)
- 工程力学(山东科技大学)知到智慧树期末考试答案题库2025年山东科技大学
- 补缴社保员工协议书
- 辐照灭菌委托协议书
- 2025标准劳动合同范本及模板
- 食品安全与营养-终结性考核-国开(SC)-参考资料
- 2025房地产公司员工劳动合同模板
- 宗教考试试题及答案
- 典型主机遥控系统AC系统维护与管理挪威Kong
- 上海申铁投资有限公司招聘笔试题库2025
- 转让酒庄合同协议
评论
0/150
提交评论