




已阅读5页,还剩74页未读, 继续免费阅读
(计算机应用技术专业论文)个性化新书推荐系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
l | 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 芗毒弓3 男 j ,l ,一 n 7 日期:丝坐三 l 卜 j11 l 卜 i 摘要 摘要 网络经济与信息技术的发展,使得高校图书馆的服务空间日益扩大,个性化 信息服务也逐渐成为新型服务模式的主流。新书推荐是图书馆为读者提供个性化 信息服务的一个重要方面,新书推荐服务改变传统图书馆被动服务方式,能根据 用户的兴趣偏好主动地向用户推荐图书。 本文所要解决的问题就是根据读者的不同需求,跟踪最新的图书馆资源,在 第一时间告知读者,达到服务的个性化和资源利用的最优化,把图书馆的服务模 式由被动变成主动。本文所做的工作主要包括以下几点: ( 1 ) 本文提出了数据挖掘技术在图书馆系统中的应用模型,将数据挖掘技术 与图书馆个性化服务结合在一起; ( 2 ) 本文通过对读者借阅图书历史记录的分析,将图书类别进行聚类,与读 者兴趣类别进行匹配,从而定义了个性化新书推荐模型。 ( 3 ) 对读者进行新书推荐。系统定期对新入库的图书进行扫描,利用图书与 读者兴趣对比,将满足一定相似性要求的图书以网页或电子邮件的方式推荐给读 者,使读者及时看到感兴趣的新书的摘要信息以及馆藏信息。 通过上述的工作,将使读者更充分的利用图书馆,最大限度地满足读者需求, 从而进一步发挥图书馆在教学科研中的支柱作用。 关键词个性化服务;推荐系统:数据挖掘;聚类分析 h - 一i j 1 s e r v i c es p a c eo ft h ea c a d e m i cl i b r a r yi sm o r ea n dm o r ee n l a r g e d ,t h ep e r s o n a l i z e d i n f o r m a t i o ns e r v i c eb e c o m e st h em a i nc u r r e n to fn e ws e r v i c em o d e l r e c o m m e n d i n g n e wb o o k si st h ei m p o r t a n tf i e l do fw h i c ht h ea c a d e m i cl i b r a r yp r o v i d e sp e r s o n a l i z e d i n f o r m a t i o ns e r v i c e ,r e c o m m e n d i n gn e wb o o k ss e r v i c ec h a n g e st h et r a d i t i o n a ll i b r a r y p a s s i v i t ys e r v i c e ,a n d c a l lr e c o m m e n dn e wb o o k sf o r w a r d l yb yt h ei n t e r e s t so f r e a d e r s t h ep r o b l e mw h i c hn e e d st ob es o l e di nt h i sp a p e ri st of o l l o wt h en e wl i b r a r y r e s o u r c e sa c c o r d i n gt ot h ed i f f e r e n td e m a n do fr e a d e r s ,t h er e a d e rc a nb ei n f o r m e di n t h ef i r s tt i m et h a tc a nm a d et h ep e r s o n a l i z e ds e r v i c ea n dt h em a k i n gu s eo fr e s o u r c e o p t i m i z a t i o n ,a n di tc h a n g e st h el i b r a r ys e r v i c ef r o mp a s s i v em o d et op r o a c t i v em o d e t h ew o r ko f t h i sp a p e ri si nf o l l o w i n ga s p e c t s : f i r s t l y , t h ei d e ao fa p p l y i n gd a t a - m i n i n gt e c h n o l o g yi nl i b r a r yi sb r o u g h tf o r w a r d , a n di tc o m b i n e dt h ed a t a - m i n i n ga n dp e r s o n a l i z e ds e r v i c et o g e t h e r s e c o n d l y , t h o u g ha n a l y z i n g t h er e c o r d sw h i c ht h er e a d e rb o r r o w e db o o k s , d o i n gt h eb o o kc a t e g o r yc l u s t e r i n g ,a n dm a k i n gr e a d e r si n t e r e s t sm a t c h i n gu pt h e c a t e g o r yo f t h eb o o k s ,t h er e a d e ri n t e r e s tm o d ei sd e f i n e d t h i r d l y , r e c o m m e n d i n gt h en e wb o o k st or e a d e r s t h es y s t e ms c a n st h eb o o k s p u ti ns t o r a g eo nar e g u l a rb a s i s ,u s i n gb o o k sa n dr e a d e r si n t e r e s t e di nc o n t r a s t ,w i l l r e c o m m e n dt ot h er e a d e r st h eb o o k st h a tm e e tt h er e q u i r e m e n t so fac e r t a i ns i m i l a r i t y b yp a g eo re - m a i l ,s ot h a tr e a d e r sc a nr e a ds u m m a r yo fi n f o r m a t i o no fn e wb o o k si n t h et i m e l y , a sw e l la si n f o r m a t i o nc o l l e c t i o n t h r o u g ht h i sw o r k ,t h el i b r a r yw i l lb em o r ef u l l yu s e db yr e a d e r s ,a n dt h er e a d e r s d e m a n dw i l lb es a t i s f i e da sm u c ha sp o s s i b l e ,t h e r e b yt h el i b r a r yw i l lp l a yab i gp a r ti n t e a c h i n ga n dr e s e a r c ha c t i v i t i e s k e y w o r d sp e r s o n a l i z e ds e r v i c e ;r e c o m m e n d a t i o ns y s t e m ;d a t am i n i n g ;c l u s t e r a n a l y s i s i i i r _,】一一 目录 口罩 目水 摘要i a b s t r a c t i i i 第l 章绪论1 1 1 课题背景1 1 2 本文研究的内容和意义2 1 3 本文内容安排3 第2 章相关知识与技术5 2 1 图书馆信息服务概述5 2 2 个性化推荐系统综述6 2 2 1 推荐系统的概念6 2 2 2 推荐系统的研究现状7 2 2 3 推荐系统的结构9 2 3 数字挖掘概述1 4 2 3 1 数据挖掘的方法1 4 2 3 2 数据挖掘的过程1 5 2 4 本章小结1 7 第3 章新书推荐系统的需求分析1 9 3 1 用户特征1 9 3 2 功能需求1 9 3 3 简要数据流程2 0 3 3 1 总体数据流程图2 0 3 3 2 读者登录数据流程图2 1 3 3 3 读者信息管理数据流程图2 2 3 3 4 急需新书推荐数据流程图2 2 3 3 5 新书推荐数据流程图2 3 3 3 6 后台管理数据流程图2 4 3 4 系统性能需求2 4 3 5 本章小结2 4 第4 章新书推荐系统的概要设计2 5 4 1 系统架构设计2 5 4 1 1 系统开发环境j 2 e e 2 5 4 1 2 系统设计原则2 7 4 1 3 系统运行环境2 7 4 1 4 系统界面设计2 7 4 1 5 系统实施方案2 8 4 2 系统总体设计2 9 4 2 1 系统功能模块图2 9 4 2 2 系统处理流程2 9 北京工业大学工学硕士学位论文 4 2 3 读者登录管理模块3 0 4 2 4 读者信息管理模块3 1 4 2 5 新书推荐模块3l 4 2 6 后台管理模块3 2 4 3 图书类别提取模型3 2 4 3 1 基本分类依据3 2 4 3 2 模型描述3 3 4 3 3k m e a n s 算法3 4 4 4 个性化新书推荐模型3 6 4 4 1 模型描述3 6 4 5 本章小结3 7 第5 章新书推荐系统的详细设计3 9 5 1 数据库结构设计3 9 5 1 1 系统数据库分析3 9 5 1 2 数据预处理4 0 5 1 3 本系统数据表设计4 0 5 1 5 本系统数据库范式4 3 5 3 详细算法设计4 4 5 3 1 读者登录算法4 4 5 3 2 图书类别提取算法4 5 5 3 3 读者信息管理算法5 3 5 3 4 新书推荐算法5 4 5 3 5 后台管理算法5 7 5 4 系统的特征及改进5 8 5 5 1 系统的特征5 8 5 5 2 系统的改进5 9 5 5 推荐系统的研究方向5 9 5 5 1 面临的挑战5 9 5 5 2 进一步研究方向6 0 5 6 本章小结6 0 结论6 1 参考文献6 3 攻读硕士学位期间所发表的学术论文6 7 致谢6 9 一 第1 章绪论 1 1 课题背景 第1 章绪论 近年来网络信息技术迅速发展,高校图书馆的服务方式和内容都面临着新的 挑战。网络环境打破了传统图书馆的受限制因素,例如地域、馆舍、时间和载体 等。现在读者随时随地都可以通过互联网获取信息。可是,飞速增长的信息给我 们带来了方便和快捷的同时,由于信息资源泛滥,造成信息质量严重下降,人们 面对海量数据的时候,往往会感到无所适从,不知所措,人们不得不花费大量时 间去寻找有价值的信息。读者需要解决的主要问题,就是如何从大量数据信息中 迅速找到自身所需信息,读者将更愿意访问那些“信息量大、服务方便、能满足 其个性化服务的要求、富有特色”的图书馆,没有特色的图书馆将被日渐冷落, 难以生存。美国图书馆与信息技术联合会十位著名的数字图书馆专家在年的讨论 会上,个性化定制服务已经成为数字图书馆发展的七大趋势之首。然而,国内图 书馆成功应用个性化定制服务的实例还鲜为少见,即使有些图书馆的主页上设立 了“我的图书馆 项目,但真正点击进入却发现没什么实质性的内容。 中国教育文献保障体系的建成、中国教育网以及i n t e m e t 的广泛应用与普及 共同构成了现代图书馆最主要的网络环境,网络环境把图书馆变成全球网络中的 一个节点,也改变了传统的图书馆信息服务内容和形式,图书馆必须适应社会信 息化发展,不仅要大力开展信息服务,而且要充分展现个性魅力,提高图书馆利 用率。 高校图书馆的个性化信息服务主要针对高校师生在科研和教学两方面的不 同需要,进行了一种对应式的服务。它主要具有两个的显著特点: 一方面是层次性。高校图书馆主要服务对象是高校的教师、学生和科研人员, 这具有较明显的层次性,以华北科技学院为例,教师分为教授、副教授、讲师、 助教,学生只分为本科生和专科生等,不同学校层次不相同。不同层次用户的信 息需求侧重点不同,对提供的信息服务的要求也有所不同。例如对教师来说,他 们的主要侧重点在于使用教学参考资料与研究教学方法上,而对学生来说主要侧 重于学习和获取预备知识或相关知识上。可见图书馆的服务一定要有层次性、针 对性。 另一方面是专业性。高校图书馆的服务对象一般都具有一定专业知识,他们 对信息的需求主要集中在自己从事研究或学习的学科专业上,或者相关学科专业 上。高校开展教学科研大多是按照一定的学科专业体系的,不同学科专业的读者 有着不同的信息需求,同一学科专业的不同层次的读者也有着不同的信息需求。 北京工业大学工学硕士学位论文 高校图书馆的服务应有较强的专业性。 为了迎接现代信息和网络环境的挑战,图书馆必须从根本上提升自己的服务 和对用户的贡献力度,传统图书馆面对不同层次、不同需求的用户只能提供 的服务,而未来图书馆则是提供针对各个层次不同用户需求和每一项特定任 信息服务,当前网络信息技术的飞速发展为图书馆自动化的个性化信息服务 了条件,个性化信息服务改变了图书馆以往“我提供什么,用户就接受什么 作方式,开创了“用户需要什么,我就提供什么”的运作方式,实现个性化 信息推荐是个性化服务的最终目的。 推荐系统是一种在特定类型的数据库中进行知识发现的应用技术,使用多种 分析技术为用户更好的服务,向用户及时、主动和准确地提供所需信息,并 据用户对推荐内容的反馈意见进一步改进推荐结果。个性化信息推荐系统不 对用户提出的要求提供最准确的信息服务,还要能依据个体个性特征,主动 个体可能感兴趣的信息,甚至预测个体可能的个性发展,提前收集相应的信 最后以个性化方式显示给个体。它是实现个性化信息服务的关键。 本文研究的内容和意义 本文研究的是一种基于聚类分析的内容过滤算法所设计的高校图书馆新书 服务系统,图书推荐服务是图书馆个性化信息服务的一种。一般来说,图书 馆平均每个月新进的图书有上千本甚至几千本,可是读者感兴趣的只是很小一部 分,图书馆学要研究的问题就是如何高效地找出对读者有价值的书目。现代的图 书馆都提供检索服务,但是需要读者通过输入关键词检索然后在查询结果中浏览 获取所需的信息,这个就需要读者具备相关专业的知识和并且明确的认识自己的 需要。图书推荐服务不同于传统的检索服务,它是采取主动的服务方式,向读者 提供他可能感兴趣的信息,降低了对读者的要求,缩短了读者查找资料的时间, 并且提供了更丰富更有针对性的信息。目前各图书馆最常见的服务是新书通报, 但是如何针对不同的使用者族群进行个性化的推荐是目前比较缺乏的服务,所以 我们期望能够找到使个性化服务可以应用在图书馆的新书推荐中的方法。 现在几乎所有的高校都采用数据库技术对图书馆信息进行管理,这样是为了 方便图书馆对图书的采购、编目及对图书的流通进行快速、有效的管理。在图书 的流通过程中,产生了大量的数据,其中最重要的数据之一就是学生的借阅信息。 为了提供图书推荐服务,我们需要获取“不同类型的读者喜欢借阅哪类书籍的 信息。在本文中,我们研究了各种推荐算法并针对图书馆新书推荐服务的特点设 计一种改进的内容推荐算法,该算法基于数据挖掘技术中的分类知识对图书资源 和读者信息进行匹配,进而提高图书推荐的效率和内容。图书馆个性化新书推荐 11 l l 第1 审绪论 系统将根据此算法从新进的图书中选择读者感兴趣的部分并推荐给读者。 1 3 本文内容安排 全文共分为五章,具体的章节安排如下: 第一章,绪论。概述了本论文的研究背景,介绍了本文的研究内容和意义。 第二章,相关知识与技术。介绍了本论文研究的相关知识背景,包括图书馆 信息服务的基本知识,推荐系统的基本知识以及数据挖掘的基本知识。 第三章,新书推荐系统的需求分析。对新书推荐系统的用途和设计进行调查 研究,完善功能需求,并整理出系统的数据流程。 第四章,新书推荐系统的概要设计。介绍了该系统的数据流程设计,系统架 构设计,四个功能模块的功能设计和主要功能,以及两个模型的建立。 第五章,新书推荐系统的详细设计。介绍了各个模块中数据库的详细设计, 以及算法的详细设计和程序流程图,总结了系统的特征和缺陷,最后提出了推荐 系统的面临的问题和发展方向。 最后,对本课题进行了总结和展望,并列出了参考文献及致谢内容。总结全 文,展望下一步工作,指出其中的缺点和不足。 4 第2 章相关知识0 技术 第2 章相关知识与技术 2 1 图书馆信息服务概述 传统藏书型图书馆具有文献信息资料的优势,在网络迅猛发展的当今,如何 合理利用网络、通讯及计算机技术为读者服务是一个值得研究的问题。高校图书 馆具有不可比拟的网络优势和通讯优势,可以利用便利的网络条件和计算机软硬 件,对传统信息资源进行收集、扫描、加工、存储、并提供有效存取、利用、检 索等。当代图书馆的明显特征是工作重心从收藏转向获取,从文献描述到文献传 递,提供以用户为中心的服务。 图书馆存在的目的是为读者服务,工作中的任何规划、决策都必须定位与读 者,满足读者的文献信息需要,现代图书馆结合当代先进的信息、网络技术,使 得图书馆的业务不断拓宽。现代图书馆的信息服务是以信息资源为基础,以用户 需求为中心,利用信息技术为手段提供的一体化集成化服务。主要包括文献信息 检索、参考咨询服务、信息定制服务、学科咨询、个性化信息推荐服务。随着 i n t e m e t 技术的发展和新需求的出现,图书馆将会引入更加便捷的服务。 图书馆的发展方向是以用户为中心,以需求为驱动的一体化服务。目前来说, 图书馆信息服务的未来发展有以下内容: 一是电子资源的加工、生成与存储。如电子期刊、书籍的进一步格式清晰化 而有利于读者阅读,同时可以采用多媒体技术,使单纯的书籍文档变为融合音、 视频技术的多媒体文档,如可在电子书籍中加入音乐,动画演示等功能,使人们 在休闲娱乐中获取知识,真正做到寓教于乐,人类的历史进程会给我们启发,由 甲骨文到竹简,再到纸存储。当前及未来的趋势是趋于采用人性化的电子格式存 储。 二是是整合现有资源及整合的服务,能提供一个统一的检索界面供用户使 用,具体的后台服务器如何处理不同的跨库检索完全对用户透明,同时能够良好 地支持移动设备,如等设备。是用户可以在任何地点获取信息。各种资源提供统 一资源描述等标准,分工合作,馆际资源共享,文献保障等也是今后数字图书馆 建设的大趋势之一。 三是个性化信息服务,这个是未来的重点发展之一,由于信息量的巨大,用 户需要获取的是没有冗余且最适合自己的信息。个性化信息服务可以帮助人们提 高查找信息的效率。也体现了机器为人类提供优质服务的大趋势。 北京工业大学工学硕士学位论文 2 2 个性化推荐系统综述 2 2 1 推荐系统的概念 推荐系统( r e c o m m e n d e rs y s t e m ) 是一种为了减少使用者在搜寻信息过程中 所附加的额外成本而提出的信息过滤( i n f o r m a t i o nf i l t e r i n g ,i f ) 机制。它最早出现 在商务系统中,有学者认为一般信息过滤系统也泛称为推荐系统,它不仅可以依 据使用者的偏好、兴趣、行为或需求,推荐出使用者可能有所需求的潜在信息、 服务或产品,还可以将推荐系统与企业电子商务的营运架构整合,将为企业带来 许多潜在的利益。比如商家透过推荐系统根据顾客过去的购买或浏览记录,分析 判断顾客的行为偏好,并以此为推荐的根据进而刺激顾客进行消费,以增加销售 的机会。而几乎所有的大型电子商务系统,a m a z o n 、c d n o w 、e b a y 、当当网 上书店都不同程度地使用推荐技术和系统。目前推荐系统已经广泛应用到各行各 业中,推荐对象包括书籍、音像制品、网页、文章新闻等等,推荐系统的具体应 用领域如表2 1 所示。 表2 1 推荐系统一览表n t a b l e2 - 1r e c o m m e n d a t i o ns y s t e ml i s t 应用领域推荐系统 电子商务 a m a z o n c o m ,d i e t o r e c s ,e f o l ,e n t r e e ,f a i r w i s ,g h a n i ,l e v i s ,l i b r a ,m i a u , r i n d ,s k i e u r o p e c o m 网页 c o m m t ys e a r c h , a s s n t , f a b ,f o x t r o t , i f w e b ,m e m o i r ,m e t i o r e w , p r o f b u i l d e r , q u i c ,q u i c k s t e p ,r 2 p , s i t e s e e r , s o a p , s u r l e n 音乐 c d n o w , c o c o a ,r i n g o 电影 c b c f , n a k i f , m o v i e f i n d e r c o m ,m o v i e l e n s ,r e c o m m e n d e x p l o r e r , r e e l c o m ,v i r t u a lr e v s ( t a t e m u r a ) 新闻过滤 g r o u p l e n s ,p h o a k s ,p t a n g o 电子邮件过滤 t y p e s t r y 专门查找器 e x p e r t i s er e c o m e r , r e f e r r a lw e b 其他 c a m i e l l o ,e l f i ,o w l 个性化推荐系统的研究内容和研究方向主要包括: 1 ) 推荐技术研究:目前主要的推荐技术主要包括基于内容的过滤和协同过滤 两种。由于基于内容的过滤自身的局限性,协同过滤推荐技术是当前研究的主流。 2 ) 实时性研究:在大型个性化推荐系统中,推荐系统的伸缩能力和实时性要 求越来越难以保证。如何有效满足推荐系统的实时性要求得到了越来越多研究者 的关注。 6 1 l i l j 第2 币相关知识与技术 3 ) 推荐质量研究:在大型个性化服务系统中,用户评分数据极端稀疏。用户 评分数据的极端稀疏性使得推荐系统无法产生有效的推荐,推荐系统的推荐质量 难以保证。 4 ) 多种数据多种技术的集成:当前大部分的电子商务推荐系统都只利用了一 部分可用信息来产生推荐。随着研究的深入,新型个性化推荐系统应该利用尽可 能多的信息,收集多种类型的数据,有效集成多种推荐技术,从而提供更加有效 的推荐服务。 5 ) 数据挖掘技术在推荐系统中的应用:随着研究的深入,各种数据挖掘技术 ( 主要包括关联规则挖掘、序列模式挖掘、聚类分析、b a y e s i a n 分类等) 在推荐系 统中得到了广泛的应用。基于w e b 挖掘的推荐系统得到了越来越多研究者的关 注。 6 ) 用户隐私保护研究:由于推荐系统需要分析用户的购买习惯和兴趣爱好, 涉及到用户隐私问题,如何在提供推荐服务的同时有效保护用户隐私值得作进一 步深入的研究。 7 ) 推荐系统可视化研究:推荐系统的目的是为用户提供服务,因此必须为 用户提供友好的可视化服务界面。主要包括推荐结果可视化研究和推荐结果解释 研究等方面的内容。 2 2 2 推荐系统的研究现状 推荐系统之前一直被称为协同过滤( c o l a b o r a t i v ef i l t e r i n g ,简称c f ) 。c f 的概 念是在1 9 9 7 年构建邮件系统时第一次提出的。因此也成为历史上第一个系统基于 i n t e m e t 的推荐系统。这个系统依赖于一个紧密相连的用户群中的用户的显式见 解。协同过滤作为一种减小信息过载的技术,在互联网上得到了广泛的应用,如 互联网上最大的在线书店a m z o n t o m 。推荐系统可以用于图书馆的个性化服务 中,图书馆用户之间能互相分享信息,每个用户都是过滤代理人( f i l t e r i n g a g e n t ) , 可以帮忙筛选馆藏,提供别人借阅书籍意见参考。 由于传统的协同过滤技术根据用户显式评分产生推荐结果,用户使用不方 便,许多研究者提出可以通过挖掘技术获取用户隐式评分。由此,各种数据挖掘 技术也开始应用到推荐系统中。s a r w a r 等人提出了基于关联规则挖掘的推荐系 统。有人提出了基于分类挖掘的推荐系统,将挖掘、关联规则挖掘和决策树技术 应用到电子商务推荐系统中,为网上商店的顾客推荐适合他们需要的产品。有文 献提出了一种通过用户购物的历史记录生成用户模型,并通过用户模型来进行书 籍和c d 的推荐。有文献提出可以通过对w e b 日志的挖掘来提供推荐服务。各种挖 掘技术如关联规则挖掘、聚类挖掘等被应用于w e b 日志的分析中,以提高推荐系 7 北京工业大学工学硕士学位论文 统的精度。 随着i n t e r n e t 的普及和电子商务的发展,推荐系统得到了越来越多研究者的关 注。遗传算法、神经网络等机器学习技术也在推荐系统中得到应用,并且以其良 好的适应性和学习能力越来越受到重视。有文献提出一个利用神经网络和遗传 k m e a n s 算法通过分析用户在电子商务网站的浏览路径来获取用户偏好的方法。 该方法首先利用了神经网络来筛选确定用户常用的浏览路径,然后用遗传 k m e a n s 方法来分析这些路径,最终得到用户的偏好。有文献提出了一种基于自 组织特征映射( s e l f - o r g a n i z e df e a t u r em a p p i n g ,s o m ) 神经网络和案例式推j 里( c a s e b a s e dr e a s o n i ng ,c b r ) 协同过滤推荐系统。还有学者则提出了一个产品订单优 化选择的决策支持系统。对于决策过程中的定性因素,首先通过调查问卷总结领 域专家的知识,形成i f t h e n 模糊规则,然后用f n n 来学习这些规则。最后用反 馈式神经网络a m i 和e b p 学习算法来整合决策过程中的定性因素和定量因素,并 最终输出结果。 国外比较著名的推荐系统有g r o u p l e n s ,p h o a k s 和r i n g o 等等。g r o u p l e n s 是一个应用于u s e n e t 新闻的协同过滤系统,它的目标是让用户一起协作,从大量 的u s e n e t 新闻中发现他们感兴趣的内容。该系统分为客户端和服务器端两部分。 客户端是一个新闻阅读器n e w s r e a d e r ,服务器端提供协同过滤。n e w s r e a d e r - - 般连接到本地n n t p 服务器,同时也连接到g r o u p l e n s 服务器共享过滤信息,只要 用户下载一篇文档,n e w s r e a d e r 都会g r o u p l e n s ) 艮务器发送消息请求对该文档 内容的预测。此外,用户也可以评价文档,n e w s r e a d e r 会将该用户评价发送到 研o u p l e n s 服务器上进行处理,以提供给其他用户浏览,g r o u p l e n s 会利用这些信 息调整该用户和其他用户的相关性。 t e r v e e n e t 等人开发出了p h o a k s ( p e o p l eh e l p i n go n ea n o t h e rk n o ws t u ) 系 统,将大家都认为值得看的网站推荐给用户。其运作的方式就是分析用户在 u s e n e t 中所张贴的布告,找出文章内所推荐的网站u r l ,并统计每个u r l 有多少 人推荐,藉此来将相关的网站u r l 推荐给需要的人。实验结果证实p h o a k s 是有 效的,可以达到9 0 的正确性。 r i n g o 是麻省理工学院所设计的一个音乐推荐系统。这个系统会先要求使用 者针对一音乐家做评比,再依评比的结果计算使用者相似度,然后将使用者分群, 最后再由同一族群的使用者互相推荐音乐给彼此。 虽然推荐系统己经在我国的电子商务领域开始得到了应用,但目前我国在个 性化推荐和自动推荐方面的理论研究几乎处于初步阶段。事实上,随着我国电子 商务的蓬勃发展,对个性化推荐技术需求不断急剧增加,谁先使用个性化的推荐 技术,谁就可能获得更多的用户。目前,国内对推荐系统研究相对国外有一定差 距,主要表现:1 ) 缺乏个性化的推荐,很多的推荐结果是对所有客户的,是非个 第2 币相关知识丐技术 性化的推荐,可能很多的推荐与某一客户的兴趣并不相符;2 ) 推荐的自动化程度 低,大多数的推荐功能都需要客户经过一段时间与计算机的交互,输入自己的兴 趣信息,然后才能得到结果,系统不能保存客户每次的输入信息;3 ) 推荐的持久 性程度低,目前的推荐技术都是建立在当前客户会话基础上,不能利用客户以前 的会话信息,推荐的持久性程度非常低,这也是我国推荐技术和国外的推荐技术 的一个重要差别;4 ) 推荐方法单一,大多数所用的推荐策略基本就是分类浏览和 基于内容的检索,缺乏多种推荐策略的混合使用,尤其缺少个性化与非个性化推 荐策略的混合使用;5 ) 实时性差,不能在线推荐,有的推荐不能做到在线推荐, 如信函式推荐,使推荐不能及时。因此近年来我国比较重视i n t e m e t 个性化推荐方 面的研究工作。 2 2 3 推荐系统的结构 一般,个性化推荐系统主要可以分为三个模块【2 】:用户输入功能 ( i n p u t f u n c t i o n a l ) 模块、推荐方法( r e c o m m e n d a t i o nm e t h o d ) 模块、输出功能 ( o u t p u t f i m c t i o n a l ) 模块。 2 2 3 1 个性化推荐系统的输入 不同类型的推荐系统,其输入信息也不相同。不同推荐系统根据不同的输入 信息产生不同类型的推荐。推荐系统的输入可以是用户当前的行为,也可以是用 户访问过程中的历史行为。在大型的系统中,为了产生高质量的推荐,推荐系统 可能需要多种类型的输入信息。针对商务系统的推荐系统发展相对成熟,我们可 以看到推荐系统的输入包括多种形式,主要有: 1 ) 隐式浏览输入:将用户访问各种类型的w 曲站点的浏览行为作为推荐系 统的输入,用户的浏览行为与访问一般的w e b 站点没有区别。一般来说,用户 并不知道该推荐系统的存在。在一个电子商务系统中,用户当前正在浏览的商品 信息、用户购物篮中选择的商品、用户的浏览路径等都可以作为隐式浏览输入信 息。在一个图书推荐系统中,用户浏览的图书摘要信息,用户浏览的图书详细内 容,用户的历史借阅信息等都可以作为隐式浏览输入信息。 2 ) 显式浏览输入:也是将用户的浏览行为作为推荐系统的输入,但与隐式浏 览输入不同,用户的显式浏览输入是有目的的向推荐系统提供自己的兴趣爱好。 例如,电子商务系统提供一系列热门商品供用户选择,用户只选择浏览自己感兴 趣的商品列表,电子商务根据用户的浏览行为向用户提供个性化的推荐服务。又 如:图书推荐系统中,用户将自己的专业爱好列入个人信息中,推荐系统将其信 9 北京工业大学工学硕士学位论文 息写入用户特性中,根据其特性向其提供个性化服务。 3 ) 关键字和项属性输入:用户在搜索引擎中输入关键字作为推荐系统的输 入,或者将用户当前正在浏览的商品类别作为推荐系统的输入。这种类型的输入 不同于用户随意的浏览行为,用户输入的目的就是在电子商务系统中搜索自己需 要的商品。 4 ) 用户评分输入:商务系统中,将用户对商品的数值评分数据作为推荐系统 的输入。电子商务推荐系统列出一系列商品让用户评分,用户的评分可以是一个 数值,数值大小表示用户对商品的喜好程度,也可以是一个布尔值,0 代表不喜 欢,1 代表喜欢。用户提供的评分数据使得电子商务推荐系统可以为用户提供个 性化的推荐服务。 5 ) 用户文本评价输入:在一个商务系统中,用户对己经购买的商品或自己熟 悉的商品以文本的形式进行个人评价,推荐系统本身并不能判断这些评价的好 坏。其他用户浏览该商品时,可以看到用户对商品的文本评价信息。 6 ) 编辑推荐输入:将领域专家对特定商品的评价作为推荐系统的输入,领域 专家对商品的性能特点进行全面详细的介绍,用户通过专家的专业介绍,可以对 自己并不熟悉的商品加深认识,从而决定是否购买该商品。在图书推荐系统中, 更可以方便利用高校专家的意见来进行编辑推荐。 7 ) 用户购买历史输入:推荐系统将用户的购买历史作为隐式评分数据。一旦 用户购买了特定商品,则认为用户喜欢该商品。推荐系统根据用户的购买历史产 生相应的推荐。但是用户购买了某件商品并不代表用户喜欢该商品,所以在精确 的推荐系统中,用户可以对购买的商品进行重新评分,从而使推荐系统产生更精 确的推荐。 其他系统的推荐系统的输入内容基本包含在这七项内容之中,比如一个图书 推荐系统,就可以包含全部项目,但是,最后一项应该是读者的借阅历史输入。 2 2 3 2 个性化推荐系统的方法 目前,个性化推荐技术主要包括协同过滤推荐、基于内容的推荐、基于关联 规则的推荐、基于b a y e s i a n 网络技术的推荐、基于h o m i n g 图技术的推荐【3 】,下 面分别详细介绍这几类技术。 1 ) 协同过滤推荐 协同过滤推荐技术是推荐系统中应用最早和最为成功的技术之一。它一般采 用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用 户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好 程度,系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是 l o 第2 币相关知识与技术 对推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影等等。 协同过滤是基于这样的假设:为一用户找到他真正感兴趣的内容的好方法是 首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用 户。其基本思想非常易于理解,在日常生活中,我们往往会利用好朋友的推荐来 进行一些选择。协同过滤正是把这一思想运用到推荐系统中来,基于其他用户对 某一内容的评价来向目标用户进行推荐。 基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的,而目的 是自动的,即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的,不需 要用户努力地找到适合自己兴趣的推荐信息,如填写一些调查表格等。 虽然协同过滤作为一种典型的推荐技术有其相当的应用,但协同过滤仍有一 许多的问题需要解决。最典型的问题有稀疏问题和可扩展问题。 2 ) 基于内容的推荐 基于内容的推荐是信息过滤技术的延续与发展,它是建立在项目的内容信息 上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的 方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系 统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象的特 征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模 型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。 基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏 好改变而发生变化。 基于内容推荐的方法有很多优点:它不需要其它用户的数据,没有冷启动问 题和稀疏问题:能为具有特殊兴趣爱好的用户进行推荐;能推荐新的或不是很流 行的项目,没有新项目问题;通过列出推荐项目的内容特征,可以解释为什么推 荐那些项目;已有比较好的技术,如关于分类学习方而的技术已相当成熟。 缺点是要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构 性,并且用户的口味必须能够用内容特征形式来表达,不能显式地得到其它用户 的判断情况。 3 ) 基于关联规则的推荐 基于关联规则的推荐技术允许用户按照需要定制规则,也可以根据用户信息 利用多种数据挖掘技术来实现,主要以关联规则挖掘为主。 使用项目关联进行推荐的理论解释是:每个用户都有多种兴趣,对应于多个 兴趣组;每条项目关联的前件相当于一个兴趣组,而规则的后件则相当于该兴趣 组的推荐。使用项目关联进行推荐的具体方法如下:假定有一条资源关联 n ,一,。( s u p ,c d h i ) ,如果当前用户对该规则前件中的所有项目,都喜欢,那么就 北京工业大学工学硕士学位论文 把规则的后件,以一定的可信度推荐给当前用户。 使用用户关联进行推荐时,用户关联的后件必须是当前用户,使用用户关联 前件中的用户的共同兴趣模拟当前用户的兴趣,这种模拟的可信度就是用户关联 的可信度。使用用户关联进行推荐的具体方法如下:假定有一条用户关联 n r 厂_ u ( s u p ,c o n f ) ,就可以把用户关联前件中的所有用户都喜欢的项目以一定 的可信度推荐给当前用户。 基于规则的推荐技术的优点是:可以应用于所有领域,具有通用性;而且可 以推荐出新的用户感兴趣的资源。利用规则来推荐信息依赖于规则的质量和数 量。基于规则的技术的缺点是随着规则的数量增多,系统将变得越来越难以管理; 新加入系统的资源由于支持度不够而不会被推荐。 4 ) 基于b a y e s i a n 网
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学信息培训总
- 前端技术模拟面试题及答案
- 患者搬运约束技术培训试题及答案
- 辅警法律知识培训提纲课件
- 农业银行2025兴安盟秋招笔试性格测试题专练及答案
- 邮储银行2025鄂尔多斯市秋招笔试创新题型专练及答案
- 农业银行2025凉山彝族自治州秋招笔试创新题型专练及答案
- 农业银行2025鹰潭市小语种岗笔试题及答案
- 2025年3D打印的食品制造工艺
- 2025行业数字化转型成功案例分析
- 快递分拣人力承包协议书
- 医疗损害责任界定-洞察及研究
- 浙江省G12名校协作体2025学年第一学期9月高三上学期开学联考生物试卷
- 2025年海南省社区工作者招聘考试笔试试题(含答案)
- (2025年标准)监控维护维修协议书
- 国务院部署实施“人工智能+”行动的意见解读
- 2025海南省通信网络技术保障中心招聘事业编制人员(第2号)考试备考题库及答案解析
- 2025年全国中学生天文知识竞赛考试题库(含答案)
- 咸味香精基础知识培训课件
- 2025年医院药师职业技能大赛试题(附答案)
- 筠连王点科技有限公司3万吨-年复合导电浆料配套10吨-年碳纳米管粉体项目环评报告
评论
0/150
提交评论