




已阅读5页,还剩51页未读, 继续免费阅读
(计算机软件与理论专业论文)基于协同过滤的电子商务推荐系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨 - r t 人学硕十学位论文 摘要 本文研究了目前电子商务领域中普遍采用的个性化推荐系统,介绍了个 性化推荐系统的国内外研究现状,重点分析了其中应用最为广泛的基于用户 的协同过滤推荐系统的工作原理,并针对传统的基于用户的协同过滤推荐系 统中所存在的用户评价稀疏、存储空间利用度低、系统自适应性不强等缺点, 提出了一种改进的协同过滤推荐系统。 本文引入了一种改进的十字链表存储结构存储用户一资源评价矩阵中的 数据元素,既可以支持矩阵的动态变化,又最大程度的压缩了系统的存储空 间。同时本文将本体与语义网的理论引入到系统中,通过利用资源之间的语 义关系,来预测用户没有显式评分的资源得分,在一定程度上解决了评价稀 疏性所带来的推荐精度不高的问题。此外,系统将运行结果记录下来,同步 刷新用户资源评价矩阵,使得系统可以充分利用上次运行结果,逐渐提高推 荐精度,有效地改善了系统的自适应性。本文利用统计精度度量方法对传统 的基于用户的协同过滤推荐系统与改进后的推荐系统进行了对比,证明了系 统在推荐精度方面的改进。 关键词:电子商务;推荐系统;协同过滤;十字链表 a b s t r a c t t h i sp a p e rr e s e a r c h e so nt h ep e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e m sc u r r e n t w i d e l yu s e di ne l e c t r o n i cc o m m e r c e a n di n t r o d u c e sg e n e r a ls i t u a t i o no ft h e r e s e a r c ho np e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e m sa th o m e a n da b r o a d t h ep a p e r f o c u s e so nu s e r - b a s e dc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o ns y s t e mw h i c h l s 镪e m o s t l yu s e da n da n a l y z e si t sw o r k i n gp r i n c i p l e t oa i ma t t h ee x i s t i n gp r o b l e m s s u c ha st h es p a r s i t yo fu s e re v a l u t i o n ,t h el o ws t o r a g es p a c eu t i l i z a t i o n ,t h e s h o r t c o m i n go fs e l f - a d a p t i v e t h i sp a p e r r a i s e sas o l u t i o na sa ni m p r o v e d c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o ns y s t e m t h i sp a p e ra d o p t sa l li m p r o v e dc r o s sl i s ts t o r a g es t r u c t u r e t os t o r ed a t a e l e m e n t si nu s e r - r e s o u r c ee v a l u a t i o nm a t r i x ,w h i c h n o to n l yc a l ls u p p o r tt h e d y n a m i cc h a n g eo f t h em a t r i x ,b u ta l s oc a nc o m p r e s ss y s t e ms t o r a g es p a c ei nt h e g r e a t e s td e g r e e a tt h es a m et i m e ,t h i sp a p e rb r i n g st h et h e o r yo f s e m a n t i cw e b a n do n t o l o g yi n t oc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o ns y s t e m ,p r e d i c t i n gt h e s c o r eo fr e s c o u r c et h a tu s e rh a s n tg i v e n a ne x p l i c i ts c o r ew i t ht h eh e l po f s e m a n t i cr e l a t i o n sb e t w e e nr e s o u r c e s ,w h i c h s o l v e st h e p r o b l e m o fl o w r e c o n 埘e n d a t i o np r e c i s i o nb r o u g h ta b o u tb ys p a r s i t yo fe v a l u a t i o n t oac e r t a i n e x t e n t i na d d i t i o n ,t h ei m p r o v e ds y s t e mw i l lr e c o r dt h er e s u l t sa n dr e f r e s ht h e u s e r - r e s 吼】k ee v a l u a t i o nm a t r i xs y n c h r o n o u s l y , w h i c hc a r lt a k ef u l la d v a n t a g eo f d r e v i o u sr e s u l t s t oi n c r e a s er e c o m m e n d a t i o np r e c i s i o ng r a d u a l l y a n dt h e n i m p l r o v e st h es y s t e ma d a p t a b i l i t ye f f e c t i v e l y i nt h i sp a p e r ,s t a t i s t i c a lp r e c t s , o no f m e a s u r e m e n tm e t h o di su s e dt oc o m p a r et h et r a d i t i o n a lu s e r - b a s e dc o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d a t i o ns y s t e m a n dt h e i m p r o v e d c o l l a b o r a t i v ef i l t e r i n g r e c o m m e n d a t i o ns y s t e mi n o r d e rt o p r o v e t h e i m p r o v e m e n t a t s y s t e m r e c o m m e n d a t i o na c c u r a c y k e y w o r d s :e l e c t r o n i c c o m m e r c e ;r e c o m m e n d a t i o ns y s t e m ;c o l l a b o r a t i v e f i h e r i r i 氍c r o s sl i s t 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承翠二 作者( 签字) :功、1 皓 日期: 、一( 1 年弓月ii 目 f 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) : 妒枷 嘞w q l 年硐1 ;日 聊c 鞘:纠贯幻 v 口7 年妒f 多日 哈尔滨1 :程大学硕十学位论文 第1 章绪论 1 1 课题的研究背景及意义 当前w e b 已成为人们获取信息和知识的重要手段,然而随着因特网和电 子商务的不断发展,网络上的资源呈现爆炸式增长,入们不得不花费更多的 精力和时间在浩如烟海的信息资源中查询自己想要的信息。搜索引擎的出现 在一定程度上满足了人们迫切需要能够快速、准确地检索出所需信息的需求, 但是它却存在着三点明显的不足:首先,搜索引擎对信息的查询不够灵活。 它根据用户输入的具体查询信息,如名称、关键字等,执行特定的查询算法, 其返回的查询结果依赖于用户对信息的认知程度,即只有用户向系统提供了 恰当准确的信息描述,系统才有可能产生有价值的反馈,然而用户对信息的 认知程度往往是十分有限的,向系统提供的输入不可避免的存在着一定的模 糊性,这势必会影响到系统反馈的完整与准确。其次,搜索引擎无法挖掘出 用户潜在的需求。用户向系统提供查询信息可以理解为是用户需求信息的一 种显式表达,然而用户对信息的浏览时间、浏览次数等浏览行为实际上也在 一定程度上反映了用户的需求,对于这种潜在的需求,搜索引擎没有办法处 理。最后,搜索引擎无法满足不同背景、不同目的和不同时期人们的查询需 求,即搜索引擎不具备个性化的主动服务特性。 然而随着网络的广泛普及,电子商务对传统的商贸活动产生了革命性的 变化,产生从以商品为中心到以客户为中心的商业模式的转变。新的商业环 境在为企业提供新的商机的同时,也对企业提出了新的挑战。与传统商业模 式不同,电子商务交易双方是不谋面的,商家不能直观地了解客户,能获得 的只是大量的相关数据。这样通过对数据的分析来尽可能地揣摩客户,在适 当的时间向适当的客户推荐适当的商品或服务就显得尤为重要,显然搜索引 擎技术已经不能完全满足当前电子商务的需要,从而导致了个性化服务技术 的提出。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为。其 哈尔滨下程大学硕+ 学位论文 能够更好地理解用户,发现用户隐藏的兴趣和群体用户的行为规律,从而制 定相应的信息过滤策略,按照用户的个性化信息进行主动的推荐服务。它能 为不同用户提供不同的服务,以满足各自不同的需求。运用个性化服务技术 能充分提高站点的服务质量和访问效率,从而吸引更多的访问者。由于具有 很强的实用性,个性化服务技术被广泛应用于电子商务推荐系统使之成为 b 2 c 电子商务平台销售中不可缺少的工具。 推荐系统模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商 品,从而顺利完成购买过程,因此其可以有效保留用户,提高电子商务系统 的销售川。个性化的推荐可以将浏览者变成购买者,依据客户的偏好或兴趣, 适时的提供客户可能有所需求的潜在信息,引起浏览者的购买欲望,若所推 荐的产品符合客户的需求,便可以提高交叉购买的机会。此外,个性化推荐 服务可以改善企业与消费者的关系,通过与客户良好的互动关系了解客户的 需求,提高客户的忠诚度,降低客户流失率胆1 。 从纽约c y b e rd i a l o g u e 调查中可发现接受个性化服务的网络消费者的消 费金额比未使用个性化服务的网络消费者的消费金额要高。在2 0 0 2 年,接受 个性化服务的客户的消费在2 0 0 0 美元以上的比例为2 8 1 高于未接受个性 化服务的客户的1 7 ,且有2 1 的接受个性化服务的客户愿意为线上的订阅付 费,高于未接受个性化服务的客户1 1 。由于推荐系统能够促进消费,赢得 客户,许多大型电子商务网站开始提供各种推荐服务,如e b a y ,a _ r n a z , o n 等。 然而电子商务推荐系统在实际应用过程中,出现许多问题与挑战,其中实时 性与推荐质量之间的平衡问题,推荐方法所面临的稀疏性与冷启动问题得到 了广泛的研究和关注 4 l 。 本文将对推荐系统进行深入的研究和探讨,充分了解、比较当前主流的 推荐技术,并结合语义网和本体理论,提出一种优化的基于协同过滤技术的 推荐模型。 1 2 国内外研究现状 随着i n t e m e t 的普及和电子商务的发展,推荐系统得到了越来越多研究 者的关注。遗传算法、神经网络等机器学习技术也在推荐系统中得到应用, 2 哈尔滨j i 程人。亨! 硕十。亨:传论文 涌现出了越来越多的推荐方法,有代表性的如利用神经网络和遗传k m e a n s 算法通过分析用户在电子商务网站的浏览路径来获取用户偏好的方法、基于 自组织特征映射神经网络和案例式推理协同过滤推荐方法等等。 国外比较著名的推荐系统有g r o u p l e n s ,p h o a k s 和i l i n g o 等等。 g r o u p l e n s 是一个应用于u s e n e t 新闻的协同过滤系统,它的目标是让用户一 起协作,从大量的u s e n e t 新闻中发现他们感兴趣的内容。该系统分为客户端 和服务器端两部分。客户端是一个新闻阅读器n e w s r e a d e r ,服务器端提供协 同过滤。n e w s r e a d e l 一般连接到本地n n t p 服务器,同时也连接到g r o u p l e n s 服务器共享过滤信息,只要用户下载一篇文档,n e w s r e a d e r 都会向g r o u p l e n s 服务器发送消息请求对该文档内容的预测。此外,用户也可以评价文档, n e w s r e a d e r 会将该用户评价发送到g r o u p l e n s 服务器上进行处理,以提供给 其他用户浏览,( 3 r o u p l e n s 会利用这些信息调整该用户和其他用户的相关性 f 5 l o t e r v e e n e t 等人开发出了p h o a k s ( p e o p l eh e l p i n go n ea n o t h e rk n o w s t u g ) 系统,将大家都认为值褥看的网站推荐给用户,其运作的方式就是分 析用户在u s e n e t 中所张贴的布告,找出文章内所推荐的网站u r l 。并统计每 个u r l 有多少人推荐,藉此来将相关的网站u r l 推荐给需要的人。实验结 果证实p h o a k s 是有效的,可以达到9 0 的f 确性1 6 1 。 r i n g o 是由麻省理工学院所设计的一个音乐推荐系统。这个系统会先要 求使用者针对音乐家做评比,再依评比的结果计算使用者相似度,然后将使 用者分群,最后再由同一族群的使用者互相推荐音乐给彼此i 们。 尽管目前我国在i n t e m e t 领域取得了很大的发展,但是和西方发达国家 比起来仍然存在着不小的差距,i n t e m e t 的发展落后严重影响我国电子商务的 发展,从而使得推荐技术的发展失去了应用背景和基础。目前我国在电子商 务推荐方面所使用的主要是查找或检索技术。这种推荐策略的优点是技术比 较成熟,实现比较简单,然而其在推荐策略个性化、自动化、持久化三个方 面与世界先进推荐系统仍然存在着很大的差距,严格来说,这种查找策略并 不具备主动提供个性化服务的功能,其与真j 下意义上的推荐策略的区别可由 表1 1 表示。 哈尔滨:f j 程大学硕士学位论文 表1 1夯找与推荐的区别 内容查找推荐 系统自动化程度 低高 系统主动性被动主动 用户任务明确程度明确不明确 用户所费努力多少 个性化程度 低高 实现难易程度易 难 所使用的技术检索技术 推荐技术 国内应用状况 比较多基本没有 通过以上分析,可以看出目前我国电子商务的推荐功能相对国外存在较 大的差距,主要表现在【7 1 : ( 1 ) 缺乏个性化的推荐。很多的推荐结果是对所有用户的,而非个性化 的推荐,可能很多的推荐与某一用户的兴趣并不相符,这是我国电子商务推 荐与国外推荐最主要的差别。 ( 2 ) 推荐的自动化程度低。大多数的推荐功能都需要用户经过一段时间 与计算机的交互,输入自己的兴趣信息,然后才能得到结果,系统不能保存 用户每次的输入信息。总体说来,所有的推荐策略基本上停留在查找这一层 次上,不能实现自动推荐。 ( 3 ) 推荐的持久性程度低。目前我国的推荐技术都是建立在当前用户会 话基础上,不能利用用户以前的会话信息,推荐的持久性程度非常低,这也 是我国推荐技术和国外的推荐技术的一个重要差别。 ( 4 ) 推荐方法单一。大多数所用的推荐策略基本就是分类浏览和基于内 容的检索,缺乏多种推荐策略的混合使用,尤其缺少个性化与非个性化推荐 策略的混合使用。 ( 5 ) 不能在线推荐。有的推荐不能做到在线推荐,推荐不能及时反馈给 4 哈尔滨一f :程人学硕十:学能论文 用户。 然而随着我国电子商务事业的不断发展,对相应技术的迫切需求必将推 动电子商务推荐技术研究不断深入,应用更加广泛。 1 3 研究中存在的问题 本文重点对推荐系统,尤其是协同过滤推荐系统进行了研究和探讨,传 统的协同过滤推荐系统并不分析商品之间的相似性,两是挖掘目标用户和历 史用户之间购买行为的相似性,从而根据相似历史用户的购买行为生成推荐 结果。其优点是能为用户发现新的感兴趣的商品而不需要考虑商品的特征, 任何形式的商品都可以推荐。然而目前协同过滤推荐系统仍然存在以下几点 问题i s 】: ( 1 ) 评价矩阵的稀疏性。必须存在两个用户都对同一资源做出了评价, 协同过滤( c o l l a b o r a t i v ef i l t e r i n g ,以下简称c f ) 的算法才有基础,如果不 同用户评价过的资源没有重叠的部分,则无法计算用户的相似性,而且为了 计算准确,重叠评价的资源在数量上不能太少,否则,会导致推荐质量下降。 ( 2 ) 当前电子商务服务站点大多采用二维数组来存储用户一资源评价矩 阵,然而由于大型网站的用户数以亿计,并且不断变化,用户对资源的评价 存在着很大的稀疏性,使得用户一资源评价矩阵实际上成为了一个典型的高维 稀疏矩阵,大量的零元素造成了大量空间的浪费,增加了电子商务站点的成 本。 ( 3 ) 推荐系统的自适应能力不强。推荐系统不能够在逐次运行过程中, 自动支持自身性能的提升,达到“使用次数越多,推荐越有价值”的目的。 1 4 研究内容及论文结构 本文在充分研究学习传统的协同过滤推荐技术的基础上,针对研究中所 存在的问题,提出了一种优化的方案,具体包括以下几点: ( 1 ) 本文探讨了用户资源评价矩阵的存储方式问题,针对于用户一资源 评价矩阵零元素很多、分布没有规律、经常变化等特点,提出采用一种改进 5 哈尔滨工程大学硕十学位论文 的十字链表的方式存储用户一资源评价矩阵,这样大大的节省了存储空间,提 高了存储空间的利用率,减轻了服务器的负担。 ( 2 ) 针对评价矩阵的稀疏性问题,本文提出了一种将用户评价相似性与 资源语义相似性相结合的推荐方案,对于用户没有评分的资源,系统借助构 造领域w o r d n e t 同义词林,计算资源之恻的语义相似性,找到目标资源的相 似资源,根据用户对相似资源的评价计算用户对目标资源的评价,这样大大 的缓解了用户资源评价矩阵的稀疏性问题,使得推荐结果更加客观真实。 ( 3 ) 本文提出一种通过保存系统运行状态,使系统在多次的运行过程中 不断自动优化,逐渐逼近用户客观真实需求的方法。在一定的程度上改善了 系统目前自适应性不强的问题。 本文的具体组织安排如下: 第1 章简要介绍了国内外电子商务推荐系统的研究现状以及基于协同过 滤的推荐系统在实际研究中遇到的主要问题,初步提出了改进方案。 第2 章介绍了改进的协同过滤推荐系统所涉及到的关键技术。 第3 章详细论述了推荐系统的结构以及工作原理。 第4 章针对传统的协同过滤推荐系统存在的存储空间利用率不高的问 题,着重介绍了对协同过滤推荐系统存储模型的优化和改进。 第5 章针对传统的协同过滤推荐系统由于评价稀疏性带来的推荐精度不 高的问题,详细介绍了对协同过滤推荐算法的改进,并通过实验加以验证。 6 哈尔滨丁稃人学硕十学传论文 第2 章相关技术 本文引入本体与语义网的相关理论,利用资源语义的相似性估算用户对 未评分项目的预测值,本章对本体及语义网的知识做以简要介绍。 2 。1 本体 1 本体的概念 本体的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里 士多德。其在哲学中的定义为“对世界上客观存在物的系统地描述,即“存 在论”【9 j ,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象 本质。 在人工智能界,最早给出本体定义的是n e c h e s 等人,他们将本体定义为 “给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成 的规定这些词汇外延的规则的定义m 】,。n e c h e s 认为本体定义了组成主题领域 的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延 的规则。后来随着人工智能的发展,本体的定义不断完善,逐渐清晰,1 9 9 8 年s t u d e r 给出了本体的定义为“共享概念模型的明确的形式化规范说明”, 主要包含以下四点含义: 概念化。通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而 得到的模型,其表示的含义独立于具体的环境状态。 明确。所使用的概念及使用这些概念的约束都有明确的定义。 形式化。本体应是计算机可读的。 共享。知识本体中体现的是共同认可的知识,反映的是相关领域中公认 的概念集,它所针对的是团体而不是个体。本体的目标是捕获相关领域的知 识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不 同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义。 尽管定义的方式有多种多样,但是从内涵上来看,不同研究者对于本体 7 哈尔滨:程- 人学硕七学位论文 mm 的认识是统一的,都把本体当作是领域( 可以是特定领域的,也可以是普遍 范围的) 内部不同主体( 人、应用系统等) 之间进行交流( 对话、互操作、 共享等) 的一种语义基础,即由本体提供一种明确定义的共识m 】。 2 本体的构成 通常意义上,本体包括概念的定义、概念之间的关系、公理和实例,它 们共同限制着术语在特定领域中的解释和应用。本体中的概念是广义上的概 念,除了可以是一般意义上的概念外,也可以是任务、功能、行为、策略、 推理过程等,本体中的这些概念构成了一个分类层次。本体中的关系表示概 念间的关联,其中最典型的二元关联是概念问的蕴涵关系。它使概念形成一 个层次结构。公理用于描述一些永真式,它是在领域中任何条件下都成立的 断言。实例是指概念的具体实例,本体中的所有实例构成了本体概念特定领 域的指称域。 3 本体的目的 构造本体的目的都是为了实现某种程度的知识共享和重用。本体的作用 主要有以下三个方面 1 3 j : ( 1 ) 本体提供了一种新的知识获取手段,规范化的描述有利于确定知识 系统的需求,澄清领域知识的结构。 ( 2 ) 采用形式化描述的本体作为核心,能提高知识系统的重用和可靠性, 为知识更新和演化打下坚实的基础。 ( 3 ) 采用统一的术语和概念,使不同系统间的知识共享成为可能。 4 本体的构建 本体的建构,一般不能简单地看成是项目开发,而应看成是工程开发。 目前的一些本体建构方法大都从个案的开发过程中总结出来的。一般说来, 建构一个知识领域的本体,包括以下6 个步骤】: ( 1 ) 确定本体的领域和范围。首先,要明确建构的本体将覆盖的专业领 域、应用本体的目的、作用及其系统开发、维护和应用的对象。 ( 2 ) 列举知识领域中重要的术语概念。在创建本体的初始阶段,尽量列 举出系统想要陈述的或准备向用户解释的所有概念,不必考虑概念之间语义 的重叠及表达方式( 类、属性、实例) 。 ( 3 ) 建立本体框架。上一步生成的知识领域中的大量概念是一个没有组 8 哈尔滨t 程大学硕十学位论文 m l m m 织结构的词汇表,需要按一定的逻辑规则将其分组,构成不同的工作领域, 并对同一工作领域内的概念相关性和重要性进行评估,选出关键性术语,尽 可能准确而精炼地表达出该领域的相关知识,形成该领域知识的框架系统。 ( 4 ) 设计元本体,重用已有的本体,定义领域中概念之间的关系。元本 体是元概念的本体,其术语用于定义本体中的高层次的抽象概念,如实体、 关系、角色等。设计元本体时,既要尽量作到领域无关性又要包含的元概念 尽可能少。目前,w e b 上有许多可重用的本体资源库,可以考虑选用,也可 通过i n t e m e t 获得现成的本体文库,如u n s p s c 、d m o z 、o n t o l i n g u a 等 1 4 1 。 一个概念可采用元本体中定义的元概念进行定义,或采用本体中己被定 义的概念进行定义或重用已有的本体。除了定义概念之外,还要定义概念之 间的关系。这些关系不仅涉及同一工作领域中的概念,而且还与其它工作领 域的概念相关联。 ( 5 ) 对领域本体进行编码、形式化。选用合适的本体描述语言,对上述 建立的本体进行编码、形式化。现有本体描述语言约2 8 种,大都基于一阶逻 辑,也有的基于描述逻辑。常用的本体语言有:o n t o l i n g u a 、c y cl 、l o o m 等。本体模型实现形式化可提供比自然语言更严格的格式,能增强机器的可 读性,便于交换及本体模型自动逻辑推理及检验。 ( 6 ) 对本体进行检验和评价。本体在形式化以后,是否满足用户需求, 是否符合本体的建构准则,是否术语、概念定义清晰,是否关系定义完整等, 都要在本体建构后进行检验和评估。 2 2 语义网 万维网( w o r l dw i d ew r e b ,简称w w w 或w e b ) 是人类最大的信息资源 库,但它存在两个明显的缺陷:一是目前的超文本链接,主要是用于人对网 页的浏览,对机器来讲它只是一个链接操作,它可以链接任何内容,但机器 本身并不能理解网页的语义;二是使用关键词在网上搜索,会搜到大量无关 信息,而对这些海量信息用手工方式鉴别几乎是不可能的。因此因特网创始 入t i mb e m e r s l e e 于1 9 9 8 年提出下一代的万维网是语义网。 1 语义网的含义及其组成 9 哈尔滨1 :程人学硕十学位论文 2 0 0 0 年1 2 月1 8 日,b e r n e r s l e e 在x m l 2 0 0 0 会议上正式提出了s e m a n t i c w e b ( 语义网) 这个术语,他给出了如下的定义:“语义网是一个网,它包含 了文档或文档的一部分,描述了事物间的明显关系,且包含语义信息以利于 机器的自动处理【1 5 】”。 语义网不同于目前的w w w ,它是现有的w w w 的扩展与延伸,是第二 代w w w 。语义网的基本特征是面向文档所表示的数据便于计算机理解和处 理。此外语义网还具有一定的判断和推理能力。 语义网是按照机器可理解的词汇链接起柬的网页信息的全球数据库,它 能使网络在理解信息含义的基础下提供动念的、主动的人机对话服务和协同 工作【1 6 】。语义网实现的基础是x m l ( 可扩展标记语言) ,也就是说利用x m l 给网页信息的文件内容加入计算机可读的“标记”,而且可以设置不同的标记 符来定义不同的涵义,因此它是可扩展的。一般用户可以使用现有语义标记 功能的软件编写语义网页,增加新的定义和规则。 语义网由元数据( m e t a d a t a ) 、资源描述框架( r d f ,r e s o u r c ed e s c r i p t i o n f r a m e w o r k ) 和本体( o n t o l o g y ) 三个基本部分组成。元数据是关于数据的 数据,是具有“语义”可共享的数据。r d f 则描述网络资源的信息,它是存 放元数据的通用格式或语法结构。r d f 通过x m l 可允许用户在文件中加入 任意的结构而无需说明其含义。r d f 的每个代码由一个三元组构成,表达某 物对某些值拥有某些属性。任何人只要对某一定义给定一个地址( u r i ) 就 能定义新的概念和动词。 上述自由定义语义的方式有一个问题:同一概念( 同义词) 使用不同标 识符雨机器就不能辨认,从而妨碍数据库之1 鑫j 的合并和机器推理。因此必须 依靠本体( o n t o t o g y ) 处理相同概念但不同形式的同义关系。本体除定义关 系外,还能定义属性的知识范畴,使予类能继承父类的属性,这就为语义网 的语义推理创造了条件。 2 语义网的应用及其发展趋势 语义网赋予网络信息更明确、更完备的语义,使计算机能对网络信息、 知识进行理解,实现网络数据处理和网络服务的智能化。实际上,语义网是 一种智能网络技术。语义网有助于提高自身直觉能力和分析能力,并能促进 全球范围内不同文化背景的人们之间的合作。t i mb e m e r s l e e 曾希望2 0 0 5 1 0 哈尔滨二 :程大学硕七学位论文 年用语义互联网取代现在的w w w ,使接入互联网的每一用户都能分享人类 五千年以来积累的全部知识。目前语义网还没有发展到这一步,还有很长的 路要走。我国对语义网的研究也刚刚起步,在语义网试验和应用方面已取得 可喜的成果。 语义网今后的主要研究方向和重点问题为: ( 1 ) 语义网基础理论研究,包括语义网的体系结构、指导原则和建构方 法等。 ( 2 ) 语义网的实际应用,建立符合语义网构想的w e b 网页或网站。 ( 3 ) 本体的编制规范与标准,用来指导中文网络本体的构建。 ( 4 ) 本体的实用研究,研制具有一定实用价值的本体词汇集。 ( 5 ) 对l o g i c 、p r o o f 、t r u s t 层的研究。 2 3 本章小结 本章介绍了协同过滤推荐系统所涉及到的相关理论知识,首先简要介绍 了本体的概念、构成以及构建本体的目的,并且对构建本体的方法进行了总 结和归纳。接着从概念、组成、应用前景等方面对语义网进行了简要的介绍。 它们构成了资源语义相似度的理论基础。 哈尔滨i :程人。学硕十学位论文 第3 章电子商务个性化推荐系统 3 ,1 电子商务推荐系统概述 随着数字技术的飞速发展和互联网络的全面普及应用。越来越多的企业 建立了电子商务两站,希望通过互联网络进行商务活动,通过网络低廉的成 本,创造出新的商机。发展至今,网上的数据资源空前丰富,互联网络已经 成为储存、发布及获取信息的最重要的载体。但是由于网页这一组成互联网 络的基本单元通常都是多结构的、动念的,网页页面的复杂程度远远超过了 文本文档,人们想要在w e b 上找到自己的信息犹如大海捞针一般。尽管信息 检索界开发了许多搜索引擎女n y a h o o ,g o o g l e 等,可解决部分信息负载的问题, 但是搜索引擎自动化程度较低,仍然属于被动系统,搜索结果中鱼龙混杂, 使用者常常仍然要一一浏览才能找出自己真正需要的信息,加上有时使用者 自己根本不知道有某项资源存在,当然更不可能以适当关键词进行查询,所 以这时旁人的推荐就显得很重要。 为了解决信息超载困境,电子商务个性化推荐系统应运而生。电子商务 个性化推荐系统研究先驱r e s n i c k 认为,在信息泛滥的环境下,网站将面临如 何有效给予使用者所需信息的考验,而推荐系统正是这种一对一引导使用者, 以符合使用者需要的个人化的机制i i 引。 r e s n i c k & v a r i a n 在1 9 9 7 年( ( r e c o m m e n d e rs y s t e m s ) ) 一文中给出了电子商 务个性化推荐系统正式的定义,它是指利用电子商务网站向客户提供商品信 息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购 买过程的系统。推荐系统能收集用户兴趣资料并根据用户偏好为用户主动做 出个性化的推荐,这样当用户每次登录网站后,推荐系统就会自动按照用户 偏好程度的高低推荐给用户可能最感兴趣的信息。而且系统给出的推荐是动 态更新的,也就是说当系统中信息和用户兴趣资料发生变化时,给出的推荐 序列会自动改变,这样大大方便了用户对商品信息的浏览,也提高了企业的 哈尔滨丁程人学硕十学他论文 服务水平。 从总体的层次结构看,电子商务推荐系统可以分为三大部分:输入功能 模块、推荐方法模块与输出功能模块,如图3 1 所示。 图3 1电子商务推存系统结构图 输入功能模块,包含客户个人和社团群体丽部分。客户个人输入主要是 指要求获得推荐的人为得到推荐必须对某些项目进行评价,以表达自己的偏 好;社团群体输入指集体形式的评价数据。在大型推荐系统中,为了产生高 质量的推荐,推荐系统可能需要多种输入信息,主要包括隐式浏览输入、显 式浏览输入、关键字物品属性输入、文本输入等】。 推荐方法模块,它是推荐系统的核心部分。采用的推荐技术决定着推荐 系统的性能优劣。推荐方法主要包括基于内容的推荐方法、协同过滤推荐方 法、混合推荐方法、数据挖掘方法等。在实际应用中,电子商务推荐系统一 般采用多种推荐技术的组合,尽量利用各种推荐技术的优点而避免其缺点, 提高推荐系统的性能和推荐质量。 输出功能模块,它是推荐系统获得输入信息后推荐给用户的内容,主要 形式有相关信息输出、预测、个体评分、电子邮件输出( 2 0 ,等。 电子商务个性化推荐系统在电子商务营销领域发挥的作用主要表现在三 个方面【2 i 】: ( 1 ) 将访问者转变为购买者( c o n v e n i n gb r o w s e r si n t ob u y e r s ) 。在对 电子商务网站的访问者中,相当大的一部分网络用户只是随便浏览,没有确 l3 哈尔滨f :程人。半:硕十孑:位论文 l u l li 切的购买意向。良好的推荐系统能够挖掘用户的潜在需求,有针对性地向浏 览者提供高质量的商品推荐,引起浏览者的购买兴趣,促使用户潜在购买需 求转化为实际的购买行为,从而从访问者转变成购买者。 ( 2 ) 增加交叉销售( i n c r e a s i n gc r o s s s e l | ) 。推荐系统通过向客户推荐 一些他计划之外的商品,激发用户的购买欲望,进而来提高电子商务网站的 交叉销售量。很多商务网站可以根据客户当前所购买的商品向他们推荐一些 和这些已购买的物品具有一定相关性的商品。例如通常购买了毛线的用户很 有可能同时需要织针。在此种情况下,通过电子商务个性化推荐系统的推荐, 用户往往会将织针一同置入购物车,企业的平均定购就可能增加。如果缺少 了电子商务推荐系统,用户则可能由于没有找寻到相关产品或忽略相关产品 而造成潜在的购买需求的流失。 ( 3 ) 构建用户的忠诚度( b u i l d i n gl o y a l t y ) 。在电子商务环境下,电子 商务网站的数目与日俱增,竞争也同趋激烈,因此获得用户的忠诚度是商业 竞争中的一个重要营销策略。如果顾客每次购买商品的时候,推荐系统都可 以进行高效的商品推荐,为用户的网上购物提供个性化、周到的服务,无疑 会吸引顾客下次继续在网站上进行商品选购。反之则会丧失很多客户,削弱 网站的竞争力。而且,当网站的忠实用户形成一个稳定的团体以后,推荐系 统可以深入剖析这些用户的购买兴趣,将兴趣接近的顾客进行分组归纳,帮 助志趣相投的顾客建立虚拟的,甚至是实际的联系,继而进一步提高顾客对 网站的忠诚度。 3 2 电子商务推荐系统的框架及流程 电子商务个性化推荐系统的完整框架主要由数据仓库、操作数据库、推 荐引擎、推荐模型库、用户交互等构成i 2 2 】,如图3 2 所示。 1 4 哈尔滨丁程大学硕十学位论文 图3 2 推荐系统整体框架 数据仓库:存储推荐系统直接操作的数据,即那些规整的经过清洗和初 步挖掘后的数据,包括属性数据、购买数据、产品数据、点击流等【2 3 1 。 操作数据库:操作数掘库中存储用户操作需要使用的数据,包括了产品 数据库、用户数据库、销售数据库等。 1 5 哈尔滨一i 程人。亨:硕+ 。亨:位论文 ;_ - m _j ; 推荐引擎:主要功能是接收推荐请求,运行推荐策略,产生推荐结果。 推荐引擎对外提供了统一的推荐服务接口,对内则规范了推荐算法的运行环 境,方便了推荐算法的编制m 】。 推荐模型库:用于存储推荐算法。 用户交互:接受用户的要求,向用户提供推荐结果。 电子商务个性化推荐系统需要完成从数据信息采集到推荐应用的完整的 系统应用流程,具体来说包括以下几个部分但s 1 : ( 1 ) 数据清洗、转换和加载:由数据挖掘工具从操作数据库中选择数据, 使用e t l ( 清洗、转换和加载) 工具把选择出来的数据加载到数据仓库中, 成为规整数据。所选数据的形式多种多样,可以是评分数据,也可以是交易 数据,选择什么样的数据由具体的推荐应用决定。 ( 2 ) 模型生成:使用合适的模型产生推荐模型,选择适合具体的推荐应 用的规整数据,并存储在模型库中。如何选择合适的模型生成推荐模型是由 具体的推荐应用决定的。 ( 3 ) 推荐策略配置:推荐策略是推荐过程的配置,其中包括推荐算法和 推荐模型。具体的推荐功能是由推荐引擎运行对应的推荐策略来实现的。推 荐引擎提供推荐服务,必须有已经配置好的推荐策略。配置工作主要是修改 推荐策略,采用新的推荐模型,然后根据具体的推荐应用配置推荐策略,并 请求推荐引擎启动或重载此策略。 ( 4 ) 推荐服务访问:电子商务系统直接向推荐引擎提供当前用户的信息, 并请求用指定的推荐策略产生产品的推荐列表。推荐引擎则根据电子商务系 统的请求运行对应的推荐策略,产生合适的推荐结果。 ( 5 ) 操作数据更新:电子商务系统开展网络商业活动,并向用户提供推 荐服务,由于不断有新用户新产品的加入,用户也不断的有新的活动,因此 操作数据库也在不断的发生变化,需要及时进行更新。 整个电子商务个性化推荐系统应用流程是一个不断循环的流程,当操作 数据库变化到一定程度的时候,数据仓库、推荐模型都需要更新以及时的反 映出当前用户行为的变化。更新模型由具体的应用要求决定,一般采用周期 性的方法,也可以采用推荐效果反馈阈值来控制。 哈尔滨i :程人。孚:硕十学位论文 3 3 电子商务推荐系统的推荐方法 推荐方法是推荐系统的核心,是其重要的组成部分。不同类型的推荐系 统应用各种推荐方法实现个性化的推荐服务。 3 3 1 基于内容的推荐方法 基于内容的方法利用信息检索技术来分析项目的内容,通常应用邻居函 数和分类技术来分析和聚类项目的文本内容。并基于项目特征与用户档案产 生推荐【2 6 l 。如图3 3 所示。 图3 3 基于内容的推荐方法 基于内容的信息推荐主要集中在文本信息推荐领域,虽然使用基于内容 的过滤方法可以依据使用者过去的偏好,推荐出符合使用者偏好的项目,但 是此方法有以下限制【2 ,: ( 1 ) 特征提取的能力有限。通常只能对资源进行比较简单的特征提取, 在一些特定领域目前还没有有效的特征提取方法,即使文本资源,其特征提 取方法也只能反映资源的内容,但是难以反映资源的质量、风格等信息。所 能分析的项目内容仅限于能够用一系列的特征集合束表示的信息,而无法有 哈尔滨t 释大学硕十孑:位论文 ii 效处理声音、图片、艺术品、影像等多媒体信息。 ( 2 ) 推荐的资源过于狭窄。系统尽可能向用户推荐最符合用户档案的信 息,因此推荐将局限于跟用户以前浏览的资料类似的信息。用户仅仅能够接 收到与过去类似的推荐项目,而无法找出与过去体验有所不同而具有潜在意 义的潜在性推荐。 ( 3 ) 无法处理品质、风格或观点。若两个对象的内容相同,但其内容品 质有所差别的时候,此方法无法有效分辨。 3 ,3 2 协同过滤推荐方法 协同过滤推荐技术是现在个性化推荐系统中的一个重要组成部分。协同 过滤推荐通过参考与活动用户具有相似兴趣或者需求的其他用户的选择来决 定如何为当前用户进行信息过滤产生推荐。协同过滤推荐技术是知识获耿的 一种方式,是从可利用的知识源中抽取形式化知识的过程。说得通俗一点, 协同推荐相当于现在颇为流行的“口碑传播( w o r d o f - m o u t h ) ”。主要是利用 群体的观点为当前活动用户来产生推荐项目,它强调一种人与人之间的合作, 借助过去的用户行为记录,计算各个用户之间兴趣偏好的相似度,找出与自 己兴趣偏好接近的邻居用户,并通过这些邻居用户组成的相似用户组的意见 或者建议来产生活动用户之前未曾感觉到却可能感兴趣的推荐信息给特定的 使用者作为参考。协同过滤推荐技术可以用图3 4 形象化的表示。 哈尔滨! :稃人学硕十学传论文 叵 匝p 胪丑b , j 图3 4 协同过滤推荐技术 协同推荐的决策基础是“人”,而不是“内容的分析”,它偏重于由一群 兴趣相似的人来决定推荐的项目,这种方式能针对任何形态的信息进行推荐, 更能够处理难以表现的概念,因此能够取得很好的推荐效果。但是同基于内 容的推荐方法一样,也存在一定的局限性,具体如下【z 8 】: ( 1 ) 精确性( a c c u r a c y ) 。用户需要一个可以让他们感到信任的推荐系统 来给他们提供更好的个性化服务,如果一个推荐
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 粉末涂料车间岗前培训试题(及答案)
- 2025年大型制造企业供应链管理部主管竞聘试题集
- 2025年乡镇工会工作实务及主席职责模拟题详解
- 技能岗专业试题及答案
- 2025年人工智能专家面试技巧与预测题
- 2025年制造业招聘面试经验与模拟题
- 2025年中国医学科学院研究所招聘考试备考策略与建议
- 2025合同范本员工声称被迫签订不公劳动合同如何应对
- 2025年写数字汉字题目及答案
- 2025合同样本:服装委托加工合同范本
- 统计学课件(董云展)
- 火龙罐综合灸技术课件
- 口腔颌面外科:第十六章-功能性外科与计算机辅助外科课件
- 某省教师培训项目的规划和实施教材
- 板式换热器设计课件
- 小学六年级英语阅读理解45篇
- 燃气管道随桥敷设施工方案
- 人力资源部安全责任清单、履职清单
- 项目管理考核办法实施细则
- 污水处理厂主要设施操作规程
- 梯笼安全验收表0001
评论
0/150
提交评论