(计算机应用技术专业论文)电子商务个性化推荐关键技术研究.pdf_第1页
(计算机应用技术专业论文)电子商务个性化推荐关键技术研究.pdf_第2页
(计算机应用技术专业论文)电子商务个性化推荐关键技术研究.pdf_第3页
(计算机应用技术专业论文)电子商务个性化推荐关键技术研究.pdf_第4页
(计算机应用技术专业论文)电子商务个性化推荐关键技术研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)电子商务个性化推荐关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j , 、 , , 哈尔滨工程大学 学位论文原创性声明 r l l l l l l l l f l ri l l l l l l l u l l 1 1 h l l i f l r f f r l l r i i l 0 y 1 8 0 8 3 3 0 本人郑重声明:本论文的所有工作,是在导师的指导下,由作 者本人独立完成的。有关观点、方法、数据和文献的引用已在文 中指出,并与参考文献相对应。除文中己注明引用的内容外,本 论文不包含任何其他个人或集体已经公开发表的作品成果。对本 文的研究做出重要贡献的个人和集体,均己在文中以明确方式标 明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :硷讫 日期:加p 年弓月,妇 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可日在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :桃,导j j 币、磐删 日期: 聊口年;月心日) 勿年乡月厶日 哈尔滨t 程大学硕士学位论文 摘要 随着网络的普及和电子商务的广泛应用,越来越多的信息充斥在互联网 之中,用户在享受网上购物带来的便捷的同时也面临着信息过载问题的困扰。 为了在大量的商品信息中找到符合用户需求的信息,电子商务推荐系统应运 而生。 协同过滤推荐算法是目前推荐系统应用最广泛和最为成功的技术之一, 本文以协同过滤推荐算法为研究目标,以提高目标用户的最近邻居的质量为 出发点,对传统的基于用户的协同过滤推荐算法在应用中存在的稀疏性问题、 相似性计算不区分对待目标用户喜欢与不喜欢的项、以及不能反应用户兴趣 变化等关键问题,给出了一种改进的协同过滤推荐算法。该算法与现有的算 法相比,其优势如下:第一,在用户显式评分的基础上,对用户浏览的项目 进行了更细致的划分,对那些“已浏览未评分的项”采用隐式评分的方式来 扩展原有的用户一项评分矩阵,缓解了数据稀疏性问题;第二,使用本文给出 的基于时间权重与目标用户正兴趣的相似性计算公式,只在目标用户具有正 兴趣的项上计算用户相似性,提高了最近邻居的质量,同时,赋予目标用户 近期访问项更高的权重,有效反映了目标用户的兴趣变化;第三,使用了原 有电子商务网站的项目分类模型作为算法分类的标准,在各个不同的子类中 寻找目标用户的最近邻居,在每个子用户项评分矩阵上生成子预测侯选推荐 集合,这样可以找到更“真的邻居。 通过在m o v i e l e n s 和e a c h m o v i e 数据上对平均绝对误差的对比分析实验 证明,改进的算法在一定程度上比传统的基于用户的协同过滤算法有更高的 评分预测准确度。 关键词:电子商务;个性化推荐;协同过滤;兴趣变化 5 哈尔滨t 程大学硕十学位论文 a b s t r a c t w i t ht h ep o p u l a r i t yo fi n t e m e ta n dw i l da p p l i c a t i o n so fe - c o n l r n e r c c ,m o r e a n dm o r ei n f o r m a t i o ns w i d e si nt h en e t c o n s u m e r se n j o yt h ec o n v e n i e n c eo f o n l i n es h o p p i n g ,o nt h eo t h e rh a n d ,t h e yh a v eb e e np l a g u e dw i t ht h ep r o b l e mo f i n f o r m a t i o no v e r l o a d e c o m m e r c er e c o m m e n d e rs y s t e m se m e r g ei no r d e rt o f i n dt h er i g h ti n f o r m a t i o nf r o mt h ei n f o r m a t i o ns e a c o l l a b o r a t i v e f i l t e r i n g i so n eo ft h em o s ts u c c e s s f u lt e c h n o l o g i e sf o r p e r s o n a l i z e dr e c o m m e n d e rs y s t e m s t h i st h e s i st a k e sc o l l a b o r a t i v ef i l t e r i n g a l g o r i t h ma st h er e s e a r c ho b j e c tf r o mt h ea n g l eo fi m p r o v i n gt h eq u a l i t yo ft h e a c t i v eu s e r sn e a r e s tn e i g h b o r t r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m se x i s t t h es p a r s i t yp r o b l e ma n dd on o tc o n s i d e rt h ed r i f to fu s e ri n t e r e s t s t os o l v et h e s e p r o b l e m s ,t h i st h e s i sp u tf o r w a r da ni m p r o v e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m c o m p a r e dt ot h et r a d i t i o n a la l g o r i t h m ,t h ea l g o r i t h mp r o p o s e di nt h i st h e s i sh a s t h ef o l l o w i n ga d v a n t a g e s :t h ef i r s t ,t or e d u c et h es p a r s i t yo ft h ed a t a s e t ,i m p l i c i t r a t i n ga p p r o a c hi su s e dt oe x p a n dr a t i n gm a t r i xf o rt h o s ei t e m sw h i c hh a v en o t b e e nr a t e d s e c o n d l y , t h i st h e s i sa d v a n c e das i m i l a r i t ya l g o r i t h mo nt h eb a s i so f t i m ew e i g h ta n dp o s i t i v ei n t e r e s t so fa c t i v eu s e r t h es i m i l a r i t yo ft w ou s e r si s c a l c u l a t e do n l yb a s e do nt h o s ei t e m sw h i c ht h ea c t i v eu s e rh a sh a v ea p o s i t i v e i n t e r e s t ,a tt h es a m et i m e ,t h em o r el a t e rr a t e di t e m sa r eg i v e nt h eh i g h e rw e i g h t s ot h ea l g o r i t h mc a ne f f e c t i v e l yr e f l e c tt h ed r i f t so ft h ea c t i v eu s e r si n t e r e s ta n d t h e ni m p r o v et h eq u a l i t yo ft h e a c t i v eu s e r sn e a r e s tn e i g h b o r t h el a s t ,t of i n d m o r e “t r u e ”n e i g h b o r s ,t h ea l g o r i t h mu s e st h eo r i g i n a li t e mc l a s s i f i c a t i o nm o d e lo f e c o m m e r c ea sas t a n d a r dc l a s s i f i c a t i o nm o d e la n df i n dt h en e a r e s tn e i g h b o ro f a c t i v eu s e ri nd i f f e r e n ts u b - c a t e g o r i e s a ne x p e r i m e n ti sd e s i g n e dt ov a l i d a t et h ee f f e c to ft h ep r o p o s e da l g o r i t h mi n t h i st h e s i s t h ed a t ap r o v i d e do nm o v i e l e n sa n de a c h m o v i ea r cu s e da n dt h e m e a na b s o l u t ee r r o ri sa n a l y s e di nt h ee x p e r i m e n t t h ee x p e r i m e n tr e s u l t ss h o w 尊 。 哈尔滨1 = 程大学硕十学位论文 t h a tt h ei m p r o v e da l g o r i t h mh a sah i g h e ra c c u r a c yt h a nt h et r a d i t i o n a lu s e r - b a s e d c o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mi np r e d i c tr a t i n g k e y w o r d s :e - c o m m e r c e ;p e r s o n a l i z e dr e c o m m e n d a t i o n ;c o l l a b o r a t i v ef i l t e r i n g ; i n t e r e s td r i f t 哈尔滨下程大学硕士学位论文 目录 第1 章绪论”1 1 1 选题的背景与意义- 1 1 2 电子商务推荐技术的国内外研究现状2 1 3 电子商务推荐技术面临的挑战4 1 4 本文的工作5 1 4 1 主要研究内容”5 1 4 2 本文的组织结构6 第2 章电子商务推荐系统及个性化推荐相关技术8 2 1 电子商务推荐系统8 2 1 1 推荐系统概念“8 2 1 2 电子商务推荐系统概念一8 2 1 3 电子商务推荐系统评价及分类9 2 1 4 电子商务推荐系统模型1 0 2 2 个性化推荐相关技术1 2 2 2 1 信息检索与信息过滤技术1 2 2 2 2w e b 数据挖掘技术1 4 2 2 3 其它技术1 5 2 3 本章小结1 7 第3 章协同过滤技术在个性化推荐中的应用1 8 3 1 协同过滤推荐算法的出发点及实现1 8 3 2 传统的协同过滤推荐算法“1 9 3 2 1 基于用户的协同过滤推荐算法1 9 3 2 2 基于项目的协同过滤推荐算法2 3 3 3 本章小结2 4 第4 章一种改进的协同过滤推荐算法2 5 4 1 传统的基于用户的协同过滤推荐算法存在的不足2 5 哈尔滨工程火学硕士学何论文 4 2 改进算法的提出”2 6 4 2 1 扩展的用户项评分矩阵2 6 4 2 2 用户正兴趣2 9 4 2 3 基于时间权重与目标用户正兴趣的相似性计算3 0 4 2 4 基于项目分类的最近邻居搜索3 2 4 3 改进的推荐算法3 4 4 4 算法分析3 7 4 5 本章小结3 8 第5 章改进算法的实验与分析3 9 5 1 实验数据3 9 5 2 实验设计4 0 5 2 1 评价标准4 0 5 2 2 设计方案4 1 5 2 3 实验环境4 2 5 3 实验及结果分析4 3 5 4 本章小结”4 9 结论”5 0 参考文献5 1 攻读硕士学位期间发表的论文和取得的科研成果5 5 致谢”5 6 哈尔滨t 程大学硕士学位论文 第1 章绪论 1 1 选题的背景与意义 过去数年,由于经济高速增长,以及政府对电子商务市场的高度重视, 在信息和网络技术的巨大推动下,电子商务迅猛发展的时代已经到来。传统 的商业模式随着网上购物交易的形式改变而改变着,一是地域的限制已基本 被消除;二是消费者有了更广的选择空间n ,。但是,随着电子商务规模的进一 步扩大,消费者和商家在享受着电子商务带来便捷的同时,他们也面临着很 多新的问题。一方面,面对大量的商品,用户束手无策,经常迷失在浩瀚的 商品信息中,无法顺利找到自己需要的商品。另一方面,电子商务从物理环 境到虚拟环境的转变,使商家失去了直接与用户接触的机会,导致很多消费 者的流失。因此,在信息爆炸的时代,电子商务系统需要一个“采购助手 , 他能根据用户的兴趣爱好,提供信息和建议,帮助用户在尽量短的时间购买 到满意的商品。基于上述原因,信息提供服务己经不再是仅仅停留在电子化 信息阶段,而是向个性化用户服务方向发展,电子商务个性化服务应运而生。 从商业的角度来说,个性化信息服务能够预见用户需求,使交互过程更 有效率并让顾客满意,能够建立良好的客户关系并促进下一次购买行为乜,。 将个性化信息服务应用到电子商务,其中一个最主要的应用就是电子商务个 性化推荐。电子商务个性化推荐系统( p e r s o n a l i z e dr e c o m m e n ds y s t e m sf o r e c o m m e r c e ) 的正式定义由r e s n i c k & v a r i a n 在1 9 9 7 年给出口】。它主要通过 如下三种途径提高电子商务系统的销售能力:将电子商务网站的浏览者转变 为购买者;提高电子商务网站的交叉销售能力;提高客户对电子商务网站的 忠诚度“,。 实际上,研究电子商务个性化推荐系统对企业和社会具有很高的经济价 值。顾客是利润的来源,谁能给顾客提供更好,更满意,更具个性化的信息 和服务,谁就能赢得市场。目前,几乎所有大型的电子商务系统,如a m a z o n 、 哈尔滨下程大学硕十学位论文 c d n o w 、e b a y 、d a n g d a n g 、阿里巴巴棋下的淘宝网等,都不同程度的使用 了各种形式的推荐系统,而且目前也发展了很多专门做推荐的中间商企业, 如豆瓣网。 虽然电子商务推荐系统在理论和实践上都得到了很大的发展,但是目前 的电子商务个性化推荐程度仍较低。电子商务的商家提供给所有的用户是千 篇一律的界面,他们无法及时提供符合某个特定用户的推荐,缺乏个性化服 务已经成为制约电子商务发展的关键问题。本文将针对电子商务个性化推荐 的关键技术进行有益的探索和研究。 1 2 电子商务推荐技术的国内外研究现状 随着互联网的普及以及电子商务的发展,推荐系统渐渐成为电子商务n 技术的一个重要研究内容,得到了越来越多的研究者的关注陋,。 国外在这方面的研究起步较早。1 9 9 7 年r e s n i c k & v a r i a n 给出了电子商务 推荐系统的正式定义口,。从1 9 9 9 年开始,计算机协会a c m ( a s s o c i a t i o nf o r c o m p u t i n gm a c h i n e r y ) 每年召开一次电子商务的研讨会,研究文章中关于电 子商务推荐系统的占据了很大比重;该协会下面的数据挖掘特别兴趣组 s i g k d d ( s p e c i a l i n t e r e s tg r o u po nk d d ) 和信息检索兴趣小组s i g i r ( s p e c i a l i n t e r e s tg r o u po ni n f o r m a t i o nr e t r i e v a l ) 也分别在1 9 9 9 年和第2 4 届研究发展会 议上,开始把推荐系统作为一个专门的研究主题。同时,第十五届人工智能 会议、第一届知识管理应用会议等也纷纷将电子商务推荐系统作为研究主题。 我国在个性化推荐领域的研究及应用与国外相比,尚处于初步阶段。但 是随着我国电子商务市场的发展,对自动化和个性化推荐的需求也越来越迫 切阳,。自2 0 0 0 年以来,国内学术界也比较重视i n t e r a c t 智能推荐方面的研究, 在“电子商务个性推荐系统及应用研究”和“面向电子商务的客户偏好分析 与个性化分析系统 等方向上,给予了自然科学基金的资助。 推荐技术是推荐系统的核心部分,它在很大程度上决定了推荐系统的性 能。目前推荐系统中的推荐技术主要有协,:基于信息过滤的推荐、基于规则的 推荐、基于知识的推荐、基于效用的推荐、基于用户统计信息推荐、组合推 荐技术。其中基于信息过滤的推荐又分为基于内容的推荐技术和协同过滤推 2 哈尔滨下程大学硕十学位论文 荐技术。由于相比较其它的推荐技术,基于信息过滤的推荐技术有着更广泛 的应用与发展空间,因此下面主要对基于信息过滤的推荐技术的研究现状进 行介绍。 ( 1 ) 基于内容的推荐:基于内容的推荐是信息检索领域重要研究内容徊1 。 它是信息过滤技术的延续与发展,资源通过相关特征的属性来定义,根据资 源内容与用户档案之间的相似性向用户提供推荐服务。b a y e s i a n 概率模型、 遗传算法以及其它机器学习技术也被广泛应用于用户档案的建立和更新“”。 实验型的基于内容的推荐系统有:s t a n f o r d 大学提出的音乐过滤系统 l y r i c t i m e n ”、信息过滤工具s i f f f ”,等。基于内容的推荐系统其优点是简单、 有效。缺点是特征提取能力有限,常被限制在容易分析内容的商品的推荐上, 并且只能发现与用户已有兴趣相似的资源,不能为用户进行新颖的推荐。在 自然语义理解没有取得突破性进展的背景下,基于内容的推荐技术也不可能 取得关键性的进展。 ( 2 ) 协同过滤推荐:它也源于信息过滤技术,其不同之处在于它不分析 资源内容本身的特征,而是利用用户对资源的评分,根据用户之间的相似性 来过滤信息,产生推荐结果,这就是经典的基于用户的协同过滤推荐。 “协同过滤 这个概念首先f f l g o l d b e r g 等学者- 与1 9 9 2 年在研究报告中正 式提出。当时,g o l d b e r g 等研发的t a p e s t r y 系统主要用于用户有用的电子信件 的过滤u ”。1 9 9 6 年,美国明尼苏达大学( t h eu n i v e r s i t yo fm i n n e s o t a ) 计算机 工程与科学系的研究人员运用协同过滤原理,开发了用于电影推荐的 m o v i e l e n s 研究型系统,并将其发布到了网上,可以说这是协同过滤领域的又 一开创性的工作。之后,协同过滤算法得到了广泛的应用,并取得了巨大的 成功n ”。到目前为止,出现了大量的研究型协同过滤推荐系统实例,例如: 由m i t 开发的自动协同过滤推荐系统g r o u p l e n s ,用于新闻信息推荐n 础:麻省 理工学院的研究人员设计的音乐推荐系统r i n g o n 6 】由b e l l c o r e 开发的协同过 滤推荐系统v i d e or e c o m m e n d e r ,用于c d 、d v d 推荐“订;由x e r o xp a r c 研究 中心提出的研究型协同过滤推荐系统t y p e s t r y ,用于过滤电子邮件、推荐 电子新闻n ”。在商业应用上,著名网上书店a m a z o n 也采用协同过滤作为书籍 推荐的主要技术。 我国在协同过滤推荐方面的研究和应用起步较晚。目前应用协同过滤推 3 哈尔滨丁程大学硕士学位论文 荐的系统有中国人民大学金仓信息技术股份有限公司的数字图书馆推荐系统 k i n g b a s e d l ,互动出版网网上书店,网上文章推荐助手3 6 0 d o c 等。虽然,阿 里巴巴旗下的淘宝网也陆续开展了针对不同用户的个性化推荐活动,但主要 是使用关联规则等方法为每个用户推荐可能感兴趣的商品。总体来看,我国 采用协同过滤方法作为推荐技术的还不多,有关协同过滤的研究更多的停留 在理论层面。 由于基于用户的协同过滤存在冷启动、数据稀疏性以及可扩展性问题, 许多学者提出了各种改进算法。k a r y p i s 等人提出根据项之间的相似性提供推 荐服务,称为基于项目的协同过滤,来有效提高推荐质量“”。s a r w a r 等人提 出使用奇异值分解技术减少项空间的维数n ”,从而有效改善用户评分数据的 稀疏性。2 0 0 5 年,x i nj i n 、y a n z a nz h o u 、b a m s h a dm o b a s h e r :牦j :基于内容的过 滤技术和协同过滤技术结合在一起,提出一种最大熵w e b 推荐系统n ,该系统 结合了两种算法的优点,提高了推荐质量。随着电子商务规模的扩大,以及 数据挖掘技术的发展,各种w e b 数据挖掘技术被广泛应用于推荐系统。如: 传统的协同过滤推荐根据用户的显式评分产生推荐结果,用户使用不方便, 研究者提出可通过w e b 挖掘技术获取用户隐式评分m ,。2 0 0 7 年,s u t h e e r a p u n t h e e r a n u r a k 和h i d e k a z ut s u j i 提出一种多聚类混合推荐系统幢”,将基于用户 聚类的方法和基于项目聚类的方法和相结合,预测目标用户对未评分项目的 评分,降低了数据稀疏性。 随着电子商务规模的不断扩大,以及数据挖掘、人工智能技术的不断发 展,这些技术相应地被应用到推荐技术上,从而形成了基于规则的推荐、基 于知识的推荐、基于效用的推荐、基于用户统计信息推荐等推荐技术,但由 于每种技术有着自身优点的同时,都存在着这样或那样的缺点。因此目前的 推荐技术主要是以信息过滤技术为支撑的协同过滤推荐为主,结合各种其它 的技术( 尤其是数据挖掘技术) 的混合推荐算法的研究。 1 3 电子商务推荐技术面临的挑战 虽然推荐技术在研究领域得到了广泛的关注,并且在实际的电子商务中 也得到了广泛的应用,但是随着电子商务网站规模的不断扩大以及用户需求 4 哈尔滨工程大学硕十学何论文 的不断变化,推荐技术也面临着很多挑战: ( 1 ) 推荐精度和推荐实时性是一对矛盾:大部分推荐技术以牺牲推荐系 统的推荐质量为代价,保证推荐的实时性嘞,。因此如何平衡二者的关系,有 待更深入的研究。 ( 2 ) 推荐服务对象具有局限性:目前的推荐技术对已注册并有购买记录 的用户可以进行很好的推荐,但是对于那些已注册未购买或未注册的用户推 荐质量很差,甚至不能进行推荐。 ( 3 ) 数据的稀疏性问题:用户购买以及浏览的资源只是所有资源的很小 的一部分,因此只根据这些数据进行推荐,必然引起数据稀疏性问题。 ( 4 ) 可扩展性:随着电子商务网站规模的不断扩大,推荐系统的性能越 来越低衄,。 ( 5 ) 用户隐私保护:推荐系统需要分析用户的兴趣爱好,涉及到用户隐 私问题,如何在提供推荐服务的同时有效保护用户隐私,是一个值得进一步 深入的研究的课题汹,。 ( 6 ) 多数据多技术集成:当前的推荐技术大多只利用了用户的一部分信 息和一种技术对用户进行推荐。新型的推荐技术应该能够收集并利用用户的 多种数据,并利用多种推荐技术进行推荐,提高推荐的精确性。 1 4 本文的工作 1 4 1 主要研究内容 电子商务已经渐渐地进入人们的生活,而个性化推荐算法是电子商务推 荐系统的核心,因此,提高推荐算法的性能对推荐系统的性能得到改进有很 大的意义。虽然协同过滤推荐算法目前已得到了广泛的应用,但是,由于用 于推荐的数据需要依赖用户的显式输入,导致了数据严重稀疏,从而使得推 荐的准确性降低;而且,传统的算法计算用户相似性时未考虑到用户评分时 间对推荐结果的影响,对所有评分项目相同对待,导致搜索到的最近邻居质 量差,进而影响推荐准确性,因为实际上用户近期访问的项对推荐结果应该 哈尔滨- t 程大学硕十学位论文 起着更重要的作用;其次,传统算法计算用户之间相似性时对目标用户喜欢 的项与不喜欢的项统一处理,而实际上与目标用户喜欢的项相似的用户才可 以说是与目标用户的兴趣相似,才是目标用户的最近邻居;再次,传统算法 在整个用户一项评分矩阵上进行目标用户最近邻居的搜索,这实际上基于这样 一个假设:用户在所有项目类上的最近邻居相同。而实际上用户在不同项目 类上的兴趣可能不同,因此在整个项目类空间搜索目标用户的最近邻居其质 量差,最终使得推荐准确度降低。为了提高推荐的准确度,本文从提高目标 用户的最近邻居质量这一角度出发,从以上几个方面对现有的算法进行研究 和改进。 1 4 2 本文的组织结构 围绕着本文的主要研究内容,本文共分为六部分,其组织结构如下: 第1 章为绪论。首先,介绍了本文的选题背景与意义、电子商务推荐技 术的国内外研究现状以及电子商务推荐技术所面临的挑战。然后,给出了本 文的主要工作,其中包括本文的主要研究内容以及本文的组织结构。 第2 章为电子商务推荐系统及个性化推荐相关技术介绍。本章分为两个 大节。在2 1 节详细地介绍电子商务推荐系统的概念、评价及分类标准和电 子商推荐系统的模型。在2 1 节对主要的个性化推荐技术给予了详细的介绍, 其中包括信息检索与信息过滤技术、w e b 数据挖掘技术等。 第3 章为协同过滤技术在个性化推荐中的应用。首先,详细地介绍了协 同过滤算法的出发点、实现原理。然后,对传统的基于用户的协同过滤推荐 算法和基于项目的协同过滤推荐算法进行了详细的总结与分析。 第4 章提出了一种新的改进的协同过滤算法。首先,对传统的基于用户 的协同过滤推荐算法存在的几点不足进行了分析,包括数据稀疏性、算法未 区分用户的正兴趣和负兴趣、算法不能反映用户的兴趣变化问题。其次,针 对分析的几点不足,分别给出了相应的改进措施。最后,有效的结合了提出 的四点改进措施,给出了一种新的改进的协同过滤推荐算法,并对改进的算 法进行了理论上的分析。 第5 章为实验以及实验分析。本章以传统的基于用户的协同过滤推荐算 6 7 哈尔滨t 程大学硕七学位论文 第2 章电子商务推荐系统及个性化推荐相关技术 2 1 电子商务推荐系统 2 1 1 推荐系统概念 来自于现代汉语词典中的解释,所谓“推荐 就是指:介绍合适的 人或事物希望被接受。推荐过程是从多个候选对象中选择符合用户需求的对 象给用户,一个自动化程度很高的信息过滤的过程。推荐活动在我们现实生 活中到处存在,如生活中朋友或亲人间相互推荐喜欢的电影、衣物、食品等。 可以说,只要存在着多个对象之间的选择问题,就有推荐问题的存在,。 推荐系统是为了减少使用者在信息搜索过程中所附加的额外成本而提出 的一种信息过滤机制,。在开放的网络环境下,推荐系统需要根据用户的喜好 推荐给用户可能感兴趣的资源。推荐系统把满足用户需求模糊的资源推荐给 用户的过程就是把用户的潜在需求转化为现实的需求的过程,这样可以提高 用户对系统的忠诚度和满意度。 2 1 2 电子商务推荐系统概念 随着互联网的普及,电子商务以其成本低廉、便捷、快速、不受时空限 制等优点在全世界流行。但是,在信息爆炸的时代,电子商务系统需要一个 “采购助手 ,根据用户的兴趣爱好,提供信息和建议,帮助用户在尽量短的 时间购买到满意的商品。基于上述原因,电子商务推荐系统应运而生。 电子商务推荐系统( p e r s o n a l i z e dr e c o m m e n ds y s t e m sf o re c o m m e r c e ) 的正式定义由r e s n i c k v a r i a n 在1 9 9 7 年给出:“电子商务推荐系统是利用 电子商务网站向用户提供产品信息和相关建议,帮助用户决定购买什么产品, 通过模拟销售人员帮助用户完成购物过程的系统引”。这个定义现在已经被广 哈尔滨t 程大学硕士学位论文 泛使用。简单的说电子商务推荐系统所完成的功能就是帮助用户从大量的项 目集合中挑选出用户可能感兴趣的项目,用图2 1 表示如下。 图2 1 推荐系统功能 2 。1 3 电子商务推荐系统评价及分类 可以从以下三个方面考虑电子商务推荐系统的性能,: ( 1 ) 个性化程度:推荐系统给出的推荐结果与用户兴趣爱好匹配的程度。 推荐结果与用户的兴趣越符合,个性化程度越高。根据个性化程度的高低, 推荐分为:非个性化推荐、半个性化推荐和完全个性化推荐。 ( 2 ) 自动化程度:反映了用户为了得到推荐结果需要付出的劳动量。如 需要手工方式的输入肯定比自动化方式的自动化程度要低。 ( 3 ) 持久性程度:给出的推荐是基于用户的当前会话还是基于用户的多 个会话。基于用户多个会话的推荐精确度较高,持久性程度更高。 根据推荐系统的自动化程度和持久性程度可以将电子商务推荐系统进行 如下分类瞄1 : ( 1 ) 非个性化电子商务推荐系统:这种推荐独立于每个用户,对每个用 户提供的推荐均相同。推荐基于用户的单个会话,使用的是自动化推荐方式。 例如基于销售排行的推荐。典型例子如a m a z o n 提供的a v e r a g ec u s t o m e r r a t i n g 推荐。 ( 2 ) 基于属性的电子商务推荐系统:需要用户手工输入所需商品的属性 特征,根据商品的属性特征向用户产生推荐,类似于搜索引擎。属于手工方 式的推荐。推荐既可以基于用户的单个会话,也可以基于用户的多个会话。 q 哈尔滨_ t 程大学硕十学位论文 典型例子如a m a z o n 提供的d e l i v e r s 推荐。 ( 3 ) 基于商品相关性的电子商务推荐系统:根据商品间的相似、相关性 产生推荐。可以是全自动化的,也可以是全手工方式的推荐。这种推荐一般 基于用户的单个会话。典型例子如a m a z o n 提供的c u s t o m e r sw h ob o u g h tt h i s b o o ka l s ob o u g h t 推荐。 ( 4 ) 基于用户相关性的电子商务推荐系统:根据用户之间的相似、相关 性产生推荐。一般基于用户的多个会话进行推荐,需要用户显式输入对商品 的评分信息。典型例子如a m a z o n 提供的b o o km a s t e r 推荐。 2 1 4 电子商务推荐系统模型 电子商务推荐系统一般由输入模块,推荐处理模块和输出模块构成,其 基本结构如图2 2 所示。 面函面西 模 块 图2 2 推荐系统框架图 1 输入模块 电子商务推荐系统的输入模块是用户和推荐系统交互的窗口,主要负责 对用户信息的收集和处理。不同类型的电子商务推荐系统,根据不同的输入 1 0 输出 推荐模块 哈尔滨工程大学硕十学位论文 信息产生不同的推荐结果。电子商务推荐系统收集的信息有很多种侣,: ( 1 ) 用户注册信息:用户使用电子商务网站,注册的如用户的年龄、性 别、职业等信息,这部分信息在一定程度上可以反映用户的兴趣。 ( 2 ) 用户显式评分信息:用户根据已定义的评分规则,显式地描述对于 商品喜好程度。推荐系统可以根据评分数据,对用户进行推荐。 ( 3 ) 用户隐式浏览信息:用户访问电子商务站点的浏览行为。这部分数 据一般来自服务器的日志。在用户按照自己的喜好进行操作的同时,服务器 日志自动记录了用户的浏览路径等信息。推荐系统可以提取服务器日志记录 的有效信息,对用户进行推荐。 ( 4 ) 用户文本评价信息:用户对已浏览的某些商品以文本形式给出个人 评价,推荐系统本身并不能判断这些评价的好坏。用户浏览商品时,可以以 其他用户对该商品的文本评价信息作为参考,决定是否购买该商品。 ( 5 ) 关键字商品属性输入信息:用户选择的商品类别以及在搜索引擎 中输入的要查找的商品的关键字。这种类型的信息输入与用户的随意浏览相 比,目的性更强。 ( 6 ) 用户购买信息:用户的购买历史信息。用户的购买历史可以反映用 户的偏好,一旦用户购买了某商品,就可以认为用户喜欢该商品。推荐系统 可以根据用户的购买历史对其进行推荐。 2 推荐处理模块 推荐处理模块是电子商务推荐系统的核心,一般包括推荐建模和推荐引 擎模块。推荐算法不同,推荐处理模块也不同。具体的个性化推荐相关技术 将在2 2 节详细介绍。 3 输出模块 输出模块负责将推荐结果提供给用户。不同类型的电子商务推荐系统输 出形式也各不相同,电子商务推荐系统的输出形式有: ( 1 ) 相关产品输出:推荐系统将推荐结果以推荐列表,如t o p n 推荐 列表或销售排行列表的形式显示给用户,以便用户根据自己的推荐和自己的 兴趣进行下一步的操作。 ( 2 ) 等级评分输出:推荐系统通过对其他用户对相应商品的数值评分的 统计和分析,向目标用户提供其他用户对相应商品的等级评价,而不是商品 1 1 哈尔滨下程大学硕士学位论文 的评论信息。 ( 3 ) 电子邮件输出:推荐系统通过电子邮件的形式向用户提供用户可能 感兴趣的商品信息。这种输出的方式可以使网站与用户保持联系,从而达到 保留用户,防止客户流失的目的。 ( 4 ) 文本评论输出:推荐系统向目标用户提供其他用户对相应商品的评 论信息。他人对商品的评价可以作为目标用户判断的依据。 2 2 个性化推荐相关技术 2 2 1 信息检索与信息过滤技术 信息检索和信息过滤是解决信息爆炸和信息过载问题的有效方法。最初 的推荐技术主要也采用了信息检索( i r ,i n f o r m a t i o nr e t r i e v a l ) 技术和信息过 滤( i f ,i n f o r m a t i o nf i l t e r i n g ) 技术。虽然两种技术的实现方式极其相似,但 是它们所完成的任务完全不同曲,。 1 信息检索 信息检索一般是指根据用户需求,从大规模的相对静止的数据库中检索 用户需要的信息,主要满足用户瞬时的信息需求旧,。其技术主要包括索引技术 和信息查询技术。索引技术是对信息资源内容进行分析,从而将信息资源内 容表示为计算机可处理的数据结构的技术托”。信息查询技术是根据用户的需 求,找到用户需要的资源的技术。其主要研究内容包括查询语言设计、可视 化查询接口设计以及用户需求与资源匹配技术的研究等。大多数情况下,索 引技术和信息查询技术相互重叠,并且信息查询技术依赖信息资源所采用的 索引结构。 信息检索系统主要通过两种方式提供给用户接口。一种是关键字查询接 口,系统根据用户输入的一个或多个关键字进行需求匹配查询,然后返回给 用户查询结果。这种静态的查询接口适用于用户明确知道,并能很好地表达 自己需求的情况。另一种为动态查询接口,系统提供给用户一系列的信息主 题选择,并根据用户的选择进一步提供下一层的信息主题,直到检索到用户 1 2 哈尔滨t 程大学硕士学何论文 需要的信息为止。在用户需求不是很明确或者用户不能很精确地表达自己需 求的情况下,用户可以通过这种动态的接口与系统进行交互,更加容易地检 索到所需的信息。 信息检索是用户寻找、定位感兴趣信息的主要途径,其技术被广泛地应 用在推荐系统中。推荐系统通过提供给用户关键字查询接口和动态查询接口 界面,根据用户的需求,查询商品类别数据库,搜索用户所需要的商品信息, 并将其返回给用户。 2 信息过滤 与信息检索不同,信息过滤是系统根据用户提出的过滤需求,从动态变 化的信息流中自动过滤出满足用户个性化需求的信息的技术。信息过滤技术 一般用于用户需求相对不变,但信息动态更新比较频繁的情况。它主要着重 对动态信息的筛选,排除不希望得到的信息,带有即时性呻,。信息过滤系统处 理的主要是半结构和结构化的数据,为用户的长期信息需求提供信息过滤服 务。它将动态信息与用户兴趣模型文件进行匹配,并将匹配的结果返回给用 户。 信息检索与信息过滤的主要区别见表2 1 。 表2 1 信息检索与信息过滤的区别 信息过滤信息检索 面向用户长期的需求,需求相对面向用户短期的需求,实时的查 需求时间 不变询,需求具有瞬时性 使用用户模型文件表示用户需求使用关键字选择的主题表示用 需求表示 特征 户的查询请求 访问动态的数据流,从动态的数访问相对静止的数据 访问数据 据流中选择数据 信息过滤技术也是推荐系统使用的关键技术,目前被广泛研究并应用的 主要包括基于内容的过滤推荐和协同过滤推荐两种技术。 基于内容的过滤主要应用关键词匹配技术,过滤掉那些相关度不高的项 目。它通过相关特征的属性来描述项目,系统根据用户评价项目的特征,建 立用户兴趣模型文件,并依据用户模型文件与待预测项目的匹配程度向用户 1 3 哈尔滨丁程大学硕十学何论文 进行推荐。如新闻组过滤系统n e w s w e e d e r 。 基于内容的过滤系统一般存在以下几点共同的特征,: ( 1 ) 数据源一般为海量信息; ( 2 ) 处理半结构或无结构数据( 如邮件、网页) ; ( 3 ) 处理的对象主要是文本信息( 即容易描述特征的信息) ; ( 4 ) 系统的主要目标是根据主体在信息源内过滤掉无关信息; ( 5 ) 只能推荐与用户原有兴趣相似的信息,无法发现用户新的信息需求。 协同过滤推荐技术是目前使用最广泛的推荐技术,也是本文研究的重点。 将在第3 章给以详细介绍。 2 2 2w e b 数据挖掘技术 1 数据挖掘 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过 程c 镩,。数据挖掘过程一般是以下三个阶段的反复过程:数据准备、数据挖掘、 结果的表达和解释啪,。它是许多学科的交叉,常用的数据挖掘方法有统计分 析方法、遗传算法、人工神经网络、模糊逻辑理论、规则归纳方法、最近邻 技术等啪1 。 2 w e b 数据挖掘 随着互联网技术的发展,w e b 上的信息呈指数级地不断增长,这就极其 需要一种技术能有效地帮助人们从w e b 上获取需要的知识。但是,由于w e b 上的数据是海量的,同时,w e b 是无结构的、动态的以及w e b 页面极其复杂, 这种异质、异构的动态数据语义理解难度大,给数据仓库带来极大的困难。 因此现有的数据挖掘技术和方法不能满足人们从w e b 上获取知识的需要。在 这种情况下,o e t z i o n i 口们在1 9 9 6 年首次提出了w e b 数据挖掘的概念。w e b 挖掘( w e bm i n i n g ) 是数据挖掘在w e b 上的应用,是一项综合技术,涉及 w e b 、数据挖掘、计算机语言学、信息学等多个领域。不同研究者从自身的 领域出发,对w e b 挖掘的含义有着不同的理解。这里采用更一般的定义扭”: w e b 挖掘是指从大量w e b 文档的集合c 中发现隐含的模式p ,如果将c 1 4 哈尔滨工程大学硕十学位论文 看作输入,将p 看

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论