(计算机软件与理论专业论文)智能推荐系统的研究与实现.pdf_第1页
(计算机软件与理论专业论文)智能推荐系统的研究与实现.pdf_第2页
(计算机软件与理论专业论文)智能推荐系统的研究与实现.pdf_第3页
(计算机软件与理论专业论文)智能推荐系统的研究与实现.pdf_第4页
(计算机软件与理论专业论文)智能推荐系统的研究与实现.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机软件与理论专业论文)智能推荐系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

攘要 摘要 随着电子商务规模的进一步扩大,为顾客提供越来越多选择的同时,其结构 也变得更加复杂。一方面,顾客面对大量的商品信息束手无策,缎常会迷失在大 量的商品信息空间中,无法顺利找到自己需赘的商品;另一方愆,商家数据库里 绦菇麓大羹藏窖懿售惑,巍囊家毒亵晶嚣要德镳簿,无法款太量瓣鼷窖中我瑟正 确的键销对象。智能接荐系统模毅商店销售入嶷向顾客提供商品摊荐,帮助顾客 找到所需商品,从而顺利究成购买过程,因此可以有效保留顾客,撮高电子商务 系统的销售;同时,商家也可以通过智能推荐系统针对某项商品发现潜在的顾客, 进行鸯键对性斡键销,农节雀促锩成本粒翳辩箍意商暴键销的晌废搴。 餐缝雅荐系统在毫予窝务系统孛吴有遣好豹发震和应霜前豢,逐濒成为网络 智能和电子商务信息技术的个重要研究内容,得到越了来越多研究者的关注。 智能推荐系统在研究领域获得了广泛关注,在实际的电子商务系统中也得到 了广泛应用。但是,随着电予商务系统规模越来越大,智能推荐答统也面临着一 系翻攘竣。本文铮怼磐臻荐系统孛载菜望熬患润瑟进牙了舂煮豹鞣突积搽索。 本文童骚对协同过滤推荐技术的数据稀疏憋闷题以及耳标营销所处理的数据具 有类别不均衡的特点进行了研究:将统计相似模型应用到协同过滤的相似用户计 算中兜服稀疏性问题对相似用户计算的影响以及将特异性应用到豳标营销中,解 决数攥瓣类囊不均餐阚爨。 本文酌主要臻究戒浆鲡下: 猩协同过滤推荐技术中,每个用户一般都只对很少的项目做出评价,整个数 据矩阵变得非常稀疏,一般都在l 以下,这种情况带来的问题怒得到用户间的 楣似健不准确,邻居用户不可靠。本文将统计镧似模型应用至4 协阏过滤的相似餍 户鹣诗舞当孛克l 妥耩骧赣翊邃对穗曩鬟震户诗冀豹影酶。 朋标营销所处理的数据具有类别不均衡的特点,在大多数醴桥蒋销的现实数 据集中实际购买商品的顾客只占1 左右,文中利用现实数据中兴别不平衡的特 点,通j 撼特异性对顾客排序,从而找出具有市场价值的顾客。实验表明挖掘顾客 北京芏业太学工学颧士学搜论文 数据懿特异澄将有魏予解决磊檬营销闯瑟,文中采焉瓣方法是鸯散戆。 实瑷了一个智推荐琢型系统。在本文职究戏果赡基础上,实现了个电影 推荐原型系统。该电影推荐系统采用协同过滤推荐推荐技术,根搬用户对某魑电 影的评分历史,向其推荐可能感兴趣的电影。 关键谰餐毖攘荐系统;数据挖糖;协露避滤;婆稼蘩镑;特异熄 a b s tr a c t t h es t r u c n l r e so fe - c o m m e r c ew e bs i t e sb e c o m em o r ea n dm o r ec o m p l e x ,w i l i c h m a k e si th a r df o rc o n s u m e r st of i n dw l l a tm e yw a n t e di ns u c hw e bs i t e s o nt 1 1 eo t h e r h a n d ,i ti s 甜8 0i l a r df o rm a r k e t e f st o 矗n dp m p e rc u s t o l n e r st op r o m o t ep r o d u c t sf r o m ap o o lo f 铺s 幻m 懿s 魏l e l l i g e 嫩r e e o m 糙。砖e rs y s t e 礅sa r e 鼬p 0 8 e dt oa d d 诧s s 氇。 a b o v oi s s u e s i n t e l l 远e n tr e c o n 姐e n d e rs y g t e m sh a v e 撇a c t e dm 。a 士t c 棚o no fw e bi n t e l l i g e n c e c o 瑚m u n i t yb e c a u s eo f “se f r e c t i v e n e s si ne - c o m m e r c e t h e 洫t e r e s ti i lt h i sa r e as t i l l w m a i n sh i g hb e c a u s ei ti sac 磁l e n g e 矗c ha r e 尊b o 像i n 伍ei n d u s t 叮a n da c a d e m i a m 鑫蠡y 鼍e e | m o l o g i e sa 辑揩遥涯f 龌蠡i 憋e fi m p f o v e 撵e 珏t s 遮。溅ft o 矗l a k ei 珏i e l l i g e 鑫 搀e o m m e n d e rs y s t e 堇n si 媳o r ee 糕毫e t i 坩a n d 颦p l i c a b 王et os o l 、浩p f o b i e m s 遗也er e a l w o r l d t h em a i nw o r ko f t h i st h e s i si 1 1 c l u d e s : i n c o l l a b o r a t i v e :f i l t e r i n g w h i c hi so n eo fk e yt e c h n o i o g i e so fi n t e l i 培e n t r o m m e n d e rs y s t e m s ,t h er a 蛀n gm a 撕xi sv e 巧s p a r s e ( 1 e s s 畦l a nl 冁i sc o m m o n ) a sa 璐e r 珏黝羹l y 糟捃s 转wi 溆箍s 。a s 甚稳s 巍l t ,攮ec o 擞辨蠹寒o f 珏e i 醢b o 嚣醴s o 搬el l s e 捂i s n o ta c c 砒a t e t m s 蛾e s i su s e s 地es t a t i s t l cs i l 嫩l a r i 锣m o d e lt 0 嬲d r e s s1 h ei s s u e 。 i nd i r e c tm a f k e t i n 岛t h cc l 黼sd i s m b u t i o ni s 彰x 虹e m e l yi m b a l a n c e d t h er e 8 p o n s e r a t e ,m ep e r c e n to fp e o p l ew b na c t i l a l l yb u y 也ep r o d u c t sa f t c rs e e i n gt h ep r o m o t i o n , i s 。f 融ll o w ( 1 i sq u i 鼢t y p i c 舔) 琢 隧s 稳畦s i s ,c u s t o 越e r s 琏托f 醯e d 尊c c o r d i n g o 搬e 扛转e 疰i 娥锣热u 箍d 瓤i 搬掘鼹艚d a as e 弧e x p 豳。矬酿瓣s 遁t s 曲o w 也a t p e c l 王l i a r i t yo fc u s l o m e r ss u p p o r t su s e f 沮i n f o r m a d o nt os o l v e 娃l ed i f e c tm a r k e 矗n g p r o b l e m a tl a s t ,饿e 也e s i sm a i n i yf o c u s e so nt h ea r c h i t e g t u 掩t op r e s e n ta 豫c o m m e n d e r s y s t e mb a s e do 珏氆eo 醢t p 激s 越e n t i o 珏o da b o v e 。 k e y w o r d si n t e l l i g e n tr e c o m m e n 妇s y s t e m ;d a t am m m g ;c o l l a b o r a t i v ef i l t 嘶n g ; 靓t r g e t e dm a l 豪c t i n g ;p e e 痰i a 蠢每 - 珏l * 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名: 学生醐:甲吱 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 躲件名:举隰甲 1 1 课题背景 第1 章绪论 随着电子商务规模的进一步扩大,为顾客提供越来越多商品选择的同时,其 结构也变得更加复杂。一方面,顾客面对大量的商品信息束手无策,经常会迷失 在大量的商品信息空间中,无法顺利找到自己需要的商品;另一方面,商家数据 库里保存着大量顾客的信息,当商家有商品需要促销时,无法从大量的顾客中找 到正确的促销对象。智能推荐系统模拟商店销售人员向顾客提供商品推荐,帮助 顾客找到所需商品。从而顺利完成购买过程,因此可以有效保留顾客,提高电子 商务系统的销售额;同时,商家也可以通过智能推荐系统针对某项商品发现潜在 的顾客,进行有针对性的促销,在节省促销成本的同时提高商品促销的响应率。 在本文中,智能推荐系统是指广义的智能推荐系统,它的功能在于发现具有 潜在市场价值的顾客和商品,包括大家通常所说的推荐( r e c o m m e n d 鲥o n ) 功能 和营销( d i r e c tm a r k e 缸g 或1 k g c t e dm a r k e 廿n g ) 功能 顾客和商家都可受益于智能推荐系统【l j : ( 1 ) 节省顾客购买商品的时间和精力:智能推荐系统通过分析顾客的购买习 惯提供个性化的服务,直接推荐顾客感兴趣的商品。 ( 2 1 提高电子商务系统的交叉销售:智能推荐系统在顾客购买过程中向顾客 提供其它有价值的商品推荐,顾客能够从提供的推荐列表中购买自己确实需要但 在购买过程中没有想到的商品,从而有效提高电子商务系统的交叉销售。 ( 3 ) 保留顾客:智能推荐系统分析顾客的购买习惯,根据顾客需求向顾客提 供有价值的商品推荐。如果智能推荐系统的推荐质量很高,那么顾客会对该智能 推荐系统产生信赖。因此智能推荐系统不仅能要为顾客提供个性化的推荐服务, 而且能与顾客建立长期稳定的关系,从而能有效保留顾客,防止顾客流失。 f 4 ) 发现潜在的顾客:智能推荐系统在顾客数据上,分析顾客的购买习性和 趋向,预测顾客对相应营销方式的响应率,发现有利顾客的特征,有目的性的开 展广告和销售业务。通过对顾客的忠诚度分析,相应调整商品的价格和类型,改 进销售服务,有利于保留现有顾客,寻找潜在的顾客。 进销售服务,有利于保留现有顾客,寻找潜在的顾客。 幕工监大学工学硬士学垃论文 当今的电子商务系统自身的特点也有利于智能推荐系统的顺利实施,主要原 因包括【4 。“l : ( 1 ) 李富的数据:魄予商务环境收集的务秘数据比较丰富,翔颞容注臻数据、 颥客交易数据、颞客谬分数据、矮窖鹃兹燕傣患、藤客溺菱数攒嚣。丰富豹数据 为建立推荐模型,产生瀚质量的推荐提供了可能。 ( 2 ) 方便的数据收集方式:电子商务环境中的各种数据提供了方便的收集方 式,减少了数据收集的时间,减小了数据收祭的成本。 鬻戆箍荐系统其鸯瓷簿瓣菱震蟊应震藏豢。嚣兹,曩孚酝鸯大登蓖电予囊务 系统,如a m a 趵n ,c d 瞄0 w ,e b a y ,互动融版网,当当网等,都不同程度的使用 了各种形式的智能推荐系统。各种提供个性化服务的w 曲站点也需要智能推荐 系统的大力支持。在日趟激烈的竞争环境下,智能推荐系统能有效保留顾客,提 舞魄予囊务系统瓣销售,艘凌戆智熊推荐系统将会产生巨大酶经济效益。 餐麓推荐系统在毽论帮实黢中都褥到了缎大发展,但是髓饕獭今电子商务系 统的进一步发展,智能摊荐系统也面临一系列挑战。针对智能推荐系统面临的主 要挑战,本文将对智能推荐系统中的某些研究热点进行了有益的探索和研究。 董2 餐麓推荐系统魏研究内容 智能推荐系统的研究内容和研究方向主骤包括”2 】: ( 1 ) 推荐技术研究:嗣前主要的推荐技术主要包括基于内容的过滤和协同过 滤掰辩。由于基于内容的:j 建滤自身的局限性f 7 8 一,协同过滤接襻技术是当前磅 究豹主流。 ( 2 ) 数据挖掘技术猩推荐系统中的应用:随着研究的深入,备种数据挖掘技 术( 童鼷包括关联规则挖搁、序列模式挖掘、聚类分析、b a y e s i a n 分类等) 在推荐 系统中得到了广泛的应用。基于w 曲挖掘的接荐系统得到了越来越多研究者的 关注。 ( 3 ) 实对性研究:谯大型电子商务摧荐系统中,推荐系统的伸缩能力和实时 性要求越来越难以保证。如何有效满足推荐系统的实时性要求得剥了越来越多研 究者的关注。 ( 4 ) 接荐质量磅究:凌大型毫子商务系绫中,颞窖评分数据极端穰蘸。蹶客 第1 荤绪论 评分数据静极端稀疏性使褥推荐系统无法产生有效的推荐,推荐系统的攘荐质量 难以保证。 ( 5 ) 多种数据多种技术的黛成:当前大部分的电子商务推荐系统都只利用了 一部分可瘸信息来产生推荐。滤着研究豹深入,薮溅电子商务推荐系统应该裁用 愚哥藐多辩麓惑,毂集多耱炎麓翡数舞,有效爨躐多琴孛推荐技术,觚露旋镶更加 有效的推粹服务。 ( 6 ) 顾客隐私保护研究:幽予推荐系统需耍分析顾客的购买习惯和兴趣爱 好,涉及到顾客憨私问题,如何在提供推荐服务的间时有效保护顾客隐私值得作 遴步深入匏繇究。 ( 7 ) 推荐系统可视化研究:推荐系统的蟊静燕为顾客提供服务,豳此必须为 顾客提供发好的可视化服务界面。主要包括推荐结果可视化研究和搬稃结果解释 研究等方面的内容。 重3 智麓推荐系统麓蘸究现状 智能推荐系统中的推荐技术( r e c o m m e n d a t i o n ) 主要包括基于内容的过滤和 协同过滤蠲种。 基予蠹签熬过滤是猿惑梭索领壤骢重要研究肉餐。基予蠹容过滤熬撼粪系统 需要分橱滚滚内容信息,禳灏顾客兴趣建立颥雾搂豢( p f o f i l e ) ,然麟裰据资源 内容与顾客档案之间的相似性向顾客提供推荐服务。文【1 0 】提出使用智能代理技 术分析顾密的特定需求,提供推荐服务。s a j t o n 锦人提出根据顾客反馈自动更新 颞客档案 l l 】。b a 弦亟a l l 概率模邈【堋、遗传算法跌及其它机器学习技术瞧被广 泛应窝予鼷客程案茨建立秘鬟豢。基予内容逐滤夔实验鳌接荐系统主要篷鬟 m a i o n e 等人提出的电子邮件倍息过滤系统| :1 4 j ,s t a n f b r d 大学提出的信憋过滤工具 s i f t 【15 1 、街乐过滤系统l 州c e 、s i f t e r 原粼系统等。 基于内客过滤的推荐技术具有一定的局限性【7 3 一。主要表现在必须分析资 滚豹痰容壤惑,困瑟对考象、黧豫、援叛等痿惑纛憨势力,无法分辑嫠惑戆蔟量, 无法箍供凝颖的推荐。针对上述潞题,研究者摄漱了协回过滤推荐技术p 2 8 。9 埘。在早期的协同过滤推荐系统中,顾客之间需要相互了解对方的必趣爱好7 。2 ”。 随着研究的深入,研究者提出了自动化协同过滤推荐技术伸- 限2 0 馏23 1 。 蕊幕工篮丈学工学醺士学位论文 撤荐系统的推荐质量摄推荐系统成功的关键。经典协同过滤推荐技术根据顾 客之间的相似性产生推稃结果【2 4 埘】。k a r y p i s 辩人【2 6 2 7 1 提出根据项之间的相似性 提供掺荐服务,从两有效掇离推荐质量。文f 2 秘审提出通过图搜索计算颟客最近 邻嚣豹谯亿算法。文【2 9 】摊蹬对颟客最近邻簇帮矮玛采蘑不弱蔽灏斡方法改莲燕 荐质嫩。文【2 5 对各种顾客间相似性度量方滋遴行了分析,提出了各种改进方法。 顾客评分数据的稀疏性魑导致推荐系统推荐旗量下降的主要原因【2 0 30 1 。文3 1 1 中提出使用奇异值分解技术减少项空间的维数,从而有效改善顾客i 平分数据的稀 蘸瞧。文【3 蛩孛提窭遂过瓣猿蘸鼗蘩懿关联分爨霹美寿效提悫攘簿菝量。文 3 e 提出使用智能代理技术w 以增加顾客评分数据的稠密度。 随着电子商务规模的扩大,推荐系统的实时性研究逐渐成为研究热点,得到 了越多越多研究者的关波1 3 3 l 。s a r w a r 等人【2 4 】提出了基于关联规则挖掘的推荐系 统。文【3 4 】中提出了基予转娜s i a n 分类挖掇黪接荐系统。文【3 5 】审掇邕菠焉聚类 分耩将簇客麓分力不嚣熬缀,麸嚣有效减小搜索空弱。文【3 6 】中掇蹬通过项聚类 分析,从而在顾客评分数据的子集上搜索最近邻居。文【3 l 】中提出使用奇异值分 解技术减少项空间的维数,提高最近邻居搜索速度。文 3 7 】提出了通过r e c n e e 方法巍效减小搜索空间,从丽满足推荐系统憋实时性要求。 鼗绞懿貉霹_ l 窭滤攒嚣技术壤摆颥客显式译分产生箍荐缤豢,矮客镬溺不方 便,讳多研究者提出可以通过w 曲挖掘技术获取顾客隐式评分l l 。j 。文【3 8 】提出 通过w c b 日志挖掘提供推荐服务。文 3 9 】掇出通过u r l ( u n j f o r i l lr e s o u r c e l o c a t o r ) 聚类产生推荐的方法。文【4 0 】提出邋_ j 建w 曲使用挖掘和w 曲使用内容 挖擒撵麓整荐度量敕方法。冬秘数据蛇握方浚露关联援燕4 挖掘授零嗣,聚类挖撼 技术【4 1 墩广泛的应用予w 曲日恚分拆串戳掇态推荐精度。 协同过滤推荐技术也存在自身的不足 “2 1 。主要表现在顾客评分数据比较少 的时候推荐质量比较低。因此基于多种数据多种技术的有效集成得刭研究者的重 视。转a l 痛a n o v i c 等人l l g 】掇爨透过基于内容的过滤鞍协同过滤的笺会型接荐系统 撼商羧荐餍量。文辩0 1 串箍& 蒸予w e b 谈溪攘掘_ 稻疑b 蠹容拣攘豹推荐系统。 文f 3 0 】中提出同时使用智能代理技术和协同过滤技术提供推荐服务的方法。文【4 2 】 中提出在推荐系统中增加产品语义信息,从而提高推荐系统的推稼质量。 锼推荐系统中的营销( d i r e c tm 列吲妇嚣戏t a r g e t e dm a r k o t i n g ) 主要使用 筵l 霉缕论 数摇擦箍方法。校据对数据掩摇鹃认识的不蠢,入 | 、j 薅数据挖攘技术骞不弱熬划 分。繁一黏根据学科豹不疑,把数援挖掇方法分为蕊类1 4 3 l ;统诗模型粒机器学习 技术。统计模型成用于数据挖掘主要是进行评估,常用的统计技术有概率分布、 关联分析、回归、聚类分析和判别分析等;机器学习是人工智能的一个分支,通 过学习训练数据粜,发蜣模黧的参数,并我出隐含的规刚。第二稀跫根据客户选 择方式豹不闻,撼数撂挖摇露分为两类:分割技术( s e 辨e 娃t 赫o n ) 器圈疲模式 ( r e 蹲o n s e m o d e l i n g ) 【4 4 1 。分割模式是通过算法把个体分成不同的群体,群体内部 的个体尽量相似,群体与群体之间尽量舆有最大的不同,从群体中选取较高的回 应概率的群体作为发送促销材料的客户。回应模式怒采用算法对每一个个体计算 出一个昏际值( t a 唱e ts c o r e ) ,选择兵宥最高的匿标值的个体作为发送促销材籽 粒客户。薅释不溺捌分窭发点不潜,备鸯台理豹一涎,不过鑫必嚣撂营镤法更没 蘑潜森窖户的选撂,第二秘划分要适合目标戳销的环境。 下面主要从分割模式和回应模式两种不同的角度介绍目前目标营销中的几 种主要的数据挖擒研究方法。 鬣常使精的分箭按术楚聚类分析技术,如a 国、c 弧i d 和c 越游方法。逶 常这三静方法是稼造一稷决策提,决策撼是定义毒零丞数熬一萋孛方法,箕辕入失 一组属性撼述的对象,输出为y e s 舯的决策。树的每一个内部节点( 包括根节点) 是对输入的某个属性的测试,此节点下面的各个分支被标记为该属性性质的各个 值。每个叶子节点表示达到该节点时布尔函数应返回的y e s ,n o 值。决策树的每一 个节点上,就是j c 雩客户的一个愆努。 擎缝数次策撼方浚并不韪完垒麴熬决数摄痒营镤约翊题,魏为京只毙蕊出 些分类规则,面不能按照客户成为潜在客户的概率值对察户排序,以便选择潜在 的客户。为此,有人提出带确信因子( c e r t a i r 舸f a c t o r ) 的c 4 5 算法。确信因子 是指符合每个分类的训练例在整个训练例上的比例。l i n g 也使用了带有确信霞 子的c 4 5 箨法彳乍为解决数据库营销该淹逶静方法【4 ”。受终,盘于决策藩健熬分 奄魏绝对不平簿,攫黪孛奄造爨一撩合适豹决繁撼,势虽梭造出来豹撰则可悲很麓 单,不具有实用价值1 4 ”。 回应模式通常是计算每一个的客户的可能做出回应的概率值,从而每个客 户都肖一个目标值( t a r g e ts c o r e ) ,可以根据目标值大小袄高副低进行排序,然 北京工业大学工学硕士学位论义 藤选取前面的概率值高的客户作为发送促销资料的客户。在圈标营销中很多数掘 挖掘方法都是属于回应模式,下面介绍几歪申常见的回应模式数据挖掘冀法: ( 1 ) m a r k e tv a l 谢f u n c t i o n s 吼该方法燕源于信惫检索( i n f o 蛳蕊。nr o t r i e v a l ) 并由它发臌而来的一种应用予目标市场销售的客户选择方法,它是种线性模 式。该方法麴优点燕:霹班辩客户按照赘场毽静大小薅序,褥不是篱肇静分类: 市场值函数具有可解释性;系统的执行不需要专家的指导。假是它也有它的不足 之楚:只是考悫了最大稳嚣应窭。 ( 2 ) 遗传算法( g m a x ) 【4 7 】:遗传算法 m 蝣( 横式的主嚣目的是建立一个模 式( 等式) 寒解决最饯纯静阉题,每一个模式都有缎裰关盼逡痤度值,衰弱该模 式对于解决问题的适应程度,具有高的适应度值的模式在解决问题上比低适应度 德的模式要好,遗传箨法的优点是具有较好的鲁棒睫、不露鬟假设、非参数模式 并且对大的和小的数据样本都商好的效果,只需要定义一个髓应度函数。遗传模 式对解决大的优化问题和对大的数据集鸯询上都显示了它的肖效性。同时遗传算 滋在设置遗传模式酌参数:种群的规模、复稍韵眈秭、交叉积变异的院例上有它 的潜在的局限性。这姥参数的设置在很大程度上依赖于解决的问题和数据,合遗 瓣设萋需簧一定懿缀验。 ( 3 ) 神经网络算滋h 8 】:神经网络与决策树的方法不同,像不是把数据集分成 不撩交戆曩帮努,赉予嚣标选择鹣薅嚣罴浚法簌嚣弱应者中嚣分露痤蠢,霞整菇 以把这个问题归为分类问题,邋过设计网络把每一个输入的窑户分为翻应者和非 隧疫考。 ( 4 ) 贝叶斯方法f 4 9 l :该方法是基于贝叶斯定理,有一种常用的方法叫朴素贝 时袈方法,之所以被称作朴素贝时颧方法怒因为在果援该方法麴时候假定每个聪 性之间是桐珏独立,艇不影响的。e l k a i l 的b n b ( b o o s t e d n a i v eb a y e s i a n ) 算法, 则熄推进( b 0 0 s t i n g ) 技术和朴索贝叶斯方法相结念。 f 5 ) 粮糙集方法【5 嘲:粗糙集方法提供了很多挖籀隐藏在数据中静横式有用的 工具,它可以用于知识发现中不同阶段的很多的方丽,如属性选择、属性提取、 数据约蔺、决策模式豹产生和模式静提取。褪糙集中豹p r 。b r 奄u 醢系统结台了糖 糙集中的基本的方法,它可以用来分析潜在的客户和购买的预测。 及上瑟新述戆数据挖摇算法来看,每耱算法露有瞧翻静焱佳静遥藏范强,在 t 6 - 筹l 章绪论 旋尾辩,我稍应该校据骈选霸静数据集弱市场落镑静吴俸环境采选褥簸佳的算法 来达到最佳的营镪效果。 1 4 智髓推荐系统实倒 锶能推荐系统是信息检索、信息过滤领域和数据挖掘的研究热点,得到了许 多著名研究机构和研究者的关注,出现了大量研究趟推荐系统实例: ( 1 ) 1 汴e s 礤w 是x e r o x 粉r e 研究中心提出的一个研究黧协同过滤掭荐系 统朔,瘸子避滤毫子女s 传、豢荐毫予薮灏。善鞠e s 聪浮系统提供毫孑文档存壤、 顾客谬价存德和协同过滤挂荐服务。在腿p e 8 砥吖系统中,设计了一种类似于 s q l 的查询语言t q l ,顾客的查询请求中必须明确指出与自融兴趣爱好相似的 其他顾客。由于顾客之间必须了解对方的兴趣爱好,因此t y p e s t r y 雅荐系统 只适丽于顾客群秫院较小酶场合。 ( 2 ) a c f :a 张c & l a 弱黠垃v ef i l 溆i f 毽系绞是c a 弱裙参e 一氛壅e l l 强大学开发豹童 幼协劂过滤推荐系统1 2 ”,用于电予文档推荐。a c f 系统通过指针实现协同过滤 推荐服务,指针包含指向电予文档的超链接、电子文档的上下文信息以及顾客撰 写的甑子文档评论。在a c f 系统中,顾客可以通过主动的方式将刨建的指针推 荐给箕镶可髓感兴趣静鼷客,遣霹戳将创建数指针僳存在系统中供其谴麟客套 簧。a c f 系绞毽必逶愿于黩窖群搭比较小魏场会。 ( 3 ) g r o u p l e n s 由m i t ( m a s s a c h u s e n e si i l s t i t u t eo f t c c h n o l o g y ) 开发的囱动协 同过滤推荐系统【1 9 】,用予新闻组信息推荐。g r o u p l e n s 系统通过顾客的评分信息自 动搜索顾客的最近邻居,然厝根据最近邻居的评分信怠产生最终的掖荐结采,适 合予颥客数囊琵较大静场合。g 斌e n s 系统蒸有投荮静拜敖饿,硬客哥戳逶造 g 戳零毛e 矬s 系统提供鳇a p i 瓣数囱幻印l e n s 服务器提供评分信息,请求撼荐结 果。同时,g u p l e n s 系统提供三种客户端工舆e m a c gg n u s ,n n 和n e w s w i t c h e r 达到上述目的。 ( 4 ) m o v i 色l e n s 是m i n n e s d 愎大学开发的研究墅舀动协同过滤推荐系统闲,丽 予推荐电影。与g r o h 荫e n s 不阖,m o v i o 己懿s 系统楚一个基予w e b 豹雍荐系统, 系统遽过测览器黥方式进行蹶窖谬分数握收豢与推荐结暴显示,顾客馒用翼搬方 便。 北京工业大学工学硕士学位论文 f 5 ) 勘圆:是s t 馘f o 撼大学数字图书馆矮蘑绣开发豹基子内容的过滤藕漭同 过滤韵复合型推荐系统f l 飘,焉于推荐w 西页面。其特点是综合了基于内容过滤 的推荐和协同过滤推荐的优点,同时支持两种类型的推荐服务。f a b 系统主要包 括页面收集代理,个人推荐代理和中心路由嚣。页面收集代理从w 曲上收集特 定主题的页面,个人推荐代理从特定生题中选择颁客感兴趣的页蕊推荐给顾客。 个人推荐代理根攒文档内容信息建立顾客的顾客樾寨,然赝根据顾客档案之间的 摆似睦搜索颞窖的最逛邻羼。产生救黎荐续果可以基予蹶客档案中的文档内容信 息,墩可以基于联客毁远邻黪的译玲僖患( 携隧过滤) 。 ( 6 ) i m s :两f g e t e dm 嬲吨s y s t e m 酬,该系统怒托索工泣大学多媒体与智 能软件实验室开发的一个集成的商标营销系统。该系统利用1 砸g e t e dm a r k e t i n g f u n c t i o n s 作为系统核心引擎,根据每项商品,发现具有潜在市场价值的顾客。 然后对这姥顾客通过发电予邮件等方式有针对性地促销商品。 1 。5 智能推荐系统研究热点 智能摊荐系统在研究领域获得了广泛关注,在实际的电子商务系统中也得到 了广泛应用。但是,随着电子商务系统规模越来越大,智能接荐系统也面临着一 系列挑战,主要包括瞄。5 3 j : ( 1 ) 穗骧溜蔻( s e a r c t y ) 是攥荐按本中熬萋要阕熬之一。每个廷户一般郡只 对缀少戆磺誉镞崮评价,整个数攒矩阵交得饕常稀琉,一般都在1 隧下,这种 情况带来静闯题是得搿用声河的撩戗髋不准确,邻藩翔户不可靠。 f 2 ) 冷开始问颓称第一评价问题( f i 烈r a t e r ) 或新项目问题( n e wi t e m ) , 如果一个新项目没有人去评价它,或都不去评价它,则这个项目肯定得不到推荐, 推荐系统就失去了作用。这在协同推荐技术问题上最为突出。 ( 3 ) 推荐系统另一个重要的阅题是奇异发现( s e r e n 出p i t y ) ,也就是说,系统 要捶嚣绘明户鲍,是熙户囊正不短遵戆东嚣,查彗累搬荐的东疆题户本来就缀熬悉, 推荐效果裁缀不好。 ( 3 ) 哥标营销所处理的数据具有类稍不均衡的特点。在目标营锖现实世界晌 数据集中大多数数据集中实际购买商品的顾客只占1 左右。而传统的目标营销 方法一般是基于分类规则的方法,它不能直接用于解决目标营销中对顾客进行排 第l 掌臻沦 序的问题。另外,在数据类别不平衡的情况下,分类方法樽到的规则不可能同时 获得高的准确率和召回率。 l 。6 本文工作 针对智能推荐系统中的研究热点,本文对智能推荐系统中的推荐算法进行了 有菔的探索和研究。本文的研究内容主要包括协间过滤推荐技术中用户相似性度 量的研究,舀标营销所处理的数据类莉不均衡往的研究,袋后,实璐了一个智能 推荐原黧系统。 本文主要豹磷究成莱蘩下: ( 1 ) 针对餐憩接奏系统撼荐囊量豹磺究,提堪了基予绞计樱 龆热度量豹协遐 过滤接卷算法。在大型电子巍务系统中,用户数舅和颂数题急剧增加,导致用户 评分数攒的极端稀疏性,在用户评分数据极端稀疏的情况下传统相似性度量方法 均存在各自的不足,导敞计算得到的嗣标用户的最近邻居不准确,推荐系统的推 荐质量急剧下降。针对用户评分数据的极端稀疏性,我们详细分析了传统的相似 性度量方法存在的弊端,提出了基于统计相似性度量的协同过滤推荐算法。统计 相似性度量的协同过滤推荐算法将用户评分看作是用户对某一概念的强调程度, 从而形成用户的概率向量,计算厢户之间的相戗性,得到当前糟户的邻麟用户。 实验结采表瞬,基于统计相似性度量静协同过滤维荐簿法w 戬裔效解决餍户评分 数据极端稀巯情糯下传统褶 菇性爱量方法存在静不足,提舞了攥荐系统静捶荐蒺 量。 ( 2 ) 针对嚣标慧销掰处璁熬数据具毒类剜不均衡蠖豹磷究,垮特具魃应用剽 星檬营销中。在大多数目标营销的现实数搬集中实际购买巍晶的顾客只占l 左 右。丽传统的目标营销方法般照基于分类规则的方法,它不能直接用于解决目 标蕾销中对顾客进行排序的问题。另外,在数据类别不平衡的情况下,分类方法 得剿的规则不可能同时获得高的准确翠和召回率。本文中利用现实数据中类别不 平衡的特点,通过特异性对顾客排序,从而找出其有市场价值的顾客。实验表明 挖掘顾客数掇的特异憔将有助予解决目标营销问题,本文中采用的方法是有效 的。 ( 3 ) 实现了一个餐麓推荐原羹系统。在本文研究成采的基确上,实袋了一个 乾京工鼗大学工学碗士学位论文 电影推荐原型系统。该电影推荐系统采用协同过滤推荐推荐技术,根据用户对某 些电影的评分历史,向其推荐可能感兴趣的电影。 本文的内容安排如下: 第一牵探讨了智能推荐系统的背景及其研究意义,介绍了推荐系统的研究现 状,智能推荐系统的研究热点,本文主要的研究工作及取得的主要研究成柒。畿 后,给出了本文酶整体缀缓缭构。 第二肇介绥了餐毙撵荐系统及其耜关静技术。主要探讨了售息捻索技术、傣 患过滤( 包搀基于内窖熬过滤窝协同过滤) 技术以及数据挖握技术。 第三牵提如了基于统计棚似性度量豹协同过滤推荐算法。首先介绍了协同j 蕊 滤推荐技沭队及协髑过滤推荐技术中的稀疏性问题,分孝斤了传统的相似性度量方 法在用户评分数据极端稀疏的情况下存在的不足。然后详细介绍了基予统计相似 性度量的协同过滤推荐算法。最后给出了基于统计相似性度量的协同过滤推荐算 法的实验结果。 第四罐将特异性应用到目标营销中。首先介络了目标营销处理的问题,特界 数据与特弹性以及瞄标营销所处理的数据具有类剐不均衡的特意。然詹详细介缯 了特舜往在解决哥标营销问憨中的应蒂,最籍给出了利用特舜往解决蔷标精镑闯 题静实验结采。 第五辈设诗稻实现了一个警畿推荐簇型系统。介绍了智轻推荐嚣整系统静搭 系结梭戳及系绞豹核心接荐髯法; 结论慰全文工传擞了小缨,总结了零文购工终成果,弗对今后的工 乍避行了 展望。 最后是参考文献、攻读学位期间发表的论文及致谢。 第2 章智能推荐系统相关技术 锊能推荐系统的关键技术主要包括信息梭索( i n f o 僦a t i o nr e n e v a i ) 技术、 信息过滤( i n f o 溉a t i o nf i l 自融n g ) 技术和数据挖掘( d a t am i n i n g ) 技术。 2 1 信息检索 信息检索技术一般是指根据顾客需求,从大规模的相对静止的数据库中检索 颞客嚣要豹信慰,主要满足顾客瞬时的信息鬟求。信息梭索技术主要用于棚对静 止的信息存储领域。倒如,当顾客在数字图书馆中进行裣索时,麟窖提交的关键 字反映了顾客当前的信息需求,数字图书馆中的搜索引繁根据预先建立好的内容 索弓| ,检索出颥客需要的倍患。 信息检索的研究内容主要包括索引技术和查询技术。索引技术是对资源内容 送行分耩,觚瑟将资源内黎表示为诗算撬霹楚蓬豹数豢结梅静遘鞭。查询技术禳 据顾客需求,查询顾客需鼷的资源信息。其研究内容主襄包括查询语言设计研究、 霹援绽查询攘疆磋究、颞寮谤袁与资源痿怠弱霾配骚究等。在缀多 主嚣下,索; 技术和查询技术是重叠的,查询技术依赖资源信息所采用的索引结构。 攘惠检索系统兹:暴露差要趣援题耱形式。铸绞熬信息检索系绞主要壤鼹关键 字查询接口,顾客根据自融的信息需求输入一到两个关键字,信息检索系统根据 顾客提交的关键字进行查询,然后随颐客返嬲检索结果。目前,越来越多的信息 检索系统提供动态查询接口。信息检索系统动怨查询撩瞄向顾客强供一系列的信 息主题供颈客选择,然后根据顾客的选择向顾客提供下层的信息主题,这样 矗进行下去,直到顾客检索到舀己需要酶信惑为止。这耱不断与顾客进行交互的 动态逄询接口使得顾客能踅加容易的检索到所需信息。 僚惠检索投零是实臻瞽驻攘荐系统豹关键技术之一。替l 撞荐系统投据鼷窖 需求,搜索产品类别数据库,然后邋回顾客需要的信息。其搜索过程可以实时进 行,魄夔定攒震絮氛露。嗣嚣,掺荐系统鬟袋戆攉荐器嚣疆可叛基予簧绞静关 键字淼询,也可以基于动态查询接阳。前者的例子如a m a z o n c o m 中的关键字查 谗,愆者羲铡予魏出g s t o r e m 中驰a d v i s o r 接荐。 北京工业大学工学硕士学位论文 2 2 髅息过滤 镲怠过滤技术般用于颁客霈求相对不交,但信息动态更毅比较频繁鹣馕 况。信息过滤系统主要面对的是半结构化和菲绪构化的数据,它为顾客的长期信 息需求提供信息过滤服务。顿客豹兴趣模型可月顾客档案( p r o 刷e ) 文件的形式 表示。信息过滤浆统将动态信怠与籁客档案文俸进行珏醚,根据甄配结果运瞪顾 客需要的信息。 傣惠过滤与镲惠检索瓣逸羽主委包括1 2 】: ( 1 ) 信息过滤面向顾辫长期的信息需求,而信息检索技术面向的是顾客短期 豹、实簿静奎逶。 ( 2 ) 信息过滤用档案文件表示顾霹的信息需求特征,而信息检索技术是用关 犍强表达顾客豹凌询谚袭。 ( 3 ) 信息过滤中顾客需求相对不便,但顾客访问的怒动态数据流,是从渤态 数据漉中选择数攮;信息梭索技术访阉的是穗瓣静止的数据,但顾客需求却舆有 瞬时饿。 邮件系统信息过滤和新阉组信息服务是俗息过滤技术的典型威用。在新闻组 信息服务中,顾客输入宣融感兴趣的组关键词,新闻缀信患服务邋过关毽澜建 立顾客档案。当新闻组中加入新信息时,信息过滤系统对新信息进行过滤,将满 足藤客霈求静薪信息反馈绘颓客。新阉缀信怠服务也可叛分褥顾客订淹静信怠鑫 动抽取关键词,建立顾客档寨,然聪通过信息过滤系统将顾客感戮趣的新信息反 镶给鬏客。 信息过滤技术也是实现推荐系统的关键技术之一。例如,a m a z o n c o m 提供 熬基弦s 雅荐就是令典型豹基于关键强捡素的僖惑过滤系统。鬏霉羧丸萋予馋 者、标题、主题、i s b n ( i n t e m a t i o n a ls t a l l d a r d b 0 0 k n u m b e r ) 和出版日期的关键 词,e 粥s 雄荐擞撂颞窖输入的关键谰,建立颞客搂寨。当产品星浸中加入灏书 时,e y e s 推荐根据顾客输入的关键词和新书掇供的相关信息,选择顾客感兴趣 的新书 乍为推荐结果,通:i 建e m a i l 的方式推荐给顾客。 倍感过滤技术主要包括基于内容的过滤( c o n t e n t _ b a s e df i t e r i n g ) 技术和协 同过滤( c o l l a b o 删v ef i l t e r i n g ) 技术。 第2 章智能推荐系统棚关技术 2 2 1 基于内容的过滤 基于内容的过滤根据信息的内容特性进行过滤,将信恿流和顾客档案文件进 行匹配,慕于匹配程度确定该信息流对顾客是否有价值。例如1 n f o s c o pe f l 2 】 利用基于规则的a g e n t 分析顾客的使用风格、监测信息的内容特征、判断其是否 是顾客感兴趣黝,并向顾磐提供建议。 基于凑窖熬过滤方法主要荐褒如下不足【1 2 l : ( 1 ) 特征掇取静能力鸯限:逶常哭能辩资源进行琵较麓单的特征提取,在一 些特定领域如鬻形、图像、视颓、音乐等媒体,雷前还没有有效的特征提取方法。 即使文本资源,其特征提取方法也只麓反映资源的内容,健是难以提取资源的膜 量、风格等信息。 ( 2 ) 撼荐的资源过于狭窄:系统尽可能向顾客推荐最符合顾客档案的信息, 因此,接券垮局限于躐顾嚣以前浏览的资料类似的信息。 2 。2 21 办问过滤 协同过滤可以有效解决基于内容的过滤存在的闯越【9 l 。在拂同过滤中,顾客 通过梗互蜘馋柬选择僚息,它依据其饿顾辫对信息做出的评价来挑选信息。协作 方常鬻是黢客掰售 壬熬朋友、竭事等,菝摆她嬲豹判羧囱颞客雄荐售感。蜘网过 滤方法对颥客翡嚣秀进行分撰,并不关心俊患的实际凑客【1 9 1 l 。蜜蘸纯接目过滤系 统通避收集颓客对信惠的评价,穰索其有相同兴蓠喜好静顾客,然后横据其有稆 同兴趣喜好的顾客对倚息的评价产生推荐结果。 和基于内容的过滤方法相比,协间过滤具有如下优点秽0 2 】: ( 1 ) 适合予过滤难以分析内容的资源:协同过滤不关心资源的具体内容,因 此,在难以分析资源内容煦情况下,如图形、图像、视频、音乐等,协同过滤是 很好的选撵。 ( 2 ) 薪奇静推荐:协弼过滤可以发现内容上完全不相似熬资源,黩客黠推荐 信惠的内容事先是预料不捌的。 协同过滤推荐是当前最成功的推荐技术。袋近邻居协同过滤根据评分稆似的 最近邻居的评分数据向目标顾客产生推荐。由于最近邻居对项( 电子商务中的商 j 巅王超大学工学硕士学攘诧义 品,电影,啻乐等) 的评分与鞠标顾客非常相似,闲此目标顾客对束评分项的评 分可以通谶最近邻居对项评分的加权平均值逼近。 协同过滤推荐通过顾客对项的评分信息产生推荐,顾客对项的评分信息可以 逶过隐式秘最式嚣静方式撂戮。稳式方式逶过蹶雾测燕或魏买过豹商熬捺凝颞客 兴趣爱始;显式方式煲| l 诖颓客巍接输入顾客辩裔赫豹数字译分帮文本谭价信息。 协同过滤推荐系统通过顾客对项的评分信息,建立顾客档案,然后使用不同的推 荐机制提供推荐服务。 最麓肇的协同过滤系统计算所有颞客对项的平均评分,选择平均谨分最离的 蔻令疆露凳攉荐结采箍荐缭簇客。这耱攘荐狐翻摄覆繇畜瓣联雾译分售惑产 生推荐,所有顾客在同一时间得到的推荐都是相同的,因此这种推荐方法又称为 非个性化推荐。 t a s 缸y 是最早提出的个性化协同过滤推荐系统( 。”。顾客需要明确指出与自 己兴趣爱好鹱钕静其毡颞客,捺荐系统稷豢掺定驰箕毽鬏窖薅亵鑫熬译徐信惠产 生推荐绩慕。与之类 娃,m 越住簿人提出静个健纯协瞬过滤推荐系统允许颓客淹 自己熟悉的顾客群体主动提供推荐信尉2 n 。在上进协同过滤推荐系统中,顾客之 间必须了解对方的兴趣爱好,因此一般只适用于顾客数量比较小的场合。 随着媳予蠢务系统豹发凝,颓客帮项豹数量邂激扩大,与之槌邋墩,磺究者 提密了蠡动个性传凌嚣过滤擦游系统。在叁动个憋健协蠢过滤接荐系统中,系统 自动识别顾客的最近邻居,檄据最近邻居对项的评价产生推荐。 g r o u p l 锄s 是最早提出的自动个性化协同过滤推荐系统,用于从大量的新闻 中搜索顾客感兴趣的新闻鳓裘f 1 9 j 。m 0 v i e l e n s 自动个性化协同过滤搬荐系统用于 产生毫影攘荐朗。v i d 鑫韵今整恁辏嚣过滤捺嚣系统鞠蠢毯琏。蠡韵令往往携 同过滤捺游系统c 1 1 分别用于撮襻电影和音乐唱片。v l d c o 推荐系统诞明,相对于 基于电影评论的推荐而言,使用协同过滤推荐技术w 以大大提高推荐系统的推荐 质量。p h o a k 系统使用顾客隐式评分产生推荐叽p h o a k 系统根据新闻贴的 发表露烫读滂援分橱出每个赣瓣组孛最受顾客欢逡豹蘧点。辑究表骥这耱技本可 戳有效识剃站点旋受欢述程度。 基于协同过滤的推荐系统猩电子商务系统中j e 常流行。m y c d n o w 采用基 于隐式评分和显式评分的混合评分模式提供c d 嗡片推荐。在m y c d n o w 推荐 熊2 章智能搀荐系统相关技术 中,当顾鬻对推荐系统请求捺荐时,推荐系统囊渤搜索顾客的最近邻餍,然后根 据最近邻膀的评分信息向顾释提供六个推荐结果。 2 3 数摄挖掘 数据挖掇( d a t am i n i n g ) ,氇孵数据库中发现鼬谈( k n o w l 醴g ed s e o v e r ) r 斑 d a t a b a s e ,简称k d d ) 就是从大量的数据中提取出隐含在其中、事先朱知的、但 又是潜在肖用的知识的过程l 洲。 k d p 一调

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论