cmcdh集群管理课程1.推荐系统中的算法_第1页
cmcdh集群管理课程1.推荐系统中的算法_第2页
cmcdh集群管理课程1.推荐系统中的算法_第3页
cmcdh集群管理课程1.推荐系统中的算法_第4页
cmcdh集群管理课程1.推荐系统中的算法_第5页
免费预览已结束,剩余30页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 推荐系统 推荐系统1、什么是推荐系统2、为什使用推荐系统3、推荐系统中的算法 为什么使用推荐系统促进厂商商品销售,帮助用户找到想要的商品推荐系统无处不在,体现在生活的各个方面图书推荐;QQ好友推荐;优酷,爱奇艺的视频推荐;豆瓣的音乐推荐;大从点评的餐饮推荐;世纪佳缘的相亲推荐;智联招聘的职业推荐。亚马逊的推荐系统深入到网站的各类商品,为亚马逊带来了至少30%的销售额。 推荐引擎工作原理 推荐系统主要向用户推荐可能感兴趣商品的系统。系统会给用户以TopN推荐给用户商品。系统主要使用的数据是用户的历史商品购买记录,这部分数据存放在公司的数据库中。 Mahout的推荐系统整体架构 推荐系统的实现推

2、荐系统中的算法Apriori算法基于用户基于内容基于协同过滤 Apriori算法-购物篮分析(关联分析) “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市。沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现。 原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。 这个发

3、现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢? Apriori算法的产生 1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。Agrawal从数学及计算机算法角度提出了商品关联关系的计算方法Apriori算法。 沃尔玛从上个世纪90年代尝试将Aprior算 法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。 Apriori算法如何寻找? 在历史购物记录中,一些商品总是在一起购买。但人看上去不是那么的直观的,而是隐蔽的。让计算机做这

4、事,设法计算法让计算机自动去找,找到这样的模式(规律)。目标:寻找那些总是一起出现商品。mahout实战机器学习实战mahout实战与机器学习实战一起该买的记录数占所有商品记录总数的比例支持度(整体)买了mahout实战与机器学习实战一起该买的记录数占所有购买mahout实战记录数的比例置信度(局部)需要达到一定的阈值 支持度、置信度越大,商品出现一起购买的次数就越多,可信度就越大。支持度:在所有的商品记录中有2%量是购买mahout实战与机器学习实战置信度:买mahout实战的顾客中有60%的顾客购买了机器学习实战作用:找到商品购买记录中反复一起出现的商品,帮能助营销人员做更好的策略,帮助顾

5、客方便购买。策略:1、同时购买的商品放一起2、同时购买的商品放两端 支持度、置信度转化为数学语言进行计算:A表示mahout实战 B表示机器学习实战support(A-B) = P(AB) (mahout实战和机器学习实战一起买占总的购买记录的比例)confidence(A-B) = P(B|A) (购买了mahout实战后,买机器学习实战占的比例)项集:项的集合称为项集,即商品的组合。k项集:k种商品的组合,不关心商品件数,仅商品的种类。项集频率:商品的购买记录数,简称为项集频率,支持度计数。注意,定义项集的支持度有时称为相对支持度,而出现的频率(比例)称为绝对支持度。频繁项集:如果项集的相

6、对支持度满足给定的最小支持度阈值,则该项集是频繁项集。强关联规则:满足给定支持度和置信度阈值的关联规则 A=B的置信度可以由A于A U B的支持度计数计算推出。满足最小支持度计数的项集为频繁项集。找关联规则问题,归结为找频繁项集。注意:A=B,B=A的不同 明确问题1、找出总是在一起出现的商品组合2、提出衡量标准支持度、置信度(达到一定的阈值)3、给出支持度、置信度直观计算方法4、得出在计算方法中起决定因素的是频繁项集5、由频繁项集轻松找到强关联规则找关联规则-找频繁项集步骤:1. 找出所有的频繁项集;这个项集出现的次数至少与要求的最小计数一样。如在100次购买记录中,至少一起出现30次。2.

7、 由频繁项集产生强关联规则;这些关联规则满足最小支持度与最小置信度。 先验性质:频繁项集的所有非空子集也一定是频繁的。逆否命题:若一个项集是非频繁的,则它的任何超集也是非频繁的。Database TDBTidItems10A,C,D20B,C,E30A,B,C,E40B,EApriori算法 Apriori算法 Apriori挑战挑战 多次数据库扫描 巨大数量的候补项集 繁琐的支持度计算改善Apriori: 基本想法 减少扫描数据库的次数 减少候选项集的数量 简化候选项集的支持度计算 FPGROWTH 基于用户的推荐技术 基于内容(物品)的推荐技术 协同 指协调两个或者两个以上的不同资源或者个

8、体,协同一致地完成某一目标的过程或能力。原理 协同过滤技术是基于用户对项目的历史偏好,发掘项目之间的相关性,或者是发掘用户间的相关性,根据这些相关性进行推荐。类别 基于用户的协同过滤推荐 Uesr_CF 基于物品的协同过滤推荐 Item_CF协同过滤推荐技术 基于用户的协同过滤推荐技术 基于物品的协同过滤推荐技术(评分) 实现协同过滤的步骤1、收集用户偏好2、找到相似的用户或物品3、计算推荐 收集用户偏好的方法(评分)用户行为类型特征作用评分显式整数量化的偏好,可能的取值是n;n一般取值为5或者是10通过用户对物品的评分,可以精确的得到用户的偏好投票显式布尔量化的偏好,取值是0或1通过用户对物

9、品的投票,可以较精确的得到用户的偏好转发显式布尔量化的偏好,取值是0或1通过用户对物品的投票,可以精确的得到用户的偏好。如果是站内,同时可以推理得到被转发人的偏好(不精确)保存书签显示布尔量化的偏好,取值是0或1通过用户对物品的投票,可以精确的得到用户的偏好。标记标签显示一些单词,需要对单词进行分析,得到偏好通过分析用户的标签,可以得到用户对项目的理解,同时可以分析出用户的情感:喜欢还是讨厌(Tag)评论显示一段文字,需要进行文本分析,得到偏好通过分析用户的评论,可以得到用户的情感:喜欢还是讨厌点击流隐式一组用户的点击,用户对物品感兴趣,需要进行分析,得到偏好用户的点击一定程度上反映了用户的注

10、意力,所以它也可以从一定程度上反映用户的喜好。( 查看)页面停留时间隐式一组时间信息,噪音大,需要进行去噪,分析,得到偏好用户的页面停留时间一定程度上反映了用户的注意力和喜好,但噪音偏大,不好利用。购买隐式布尔量化的偏好,取值是0或1用户的购买是很明确的说明这个项目它感兴趣。 每行3个字段,依次是用户ID,物品ID,用户对物品的评分(0-5分,每0.5分为一个评分点!) 用户,物品,评分什么人喜欢什么,以及程度相似性的度量计算相似性欧氏距离相似度皮尔森相似度余弦相似度秩相关系数相似度曼哈顿距离相似度对数似然相似度 欧氏距离相似度计算欧式距离欧氏距离相似度范围:0,1,值越大,说明d越小,也就是距离越近,则相似度越大。 用户1与其他用户之间的欧式距离及所得到的相似度评分物品101物品102物品103欧式距离与用户1的相似度S用户15.03.02.50.0001.000用户22.02.55.03.9370.203用户32.52.5000.286用户45.03.00.5000.667用户54.03.02.01.1180.472 1)收集用户偏好 通过用户的行为诸如评分,投票,转发,保存,书签,标记,评论,点击流,页面停留时间,是否购买等获得。所有这些信息都数字化,用一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论