




已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能推荐系统,超群.comfuchaoqun,推荐系统,介绍:/wiki/Recommender_system关键字:recommendersystem、collaborativefiltering、关联规则、协同过滤、SVD、KNN.,Amazon,豆瓣,新浪音乐,推荐系统常用算法,关联规则SlopeoneSVD,关联规则,沃尔玛的啤酒和尿布,关联规则,支持度:置信度:算法:Apriori算法、FP-growth算法示例:Python+Orange,SlopeOne,SlopeOne,SimperCouldBeBetter,2005年由DanielLemire提出http:/www.daniel-,SlopeOne参考资料,/wiki/Slope_One,SVD,相似性度量方法,基于项目评分预测的协同过滤推荐算法(邓爱林,朱扬勇,施伯乐),问题,如果大量的数据miss怎么办?很不幸,这个很常见,netflixprize数据缺失99%,新浪音乐更糟糕,由于长尾效应,新浪音乐数据缺失率99.5%,SVD,=,R,U,S,V,Rmn=Umr*Srr*Vrn,SVD性质,Rmn=Umr*Srr*VrnRk=Umk*Skk*Vkn其中Umk是Umr的前k列,Skk是Srr的前k行和前k列,Vkn是Vrn的前k行RkRmn假如原矩阵是10万100万的一个矩阵,原矩阵有1000亿个数据,如果采用奇异值分解保存为三个矩阵,取k=100,只需要总共10万100+100100+100*100万=1亿1千零1万,数据规模是原来的千分之一多点很多时候Rmn有很多不准确的数值在里面(比如缺失值),缩小到Rk的同时误差也缩小了数学证明查阅:,SVD用在图片压缩,原图,K=10,K=20,WhySVD?,以音乐为例,每一部音乐都是由一些元素构成,比如民谣、摇滚、轻缓、激昂、抒情等等,音乐在这些元素围度上的侧重各不相同,每一首音乐都可以用一段向量来表示。同样的,每一个用户欣赏音乐的时候,对民谣、摇滚、轻缓、激昂、抒情等元素围度的侧重也不相同,每一个用户也可以用一段向量来表示。最后,用户向量音乐向量=用户对此音乐的打分。,基于SVD推荐系统,以音乐为例:获得用户对音乐的打分数据矩阵R,假设有m个用户,n首歌曲,对原始数据作一些预处理对矩阵R进行SVD分解,选择合适的K值,获得U、S、V三个矩阵获得S矩阵的平方根sqrt(S),U*sqrt(S)作为用户矩阵,sqrt(S)*V.T作为歌曲矩阵a.预测用户i对歌曲j的打分:pi,j=用户i向量*音乐j向量;b.最近邻,knn,示例,转自:,哪两个用户品味最接近?哪两部电视剧最相关?,SVD结果值,空间分布图,构建开源SVD推荐系统,SVD计算matlabLAPCKL、BLAS:Fortran语言numpy、scipy:Python封装SVDLIBC、Meschach:C语言/wiki/Singular_value_decompositionKNN:matlabFLANN完备方案:DIVISI,MAGICDIVISI!,#!/usr/bin/envpython#coding=utf-etimport*data=divisi.SparseLabeledTensor(ndim=2)#readsomeratingintodata#datauser_id,song_id=4svd_result=data.svd(k=128)#获得指定用户感兴趣的100首歌曲#predict_features(svd_result,user_id).top_items(100)#获得指定歌曲最相关的100首其他歌曲#feature_similarity(svd_result,song_id).top_items(100)#获得指定用户音乐品味最接近的1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届江苏省兴化市广元实验学校九年级英语第一学期期末监测模拟试题含解析
- 全国导游证考试试题及答案
- 2025年应急管理试题库及答案
- 江苏南通市启秀中学2026届化学九年级第一学期期中学业水平测试模拟试题含解析
- 2026届福建师范大第二附属中学英语九年级第一学期期末检测模拟试题含解析
- 甲乙丙三方广告宣传合同范本:大型文化节活动
- 离婚协议中财产分割及子女抚养费用及探望权协议
- 双方协议离婚房产分割及子女抚养教育金保障协议
- 专科教育学考试题及答案
- 离婚贷款房产分割协议及财产分割调解执行书
- 2025四川蜀道建筑科技有限公司招聘16人考试模拟试题及答案解析
- 国旗下讲话稿:预防秋季传染病
- 第1课 认识工具教学设计-2025-2026学年小学书法西泠版三年级上册-西泠版
- 教师网络安全培训会课件
- 2024年中国中信金融资产江西分公司招聘2人笔试模拟试题附答案详解(研优卷)
- 体育模拟上课培训课件
- 标准件供货协议合同范本
- 纳税申报流程课件
- 2025年秋期新教科版四年级上册小学科学教学计划+进度表
- 2025新疆维吾尔自治区人民检察院招聘聘用制书记员(14人)笔试参考题库附答案解析
- 800个产粮大县名单
评论
0/150
提交评论