已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能推荐系统,超群.comfuchaoqun,推荐系统,介绍:/wiki/Recommender_system关键字:recommendersystem、collaborativefiltering、关联规则、协同过滤、SVD、KNN.,Amazon,豆瓣,新浪音乐,推荐系统常用算法,关联规则SlopeoneSVD,关联规则,沃尔玛的啤酒和尿布,关联规则,支持度:置信度:算法:Apriori算法、FP-growth算法示例:Python+Orange,SlopeOne,SlopeOne,SimperCouldBeBetter,2005年由DanielLemire提出http:/www.daniel-,SlopeOne参考资料,/wiki/Slope_One,SVD,相似性度量方法,基于项目评分预测的协同过滤推荐算法(邓爱林,朱扬勇,施伯乐),问题,如果大量的数据miss怎么办?很不幸,这个很常见,netflixprize数据缺失99%,新浪音乐更糟糕,由于长尾效应,新浪音乐数据缺失率99.5%,SVD,=,R,U,S,V,Rmn=Umr*Srr*Vrn,SVD性质,Rmn=Umr*Srr*VrnRk=Umk*Skk*Vkn其中Umk是Umr的前k列,Skk是Srr的前k行和前k列,Vkn是Vrn的前k行RkRmn假如原矩阵是10万100万的一个矩阵,原矩阵有1000亿个数据,如果采用奇异值分解保存为三个矩阵,取k=100,只需要总共10万100+100100+100*100万=1亿1千零1万,数据规模是原来的千分之一多点很多时候Rmn有很多不准确的数值在里面(比如缺失值),缩小到Rk的同时误差也缩小了数学证明查阅:,SVD用在图片压缩,原图,K=10,K=20,WhySVD?,以音乐为例,每一部音乐都是由一些元素构成,比如民谣、摇滚、轻缓、激昂、抒情等等,音乐在这些元素围度上的侧重各不相同,每一首音乐都可以用一段向量来表示。同样的,每一个用户欣赏音乐的时候,对民谣、摇滚、轻缓、激昂、抒情等元素围度的侧重也不相同,每一个用户也可以用一段向量来表示。最后,用户向量音乐向量=用户对此音乐的打分。,基于SVD推荐系统,以音乐为例:获得用户对音乐的打分数据矩阵R,假设有m个用户,n首歌曲,对原始数据作一些预处理对矩阵R进行SVD分解,选择合适的K值,获得U、S、V三个矩阵获得S矩阵的平方根sqrt(S),U*sqrt(S)作为用户矩阵,sqrt(S)*V.T作为歌曲矩阵a.预测用户i对歌曲j的打分:pi,j=用户i向量*音乐j向量;b.最近邻,knn,示例,转自:,哪两个用户品味最接近?哪两部电视剧最相关?,SVD结果值,空间分布图,构建开源SVD推荐系统,SVD计算matlabLAPCKL、BLAS:Fortran语言numpy、scipy:Python封装SVDLIBC、Meschach:C语言/wiki/Singular_value_decompositionKNN:matlabFLANN完备方案:DIVISI,MAGICDIVISI!,#!/usr/bin/envpython#coding=utf-etimport*data=divisi.SparseLabeledTensor(ndim=2)#readsomeratingintodata#datauser_id,song_id=4svd_result=data.svd(k=128)#获得指定用户感兴趣的100首歌曲#predict_features(svd_result,user_id).top_items(100)#获得指定歌曲最相关的100首其他歌曲#feature_similarity(svd_result,song_id).top_items(100)#获得指定用户音乐品味最接近的1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026学年四川省成都市郫都区八年级下册期末数学试题 含答案
- 2025-2026学年内蒙古自治区包头市八年级下册7月期末考试数学试题 含答案
- 2026年高考全国1卷英语答案
- 2026年贵州省福泉市高二生物下册期末考试模拟卷附完整答案【典优】
- 2025年吉林省舒兰市高二生物下册期末考试试卷附参考答案(突破训练)
- 2025年吉林省珲春市高二生物下册期末考试试卷及答案(全优)
- 2025年湖北省恩施市高二生物下册期末考试考试卷汇编附答案
- 2026年河北省定州市高二生物下册期末考试考试卷附答案【典型题】
- 2026年江苏省张家港市高二生物下册期末考试测试卷加答案
- 2026年河南省灵宝市高二生物下册期末考试试卷及参考答案(完整版)
- 2026延长石油(集团)限责任公司社会招聘易考易错模拟试题(共500题)试卷后附参考答案
- 企业资金拨付管理方案
- 2025年新疆维吾尔自治区初二学业水平地生会考试题题库(答案+解析)
- 25年真题贵州省2025年7月普通高中学业水平合格性考试历史试卷
- 2026年中国电信数据发展中心招聘考试试题
- 2026年三基三严考试十八项核心制度试题及答案
- 2026届江苏省苏州市新区一中学中考历史全真模拟试卷含解析
- 2025年广西壮族自治区地理生物会考真题试卷+答案
- 《油气管道地质灾害风险管理技术规范》SYT 6828-2024
- 2023-2025年四川中考物理试题分类汇编:浮力(解析版)
- 2025年上海电力大学马克思主义基本原理概论期末考试模拟题附答案解析(必刷)
评论
0/150
提交评论