




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
新的推荐系统要过三步离线测试,用户调查,线上AB测试评估标准是:用户满意度,预测准确度标准:根均方误差(RMSE)绝对平均误差(MAE)RMSE因为用的是平方项误差所以对错误更敏感TopN推荐准确率用precision和recall覆盖率:推荐系统能够推荐出来的物品占总物品集合的比例(主要是内容提供商会在意)一般认为如果所有的(不分是否热门)内容出现在推荐中的次数都差不多时,推荐系统发掘长尾内容的能力强,覆盖率可以用信息熵(越小越不平衡)和基尼系数(越大越不平衡)来表示多样性新颖性 推荐给用户以前没听说过的(一般平均热门度低的新颖性高)惊喜度 推荐给用户与用户历史上喜欢的内容没关联但是会让用户觉得不错的内容信任度 只能通过问卷调查的形式实时性 一是实时更新二是新加入物品要能即使推送(冷启动)健壮性 防止被攻击的能力(评价方式就是模拟攻击注入噪声)商业目标用户维度 主要包括用户的人口统计学信息、活跃度以及是不是新用户等。物品维度 包括物品的属性信息、流行度、平均分以及是不是新加入的物品等。时间维度 包括季节,是工作日还是周末,是白天还是晚上等。用户行为在个性化推荐系统中一般分两种显性反馈行为(explicit feedback)和隐性反馈行为(implicit feedback)无上下文信息的隐性反馈数据集 每一条行为记录仅仅包含用户ID和物品ID 。无上下文信息的显性反馈数据集 每一条记录包含用户ID、物品ID和用户对物品的评分。有上下文信息的隐性反馈数据集 每一条记录包含用户ID、物品ID和用户对物品产生行为的时间戳。有上下文信息的显性反馈数据集 每一条记录包含用户ID、物品ID、用户对物品的评分和评分行为发生的时间戳。 用户活跃度与此活跃度对应的用户总数一般长尾分布fx= xk用户活跃度越高平均接触的信息热门度会下降仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法。分为基于邻域的方法、 隐语义模型基于图的随机游走算法等。在这些方法中,最常见是基于邻域的方法,而基于邻域的方法主要包含基于用户的或者基于物品的。基于用户的协同过滤算法 先解出两用户的余弦相似度如下 AB的相似度是 AC 的相似度AD 的相似度为简化计算量,减少完全没有物品交集的用户的计算,先做物品对用户的倒表这样可以根据倒表做出某两个用户间是由有交集的稀疏矩阵,这个图里的稀疏矩阵只标了0和1,实际上应该是有几个相同的就标几,这样下一步计算方便。计算完所有有效的余弦相似度以后,对新来的用户u,推荐的新内容符合下式Pu,v=vVw(u,i)r(i,v)r(i,v)代表用户i对物品v的兴趣,因为使用的是单一行为的隐反馈数据,所以所有的ri,v=1,加和是基于物品的,不是基于用户的一般随着选择推荐商品数量阈值越大(从很小的值开始增加起),精确度会先升后降,流行度会一直增加,覆盖率相应降低为了改正原始余弦相似度中对于过于热门的物品失去判断能力的情况,更改公式为wuv=iN(u)N(v)1log1+num(i)Nu|N(v)|这里的num(i)表示在刚才的物品倒表中,这个物品对应多少个用户的记录,记录越多很显然就过于流行而缺少参考价值基于物品的协同过滤主要是考虑到用户过多时商品种类反而是有限的,模型空间更为合理基于物品的协同过滤算法和基于用户的步骤类似。(1) 计算物品之间的相似度。(2) 根据物品的相似度和用户的历史行为给用户生成推荐列表公式也相似wij=|N(i)N(j)|Ni|N(j)|N(i)表示喜欢i物品的人数计算一般也是先出倒排表,这次是用户对什么物品感兴趣的表(所以实际上节省的空间在于稀疏矩阵那边),最后注意,得到的推荐是基于用户的:puj=iN(u)S(j,k)wjiruipuj是用户u对于j的兴趣,rui是用户u对物品i的兴趣(很多时候只有1)N(u)是用户u感兴趣的物品集合S(j,k)是与物品j最相近的k个物品的集合。随着候选的物品增加准确度和上面规律一致,但是流行度也有个最大值,超过后进一步扩大候选物品会降低流行度,覆盖率基本会随着候选项目的增加而减少。同样为了防止有用户基于非兴趣的考虑购买过多导致稀疏矩阵的偏差,这里也有个改正的wij=uN(i)N(j)1log1+num(u)Ni|N(j)|但是实际上这种特别的用户一般会直接忽略同时考虑到相似度的稀疏矩阵中有些总是被标记为感兴趣的内容过大会干扰整体相似度的计算,所以一般对相似度矩阵做最简单的归一化就是原始数值除以这个矩阵中的最大值隐含语义分析技术 常见为LFM 下方公式表示用户u对物品i的兴趣Preferenceu,i= k=1Kpu,kqi,kpu,k为用户u对第k个隐含项兴趣,qi,k表示物品i在隐含项k上的评分实际做法是这样的,好比说用户听音乐实际上是听好的旋律、好歌词、某种特殊风格(小清新之类的),音乐本身也有对应的各种风格。这些用户对风格、歌曲对风格的矩阵是隐含的,我们先将用户对歌曲的操作做成显性矩阵,矩阵内每个位置的评分用操作方式来区分,比如单曲循环最高5,拉黑名单最低-5,其他在这个中间取。完成之后的这个矩阵任一项叫Ru,i。pu,k一般机器学习自动得出,如果评分标准造成只有正数据集,自己构建负数据集的方法是:保证正负数据集数目相同,重点考虑哪些本身热门但是没有用户行为的物品,算成负数据集至于pu,k和qi,k的更新方法,用的和普通的优化损失函数差不多,先把pu,k和qi,k所对应的矩阵随机初始化一下,然后迭代更新。我们首先考虑损失函数的写法C= u,i=1u,i=U,IRu,i-R2=u,i=1u,i=U,IRu,i-k=1Kpu,kqk,i2+pu2+qi2后面那俩是正则项,是反复试验的结果这里不更新,用梯度下降算法就要有对pu,k和qk,i的偏导数:Cpu,k=-2Ru,i-k=1Kpu,kqk,iqk,i+2pu,kCqk,i=-2Ru,i-k=1Kpu,kqk,ipu,k+2qk,i对于任意pu,k或者qk,i pu,k=pu,k-Cpu,k*,同理qk,i,这里是学习速率在每个迭代结束的时候都应该减小一点,简单解决办法是*=0.9 上面公式扩展开来写就是pu,k=pu,k+Ru,i-k=1Kpu,kqk,iqk,i-pu,kqk,i=qk,i+Ru,i-k=1Kpu,kqk,ipu,k-qk,i注意到相同U,I的pu,k和qk,i更新时,k=1Kpu,kqk,i内容都是一样的,可以先算出来,然后再集中更新pu,k,qk,i几次迭代收敛以后得到的PQ矩阵相乘就是预测的结果最后将得到的矩阵相乘,把得分高用户又没听过的内容推荐给用户优点,LFM具有比较好的理论基础,存储空间是O(F*(M+N),这在M和N很大时可以很好地节省离线计算的内存,假设有M个用户、 N个物品、 K条用户对物品的行为记录。那么,UserCF计算用户相关表的时间复杂度是O(N * (K/N)2),而ItemCF计算物品相关表的时间复杂度是O(M*(K/M)2)。而对于LFM,如果用F个隐类,迭代S次,那么它的计算复杂度是O(K * F * S)。那么,如果K/N F*S,则代表UserCF的时间复杂度低于LFM,如果K/MF*S,则说明ItemCF的时间复杂度低于LFM。缺点,原始方案基本没有实时性,对结果解释性差属性是我们认为隐含存在的,也可以通过让用户打标签的方式将这些中间节点显性化。当然要注意标签的去重,同义归并等问题如果属性节点显性化了,原始公式就不用迭代计算中间节点的内容,但是考虑到过于热门的标签和物品会对整体产生偏向,于是在有标签前提下的公式变化为Preferenceu,i= k=1Kpu,klog(1+num(k)qi,klong(1+num(i)系统冷启动问题分为用户冷启动,物品冷启动,和系统冷启动对用户冷启动最简单就是推荐热门,要不然就是利用用户注册信息,要不就先把有区分性的内容推送出来看用户点哪一个在已有大规模用户统计的情况下我们经常会发现有某种属性的用户会对某些内容更感兴趣,为了衡量这个“更感兴趣”,写公式如下pf,i=|U(i)U(f)|Ui+bU(i)是指对i物品感兴趣的用户集合,U(f)表示有属性f的用户集合,为防止某类物品过于流行使得公式的分子部分失去判断力,增加分母,另外b是为了防止i物品数量过少引起的偏差。对于数据库来说某个属性下前几个排名的物品是平时算好的,用户来了就对应给推荐就行了。区分性内容方面要注意不但有区分,覆盖广泛各种内容都有还要有一定的热门性,也可以拿上面的公式先算一下,推荐排名前几个的内容。区分性本身也有衡量方法D=+-+表示对这个内容喜欢的人对于其他物品给出评分的方差,这个D越大越好物品冷启动,对于userCF不是什么问题,考虑一下物品属性推荐给有兴趣的人,剩下的会自己扩散对于ItemCF算法来说,物品冷启动就是一个严重的问题了。因为ItemCF算法的原理是给用户推荐和他之前喜欢的物品相似的物品。解决这一问题的办法是频繁更新物品相似度表,但基于用户行为计算物品相似度是非常耗时的事情如果能用用户信息建立社交网络,可以使用社交网络内的好友推荐或者社区推荐解决冷启动问题还可以用LDA主题模型当然也可以找专家标注在校内里,人们的好友一般都是自己在现实社会中认识的人,比如亲戚、同学、同事等。这种网络称为社交图谱。在知乎里,人们的好友往往都是现实中自己不认识的,而只是出于对对方言论的兴趣而建立好友关系,好友关系也是单向的关注关系称为兴趣图谱。注意社交图谱的信息基本没有助于冷启动社交图谱中两用户相同好友越多说明可以推荐的方向更一致,可以作为基于用户的协同过滤的补充在社交网站的信息流选取上有个基础公式:messagepower= u1UC(topic)R(u)P(d)T(t)C(topic)是用户u操作的内容对象与当前用户感兴趣的内容之间的相似性,R(u)表示目前用户的一个好友u与目前用户的兴趣相关性,P(d)是u进行操作的权重,比如评论与感谢的权重不一样,T(t)是时间衰减系数。没有在公式中体现偶尔也要考虑的还有好友u与目前用户的熟悉程度用户特征向量要考虑 用户行为的种类,用户行为产生的时间,用户行为的次数,物品的热门程度,特征物品相关推荐 过滤模块 用户已经产生过行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甲状腺超声操作培训课件
- 甲状腺切除手术课件
- 儿童节的教学课件
- 新解读《GB-T 36774 - 2018蒜芥茄检疫鉴定方法》
- 勾股定理导入教学课件
- 2026届高考历史一轮基础复习训练5 三国两晋南北朝的政权更迭与民族交融 (含答案)
- 《蓝色的树叶》教学课件
- 新解读《GB-T 36171 - 2018改善成形性高强度结构用调质钢板》
- 用电安全知识培训课件会议
- 用气安全知识培训课件
- 2023年苏州市星海实验中学小升初分班考试数学模拟试卷及答案解析
- GB/T 37915-2019社区商业设施设置与功能要求
- GB/T 31298-2014TC4钛合金厚板
- GB/T 27746-2011低压电器用金属氧化物压敏电阻器(MOV)技术规范
- GB/T 22237-2008表面活性剂表面张力的测定
- GB/T 13667.3-2003手动密集书架技术条件
- 导轨及线槽项目投资方案报告模板
- 《电业安全工作规程》
- 复旦大学<比较财政学>课程教学大纲
- 书法的章法布局(完整版)
- GB∕T 10429-2021 单级向心涡轮液力变矩器 型式和基本参数
评论
0/150
提交评论