




免费预览已结束,剩余1页可下载查看
VIP免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
遗忘论文关于基于遗忘函数和用户的协同过滤算法论文范文参考资料 杭州成伟丹 摘要:基于用户的协同过滤算法,在计算相似度时未考虑用户兴趣的改变,对此,提出基于艾宾浩斯遗忘曲线的遗忘函数和用户协同过滤算法,即在计算相似度时,加入时间权重以体现用户兴趣的变化,可以提高推荐的准确度。 关键词:遗忘函数;协同过滤;时间权重;用户相似度 引 言 协同过滤是当前应用最为广泛的推荐方法,主要是利用用户爱好之间的相似性来产生推荐。基于用户的协同过滤是建立在用户对项目的评分矩阵之上的,然后通过相似性计算,找到最相似的邻居集合,最后通过加权计算得到项目推荐集。当前,该算法又考虑了一些相关因素,并通过模型学习相关因素的变化,使模型更符合实际,推荐效果也更好。如张付志等将用户对商品的喜爱程度、环境信息融进了用户评分信息后,综合利用这些信息为目标用户产生推荐。刘胜宗等考虑到评分偏好差异,将相似度结合评分的可信度,提高了存在欺骗数据情况下系统的准确性。本研究考虑到当前信息咨询快速增长、用户选择变化加速,但推荐系统不能较好地捕捉用户兴趣转移的情况,提出将用户的评分时间信息加入到现有推荐模型中。 有些学者也基于用户兴趣的转移,提出新的推荐方法。如邢春晓等提出,将基于时间的数据权重和基于资源相似度的权重结合起来实现推荐。m其中,时间数据权重对当前用户而言,是随着用户访问资源的时间间隔而呈线性变化。刘东辉等提出,基于时间加权和用户特征的协同过滤推荐方法,是通过定义时间指数函数,来体现用户兴趣随时间增长而产生的变化。也有研究者考虑将遗忘曲线所体现的人遗忘特征,应用在在协同过滤推荐中。例如,于洪等”在项目近邻模型的基础上,采用与遗忘曲线拟合度较高的幂函数曲线,跟踪和学习用户兴趣,在最终预测评分中引入遗忘函数,来体现用户近期兴趣偏好相较于过去偏好是更加重要的。 基于艾宾浩斯遗忘曲线的遗忘函数和用户的协同过滤算法,是在计算过程中增加遗忘函数因子,来体现用户兴趣的变化,实现在为用户推荐产品时能够更偏向于用户近期的喜好,即在计算用户相似度时,加入时间权重,从而提高系统推荐的准确度。 改进的协同过滤 1遗忘函数的表达 德国心理学家艾宾浩斯发现,人对最新掌握的事物遗忘速度较快,而对长期掌握的事物遗忘速度较慢,并经过大量实验之后描绘了艾宾浩斯遗忘曲线。根据艾宾浩斯遗忘曲线的这一特征,考虑在计算用户之间的相似度时,将用户对项目的评分加入遗忘函数因子,就可使最近评分的项目相较于过去的项目更加重要,以便能更准确地找到与当前用户相似度最高的一些邻居。 使用Matlab软件,对艾宾浩斯遗忘值的特征数值进行曲线拟合,并在拟合过程的曲线类型中选择幂函数(power function),最终可得到符合遗忘曲线的数学函数:f(x)=31.19-1343 (1)。其中,f(x)表示记忆保留比例,其值越大,表示用户对项目的记忆保留越多;x表示距离初次记忆事件的天数。由公式(1)可知,随着距离初次记忆事件天数的增加,记忆保留比例f(x)会逐渐减小。 表1中的第1列为用户编号,第2列为电影编号,第3列为用户对电影的评分(5分制评分,分数越高,表示用户对其评价越好),第4列为用户评分时间,通过Unix时间戳(1970年1月1日开始所经历的秒数)格式表示。 将表1中的第4列用户评分时间,从Unix时间戳格式转化为北京时间格式,并根据本实验的需要,只保留评分时间的年月日信息。根据上述得到的用户评分时间数据,再进一步计算得到用户为影片评分时的日期与用户最近一次为影片评分时的日期之间间隔的天数。例如,用户1最近一次为影片评分的日期为1998年3月13日,则用户1为影片1评分的日期与其最近一次评分日期间隔天数则为170天。 表2中的第4列为用户为影片评分时的日期与用户最后一次为影片评分时的日期之间间隔的天数,第6列为通过式(2)计算得到的用户对项目的记忆保留比例。 2改进的用户相似性计算方法 5算法复杂度分析 一般可将算法的复杂度分为时间与空间两部分来做整体考虑。其中,空间复杂度,是指系统在程序运行过程中计算机存储数据的空间大小。本研究所提出的算法在程序运行中,数据存储空间中主要存储的是用户属 _、项目属 _、评分信息,而在本实验数据中这些所需存储的信息内容较少,且随着用户数量和项目数量的增加,信息存储所需要的空间只有小数量级上的增加。而这些增加对于当前的信息存储容量来说是较小的。因此,算法的复杂度可只考虑本实验的时间复杂度。 假设用户数为m、项目数为n,考虑到基于用户的协同过滤3个步骤,将根据这3个步骤进行实验的时间复杂度计算。首先,计算考虑遗忘后的新评分复杂度为0(m);之后,计算用户之间的相似性,根据用户的数量可以得到其复杂度为O(m Xm);再根据与当前用户相似度最高的前几个用户已评过分的项目进行预测评分,这一步的复杂度为O(m)。其中,第一步的计算新评分是可离线进行的。从后两步的计算可看到,新算法在时间复杂度上,相较于传统的协同过滤算法来说没有增加其复杂度。 实验分析 1实验数据集 实验环境为上述遗忘函数表达中的实验数据集。 2实验参数的调整 为了测量在计算用户评分相似度时,遗忘函数因子的权重对于推荐的效果影响,将公式(3)中的遗忘函数因子a,分别取值为0.2、0.4、0.6、0.8,并根据新的用户相似性计算方法,最终得到实验预测效果。具体如图1所示。 实验结果表明,本算法在用户评分相似性计算中,当用户原始评分权重为0.8遗忘权重为0.2时,算法的推荐效果较优。从图1可看到,在遗忘函数因子取值较大时,MAE值呈现出先较低后不稳定的现象,可见,由于原始评分权重取值过小,使得在计算相似性时,不能表现出用户已经评过分的信息的重要性,导致最终的预测就不够准确。 3实验结果的比较 将实验参数按照上述实验中的a 最优值,即当式(3)中的取值为0.8时,将之与传统的协同过滤(CF)相比较,结果如图2所示。 由图2可知,基于遗忘函数(NCF)与传统的协同过滤推荐方法(CF)相比,具有更小的MAE值。这是因为在计算用户评分相似度时,考虑到了用户对项目的遗忘,从而提高了预测项目评分的准确性。 结论 考虑到传统的协同过滤推荐不能较好地捕捉用户兴趣转移,因此,提出了基于艾宾浩斯遗忘曲线的遗忘函数和用户的协同过滤算法。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村再生资源回收处置责任状
- 网络安全风险评估及处置服务合同书
- 九年级物理全册第十五章电流和电荷第4节电流的测量习题
- 微量泵操作技术
- 【数学】简单的轴对称图形第1课时等腰三角形的性质课件 2024-2025学年北师大版七年级数学下册
- 办公室定置管理
- 《孙悟空大战红孩儿》上课用课件
- 领导力发展与团队领导艺术
- 革新性纳米材料在医疗设备中的实践应用
- 非物质文化遗产在职业教育中的实践与创新
- 配电网居民客户端低电压治理方案探讨
- 2024年福建厦门市思明区社区工作者招聘笔试冲刺题(带答案解析)
- PLC基础与实训三菱FX2N(中职)全套教学课件
- 日常生活活动能力与生存质量评定讲解
- 中美芯片博弈趋向及我国应对策略
- 肺癌脑膜转移治疗方案
- 装修公司装修合同电子版
- 服务认证基础知识培训
- 各大行业的分析
- SB-T 11238-2023 报废电动汽车回收拆解技术要求
- 医学实验技术
评论
0/150
提交评论