版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于用户兴趣的电影推荐模型设计案例目录TOC\o"1-3"\h\u16093基于用户兴趣的电影推荐模型设计案例 [55]中生成知识图谱。1、收集数据对于数据的采集利用爬虫技术,对互联网电影资料库IMDB进行爬取,在IMDB中的电影模块包含了大量的数据信息,如影片简介、上映信息、用户评分等内容,分类清晰易于数据的爬取,在爬取的数据中可能会存在信息缺失、错误的情况,接下来需要对得到的数据信息进行数据清洗、整合,达到满足最终应用需求的目标。2、数据清洗对数据的清洗采用基于规则的方法和词典匹配两者结合的方式,用准备好的词典对已爬取数据信息中的用户评论及影片名称、类型、国家、年份等进行清洗。通过词典匹配的方法可以将爬取到的信息进行整合,将不需要的信息直接删除,避免为后续工作带来计算浪费。这里将信息属性分为以下类型:{‘user_id’,’user_name’,’sex’,’area’,’comment’,’watch’,’movie_id’,’movie_name’,’state’,’intro’,’category’,’rating’,’direct’,’act’,’time’}以上述属性为数据格式,导出半结构化的json文件,每条信息以类型为标签单独呈现,面对数据量较大的情况时会将数据信息进行折叠,其中user_id、movie_id都是信息的唯一标识,具有灵活的可扩展性。构建知识库的基础数据已经在json文件中,但是数据繁杂不易观察,且本文的研究内容使得数据不适合存放在结构化的数据库中。为了既要满足所研究的问题需要又要对数据能够进行更直观的展示,这里选择采用图形数据库Neo4j。在该数据库中对json文件进行解析导入,获得直观的用户--影片领域的知识库,为接下来的研究做好准备。3、知识图谱设计与实现在前述工作的基础上,可以建立用户--影片领域的知识图谱。在Neo4j图数据库中数据都是以N-N的形式进行存储,构成语义的关系网。整个用户--影片领域知识库设计完成后用py2neo包连接Neo4j图形数据库,在数据库中对实体节点进行创建,将实体类型和其相关属性进行关联,根据实体的关系类型建立关系边,也就是实体三元组,如{‘user_name’,‘comment’,‘movie_name’}表示了某位用户评论的电影。在Neo4j图形数据库中使用的Cypher语言通过match、where、return对数据进行查看。本文构建的用户--影片领域的知识图谱如图3-2所示(以用户观看的电影为例)。图3-2用户观看影片的部分实体展示1.2.3嵌入层基于用户兴趣的推荐模型中第一步就是要将信息嵌入进来,传统的嵌入层采用图嵌入或是路径嵌入,但是图嵌入存在的问题是隐形关系得不到体现,缺乏推理及可解释性;路径嵌入也存在一些问题,如路径单一,用户和影片的关系表示不明确等。为此,本模型的嵌入层则是通过二者的结合来完善用户的信息。首先,在嵌入层中利用DeepDive系统进行数据提取,该系统能够从表格、图片、图形等多种格式中提取数据;其次,从提出的数据中构建出协同知识图(collaborativeknowledgegraph,CKG),可以将图谱中的关系信息及用户观看影片的交互信息融合在同一个空间中,并保留CKG结构;最后,利用图中的路径信息,如用户名称、用户性别、观影名称、影片导演、影片主演等,将实体、实体类型、指向下一节点关系的ID信息映射到潜在空间。本层通过这样的方式进行数据的嵌入,可以为后期的推荐提供更多的信息和相关依据。嵌入层的结构如图3-3所示。图3-3基于用户兴趣的推荐模型嵌入层对于三元组进行表示,主要依赖于头实体和尾实体的距离,其计算公式如下:g(h,r,t)=(3-1)其中wr代表着关系r的变换矩阵。1.2.4传播层在传播层对用户user和影片movie的信息进行充分分析,为后期的交互预测奠定坚实的基础。该层分为三个部分,具体如图3-4所示。图3-4基于用户兴趣的推荐模型传播层1、信息传播:主要依赖一个实体在多个三元组中存在,如此一来这样的实体便可以充当桥梁链接两个或多个三元组,从而传递更多的信息,如e1→i2→u4和e2→i2→u4,e1和e2这两个属性作为项目i2的输入,既丰富了项目i2也体现了用户u4的兴趣偏好。为了刻画实体h的连通性结构,将实体h的线性组合表示为:e(3-2)其中g是控制三元组上每次传播的衰减因子,表示头实体到尾实体的传播信息与实体关系之间的条件。2、知识感知注意力:利用近邻结构,由于相邻节点重要性的差异,使得邻居传播的信息也不相同,这为下一步编码提供了更丰富的信息。知识感知注意力用于计算信息传播中的权重,计算方式如下:g(3-3)这里选择采用非线性激活函数tanh,原因是该函数收敛速度快。其中,空间关系r的头实体和尾实体的距离大小影响着注意力的值,也就是说要传播更多的信息就要接触到更多的实体;此外,运用了softmax函数将空间三元组里的系数进行规范化,计算公式如下所示:g(3-4)3、长短期记忆网络(LSTM):通过上一阶段的信息输入,LSTM不仅要探索序列信息还要生成用于表示编码的整体语义。在电影推荐中存在的主要特征是用户对影片的兴趣是同时兼具稳定与变化的特点,这种时序性的偏好特征采用LSTM网络模型进行刻画,有助于下一步的预测层推断用户和影片之间交互的可能性。LSTM网络模型具有信息长时间的有效性机制,这就有利于信息通过一定的选择保留下来,通过这种方式将用户的偏好进行相应的选择性记忆。然后,利用LSTM的每个神经元内部都存在的忘记门,主要作用是根据误差函数的计算对权重进行反馈,获得部分信息是否被清除的指令,以此完成对信息的筛选,通过这种机制可以将用户的部分兴趣偏好进行有效更新,从而避免了偏好长期保持不变的现象,防止推荐结果长期为用户提供单一偏好的影片,造成推荐结果固化的问题。LSTM网络模型中的门结构和细胞状态的计算公式如下:f(3-5)i(3-6)C(3-7)C(3-8)o(3-9)h(3-10)其中σ()是激活函数,wf、wi、wo是权重参数,bf、bi、bo是偏置,xer是输入序列,与上一个隐藏层her-1的状态结合,在激活函数的作用下构成忘记门。通过xer和her-1的计算得到输入门ier以及输出门oer,决定信息是否丢弃要通过忘记门fl与前单元门状态cer-1联合完成。在这部分决定了用户当前的兴趣偏好是保留还是更替,从而达到对用户兴趣偏好的了解,精准勾勒用户画像,发现用户潜在的需求,作为后期推荐的主要依据。接着通过最后的状态her对整个路径进行表达pk,完善用户整体的兴趣特点,充分考虑时间序列与兴趣偏好的影响,从而有效提升推荐结果的准确性。采用LSTM的结构突出用户兴趣偏好所具有的时序特点,更精细地描绘用户画像,了解用户的需求。该部分通过合并信息中实体、实体类型及下一步关系,通过隐藏状态对路径中的信息进行传递。在该层中对当前实体和关系的嵌入进行连接,当最后一个实体出现时在结尾处添加一个空关系作为结束标志。在学习下一步的隐藏状态需要用到上一步的隐藏状态向量her-1和输入向量xer-1。在长度为L的路径中,通过以下公式为用户和影片的交互打分。s(3-11)其中W1和W2分别代表着第一、二全连接层的权重系数。1.2.5预测层在众多的路径中对于用户而言,不同路径的比重是不一样的。因此,要区分好不同路径对用户的比重,采用加权的池化操作进一步聚合所有路径的得分,输出最终预测得分。如图3-5所示。图3-5基于用户兴趣的推荐模型预测层首先聚合路径的所有得分:g(3-12)其中γ是控制每个指数权重的超参数。接着对用户--影片之间交互的分数进行计算:y(3-13)1.2.6基于用户兴趣的推荐流程基于用户兴趣的推荐模型流程为:首先,通过已经构建好的用户--影片领域的知识图谱提取出用户和影片之间的信息;其次,将信息处理为基于用户兴趣的推荐模型中需要的形式;然后,通过加权池的池化操作预测;最后实现电影推荐,如图3-6所示。图3-6基于用户兴趣的推荐流程1.3实验设计与结果分析1.1.1实验设计1、实验环境:实验机器配置为:·主板:联想80HR型号·处理器:Intel(R)Core(TM)i5-5200UCPU@2.20GHz·显卡:AMDRadeon(TM)R5M330·操作系统:Windows10专业版64-bit2、实验数据集为了检测基于用户兴趣的推荐模型效果,本实验在MovieLens和IMDB的组合数据集(简称为MI)以及LastFM两种数据集中进行。MI数据集提供了用户--影片之间的交互信息和影片辅助信息,如影片类型、导演、演员等;LastFM作为音乐类数据集含有用户信息、歌曲信息及用户的收听记录等。其中80%为训练集,其余的作为测试集。数据集信息如表3-1所示。表3-1实验数据集信息LastFMMI#User18926040#Item176323859#Interactions92834998034#Entities2543411462#Relations46#Triplets1924301017030#Path876920155573556#AvgPathLength4.915.071.1.2实验结果分析为了进一步验证该模型的优越性,将实验模型和其他基准模型在MI和LastFM两种数据集上运行,得到recall和ndcg两种评价指标的结果。其中TimingPreference代表基于用户兴趣的推荐模型,实验结果如图3-7和3-8所示。图3-7MI数据集上的模型比较图3-7所示为基于用户兴趣的推荐模型和其他基准模型在MI数据集中进行比较的结果图,从图中可以得出:随着实验次数的增加,recall和ndcg两种评价指标的变化逐步平稳;并通过与基准模型的对比,基于用户兴趣的推荐模型在两种评价指标中所呈现出的性能都是最好的。图3-8LastFM数据集上的模型比较图3-8所示为基于用户兴趣的推荐模型和其他基准模型在LastFM数据集中进行比较的结果图,从图中可以看出:随着实验次数的增加,recall和ndcg两种评价指标的数值也都逐渐稳定;同时对比其他基准模型,基于用户兴趣的推荐模型的推荐性能最好。在以上实验结果的比较中,尽管数据集存在具体数量的差异,但是在基于用户兴趣的推荐模型中总能呈现出较好的结果,因此能够得出基于用户兴趣的推荐模型具有良好的推荐性能。使用MI数据集对基准模型和基于用户兴趣的推荐模型进行实验研究,并对Precision和Hitrate两种评价指标进行对比,其具体结果如表3-2所示。表3-2评价指标对比ModelPrecisionHitRateFM0.01523(-0.105%)0.2144(-4.43%)NFM0.01547(-0.081%)0.2207(-1.8%)SocialMF0.01619(-0.009%)0.2357(-2.3%)RippleNet0.0162(-0.008%)0.2386(-2.01%)TimingPreference0.016280.2587表3-2中是五种推荐模型对应的精准率和命中率结果,其中Precision代表了推荐的结果中有多少是用户真正喜欢的,HitRate是衡量召回率的指标,其数值越大就代表推荐的结果中包含用户喜欢的信息就越多。在精准率方面,FM模型的精准率为0.01523,NFM模型的精准率为0.01547,这两种模型的核心思想分别是学习线性和非线性的特征,其中NFM模型中结合了神经网络,有效提升了捕捉特征多阶交互的能力,因此对于FM模型而言在精准率方面弱于NFM模型。SocialMF模型的精准率为0.01619,RippleNet模型的精准率为0.0162,前者是在矩阵分解中引进基于信任传播的模型,后者是通过知识图谱模拟用户兴趣传播过程的模型,这两种模型都是利用了社会网络信息进行推荐的思想,但后者通过知识图谱中的关联关系自动迭代扩展用户兴趣,达到刺激用户偏好传播的效果,因此精准率略高于SocialMF模型。本文设计的基于用户兴趣的推荐模型,对应的精准率为0.01628,该模型对于用户的兴趣偏好进行保存,有效地更替不同时期的用户偏好,改善原有的推荐结果固化问题,从而提升推荐结果的准确性,较其他模型相对应的精准率也有所提高。在命中率方面,FM模型的命中率为0.2144,NFM模型的命中率为0.2207,由于NFM模型针对于特征交叉方面进行优化,在推荐结果中含有用户感兴趣的信息就越多,对应的命中率也就高于FM模型。SocialMF模型的命中率为0.2357,RippleNet模型的命中率为0.2386,在RippleNet模型中模仿水波涟漪的传播形式,将用户单击过的项目以“涟漪”的方式进行叠加,形成对应的偏好分布,很好地预测了用户最终单击的概率,比起SocialMF模型中单一的信任传播,RippleNet模型的命中率也就相对较高。本文设计的基于用户兴趣的推荐模型,对应的命中率为0.2587,该模型对推荐结果长期固定不变的现象进行了改进,打破推荐结果固化的局面,用户感兴趣的项目增多,相对的命中率也较高。由此可见基于用户兴趣的推荐模型较于其他模型推荐性能较好,其中Precision平均提升了0.051%,HitRate平均提升了1.14%,在进行推荐时可以增强推荐性能,提升了用户体验感受。基于用户兴趣的推荐模型,从用户的兴趣偏好问题作为切入点,考虑到用户在选择影片时会由于兴趣的变化而改变,本文采用了长短期记忆网络(LSTM)来进行用户偏好时序性的刻画,以此来改善推荐结果固化的问题。为了验证该模型所考虑的用户兴趣时序性影响推荐结果的问题,通过去除传播层中LSTM部分,直接计算信息传播的权重,最后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年企业知识管理体系建立与实施手册
- 不在学校吃饭申请书模版
- 让室友换宿舍申请书
- 虚拟地址申请书范文
- 疫情防控申请书模板
- 劝退学生申请书
- 英语申请书自我介绍范文
- 西青区中医院面试题目及答案
- 2026年初三英语阅读理解策略试卷及答案
- 供排水提升改造项目建议书
- 办理清税委托书
- SQE年终总结报告
- 机器人结直肠癌手术专家共识
- DL∕T 1609-2016 变电站机器人巡检系统通 用技术条件
- 图解并购重组(法律实务操作要点与难点)
- 大树移植操作规程
- 安保员巡查记录表
- 中考数学常见几何模型简介
- 铁路工程施工组织设计指南-2009版(常用版)
- 新媒体数据分析与应用学习通课后章节答案期末考试题库2023年
- 老年人综合能力评估实施过程-评估工作文档及填写规范
评论
0/150
提交评论