基于标签主题建模的图书推荐系统研究.doc_第1页
基于标签主题建模的图书推荐系统研究.doc_第2页
基于标签主题建模的图书推荐系统研究.doc_第3页
基于标签主题建模的图书推荐系统研究.doc_第4页
基于标签主题建模的图书推荐系统研究.doc_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

: 月日学位论文版权使用授权书导师签名彩亏叫学位论文作者签名:南成日月月日 载的时代。计算机和网络技术的发展使得人们对知识和信息的获取变得前所未有的便捷,数字图书馆的出现就是一个最佳例证。在过去的数十年里,数字图书馆因为其传播知识所带来的巨大社会效益而受到各国政府的重视,得到了迅速的发展。随着数字图书馆的不断建设,数字资源的不断丰富,读者在面对如此海量的 浙江大学硕士学位论文甒瓾猧 瓸 , 第孪喙匮芯俊谟没男恕用户阅读记录的处理 概念漂移的检测 浙江大学硕士学位论文图狦建立图书一主题和主题一标签模型图用户标签集合的构建图日志收集模块架构一 浙江大学硕士学位论文表狦算法伪代码一表甶算法伪代码表消息主题的种类表 浙江大学硕士学位论文科文组织年开始筹划,年正式启用。我国大学数字图书馆国际合作计。可见我国在数字图书馆领域走在了世界前列。 户在浩如烟海的图书中更容易地发现自己感兴趣的书籍,是提高数字图书馆用户研究意义 浙江大学硕士学位论文和本文所研究推荐算法的效果。 浙江大学硕士学位论文第四章提出了用户阅读兴趣随时间变化而产生概念漂移的问题。概念漂移导致单个模型不能充分的概括用户不同时期的兴趣。本章研究通过采用时间窗口的方式对每个时间段的用户阅读兴趣进行建模,然后通过计算相邻两个时间段的模型之间的差异来检测概念漂移。最后介绍了把代表用户不同时期兴趣的多个模型进行集成的方法。第六章对全文进行了总结,并对未来提出了展望。 浙江大学硕士学位论文 浙江大学硕士学位论文籌、 ! 浙江大学硕士学位论文当前研究领域中,个性化推荐算法主要可以分为两种:基于内容的推荐方法。协同过滤算法 浙江大学硕士学位论文目前已有的协同过滤方法大致分为两种:基于项目的的协同功能的系统中, 浙江大学硕士学位论文似度计算方法来计算目标用户与其他用户的相似度。通常,最近邻的确定有两种值策略”,也就是将所有与目标用户的相似度大于某个阈值的用户都加入到最近在通过计算得到了目标用户的最近邻集合之后,算法就可以预测用户对某项使用用户对所有项目的评分向量来表示用户,也就是说用户对某个项目进行 浙江大学硕士学位论文随着网站的用户数目越来越大,计算用户兴趣相似度矩阵将越来越困难,于是等人提出了一个基于项目的协同过滤算 浙江大学硕士学位论文餖可一从候选项目中选出预测评分最高的前鱿钅拷蠺推荐。行表示时,如果以词袋形式表示,即用词语向量表示文档,其维最早被提出的主题模型是隐性语义索引且恢挚梢杂美词侗鸫蠊婺牡导 宓奈牡瞪晒简要描述如下:首先,对。 浙江大学硕士学位论文当产生数据的类型分布的统计特性随着时间变化时,数据流就发生了概念漂 浙江大学硕士学位论文调整分类器的内部结构米适应数据流中的概念漂移。一是 浙江大学硕士学位论文 第禄贗的标签主题建模图书推荐方法 第禄贚的标签主题建模图书推荐方法浙江大学硕士学位论文的图书具有与内容相关的标签,所以在设计推荐算法时还需要将标签信息纳入到进行推荐时,通过计算得到与指定用户的主题分布最相似的用户,即为最近数据集 第禄贚的标签主题建模图书推荐方法浙江大学硕士学位论文理谴疆书嚣书报蝮吉騦冉蟐卜年代爵蜜基鬻采柑撂肇醢羲专笄蠹井犍诤书磋学位鸯戢城审蒜硝特点疑难畦文融嘧嫱捆客照蜉蹦键鼻翎识出萋挂蚺骼辨辫抟帮袁图按关键字检索标签一十十一。晖王 常一个典型的用户访问记录如图所示。这条记录中每个字段的含义如表所示。肭蟮耐际 浙江大学硕士学位论文第禄贚的标签主题建模图书推荐方法时还对图书进行了人工标签标注,如图所示。图图书标签示例标签数据会更加庞大。 浙江大学硕士学位论文第禄贚的标签主题建模图书推荐方法图标签编号对应关系存放在数据库中,如图所示。图书标签主题模型的建立首先将图书看做文档,标签看做单词。假设有N牡担锪峡庥蠽个单词。 浙江大学硕士学位论文第禄贚的标签主题建模图书推荐方法的,枰J褂肔算法求出。根据甅共轭分布的性质,我们可以得到 齦瓦压。与牛成N牡档膖的过程类似,语料中鰐中的单词的生成过从而我们可以得到整个语料中词生成概率:垂簪 第禄贚的标签主题建模图书推荐方法弓:。当垫熟表瓽算法伪代码 浙江大学硕士学位论文第禄贚的标签主题建模图书推荐方法输入:单词向量集合牡导问湛冢魈馐齂输出:主题分配琺分布的参数瑊 浙江大学硕士学位论文主题图题上的分布,即。是卣螅恳恍斜硎灸掣鲋魈釱中出现 浙大学硕士学位论文第禄贚的标签主题建模图书推荐方法这样就得到了图书的标签一主题模型。 浙江大学硕士学位论文第禄贚的标签主题建模图书推荐方法图用户标签集合的构建行主题建模。 浙汀大学硕士学位论文第禄贚的标签主题建模图书推荐方法足。垃布,这种方法称为甶。其算法伪代码如下。表猧算法伪代码 第禄贚的标签主题建模图书推荐方法浙江大学硕士学位论文牡祄中所有单词口,根据当前位置。处的单词峙涞闹魈鈑,对计数器做减法各计数器自增: 浙江大学硕士学位论文第禄贚的标签主题建模图书推荐方法主题甶主题维的作用。 所大字坝士芋位论又万綪瑄蔅琣 第禄贚的标签主题建模图书推荐方法琺综上所述,在产生推荐书籍时,我们经过了两个步骤:根据用户主题模型找到用户的最近邻用户,即计算两个用户向量的相似书,这一步计算的是用户向量和图书向量的相似度。根据用户一主题模型,使用余弦相似度找到各个用户的最近邻,对最近邻用户读过 浙江大学硕士学位论文第禄贚的标签主题建模图书推荐方法 且没有终点偕栌没中褂檬滞际楣莸那榭鱿。用户的阅读行为产生的 浙江大学硕士学位论文朝图渺国圈图用户阅读兴趣的概念漂移 中数据单元的产生时硎綪入到达系统中。毁捌捩;糖 阵初巩之间的差异程度。定义相邻两个数据块的用户模型变化度量为其中是用户模型变化度量,表示当前用户模型,即用最新的数据块训练得到 浙江大学硕士学位论文 、惫漂移围一圈困圈冒因圈图模型的保留和舍弃在图中,虚线表示被舍弃的模型,实线表示保留在系统中的模型。时间将系统中保留的模型称为有效模型,进行重新编号,记为盯琌,。,盯。表示根据当前数据块建立的模型,盯,表示系统中时问最早的有效模型。通常,根据旧的数据建立的模型反映的是用户过去一段时问的阅读兴趣,并月一过去的时间越长,旧模型对用户当前兴趣的描述能力越差。因此系统需要有一个逐渐遗忘旧模型的机制。所谓渐进遗忘机制的权重分配,其主要思想就是模拟一个自然遗忘的过程, 浙汀大学硕士学位论文根据以上的条件,可以构造一个可行的线性渐进遗忘的权重函数,定义如下 本章小结 浙江大学硕士学位论文系统总体架构的情况发生,将对用户体验的影响降至最低。际跫芄埂且桓隹7旁创氲腤应用框架,使用语言编写。它对标准进行了扩展应用,提升了重用性且将功能分割到独立的模块中。具有轻量级、易于开发和维护等特点。是一个跨语言的服务部署框架。通过一个巾间语言,接口定义语言炊錜的接口和数据类型,然后通过一个编译器生成不同语言的代码壳爸諧,等众多语言缮傻拇敫涸餜协议层和传输层的实现。图书服务模块 浙江大学硕士学位论文缮严日志处理模块包含虷两个部分。且桓龇植际降南迹南低场消息传送给。在本系统中教膚服务器是, 浙江大学硕士学位论文且按照韵谢郑磘进行缓存和持久化。图日志收集模块架构阅读了某本书本文研究的推荐算法所需要的消息主题是了一本图书时产生的消息。,也就是每次当用户阅读是低持械腸是一个面向列的,菲关系型 浙江大学硕士学位论文动态无缝无宕机扩容。算法实验且每个月的阅读次数超过次的用户的阅读行为日志,同一本书会被用户在一 浙江大学硕士学位论文回率定义为 浙江大学硕士学位论文巳 浙江大学硕士学位论文辌图不镜闹魈馐縆产生分布图从图可以看出随着主题数量的增加,用户在各个主题上的分布出现逐渐最后,我们对不同的窗口大小对漂移检测的影响进行试验。我们分别将窗口设置为一个月、两星期和一星期。对数据集使用不同的窗口大小进行切割,对每 浙江大学硕士学位论文零一旦巴 浙江大学硕士学位论文分布和推荐结果的影响,以及时间窗口对概念漂移检测的影响。 浙江大学硕士学位论文总结为了解决上述两个问题,本文提出基于标签主题建模的图书推荐系统。该推模型对主题标签进行建模,并在此基础上使用猧方法得到用户一主题模型。通过使用用户主题模型寻找最近邻用户来获得推荐的图书。同时,本文提出通过划分时间窗口的方法来检测用户阅读兴趣的变化,针对每个时间窗口中的数据采用主题建模的方法得到用户一主题模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论