




已阅读5页,还剩69页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
要 随着现代电子商务和网络的快速发展,各大商务网站 都为用户提供了越来越人性化个性化的服务,个性化的推荐搜索 引擎的研究也越来越广泛的被应用。目前各大商务网站的个性化推荐引擎基本都 是统一推荐或者是针对热门类目进行推荐,没有设计出一种针对不同的用户给出 不同的推荐信息的推荐搜索引擎,这种搜索引擎就像是了解你性格兴趣的商品推 销员,能够总是在你需要某些商品信息的时候第一时间把推荐展示在你面前。 本文针对上述问题,在分析和研究主流的搜索引 擎的基础上设计出一个简易的支持短文本的个性化推荐搜索引擎系统包括 块和 块。本系统能够根据不同的注册用户,并针对该用 户的兴趣爱好给出个性化的推荐信息。本系统研究的主要内容为: 理模块,其中包括 务器, 析器和用户特征获取器, 分核心机制,排序评分排序等几个部分。设计一个简单 务器来作为本系统的一个服务器容器,由于本 文研究设计的个性化推荐搜索引擎系统是一个轻量级的系统, 因此需要一个同样简易化轻量级的 络服务器来支持。通过用户特征获取器来获取该用户的基本信息和兴趣爱好, 析器用来获取用户查询记录中相关记录处理后的一个倒排表。 分核心机制,也是本系统的核心,对查询分析和用户特征获取器获 取的所有数据记录进行评分处理,依据分数排序,获取一定数量排在前面的结果 集,即是根据用户的兴趣爱好和购买历史所推荐的优先结果集,优先返回和用户兴趣爱好相关性较大的记录。 块,该模块主要负责后台数据的处理。后台需要处理的数据主要是用户标注模块和查询标注模块。用 户信息分为基本信息和行为信息,用户的基本信息通过实验数据的方式获得,基 本信息中包含用户的最基本的特征,而用户的行为信息中一般分为兴趣和购买历 史两个部分,这些信息反映了用户的兴趣爱好等特征,通过对用户的信息分析和 用户查询记录的分析,过滤对本次查询无效的记录。 关键词: 个性化推荐,用户标注,查询标注,用户特征 of on At in is or at a of to of is to at In of a to at in A is to be a in in is a it a to we we a of in is of on to a is on to to in be be be of on be 录 第一章 绪论 . 1 题的背景 . 1 内外发展现状 . 2 文主要工作 . 4 论文的结构安排 . 5 第二章 需求分析 . 6 求定位 . 6 在的问题 . 6 求分析 . 7 能的需求分析 . 8 统的实现方案 . 9 程语言的选择 . 9 统开发环境的选择 . 10 章小结 . 11 第三章 系统设计 . 12 统的总体设计 . 12 统模块 . 13 务器 . . 13 流的 务器的介绍: . 14 务器的作用和选取 . 15 荐搜索引擎 . 15 询分析器 . 16 户特征读取器 . 17 询特征读取器 . 17 分 . 18 分机制的作用 . 18 分算法的因素 . 18 序 . 19 序方法的选取 . 19 取器 . 20 统模块的作用 . 20 据处理模块 . 21 询特征标注 . 21 询特征标注作用和意义 . 21 户特征标注 . 22 户特征标注的概念和目的 . 22 户特征标注的作用 . 22 引的建立 . 22 引的分类和功能 . 22 排索引表的建立 . 23 现倒排表的流程和数据流图 . 23 现倒排表的意义 . 24 建立 . 24 建立 . 25 据处理模块的作用 . 25 章小结 . 25 第四章 系统实现 . 26 统模块的实现 . 26 务器的实现 . 26 务器的实现方式 . 27 务器的实现关键代码 . 27 询分析器的实现 . 29 询分析器的实现原理 . 29 询分析器的实现关键代码 . 30 户特征读取器的实现 . 32 户特征读取器具体实现关键代码 . 33 询特征读取器的实现 . 33 实现原理 . 33 询特征读取器实现的流程图 . 34 询特征读取器实现的关键代码 . 34 分的实现 . 35 分算法中相关性 R 的算法 . 35 分算法中 数的算法 . 37 序的实现 . 37 取器的实现 . 38 取器实现的核心代码 . 39 统模块作用 . 39 据处理模块的实现 . 40 询标注的实现 . 40 询特征标注方法的选择 . 40 于统计的方法 . 40 于规则的方法 . 42 询标注方法的对比 . 42 户特征标注的实现 . 43 户特征分类 . 43 户特征标注的实现过程 . 43 引建立的实现 . 44 排索引表的实现 . 44 排索引表中的分词 . 49 实现过程 . 52 实现 . 54 据处理模块作用 . 56 章小结 . 56 第五章 系统测试 . 57 统测试的环境 . 57 统测试用例的选择 . 57 统的测试结果 . 58 面测试 . 58 能测试 . 60 能测试 . 61 章小结 . 61 第六章 本文总结 . 62 文小结 . 62 一步工作 . 62 谢 . 64 参考文献 . 65 1第一章 绪论 题的背景 高速发展在给用户提供越来越丰富的信息资源和服务,但是对于用户方面,面对浩瀚的商品信息和庞大的数 字化服务,如何才能更加快速准确的了解或掌握自己想要的信息和服务,这一难 题给网络服务商带来困惑,如果客户面对这些大量的信息束手无策并游离于有效 和无效的信息之间,网站也会很容易失去与这些用户的联系,因而失去很多商品 交易的机会。推荐搜素引擎系统是在这种情况下应运而生的,它一般是通过用户 输入或已经输入过的一些关键字,给出一系列的相关推荐。 如今人们将更多的精力投入到网络推荐搜索引擎这个 新兴课题上面。推荐搜索引擎可以根据用户给定的关键字从大量 的备选集合中筛选出用户感兴趣的选择供用户使用。常规搜索引擎是推荐搜索引 擎的基础。推荐搜索引擎可以记忆用户感兴趣的内容,再基于这个内容对常规搜 索引擎获得的内容作进一步的筛选并推荐给用户。当推荐搜索引擎在根据用户爱 好筛选用户喜爱的商品样式时,如果遇到某一款商品的某一个方面符合用户的喜好, 而另一方面却又不符合用户喜好 (比如,存在商品 A 和商品 B,商品 A 的外观满足用户的喜好,但是其颜色却不符合用户喜好;而商品 B 外观不满足用户喜好,但是其颜色却是用户喜好的)的情况下,如果可以做出一种有意义的、一致的 折中选择,那么我们就认为这个搜索引擎系统是有效的,其设计是合理的。而推 荐搜索引擎的这个特征也吸引了越来越多的代理、数据库以及人工智能等领域的 专家学者的目光,也吸收了智能系统和信息检索等领域的技术 1。 但是现在流行的主要的推荐搜索引擎系统,往往用户 输入的想要检索的信息或者服务并不是这个推荐搜索引擎产所呈 现出来的,原因在于一般的推荐引擎系统并没有根据用户的兴趣爱好或者用户年 龄生活习惯等特征信息做出智能化的搜索,没有帮助用户把无效的信息过滤掉。 当然很多大公司的网站都有了热点推荐或者直通车推荐的功能,但这些都不属于 个性化的推荐,或者在做个性化推荐的时候对于用户的信息没有进行跟踪分析优 化处理,导致推荐系统输出的结果集并不是用户想要的。因此设计一种针对用户 的一种个性化的推荐搜索引擎系统就值 2得我们去研究与探索。 内外发展现状 随着互联网普及程度的深化,越来越多的商家在互联网这个领域嗅到了商机,电子商务应运而生。各种各样的电子商务 平台如雨后春笋般涌现。随之而来的,是对个性化的推荐搜索引擎系统提出了更 高的要求,电子商务里的搜索推荐引擎系统设计也成为研究电子商务的一个重要 内容。如今,大型电子商务平台成为发展的趋势,如何开发更人性化的推荐系统成为商家竞争客户的一个强有力的手段。现在比较著名的电子商务平台都有自己的 推荐系统。在国内有易贝易趣、当当、凡客诚品、淘宝网,在国外有 等。电子商务搜索推荐系统的设计也因为电子商务规模的逐渐扩大吸引 了越来越多研究者的注意。构建商品推荐系统的关键是建立模型:包括商品模型 和用户模型。商品模型的建立包括商品信息的收集、分类 (即如何在商品信息模型树建立节点 )等等;用户模型的建立除了考虑用户信息的收集、整理、分类之外,还要考虑确定搜索推荐系统算法的问题。为了确保推荐结果代表性的最大化,保证 推荐结果的有效、合理,并且保证搜索推荐系统的实时性能能够满足不同领域的 应用需求,研究者提出了多种不同的推荐算法:基于协同过滤的搜索推荐算法(由 出) 、基于关联规则挖掘推荐算法(由 人提出) 。研究者提到的推荐算法还有基于 络分类挖掘的推荐算法,可以根据用户兴趣喜 好将用户划分到不同的集合,再使用聚类分析推荐算法,便可有效减少搜索空间 。研究者还提到了基于用户评分数据的子集采用项类分析推荐算法搜索获得最近 项目邻居的方法。在搜索最近邻居时,文中指出为了减少项空间维数,可以采用 奇异值分解的方法,从而明显的提高搜索速度。为了提高推荐系统的实时性要求,文中还提到了采用 法可使得搜索空间得到有效的减小 1,2 以用户的协同过滤推荐技术为基础,通过计算用户之 间的相似度产生目标用户的最近邻集合,然后筛选出最近邻集合 中所有用户最感兴趣的资源推荐给目标用户;以项目的协同过滤推荐技术为基础 ,先计算出项目之间的关联性,并生成未评分项目的邻居集,而后基于用户评分 数据(邻居集中相关项目)预测用户对未评分项目的评分。最后将全部未评分项 目的预测评分进行排序,目标用户会得到预测评分较高的项目。基于贝叶斯网络技术的推荐最主要的就是建立用户模型,模型成树状结构,节点和边代表用户信息 。模型的算法简单高效而且模型的建立 3可以离线进行,可以极大的提高推荐的及 时性。但是贝叶斯网络推荐技术模型的建立太过专业和复杂化,时间周期长,必 须在专业人士指导下完成,而且随着用户信息的不断增加,贝叶斯网络的数据集 也在不断变化,当变量增多时,网络结构日益复杂,模型建立的周期将会更长 1。知识的学习过程需要温故知新,用户对于这种推荐技术需要相当长的适应过程 。相同的兴趣组中分配入具有类似兴趣偏好的用户就是聚类技术,如下假设是这 种个性化推荐技术的基本条件:具有相似兴趣偏好的用户访问的资源基本相近或 者相同。因此它会根据兴趣组中其他用户对商品的评分数据来预测目标用户的预 测评分,然后把预测评分最高的项目推荐给目标用户。即使处于离线状态也能进 行聚类过程,所以相比较而言在线的推荐算法产生推荐的速度更快。对于要求推 荐具有更高实时性的场合有明显的优势2。 关联规则技术在零售业得到了广泛的应用,关联规则 挖掘可以发现不同商品在销售过程中相关性。基于关联规则的推 荐技术的核心思想是让用户具有充分的自主性,用户可以根据自身的需求来制定 合适的关联规则,同时用户可以选择多种数据挖掘技术来挖掘和分析不同用户信 息之间的关联性。关联规则模型的生成可以离线进行,因此可以保证有效地推荐 系统的实时性要求而在实际应用中,基于协同过滤的推荐算法的应用最为广泛 2。个性化推荐系统中基于协同过滤的推荐技术主要包括:基于内容的协同过滤技 术和基于用户的协同过滤技术两种。基于内容的推荐是随着信息过滤技术的发展 而衍生和发展起来的,是信息检索领域的重要研究内容,它的推荐结果是建立在 对项目的相关信息进行分析的基础上,因此需要利用机器学习的方法竟可能多的 从关于项目特征描述的事例中抽取出用户的兴趣资料,学习并考察用户资料与预 测项目的匹配程度,所以它基本不受用户主观性的影响,推荐过程不需要 依赖用户对项目的评分数据 2。基于内容的推荐会为每一个用户建立模型,包括用户的 兴趣资料和历史数据,它们用决策树、神经网络和基于向量的方法表示,它不需 要其它用户的数据,可以随着目标用户的兴趣变化而变化,因此它可以将代表特殊兴趣爱好的推荐闽推荐给特别的用户。上文指出针对用户的特定需求采用智能代 理技术分析方法后,再给用户提供推荐服务。 人则提出了一种基于用户反馈的自动更新用户档案网的方法 2,3。 建立和更新用户档案也广泛地采用了遗传算法、贝叶 斯概率模型嗍以及其他相关机器学习等技术。 人提出的基于内容过滤的实验型搜索推荐系统被称为电子邮件过滤系统。 学则提出了 乐过滤系统) 、信息过滤工具以及 型系统等搜索推荐技术。随着信息过滤技术而发展起来 4的基于内容的网络搜索推荐技术获得了一 定的发展空间,但其仍然具有一定的局限性。主要表现在基于内容的推荐必须要求项目内容能够抽取成具体的特征向量,而且必须优化项目特征内容结构树的每一 个节点,使其具有良好的机构性。同时用户的兴趣必须能够用具体的特征向量来 表示,而且由于基于内容的推荐建立在项目的基础上,所以弱化了用户在推荐过 程中的作用,不能显示地得到其他用户对于项目的评分数据。 为了解决上述问题,研究者开始注意基于协同过滤的 网络搜索推荐技术。传统协同过滤网络推荐系统中的用户兴趣是 被假定为一成不变的,无法及时地反应出用户兴趣喜好的改变。随着研究的不断 推进,研究者提出了协同过滤的自动化推荐技术,它主要体现在时间函数的引入 和相似度计算中阈值的优化。搜索推荐系统成功的关键在于推荐质量的个性化。 协同过滤推荐技术的经典做法是在用户喜好相似性的基础上得到推荐结果。 人提出的方法则是基于项目之间的相似性来产生推荐服务,从而 改善推荐结果的质量 4。该做法的流程是:首先对项目之间的相似性进行计算,然后在项目 相似性基础上获得未评分项目邻居项目集合,最后基于这些邻居项目预测用户针 对所有未评分项目的评分情况并将得分最高的项目作为搜索结果推荐给用户。 相关研究者还提出了计算用户最近邻居的基于图搜索 的优化算法。该算法通过视窗直接操作,使得个性化推荐过程更 加直观。提出把基于用户和基于项目的协同过滤相结合,对目标用户的最近邻居 集合项赋予不同的权重,以此来改进推荐质量。为了更好地分析各种用户之间的相似度,文中提出了多种分析改进方法,其中包括协同过滤算法的和相似度阈值算法的优化。 文中提出了 维的方法,利用奇异值分解技术减少项目空间向量的 维数,增加用户评分数据所涉及项目在整个个性化推荐过程中所引用项目集合的 比重,从而可以使用户评分数据稀疏性的问题得到解决,并消除因冷启动导致的 个性化搜索推荐系统推荐质量的降低现象。文中提出使用关联分析挖掘用户评分 数据之间的关联关系,在个性化推荐过程中可以对相关数据反复交叉引用,一方 面使得数据稀疏问题得到解决,另一方面可以明显改善推荐结果的质量。在如何 增加用户评分数据稠密度的问题上,文中提到可以采用智能代理的技术来解决。 文主要工作 本文介绍了个性化搜索引擎的的系统 结构和具体的实现模块,着重讨论了 5 个模块,详细介绍了两个模块的功能算法等。 针对本系统有大量的数据要进行预处理,因此在本文 设计时候也是分别去实现 线 )模块,和 线)模块,分别是对数据的算法处理和对数据的预处理。 在 块里面讨论了如何去设计一个便于系统实现的 较了该服务器和当下流行服务器的优缺点,文中也阐述了 型原理及其工作流程,说明了请求和响应的格式和传送方式,然后着重介绍了 询解析器 ) 和用户特征读取器 (用户特征读取器),分别是对 预处理的的数据进行提取。 在 块中提出了用户特征标注和 征标注的概念, 用来分析和处理用户的特征兴趣点,并把这些特征信 息用相应的数据结构存储在文件中。详细介绍了如何去提去这些信息并存入相应 的文件中。索引的建立也是详细给出了一个关键字的索引如何建立和如何存取的 ,也简要说明了常用的几种索引类型,倒排索引表, 论文的结构安排 第一章 绪论,本章主要介绍了个性化推荐搜索引擎的背景,意义和相关的国内外的研究状况和成果,并明确了研究内容 第二章 个性化推荐引擎系统的需求分析 ,描述个性化推荐搜索引擎系统的需求分析,简要阐述了个性化推荐引擎系统下面各个模块的功能需求。 第三章 个性化推荐引擎系统的设计,描述个性化推荐搜索引擎系统的框架,主要包含了系统架构图,系统模块设计, 选择的开发语言和运行环境,系统的结构等。 第四章 个性化推荐引擎系统的实现,包括 块的实现和 块的实现,在 块中讨论了本系统 块中 实现,查询分析器和用户特征读取器数 据流的具体实现过程。在 块中,讨论了征标注和用户特征标注,以及索引的建立与实现,并且详细阐述了如何存储在存储系统中。 第五章 个性化推荐引擎系统的测试,本章着重讨论了本系统测试主要内容和测试结果的分析。 第六章 本文总结,主要说明了文本小结和下一步工作。 6第二章 需求分析 求定位 随着用户对搜索这种获取信息的方式越来越熟悉,人 们已经渐渐不满足面对一个冰冷的“机器” ,输入什么就决定了返回什么,要得到自己想要的东西,就要不断去调整自己的输入,得到的东西只和 人们的输入有关,而和用户本身的差异化的信息无关。人们希望看到的是一个更 能读懂自己,能尝试对自己的意图进行理解的智能系统 个性化推荐引擎系统是当下搜索引擎不断地发展衍生 出来的。为了给客户提供更好的服务,搜索引擎需要在用户不清楚自己的需求,或者在搜索体验的时候,做出合理的推荐。因此在搜索引擎系统要 搜集用户兴趣等信息,对其进行分两类标注处理。 因此个性化推荐搜索引擎要对客户的行为信息分析是 一个关键,个性化的推荐引擎能够对帮助用户更加迅速找到自己 可能想要的商品。因此在本章中,在系统功能需求方面会在算法和数据处理两个 方面进行需求分析,在性能方面主要是该系统能够承载多个用户使用查询和登陆 注册的功能,并且响应时间在一定的规定范围之内。 在的问题 推荐系统面临的最大问题,是需要大量的数据,以便 能形成有效的推荐。现在能给出最好的推荐的公司正是那些拥有大量数据的公司: 里巴巴,这并不是巧合。一个好的推荐系统首先需要类目(种类)数据(从目录或者其它形式得到) ,然后系统必须捕获并且分析这些用户数据(用户行为) ,然后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中语文叙事散文的思辨性阅读教学研究
- 妇科护理常规指南
- 患者身份识别培训
- 中班健康:赶走蛀虫牙
- 皮肤科激光治疗的护理
- 颈椎护理课件视频
- 比较思想政治教育
- 保育师培训活动
- 预防性驾驶技术课件
- 项目级安全教育培训课件
- 学霸提优第四单元《我们讲文明》重难点梳理 课件
- 安徽青硕建设有限公司招聘笔试真题2024
- 公司适用法律法规标准清单2025年08月更新
- 2025年4月自考00077金融市场学试题
- 国家开放大学机考答案 5个人与团队管理2025-06-21
- 大庆师范学院《跳高》2023-2024学年第一学期期末试卷
- 2025年广元市中考语文试卷真题(含标准答案)
- 幸福与健康课件
- 幼儿弱视防治指南
- 2025人教英语初中七年级下册期末测试卷(含答案)
- 窗帘实施方案(3篇)
评论
0/150
提交评论