【毕业学位论文】（Word原稿）研究Mahout中关于推荐的部分并基于Mahout的taste引擎设计并实现了一个推荐系统

上传人：O*** IP属地：四川上传时间：2016-07-03 格式：DOC 页数：56 大小：7.92MB 积分：20 举报 版权申诉

【毕业学位论文】（Word原稿）研究Mahout中关于推荐的部分并基于Mahout的taste引擎设计并实现了一个推荐系统_第2页

【毕业学位论文】（Word原稿）研究Mahout中关于推荐的部分并基于Mahout的taste引擎设计并实现了一个推荐系统_第3页

【毕业学位论文】（Word原稿）研究Mahout中关于推荐的部分并基于Mahout的taste引擎设计并实现了一个推荐系统_第4页

【毕业学位论文】（Word原稿）研究Mahout中关于推荐的部分并基于Mahout的taste引擎设计并实现了一个推荐系统_第5页

已阅读5页，还剩51页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 第一章绪论本章将重点论述论文工作的选题背景和研究意义，并且对国内外的研究现状进行分析，在此基础上简单介绍论文的主要研究内容和文章的组织结构。究背景随着信息技术的迅猛发展，每个人都可以很容易的发布并分享信息，网络上充斥着大量的博客、图片、视频等。互联网上的信息迅速膨胀，信息爆炸使人们从信息匮乏时代步入了信息过载时代 1，目前我们面临着数据量急剧膨胀但是利用率却不高的问题。以门户网站网易新闻为例，其每天新发布的新闻数量约为 10 万篇，但是有点击量的文章不到 10%大量的文章成为长尾沉没而得不到展示的机会 2。总之，信息爆炸使得信息的利用率反而降低，如何让人们在海量的数据中找到他们需要的信息将变得越来越困难。在大数据时代，不论是寻找信息的普通用户还是推送信息的商家都遇到了非常大的挑战：作为普通用户，如何从浩瀚的信息海洋中找出对自己有用的信息将变得越来越困难；作为推送信息的商家，如何让自己的信息别出心裁受到大众的关注也是一个挑战3。为解决信息过载问题，学术界及业界都提出了许多方案。其中最典型的方案是分类目录和搜索引擎。分类目录通过有经验的技术人员对网站进行筛选评估，并根据网站主题和面向受众等相关准则对网站进行分类。目前著名的分类目录有雅虎、。虽然分类目录在一定程度上方便用户查阅信息，但在信息过载时代其涵盖的信息也只占很少的一部分，仍然不能满足用户需求，搜索引擎应运而生，成为我们快速发现有效信息的途径之一。但其仍不能完全满足用户需求，原因之一是在很多情况下用户并不能准确概括出自己的需求并使用合适的关键字进行搜索。原因之二是基于关键词的信息检索在很多情况下仍然是不够的，例如目前的搜索引擎对不同用户的同一搜索请求呈现的内容是完全一致的，并没有针对不同用户的兴趣爱好做区分并提供个性化的服务。而推荐引擎转变了人们获取信息的方式：它可以通过上下文主动向用户推送信息。这种信息推送方式更加符合人们的生活习惯。本质上推荐系统是帮助用户快速发掘信息的工具，其出发点与分类目录和搜索引擎是相似的，但其与前两类方式不同的是不需要用户提供明确的需求，而是运用一定的算法主动为用户推荐他们可能感兴趣的信息，因此推荐系统具备一定的智能性。 2 另外由于长尾效应的存在 4，在电子商务领域那些销量一般的冷门商品因基数巨大其累加起来的利润也非常可观，很有可能超过热门商品。在互联网环境下长尾效应尤为显著。例如著名电子商务网站 5%来自个性化推荐，而且大部分是长尾物品 5, 6。在电子商务时代由于货架成本低廉，电子商务与传统零售业相比往往能够容纳更多的商品，虽然这些长尾商品不是很热门但由于基数巨大，通过挖掘长尾商品仍然能够带来巨大的商业利益。目前各个电商都开始关注用户的个性化需求，提供个性化的推荐以增进用户黏性，为电子商务领域带来巨大的商业利益。这也进一步说明了在信息爆炸时代我们需要更加符合我们生活习惯并且更加智能的信息发掘机制。目前推荐系统已经在电子商务（如亚马逊，豆瓣）和一些社交网络（如得巨大的成功。再者从并行计算的角度来看：随着云计算时代的到来，个性化推荐系统面临着存储空间的扩展性与分析计算的扩展性等问题。仅仅提高大型服务器的存储空间与计算能力已不能很好的解决这些问题。现代的互联网应用需要新的处理模式来应对大规模数据快速处理的需求。虽然有各种高效的算法不断提出，但是随着用户规模、商品数量的快速增加其对算法的快速响应能力也提出了新的挑战。推荐系统的意义之一就在于对大数据的处理，即当信息量大到用户自身无法筛选时，它仍然可以推荐出相对好的内容。目前多数的推荐算法研究大都集中在算法本身效率的提升，但由于在互联网环境下用户数量与商品数量的快速增加，通过改进算法提升计算速度的方式其应用价值有限，而且提升空间也越来越小。再者这种单机大型服务机运行模式很容易受到硬件性能的制约如处理器计算速度、硬盘存储容量等，在这种情况下对数据规模进行分割，然后对其进行分布式并行处理便是一个重要而且有效的手段之一，因此如果我们能对这些算法或者其中的一部分实现分布式并行计算将会大大缩短计算所需时间。分布式实质上是将一个问题的规模由大变小，将大的问题化简成许多相同性质但规模较小的问题并提交给不同的节点去计算的一种模式。需要指出的是分布式并不能提高物理资源的利用率如内存的利用率 7，相反它相对于传统的大型服务器处理模式需要消耗更多的物理资源。比如，在很多机器上传输数据需要消耗网络带宽，这实质上是使用物理资源换取计算时间的减少，是一种空间与时间的权衡，但这种做法仍然可以为推荐系统在处理大规模数据时提供一种途径，这是单机处理方案无法具备的。因为分布式可以整合更多的计算与存储资源，从而在计算能力上超过专用机器。目前计算机早已进入多核架构，利用分布式并行计算让算法并行运行在多台计算机上可以提升传统算法的的速度和效率。 3 本文正是基于上述背景展开工作，对推荐系统、分布式并行计算做了研究，并将两者进行结合思考，利用云计算的优势来解决传统协同过滤推荐算法所遭受到的扩展性等问题。究现状推荐系统的研究始于 90 年代初，推荐系统的本质是通过一定的方式将人和物联系起来，而不同的推荐系统使用了不同的方式，从算法的观点来看推荐方式一般划分为二种：一种是基于内容的推荐（ 8;一种是基于协同过滤的推荐（ 9。基于内容的推荐主要分析被推荐物品属性之间的关系，其根据物品或内容的元数据基于物品属性的特征推荐具有相似属性的项目。换句话说基于内容的推荐方式是基于物品的特征或者属性进行推荐。这种方法在信息检索和信息过滤方面就有着深厚的渊源。实际上前面提到的人工分类目录就是一种基于内容的推荐，只不过其是通过人工进行属性特征相似性判断。而协同过滤推荐正好相反，其并不基于物品的特征或者属性进行判断，而是充分利用用户的行为数据对其建模分析来计算相似性并以此来推荐物品。在实际使用中两种方法经常一起使用，且两种方式各有优缺：协同过滤存在冷启动的问题其需要大量用户评分信息才能准确推荐，而基于内容的方法只需要很少的信息就能启动，但是使用范围有一定的局限性，例如，它只能推荐与原始种子相似的条目。协同过滤算法是由人提出随后被用于邮件过滤 10。这也是最早的个性化推荐系统的雏形。为了发现用户喜欢的一方面你可以去寻找有相似兴趣的人，这就是基于用户的协同过滤（ F）最直接的思想。另一方面，我们也可以从其他用户的行为数据中计算出类似该用户喜欢的其他这就是基于项目的协同过滤（ F）。 F 是在 1992 年提出并被应用于邮件过滤系统，随后又被用于新闻过滤 11。在此之后直到 2000 年，该算法都是推荐领域著名的算法之一。 F 是在 2001 年由人提出并且从论文和专利发表之后开始流行 12, 13。在业界推荐系统已经广泛应用于电子商务领域、视频网站、新闻网站等，比如，音乐推荐有豆瓣电台，书籍推荐有频的推荐有等。其中应用最典型的领域就是电子商务领域，如在线零售商于项目相似度的协同过滤算法为用户推荐书籍及物品为其贡献了 35%的销售额 5, 6。国外视频网站曾开出 100 万美元的奖金给能够把他们的推荐系统准确率提高 10%的团队 14。还有门户网站的新闻报道推荐（。4 一个广泛使用的基于内容的推荐系统，该系统为用户播放相似特征的音乐 15。另外，近年来随着云计算等新型计算理念的涌出，科学家开始研究在分布式环境下的推荐系统，在推荐系统的可扩展性方面也进行了大量的研究。例如出了一个整合记忆和模型两种方式的混合分布式协同过滤算法来提供对个性化推荐服务 16。然而这些方法实质上是在推荐质量与计算速度上做了权衡，通过丢弃一些推荐质量而换取时间上的提升。其论文支持多核之上的机器学习的指出某些算法并行运算的可能性并阐述了某些机器学习算法可以转换成某种和的形式而这种形式特别适合在类似并行计算框架中运行17，从而为某些机器学习算法并行化提供了理论基础。究内容本文研究了关于推荐的部分，设计并实现了一个推荐系统并在此基础上做了诸多改进，具体包括如下四方面的内容： 1. 分析推荐领域的经典算法及相关技术并阐述了其各自的应用范围。 2. 研究了关于推荐的部分并基于擎设计并实现了一个推荐系统。 3. 由于相似度计算是推荐模块计算量最大的部分为了加快计算速度，本文引入程框架实现离线并行计算相似度并基于供的储空间的可扩展性。 4. 最后设计并实现了评估模块对各种参数进行评估并使用形库可视化评估结果，以帮助研究人员灵活方便的分析数据并选择合适的算法与参数。文组织结构第一章：绪论。论述了本文的研究背景、国内外研究现状，分析推荐领域的经典算法及相关技术并阐述其各自的应用范围。第二章：相关技术概述。介绍了本论文中使用的相关技术。包括协同过滤推荐算法，推荐引擎分布式开源计算、存储框架用于桌面应用程序开发的术，用于可视化数据的。 5 第三章：推荐系统框架。描述了系统的功能需求并对整体框架进行分析设计。第四章：推荐系统的研究与实现。主要包括三方面的内容：一是基于擎实现了一个协同过滤推荐系统。二是基于算框架实现相似度的离线并行计算以提高系统的后台计算能力并基于现对数据的存储以提高系统存储的可扩展性，并在此基础上对群做了优化以进一步加快计算速度。三是实现评估模块对各种参数进行评估并使用视化评估结果以帮助研究人员灵活方便的分析数据并选择合适的算法与参数，并简要解释和分析了各种评估曲线的意义。第五章：总结与展望。对当前工作进行总结、分析当前系统的不足并对未来做了展望。 6 第二章相关技术概述本章主要阐述协同过滤推荐的相关技术：具体包括基于协同过滤和基于协同过滤并阐述各自的优缺点及适用范围；介绍本论文中使用的相关技术包括本原理，以及用程序、图等工具。同过滤推荐技术协同过滤技术是目前使用较为广泛的推荐技术之一，因其可以处理复杂对象如电影、歌曲并且推荐效果也不错，受到各大企业的青睐。协同过滤技术实质上是对用户的历史数据进行建模分析从而为用户推荐合适的产品。协同过滤具体包括很多算法，学术界、业界对其进行了深入的研究并提出了很多方法。其中比较常见的有基于邻域的算法（矩阵分解算法，隐语义模型（基于图的随机游走算法（ on 18 。而在这些方法中最著名的并且在业界得到广泛应用的是基于邻域的算法，而基于邻域的方法又主要包含两种基本算法（。基于用户的协同过滤算法给用户推荐与其兴趣相似的其他用户喜欢而该用户还没有评分的物品。基于项目的协同过滤算法给用户推荐和他之前喜欢的物品相似的物品。协同过滤的一个优点就是其不依赖于机器分析的内容，其不需要分析推荐对象的任何属性作为输入数据，因此该方法有能力准确推荐复杂的项目如电影等。换句话说机器不需要理解物品本身就能推荐。于基于协同过滤是通过对用户的历史数据进行建模分析从而给用户推荐与其行为相似的其它用户感兴趣的物品。其基本思想非常直观与现实生活中的通过朋友推荐非常相似。物以类聚，人以群分，每个人在社会上都不是孤立的而是相互联系的，如果某些用户对一些事务的评价相似，有理由相信他们有共同的兴趣爱好。因此基于协同过滤的一般步骤可参见图 2大体步骤为采用某些度量方式找到与目标用户行为相近的用户即该用户的若干邻居。然后将其邻居评价过的或者喜欢的但该用户还没有评价的且预测评分较高的物品推荐给该用7 户。所以首先要进行相似邻居的搜索，而搜索相似邻居的关键步骤就是计算两两用户之间的相似度。如果要计算两个用户之间的相似度，则需要先获取这两个用户的所有评分项，然后按照一定的相似性度量计算产生相似性数据。目前常用的相似性度量有欧几里德相似度（、皮尔森相关系数（、基于余弦的相似度（及调整过的余弦相似度（。得出两两用户的相似性矩阵之后可计算每一个用户的相似邻居。如图 2户 1 的相似邻居为用户2、用户、用户和用户。最后遍历这些用户评价过的物品将该用户没有评价过的具预测评分较高的物品推荐给用户。图 2近邻居示意图图 28 于基于项目的协同过滤算法给用户推荐和他之前喜欢的物品相似的物品，其基本思想就是买 x 的人也会买 y，这种算法广泛应用于物系统中。它的基本假设就是用户会喜欢跟自己之前喜欢的物品类似的物品。可以由其他用户的明显偏好计算出类似该用户喜欢的其他因此在用基于品集合，该数据可以通过遍历其历史行为数据得到。其次从其还未评论的物品集合中出找出与其喜欢的物品相似的物品推荐给该用户。实质上这个算法的核心仍然是计算两个物品之间的相似度。目前比较常用的相似性度量有皮尔逊相关系数、余弦相似度等。在实际应用中基于项目的协同过滤算法因其实现简单、扩展性好、推荐效率不错等优点被广泛应用。如使用了这种算法。种算法各自的适用场景在实际应用中两种方法各有其适用场景。从技术考量的角度来看基于用户的协同过滤适用于用户规模较小的情况，而基于项目的协同过滤适用于物品规模较小的情况。由于基于用户的协同过滤的计算量会随着用户数量的不断增加而线性增加，而在电子商务领域用户数量不论从总体规模上还是增长速度上都比物品要快的多，而对于基于应用响应速度又是影响用户体验的重要因素，因此在电子商务领域多采用基于项目的协同过滤算法。这也限制了基于用户协同过滤在实际商务系统中的应用。与此相反基于用户的协同过滤更适合用于新闻、博客或者微博等以内容为主的推荐系统，在这里情况正好相反物品的数量相对于用户的数量是海量的同时也是更新频繁的。从用户的需求来看在以内容为主的网站中用户的兴趣不是特别细化也即这种个性化是粗粒度的。例如绝大多数的用户都喜欢看热门新闻，虽然各个用户之间的兴趣点不同但很少有用户只浏览某个话题的新闻，因为不能保证这个话题每天都有内容更新。所以这类网站更加强调抓住热点，由其是一个小圈子中的热点，而个性化则相对处于次要位置。这也是新闻推荐中使用但是在图书、电子商务网站中用户的兴趣是比较固定和持久的，一个喜欢程序员很可能一直在购买关的书籍他并不关心这本书是否热门。所以在这类系统中的用户大都不太需要流行度来辅助他们判断一个物品的好坏而是通过自己专业领域的知识自己判断物品的质量。因此这些网站中个性化推荐的任务是帮助用户发现和他研究领域相关的物品。因此为了这些网站的首选算法。从推荐解释的角度来看在非社交网络环境下基于项目的协同过滤算法便于为推荐做出解释。系统可以利用用户的历史行为数据给推荐结果提供合理的推荐解释，比如给用户推荐天龙八部的解释可以是因为用户之前喜欢射雕英雄传。在一个非社交网络的网站中给某个用户推荐一本书同时给出的解释是某某和你有相似兴趣的人也看了这本书这很难让用户信服，因为该用户可能根本不认识那个人；但如果解释说是因为这本书和你以前看的某本书相似，用户可能就觉得合理而采纳了此推荐。目前多数系统都采用基于项目的协同过滤如豆瓣都采用这种方法。由其随着亚马逊的成功这种方法也快速流行起来。但在现今很流行的社交网络站点中 F 也许是一个更不错的选择，F 加上社交网络信息可以增加用户对推荐解释的信服程度，因为我们每个人也都更相信朋友的推荐。顶级开源项目 21，最初基于 Ng et 的文章 17，由生而来。其创建的初衷就是为程序员提供高效的算法实例并且这些算法具备一定的伸缩性。其主要包括三部分：推荐，聚类，分类。写的高效的推荐引擎。其涵盖的推荐算法主要有基于协同过滤和基于协同过滤。同时提供了接口用于定制化的推荐算法的开发。这使得其在可扩展性、灵活性、实用性方面都有很大的优势。构图参见图 2 主要包含下面几个组件：是对用户评分信息的封装以便行处理。其支持从不同的存储环境中提取数据如关系型数据库、本地文件系统等。用于计算相似度。分别是基于用户的和基于项目的。是对推荐的抽象封装，用于在实际应用中产生具体的推荐列表。 10 一个分布式的计算和存储平台其由金会开发 22。它简化了分布式应用程序的开发，即使不怎么熟悉分布式的用户也可以快速开发出高效的并行程序。而且还可以利用群在存储与计算方面的可扩展性。核心组件是 3, 24. 图 211 一个分布式文件系统。专门用于设计部署在性能一般的机器上因此其容错性能良好。并且其一次写入多次读取的数据处理方式非常适合大数据量的传输。另外多机架存放副本的策略使用户不用担心因为某个户文件不完整从而确保用户数据的实时可用。基本思想源自函数式编程，其包括两个最基本步骤：射）和简）。如果要采用并行处理大规模的数据集。则该数据集必须具备如下的特点：涉及的数据规模通常很大而且可以划分成较小的数据规模并且各个子数据集都可以相互独立的并行的处理，相互之间不需要额外的通信。质上通过计算模型的限制，来简化分布式程序设计和实现的难度，在分布式框架下数据是互相隔离的，因此通过唯一性来联接数据之间的联系。数据隔离的另一个巨大优势是不需要修改程序就可以通过简单增加节点数量来提高集群性能。在其通过并行程序进行调度，只要按照形式实现的程序都可以快速并行化执行。图 2 2 架介绍在程中基本上每一个务都将包括两个阶段：两个阶段分别用两个函数表示即数和数。数的输入由输入类解析成形式的键值对，通过自定义的数处理并产生另一个形式的键值对的中间结果。数的输入也同样类似于，并且根据数对每个合进行处理，每个般会产生 0 个或 1 个输出，输出也是形式的键值对，其原理图如图 2 图 213 要在大规模集群之上完成一个并行计算需要做很多工作，如任务调试、本地计算、洗牌等过程。而化了编程模式自动处理了一些底层的细节。程序员主要完成方法，方法的设计以及任务属性的配置。再复杂一点的程序需要配置入类型、输出类型等参数。下面以经典例子要介绍编程框架。其效果就是统计每个单词在所有文件中的词频。 1. 输入输入类主要负责将文件拆分成将各个照行分割形成键值对。默认情况下每行在文件中位置为行内容为然可以根据自己的需求自定义输入类的工作方式。 2. 理图 2 图 2程模型示意图 14 将分割好的键值对交给用户定义的法进行处理，该方法使用一个用于分词的类输入的每行内容进行分词。每得到一个单词就输出形式的键值对，单词，整型的一种封装可以理解为的整型。 3. 并阶段如果在段产生大量的中间结果键值对将导致网络数据通信量大幅增加，这样既增加了网络通信开销又降低了程序执行速度。为了提供一个基本的减小键值对数量的手段，计并提供了在每个点上合并产生的中间结果键值对。其实质上就是的本地在序中对每个出的键值对进行排序并将本结点上具有相同行合并即将相同的累加，这样可以减少输出数量。对于产生大量中间结果又需要合并的程序其性能提升明显。 4. 牌阶段图 2 图 2程示例图 3 15 洗牌的意义在于划分哪些键值对由这一个行，哪些键值对由另一个的行。以便保证具有相同键值对由同一个行。在序中，决定点的输出将被分区到哪个其默认是 5. 段段先对从收的数据进行排序，再交由用户定义的相同行累加并作为最后输出结果。客户端平台是基于件开发的一种应用框架 25，通过以快速构建桌面应用程序。插件机制是台的核心内容，但这些插件的运行都要依赖于台的存在而程序员在开发桌面应用时往往要摆脱对依赖，并希望使用最小的运行环境来运行系统，所以在后的版本中逐步将插件的运行从行平台中剥离出来从而形成了以说质上是插件，但运行时却能够脱离台而独立存在，所以开发用程序时可以利用台的观和框架快速地进行迭代开发与部署。一个形库 26，对于图形化的操作系统来说重要的组成部分。随着操作系统向图形化方向的发展，各种编程语言也随之纷纷实现口并支持程。由最初的目的是创建一套图 2程示例图 4 16 替代司的图形库。有面向对象、跨平台等优势并且其直接调用了操作系统的图形库，所以其界面风格与本地操作系统风格一致。由于其对本地图形库的直接调用从而大幅度的提高了基于用程序的运行速度。因此程序员将其广泛应用于图形界面开发。对扩展 27，其原本是为更加方便地使用编写的一组从使用方式上来说其加易于使用，但功能却没接。当初其主要开发目的是为了开发境，后来织意识到开发独立应用程序时的重要作用。所以从本后 , 经变成了和样的完整独立的开发包。了大量的抽象，例如的中为此类构件提供了式的编程方法，这种方法使显示与数据分开使其更加易于开发与维护，本论文中就使用了台上的一个开放的图表绘制类库 28。生成拆线图、饼图、柱状图、散点图、时序图、甘特图等等多种图表并且可以产生式。有易于使用、绘制的图形美观、坐标刻度自适用等特点。本论文将使用制评估曲线并将其嵌入到发的图形用户界面中。 17 第三章推荐系统框架前一章介绍了本文设计并实现推荐系统时需要使用到的相关技术和一些推荐算法。本章将描述系统的功能需求并对整体框架进行分析设计：首先从外围架构上进行详细说明，并对架构中每个模块的设计进行深入讨论。求分析任何一个系统在设计之初，必须要明确系统的设计目标与任务，明确了其需求后才能进行具体的功能设计。一个友好易用的推荐系统至少包含如下几方面的需求。 1. 友好的人机接口推荐系统要发挥强大的作用，除了推荐系统本身，主要还依赖于两个条件界面展示和用户行为数据。用户界面主要提供友好并且易于使用的人机接口。其主要负责系统与用户之间的交互。包括用户登录、用户注册，响应用户推荐请求以及推荐结果的展示等。 2. 数据的收集和存储个性化推荐算法依赖于用户行为数据，而在任何一个网站中都存在着各种各样的用户行为数据。推荐系统的本质就是从海量数据中挖掘有效信息所以一方面系统需要存储各种用户数据如用户登录、注册信息数据、用户历史行为数据、推荐相关的数据、评测相关数据等。另一方面随着用户数量与物品数量的增加，数据的存储需求也越来越大，因此推荐系统的存储机制也需要具备一定的可扩展性以保证增量存储的需求。按照数据的规模和是否需要实时存取，不同的行为数据将被存储在不同的媒介中。一般来说，需要实时存取的数据存储在数据库和缓存中，而大规模的非实时存取的数据存储在分布式文件系统（如。 3. 推荐引擎的设计推荐引擎使用一种或几种用户特征，按照一种推荐策略生成推荐列表。应该说推荐引擎是推荐系统中的重要组成部分，其质量直接决定了推荐系统的推荐效果。其主要任务是对用户或者物品的数据进行建模分析并对其进行预测计算，为不同的用户推荐不同的物品。 18 另外随着数据量的增加其计算量也线性增加因此要兼顾计算的扩展性。 4. 评估模块及参数的调整从算法的角度来看推荐系统的推荐质量受多个参数的影响如近邻个数、评分阈值、推荐列表长度等。在实际使用中需要多次测试调整才能使其达到较好的性能。因此有必要在系统上线之前评估这些参数下的推荐指标如准确率、召回率、平均绝对误差等。另一方面为了更好的展示各种参数对于推荐效果的影响将评估结果可视化将帮助研究人员灵活方便的分析数据并选择合适的算法与参数。能总体设计从逻辑功能上划分主要包括业务层、存储层和算法层，参见图 3 1. 业务层业务层主要完成推荐结果展示（包括两部分内容：一是罗列出该用户已经评分的物品及其相关信息，二是展示经过推荐模块计算得出的推荐结果及其相关信息）、请求后台数据处理、用户登录、收集用户信息、评估参数设置、评估结果曲线绘制等功能并且提供友好易用的人机接口。 2. 算法层算法层主要包括 2 个模块：推荐模块和评估模块。推荐模块用于封装推荐相关的代码。具体包括将评分数据封装处理成以识别的数据模型；各种相似度的计算具体包括欧几里德相似度（皮尔森相关系数(余弦相似性（；推荐算法的具体实现，包括基于协同过滤和基于协同过滤；以及与存储层、业务层的交互等。另外为了兼顾计算的扩展性拟采用架并行计算相似度以进一步提高后台处理能力。评估模块用于封装评估相关的代码。具体用于计算当前参数下的各种推荐指标并将评估结果返还给评估界面绘制评估曲线。本系统评估的指标有准确率、召回率、平均绝对误差等。准确率 (于评估用户对一个推荐产品感兴趣的可能性。召回率 (于评估一个用户喜欢的产品被推荐系统推荐的概率。平均绝对误差 (于评估实际值与预测值之间的差距。 3. 存储层存储层采用多种存储方式如形式。因关系型数据库仍然是目前主流的存储系统并且目前很多系统都不能方便的识别件系统所19 以这里采用存储方式。般用于结构化数据的存储如网站上统计的用户信息，包括用户信息、评分矩阵等。方面用于支持大规模并行计算另一方面为系统提供可扩展的存储。对于一些不需要频繁修改但要多次读取的信息可存储在。再者在计算相似度的环节中可以利用下计算相似度后再将计算结果纳入关系型数据库，以便其它系统能够利用关系型数据库结构化数据的存储和处理能力。图 3总体框架图 20 第四章推荐系统的研究与实现本章在需求分析和功能设计的基础上开展如下三部分的工作：一是基于擎实现一个推荐系统。二是由于相似度计算是推荐模块计算量最大的部分为了加快计算速度，本章引入程框架实现离线并行计算相似度并基于供的现对用户数据的存储以提高系统存储空间的可扩展性，并在此基础上对群做了优化以进一步加快计算速度。三是实现评估模块对各种参数进行评估，并使用形库可视化评估结果将评估曲线显示在面上以帮助研究人员灵活方便的分析数据并选择合适的算法与参数，并对绘制的曲线图进行了简要的解释与分析。于荐引擎的研究与实现个性化推荐系统的设计一般包括以下几个步骤：建立用户数据模型，计算相似度，根据相似性表产生推荐。因为身对用户数据的格式进行了封装，所以产生推荐的流程是首先要将用户数据组织成持的式，然后在此基础上计算相似度，之后把相似性表、用户数据转给口计算得到相应的推荐结果。据建模方法本章使用的数据集来自于供的电影数据评分集，该数据集包含 6000 多用户对 4000 多部电影的 100 万条评分记录。该数据集是一个评分数据集，用户可以给电影评 5 个不同等级的分数（ 1 5 分）。由于大部分网站的数据都存储在数据库里，因此首先需要设计数据库表以存储用户、物品信息以及用户对物品的评分信息。数据库表的设计如下：：主要存储电影相关的信息如电影的编号、电影名称、发行时间、影片类型等。其中主键。表 4电影信息表列名数据类型长度是否主键是否外键备注 id 1 Y Y 电影编号 00 N N 电影名称 21 N N 发行时间 00 N N 影片类型：存储用户相关的信息包含用户的基本信息：编号、姓名、邮件、性别、年龄、职业信息等等。其中 id(主键。表 4用户信息表列名类型长度是否主键是否外键备注 id 1 Y Y 用户编号 0 N N 用户姓名 00 N N 邮件 00 N N 性别 1 N N 年龄 ( 以年龄段划分 ) 00 N N 职业：用于存储用户对电影的评分信息也是推荐系统经常读取的数据表。主要包含用户编号、电影编号、用户的评分以及当时评分的时间。其中主键。外键，其对应的外键，其对应的表 4评分信息表列名类型长度是否主键是否外键备注 1 Y Y 用户编号 1 Y Y 电影编号 1 N N 评分值 1 Y N 时间戳：用于存储两两电影之间的相似度。两个电影的相似度可以通过用户对电影的历史评分计算得到。其中因在适合基于推荐场景中，项目之间的相似度一般比较稳定，没有很强的时间要求可以在线下提前完成，这样对于数据数量和算法复杂度限制更小。所以这里专门设计一个数据库表用于存储两个项目之间的相似度。表 4电影相似性表列名类型长度是否主键是否外键备注 1 Y Y 电影 1 编号 22 1 Y Y 电影 2 编号 1 N N 相似度用自己实现的据模型：对用户评分信息的抽象，其有很多种具体实现支持从任意类型的数据源抽取用户喜好信息。具体实现包括内存版的持文件读取的支持数据库读取的本文中大部分数据都是存在数据库里的，而要求的数据模型的格式是中间需要经历一个转换的过程需要扩展数据库的读取类。于实现基于用户的协同过滤算法是给用户推荐和该用户兴趣相似的其他用户喜欢的物品。因此基于用户的协同过滤的一般步骤为采用某种相似性度量找到若干与目标用户行为相似的用户即该用户的最近邻居，然后将其邻居评价过的或者喜欢的但该用户还未评分的且预测评分较高的物品推荐给该用户。所以其关键步骤分为两步：一是找到目标用户的最近邻居集合，二是将邻居们的喜好通过一定的方式组织成一个有序的列表，也即找到这个集合中目标用户喜欢的且目标用户没有评价过的物品推荐给该用户。 1. 计算用户之间的相似度我们又怎么找到与目标用户兴趣相似的用户呢？一般认为如果两个用户对物品的评分大体一致则认为这两个用户兴趣相似，所以查找最近邻的关键就是计算两个用户的相似度。关于相似性的度量目前最常用的方法都是以向量计算为主的，实质上就是通过一定的方式计算两个向量

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）研究Mahout中关于推荐的部分并基于Mahout的taste引擎设计并实现了一个推荐系统

文档简介

温馨提示

最新文档

评论

相关文档