




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
编号:( )字 号本科生毕业设计(论文)基于链路预测的个性化推荐系统题目: 姓名: 学号: 班级: 二一四年六月中 国 矿 业 大 学本科生毕业设计学 院: 计算机科学与技术学院 专 业: 信息安全10-3班 设计题目: 基于链路预测的个性化推荐系统 专 题: 2014年 6月 地点:徐州毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 及格 不及格2、学生掌握专业知识、技能的扎实程度 优 良 中 及格 不及格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 及格 不及格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 及格 不及格5、完成毕业论文(设计)期间的出勤情况 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格二、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)评阅教师: (签名) 单位: (盖章)年 月 日13教研室(或答辩小组)及教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 及格 不及格2、对答辩问题的反应、理解、表达情况 优 良 中 及格 不及格3、学生答辩过程中的精神状态 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格评定成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)教研室主任(或答辩小组组长): (签名)年 月 日教学系意见:系主任: (签名)年 月 日计算机科学与技术学院毕业设计(论文)任务书 设计(论文)题目: 基于链路预测的个性化推荐系统 系 (部): 计算机科学与技术 专 业: 信息安全 起 迄 日 期: 2014 年 1 月18 日 6月 2 日 设计(论文) 地点: 中国矿业大学 发任务书日期: 2014年 1 月 13 日 任务书填写要求 1毕业设计(论文)任务书由指导教师根据各课题的具体情况填写,经系(部)负责人审查、院领导签字后生效。此任务书应在毕业设计(论文)开始前一周内填好并发给学生;2任务书内容必须用黑墨水笔工整书写或按统一设计的电子文档标准格式打印,不得随便涂改或潦草书写,禁止打印在其它纸上后剪贴;3任务书内填写的内容,必须和学生毕业设计(论文)完成的情况相一致,若有变更,应当经过所在专业及院分管领导审批后方可重新填写;4任务书内有关“系(部)”、“专业”等名称的填写,应写中文全称,不能写数字代码。学生的“学号”要写全号;5任务书内“主要参考文献”的填写,应按照国标GB 771487文后参考文献著录规则的要求书写,不能有随意性;6有关年月日等日期的填写,应当按照国标GB/T 740894数据元和交换格式、信息交换、日期和时间表示法规定的要求,一律用阿拉伯数字书写。如“2005年2月12日”或“2005-02-12”。 毕 业 设 计(论 文)任 务 书1毕业设计(论文)应达到的目的:根据每个用户的偏好特性来提供满足用户需求的信息,进而推荐适合的信息给用户。2毕业设计(论文)的内容和要求(包括原始数据、技术要求、工作要求等):基于网络结构的推荐算法不考虑用户和产品的特征,而只是把它们抽象成为点,也不依赖用户对产品的评价数据,所有算法利用的信息都隐藏在用户和产品的选择关系中。一个有m个用户n个产品的系统,可以抽象成一个具有m+n个节点的二部图,当某个用户选择某个产品时就在这两个节点之间连线,而且用户曾经选择的产品具有向用户推荐其它产品的能力,根据给定的公式可以计算某个产品推荐其它产品的能力。 1. 掌握Python语言,学会使用Python第三方开源包Networkx进行复杂网络的分析;使用Django+MySQL进行Web开发。2. 掌握二元网络结构,分析二元网络的特征,预测二元网络链路的演化。3. 优化商品推荐系统。 注:二元网络是可以明确分为两类的网络,只有不同类之间发生联系,相同类不存在联系。如“用户”+“商品”,“用户”+“群组”网络。3对毕业设计(论文)成果的要求包括图表、实物等硬件要求:基于链路预测的个性化推荐系统。4主要参考文献:1. Jannach Deitmar, Felfering Alexander, Friedrich Gerhard and Zanker Markus,Recommender Systems: ANINTRODUCTION, 2010, Cambridge University Press2. Schein A, Popescul A., Ungar L.h and Pennock D.M, “Methods And Metrics For Cold-start Recommendations”, pp. 253-2603. Nock R. and Nielsen F, “On Weighting Clustering”, vol. 28, no. 8, pp. 1-13, 20064. G. Lekakos and P. Caravelas. A hybrid approach for movie recommendation. Multimedia tools and applications, 36(1):55-70, 2008. (Pubitemid 350274737)5. Z. Li, B. Ding, J. Han, and R. Kays. Swarm: Mining relaxed temporal moving object clusters. Proceedings of the VLDB Endowment, 3(1-2):723-734, 2010. 5毕业设计(论文)工作进度计划:序号起 迄 日 期工 作 内 容12014-01-182014-03-21查阅相关文献,综述推荐系统的研究现状。分析已有的推荐方法并进行费雷,指明优缺点。完成开题工作。22014-03-222014-04-30设计推荐算法。编程实现推荐系统,通过实验验证算法有效性及准确性。撰写毕业论文.完成中期检查工作。32014-05-12014-06-2完成毕业设计论文,做好答辩准备指导教师签名曹天杰日期:2014 年 1 月 13 日系(部)审查意见: 负责人(签名): 年 月 日学院意见: 学院: 年 月 日院长签字: 指导教师签字:中国矿业大学毕业设计指导教师评阅书指导教师评语(基础理论及基本技能的掌握;独立解决实际问题的能力;研究内容的理论依据和技术方法;取得的主要成果及创新点;工作态度及工作量;总体评价及建议成绩;存在问题;是否同意答辩等):成 绩: 指导教师签字: 年 月 日中国矿业大学毕业设计指导教师评阅书指导教师评语(基础理论及基本技能的掌握;独立解决实际问题的能力;研究内容的理论依据和技术方法;取得的主要成果及创新点;工作态度及工作量;总体评价及建议成绩;存在问题;是否同意答辩等):成 绩: 指导教师签字: 年 月 日中国矿业大学毕业设计答辩及综合成绩答 辩 情 况提 出 问 题回 答 问 题正 确基本正确有一般性错误有原则性错误没有回答答辩委员会评语及建议成绩:答辩委员会主任签字: 年 月 日学院领导小组综合评定成绩:学院领导小组负责人: 年 月 日摘 要 在当今社会,互联网普及迅速、电子商务网站如雨后春笋搬涌现,商品信息越来越丰富,甚至有过载的问题。怎样让用户在面对大量商品时能够方便快捷的查找到自己所需求的目标,成为了当今电子商务系统迫切需要解决的问题。而个性化推荐系统的出现为这种需求提供了技术支持,但是技术进步一定伴随着不完美,目前已存在的个性化推荐技术在应用中还有着不同程度的问题,有的推荐效率低,有的不能满足用户的个性化需求。现在的互联网企业已经不能满足于通过大量投资来获得用户喜好信息了,在以用户为核心的新兴互联网站点可以抛开传统模式的限定,更准确的抓住用户需求,所以个性化推荐系统的研究是十分有实用意义的。推荐技术是商品推荐的研究重点,因为这种技术的选取是否准确直接关系到推荐质量的好坏。个性化推荐系统的实现方法有很多,但由于它需要计算、挖掘、分析的数据千差万别,因此没有任何一种现有的基础算法能够在各种情况下都取得优异的效果,现实应用中更多的采用的是混合了多种推荐算法的推荐策略。当前国内外对于个性化推荐技术的研究中,关联规则推荐技术是最容易实现、最热门的,但在实际应用中它当然不是完美的,在数据稀疏的情况下,很难找到商品和商品间的强关联关系,这时算法在执行时就会遇到很大问题,这些问题也急需解决。作者基于关联规则的个性化推荐系统做了自己的尝试,通过学习数据挖掘知识和相关推荐算法,综合FP增长算法和Apriori算法后实现了关联规则的推荐功能。作者使用Django工具Python语言实现了该功能,通过对Apriori算法的模仿与改进,丰富了个性化推荐模型,可以建立不同层次商品间隐含的有价值的关系,能够为更潜在也更有价值的客户服务,满足更多样化的用户的需求。最后,本文以作者所做的个性化推荐系统为例,以WEB展现的方式,阐释了基于链路预测,基于关联规则推荐算法的个性化推荐系统的体系结构设计、主要功能分析、工作流程和后台数据的设计等。该系统通过分析用户购物的历史记录来挖掘用户的兴趣偏好,然后在不断的更新与学习中为用户提供更准确的个性化推荐。关键词:基于关联规则 商品推荐 Fptree算法 ABSTRACTIn modern society,the rapid popularity of the Internet sites are springing move emerge, product information and more abundant,and even overload problem. How to let users face the large quantities of goods to be able to easily and quickly find the targets they need which is becoming an urgent need of solving the problem. The emergence of personalized recommendation system to provide technical support to this demand,but must be accompanied by technical progress is not perfect,there already exists a personalized recommendation technology there are different degrees of problems in the application, and some recommend low efficiency,can not meet the individual needs of users. Internet companies have now can not be satisfied to get the user preference information through a lot invested in emerging user-centric Internet sites can put aside the traditional model of limited,more accurately grasp the needs of users , the study personalized recommendation system there is a very practical sense.Recommended technique is recommended commodity research focus,because this technology is selected directly related to the accuracy of recommendation quality is good or bad.There are implementations of many personalized recommendation system , but because it needs to be calculated , mining, analyzed data vary widely, so there is no basis for any kind of existing algorithms can in each case are achieved excellent results in more realistic application the blend is used in a variety of recommendation algorithms recommended strategy. The current study abroad for personalized recommendation technology , the association rules recommended technique is the easiest to achieve , the most popular , but in practice it is certainly not perfect , in the case of sparse data , it is difficult to find goods and commodities between the strong relationship , then the algorithm will encounter in the implementation of large problems, these problems need to be resolved .Author personalized recommendation system based on association rules to try to do their own learning through data mining knowledge and related recommendation algorithm , the algorithm integrated FP growth and Apriori algorithm of association rules recommended features . The authors used tools in Python Django implements this feature , through imitation and improved Apriori algorithm , enriched personalized recommendation model , you can create different levels of implied valuable commodity relations , potentially able to be more and more valuable customer services to meet the diverse needs of more users .Finally, the author made personalized recommendation system as an example to explain the link-based forecasting,architecture design association rule recommendation algorithm based personalized recommendation system,the main function analysis,workflow and design and other background data.The system by analyzing the users shopping history to tap the users interest preferences and constantly updated to provide users with learning more accurate personalized recommendations .目 录1.绪论11.1研究背景11.2研究意义11.3国内外研究现状31.4论文研究主要内容和论文组织安排32.推荐系统相关知识52.1链路预测52.1.1链路预测的发展方向52.2数据挖掘技术8 2.2.1 数据挖掘技术的定义.8 2.2.2 数据挖掘技术的一般过程.2.3小结103.个性化推荐系统主要算法和应用113.1基于关联规则的推荐11 3.3.1 关联规则的定义.4.个性化推荐系统设计234.1系统前端与数据库234.1.1Django简介234.1.2Mysql数据库的嵌入244.2算法相关代码分析254.2.1sample.py264.2.2用fptree进行数据挖掘264.2.3FP树的挖掘过程27 4.2.4不同情况下的判定方式.30 4.2.5算法的优化.314.3系统运行效果评估274.3.1系统运行效果分析284.3.2系统功能测试304.4小结305.总结与展望315.1本文主要工作315.2工作展望31参考文献33致 谢46 中国矿业大学2014届本科生毕业设计(论文) 第44页1. 绪论1.1 研究背景 个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。 个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。购物网站的推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于:网站最热卖商品、客户所处城市、客户过去的购买行为和购买记录,推测客户将来可能的购买行为。 在电子商务时代,商家通过购物网站提供了大量的商品,客户无法一眼通过屏幕就了解所有的商品,也无法直接检查商品的质量。所以,客户需要一种电子购物助手,能根据客户自己的兴趣爱好推荐客户可能感兴趣或者满意的商品。 个性化推荐的最大的优点在于,它能收集用户特征资料并根据用户特征,如兴趣偏好,为用户主动作出个性化的推荐。而且,系统给出的推荐是可以实时更新的,即当系统中的商品库或用户特征库发生改变时,给出的推荐序列会自动改变。这就大大提高了电子商务活动的简便性和有效性,同时也提高了企业的服务水平。 总体说来,一个成功的个性化推荐系统的作用主要表现在以下三个方面:1) 将电子商务网站的浏览者转变为购买者:电子商务系统的访问者在浏览过程中经常并没有购买欲望,个性化推荐系统能够向用户推荐他们感兴趣的商品,从而促成购买过程。2)提高电子商务网站的交叉销售能力:个性化推荐系统在用户购买过程中向用户提供其他有价值的商品推荐,用户能够从系统提供的推荐列表中购买自己确实需要但在购买过程中没有想到的商品,从而有效提高电子商务系统的交叉销售。3)提高客户对电子商务网站的忠诚度:与传统的商务模式相比,电子商务系统使得用户拥有越来越多的选择,用户更换商家极其方便,只需要点击一两次鼠标就可以在不同的电子商务系统之间跳转。个性化推荐系统分析用户的购买习惯,根据用户需求向用户提供有价值的商品推荐。如果推荐系统的推荐质量很高,那么用户会对该推荐系统产生依赖。因此,个性化推荐系统不仅能够为用户提供个性化的推荐服务,而且能与用户建立长期稳定的关系,从而有效保留客户,提高客户的忠诚度,防止客户流失。 个性化推荐系统具有良好的发展和应用前景。目前,几乎所有的大型电子商务系统,如Amazon、eBay等不同程度的使用了各种形式的推荐系统。国内方面,知名购物网站淘宝、凡客诚品、聚美优品等都率先选择了本土最先进的推荐引擎系统构建个性化推荐服务系统。在日趋激烈的竞争环境下,个性化推荐系统能有效的保留客户,提高电子商务系统的服务能力。成功的推荐系统会带来巨大的效益。 另一方面,各种提供个性化服务的Web站点也需要推荐系统的大力支持,国内推荐系统领航者百分点科技就Web站点个性化内容推荐方面也做出了贡献,在信息爆棚的今天,实施个性化阅读势在必行。1.2 研究意义 近年来,随着网络科学的快速发展,链路预测的研究越来越被提上日程,而链路预测的研究与网络结构的演化也越来越紧密的联系起来。因此,对于个性化预测这个课题,人们越来越关注,对它的理论化研究迫在眉睫。而计算机专业人士研究链路预测的优势正在与理论的计算。与此同时,对链路预测的研究也可以从理论上帮主我们认识复杂网络演化的机制。 这个课题的内容十分复杂,刻画其中网络结构的统计量也非常的多,各项机制各有优劣难以计算比较。其中,如何刻画网络中节点相似性是一个很重要的问题,与此问题类似的还有相似性的度量指标问题,只有能够快速准确的评估相似性定义,才能够很好的刻画一个给定网络节点间的关系,才能进一步研究网络特征对相似性选择的影响。这个方面,链路预测可以起到很重要的作用,通过构造网络系统,并利用最大似然估计方法进行链路预测也是很重要的研究方向。 链路预测不仅具有如上所述的理论价值,在高新科技应用方面它还有更重要的意义。比如生物网络中,蛋白质相互作用网络和新陈代谢网络,节点之间是否存在相互作用关系,这些是需要通过大量实验来验证的。这类实验是需要耗费高额成本的,如果能够事先通过科学方法进行验证,就会减少不必要的实验成本。除此之外,链路预测算法还可以用于分析演化网络,比如对在线社交网络的预测,“猜你喜欢”“你可能想要关注”等,如果预测结果准确,毫无疑问会增加网站粘性和用户忠诚度。链路预测的思想和方法还有更广泛的应用,比如预测网络中的错误链接,分析网络重组和结构优化问题,甚至在构建生物网络实验中都有可能应用链路预测的原理。论文研究主要内容和论文组织安排底层数据库模块脚本生成推荐算法模块数据挖掘模块个性化推荐模块Web端浏览模块本文主要介绍了基于链路预测的个性化推荐技术的算法和实现过程,给出了利用Python和Mysql平台具体的实现方案,并且进行了Aprior算法在个性化推荐方面的实验,最终在WEB端下成功实现基于关联规则的商品推荐服务,而该功能主要是利用Django编写的。主要功能模块和实现如图1.1所示:图1.1 系统功能模块分析本文一共由五章组成:第一章为绪论,主要讲述了基于链路预测的个性化推荐技术的背景、基于链路预测的个性化推荐技术的研究的意义和价值,并根据当前个性化链路预测的发展状况,分类讲解了当前常见的个性化推荐技术技术,最后提出了个性化推荐技术存在的困难以及有待解决的问题。第二章分析了个性化推荐技术的相关技术,主要介绍了什么事基于链路预测、常用算法等相关技术和常用的分析工具。本章还提到了数据挖掘技术,展示了推荐技术研究者在数据分析、数据整合方面提出的经典理论,突出了数据挖掘、机器学习、数据分析是个性化推荐领域研究的一个重要方面。第三章主要介绍了个性化推荐技术的主流算法。主要分析了基于内容的推荐算法,描基于用户和基于项目的协同过滤算法的具体功能,重点详述了基于关联规则的推荐技术、对其背景和原理进行了详细的讲解,章节中还提到了一种比较复杂的混合式算法。最后讲几种算法进行了优劣比较,可见各有优势劣势。第四章主要介绍了个性化推荐技术的实现方法。给出了Aprior算法在商品推荐方面的一个应用实例,并描述了系统后天使用的web网站系统的工作机制和用到的技术。最后通过原文和展现的结果的演示,使用案例分析了个性化推荐系统的效果。第五章总结全文,指出个性化推荐系统还存在的问题,以及后面应该做的事情。提出了后面进一步应该解决的问题,并给出了解决这些问题应该注意的方面以及解决问题应该研究的方向。2. 个性化推荐相关技术2.1 链路预测2.1.1 链路预测的发展链路预测在近年来备受关注,发展迅速。我们可以注意到,一方面它在网络节点外在属性获取问题上难度很高,但另一方面,收益于复杂网络的快速发展,它的研究热点也从前者慢慢转移到其他问题上,这也简化了链路预测的研究难度。但是这个课题的研究最终的重点仍集中在社交网络上,是通过数据向用户推荐数据,但目前还有没有对算法性能和网络结构之间的关系很深入的研究。对于复杂网络,虽然论文和研究很多,但并不系统。链路预测研究中,网络系统理论和最大似然估计法到复杂网络研究的统计学基础。这些方面的研究遇到的主要问题是数据量巨大,精确计算难度高,对于大规模网络很难实现。这方面的文献也是如此,处理的网络节点数量偏少,预测效果对于不具有明显层次结构的网络并不理想。 近些年,复杂网络的研究出现了很多分支,大多立足于解释网络演化的内在驱动因素。还有些论文讨论了如何将链路预测的方法和思想与一些应用问题,例如部分标号网络的节点类型预测与信息推荐问题,相联系的可能性与方法,但是,目前尚缺乏对于大规模真实数据在应用层面的深入分析和研究。这方面的研究不仅仅具有实用价值,而且有助于揭示链路预测这个问题本身存在的优势与局限性。2.2 数据挖掘技术2.2.1 技术上的定义及含义数据挖掘,就是从各种各样的数据中提取对我们有用的知识,换而言之,就是有效的或者潜在有效的知识。与这个技术相近的同义词有很多,比如数据分析、数据融合等。这个定义包括很多层次的含义,但又不局限于这些含义,比如数据源必须是大量且真实的,发现的必须是用户感兴趣的并且可以理解可以接受的知识等。从广义上来理解,数据和信息都是知识的表现形式,但是人们对知识的概念更加具体,需要具体到概念、规则和约束等。我们把数据看成是形成知识的源泉,是知识的泛化物,是一片无垠的大海,而我们要做的就是从中提取、像淘金一样筛选出我们需要的信息。原始的数据并没有特定的存在结构,可以是结构化的,也可以是半结构化的,甚至是分布在网络上异构数据,可以是数学的也可以是非数学的,可以是归纳的也可以是演绎的。即可以使数据库中的数据也可以是文本图像等。发现的知识可以被用于多种用途,比如查询优化,过程控制,信息管理等,还可以用于数据自身的维护。所以这门学科是一门不断发展的学科,因为人们对它的功能需求在不断变化,从早期的单纯的提取信息慢慢提升为根据其信息进行决策,这不断成长的需求必然会让数据挖掘技术变成重要的技术热点。 虽然如此,但也并非所有的信息筛选任务都是数据挖掘。例如,使用MYSQL系统查找一些数据的记录,或通过GOOGLE引擎查找特定的网页页面,这些都是信息检索领域的任务。虽然这些任务是重要的,可能涉及到使用复杂的算法和数据结构,但是它们主要依赖传统的数据特征来提供索引牵引,从而有效地检索信息。尽管如此,数据挖掘技术也已经慢慢被运用到信息检索系统中,用以提高信息筛选的能力。2.2.2 数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析有很大的区别,但这种区别却是不明显的。首先我们需要明确,数据挖掘是在没有明确假设前提的情况下去发现知识,而且数据挖掘得到的信息通常都是先前未知的,实用的,有效的。而先前未知的信息是指这种信息预先未曾被预料到的,这就说明,所谓的数据挖掘,是要发现那些不明靠人力直觉去搜查,观察,发现的信息与知识,可能是违背常识的,也可能是违背直觉的,总之就是出乎意料的。在商业应用中,最经典的例子就是数据挖掘算法的经典案例,尿布与啤酒之间的惊人联系。2.2.3数据挖掘能做什么 数据挖掘有很多用处。数据挖掘能够通过对既存数据的分析,对未来的事物发展趋势和行为进行预测,从而探知一些以前从未发现的行为模式等,进而作为人类决策的依据。被挖掘出来的信息还能够很好的用作他用,比如信息管理、查询处理等。 数据挖掘还能做其他不同的事情,譬如整理分类、预测分析、估计数值、汇集信息、具体描述和可视化、复杂数据类型分析等。而上述的六中数据分析方法可以更直观的分为两类,一类是直接数据挖掘,另一种是间接的数据挖掘。其中,直接数据挖掘的挖掘目标是一个模型,一个利用可用的数据库建立的模型,这个模型可以对剩余的数据和特定的变量进行详细描述。而间接数据挖掘的目标并没有选出某一具体的变量,而用模型进行描述,最终在变量中建立起关系。数据挖掘中的分类是个很重要的功能,它首先从数据中选择出既定的训练集,然后在这些训练集上运用分类技术,对没有分类的数据进行分类。比如在银行工作中,可以将信用卡申请者分成高中低三档风险,或者给客户分配预先定义好的客户分片等。估计数值与分类功能类似,不一样的地方在于,分类功能描述的是离散变量的输出,而估值是用来处理连续输出的,举个很浅显易懂的例子就是,估算可以根据购买形式,估算一个家庭的收入。通常来说,估值可以作为分类的前置准备工作。通过一些给定的数据进行估值,得到未知连续变量的值,然后,根据预先设定的阈值进行分类。这种方法在实际工作中应用的也很广泛,例如对家庭贷款的估算,给客户积分,对客户进行分级管理等。数据挖掘中的预言和分类估值也是一脉相承的,首先通过分类估算得出模型,再通过模型对未知变量进行预测。但实际上,预言知识一种对未知变量的预测,需要时间来验证,且准确性未知。汇集信息即聚集是对记录分组,把相似的记录放在一个聚集里。聚集和分类的区别并不大,很微妙,聚集不依赖于预先定义好的类,而分类却需要提前定义。汇集信息通常都是数据挖掘得到一步,首先汇集客户信息,然后再分类,就如同正常的作业流程。至于数据挖掘中的关联规则,则是本篇论文的重点之处。关联规则,顾名思义,它决定了哪些事情会一起发生,换而言之,是从数据中挖掘分析总结得出的一种规则,哪些事情通常会一起发生。比如某人在超市中购物,购买了A的同时,经常会购买B,则A和B之间就建立了关联规则。后者说某客户在购买了A后隔了一段时间又购买了B,A和B之间也有了序列关系。 2.3小结本章提出了链路预测原理和数据挖掘相关技术,主要介绍了链路预测的原理、数据技术相关算法和例子。作者所做的个性化推荐系统就是基于其中的FPTREE算法,后面会详细的描述该算法。3. 个性化推荐系统主要算法和应用 个性化推荐是很有特点的一个系统,它主要根据用户的兴趣特点和购买兴趣来进行产品推荐,其目的就是智能化,更贴切合理的向用户推荐其潜在需求商品或者是感兴趣的信息。随着科技发展,商业发展,电子商务的规模不断扩大,商品的类别和个数都在快速增长,顾客需要在网络甚至现实中花费大量的时间才能找到自己想买的东西。这种浏览大量无关商品和信息的过程是十分浪费精力的,而这种信息过载也是当代信息爆炸的弊端。为了解决这些问题,个性化推荐系统应用而生。个性化推荐系统是建立在海量数据挖掘上的系统,它的主要功能就是“猜你喜欢”,通过智能化的产品推荐为网站用户进行决策支持和信息服务。如果是购物网站,则主要负责为用户推荐商品,通过对用户购买习惯、用户所在城市、用户的购买记录和当前潮流的分析把握,向用户推荐其潜在需求中的商品。 3.1 基于关联规则算法的定义3.1.1 关联规则举例 关联规则是个很复杂的定义,其定义是固定的,但是怎么灵活解释却很重要。其过程主要分两个阶段,第一阶段需要先从资料集中找出所有的高频项目,即经常发生的事,经常出现的词,然后在第二阶段中再从第一阶段产生的高频项目中产生关联规则。关联规则挖掘的第一步必须从原始资料集合中挖掘,因为只有原始资料集合中的数据才能作为未处理的干净的研究样本,是未加工过的,从中找出出现的频率高于所有记录或者某一水平的项目组。这种项目组出现的频率成为“支持度”,如果用数学来描述,以一个包含了A,B两个项目的项目组为例,我们可以得知此项目组的支持度。如果这个支持度大御等于所设定的最小支持度数值,则这个项目组就可以被称为高频项目组。一个满足最小支持度的项目,一般被称为高频K项目组。算法可以通过遍历这些项目组来查找高频项目组。关联规则的第二步就是在高频项目组之间产生关联规则。我们还要利用在第一步中产生的高频项目组,在最小信赖度达成的条件下,如果某一规则得到的信赖度,满足最小信赖度,那么这种规则就被称为关联规则。这也是需要通过公式计算的,而这种公式计算在计算机中就被体现为算法。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 药品紧急采购管理制度
- 药品销售公司管理制度
- 药店内部保洁管理制度
- 药店教育培训管理制度
- 莆田物流车队管理制度
- 设备厂家生产管理制度
- 设备广场卫生管理制度
- 设备日常巡检管理制度
- 设备研发流程管理制度
- 设备联网过程管理制度
- 基于AI的智能汽车用户体验优化策略
- 毛石混凝土换填施工方案
- 公司信息安全管理制度
- 2025-2026年摩托车制造电动化发展趋势
- 医院消毒隔离工作制度
- GB/T 10810.2-2025眼镜镜片第2部分:渐变焦
- 《长QT综合征》课件
- 海外项目廉洁风险的防控
- DBJ04T 439-2023 房屋建筑和市政基础设施工程造价指标指数编制标准
- 眩晕综合症的护理查房
- 2.1 坚持依宪治国 教案 -2024-2025学年统编版道德与法治八年级下册
评论
0/150
提交评论