




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、数据挖掘(DM)的基本介绍数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。(百度百科)。数据挖掘起源于从数据库中发现知识(Knowledge Discovery in Database,简称KDD)。KDD一词于1989年8月首次出现在美国底特律市举行的第11届国际联合人工智能学术会议上。KDD被定义为“从数据中发现隐含的、先前不知道的、潜在有用的信息的非平凡过程”,即从数据库中提取隐含的、感兴趣的、有用的知识和模式。在1996年出版的总结该领域进展的权威论文集知识发现与数据挖掘研究进展中,Fayyad等人重新给出了KDD和数据挖掘的定义,将二者加以区分:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;数据挖掘是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。换句话说,KDD是一个包括数据选择、数据预处理、数据变换、数据挖掘、模式评价等步骤,最终得到知识的全过程,而数据挖掘只是其中的一个关键步骤。简而言之,许多人把数据挖掘视为KDD的同义词,而另一些人则把数据挖掘视为数据库中发现知识过程中的一个基本步骤,认为数据挖掘是知识发现过程中的一步,而且是最重要的一步。因此,数据挖掘的广义观点为:数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、未知的、潜在的、有用的知识的过程。为了统一认识,Fayyad et al.(1996)对KDD和数据挖掘进行了重新定义。KDD的新定义为:“从数据中辨别有效用的,新颖的,潜在有用的,最终可理解模式的过程”。Fayyad et al.(1996)认为:“数据挖掘是通过KDD过程中特定的算法处理,在可接受的计算效率下生成特定模式的一个步骤”。Klosgen和Zvtkow则认为:数据挖掘时一种透过低阶算法来揭露隐含于数据库中高层信息的应用。因此,再重新定义后的KDD是一个包含数据选择、预处理、交换、挖掘、评估等步骤,并最终得到知识的一个过程。而数据挖掘只是知识发现其中一个关键步骤。 尽管如此,人们还是经常将二者等同看待,即使是单独使用数据挖掘一词,其实也包含数据预处理和结果评估验证等内容。二、数据预测分析的用途数据预测是首先建立连续函数值模型,然后构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间的过程。而数据预测分析的用途便可从其定义中引申出来。简单来说,预测要运用各种知识和科学手段,分析研究历史资料和调研资料,对事物发展趋势或可能的结果进行事先的推测和估计。人们对未来进行预测是为了探索预测对象发展的客观规律,揭示其发展方向和趋势,分析其发展的途径和条件,为研究制定最佳方案提供依据。所以数据预测分析广泛的应用与多种场合。大到销售预测,备件需求的预测,经济趋势预测,小到合格品率的预测,长途客运客流量预测,贷款偿还预测等等。正如Forrester Research公司的分析师James Kobielus在Forrester博客的文章中指出的,这项技术是你面向服务架构战略的核心,你可以将预测逻辑深深嵌入到数据仓库、业务流程管理平台、CEP流和业务应用中。它会变得无处不在,指导所有的决策、交易和应用。该技术将上升到这一挑战,企业必须走向全面的先进的结合分析数据挖掘、内容分析和数据库内分析的战略。三、数据预测分析的目前状况和发展趋势截止到2010年底,相关资料表明数据挖掘、预测分析以及相关业务建模技术几乎完全是由高技能高工资的统计学家、数学家和定量分析师所使用。但随着数据挖掘的普及度越来远大,这一情况正在发生变化。而数据预测分析作为数据挖掘的一个重要环节,也越来越被人们关注。个人认为,其实数据挖掘和数据预测分析,在我们日常的学习和生活中无处不在,而我们也无处不用。只是,我们不知道我们所用到的方法被定义为“数据挖掘”或是“数据预测分析”。举个简单的例子来说,给出一组数:1,2,3,4,5,6,7,8对于这组数大家很容易看出来,这是一个等差序列,而从我们分析这组数据到总结出这是一个等差序列的过程就是数据挖掘的过程。假设再让我们写出第九个数或是第n个数,这便是数据预测分析。再举个实际生活中的例子,超市中客户在购买A的同时,经常会购买B,即A = B(关联规则)。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。通过这些例子,我们不难发现数据挖掘和数据预测分析就在我们身边。一个就在大家身边的理论,而且会不断地被大家所熟悉,之后再被大家运用,那么这个理论一定“很有前途”。所以,数据预测分析的发展趋势是良好的,相信它会广泛的应用于各行各业,在各行各业中发光发热。四、数据挖掘的基本工具和基本算法1、数据挖掘的基本工具首先是数据挖掘工具分类,数据挖掘工具根据其适用的范围分为两类:专用挖掘工具和通用挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。例如,IBM公司的AdvancedScout系统针对NBA的数据,帮助教练优化战术组合。特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。例如,IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。其次是数据挖掘工具选择需要考虑的问题,数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断的磨合,才能取得成功,因此我们在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点:(1) 可产生的模式种类的数量:分类,聚类,关联等(2) 解决复杂问题的能力 (3) 操作性能(4) 数据存取能力(5) 和其他产品的接口。最后,介绍几种常用的数据挖掘工具:1、QUESTQUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:(1)提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。(2)各种开采算法具有近似线性计算复杂度,可适用于任意大小的数据库。(3)算法具有找全性,即能将所有满足指定类型的模式全部寻找出来,为各种发现功能设计了相应的并行算法。2、MineSetMineSet是由SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。MineSet集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet有如下特点:(1)MineSet以先进的可视化显示方法闻名于世;支持多种关系数据库,可以直接从Oracle、Informix、Sybase的表读取数据,也可以通过SQL命令执行查询;(2)多种数据转换功能。在进行挖掘前,MineSet可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等;(3)操作简单、支持国际字符、可以直接发布到Web。 3、DBMinerDBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner系统具有如下特色:(1)能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。(2)综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。(3)提出了一种交互式的类SQL语言数据开采查询语言DMQL。(4)能与关系数据库平滑集成。(5)实现了基于客户/服务器体系结构的Unix和PC(Windows/NT)版本的系统。4、Intelligent Miner由美国IBM公司开发的数据挖掘软件Intelligent Miner是一种分别面向数据库和文本信息进行数据挖掘的软件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等;Intelligent Miner for Text允许企业从文本信息进行数据挖掘,文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。5、SAS Enterprise Miner这是一种在我国的企业中得到采用的数据挖掘工具,比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。SAS Enterprise Miner是一种通用的数据挖掘工具,按照抽样-探索-转换-建模-评估的方法进行数据挖掘。可以与SAS数据仓库和OLAP集成,实现从提出数据、抓住数据到得到解答的端到端知识发现。6、SPSS ClementineSPSS Clementine是一个开放式数据挖掘工具,曾两次获得英国政府SMART 创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准-CRISP-DM。Clementine的可视化数据挖掘使得思路分析成为可能,即将集中精力在要解决的问题本身,而不是局限于完成一些技术性工作(比如编写代码)。提供了多种图形化技术,有助于理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。7、数据库厂商集成的挖掘工具 SQL Server 2000包含由Microsoft研究院开发的两种数据挖掘算法:Microsoft决策树和Microsoft聚集。此外,SQL Server 2000中的数据挖掘支持由第三方开发的算法。 Microsoft决策树算法:该算法基于分类。算法建立一个决策树,用于按照事实数据表中的一些列来预测其他列的值。该算法可以用于判断最倾向于单击特定标题(banner)或从某电子商务网站购买特定商品的个人。 Microsoft聚集算法:该算法将记录组合到可以表示类似的、可预测的特征的聚集中。通常这些特征可能是隐含或非直观的。例如,聚集算法可以用于将潜在汽车买主分组,并创建对应于每个汽车购买群体的营销活动。SQL Server 2005在数据挖掘方面提供了更为丰富的模型、工具以及扩展空间。包括:可视化的数据挖掘工具与导航、8种数据挖掘算法集成、DMX 、XML/A、第三方算法嵌入支持等等。 Oracle Data Mining (ODM) 是 Oracle 数据库 10g 企业版的一个选件,它使公司能够从最大的数据库中高效地提取信息并创建集成的商务智能应用程序。数据分析人员能够发现那些隐藏在数据中的模式和内涵。应用程序开发人员能够在整个机构范围内快速自动提取和分发新的商务智能 预测、模式和发现。ODM 针对以下数据挖掘问题为 Oracle 数据库 10g 提供支持:分类、预测、回归、聚类、关联、属性重要性、特性提取以及序列相似性搜索与分析 (BLAST)。所有的建模、评分和元数据管理操作都是通过 Oracle Data Mining 客户端以及 PL/SQL 或基于 Java 的 API 来访问的,并且完全在关系数据库内部进行。 IBM Intelligent Miner 通过其世界领先的独有技术,例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。现在,IBM的 Intelligent Miner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具 -Intelligent Miner for Data和IBM Intelligent Miner forText ,帮助企业选取以前未知的、有效的、可行的业务知识- 如客户购买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或Internet 上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。2、数据挖掘的基本算法(10个经典算法)(1)、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有:1、用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy,熵是一种不纯度度量准则),也就是熵的变化值。而C4.5用的是信息增益率。区别就在于一个是信息增益,一个是信息增益率。一般来说率就是用来取平衡用的,就像方差起的作用差不多,比如有两个跑步的人,一个起点是10m/s的人、其10s后为20m/s;另一个人起速是1m/s、其1s后为2m/s。如果紧紧算差值那么两个差距就很大了,如果使用速度增加率(加速度,即都是为1m/s2)来衡量,2个人就是一样的加速度。因此,C4.5克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足。2、在树构造过程中进行剪枝,在构造决策树的时候,那些挂着几个元素的节点,不考虑最好,不然容易导致overfitting。3、对非离散数据也能处理。4、能够对不完整数据进行处理。(2)、The k-means algorithm 即K-Means算法k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割(k n)。它与处理混合正态分布的最大期望算法(本十大算法第五条)很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。(3)、Support vector machines支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的模式识别支持向量机指南。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。(4)、The Apriori algorithmApriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。(5)、最大期望(EM)算法在统计计算中,最大期望(EM,ExpectationMaximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。(6)、 PageRankPageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量,衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度即被别人引述的次数越多,一般判断这篇论文的权威性就越高。(7)、AdaBoostAdaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器融合起来,作为最后的决策分类器。(8)、kNN: k-nearest neighbor classificationK最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。(9)、 Naive Bayes在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。(10)、CART: 分类与回归树CART, Classification and Regression Trees。在分类树下面有两个关键的思想:第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。五、基于Excel 2007 DM插件的介绍 通过使用 Microsoft SQL Server 2005 Office 2007 数据挖掘外接程序(数据挖掘外接程序),可以在 Office Excel 2007 和 Office Visio 2007 中利用 SQL Server 2005 的预测分析功能。下面我开始介绍数据挖掘插件,安装完成后,打开文件DMAddins_SampleData.xlsx(默认位置在X86:C:Program Files Microsoft SQL Server 2008 DM Add-Ins,X64:C:Program Files (x86)Microsoft SQL Server 2008 DM Add-Ins),我们可以看到能够使用的数据挖掘工具如下图所示:操作步骤如下:(1)选择“数据挖掘”选项卡,框选相应的数据区域(2)选项卡中有关联,预测,聚类分析等等,以“预测”为例,点击“预测”按钮后,自动弹出预测数据挖掘向导,也可以在此时选择数据表和数据区域,在这里数据表我们选择了“詹姆斯生涯数据表”,数据区域选择了所有区域。按照向导对输入内容进行设置、结构名称和描述、模块名称和描述,点击“完成”即可,其结果如下图所示:六、应用该插件对实际案例的分析 个人是一个比较喜欢篮球的人,对NBA也比较关注,我喜欢的球星是热火队的勒布朗.詹姆斯。所以我在网上下载了他的生涯数据,来做预测分析。被选择的数据:使用聚类分析对数据有一个进一步的,整体性的了解:关注NBA的同学们都知道,球员的效率值是衡量球员能力好差的一个重要的指标。而效率值由出场时间以及对球队的贡献决定。所以,我们来看看这位超级巨星的能力吧。从以上四个预测分析来看,出场时间即使只有39分钟,詹姆斯也有将近30分,8个篮板,7个助攻的华丽数据。出场时间如果达到42.8的话,这对球员的体力无意识最大的考验。一场比赛总共也就48分钟,所以随着出场时间的加长,勒布朗的各项数据有点下滑,也是情理之中的。不过有一点是很重要的,他的失误不会随着时间的拉长而增多。总的来说,对于像勒布朗这样的超级球星来说,即使出场时间不是很长,也能拿下漂亮的数据,这就意味着,他们都有着很高的效率值。勒布
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 规范宴会用餐指南
- 2025中银基金笔试题目及答案
- 航海船舶航行注意事项
- 金融经济学考研复习方法总结
- 职业教育学生职业技能鉴定工作流程指南
- 农学中的畜禽疾病预防与控制技术
- 2025四川宜宾市正信法律咨询服务有限公司招聘4人笔试历年参考题库附带答案详解
- 2025年社会医学公共卫生理论评估答案及解析
- 2025年速学渗透测试题及答案
- 2025年四川宜宾市筠连县事业单位引进81名高层次人才笔试高频难、易错点备考题库含答案详解
- 西门子低压电器快速选型手册
- 养羊与羊病防治技术课件
- DB21T 3354-2020 辽宁省绿色建筑设计标准
- 我和我的祖国课件
- 蔬菜大棚项目计划书
- 医学资料品管圈十大步骤的运用
- 语言领域核心经验《学前儿童语言学习与发展核心经验》
- 餐饮空间设计课件ppt
- 《基因组学》课程教学大纲(本科)
- DB51T 5036-2017 四川省屋面工程施工工艺规程
- 装饰装修工程培训课件(ppt-162页)
评论
0/150
提交评论