


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘应用分类及典型工具一、根据数据挖掘的应用类型不同,大致可分为以下几类:1分类模型分类(Classification)模型的主要功能是根据商业数据的属性将数据分派到不同的组中。在实际应用过程中,分类模型可以分析分组中数据的各种属性,并找出数据的属性模型,确定哪些数据模型属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。分类模型应用的实例很多,例如,我们可以将银行网点分为好、一般和较差3种类型,并以此分析这3种类型银行网点的各种属性,特别是位置、盈利情况等属性,找出决定它们分类的关键属性及相互间关系,此后就可以根据这些关键属性对每一个预期的银行网点进行分析,以便决定预期银行网点属于哪一种类型。2关联模型关联(Association)模型主要是描述了一组数据项目的密切度或关系。关系或规则总是用一些最小置信度级别来描述的。置信度级别度量了关联规则的强度。关联模型的一个典型例子是市场菜篮分析(MarketingBasketAnalysis),通过挖掘数据派生关联规则,利用此规则可以了解客户的行为。采用关联模型比较典型的案例是尿布与啤酒的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。3.顺序模型顺序(Sequence)模型主要用于分析数据仓库中的某类同时间相关的数据,并发现某一时间段内数据的相关处理模型。顺序模型实例也比较多。例如,客户现在定购一台激光打印机,以后还可能定购打印纸,可能在初始购买时有大量定货,在售后服务请求时定货量较小,在服务请求完成后可能又有大量的定货。因此,我们就可以针对上述情况指定相应的促销或营销方法。顺序模型可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。4聚簇模型当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚簇(Clustering)模型。聚簇模型是按照某种相近程度度量方法将用户数据分成互不相同的一些分组。聚簇即是一系列相近数据组成的分组的集合。每一个分组中的数据相近,不同分组之间的数据相差较大。聚簇模型是一个很强大的技术,其核心就是将某些明显的相近程度测量方法转换成定量测试方法。采用聚簇模型,系统可以根据部分数据发现规律,找出对全体数据的描述。例如,我们可以采用聚簇模型对客户现金流进行分析。当用户收到社会保险支票,或月工资存入账户时,他们会很快交付本月的账务。在这个例子中,收到社会保险支票和月工资存入账户可以看作是月支付账务的聚簇模型中的相近数据。二、数据挖掘采用的典型方法及工具针对上述应用类型,数据挖掘领域提出了多种实现方式与算法,并推出了相应的商业化软件及工具。这里仅讨论几种常见的典型的实现方法。1、神经网络(NeuralNetwork)神经网络建立在可以自学习的数学模型的基础之上。它可以对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。神经网络系统由一系列类似于人脑神经元一样的处理单元组成,我们称之为节点(Node)。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据模式的工作。神经网络系统也存在着如下问题:首先,神经网络对分类模型比较适合。但是,神经网络的隐藏层可以说是一个黑盒子,得出结论的因素并不十分明显。同时其输出结果也没有任何解释,这将影响结果的可信度及可接受程度。其次,神经网络需要较长的学习时间,因此当数据量很大时,性能可能会出现问题。2决策树(DecisionTree)决策树是通过一系列规则对数据进行分类的过程。采用决策树,可以将数据规则可视化,其输出结果也容易理解。决策树方法精确度比较高,不像神经网络那样不易理解,同时系统也不需要长时间的构造过程,因此比较常用。然而,采用决策树方法也有其缺点。决策数方法很难基于多个变量组合发现规则。不同决策树分支之间的分裂也不平滑。3联机分析处理(OLAP)联机分析处理(OnLineAnalyticalProcessing,OLAP)主要通过多维的方式来对数据进行分析、查询和报表。它不同于传统的联机事物处理(OnlineTransactionProcessing,OLTP)应用。OLTP应用主要是用来完成用户的事务处理,如民航订票系统、银行储蓄系统等等,通常要进行大量的更新操作,同时对响应时间要求比较高。而OLAP应用主要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。4数据可视化(Data Visualization)数据仓库中包含大量的数据,并且充实着各种数据模型,将如此大量的数据可视化需要复杂的数据可视化工具。数据挖掘和数据可视化可以很好地协作。就数据可视化系统本身而言,由于数据仓库中的数据量很大,很容易使分析人员变得不知所措,数据挖掘工具可以设定通过富有成效的探索的起点并按恰当的隐喻来表示数据,为数据分析人员提供很好的帮助。数据挖掘技术是数据仓库应用中比较重要也是相对独立的部分。目前,数据挖掘技术正处
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生药学填空试题及答案
- 2025年无人机资格证考试题库及答案解析
- 机械员考试题库及答案
- 外籍工作人员的劳动合同范本
- 高楼户外施工合同协议书(3篇)
- 高空施工劳务合同协议书(3篇)
- 2025海安公务员面试题及答案
- 互联网医院入驻协议及入伙前信息化建设合同
- 股权激励与员工持股计划设计合同范本
- 触发式驱鸟装置研发-洞察及研究
- 2024年企业所得税年度纳税申报表(A类2017 年版2025年01月修订)-(2025 0323)
- 2025年时事政治考试116题及参考答案
- 2025年宪法知识竞赛全套题库及答案(共150题)
- 特种设备安全风险管控清单
- 2025年体育与健康初中学业水平考试体育综合知识考试题库(附答案)
- 电子版全国普通高等学校毕业生就业协议书模板
- 设备事故培训课件
- 人武专干考试题型及答案
- 岐黄天使中医药理论和中医护理技术专项培训考核答案
- 《体育新课程标准》课件
- 2024装配式碳纤维增强免拆底模钢筋桁架楼承板建筑构造
评论
0/150
提交评论