数据挖掘与R语言_第1页
数据挖掘与R语言_第2页
数据挖掘与R语言_第3页
数据挖掘与R语言_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘与R语言数据挖掘(Data Mining , DM 又称数据库中的知识发现 (Knowledge Discover in Database , KDD,是目前人工智能和数据 库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭 示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、 统计学、数据库、可视化技术等,高度白动化地分析企业的数据,做 出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略, 减少风险,做出正确的决策。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻

2、找和规律表示 3个步骤。数据准备是从 相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集; 规 律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能 以用户可理解的方式(如可视化)将找出的规律表示出来。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个白由、免费、源代码开放的软件,它是一个用于统计计算和统 计制图的优秀工具。与其说R是一种统计软件,还不如说 R是一种数学计算的环境, 因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干 参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统 计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而

3、使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统 计计算方法。随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应 用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的 实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。本文介绍 了数据库技术的现状、效据挖掘的方法以及它在Bayesian网建网技术中的应用:通过散据挖掘解决 Bayesian网络建模过程中所遇到的 具体问题,即如何从太规模效据库中寻找各变量之间的关系以及如何 确定条件概率问题。数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出

4、,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层 次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统 分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘 通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更 高层次的抽象。目前,在需要处理大数据量的科研领域中,数据挖掘受 到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实 例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节

5、约时间,将更多的精 力投入到更高层的研究中,从而提高科研工作的效率。有价数据挖掘使用一定的算法从实际应用数据中挖掘出未知、 值的模式或规律等知识,整个过程由数据准备、数据挖掘、模式评估、 巩固知识和运用知识等步骤组成。4.1 .数据准备数据挖掘的处理对象是数据,这些数据一般存储在数据库系统中 是长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘,首先要清除数据噪声和与挖掘主题明显无关的数据 ;其次将来白多数 据源中的相关数据组合并;然后将数据转换为易于进行数据挖掘的数 据存储形式,这就是数据准备。数据准备是数据挖掘的第一步,它是整 个过程中很重要的一步,数据准备是否合适将影响到数据挖掘的

6、效 率、准确率以及最终模式的有效性。4.2数据挖掘数据挖掘就是根据数据挖掘的目标,选取相应算法及参数,分析 准备好的数据,产生一个特定的模式或数据集,从而得到可能形成知 识的模式模型。4.3模式评估由挖掘算法产生的模式规律,存在无实际意义或无实用价值的情 况,也存在不能准确反映数据的真实意义的情况,甚至在某些情况下 与事实相反,因此需要对其进行评估,从挖掘结果中筛选出有意义的 模式规律。在此过程中,为了取得更为有效的知识,可能会返回前面的 某一处理步骤中以反复提取,从而提取出更有效的知识。4.4巩固知识完成对知识的一致性检查,确保发现的知识与已知可信的知识不发生抵触。4.5运用知识发现知识的目

7、的是运用。运用知识有两种方法:一种是直接运用知识 来决策;另一种是要求对新的数据运用知识,由此可能产生新的问题, 而需要对知识做进一步的优化。随着计算机能力的发展和业务复杂性的提高数据类型会越来越 多,越来越复杂,数据挖掘会发挥越来越大的作用。目前,在很多领 域,数据挖掘(data mining)都是一个很时髦的词,尤其是在如银行、 电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘所能 解决的典型商业问题包括:数据库营销(Database Marketing )、客 户群体划分(Customer Segmentation & Classification )、背景分 析(Pro

8、file Analysis )、交叉销售(Cross-selling )等市场分析行 为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。但是,通过了解我发 现数据挖掘作为一门新兴的科学和技术,它的发展还处于幼年期,要想使之得到广泛充分地应用,必须面对的挑战为建立基础的数据挖 掘理论体系;提高数据挖掘算法的效率和处理能力;改善数据挖 掘系统的人机界面;分布式挖掘和实时挖掘:挖掘各种数据类型, 包括半结构和无结构数据。数据挖掘又称数据库中的知识发现,是一个利用各种分析工具 在海量数据中发现模型和数据

9、间关系的过程,这些模型和关系可以用来做出预测。数据挖掘实施的步骤一般包括三个部分数据的准备、 模型的建模型验证图数据挖掘的步骤图所示的各个步骤并不是线性 的,要取得好的结果就要不断重复这些步骤。在客户流失分析系统中数据挖掘只是一小部分,却是关键的一个部分,系统中把数据挖掘 得到的知识和市场的经验、客服的信息结合起来,应用于数据库中的 数据进行流失客户的预测、分析,对确认有流失倾向的客户根据不同 的情况进行预苦处理,包括套餐资费调整、服务方式更改、竞争对手 调查等,同时将预誓客户名单通过公司的数据交换平台下发给各个 业务分区,进行摸底跟踪,实施关怀工程。整个系统的业务流程如图 所示,其中流失客户的预测和分析是两个关键的环节 ,需要选择讨, 实用案例,计算机系统应用年第期合适的数据挖掘算法,获取有用的 模型和知识应用于系统中,才能进行科学的辅助决策。数据挖掘与福言在未来的发展中占

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论