数据挖掘工具_第1页
数据挖掘工具_第2页
数据挖掘工具_第3页
数据挖掘工具_第4页
数据挖掘工具_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

R语言在数据挖掘中的运用进行数据挖掘之前数据集成数据集成:将多个数据源中的数据结合起来存放一个一致的数据存储的过程数据集成包括数据集成和模式集成。例如:在一个企业的两个数据源中我们分别以cust-id和customer-no来标识用户,数据集成时,把标识相同的客户和在一起A.cust-id==B.customer-no用户标识的定义不同A表:ID=”23442”B表:ID=”SH23442”String(A.cust-id)==String(B.customer-no).Substr(2,length-2)进行数据挖掘之前-数据预处理数据预处理数据预处理原因:①现实世界的数据是“杂乱的”。②数据挖掘需要高质量的数据。如何对数据进行预处理◆数据清理◆数据转换◆数据的规约数据清理格式标准化异常数据清除错误纠正重复数据的清除处理缺失数据处理重复数据处理噪声数据处理异常数据目标:提高数据质量的四个环节数据转换分类:常规数据转换通常通过线性或非线性的数学变换方法等方式将数据转换成适用于数据挖掘的形式。非常规数据的数据变换根据数据的特性会有较多的形式各异的转换方式。数据转换常见转换方法:为了减少数据复杂度,用高层概念替换底层概念。专注于数据规范化,是数据按比例缩放,落入特定区域。做属性构选,通过一个或多个属性的变换计算构造出新的属性。数据转换⑴标准差标准化所谓标准差标准化是将各个记录值减去记录值的平均值在除以记录值的标准差X’=(Xij-Xia)/SinXia为平均值,表达式为Xia=1/n∑Xijj=1n设Sij是标准差有:Si=√1/n∑(Xij-Xia)j=1数据转换(2)极差标准化极差标准化变换是将各个记录值减去记录值的平均值,在除以记录值的极差。X’ij=(Xij-Xia))/(max(Xij)-min(Xij))(3)极差正规化

X’ij=(Xij-min(Xij))/(max(Xij)-min(Xij))将各个记录值减去记录值的极小值,在除以记录值的极差。数据转换最小—最大规范化处理将所有数据转化到我们新设定的最小和最大值的区间内。数据的规约更少的数据,提高挖掘效果更高的数据挖掘处理精度简单的数据挖掘处理结果更少的数据特征删除列删除行减少列中的值效果:由于数据规约对原始数据通常都是有损的,尽量不使用规约。基本操作:R语言简介R语言基本语法结构标准的和基于各种设备的输入/输出面向对象编程方式和数学编程方式分布式计算结构引用程序包数学和统计学各种函数包括:基本数学函数,模拟和随数产生函数基本统计函数和概率分布函数机器语言学习功能信号处理功能统计学建模和测试功能静态和动态的图形展示R语言简介R语言在数据挖掘中的优势:最廉价(免费)最全面的算法最完美多样的数据展示最狂热的爱好者社区R语言的整个语法结构完全来自S语言,突出两个特点是:函数或编程和向量化计算。背景特点简介R语言常用的包CORElearn包:程序包集合了多种分类算法和回归模型例如:朴素贝叶斯,随机森林,决策树,回归分析等。E1071包:综合了众多数数据挖掘的包,其中被使用较多的SUM()函数实现支持向量化。Rpart包:提供有效处理稀疏二元数据的数据结构,而且提供函数用Apriori算法和Edat算法来挖掘频繁项集最大频繁项集,闭频繁项集合和关联规则。Randomforest包:实现随机森林算法。ROCR包:是专门用于做模型评估的,可以方便的绘出ROC图。MATLAB(MATtrixLABoratary)矩阵实验室功能:①MATLAB将数值分析,矩阵计算,科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中。②可以轻易地描绘二维和三维图形。特点:高效的数学表达式表现方式,数值计算及符号计算功能。语言:MATLAB语言是简化版的类C++语言。其他商用数据挖掘工具SPSSModeler

支持整个数据挖掘流程,包括从数据获取,转化,建模,评估到最终部署的全部过程。SASEnterMiner

可利用具有图形化的模块将数据挖掘单元组成处理流程图并依此来组织数据挖掘的过程。IntellgentMinerforData

它是用来数据挖掘包含在数据库,数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。开源数据挖掘工具WekaWeka(WaikatoEnvironmentforknowledgeAnalysis)——全名:怀卡托智能分析环境Weka是用Java语言开发和开源的数据挖掘软件。Weka可以使用的数据挖掘算法:分类算法,聚类算法和并联算法。Weka在R语言中时,使用RWeka程序包调用Weka中所有算法。开源数据挖掘工具Weka-四个组成部分Explorer,在该环境中,我们可以实现各种数据挖掘算法,并提供可视法结果。Experimenter:用来做算法实验的环境,在该环境中,用户可以创建比较,修改和分析算法。KnowledgeFlow:在“知识流”的环境中,用户可以把不同组件按照一定顺序连接起来,组成知识流用以处理和分析数据。SmpleCLI:简单的命令行界面。一、SPSS软件简介软件简介SPSS是StatisticalProgramforSocialSciences的简称,即社会科学统计程序,由美国SPSS公司1970年代推出,迄今已有近30年的历史。是国际著名三大社会科学统计软件包之一(SAS、SPSS、Statis)。SPSS原是为大型计算机开发的,其版本为SPSSx,80年代初,微机开始普及以后,它率先推出了微机版本(版本为SPSS/PC+x.x),占领了微机市场,大大地扩大了自己的用户量,我们现在使用的是SPSSforWindows12.0版。软件简介与以往的SPSSforDOS版本相比,SPSSforWindows显得更加直观易用。首先,它采用现今广为流行的电子表格形式作数据管理器,使用户变量命名、定义数据格式、数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论