数据挖掘与R语言工具优势.docx_第1页
数据挖掘与R语言工具优势.docx_第2页
数据挖掘与R语言工具优势.docx_第3页
数据挖掘与R语言工具优势.docx_第4页
数据挖掘与R语言工具优势.docx_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1. 数据挖掘概述数据挖掘是应用统计学、机器学习和模式识别等学科的知识,从数据中发现有用的、有效的、未知的并且可以理解的信息的一项技术。简言之,数据挖掘技术就是从大量的历史数据中总结原因,发现事物的本质,把握事物发展的趋势。2. 数据挖掘常用模型有了数据,我们要做的就是寻找合适的模型。数据挖掘的目的或者是理解产生数据的机制,或者是预测。根究不同的目的,我们可以将模型分为描述性模型与预测性模型。其中描述性模型是为了揭示蕴含在历史数据中的规律,属于无监督模型;预测性模型是对未来时间的预测,属于监督模型。模型图示原理应用场景相关性分析探索现象之间关系的密切程度和表达形式。研究设备发生的缺陷类型与投运年限的相关性。主成分分析将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。用于招投标专家打分数据中各技术要素明细指标中的降维研究。因子分析因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。因子分析将招投标中相关的各技术要素指分解为因子的线性组合,构造因子模型。典型相关分析典型相关分析是分析两组随机变量间线性密切程度的统计方法,是两变量间线性相关分析的扩展。运用在生产领域中的设备类型与缺陷类型间两组变量间的线性关系研究。对应分析利用因子分析原理,同时将变量与样本反映在一张图上。同时将样本(设备类别)与变量(缺陷原因)在一张图上展示,研究之间的相似性。聚类分析通过分析事物的内在特点和规律,并根据相似性原则对事物进行分组。通过不同的聚类方法对研究对象进行聚类,并以图形化将结果展示出来。时间序列从历史数据中,总结事物发展的规律,把握未来发展的趋势。通过时间序列模型,了解缺陷随时间变化的发展趋势。线性回归确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。建立缺陷供电局和设备类型间的线性模型,对未来缺陷数进行预测。 Logistic回归Logistic回归只能处理两类分类问题,是一种线性分类器,实现简单,但容易欠拟合,一般精确度不太高。应用在设备是否发生缺陷的业务场景中。生存分析对管理对象的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法。研究设备在投运后开始发生缺陷的危险时刻。 并对统计区间内的设备是否发生缺陷进行研究。关联规则从大量数据中发现潜在的对象之间的同时出现的关系。A现象出现B现象也会同时发生的情况。研究设备在不同情况下会发生严重和紧急缺陷的频繁程度和关系。序列模式挖掘对代表事件之间存在某种序列关系的数据进行相对时间或者其他模式出现频率高的模式挖掘。用在研究某个单体设备随着时间变化而出现不同缺陷类型的模式挖掘。决策树根据数据规则的生成过程,用倒立的树形图将结果展示出来。将影响缺陷类型的供电局、供应商、设备间的关系用树形图展示出来。贝叶斯分类是一类利用概率统计知识进行分类的算法。该方法简单(利用先验概率)、分类准确性高、速度快。对历史缺陷数据的严重等级进行贝叶斯分类,计算下次缺陷发生出现不同等级的概率来进行分类。GBDT(MART)迭代决策树是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。GBDT几乎可应用与所有的回归问题(线性/非线性),亦可应用与二分类问题。KNN算法(最近临近法)KNN算法是机器学习里面比较简单的一个分类算法:计算一个点A与其他所有点之间的距离,然后将A点分配到所属类别中比例最大的类别中。用于生成领域、招投标领域等分类问题的研究。 Bagging回归利用不断放回抽样的简单组合方法实现对简单决策树的改良,提高精确性。利用机器学习中的再抽样组合算法建立缺陷预测模型。随机森林另一种组合方式,随机产生大量决策树,再进行投票分类。利用抽样组合,对结果进行等权投票的算法建立缺陷预测模型。神经网络利用模拟神经网络的自我学习系统进行模型拟合,有效地解决很复杂的有大量相互相关变量的分类和回归问题,但对维度多、样本量小的数据模拟效果不好。利用自我学习的机器学习算法建立缺陷预测模型。 支持向量机SVM核心是寻找最大间隔分类超平面、引入核方法极大提高对非线性问题的处理能力。对一些系统收集数据时间不长、维度复杂的数据进行研究。文本挖掘指从文本数据中抽取有价值的信息和知识的计算机处理技术。对大量的缺陷描述的文本信息进行挖掘,迅速找出有价值的关联信息。社会网络来源于数学的图论,目前被广泛应用于社会学、经济学、管理学领域。应用到生产领域的缺陷数据中,进行设备缺陷的社会网络分析。推荐系统推荐系统的实现主要分析两个方面:基于内容(用户或者物品基本信息的相似度)和协同滤波(基于历史数据,过滤复杂的、难以表达的概念)的实现。基于营销数据库中的用户信息和用电情况进行针对性营销。LDA(主题模型)LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。LDA模型可以运用到营销个性化推荐、电网的社交网络等领域。异常检测发现与数据一般行为或特征不一致的模式,常用的有基于统计、距离、密度、深度、偏移、高维数据的异常点检测算法。用于用户用电量异常行为检测。EM算法(最大期望法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。EM算法常用在机器学习中的数据聚类(Data Clustering)领域。 遗传算法遗传算法是由进化论和遗传学机理而产生的直接搜索优化方法。遗传算法用于分类和其他优化算法,也可能用于评估其他算法的拟合度。FP-Growth算法FP Growth是一种比Apriori更高效的频繁项挖掘方法,它采用了一种简洁的数据结构 (频繁模式树),在这棵树上找出包含P的频繁项集。用于在大量的缺陷数据中快速寻找关联关系,大大提高效率。粗糙集方法粗糙集理论可以用于分类,发现不准确数据或噪声数据内的结构联系。可对数据集进行降维,发现分类规则,并对得到的结果进行统计评估等应用。模糊集方法模糊集理论作为传统的二值逻辑和概率论的一种替代,它允许我们处理高层抽象,并且提供了一种处理数据的不精确测量的手段。模糊集理论允许处理模糊不清或不精确的事实的分类问题。空间数据挖掘空间数据挖掘是从空间数据中发现模式和知识。可以结合局方的GIS系统进行电量、设备等数据的挖掘。深度学习深度学习是机器学习研究中的一个新的领域,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习是目前最接近人脑的复杂模型,百度在语音、OCR、人脸识别、图片搜索领域有应用。3. R语言工具优势 R语言的排名R语言由于其开源、丰富的各种算法和数据挖掘模型、强大的画图能力和可拓展能力让它成为这几年各大高校和企业届最受欢迎的数据挖掘软件。第13 期KDnuggets 关于数据挖掘软件使用的调查 对于过去的12 个月里实际的项目过程中使用了哪些数据挖掘(分析)软件,R、Excel 和RapidMiner 则名列三甲(去年R 排名第二)。另一份关于最常使用的底层语言依次为R 语言、SQL、Java 和Python。 R语言的优势 几乎覆盖了整个统计领域最前沿的算法。 广泛、便捷的数据接口。比如R-base 可以良好的接入CSV(Comma Separated Values) 数据扩展包,直接读入SPSS、SAS、Minitab、Stata、Excel 等文件通过数据库,读取MySQL、SQL Server、DB2、Oracle 等数据库甚至直接读取图片、语音、网页等非结构化数据 同其他语言的调用。 强大、完善的绘图功能。R 提供了为“高级”(High level)、“低级”(Low level) 和“交互式”(Interactive) 三种绘图方式基于Graphical Programming Language 的完整绘图框架ps、pdf、png、jpeg、bmp、gif、SVG、LATEX、HTML 输出,甚至动画 最重要的一点:R is free (in both senses)。 R语言的操作界面控制台通过交互式操作,输入命令后敲回车即可看到运行结果。R语言可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论