对数据挖掘的认识_第1页
对数据挖掘的认识_第2页
对数据挖掘的认识_第3页
对数据挖掘的认识_第4页
对数据挖掘的认识_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、对数据挖掘的认识一、数据挖掘的理解数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的 数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的 知识的非平凡过程。这个定义包括几层含义:数据源必须是真实 的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识 要可接受、可理解、可运用;并不要求发现放之四海皆准的知识, 仅支持特定的发现问题。数据挖掘,简单地可理解为通过对环境数 据的操作,从数据中发现有用的知识。它是一门涉及面很广的交叉 学科,包括机器学习、数理统计、神经网络、数据库、模式识别、 粗糙集、模糊数学等相关技术。就具体应用而言,数据挖掘是一个 利用各种分析工具在海量数据中发现

2、模型和数据间关系的过程,这 些模型和关系可以用来做出预测。从商业角度上看,数据挖掘是一种新的商业信息处理技术,其 主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析 和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖 掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据 挖掘所得到的信息应具有先前未知,有效和可实用三个特征。先前 未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现 那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知 识,挖掘出的信息越是出乎意料,就可能越有价值。二、数据挖掘的主要方

3、法数据挖掘技术主要来源于四个领域:统计分析、机器学习、神经网络和数据库。所以,数据挖掘的主要方法可以粗分为:统计方 法、机器学习方法、神经网络方法和数据库方法。统计方法主要包括:回归分析(多元回归、白回归等)、判别 分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系 统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法 等)、以及模糊集、粗集、支持向量机等。模糊集方法即利用模糊 集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模 糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论 是用隶属度来刻画模糊事物的亦此亦彼性的。粗集方法建立在粗集 理论上。粗集理论是一种研究

4、不精确、不确定知识的数学工具。粗 集方法有几个优点:不需要给出额外信息;简化输入信息的表达空 间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信 息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管 理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础 是集合论,难以直接处理连续的属性。而现实信息表中连续属性是 普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难 点。机器学习方法主要包括:归纳学习方法(决策树、规则归纳等)、 基于范例的推理CBR、遗传算法、贝叶斯信念网络等。决策树是一 种常用于预测模型的算法,它通过将大量数据有目的分类,从中找 到一些有价值的,潜在的

5、信息。它的主要优点是描述简单,分类速 度快,特别适合大规模的数据处理。最有影响和最早的决策树方法 是由Quinlan提出的著名的基于信息!W的ID3算法。它的主要问题 是:ID3是非递增学习算法;ID3决策树是单变量决策树,复杂概 念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述 问题,出现了许多较好的改进算法,如 Schlimmer和Fisher设计 了 ID4递增式学习算法;钟鸣,陈文伟等提出了 旧LE算法等。遗传 算法是一种基于生物白然选择与遗传机理的随机搜索算法,是一种 仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型 结合等性质使得它在数据挖掘中被加以应用。但遗传

6、算法的算法较 复杂,收敛于局部极小的较早收敛问题尚未解决。神经网络方法主要包括:前向神经网络(BP算法等)、白组织 神经网络(白组织特征映射、竞争学习等)等。神经网络由于本身 良好的鲁棒性、白组织白适应性、并行处理、分布存储和高度容错 等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们 的关注。典型的神经网络模型主要分 3大类:以感知机、BP反向传 播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈 式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分 别用于联想记忆和优化计算的反馈式神经网络模型;以 ART模型、 Koholon模型为代表的,用于聚类的白组织映射

7、方法。神经网络方 法的缺点是"黑箱"性,人们难以理解网络的学习和决策过程。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。三、数据挖掘的任务数据挖掘的任务主要有分类分析、聚类分析、关联分析、序列 分析及时间序列。另外,还有孤立点分析、依赖关系分析、概念描 述、偏差检测等。1、分类分析(Classification Analysis)分类就是找出一个类别的概念描述,它代表了这类数据的整体 信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则 或决策树模式表示。分类是有制导的学习,它利用训练数据集通过 一定的算法而求得分类规则。分类可被

8、用于规则描述和预测,常应 用于风险管理、广告投放等商业环境。2、聚类分析(Clustering Analysis)聚类又被称为分隔(segmentatio ),聚类分析是把数据按照 相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数 据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以 及可能的数据属性之间的相互关系。聚类分析是无制导的学习,聚 类分析与分类分析不同,它不依赖于没有事先确定的类,也没有已 具有类标识的训练集。好的聚类分析算法应该使得所得到的聚簇内 的相似性很高,而不同的聚簇间的相似性很低。3、关联分析(Association Analysis)关联规则挖掘是由Ra

9、kesh Apwal等人首先提出的。两个或两 个以上变量的取值之间存在某种规律性,就称为关联。数据关联是 数据库中存在的一类重要的、可被发现的知识。关联分为简单关 联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的 关联网。一般用支持度和可信度两个阀值来度量关联规则的相关 性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合 需求。最典型的应用是市场中购物篮分析。4、序列分析及时间序列(Sequence Analysis and Time Sequence)序列分析及时间序列是指通过序列信息或时间序列搜索出重复 发生概率较高的模式。与回归一样,它也是用己知的数据预测未来 的值,但

10、这些数据的区别是变量所处的序列或时间的不同。四、数据挖掘项目的开发周期第1步数据收集将要挖掘的数据资源收集到数据库或数据仓库中。若已有数据仓库 的主题数据不够丰富,还需从其他相关数据源加入新数据。数据收 集完后,还要进行数据合理采样,以减少训练数据集的容量。多数 情况下,从50,000客户记录中发现的模式有可能与从 1,000,000 客户记录中发现的模式是一样的。第2步数据清洗和转换数据清洗的目的是消除数据的噪音和其他无关信息。数据转换的目 的是根据确定的数据类型和数据值将不同数据源的同类数据进行统 一格式。数据清洗和转换常用的相关技术有:数据类型转换、连续 值属性转换、分组、集合、去处孤立

11、点等。第3步模型建立模型建立是数据挖掘的核心阶段。首先,要和相关领域的专家组成 团队,明确数据挖掘项目的目的和具体的数据挖掘任务。根据数据 挖掘任务,选择相关算法。用不同算法建立不同数据模型,再用专 业的模型评估工具比较模型的准确度。即使是同一种算法,参数选 取的不同,所建模型的准确度也不一样。第4步模型评估用模型评估工具对模型进行评估,认识发现模式的实际意义。若模 型中的模式没有用,必须要重新进行数据清洗和转换、建立模型。 数据挖掘是一个循环的过程,要通过反复的循环发现合理的模型。第5步报告报告是数据挖掘成果的主要交付手段。有两种类型的报告:发现模 式报告和预测报告。第6步预测在很多数据挖掘

12、项目中,发现模式还不够,还要通过模式进行预 测。比如,银行业可以利用已建立的风险评估模型去预测每个新的 贷款申请的潜在风险。第7步应用集成将数据挖掘集成到实际应用中,特别是在应用中加入实时预测组件是数据挖掘项目的发展趋势。比如,CRM中有了数据挖掘功能,就 可以对客户进行分类。ERP中有了数据挖掘功能,就能够预测产 量。第8步模型管理每一个数据挖掘模型都有一定的生命周期,维护好模型也是一项重 要工作。不同应用中的模型的稳定期是不一样的,要根据实际情况 对模型进行管理。另外,模型管理中还要注意安全问题,避免敏感 数据的泄露。五、数据挖掘算法的使用当前提出的各种数据挖掘算法不下近百种,但没有任何一种数 据挖掘的算法是万能的。算法的具体使用时应注意:不同的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论