付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、浅析十三种常用的数据挖掘技术数据分析微信公众号 datadw 整理,分享。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提 取隐含在其中的、 人们事先不知道的但又是潜在有用的信息和知识的过程。 数据 挖掘的任务是从数据集中发现模式, 可以发现的模式有很多种, 按功能可以分为 两大类:预测性 (Predictive) 模式和描述性 (Descriptive) 模式。在应用中往往根 据模式的实际作用细分为以下几种:分类,估值,预测,相关性分析,序列,时 间序列,描述和可视化等。数据挖掘涉及的学科领域和技术很多, 有多种分类法。 根据挖掘任务分, 可 分为分类或预测模型发现、数据总
2、结、聚类、关联规则发现、序列模式发现、依 赖关系或依赖模型发现、 异常和趋势发现等等; 根据挖掘对象分,有关系数据库、 面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质 数据库、遗产数据库以及环球网 Web ;根据挖掘方法分,可粗分为:机器学习 方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学 习方法 (决策树、规则归纳等 )、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析 (多元回归、自回归等 )、判别分析 (贝叶斯判别、费歇尔判别、非参数判别等 )、聚类分析 (系统聚类、动态聚类等 )、探索性分析 (主元分析法、相关分析法等 )等。神经
3、网络方法中,可细分为:前向神经网络 (BP 算法等 )、自组织神经网络 (自组织特征映射、竞争学习等 )等。数据库方法主要是多维数据分析或 OLAP 方法,另外还有面向属性的归纳方法等等。、数据挖掘技术简述数据挖掘的技术有很多种, 按照不同的分类有不同的分类法。 下面着重讨论 一下数据挖掘中常用的一些技术:统计技术,关联规则,基于历史的分析,遗传 算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析, 差别分析,概念描述等十三种常用的数据挖掘的技术。1 、统计技术数据挖掘涉及的科学领域和技术很多, 如统计技术。 统计技术对数据集进行 挖掘的主要思想是: 统计的方法对给定的数据集
4、合假设了一个分布或者概率模型(例如一个正态分布 )然后根据模型采用相应的方法来进行挖掘。2、关联规则数据关联是数据库中存在的一类重要的可被发现的知识。 若两个或多个变量 的取值之 I 司存在某种规律性,就称为关联。关联可分为简单关联、时序关联、 因果关联。 关联分析的目的是找出数据库中隐藏的关联网。 有时并不知道数据库 中数据的关联函数, 即使知道也是不确定的, 因此关联分析生成的规则带有可信 度。3 、基于历史的 MBR(Memory-based Reasoning)分析先根据经验知识寻找相似的情况, 然后将这些情况的信息应用于当前的例子中。这个就是 MBR(Memory Based Rea
5、soning)的本质。 MBR 首先寻找和新 记录相似的邻居, 然后利用这些邻居对新数据进行分类和估值。 使用 MBR 有三 个主要问题, 寻找确定的历史数据; 决定表示历史数据的最有效的方法; 决定距 离函数、联合函数和邻居的数量。4、遗传算法 GA(Genetic Algorithms)基于进化理论, 并采用遗传结合、 遗传变异、 以及自然选择等设计方法的优 化技术。主要思想是: 根据适者生存的原则, 形成由当前群体中最适合的规则组 成新的群体,以及这些规则的后代。典型情况下,规则的适合度 (Fitness) 用它 对训练样本集的分类准确率评估。5 、聚集检测将物理或抽象对象的集合分组成为
6、由类似的对象组成的多个类的过程被称 为聚类。由聚类所生成的簇是一组数据对象的集合, 这些对象与同一个簇中的对 象彼此相似,与其它簇中的对象相异。 相异度是根据描述对象的属眭值来计算的, 距离是经常采用的度量方式。6、连接分析连接分析, Link analysis ,它的基本理论是图论。图论的思想是寻找一个 可以得出好结果但不是完美结果的算法, 而不是去寻找完美的解的算法。 连接分 析就是运用了这样的思想: 不完美的结果如果是可行的, 那么这样的分析就是 个好的分析。利用连接分析, 可以从一些用户的行为中分析出一些模式; 同时将 产生的概念应用于更广的用户群体中。7、决策树决策树提供了一种展示类
7、似在什么条件下会得到什么值这类规则的方法。8、神经网络在结构上, 可以把一个神经网络划分为输入层、 输出层和隐含层。 输入层的 每个节点对应个个的预测变量。 输出层的节点对应目标变量, 可有多个。 在输 入层和输出层之间是隐含层 (对神经网络使用者来说不可见 ),隐含层的层数和每 层节点的个数决定了神经网络的复杂度。除了输入层的节点,神经网络的每个节点都与很多它前面的节点(称为此节点的输入节点 )连接在一起,每个连接对应一个权重 Wxy ,此节点的值就是通过 它所有输入节点的值与对应连接权重乘积的和作为个函数的输入而得到, 我们 把这个函数称为活动函数或挤压函数。9 、粗糙集粗糙集理论基于给定
8、训练数据内部的等价类的建立。 形成等价类的所有数据 样本是不加区分的, 即对于描述数据的属性, 这些样本是等价的。 给定现实世界 数据,通常有些类不能被可用的属性区分。 粗糙集就是用来近似或粗略地定义这 种类。10 、模糊集模糊集理论将模糊逻辑引入数据挖掘分类系统, 允许定义“模糊” 域值或边 界。模糊逻辑使用 0.0 和 1.0 之间的真值表示一个特定的值是一个给定成员的 程度,而不是用类或集合的精确截断。模糊逻辑提供了在高抽象层处理的便利。11 、回归分析回归分析分为线性回归、 多元回归和非线性同归。 在线性回归中, 数据用直 线建模,多元回归是线性回归的扩展, 涉及多个预测变量。 非线性
9、回归是在基本 线性模型上添加多项式项形成非线性同门模型。12 、差别分析差别分析的目的是试图发现数据中的异常情况, 如噪音数据, 欺诈数据等异 常数据,从而获得有用信息。13 、概念描述概念描述就是对某类对象的内涵进行描述, 并概括这类对象的有关特征。 概 念描述分为特征性描述和区别性描述, 前者描述某类对象的共同特征, 后者描述 不同类对象之间的区别, 生成一个类的特征性描述只涉及该类对象中所有对象的 共性。三、结束语由于人们急切需要将存在于数据库和其他信息库中的数据转化为有用的知 识,因而数据挖掘被认为是一门新兴的、 非常重要的、 具有广阔应用前景和富有 挑战性的研究领域,并应起了众多学科
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026重庆沙坪坝区总工会招聘1人考试备考题库及答案解析
- 2026年广安职业技术学院单招职业适应性测试题库有答案详细解析
- 2026云南民族博物馆(云南民族文化宫)招聘2人笔试模拟试题及答案解析
- 2026浙江宁波市余姚市供销联社下属企业招聘8人笔试备考题库及答案解析
- 2026中国能源建设集团黑龙江省电力设计院有限公司校园招聘笔试模拟试题及答案解析
- 2026广东南山二外(集团)海德学校招聘教师2人考试备考题库及答案解析
- 2026广西柳州柳城县龙头镇卫生院招聘中药士岗位1人笔试备考题库及答案解析
- 2026年四川省三台县初三下学期期末调研测试语文试题文试卷含解析
- 广东省佛山顺德区五校联考2026年初三第一次联合调研考试语文试题含解析
- 2026年黑龙江省大庆市肇源市级名校初三考前抢分(三)英语试题含解析
- 物流交付环节管理办法
- 2025年消防党组织谈心谈话记录范文
- 基于PLC的立体仓库堆垛机智能控制系统设计
- 五小活动成果汇报
- DB61∕T 1916-2024 土石山区土地整治技术规程
- 2025年【大型双选会】中国恩菲工程技术有限公司春季校园招聘30人笔试历年参考题库附带答案详解
- 《互联网营销师(直播销售员)五级(初级)理论知识考核要素细目表》
- 内衣店新员工入职培训
- 电网检修培训课件下载
- 电器元件销售管理制度
- 三种方法评标计算(自带公式)
评论
0/150
提交评论