数据挖掘常用技术_第1页
数据挖掘常用技术_第2页
数据挖掘常用技术_第3页
数据挖掘常用技术_第4页
数据挖掘常用技术_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

其次章数据挖掘常用技术

7

数据挖掘是涉及了机器学习,统计学,人工智能,数据仓库等多门学科学问的

新兴交叉学科。也正是由于这样使得数据挖掘的讨论渗透在多个学科,从而使得

数据挖掘的方法在不同的理论背景下消失了多种形式,多种讨论途径。数据挖掘

技术的进展是数据驱动的,针对不同的数据产生了很多数据挖掘的方法,同时也

要知道大多数的算法都不是特地为解决某个特定问题而设计的,不同算法彼此之

间也不相互排斥,在进行实际应当的过程中应依据数据自身的特点与业务的详细

问题选择合适的数据挖掘算法,进而得到较好的挖掘效果,在不能确定挖掘算法

之前也可以实行抽样数据然后用各种算法尝试的方法来选择相对•较好的算法,算

法的好坏不是以其使用范围和效果而言,而是针对不同的问题有不同的评判标准。

下面对常见的并且应用性很好的数据挖掘技术进行简要介绍。

(1)决策树

决策树是一种方法简洁而又应用广泛的分类技术。它是一种分类函数靠近手段,

是从机器学习的方面改进而来的。决策树算法的好处在于算法易于理解,但是其

缺点在于每个分支的判定条件过于严格毫不模糊,这样在实际应用中可能会带来

肯定的麻烦。近年来随着讨论的深化决策算法有了很多进步产生很高效的算法。

(2)神经网络方法

神经网络来源于神经生物学和生理学中有关神经细胞计算本质的讨论工作。有

很多种不同的神经网络,可以给不同的学习目的供应应用。前馈神经网络是一种

常见的用于分类的算法。

神经网络有很好的抗噪音的力量,并且针对未知数据也一样有很好的猜测分类

力量,有很高的分类精准度。不过,训练过程一般比较长是神经网络的一大缺点。

此外,神经网络算法所得到的结果可解释性很差,差不多相当于黑盒。

(3)统计分析方法

经典统计学中的重点内容包括回归分析,假设检验,方差分析等。而相关的统

计学的中的很多学问也都会在数据挖掘中被用到。在使用数据挖掘技术来解决相

关问题之前有时也会用统计方法尝试着解决问题,甚至在数据预处理过程中也会

用到统计方法。

(4)遗传算法

遗传算法(geneticalgorithm,又称GA),该算法试图通过计算机仿照自然选择

的过程,并将他们运用到解决商业和讨论问题。遗传算法是在遗传和生物进化的

思想之下而开展的,所以他有很多传统算法所以不具备的优点。

(5)关联挖掘电子科技高校硕士学位论文

6

概括起来数据挖掘的一般步骤可以用如下图示来表达

图2-1数据挖掘基本步骤图

从数据挖掘所使用的技术的方面来理解的话,数据挖掘的过程可以有如下几步:

初始数据的获得及分析,数据抽样和数据清理,数据挖掘技术,样本集,数据的

转换,数据仓库技术,学问。本步骤的要点是对数据的预处理的优化,省掉了实

际商业应用时所需要的很多步骤。图2-2展现了如何从初始数据动身,从中得到有

用的模式,进而得到有用的学问。用于数据挖掘的工具越优秀,从一个步骤转到

另一个步骤就越简洁、越自动化。

图2-2数据挖掘的技术过程图

在详细应用的过程之中,需要常常反复执行某一些数据挖掘的步骤。并且,以

上四步的分界线常常区分不明显,例如,数据转换及预处理同时又可以当作一种

线索关系的提取。因而指明数据挖掘常做的工作就是如此的划分目的

[2]

O

2.1.3数据挖掘常用方法

原始数据

样本集

数据仓库

学问

抽样、清理

转换

挖掘

原始数据

业务理解

数据理解数据预处理

建模

评估

部署其次章数据挖掘常用技术

5

绍一下各个步骤

[4]

O

(1)业务理解

在进行数据挖掘之前要了解所挖掘的行业背景,了解行业学问,进而知道数据

挖掘的目标以及衡量挖掘胜利的标准,同时也要了解数据挖掘在相关行业下的资

源以及风险。在了解了上述相关行业学问之后,把挖掘的任务转换成数据挖掘的

问题,同时定下挖掘目标和挖掘胜利的标准。最终得到初期的项目方案。

(2)数据理解

在完成了业务目标以后,接着的任务就应当是收集数据。收集数据之后要对数

据开展讨论分析,以了解数据的结构以及数据的质量。若是此步骤数据的获得有

困难或者得不到满足的数据,就应当重新回到业务理解步骤,分析是否业务理解

出了问题。

(3)数据预处理

此步骤的目的是得到最终使用的数据集。数据预处理的过程一般开销比较大,

无论从工作量还是时间方面来讲。这一过程主要包括噪声数据的清洗,数据的相

关选择,以及数据属性的合成和数据集的合并,还有数据的法律规范化等等。在实际

应当过程之中还包括很多数据预处理有关处理方法及过程。

(4)建模

在经过数据预处理得到使用数据之后,就要依据数据的特点及应用的性质建立

合适的模型算法以及给相关算法设置参数值。在实际的应用中,同一个数据挖掘

业务可能候选的挖掘算法不止一种,但是每一种算法都会所要进行挖掘的数据有

肯定特殊的要求,因此进行建模的时候要考虑上一步骤所得到的数据的特点来选

用适当的聚类分析算法。有时候也会回溯到上一步骤重新进行数据的预处理,进

而得到适合目标算法的数据。

(5)评估

在完成了建模之后就要对所得的模型结果进行评估。由于应用类型的不一样使

得评估的详细方法也有差别,通常可以针对小型市场进行调研,进而验证明际数

据。假如此步骤的评价结果不符合要求,就要回到建模步骤,甚至重新开头以上

的全部步骤。假如结果抱负就可以连续下一步了。

(6)部署

一般状况下完成了模型的挖掘并不代表挖掘任务的完成,而是会进一步把结果

应用到实际的业务之中,然后依据实际反馈回来的应用结果,来验证模型的质量

以及绽开进一步改进的工作。4

其次章据挖掘常用技术

2.1数据挖掘基础学问

通过数据挖掘可得到多种学问,而这些学问最终可以应用到多个方面,包括给

相关组织和个人供应决策支持。在一般状况下用户并不了解大量的数据中隐藏了

哪些有意义有价值的信息,所以,对数据挖掘系统来说,应当同时能够搜寻发觉

多种形式的信息学问,进而满足用户的实际要求和期望。

数据挖掘(DataMining,或称DM)是将隐蔽在海量数据中的有意义有价值的

规律的发掘出来的过程。又称为数据库中的学问发觉(KnowledgeDiscoveryfrom

Database,简称KDD)

[2]

•其主要有三个特点.(1)海量数据。(2)未知的有价值

的规律。数据挖掘所发觉的规律,应当是有用的并且不应当是显而易见的,应当

是对不同的任务来说有意义的、隐蔽的规律。(3)数据挖掘是一个过程。他需要

数据理解、业务理解、数据预备、评估、建模、部署等一系列步骤,数据挖掘人

员的业务力量和分析力量对胜利有重要的影响

[1]

2.1.1数据挖掘主要任务

数据挖掘的主要有任务有两点:描述型和分类猜测型的任务

[3]

O

描述型的任务是指通过数据库数据的自身内部联系,从而得到数据库中数据关

系或者数据库的概要描述。

分类猜测型的任务是指通过现有的已经知道的分类的数据学习模型以及类的

标签的区分,称作为猜测型和分类型。

2.1.2数据挖掘的过程

数据挖掘不是一个公式也不是一个机器只需把数据输入就会得到预期的结果。

数据挖掘是包含了很多步骤的一个简单过程,其各个步骤之间需要不断的重复已

达到精确的结果。通常来讲,数据挖掘的主要过程分为业务理解,数据理解,数

据预处理,建立模型,结果评估,部署等多个步骤。这些步骤彼此之间先后关系

也没有严格的定义,实际应当过程中很多步骤之间常常会不断重复。下面详细介电子科技高

校硕士学位论文

8

关联挖掘就是在海量的数据中快速找出各个数据对象之间潜在的有价值有意

义联系,也就是在大型的数据库中,快速找到各种事物之前潜在的有价值有意义

的联系,并且用肯定的规章表现出来,通过推理、积累形成学问之后,得出特别

重要的相关联的结论,进而给当前的市场管理者供应决策依据。例如:沃尔玛进

行的有关“牛奶与尿不湿”的关联结果。由于在实际生活应用中有很多关联挖掘

胜利的范例,以及关联挖掘特别好的有用性,使得目前有关关联挖掘的应用和研

究成为一个讨论特别深化和特别活跃的讨论领域,目前,已经讨论出了很多关联

挖掘的算法并且新的算法也在不断的消失,并且实际应用的领域也在不断扩大。

(6)聚类分析

聚类分析(clusteringanalysis)是一种将数据集依据某种指导思想划分为相应

很多群组(class)或者簇(cluster)的过程。而这种划分的思想原则就是要使得聚

类的结果满足,相同簇内的数据对象差距尽量的小,不同簇中的处理对象差距尽

量的大。而这种数据对象之间的差距,是由数据自身的属性所打算的。一般就是

采用(各对象之间)某种距离来进行定义的。聚类分析的目的在于依据数据的几

种属性把数据划分成相像对象的几个集合。在包括数据预处理等数据挖掘之中的

很多方法技术中都会用到聚类分析技术,针对不同数据的特点,对那些数据结构

简洁或者与运量分析只有单一属性或者较少属性关联的数据可以在数据清理等预

处理之后直接整合进入数据仓库,而对于一些简单结构的多维数据则可采用聚类

分析之方法将其数据聚集后构造出规律库,把简单结构的数据标准化,为一些数

据挖掘方法(例如关联挖掘,粗糙集方法,分类等)供应预处理。目前在包括统

计学,数据挖掘,模糊数学以及计算机领域的很多方向等都有不少关于聚类分析

算法的讨论和应用。

2.2聚类分析方法概述

最近几年由于计算机相关技术的快速进展,使得数据挖掘以及相关的聚类分析

技术迅猛进展,并成为目前活跃的讨论方向,吸引了越来越多的专家学者投入到

这一领域的讨论行列之中。目前已经讨论开发出来很多高效的聚类分析算法,并

且新的算法也在不断消失。

聚类分析是一种讨论怎么将讨论的数据对象(指标或者样品)依据多种特征采

取综合分类的多元统计方法。聚类之后所得到的数据对象的分组就叫做簇。正如

人们常说的“物以类聚”的道理一样,聚类就是一个尽可能将相像数据分到一组其次章数

据挖掘常用技术

9

的数据处理方法,并且通常不知道能分出几类。

聚类是在没有训练集条件下把目标对象划分为若干簇,采用预先设定的数据属

性将数据按相像程度聚集起来。聚类的最终结果包括聚类簇的数目(不包括特殊

算法)事先是不知的。一般通过数据对象自身的属性值来衡量数据对象之间的差

异性的,通常是依据数据对像之间的某种距离,而距离的计算方式依据数据变量

(即属性)类型的不同所不同,通常的变量类型有离散的变量、连续的变量,或

者有这些类型属性的共同组成的混合属性。

在数据挖掘很多过程中都会用到聚类分析算法,由于该技术既可以作为相关挖

掘方法的预处理,同时聚类技术自身也是一种数据挖掘方法。例如在数据预处理

过程中,对那些数据结构简单的多维数据可以采用聚类分析技术将数据聚集分簇

后构造出规律库,使得简单的数据标准化,同时可以采用聚类分析技术处理数据

中的噪音,为其他一些数据挖掘方法(如粗糙集方法、关联挖掘)供应预处理。

有时为了满足一些数据挖掘算法的需求,需要离散化一些连续的数据,使得决策

属性值和条件属性值法律规范化、简约化,此时也需要对数据进行聚类处理。

2.2.1聚类分析对算法性能的要求

聚类分析算法的讨论很具有挑战性,但又以其自身广泛的应用性得到很多人认

可,使得聚类分析技术的应用领域不断向前拓宽以及讨论不断向前深化,随着聚

类算法的讨论和应用的深化,也总结出了聚类算法的很多一般要求,以下简要叙

述一些典型的要求

[5]

O

(1)可伸缩性。很多聚类分析算法在小规模数据处理方面会得到很好的效果,

但是实际应当过程中所产生的数据库中的数据对象往往是巨大的,这就要求聚类

分析算法拥有良好的伸缩性,进而可以应对大型的数据。需要指出的是当算法的

伸缩性不强或者仅适合小规模的数据处理时,采纳抽样方法来对大型数据进行处

理有时并不能得到较好的处理结果,由于通常会得到歪曲的结果。

(2)可以处理不同字段。算法要能够处理多种字段,包括数值型,离散型,

二值型,挨次型以及符号性和多种类型数据的混合型。

(3)能够处理任意外形的数据集合。很多算法的相像性都是用某种距离来定

义的。这一类算法的不足点在于针对那些大小相像并且密度接近球型或者圆形的

簇比较高效,而其他类型的数据时聚类效果就没有达到令人满足的地步。但是在

实际应用的数据库之中,其数据类型是很简单的,并且分布也可以是任意外形的。电子科技

高校硕士学位论文

12

在确定了数据集中聚类簇的预期数目k之后,该数字用来指定数据集中的k个

种子点。并将各个种子点用作聚类的质心。数目k的确定既可以是主观的选择也

可以是采用其它聚类技术得到的一个数。选好初始种子点之后,每个簇中没有其

它的数据对象。下一步就是通过循环将剩余的点放到离种子点最近的簇之中去。

有很多衡量聚类的方法,在此欧氏距离是一种比较常见的衡量数据点之间的距离

的方法。然后就是簇心点重新计算,进而再一次对全部点进行所属簇的计算与划

分。由于簇的中心点的移动(每次重新计算簇的中心点都有可能会转变中心点的

位置直至中心点不变或者目标函数达到收敛为止)使得一些原本不在该簇的数据

被划分到簇中,那么此次聚类过程就可以视为上一次聚类结果的校正使得更接近

新的质心的点重新得以划分到更合理的簇中。通过一些数据点的重新划分使得质

心也可以进行更新升级。上述质心更新的过程始终迭代,直至质心没有明显变化

结束。下图是k-means算法基本过程示意图。在这一讨论当中,分散的思想给了

我们一个推断聚类数目的方法。除了使用分散的方法来确定适当聚类数目之外也

用统计调查的方法来衡量确定是否选择了合适的聚类数目。

图2-4k-means算法思想描述

初始聚类1初始聚类2

初始种子

1

初始种子

2

重新计算质心之后,确定新在质心点(红色

标记)

最终聚类结

最终聚类1最终聚类2其次章数据挖掘常用技术

II

图2-3clusteranalysis算法分类

(1)基于划分的算法

划分算法的思想是,将给定待挖掘数据集中的数据对象划分成K组(kWN,N

代表数据集中对象数目),每一组表示一个聚类的簇。并且要满足任何一个数据对

象仅可以属于一个聚类,每个聚类中至少具有一个数据对象。此算法通常要求算

法开头之前,给定参数K以打算聚类后的聚类的个数。算法依据参数k建立一个

初始的分组,以后算法反复运用迭代重定位技术将数据对象在各个簇中重新安排,

进而得到最终的相对满足的聚类结果。簇内部数据对象之间差距尽量小,簇之间

数据对象差距尽量大才称得上是一个好的聚类分析算法。K-medoids和K-means算

法是划分算法中两个比较经典的算法。其他很多划分算法都是从这两个算法演化

改进而来的。

K-means(K均值)算法接受一个参数K用以打算结果中簇的数目。算法开头

时,要在数据集中随机选择K个数据对象用来当做k个簇的初始中心,而将剩下

的各个数据对象就依据他们和每个聚类簇心的距离选择簇心最近的簇安排到其中。

然后重新计算各个聚类簇中的全部数据对象的平均值,并将得到的结果作为新的

簇心;逐步重复上述的过程直至目标函数收敛为止。通常都是使用均方差函数作

为目标函数,公式如下:

J=££|D-m

10

因此要求聚类算法也具备能够发觉任意外形的簇的力量。

(4)尽量降低用户输入的参数的数目。有一些聚类分析算法,在实际应用过

程中需要使用者给出一些参数,例如,密度阀值等。由于这些参数直接打算了聚

类分析的结果,使得聚类分析与输入的参数亲密相关,而参数的确定又是一件非

常不简洁的事情。特殊是涉及到一些高维数据时参数更加难以确定,这样不仅对

用户造成了肯定的负担而且也使得结果难以预定。因此,一个好的聚类算法应当

尽量的削减由使用者打算的参数。

(5)抗噪声的力量。现实数据库中的数据几乎都或多或少的含有肯定的量的

噪声。一些算法对噪声特别敏感,这就可能导致得不到预期的效果,甚至消失错

误的聚类结果。所以,要求聚类分析算法要具备反抗肯定的噪声的力量。

(6)聚类的最终结果要对数据对象输入的先后挨次不敏感。有些聚类算法对

数据纪录的输入挨次特别敏感,即对同一组纪录采纳不同的挨次输入交给同一个

聚类算法进行处理,得出的结果可能相差特别大。因而,要求聚类分析算法要对

数据输入的先后挨次不敏感。

(7)能处理高维数据的。目前,绝大部分的聚类算法在应对低维数据时会有

特别好的效果。但是现实中的数据库由于数据对象具有很多属性即数据对像多数

都是高维的,并且在数据处理阶段也可能会合成一些高维数据,而高维数据的处

理与低维数据处理方法是有很的大不同,这就使得很多聚类算法难以得到满足的

聚类结果。目前,在高维数据进行聚类的讨论并没有向低维空间讨论的那么深化,

高维空间聚类其难度特别巨大的,要考虑多种因素。

(8)能满足肯定的约束限制。实际应用中常常会对聚类的数据添

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论