《数据挖掘技术》第1章-数据挖掘综述(课件)_第1页
《数据挖掘技术》第1章-数据挖掘综述(课件)_第2页
《数据挖掘技术》第1章-数据挖掘综述(课件)_第3页
《数据挖掘技术》第1章-数据挖掘综述(课件)_第4页
《数据挖掘技术》第1章-数据挖掘综述(课件)_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章数据挖掘综述

1.1数据挖掘的研究历史和现状1.2数据挖掘定义1.3数据挖掘研究内容1.4数据挖掘系统工作原理第1章数据挖掘综述1.1数据挖掘的研究历史和现状

数据挖掘演变的过程电子数据处理的初期,人们试图通过某些方法来实现自动决策支持,机器学习成为人们关心的焦点。

神经网络技术形成和开展,人们将注意力转向知识工程,直接给计算机输入已被代码化的规那么。80年代人们在新的神经网络理论指导下,又回到机器学习方法上,并将其成果应用于处理大型商业数据库。随着数据库技术的开展及数据库管理系统的广泛应用,数据挖掘概念从商业角度被开发出来。第1章数据挖掘综述进化阶段时间段技术支持生产厂家产品特点数据搜集60年代计算机,磁带等IBM,CDC提供静态历史数据数据访问80年代关系数据库,结构化查询语言SQLOracleSybase,Informix,IBM,Microsoft在纪录中动态历史数据信息数据仓库90年代联机分析处理,多维数据库Pilot,Comshare,Arbor,Cognos,Microstrategy在各层次提供回溯的动态的历史数据数据挖掘正在流行高级算法,多处理系统,海量算法Pilot,Lockheed,IBM,SGI,其他初创公司可提供预测性信息

数据进化的阶段表1-1数据进化的四个阶段第1章

数据挖掘综述发现知识〔KDD〕1989年举行的第十一届国际联合人工智能学术会议上首次出现知识〔KDD〕一词。目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开8次,研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。与国外相比,国内对DMKD的研究稍晚,尚未形成整体力量。1993年国家自然科学基金首次支持该领域的研究工程。目前,国内的许多科研单位和高等院校竞相开展知识发现的根底理论及其应用研究。第1章数据挖掘综述1.2数据挖掘定义

1.2.1技术角度的定义数据挖掘〔DataMining〕就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

第1章数据挖掘综述

其中何谓知识?从广义上理解,数据、信息也是知识的表现形式,但是人们把概念、规那么、模式、规律和约束等看作知识,原始数据可以是结构化的、半结构化的,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的、非数学的、演绎的、归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制以及数据自身的维护。这里所说的知识发现,是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。第1章数据挖掘综述商业角度的定义

数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘是一类深层次的数据分析方法。现在,由于各行业业务自动化的实现,商业领域由于纯时机的〔Opportunistic〕商业运作而产生大量的业务数据,经过深层分析,获得有利于商业运作、有竞争力的信息。数据挖掘可以描述为:一种按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证的规律性,并进一步将其模型化的先进有效的方法。第1章数据挖掘综述1.2.3数据挖掘与传统分析方法的区别

数据挖掘与传统的数据分析的本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。第1章数据挖掘综述1.2.4数据挖掘和数据仓库

大局部情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中〔见图1-1〕。图1-1数据挖掘从数据库中得出

如果数据在导入数据仓库时已经清理过,很可能在做数据挖掘时就没必要再清理一次,而且所有的数据不一致的问题都已经被解决了。第1章数据挖掘综述

数据仓库建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程。图1-2数据挖掘从事物数据库中得出

第1章数据挖掘综述1.2.5数据挖掘和在线分析处理〔OLAP〕

OLAP是决策支持领域的一局部。OLAP分析是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论,本质是演绎推理的过程。

数据挖掘和OLAP具有一定的互补性。第1章数据挖掘综述1.2.6数据挖掘、机器学习和统计

数据挖掘利用了人工智能〔AI〕和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。数据挖掘不是为了替代传统的统计分析技术,而是统计分析方法学的延伸和扩展。一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,几乎不用人的照顾自动就能完成许多有价值的功能。

第1章数据挖掘综述1.2.7软硬件开展对数据挖掘的影响计算机性能价格比的巨大进步使数据挖掘这件事情成为可能的关键。基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利

第1章数据挖掘综述1.3数据挖掘研究内容

根底理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。第1章数据挖掘综述数据挖掘所发现的知识

1.广义知识〔Generalization〕广义知识指类别特征的概括性描述知识。2.关联知识〔Association〕它反映一个事件和其他事件之间依赖或关联的知识。3.分类知识〔Classification&Clustering〕

它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。4.预测型知识〔Prediction〕它根据时间序列型数据,由历史的和当前的数据去推测未来的数据。5.偏差型知识〔Deviation〕它是对差异和极端特例的描述,用来揭示事物偏离常规的异常现象。第1章数据挖掘综述数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。目标是从数据库中发现隐含的、有意义的知识。

数据挖掘主要有以下5类功能:自动预测趋势和行为关联分析聚类分析概念描述偏差检测第1章数据挖掘综述数据挖掘常用技术

人工神经网络神经网络常用于两类问题:分类和回归。在结构上,可以把一个神经网络划分为输入层、输出层和隐含层

图1-3一个神经网络输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层〔对神经网络使用者来说不可见〕,隐含层的层数和每层节点的个数决定了神经网络的复杂度。第1章数据挖掘综述

除输入层的节点外,神经网络的每个节点都与它前面的很多节点〔称为此节点的输入节点〕连接在一起,每个连接对应一个权重Wxy,此节点的值由通过它的所有输入节点的值与对应连接权重乘积的和作为一个函数的输入得到。图1-4带权重Wxy的神经元网络第1章数据挖掘综述人工神经网络如图1-4中节点4输出到节点6的值可通过下式计算得到神经网络设计决定神经网络拓扑结构〔或体系结构〕的是隐含层及其所含节点的个数,以及节点之间的连接方式。最常用的是前向传播式神经网络用前向传播得到输出值,如果发生错误,那么用回馈法进行学习。当把训练集中的每一条记录都运行过一遍之后,我们称完成一个训练周期。要完成神经网络的训练可能需要很多个训练周期。训练完成之后得到的神经网络就是在通过训练集发现的模型,描述了训练集中响应变量受预测变量影响的变化规律。第1章数据挖掘综述训练过度的“模型”对训练集会有很高的准确率,而一旦离开训练集应用到其他数据,很可能准确度急剧下降。为了防止这种训练过度的情况,必须知道在什么时候要停止训练。图1-5中的曲线可以帮我们理解为什么利用测试集能防止训练过度的出现。在图1-5中可以看到训练集和测试集的错误率在一开始都随着训练周期的增加不断降低,而测试集的错误率在到达一个谷底后反而开始上升,这个开始上升的时刻就是应该停止训练的时刻。第1章数据挖掘综述人工神经网络第1章数据挖掘综述图1-5

神经网络在训练周期增加时准确度的变化人工神经网络使用神经网络时需要注意:神经网络很难解释,目前还没有能对神经网络做出显而易见解释的方法学。

神经网络会学习过度,在训练神经网络时一定要恰当的使用一些能严格衡量神经网络的方法,如前面提到的测试集方法和交叉验证法等。

除非问题非常简单,训练一个神经网络可能需要相当可观的时间才能完成。建立神经网络需要做的数据准备工作量很大。要想得到准确度高的模型必须认真的进行数据清洗、整理、转换、选择等工作。

第1章数据挖掘综述支持向量机以严格的统计学理论为根底,可以不依赖于设计者的经验。它与神经网络的学习方法相比,具有以下特点:支持向量机是基于结构风险最小化(SRM)原那么,保证学习机器具有良好的泛化能力。解决了算法复杂度与输入向量密切相关的问题。通过引用核函数,将输入空间中的非线性问题映射到高维特征空间中在高维空间中构造线性函数判别支持向量机第1章数据挖掘综述支持向量机的特点

支持向量机以统计学理论为根底,主要针对小样本情况,且最优解是基于有限的样本信息,而不是样本数趋于无穷大时的最优解。算法可最终转化为凸优化问题,因而可保证算法的全局最优性,防止了神经网络无法解决的局部最小问题。支持向量机有严格的理论和数学根底,防止了神经网络实现中的经验成分。第1章数据挖掘综述决策树

决策树提供了一种展示类似在什么条件下会得到什么值这类规那么的方法比方,在贷款申请中,如何对申请的风险大小做出判断?图1-6是为了解决这个问题而建立的一棵决策树,从中可以看到决策树的根本组成局部:决策节点、分支和叶子。决策树的每个节点子节点的个数与决策树在用的算法有关。

决策树每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子节点的树称为多叉树。

第1章数据挖掘综述本例中根节点是“收入>¥40,000”,对此问题的不同答复产了了“是”和“否”两个分支。

第1章数据挖掘综述图1-6

一棵简单的决策树决策树假设负责借贷的银行官员利用上面这棵决策树来决定支持哪些贷款和拒绝哪些贷款,他可以:用贷款申请表来运行这棵决策树,判断风险的大小。“年收入>¥40,00”和“高负债”的用户被认为是“高风险”;“收入<¥40,000”但“工作时间>5年”的申请,那么被认为“低风险”而建议贷款给他/她。

决策树第1章数据挖掘综述

数据挖掘中决策树是一种经常要用到的技术,可用于分析数据,同样也可用来作预测。常用的算法有CHAID、CART、Quest和C5.0。

BACON发现行星的运转周期随着距太阳的距离增加而增加,为求出它们之间的比例关系,它便分别构成,,等数据项,并进行检查。结果发现:

在这种知识发现方法中,关键是新数据项如何产生,BACON系统提供了新数据项的产生方法。第1章数据挖掘综述决策树知识发现方法

1.数据驱动知识发现方法

例如要发现开普勒定律,即行星绕太阳转动的周期与其相距太阳的距离之间存在常数。训练数据如表1-2的前4列所示。

表1-2开普勒定律的训练实例实例行星pdI1水星111.01.0

1I2金星840.52.0

1I3地球2790.333.0

1第1章数据挖掘综述2.数据关系的抽取

典型的关系抽取方法有以下4种:依赖关系分析分类概念描述偏差检测第1章数据挖掘综述知识发现方法粗糙集方法1.信息的不确定性和模糊性〔1〕数据动态变化。〔2〕噪声。〔3〕数据不完整。〔4〕冗余信息。〔5〕数据稀疏。第1章数据挖掘综述

第1章数据挖掘综述2.粗糙集的定义

粗糙集〔rough

set〕理论是由Pawlak于1982年提出的,是处理上述信息的不确定性和模糊性的有力工具。下面结合关系数据库中的实例来介绍粗糙集的概念。

在关系数据库系统中,信息系统模型用二维表格表示,如表1-3所示。粗糙集理论粗糙集理论

记录(Record)属性(Attribute)a1(姓名)a2(性别)A3(年龄)A4(出生地)R1张三男20北京R2李四女

21上海R3王五男

20北京R4赵六女

23广州R5刘七男

19重庆第1章数据挖掘综述表1-3

关系数据库实例

对于以上信息系统,也可以用集合论的方法表示即用一个二元式S=(U,A)来表示,U为记录集合,U={R1,R2,..R5};A为属性的集合,A=(a1,a2,a3,a4)。

在这个信息系统中,只看某些属性,一些记录〔个体〕是无法区分的,即不同的个体在被考虑的属性集上有相同的值

例如,只考虑属性集(a1,a2,a3),那么U中的个体和是无法区分的。因此,中的任何一个属性子集都可对进行分类。

第1章数据挖掘综述

粗糙集理论【定义1.1】在信息系统中,对于一个属性子集,定义二元关系为不清楚关系〔或称等价关系〕。即如果元素和属于集合,并且如果只考虑属性集,和无法区分,那么与的这种关系可以表示为,称个体与在中的属性上具有等价关系。【定义1.2】设有信息系统,是的子集,是的子集,是上的等价关系,〔其中〕是按等价关系得到的包含的等价类,称为-根本集。用属性集对进行划分,即获得的是一个等价类集。第1章数据挖掘综述

粗糙集理论将子集

的下近似集

和上近似集

分别定义如下:

由定义1.2可知,是所有元素都都包含在中的,上关于的等价类的联合;而是有元素包含在

中的。显然关于上的近似集中的元素数,大于或等于

关于的下近似集中的元素数。

第1章数据挖掘综述粗糙集理论以表1-3所示的信息系统为例令那么粗糙集理论第1章数据挖掘综述【定义1.3】关于的边界区域为如果,那么称集合为上可定义集合;否那么,称为上不可定义集合,或称粗糙集。3.模糊性与不确定性的表示粗糙集理论提供了处理模糊性和不确定性的工具。根据这一理论,可以考察某一概念〔论域中的子集〕在一个近似空间〔属性子集〕中的模糊性。第1章数据挖掘综述粗糙集理论【定义1.4】模糊性系数即等于中的元素数与中的元素数之比。显然,是一个[01]区间的数值当,即为1时,概念是清晰的;越小,概念越模糊。粗糙集理论第1章数据挖掘综述如在表1-3的例子中,个体的任意一个子集关于性别这个属性来说概念上可能是模糊的,如集合而这种论域子集关于属性子集的概念上的模糊性可以通过定义1.4来计算。在粗糙集理论中,元素隶属于粗糙集的程度用隶属度函数来描述。如果元素在中,其隶属度函数值为;如果在边界区域,为;如果不在中,为。

第1章数据挖掘综述粗糙集理论4.应用由于粗糙集理论能够描述数据库中的模糊性和不确定性问题,因此为数据采掘和知识发现提供了有效的工具。这种理论在信息系统中属性依赖关系的开掘,冗余的消除以及概念的获取中具有很大的应用价值。粗糙集理论第1章数据挖掘综述

模糊集方法:利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。近邻算法:将数据集合中每个记录进行分类的方法。规那么推导:从统计意义上对数据中的“如果-那么”规那么进行寻找和推导.0覆盖正例排斥反例方法:利用覆盖所有正例、排斥所有反例的思想来寻找规那么。1统计分析方法:利用统计学原理对数据库中的信息进行分析。第1章数据挖掘综述粗糙集理论数据挖掘中的数据仓库

数据仓库与数据采掘之间有非常密切的关系。将数据采掘扩充到它的数据仓库系统环境中,可以增强用户的决策支持能力。用户从数据仓库中采掘信息时的方式:验证驱动数据采掘:较低层次上的由用户制导的被动方式。验证型采掘的策略是,用户首先提出自己的假设,然后利用各种工具通过递归的检索查询以验证或否认自己的假设。发现驱动数据采掘:高层次上的主动式自动发现方法。发现型的采掘策略是,机器自动地从大量数据中发现未知的、有用的模式。第1章数据挖掘综述数据仓库的定义

对于数据仓库的概念可以从两个层次予以理解:数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

第1章数据挖掘综述数据仓库的特点〔1〕面向主题〔2〕集成的〔3〕相对稳定的〔4〕反映历史变化企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为根底。把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。第1章数据挖掘综述

图1-7数据仓库系统体系结构第1章数据挖掘综述数据仓库系统体系结构如上图1-7所示,整个数据仓库系统是包含四个层次的体系结构:〔1〕数据源〔2〕数据的存储与管理〔3〕OLAP效劳器〔4〕前端工具第1章数据挖掘综述数据仓库系统建立高效数据仓库的关键问题

〔1〕逐步建立、及时应用〔2〕注重易用性和可管理性〔3〕发挥工具的作用〔4〕高度的伸缩性〔5〕开放的运行平台〔6〕存储管理问题第1章数据挖掘综述

1.4数据挖掘系统工作原理

1.4.1数据挖掘系统结构

图1-8数据挖掘与其他学科的关系第1章数据挖掘综述第1章数据挖掘综述数据挖掘是指从大量数据中提取或“挖掘”知识。该术语实际上有点用词不当。注意,从矿石或砂子挖掘黄金称作黄金挖掘,而不是砂石挖掘。因此,数据挖掘应当更正确地命名为“从数据中挖掘知识”,遗憾的是这个词有点长。“知识挖掘”是一个较短的术语,但不能反映从大量数据中挖掘。毕竟,挖掘是一个很生动的术语,它抓住了从大量的、未加工的材料中发现少量珍贵金块这一过程的特点,如图1-9所示。数据挖掘系统图1-9数据挖掘:在数据中搜索知识〔有趣的模式〕第1章数据挖掘综述数据挖掘系统还有一些术语具有和数据挖掘类似但稍微不同的含义,如从数据中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。许多人把数据挖掘视为另一个常用的术语数据中的知识发现或KDD的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个根本步骤。知识发现过程如图1-10所示。第1章数据挖掘综述数据挖掘系统图1-10数据挖掘作为知识发现过程的一个步骤第1章数据挖掘综述数据挖掘系统知识发现过程步骤1数据清理〔消除噪声和不一致数据〕。2数据集成〔多种数据源可以组合在一起〕。3数据选择〔从数据库中提取与分析任务相关的数据〕。4数据变换〔数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作〕。5数据挖掘〔根本步骤,使用智能方法提取数据模式)。6模式评估〔根据某种兴趣度度量,识别表示知识的真正有趣的模式)。7知识表示〔使用可视化和知识表示技术,向用户提供挖掘的知识)。第1章数据挖掘综述步骤〔1〕~〔4〕是数据预处理的不同形式,为挖掘准备数据。数据挖掘步骤可能与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放在知识库中。注意,根据这种观点,数据挖掘只是整个过程中的一个步骤,尽管是最重要的步骤,因为它发现用来评估的隐藏的模式。第1章数据挖掘综述数据挖掘系统注意,数据挖掘只是整个过程中的一个步骤,尽管是最重要的步骤,因为它发现用来评估的隐藏的模式。本书选用数据挖掘功能的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程。基于这种观点,典型的数据挖掘系统具有以下主要成分,如图1-11所示。

第1章数据挖掘综述数据挖掘系统图1-11典型数据挖掘系统的结构第1章数据挖掘综述数据挖掘系统典型的数据挖掘系统主要成分:〔1〕数据库、数据仓库、万维网或其他信息库。〔2〕知识库。〔3〕数据挖掘引擎。〔4〕模式评估模块。〔5〕用户界面。

第1章数据挖掘综述1.4.2数据挖掘流程1.数据挖掘环境数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识。数据挖掘环境如图1-12所示。图1-12数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论