数据挖掘原理与算法01改资料_第1页
数据挖掘原理与算法01改资料_第2页
数据挖掘原理与算法01改资料_第3页
数据挖掘原理与算法01改资料_第4页
数据挖掘原理与算法01改资料_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、27 七月 20221第一章 绪论(xln) 内容提要数据挖掘技术的产生与发展 数据挖掘研究的发展趋势数据挖掘概念数据挖掘技术的分类问题数据挖掘常用的知识表示模式与方法不同数据存储形式下的数据挖掘问题 粗糙集方法及其在数据挖掘中的应用 数据挖掘的应用分析 共四十九页27 七月 20222从商业(shngy)角度看数据挖掘技术 数据挖掘从本质上说是一种新的商业信息处理技术:数据挖掘技术把人们对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。通过对数据的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导高级商务活动。

2、从决策、分析和预测等高级商业目的看,原始数据只是未被开采的矿山,需要挖掘和提炼才能获得对商业目的有用的规律性知识。从商业角度看,数据挖掘就是按企业的既定业务目标,对大量的企业数据进行深层次分析以揭示隐藏的、未知的规律性并将其模型化,从而支持商业决策活动。共四十九页27 七月 20223数据挖掘的技术(jsh)含义 谈到数据挖掘,必须提到另一个名词:数据库中的“知识发现”(Knowledge Discovery in Database,KDD).数据库中的知识发现(KDD: Knowledge Discovery in Databases)是比数据挖掘出现更早的一个名词。 关于KDD与DM (D

3、ata Mining)的关系,有许多不同的看法。我们可以从这些不同的观点中了解数据挖掘的技术含义。 共四十九页27 七月 20224数据挖掘的技术(jsh)含义 KDD与Data Mining的关系,有不同的看法:KDD看成数据挖掘的一个特例:既然数据挖掘可以在关系型数据库、事物数据库、数据仓库、空间数据库文本数据库以及Web等多种数据组织形式中挖掘知识,那么数据库中的知识发现只是数据挖掘的一个方面。这是早期比较流行的观点,这种描述强调了数据挖掘在源数据形式上的多样性。数据挖掘是KDD的一个关键步骤:这种观点得到大多数学者认同,有它的合理性。KDD与Data Mining含义相同:事实上,在现

4、今的许多场合,如技术综述等,这两个术语仍然不加区分地使用着。也有其他的说法:KDD在人工智能界更流行,而Data Mining在数据库界使用更多。在研究领域被称作KDD,在工程领域则称之为数据挖掘。 共四十九页27 七月 20225数据挖掘定义(dngy)所以,数据挖掘定义有广义和狭义之分。从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。下列技术不是数据挖掘:OLTP Expert systems Statis

5、tical programs 共四十九页27 七月 20226数据挖掘研究的理论(lln)基础 数据挖掘方法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。研究者可能是来自于数据库、人工智能、数理统计、计算机科学以及其他方面的学者和工程技术人员,他们会从不同的视点进行探讨性研究。有下面一些重要的理论视点值得关注:模式发现(Pattern Discovery)架构规则发现(Rule Discovery)架构 基于概率和统计理论微观经济学观点(Microeconomic View)基于数据压缩(Data Compression)理论基于归纳数据库(Inductive Data

6、base)理论可视化数据挖掘(Visual Data Mining)等等 共四十九页27 七月 20227数据挖掘研究(ynji)的理论基础 模式发现(Pattern Discovery)架构 在这种理论框架下,数据挖掘技术被认为是从源数据集中发现知识模式的过程。我们可以针对不同的知识模式的发现过程进行研究。目前,在关联规则、分类/聚类模型、序列模式及决策树归纳等模式发现的技术与方法上取得了丰硕的成果。规则发现(Rule Discovery)架构 Agrawal等学者综合机器学院与数据库技术,把分类、关联及序列作为一个统一的规则发现问题来处理。他们给出了统一的挖掘模型和规则发现过程中的几个基本

7、运算,解决了数据挖掘问题如何映射到模型和通过基本运算发现规则的问题。共四十九页27 七月 20228数据挖掘研究(ynji)的理论基础 基于概率和统计理论 在这种理论框架下,数据挖掘技术被看作是从大量源数据集中发现随机变量的概率分布情况的过程。如贝叶斯置信网络模型。目前这种方法在分类和聚类研究和应用中取得了很好的成果。微观经济学观点(Microeconomic View) 在这种理论框架下,数据挖掘技术被看作是一个问题的优化过程。1998年,Kleinberg等人建立了在微观经济学框架里判断模式价值的理论体系。共四十九页27 七月 20229数据挖掘研究(ynji)的理论基础 基于数据压缩(D

8、ata Compression)理论 在这种理论框架下,数据挖掘技术被看作是对数据的压缩过程。按这种观点,管理规则、决策树、聚类等算法实际上都是对大型数据集不断概念化或抽象的压缩过程。基于归纳数据库(Inductive Database)理论 在这种理论框架下,数据挖掘技术被看作是对数据库的归纳问题。一个数据挖掘系统必须有原始数据库和模式库,数据挖掘的过程就是归纳的数据查询过程。可视化数据挖掘(Visual Data Mining)等等 共四十九页27 七月 202210数据挖掘研究的理论(lln)基础 基于数据压缩(Data Compression)理论基于归纳数据库(Inductive D

9、atabase)理论可视化数据挖掘(Visual Data Mining)等等 共四十九页27 七月 202211第一章 绪论(xln) 内容提要数据挖掘技术的产生与发展 数据挖掘研究的发展趋势 数据挖掘概念 数据挖掘技术的分类问题数据挖掘常用的知识表示模式与方法不同数据存储形式下的数据挖掘问题 粗糙集方法及其在数据挖掘中的应用 数据挖掘的应用分析 共四十九页27 七月 202212根据挖掘(wju)任务分类或预测模型发现数据总结与聚类发现关联规则发现序列模式发现相似模式发现混沌模式发现依赖关系或依赖模型发现异常和趋势发现等共四十九页27 七月 202213根据挖掘(wju)对象关系数据库挖掘

10、面向对象数据库挖掘空间数据库挖掘时态数据库挖掘文本数据源挖掘多媒体数据库挖掘异质数据库挖掘遗产数据库挖掘web数据挖掘等共四十九页27 七月 202214根据挖掘(wju)方法机器学习方法统计方法聚类分析方法神经网络(Neural Network)方法遗传算法(Genetic Algorithm)方法数据库方法近似推理和不确定性推理方法基于证据理论和元模式的方法现代数学分析方法粗糙集(Rough Set)或模糊集方法集成方法等共四十九页27 七月 202215根据(gnj)知识类型挖掘广义型知识挖掘差异型知识挖掘关联型知识挖掘预测型知识挖掘偏离型(异常)知识挖掘不确定性知识等共四十九页27 七

11、月 202216第一章 绪论(xln) 内容提要数据挖掘技术的产生与发展 数据挖掘研究的发展趋势 数据挖掘概念 数据挖掘技术的分类问题数据挖掘常用的知识表示模式与方法不同数据存储形式下的数据挖掘问题 粗糙集方法及其在数据挖掘中的应用 数据挖掘的应用分析 共四十九页27 七月 202217知识(zh shi)表示模式分类数据挖掘的目的是发现知识,知识要通过一定的模式给出。通过对数据挖掘中知识表示模式及其所采用方法的分析,可以更清楚地了解数据挖掘系统的特点。主要知识模式类型有:广义知识(Generalization)关联知识(Association)类知识(Class/Cluster)预测型知识(

12、Prediction)特异型知识(Exception) 共四十九页27 七月 202218广义(gungy)知识挖掘 广义知识是指描述类别特征的概括性知识。这类数据挖掘系统是对细节数据所蕴涵的概念特征信息的概括和抽象的过程。主要方法有:概念描述(Concept Description)方法:概念描述本质上就是对某类对象的内涵特征进行概括:特征性(Characterization)描述:描述某类对象的共同特征。区别性(Discrimination)描述:描述不同类对象之间的区别。多维数据分析:可以看作是一种广义知识挖掘的特例多层次概念描述问题:由数据归纳出的概念是有层次的,不同层次的概念是对原始

13、数据的不同粒度上的概念抽象。例如,“北京工业大学”能归纳出“北京市”、“中国”、“亚洲”等层次。销售表SALES(ENO,ENAME,EAGE,VALUE,DEPT),它的每个属性的定义域都可能存在蕴涵于领域知识内的概念延伸。例如,DEPT能归纳出公司COMPANY、城市CITY或国家COUNTRY等层次概念分层(Concept Hierarchy)技术:将低层概念集映射到高层概念集的方法,下面看常用的处理多层次概念分层的方法。共四十九页27 七月 202219主要(zhyo)的概念分层方法 模式分层(Schema Hierarchy):利用属性在特定背景知识下的语义层次形成不同层次的模式关联

14、。例如,DEPT的模式分层结构可能是:DEPTCOMPANYCITYCOUNTRY。这种结构定义了一个属性由低层概念向高层概念的转化路径,为从源数据库中挖掘广义知识提供领域知识支撑。集合分组分层(Set-Grouping Hierarchy):将属性在特定背景知识下的取值范围合理分割,形成替代的离散值或区间集合。例如,年龄EAGE可以抽象成20,29,30,39,40,49,50,59或者青年,中年,老年 。操作导出分层(Operation-Drived Hierarchy):有些属性可能包含多类信息。例如,一个跨国公司的雇员号可能包含这个雇员所在的部门、城市、国家和雇佣的时间等。对这类对象可

15、以作为背景知识定义它的结构,通过编码解析等操作完成概念的抽象。基于规则分层(Rule-Based Hierarchy):通过定义背景知识的抽象规则,形成不同层次上的概念的抽象。共四十九页27 七月 202220关联知识(zh shi)挖掘 关联知识挖掘的目的就是找出数据库中隐藏的关联信息。关联知识反映一个事件和其他事件之间的依赖或关联。关联可分为简单关联、时序(Time Series)关联、因果关联、数量关联等。关联规则挖掘(Association Rule Mining)是关联知识发现的最常用方法:关联规则最著名的算法: Apriori算法。是数据挖掘研究中比较深入的分支,许多关联规则挖掘的

16、理论和算法已经被提出。共四十九页27 七月 202221类知识(zh shi)挖掘类知识(Class)刻画了一类事物,这类事物具有某种意义上的共同特征,并明显和不同类事物相区别。 有两个基本的方法来挖掘类知识:分类:分类是数据挖掘中的一个重要的目标和任务,是目前的研究和应用最多的分支之一。分类的目的是学会一个分类模型(称作分类器),该模型能把数据库中的数据项映射到给定类别中。分类技术是一种有指导的学习(Supervised Learning),即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。聚类:数据挖掘的目标之一是进行聚类分析。聚类是把一组个体按照相似

17、性归成若干类别,它的目的是使得属于同一类别的个体之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大。聚类属于无指导学习(Unsupervised Learning) ),当一组数据对象可以由一个概念(区别于其他的概念)来描述时,就形成一个簇(Cluster)。聚类分析生成的类标识刻画了数据所蕴涵的类知识。共四十九页27 七月 202222分类(fn li)中的基础方法决策树方法:基本的分类技术之一,如ID3及其改进算法ID4、ID5、C4.5、C5.0等;针对大训练样本集的SLIQ、SPRINT、雨林(Rainforest)、BOAT等算法。贝叶斯分类 :具有坚实的理论基础,理论上具有

18、较小的出错率。但是,它的适应性差。神经网络:作为一个相对独立的研究分支已经很早被提出,具有高度的抗干扰能力和可以对未训练数据进行分类等优点,因此产生了神经网络和数据挖掘技术的结合性研究。遗传算法:是基于进化理论的机器学习方法。类比学习 :最典型的方法是k-最临近分类(k-Nearest Neighbor Classification)方法,它属于懒散学习法。其他方法:如粗糙集(Rough Set)、模糊集(Fuzzy Set)方法等 。 共四十九页27 七月 202223主要(zhyo)聚类的技术基于划分的聚类方法:k-平均算法是统计学中的一个经典聚类方法,它以预先定义好的簇平均值,构造划分,

19、评价和选择他们。对噪声数据敏感。K-中心点算法如PAM和Clare算法克服了上述缺点。不适合处理大数据集。基于层次的聚类方法:通过对源数据库中的数据进行层次分解,达到目标簇的逐步生成。凝聚(Agglomeration):由小到大逐步合并、评价。分裂(Division)由大到小逐步分裂、评价。共四十九页27 七月 202224主要(zhyo)聚类的技术基于密度的聚类方法:基于密度的聚类方法是通过度量区域所包含的对象数目来形成最终目标。如1996年Ester等提出的DBSCAN。可以生成任意形状的簇可以很好的过滤孤立点数据对大型数据库和空间数据库的适应性较好但对设定参数的敏感性较高。基于网格的聚类

20、方法:对象空间离散化成有限的网格单元,聚类工作在这种网格结构上进行。如1997年Wang等提出的String方法。他把对象空间分成多个级别的矩形单元,高层的矩形单元是多个低层矩形单元的综合。每个矩形单元的网格收集对应层次的统计信息。速度快、支持并行处理、易于扩展。共四十九页27 七月 202225主要(zhyo)聚类的技术基于模型的聚类方法:每个簇假定一个模型,寻找数据对给定模型的最佳拟和。目前研究主要集中在利用概率统计模型进行概念聚类和利用神经网络技术进行自组织聚类等方面。仍然需要解决应用于大型数据库的问题。最近的研究倾向于利用多种技术的综合性聚类方法探索,以解决大型数据库或高维数据库等的聚

21、类挖掘问题。共四十九页27 七月 202226预测型知识(zh shi)挖掘预测型知识(Prediction)是指由历史的数据产生的并能推测未来数据趋势的知识。预测性挖掘主要是对未来数据的概念分类和趋势输出。分类技术可以用于产生预测型的类知识。统计学中的回归方法等可以通过历史数据直接产生对未来数据预测的连续值,因而这些预测型知识已经蕴藏在诸如趋势曲线等输出形式中。预测型知识的挖掘可以结合经典的统计方法、神经网络和机器学习等技术来研究。共四十九页27 七月 202227预测(yc)型知识挖掘中的典型方法 趋势预测模式:主要是针对那些具有时序(Time Series)属性的数据,如股票价格等,或者

22、是序列项目(Sequence Items)的数据,如年龄和薪水对照等,发现长期的趋势变化等。周期分析模式:主要是针对那些数据分布和时间的依赖性很强的数据进行周期模式的挖掘。例如,服装在某季节或所有季节的销售周期。序列模式:主要是针对历史事件发生次序的分析形成预测模式来对未来行为进行预测。例如,预测“三个月前购买计算机的客户有很大概率会买数字相机”。神经网络:在预测型知识挖掘中,神经网络也是很有用的模式结构。共四十九页27 七月 202228特异型知识(zh shi)挖掘 特异型知识(Exception)是源数据中所蕴涵的极端特例或明显区别于其他数据的知识描述,它揭示了事物偏离常规的异常规律。特

23、异知识挖掘的价值:例如,在Web站点发现那些区别于正常登录行为的用户特点可以防止非法入侵。金融、电信欺诈等可以和其他数据挖掘技术结合起来,在挖掘普通知识的同时进一步获得特异知识。如分类中的反常实例、不满足普通规则的特例、观测结果与模型预测值的偏差、数据聚类外的离群值等许多技术可以扩展到特异型知识挖掘中,如:孤立点(Outlier)分析:孤立点是指不符合数据的一般模型的数据。在类知识挖掘中,孤立点分析是不能归入正常类知识中的零散数据的再分析。异常序列分析:在一系列行为或事件对应的序列中发现明显不符合一般规律的特异型知识。特异规则发现:产生并评价虽然具有低支持度但可能很有价值的规则。 共四十九页2

24、7 七月 202229第一章 绪论(xln) 内容提要数据挖掘技术的产生与发展 数据挖掘研究的发展趋势 数据挖掘概念 数据挖掘技术的分类问题数据挖掘常用的知识表示模式与方法不同数据存储形式下的数据挖掘问题 粗糙集方法及其在数据挖掘中的应用 数据挖掘的应用分析 共四十九页27 七月 202230数据(shj)挖掘方法与数据(shj)存储类型数据挖掘技术应该应用到任何数据存储方式的知识挖掘中,但是因为源数据的存储类型的不同,挖掘的挑战性和技术会不同。近年来的研究表明数据挖掘所涉及的数据存储类型越来越丰富,除了一些有通用价值的模型、构架等研究外,也开展了一些针对复杂或新型数据存储方式下的挖掘技术或算

25、法的研究。主要的数据类型:事务数据库(Transactional Database )关系型数据库 (Related Database )数据仓库(Data Warehouse )在关系模型基础上发展的新型数据库 面向应用的新型数据源 Web数据 共四十九页27 七月 202231事务(shw)数据库中的数据挖掘一个事务数据库是对事务型数据的收集。1993年,当Agrawal等开始讨论数据挖掘问题时,是以购物篮分析(Market Basket Analysis)作为商业应用背景的。从事务数据库中发现知识是数据挖掘中研究较早但至今仍然很活跃的问题。通过特定的技术对事务数据库进行挖掘,可以获得动态

26、行为所蕴藏的关联规则、分类、聚类以及预测等知识模式。第三章将详细讲解共四十九页27 七月 202232关系(gun x)型数据库中的数据挖掘关系型数据库是由一系列数据表组成的,相当成熟:成熟的语义模型(像实体-联系模型);成熟的DBMS(像Oracle)成熟的查询语言(像SQL语言);可视化的辅助工具和优化软件。一些更深入和亟待解决的问题:多维知识挖掘: 传统的事务数据库挖掘所研究的知识一般是单维(Single-Demension)的,但是,在关系型数据库中,多维的知识更普遍和有应用价值。单维: “购买计算机的人也购买打印机”。多维: “什么样购买计算机的人也购买打印机的可能性更大?” 。多表

27、挖掘:关系型数据库是一系列表的集合。因此,多表挖掘是必然的。数量数据挖掘: 关系型数据库经常包含非离散数量属性(如工资)。多层知识挖掘:数据及其关联总是可在多个不同的概念层上来理解它。知识评价问题:对传统的数据挖掘框架的知识评价问题,也是关系型数据库中数据挖掘走向实际应用必须要解决的问题。约束数据挖掘问题:数据挖掘系统在用户的约束指导下进行,可以提高挖掘效率和准确度。共四十九页27 七月 202233数据仓库中的数据挖掘数据仓库中的数据是按着主题来组织的。存储的数据可以从历史的观点提供信息。虽然目前的一些数据仓库辅助工具可以帮助完成数据分析,但是发现蕴藏在数据内部的知识模式及其按知识工程方法来

28、完成高层次的工作仍需要数据挖掘技术支持。数据挖掘不仅伴随数据仓库而产生,而且随着应用深入产生了许多新的课题。如果我们把数据挖掘作为(zuwi)高级数据分析手段来看,那么它是伴随数据仓库技术提出并发展起来的。OLAP尽管在许多方面和数据挖掘是有区别的,但是它们在应用目标上有很大的重合度。数据挖掘更看中数据分析后所形成的知识表示模式,而OLAP更注重利用多维等高级数据模型实现数据的聚合。从某种意义上讲,我们可以把数据挖掘看作是OLAP的高级形式,与此更接近的名词可能算是OLAM(联机分析挖掘)。共四十九页27 七月 202234新型(xnxng)数据库中的数据挖掘 对象关系型数据库(Object-

29、Ralational Database)挖掘;面向对象数据库的挖掘;空间数据库的挖掘;时态数据库的挖掘;工程数据库(Engineering Database)的挖掘;多媒体数据库(Multimedia Database)的挖掘;等等 共四十九页27 七月 202235Web数据源中的数据挖掘随着Internet的广泛使用, Web这一巨大的海洋中蕴藏着极其丰富的有用信息。面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:异构数据源环境:Web网站上的信息是异构的: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。数

30、据的复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。动态变化的应用环境:Web的信息是频繁变化的,像新闻、股票等信息是实时(sh sh)更新的。这种高变化也体现在页面的动态链接和随机存取上。Web上的用户是难以预测的。Web上的数据环境是高噪音的。共四十九页27 七月 202236Web挖掘的研究主要(zhyo)流派 Web结构挖掘:挖掘Web上的链接结构。通过Web页面间的链接信息可以识别出权威页面(Autho

31、ritative Page)、安全隐患(非法链接)等。Web使用挖掘:对Web上的Log日志记录的挖掘Web上的Log日志记录了包括URL请求、IP地址以及时间等的访问信息。分析和发现Log日志中蕴藏的规律可以帮助我们识别潜在的客户、跟踪Web服务的质量以及侦探非法访问的隐患等。Web内容挖掘: Web的内容是丰富的,而且构成成分是复杂的(无结构的、半结构的等),对内容的分析是项重要而艰巨的工作。Web的内容主要是包含文本、声音、图片等的文档信息。文本挖掘(Text Mining)和Web搜索引擎(Search Engine)等相关领域的研究。多媒体信息挖掘技术。共四十九页27 七月 2022

32、37第一章 绪论(xln) 内容提要数据挖掘技术的产生与发展 数据挖掘研究的发展趋势 数据挖掘概念 数据挖掘技术的分类问题数据挖掘常用的知识表示模式与方法不同数据存储形式下的数据挖掘问题 粗糙集方法及其在数据挖掘中的应用 数据挖掘的应用分析 共四十九页27 七月 202238粗糙集理论(lln)简介粗糙集理论是一种研究不精确、不确定性知识的数学工具,由波兰科学家Z. Pawlak在1982年首先提出的。粗糙集一经提出就立刻引起数据挖掘研究人员的注意,并被广泛讨论。粗糙集的知识形成思想可以概括为:一种类别对应于一个概念,知识由概念组成。粗糙集对不精确概念的描述方法是通过下近似(Lower App

33、roximation)和上近似(Upper Approximation)概念来表示:一个概念(或集合)的下近似概念(或集合)中的元素肯定属于该概念(或集合)一个概念(或集合)的上近似概念(或集合)只是可能属于该概念。 共四十九页27 七月 202239信息系统 粗糙集把客观世界抽象为一个信息系统。一个信息系统是一个四元组,:U是对象(或事例)的有限集合,记为Ux1,x2,.,xn。A是属性的有限集合,记为AA1,A2,.Am。属性集A常常又划分为两个集合C和D,即ACD,CD,C表示条件属性集,D表示决策属性集。V是属性的值域集,记为VV1,V2,.,Vm,其中(qzhng)Vi是属性Ai的值

34、域;f是信息函数(Information Function),即:,f(xi,Aj)Vj。f(e,a)的值确定记录e关于属性a的取值。基于某个属性集A的所有等价记录的集合,被定义为等价类。属于同一等价类的记录称为基于属性集A的划分。共四十九页27 七月 202240近似(jn s)空间(Approximation Space)近似空间有一个二元组,()给出:U是对象(或事例)的有限集合,记为U x1,x2,.,xn ;B是A的属性子集,R(B)是U上的二元等价关系,即R(B) = (x1,x2)|f(x1,b)=f(x2,b),b B。R(B)也称无区别关系(Indiscernibility

35、Relation)。 R(B)把U划分为k个等价类R*(B) = X1,X2,.,Xk。即对任意的x1,x2Xi,有(x1,x2) R(B) ;对任意的x1Xi, x2Xj, ij,有(x1,x2) R(B) 。共四十九页27 七月 202241下近似(jn s)和上近似(jn s)定义对任意一个概念(或集合)O,B是U的一个子集,O的下近似定义为:其中xR(B)表示x在R(B)上的等价类。O的上近似定义为:设有两个属性集B1,B2,B1是B2的真子集,如果R(B1) = R(B2),则称B2可归约为B1。如果属性集B不可进一步归约,则称B是U的一个约简或归约子。共四十九页27 七月 2022

36、42粗糙集中的约简(yu jin)概念极小属性集:去掉任何一个属性,都将使得该属性集对应的规则覆盖反例,即导致规则与例子的不一致。极大属性集:向它加入任何一个不属于它的属性,则会使得该属性集对应的规则覆盖更少的正例。粗糙集中的约简是极小属性集,约简对应的规则为极小规则,极大属性集对应的规则为极大规则。挖掘的目标:获得的极小规则的尽可能简洁形式(即极小属性集尽可能的小)。基于极小规则和极大规则的概念,我们就可以实现极小规则和极大规则的生成。 共四十九页27 七月 202243粗糙集在KDD中的应用(yngyng)举例规则学习和决策表推导。在保证简化后的决策系统具有与原先系统一样的分类能力的前提条

37、件下,通过使用知识简约和范畴简约,将决策系统简化并且找到最小(最短)决策规则集合,以达到最大限度泛化的目的。知识简约。简约和相对简约在粗糙集中十分重要,它反应了一个决策系统的本质。通过对条件属性集合的简约,可以保证简化后的决策系统具有与原先系统一样的分类能力。属性相关分析。粗糙集方法中的属性重要程度可以用来衡量该属性对分类的影响程度,它与ID3中的信息增益类似,可以证明两者在一定条件下是等价的。进行数据预处理。粗糙集方法可以去掉多余属性,可提高发现效率,降低错误率等 共四十九页27 七月 202244第一章 绪论(xln) 内容提要数据挖掘技术的产生与发展 数据挖掘研究的发展趋势 数据挖掘概念 数据挖掘技术的分类问题数据挖掘常用的知识表示模式与方法不同数据存储形式下的数据挖掘问题 粗糙集方法及其在数据挖掘中的应用 数据挖掘的应用分析 共四十九页27 七月 202245数据挖掘技术(jsh)应用广泛数据挖掘技术从一开始就是面向应用的。由于现在各行业的业务操作都向着流程自动化的方向发展,企业内产生了大量的业务数据。数据挖掘技术应用很广,应用较好的领域有:金融保险业:Credit Scoring; Insurance Evaluation电信: Detecting telephone fraud零售(如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论