版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七章 概念描述7.1 概念描述基本知识7.2 数据概化与基于汇总的特征化7.3 解析特征化属性相关分析7.4 挖掘概念比较区分不同的类第七章概概念念描述(续)DB中存放大大量细节节性数据据,而用用户通常常希望以以简洁的的描述形形式观察察汇总的的数据集集。这种种描述可可提供某类数据据的概貌貌以及与其他数数据类的的区别。此外,用户希希望方便便灵活地地以不同同的粒度度和从不不同的角角度描述述数据集集。这种种描述性性数据挖挖掘称为为概念描描述,它它是数据据挖掘的的一个重重要部分分。7.1概念描述述基本知知识概念:通常指数数据的汇汇集。概念描述述:是描述式式数据挖挖掘最基基本形式式,它以以简洁汇汇总的
2、形形式描述述给定数数据集,提供数数据的有有趣的一一般特性性。7.1概念描述述基本知知识(续续)概念描述述的组成成:特征化:提供了了一个有有关数据据整体的的简洁清清晰描述述。(定定性描述述)比较:提供了了基于多多组不同同类数据据的对比比概念描描述。(对比定定性描述述)7.1概念描述述基本知知识(续续)概念描述述与数据概化化密切相关关。给定定存放在在DB中的大量量数据,能够以以简洁的的形式在在更一般般的抽象象层描述述数据是是很有用用的。允允许数据据集在多多个抽象象层概化化,便于于考察数数据的一一般行为为。这种多维,多层数据据概化类似于DW中的多维维数据分分析。而而概念描述述类似于DW的OLAP。7
3、.1概念描述述基本知知识(续续)大型数据据库的概概念描述述和数据据仓库的的OLAP有何差别别?概念描述述可处理理复杂的的数据类类型和聚聚集。概念描述述是自动动处理数数据挖掘掘过程。7.1概念描述述基本知知识(续续)概念描述述的方法法包括多层概化化、汇总总、特征征化和比比较。这些方法法形成实实现数据据挖掘的的两个主主要功能能模块的的基础:多层特征化和比较。第七章概概念念描述7.1概念描述述基本知知识7.2数据概化化与基于于汇总的的特征化化7.3解析特征征化属性相关关分析7.4挖掘概念念比较区分不同同的类7.2数据概化化与基于于汇总的的特征化数据概化化是一个个分析过过程,它它将DB中与任务务相关的
4、的大数据据集从较较低的概概念层抽抽象到较较高的概概念层。对大量量数据进进行有效效灵活的的概化方方法主要要有两种种:数据立方方体方法法基于属性性的归纳纳方法1.数据立方方体方法法利用数据立方方体方法法进行数据据概化,被分析析的数据据存放在在一个多多维数据据库中,通过对对多维数数据立方方进行上上卷或下下钻操作作,可完完成数据据概化和和数据细细化工作作。1.数据立方方体方法法(续)数据立方方体提供供了一种种有效的的数据概概化方法法,且构构成了描描述性数数据挖掘掘中一个个重要功功能。但但由于OLAP的数据立立方实现现是将维维的类型型限制在在简单非非数值类类型,且且将处理理限制在在简单数数据汇总总方面,
5、因此数数据立方方体并不不能解决决概念描描述所能能解决的的一些重重要问题题。如:描述中中应作用用哪些维维?概化化过程应应进行到到哪个抽抽象层次次上?这这些问题题均是由由用户负负责提供供答案的的。2.基于属性性归纳方方法基本思想想:首先使用用RDB查询收集集任务相相关的数数据;然然后通过过考察任任务相关关数据中中每个属属性的不不同值的的个数,进行概概化。数数据概化化是通过过属性删除除或属性概化化操作来完成。通过合合并相同同行并累累计它们们相应的的个数。这自然然就减少少了概化化后数据据集的大大小,所所获结果果以图表表、规则则等多种种不同形形式提供供给用户户。2.基于属性性归纳方方法(续续)例1:从一
6、个大大学数据据库的学学生数据据中挖掘掘出研究究生的一一般特征征。给定定的属性性有:姓姓名、性性别、专专业、出出生地、出生日日期、居居住地、电话和和GPA(平均等级级分)。AOI方法的第一步:利用DB查询语言言从大学学DB中将学生生数据抽抽取出来来,然后后指定一一组与挖挖掘任务务相关的的属性集集。2.基于属性性归纳方方法(续续)由于数据据挖掘查查询通常常只涉及及DB的一部分分,选择择相关的的数据集集不仅使使得挖掘掘更有效效,而且且与在整整个DB挖掘相比比,能产产生更有有意义的的规则。对用户而而言,指指定挖掘掘的属性性可能比比较困难难。有时时,用户户只能选选择少量量他感到到可能重重要的属属性,而而
7、遗漏在在描述中中可能起起作用的的其他属属性。2.基于属性性归纳方方法(续续)如:出生地维由属性性城市、省和国家定义。在在这些属属性中,用户或或许只考考虑了城城市属性性。为了了对出生生地进行行概化处处理,就就必须将将出生地地概化所所涉及到到的其它它属性包包含进来来。换句句话说,系统自自动地包包括省和和国家作作为相关关属性,使得城城市可以以在归纳纳过程中中概化到到较高的的概念层层。2.基于属性性归纳方方法(续续)另一方面面,用户户可能引引进过多多的属性性,如:指定所所有的属属性,这这样大学学DB的所有属属性都将将包含在在分析中中,而有有些属性性对有趣趣的描述述是没有有用的。姓名性别专业出生地出生日
8、居住地电话GPA王东海男CS合肥市79.07.26合肥市金寨路6567李哲男CS合肥市80.12.08合肥市芜湖路18670汪燕女PH上海市80.09.03上海市高安路1250号021-623819603.83初始工作作关系:任务相相关数据据的集合合2.基于属性性归纳方方法(续续)对已经准准备好的的数据,如何进进行基于于属性归归纳?AOI方法的第第二步:进行数据据概化操操作,可可用两种种方法之之一进行行:属性删除除,属性概化化。2.基于属性性归纳方方法(续续)属性删除除基于如下下规则:若一个属属性有许许多不同同数值,且(a)该属性无无
9、法进行行概化操操作(如:没没有定义义相应的的概念分分层),或(b)它的更高高层次概概念是用用其他属属性描述述的,则该属属性应当当从数据据集中删删除。2.基于属性性归纳方方法(续续)属性概化化基于如下下规则:若一个属属性有许许多不同同数值,且该属属性存在在一组概概化操作作,则可可以选择择一个概概化操作作对该属属性进行行处理。属性删除除和属性概化化两个规则则都表明明,如果果某属性性有大量量的不同同值,应应当进行行进一步步概化。这就提提出一个个问题:多大才算算“属性性具有大大量不同同值”?2.基于属性性归纳方方法(续续)这取决于于属性或或应用,有的用用户愿意意让属性性留在较较低的抽抽象层,而另一一些
10、用户户愿意将将它们概概化到较较高的抽抽象层。控制将将属性概概化到多多高的抽抽象层通通常是相相当主观观的。该该过程的的控制称称为属性概化化控制。2.基于属性性归纳方方法(续续)若属性概概化得“太高”,则导导致过分分概化,产生的的规则可可能没有有多少信信息。若属性概概化没有有达到“足够高高的层次次”,则则“亚概概化”也也同样可可能使得得到的规规则变得得失去意意义。因此在基于属属性归纳纳时,掌握概化化平衡非常重要要。2.基于属性性归纳方方法(续续)有许多控控制概化化过程的的方法,下面是是两种常常用的方方法:(1)属性概化化阈值控控制该技术是是对所有有属性统统一设置置一个概概化阈值值(取值范围围一般为
11、为2到8)。如果果属性的的不同值值个数大大于属性性概化阈阈值,则则应当进进行进一一步的属属性删除除或属性性概化。2.基于属性性归纳方方法(续续)(2)概化关系系阈值控控制为概化关关系设置置一个阈阈值(通通常取值值范围为为10到30)。如果果概化关关系中不不同元组组的个数数超过该该阈值,则应当当进一步步概化;否则,不再进进一步概概化。2.基于属性性归纳方方法(续续)这两种技技术可以以顺序使使用:首首先使用用属性概化化阈值控控制技术概化化每个属属性,然然后使用用概化关系系阈值控控制进一步减减少概化化关系的的(规模模)大小小。无论论使用哪哪种概化化控制技技术,都都应当允允许用户户调整概概化阈值值,以
12、便便得到有有趣的规规则。2.基于属性性归纳方方法(续续)例1(续):对前面得得到的初始工作作关系的每个属属性,概概化过程程如下:1)姓名:由于姓名名存在大大量不同同值,并并且其上上没有定定义概念念分层,该属性性被删除除。2)性别:由于性别别只有两两个不同同值,该该属性保保留,并并不对其其进行概概化。2.基于属性性归纳方方法(续续)3)专业:假设定义义了一个个概念分分层,从从而可以以对专业业属性进进行概化化。又假假设属性性概化阈阈值置为为5,在初始始数据集集合中有有25个不同取取值。则则通过对对属性概概化和属属性概化化控制,专业属属性被概概化到指指定的概概念(如如:科学学,工程程,商学学)。2.
13、基于属性性归纳方方法(续续)4)出生地地:该属性有有大量不不同值,因此应应当概化化它。设设出生地地的概念念分层为为:城市市省国家。如如果初始始关系中中,国家家取值超超过了属属性概化化阈值,则出生生地应当当删除,因为尽尽管可以以进行概概化操作作,概化化阈值也也不会满满足。但但如果假假定国家家的取值值个数小小于概化化阈值,则出生生地应当当概化到到出生国国家。2.基于属性性归纳方方法(续续)5)出生日日期:假定存在在概念分分层,可可以将出出生日期期概化到到年龄,而年龄龄概化到到年龄分分类,并并且年龄龄分类的的区间数数小于对对应的属属性概化化阈值,则应当当对出生生日期进进行概化化。2.基于属性性归纳方
14、方法(续续)6)居住地地:假定居住住地被属属性号码码,街道道,城市市,省,国家定定义。号号码和街街道的不不同值一一般很多多,而且且这些概概念的层层次相当当低。因因此,号号码和街街道应当当删除,将居住住地概化化到居住住城市。这样可可包含较较少的不不同值。2.基于属性性归纳方方法(续续)7)电话:与属性姓姓名一样样,因包包含太多多不同值值,应当当在概化化中删除除。8)GPA:假定存在在GPA的概念分分层,将将平均成成绩分成成若干区区间,如如:3.75-4.0,3.5-3.75,也可相应应的描述述为:优秀,良良好,因此该属属性可以以被概化化。2.基于属性性归纳方方法(续续)概化过程会产产生一系系列内
15、容容相同的的数据行行,相同同内容的的数据行行被合并并成一个个,并累累计它们们的计数数值。最最终结果果如下表表:性别专业出生国年龄区间出生城市GPA累计男科学中国2025合肥良好16女工程中国2530上海优秀22对初始关关系的数数据进行行基于属属性归纳纳得到的的广义关关系:3.基于属性性归纳算算法算法:基于属性性的归纳纳输入:(1)关系DB;(2)数据挖掘掘命令DMQuery;(3)属性表a_list;(4)属性ai上的概念念分层或或概化操操作符的的集合Gen(a);(5)每个属性性ai概化阈值a_gen_thresh(a)3.基于属性性归纳算算法(续)输出:主概化关关系P(包含基于于a_lis
16、t属性集的的一个定定性概念念描述)方法:(1)Wget_task_relevant_data(DMQuery,DB);/工作关系系W存放任务务相关的的数据(2)prepare_for_generalization(W)/该步实现现如下:3.基于属性性归纳算算法(续)(a)扫描W,收集每每个ai属性取不不同值的的个数。(b)对每个属属性ai,根据给给定的或或缺省的的属性阈阈值,确确定ai是否应当当删除;如果不不删除,则计算算它的最最小期望望层次Li,并确定定映射对对(v,v),基中v是W中ai的不同值,v是其在层层Li对应的概概化值。3.基于属性性归纳算算法(续)(3)Pgeneralizati
17、on(W)通过用其其在映射射中对应应的v替换W中每个值值v,累计计数数并计算算所有聚聚集值,导出主主概化关关系P。这一步可可用下面面两种方方法有效效实现:(a)对每个概概化元组组,通过过二分检检索将它它插入主主关系P中。如果果元组已已在P中,则简简单地增增加它的的计数值值并相应应处理其其他聚集集值;否否则,将将它插入入P。3.基于属性性归纳算算法(续)(b)在大部分分情况下下,由于于主关系系层不同同值的个个数很少少,可以以将主关关系编码码,作为为m_维数组,其中m是P中的属性性数,而而每个维维包含对对应的概概化属性性值。数数组的每每个元素素存放对对应的计计数和其其他聚集集值。概概化元组组的插入
18、入通过对对应的数数组元素素上的度度量聚集集进行。4.基于属性性归纳结结果的表表示基于属性性归纳方方法的挖挖掘结果果可以有有多种输输出表示示形式。地点商品销售额(百万)个数累计(千)亚洲电视15300欧洲电视12250北美电视28450亚洲电脑1201000欧洲电脑1501200北美电脑2001800表格表示示描述地点或商品电视电脑电视+电脑销售额累计销售额累计销售额累计亚洲1530012010001351300欧洲1225015012001621450北美2845020018002282250所有地区45100047040005255000组合表表表示描述棒图表示示描述第七章概概念念描述7.1
19、概念描述述基本知知识7.2数据概化化与基于于汇总的的特征化化7.3解析特征征化属性相关关分析7.4挖掘概念念比较区分不同同的类7.3解解析析特征化化属性性相关分分析1.属性相关关分析意意义在挖掘定定性概念念描述知知识过程程中,DW和OLAP工具中的的多维数数据分析析有两个个局限:一是无无法处理理复杂对对象,二二是缺乏乏自动概概化过程程。1.属性相关关分析意意义(续续)通常,用用户告诉诉数据挖挖掘系统统每个维维应当概概化到多多高层次次并不困困难,但但确定数数据集的的定性描描述应包包含哪些些属性是是一件困困难的事事。我们们引进一一些方法法进行属属性(或或维)相相关分析析,以过过滤掉统统计上不不相关
20、或或弱相关关的属性性,而保保留与挖挖掘任务务最相关关的属性性。1.属性相关关分析意意义(续续)包含属性性(维)相关分分析的类特征化化称为解析特征征化;包含属性性(维)相关分分析的类比较称为解析比较较。直观上,若一个个属性的的取值可可以帮助助有效地地区分不不同类别别的数据据集,则则这个属属性就被被认为是是与相应应类别数数据集密密切相关关的。1.属性相关关分析意意义(续续)例:一辆汽车车的颜色色不太可可能用于于区分贵贵贱汽车车(类别别),但但汽车的的型号、品牌、制造商商、款式式和气缸缸数可能能是更相相关的属属性。此外,即即使在同同一个维维内,对对于区分分一个类类与其他他类,在在不同的的概念层层也可
21、能能有很不不相同的的能力。1.属性相关关分析意意义(续续)例:在出生日日维中,生日和和生月都都不太可可能与雇雇员的工工资相关关;而只只有年龄龄区间可可能与雇雇员的工工资高度度相关。这意味着着相关分分析应当当在多层层次进行行,并且且只有那那些最相相关的维维层次应应当包含含在分析析中。1.属性相关关分析意意义(续续)属性的相相关性要要根据属属性区分分一个类类与其他他类的能能力来评评估。在在挖掘概念比较较时,目标类和对比类要明显地地在挖掘掘查询中中给出。前面在在挖掘概念特征征时,只有有一个被被特征化化的类,即没有有说明对对比类。哪些对对比类应应当用于于相关分分析并非非是明显显的。在在这种情情况下,除
22、特征征化的数数据集外外,DB中可比较较的数据据集都作作为对比比类。2.属性相关关分析方方法属性相关关分析的的基本思思想:计算某种种度量,用于量量化属性性与给定定类或概概念的相相关性。这些度度量包括括:信息息增益,Gini索引,不不确定性性和相关关系数。2.属性相关关分析方方法(续续)下面介绍绍一种方方法,它它将信息息增益分分析技术术和基于于多维数数据分析析的方法法集成在在一起。该方法法删除信信息量较较少的属属性,收收集信息息较多的的属性,用于概概念描述述分析。这里以ID3决策树归归纳学习习方法为为例进行行介绍。2.属性相关关分析方方法(续续)设S是训练样样本的集集合,其其中每个个样本的的类标号
23、已知,共共有m个不同类类别,则S包含si个Ci类样本,i=1,m。任意一一个样本本属于类类Ci的概率为为si/s,其中s是集合S所有样本本总数。一个决决策树可可用于对对数据对对象进行行分类,因此决策策树可以以看成是是Ci的一个信信息源,为产生相相应信息息需要的的信息熵熵为:2.属性相关关分析方方法(续续)(7.1)若属性A的取值为为a1,a2,av,且该属性性用作决决策树的的一个结结点时,可将S划分为子子集S1,S2,Sv。其中Sj包含属性性A取同一值值aj的数据行行;Sj包含类Ci的sij个样本。2.属性相关关分析方方法(续续)根据属性性A的取值对对当前数数据集划划分所获获得的信信息就称称为
24、属性性A的熵。它它的计算算公式如如下:(7.2)A上该划分分得到的的信息增增益定义义为:Gain(A)=I(s1,s2,sm) -E(A)(7.3)2.属性相关关分析方方法(续续)ID3方法根据据S集合中数数据对象象来计算算每个属属性Gain(A)值,并从从中选择择出值最大的作作为决策树根根结点,并根据据该属性的取取值个数数将初始始数据集集划分为为v份,即通过过不断对对每个新新产生的的数据子子集循环环进行上上述操作作,直到到产生所所有叶结点为止止,至此此就获得得一个决决策树。2.属性相关关分析方方法(续续)概念描述述的属性相相关分析析,执行行步骤如如下:(1)数数据收集集:通过查询询处理,收集
25、目目标类和和对比类类的数据据。(2)使使用保守守的AOI进行预相相关分析析:这里进行行的AOI使用的属性分析析阈值要要合理的的大,使使得更多多的属性性在选定定度量的的进一步步相关分分析中被被考虑。使用保保守AOI得到的关关系称作作候选关系系。2.属性相关关分析方方法(续续)(3)使使用选定定的相关关分析度度量删除除不相关关和弱相相关属性性:使用选定定的相关关分析度度量,评评估候选选关系中中的每个个属性。根据计计算的属属性与数数据挖掘掘任务的的相关性性,对属属性排序序,然后后删除不不相关和和弱相关关属性。其结果果为初始目标标类(对对比类)工作关关系。(4)使用AOI产生概念念描述:使用一组组不太
26、保保守的属属性概化化阈值进进行AOI。3.解析特征征化实例例例2:使用解析析特征化化挖掘大大学数据据库里研研究生的的一般特特征描述述。执行行步骤为为:(1)收集目标类数数据,它由研研究生的的集合组组成。对比类取本科生生的集合合。(2)用保守的的属性概概化阈值值进行基基于属性性的归纳纳,通过过属性删删除和属属性概化化进行预预相关分分析(分分析过程程如例1)。得到到下面两两张表:性别专业出生国年龄区间GPA累计计数男科学中国2125良16女科学外国2630优22男工程外国2630优18女科学外国2630优25男科学中国2125优21女工程中国2125优18由解析特特征化得得到的候选关系系:目标类(
27、研究生生)由解析特特征化得得到的候选关系系:对比类(本科生生)性别专业出生国年龄区间GPA累计计数男科学外国 =20良18女商学中国 =20及格20男商学中国 =20及格22女科学中国2125及格24男工程外国2125良22女工程中国30优5.86 商学30优4.68目标类的的主概化关系(研究生)对比类主主概化关关系(本科生)专业年龄区间GPA累计数科学1620及格5.53 科学1620良4.53科学2630良2.32 商学30优0.681.概念比较较方法与与实现(续)由表可看看出,与与本科生生相比,研究生生一般趋趋向于年年龄稍大大,GPA较高。(4)最后,结果概念念对比描描述以表、图图或规则
28、则的形式式表示。这种可可视化表表示包括括对比度量量(如累计计数),以突突出目标类和比较类之间存在在的差异异。例如如,5.02 的研究生生选择“科学”专业,年龄在在2630之间,GPA为良,而而只有2.32 的本科生生具有这这种性质质。2.概念比较较描述的的表示概念比较较描述的可视化化,可以采用用概化关关系、交交叉表、条型图图、饼图图、曲线线和规则则。除逻逻辑规则则外,其其他形式式与概念特征化所用形式式相同。这里讨讨论用规规则的形形式显示示概念比比较。2.概念比较较描述的的表示(续)比较描述述中的目标类和对比类的区分特特性,可可以用量化区分分规则量化地描描述。量量化区分分规则对对描述中中每个概概化元组组附上一一个统计计兴趣度度度量d-权。设qa是一个概概化元组组,Cj是目标类类。其中中,qa覆盖目标类的某些元元组
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 膀胱癌患者的肠道护理
- 濉溪辅警考试题目及答案
- 2024-2025学年度医师定期考核高频难、易错点题附完整答案详解(易错题)
- 骨科患者关节置换术后健康教育查房
- DB11-T 2028-2022 街道(乡镇)救援队伍应急行动指南 地震
- 高压氧治疗中心理护理的角色
- 中小学跨学科主题学习活动设计指南与案例汇编
- 长期病患的康复护理策略
- 卫星对地观测技术保证承诺书(5篇)
- 2024-2025学年度反射疗法师大赛理论试卷含答案详解【典型题】
- 2026年及未来5年市场数据中国密闭式冷却塔市场竞争格局及投资战略规划报告
- 法庭安全教育培训课件
- 2026年鄂尔多斯职业学院单招职业技能测试模拟测试卷附答案解析
- 月结正式合同模板(3篇)
- 雨课堂学堂在线学堂云《研究生生涯发展与规划(山大 )》单元测试考核答案
- 锂电池设备安装施工方案
- 2026年滁州职业技术学院单招职业适应性测试题库参考答案详解
- 春季养肝课件
- 江苏省施工现场安全生产管理制度全套完整版
- 无法参加庭审申请书模板
- 国铁集团安全穿透式管理培训课件
评论
0/150
提交评论