数据挖掘-DM3Concept_第1页
数据挖掘-DM3Concept_第2页
数据挖掘-DM3Concept_第3页
数据挖掘-DM3Concept_第4页
数据挖掘-DM3Concept_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章概念说明,目的:提供数据准确简洁的特性说明,以及各种类或各种概念的数据之间的比较。表征和比较、数据挖掘发现知识的类型、概念说明(一般知识)相关知识分类、基于知识预测的知识偏差基础知识、一般知识(概念说明)、从数据分析的角度来看,数据挖掘将分为两种类型的说明数据挖掘:试图预测数据中存在的一些有意义的特性预测数据挖掘3360分析数据、模型或集配置以及新数据集的行为。数据库中的数据和对象在基本概念层次中包含大量详细数据信息。商场销售数据库中的商品信息数据包含了很多低级信息,如商品号码、商品名称、商品品牌等,将这些大量数据抽象到更高的层次,提供一个概要说明很重要。例:春节概括说明销售商品的情况,

2、对市场和销售主管来说显然很重要。最简单的描述性数据挖掘是概念描述。概念说明通常称为定性归纳。这里描述了一组对象(同一类别),例如商店常客。创建概念说明数据的定性说明和对比度定性说明。具体化:概括目标数据(通过数据一般化)。比较:对两个或多个数据集进行一般化,然后对比较结果进行一般化。(以表格或比较规则的形式提供)一所大学的讲师、副教授情况讲师:75% (papers=3)和(teaching courses=2),概念说明和数据泛化是不可分割的。概念说明和数据广义属性导向归纳(AOI)AOI方法基于学习规则的AOI学习方法,Outline:概念说明和数据广义属性导向归纳(AOI)AOI方法基于

3、学习规则的AOI学习方法,1 .概念说明和数据一般化,概念说明:不是指大量数据的简单总和,而是描述这些数据的特性和区分。特征:简洁明了地总结给定数据集。比较/比较:提供两个或多个不同数据类的比较说明。资料一般化:将较低层级的概念集合对映至与其相对简单、较高层级、与目标相关的概念。资料一般化:(1)OLAP(2)attribute oriented induction(AOI),属性导向学习技术,1989年首次提出,2 . AOI(attribute oriented induction)一般化主要是由属性移除和属性一般化(概念上升)完成的。基本概念:(1)概念层次结构(2) AOI中的two

4、kinds of operations(3)attribute general initial ization control(4)您可以使用部分顺序关系来组织概念集。反应概念之间的特殊和一般关系,可以用树、格子、乳香无环图等表示。定义:概念层次结构是一组部分顺序。其中,h是概念的有限集,是h的部分顺序。常规概念层次,概念层次在h中具有最大的元素(最常见的概念),在Hi中具有一个概念的最新父代元素在Hj中,则Hi中其他概念的最新父代成员也在Hj中。上图中显示的哪个属于一般概念级别?某些概念级别的表达: (a)。模式级别;(b)导出操作级别;(c)集合分组级别;(d)。基于规则的层次结构,Som

5、e types of concept hierarchy,(a)。架构层次:在架构级别,通过定义响应数据库属性之间连接的部分顺序关系构建:country、province、city、street、some types of concept hierarchy、(b)。集合分组层次结构:定义概念(或属性)值集之间的关系,以反映应用领域的语义连接特征。对于Eg. Student源数据库,集合分组层次可以表示为:表31、Status中的概念层次结构图、概念层次结构、(c)导出操作层次结构:定义数据的一系列操作,如按数据值进行群集和分布、大学生学习成绩导出结构等,从而形成导出操作层次结构,导出操作层次

6、结构通常用于说明数字属性。以上三个概念层次的特点:每个概念只是一个高层次的概念,可以无条件地将一个概念概括为他的高层次概念。Some types of concept hierarchy,(d)。基于规则的层次结构:每条路径都有相应的一般化规则,将概念层次结构的无条件一般化扩大到有条件的一般化,并进一步细化AOI方法。概念泛化与规则相关。其中x是元组(示例),a、b和c是概念(属性)。如果x符合条件b,则概念a上升到概念c。b可以是简单谓词,也可以是包含其他属性和关系的复杂逻辑公式,或者是属性、元组或从数据库计算的条件表达式。Example、属性GPA中基于规则的概念层次结构、表31中的属性G

7、PA、规则:非正则化和概念层次结构的角色可以从多个概念层次结构中抽象数据。数据库中的原始数据是最基本的概念,大多数统计分析是在原始数据的基础上进行的,学习结果是一种基本知识。在高概念层中,抽象原始数据,发现并显示知识,就可以获得更高层次的知识。例如,80名技术专业教授、高级工程师、医生和律师以及150K200K美元的薪金将在基本级别发现。如果改进数据抽象层,通常会得到一条规则:受过良好教育的人获得较高的工资,然后返回,概念层的映射可以由工程师或领域专家提供。例如,“status : freshman、sophomore、junior、senior”under graduate,概念分层仅是不同

8、的单个值或数值范围,通常不太大,可以由专业领域专家提供。大型数据库需要自动搜索某些概念层次。(2)删除two kinds of AOI operation、attribute removal和非一般化属性。在初始关系中,一个属性具有许多不同的值,但没有更一般意义上的更高级别的概念(例如,此属性未定义概念层次结构)。如果高级概念用其他属性表示,则必须从工作关系中移除该属性。属性一般化,属性的一般化初始关系中的一个属性具有许多不同的值,并且该属性具有一般化作业,则必须执行一般化作业。在一般化时一次增加一个等级,以避免控制一般化速度。返回。这两种操作均表示如果属性具有许多不同的值,则应进一步一般化。

9、问题:“属性有很多不同的值吗?”是什么?(3)设置一组属性的阈值(attribute general virtual ization threshold control)或设置每个属性的阈值,以便在一个属性的另一个值的数量大于阈值时更一般化。属性广义关系阈值可设置广义关系的阈值。的值。的值。的值和值之间的关系阈值,以此为单位,属性广义关系阈值为单位,属性广义关系阈值为单位,以此为单位,属性广义关系阈值为单位,属性广义关系阈值为单位,以此为单位,属性广义关系阈值为单位。数据集最后以多种广义关系一般化。返回。例如,要根据特定的属性说明学生数据库中的研究生,请先获取表31中所示的数据集。特殊属性Co

10、unt表示此元组已合并到原始元组数中,初始值为1。然后,在执行上述几个步骤后,有AOI操作的基本策略,可以从表31中获得表32。每个元组通过概念增强和数据库的浓度衍生出两个新术语,涵盖原始数据库中的多个元组(称为宏元组)。知识库表(知识库):由宏元组组成的表。战略1。属性导向广义:属性是关系的原子单位,在广义上是一个属性的进展。战略2 .移除非一般化属性原则3。概念树提升:对于元组,如果概念树中有更高级别的概念,请用该概念替换属性值。战略4。累积复盖范围:在一般化单个元组时,合并相同元组或删除重复元组时,必须将元组的复盖范围值累加到相应的广义元组。Basic strategy、strategy

11、和strategy 5。指定一般化临界值,并控制概念的上升。也就是说,对于知识库表中的特定属性,如果不同的值数大于用户指定的广义阈值,则进一步一般化此属性。表32中的b_p具有5个不同的值,并且设置阈值为2或3时,表33策略6。指定阈值,控制广义关系:如果一般化关系的元组数仍然大于用户指定的广义阈值,则必须继续一般化关系。表33,如果设置的广义关系阈值为3,则可以在此停止。如果设置的广义关系阈值为2,则应继续一般化,如表34所示。政策7 .转换规则:可以将广义关系的宏元组转换为一个合并规则,还可以将多个宏元组转换为多个规则的分离。(5)规则的表示,(a)表:广义关系表(p 191t 5.3);

12、交叉表(p191T5.4)每行表示其属性,并介绍用于测量以下内容的参数:(b)图形柱、圆形、曲线等;(c)定量规则说明(逻辑规则):广义关系表中每个元组(每个规则)的可能性。表3-4,t(艺术科学,中国,优秀)=75/(75 25)*100%=75% t(科学,外国,优秀)=25/(75 25也就是说,如果x位于描述的目标中,则x满足conditioni的概率为t_weighti。Note:中的condition不是充分条件的先决条件。如果允许属性集体表示,并假定涵盖所有领域的“艺术科学”,则可以将艺术科学一般化为ANY并将其从表中删除。最终的一般化关系是规则:表34中的量化规则:gradua

13、te是成绩优秀的中国人(75的可能性),或成绩更好、专业为科学的留学生(25的可能性)。返回,摘要:控制概念级别AOI两种操作属性泛化的默认策略规则的表示法,3 .AOI方法学习规则,(1)学习要素规则,(2)学习标识规则,(3)类别说明(要素说明和类比较),(1)学习要素规则,数据收集关联分析sort and select the most relevnt dimensions and面向属性的类说明(AOI)on selected dimension/level可以获取基础关系表、提取规则,并使用AOI方法查找目标类概念和比较类概念的标识规则以区分它们。Example:区分研究生和大学生,

14、通过属性排除。表36总结了在表36中看到的提升和同步一般化,每个类可以有公共元组,这些元组称为迭代元组。表中所示的重复元组是江苏,专业是科学,GPA可能是优秀的学生,也可能不是研究生,说明键:同步一般化,重复元组处理和识别规则的提取。重复元组描述的概念不能将目标类与对比度类分离。要获得有效的标识规则,必须仔细处理这些重复元组,并且有策略8。(2)学习识别规则(班级比较),策略8。(处理重复元组):如果目标类和比较类具有重复元组,则该元组将标记为已标记,这表示在上次标识规则中不考虑这些元组,在处理策略8后,将广义阈值设置为3,从而进一步一般化Birth_place属性,如表37所示。表37中的目

15、标类仅包含一个未标记的元组,比较类包含两个未标记的元组,标识规则的提取:定性标识规则的量化标识规则,定性标识规则,仅包含未标记的元组的格式:表示目标属于目标类的足够条件,不是必需条件。满足这些条件的元组不一定在目标类中,但目标类的元组不一定满足这些条件。在很多情况下,重复元组有助于将每个提取与一个定量(称为d权重)相关联,以从表示规则识别能力的最终广义关系中导出量化规则。d(科学,外国,优秀)=25/25*100%=100%,表格3-7,d(艺术,中国,优秀)=35/(35 20)*。d_weight是宗地0,1中d值的大型描述概念,主要衍生自目标类别,而低d值主要衍生自比较类别。未标记元组的d值全部为100。类比较算法步骤:Step1。收集相关数据,包括目标类和比较类Step2。执行属性相关分析,然后执行非关联或弱相关属性Step3。删除同步一般化。将目标类和对比度类中的数据一般化为指定的概念层次,并标记重复元组。Step4。比较结果的说明。(定性或定量标识规则的表示法)、返回、(3)类说明(要素说明与类比较相结合)、a. AOI的两种用法比较、b .计算权重、T_weight的计算:在目标类中执行统计信息,如表37所示。t _ weight(1)35/(35 40 25)=35% t _ w

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论