概念描述:特征化和比较课件_第1页
概念描述:特征化和比较课件_第2页
概念描述:特征化和比较课件_第3页
概念描述:特征化和比较课件_第4页
概念描述:特征化和比较课件_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章第七章 概念描述:特征化和比较概念描述:特征化和比较o数据挖掘可以分成两类数据挖掘可以分成两类n描述性数据挖掘描述性数据挖掘:以简洁概要的方式描述数据,以简洁概要的方式描述数据,并提供数据的有趣的一般性质。并提供数据的有趣的一般性质。n预测性数据挖掘预测性数据挖掘:分析数据,建立一个或一组模分析数据,建立一个或一组模型,并试图预测新数据集的行为。型,并试图预测新数据集的行为。概念描述概念描述o对于大量的细节数据,希望以简洁的描述形对于大量的细节数据,希望以简洁的描述形式(不同的粒度、不同的角度等)观察汇总式(不同的粒度、不同的角度等)观察汇总的数据集。需要给出这种数据一个的数据集。需要给

2、出这种数据一个描述以概描述以概括出固有的特性,括出固有的特性,这种描述性数据挖掘称为这种描述性数据挖掘称为概念描述。概念描述。o概念描述概念描述: n特征化特征化:对所选择的数据给出一个简单明了的描对所选择的数据给出一个简单明了的描述述n比较比较:提供对于两个或以上数据进行比较的结果提供对于两个或以上数据进行比较的结果数据概化和基于汇总的特征化o数据概化n数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。o主要方法:n数据立方体(OLAP使用的方法)n面向属性的归纳方法12345概念层数据概化:数据立方体方法(不

3、使用面向属性的归纳)o执行计算并将结果存储在数据立方体中o优点:n数据概化的一种有效实现n可以计算各种不同的度量值o比如:count(), sum(), average(), max()n概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等o缺点n只能处理非数据类型的维和简单聚集数值类型的度量值n缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次概念描述 VS. OLAPo概念描述和数据仓库的联机分析处理(OLAP)都跟数据概化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。o两者的主要区别:n概念描述o可以处理复杂数据类

4、型的属性及其聚集o一个更加自动化的过程nOLAPo实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型o一个由用户控制的过程面向属性的归纳oAttribute-oriented induction, AOI (KDD 89 Workshop)o受数据类型和度量类型的约束比较少o面向属性归纳的基本思想:n使用关系数据库查询收集任务相关的数据n通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化n通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作n通过与用户交互,将广义关系以图表或规则等形式

5、,提交给用户面向属性的归纳o步骤:步骤:n数据聚焦数据聚焦:选择和当前分析相关的数据,包括维。选择和当前分析相关的数据,包括维。n属性移除属性移除: 如果某个属性包含大量不同值,但是如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。)它的较高层概念用其它属性表示。n属性概化属性概化:如果某个属性包含大量不同值,同时在该属性如果某个属性包含大量不同值,同时在该属性上有概化操作符(比如求和等),则运用该操作符进行上有概化操作符(比如求和等),则运用该操作符进行概化。概化。n属性概化阈值控制属性概化阈值控制: 可以设一个缺

6、省的或可以指定的可以设一个缺省的或可以指定的阈阈值,值,在不同的属性值个数少于该值后则停止进一步概化。在不同的属性值个数少于该值后则停止进一步概化。o例子:比如地区维度分为省、市、区、街道阈值为例子:比如地区维度分为省、市、区、街道阈值为40,则大约在地区维度要概化到省一级则大约在地区维度要概化到省一级2、例,在下面的初始工作表上做面向属性归纳、例,在下面的初始工作表上做面向属性归纳姓名姓名性别性别专业专业籍贯籍贯出身日期出身日期信用情况信用情况电话电话学历学历张明张明男男计算机计算机南京南京79。01良良本本李枚李枚女女生物生物苏州苏州76。02优优研研李山李山男男高分子化学高分子化学盐城盐

7、城80。02中中本本.王民王民男男通信工程通信工程镇江镇江80。04一般一般本本对于每个属性,概化讨论如下:对于每个属性,概化讨论如下:1)姓名、电话:姓名、电话:该属性的值有许多,并且无概化操作,属性删除该属性的值有许多,并且无概化操作,属性删除2)性别:性别:属性可取的值属性可取的值2个,属性保留不概化个,属性保留不概化3)专业:专业:假定假定我们事先已定义了一个概念分层,可以将专业概化到我们事先已定义了一个概念分层,可以将专业概化到艺术、艺术、 化学、机械、通信、信息、化学、机械、通信、信息、.,所以可被概化,所以可被概化4)籍贯:籍贯:此表以城市为单位,已无法概化,值不算太多,保留此表

8、以城市为单位,已无法概化,值不算太多,保留5)出生日期:出生日期:假定存在概念分层,首先概化到年龄,再到年龄段假定存在概念分层,首先概化到年龄,再到年龄段6)信用:信用:假定有假定有优、良、中、一般、差优、良、中、一般、差的分层,可以概化的分层,可以概化7)学历:学历:可以按可以按博士生、硕士生、本科生博士生、硕士生、本科生概化概化概化过程将产生相等的元组,相等的元组归为一类并给出计数概化过程将产生相等的元组,相等的元组归为一类并给出计数性别性别专业专业籍贯籍贯年龄段年龄段信用情况信用情况计数计数男男信息信息南京南京19-22良良10女女信息信息南京南京19-22优优9男男化学化学盐城盐城19

9、-22中中4.男男通信通信镇江镇江22-25一般一般1学历学历本本研研本本.本本此处,计数看成度量,其它看成维此处,计数看成度量,其它看成维概化结果的表示概化结果的表示o表格表格地区地区产品类别产品类别销售额销售额(千万)千万) countcount(千)(千)江苏江苏电视电视15300300浙江浙江电视电视12250250广东广东电视电视18450450江苏江苏电脑电脑12010001000浙江浙江电脑电东广东电脑电脑20018001800概化结果的表示概化结果的表示o二维交叉表二维交叉表地区地区电视电视电脑电脑产品类累计产品类累计江苏江苏浙江浙江广东广东地区合计地

10、区合计count金额金额count销量销量count销量销量30015130013510001202501214501601200150450282250228180020010005550005254000470概化结果的表示概化结果的表示o可视化方法可视化方法电视销售电视销售 饼图饼图概化结果的表示概化结果的表示o量化特征规则量化特征规则n概化关系可以用逻辑规则的形式表示,典型的概化关系可以用逻辑规则的形式表示,典型的是概化的元组代表一个规则的析取。是概化的元组代表一个规则的析取。n若单个概化元组不能代表工作关系中的所有元若单个概化元组不能代表工作关系中的所有元组,则规则应当带上量化信息,

11、用满足规则的组,则规则应当带上量化信息,用满足规则的左部和满足规则右部的元组所占的百分比表示。左部和满足规则右部的元组所占的百分比表示。带有量化信息的逻辑规则称为带有量化信息的逻辑规则称为量化规则量化规则。nt_权兴趣度度量权兴趣度度量:描述规则中每个析取或对应概描述规则中每个析取或对应概化关系的每个元组的化关系的每个元组的典型性典型性。t-权o定义:定义:设待特化的(或由规则描述的)对象类为设待特化的(或由规则描述的)对象类为目目标类标类, qa是一个描述目标类的概化元组。是一个描述目标类的概化元组。 qa的的t_权权是来自初始工作关系集合中被是来自初始工作关系集合中被qa涵盖的目标类元组涵

12、盖的目标类元组的百分比。形式上为:的百分比。形式上为:o其中:其中:n是概化关系中目标类元组的个数,是概化关系中目标类元组的个数,q1,.,qn是概化关系中目标类的元组,是概化关系中目标类的元组, qa在在q1,.,qn中。显然,中。显然,t_权的取值区间为权的取值区间为0.0,1.0或或0%,100%。n1iia)count(q)count(q_ 权t地区地区产品类别产品类别销售额销售额(千万)千万) countcount(千)(千)江苏江苏电脑电脑12010001000浙江浙江电脑电东广东电脑电脑20018001800例子例子 假设初始工作集合,地区是假设初始工作

13、集合,地区是南京、镇江、南京、镇江、,产品类产品类别是别是电脑电脑的元组全部概化在第一个概化元组中,共有的元组全部概化在第一个概化元组中,共有1000个元组。该概化元组的个元组。该概化元组的t_权是:权是:%25100*1800120010001000_权t规则描述形式规则描述形式:)(.:)()(_arg,11mmwtxconditionwtxconditionxclassettx地区地区产品类别产品类别销售额销售额(千万)千万) countcount(千)(千)江苏江苏电脑电脑12010001000浙江浙江电脑电东广东电脑电脑20018001800例:例:%45:

14、 ) )(%30:)(%25: ) )(,txtxtxx广东地区浙江地区江苏地区电脑产品类例:例:有部分学生在图书馆借阅了有部分学生在图书馆借阅了大趋势大趋势这本书,想通过这本书,想通过数据挖掘技术发现这部分学生具有什么样的特征。其基本关数据挖掘技术发现这部分学生具有什么样的特征。其基本关系表是:系表是:学号学号姓名姓名系别系别书名书名借阅日期借阅日期颜立颜立经济经济大趋势大趋势2000.3.162000.3.16王家卫王家卫金融金融大趋势大趋势2000.3.162000.3.16王向东王向东医学院医学院大趋势大趋势2000.5.82000.5.8刘伟刘伟历史历史大趋势大趋势2000.6.30

15、2000.6.30朱小明朱小明企管企管大趋势大趋势2000.5.202000.5.20陈立业陈立业经济经济大趋势大趋势2000.9.192000.9.19刘英刘英新闻新闻大趋势大趋势2000.12.32000.12.3学号学号姓名姓名系别系别书名书名借阅日期借阅日期颜立颜立经济经济大趋势大趋势2000.3.162000.3.16王家卫王家卫金融金融大趋势大趋势2000.3.162000.3.16王向东王向东医学院医学院大趋势大趋势2000.5.82000.5.8刘伟刘伟历史历史大趋势大趋势2000.6.302000.6.30朱小明朱小明企管企管大趋势大趋势2000.5.202000.5.20陈

16、立业陈立业经济经济大趋势大趋势2000.9.192000.9.19刘英刘英新闻新闻大趋势大趋势2000.12.32000.12.3概化层次:系别概化层次:系别文科文科 商学院商学院 - - 经济,金融,企管,会计,国贸经济,金融,企管,会计,国贸文科文科 文学院文学院 - - 中文,新闻,信管,历史,哲学中文,新闻,信管,历史,哲学理科理科 医学院医学院理科理科 理学院理学院 - - 数学,天文,物理数学,天文,物理(文,商学院)(文,商学院)(文,商学院)(文,商学院)(理,医学院)(理,医学院)(文,商学院)(文,商学院)(文,文学院)(文,文学院)(文,商学院)(文,商学院)(文,文学院

17、)(文,文学院)学号学号姓名姓名系别系别书名书名借阅日期借阅日期颜立颜立经济经济大趋势大趋势2000.3.162000.3.16王家卫王家卫金融金融大趋势大趋势2000.3.162000.3.16王向东王向东医学院医学院大趋势大趋势2000.5.82000.5.8刘伟刘伟历史历史大趋势大趋势2000.6.302000.6.30朱小明朱小明企管企管大趋势大趋势2000.5.202000.5.20陈立业陈立业经济经济大趋势大趋势2000.9.192000.9.19刘英刘英新闻新闻大趋势大趋势2000.12.32000.12.3(文,商学院)(文,商学院)(文,商学院)(文,商学院)(理,医学院)(

18、理,医学院)(文,商学院)(文,商学院)(文,商学院)(文,商学院)(文,文学院)(文,文学院)系别系别书名书名借阅次数借阅次数商学院商学院大趋势大趋势4 4文学院文学院大趋势大趋势2 2医学院医学院大趋势大趋势1 1依据借阅次依据借阅次数的多少来数的多少来决定是否为决定是否为噪声数据噪声数据概化关系表一(按学院)概化关系表一(按学院)(文,文学院)(文,文学院)概化关系表二(按学科)概化关系表二(按学科)系别系别书名书名借阅次数借阅次数商学院商学院大趋势大趋势4 4文学院文学院大趋势大趋势2 2医学院医学院大趋势大趋势1 1系别系别书名书名借阅次数借阅次数文科文科大趋势大趋势6 6理科理科大

19、趋势大趋势1 1概化关系表一(按学院)概化关系表一(按学院)学号学号姓名姓名系别系别书名书名借阅日期借阅日期颜立颜立经济经济大趋势大趋势2000.3.162000.3.16王家卫王家卫金融金融大趋势大趋势2000.3.162000.3.16王向东王向东医学院医学院大趋势大趋势2000.5.82000.5.8刘伟刘伟历史历史大趋势大趋势2000.6.302000.6.30朱小明朱小明企管企管大趋势大趋势2000.5.202000.5.20陈立业陈立业经济经济大趋势大趋势2000.9.192000.9.19刘英刘英新闻新闻大趋势大趋势2000.12.32000.12.3如果定义噪声数据的阀值是如果

20、定义噪声数据的阀值是1 1(记录数为(记录数为1 1),则:),则:根据根据基本关系表一基本关系表一发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是经济系经济系的学生的学生如果定义噪声数据的阀值是如果定义噪声数据的阀值是1 1(记录数为(记录数为1 1),则:),则:根据根据基本关系表一基本关系表一发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是经济系经济系的学生的学生根据根据概括关系表一概括关系表一发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是商学院商学院的学生的学生借阅借阅大趋势大趋势一书的是一书的是文学院文学院的学

21、生的学生系别系别书名书名借阅次数借阅次数商学院商学院大趋势大趋势4 4文学院文学院大趋势大趋势2 2医学院医学院大趋势大趋势1 1如果定义噪声数据的阀值是如果定义噪声数据的阀值是1 1(记录数为(记录数为1 1),则:),则:根据根据基本关系表一基本关系表一发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是经济系经济系的学生的学生根据根据概括关系表一概括关系表一发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是商学院商学院的学生的学生借阅借阅大趋势大趋势一书的是一书的是文学院文学院的学生的学生根据根据概括关系表二概括关系表二发现的特征规则是:发现的特

22、征规则是:借阅借阅大趋势大趋势一书的是一书的是文科文科的学生的学生系别系别书名书名借阅次数借阅次数文科文科大趋势大趋势6 6理科理科大趋势大趋势1 1学号学号姓名姓名系别系别书名书名借阅日期借阅日期颜立颜立经济经济大趋势大趋势2000.3.162000.3.16王家卫王家卫金融金融大趋势大趋势2000.3.162000.3.16王向东王向东医学院医学院大趋势大趋势2000.5.82000.5.8刘伟刘伟历史历史大趋势大趋势2000.6.302000.6.30朱小明朱小明企管企管大趋势大趋势2000.5.202000.5.20陈立业陈立业经济经济大趋势大趋势2000.9.192000.9.19刘

23、英刘英新闻新闻大趋势大趋势2000.12.32000.12.3如果定义噪声数据的阀值是如果定义噪声数据的阀值是2 2(记录数为(记录数为2 2),则:),则:根据根据基本关系表一基本关系表一发现的特征规则是:发现的特征规则是:发现不到特征规则发现不到特征规则如果定义噪声数据的阀值是如果定义噪声数据的阀值是2 2(记录数为(记录数为2 2),则:),则:根据根据基本关系表一基本关系表一发现的特征规则是:发现的特征规则是:发现不到特征规则发现不到特征规则根据根据概括关系表一概括关系表一发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是商学院商学院的学生的学生系别系别书名书名借

24、阅次数借阅次数商学院商学院大趋势大趋势4 4文学院文学院大趋势大趋势2 2医学院医学院大趋势大趋势1 1如果定义噪声数据的阀值是如果定义噪声数据的阀值是2 2(记录数为(记录数为2 2),则:),则:根据根据基本关系表一基本关系表一发现的特征规则是:发现的特征规则是:发现不到特征规则发现不到特征规则根据根据概括关系表一概括关系表一发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是商学院商学院的学生的学生根据根据概括关系表二概括关系表二发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是文科文科的学生的学生系别系别书名书名借阅次数借阅次数文科文科大趋势大

25、趋势6 6理科理科大趋势大趋势1 1学号学号姓名姓名系别系别书名书名借阅日期借阅日期颜立颜立经济经济大趋势大趋势2000.3.162000.3.16王家卫王家卫金融金融大趋势大趋势2000.3.162000.3.16王向东王向东医学院医学院大趋势大趋势2000.5.82000.5.8刘伟刘伟历史历史大趋势大趋势2000.6.302000.6.30朱小明朱小明企管企管大趋势大趋势2000.5.202000.5.20陈立业陈立业经济经济大趋势大趋势2000.9.192000.9.19刘英刘英新闻新闻大趋势大趋势2000.12.32000.12.3如果定义噪声数据的阀值是如果定义噪声数据的阀值是5

26、5(记录数为(记录数为5 5),则:),则:根据根据基本关系表一基本关系表一发现的特征规则是:发现的特征规则是:发现不到特征规则发现不到特征规则如果定义噪声数据的阀值是如果定义噪声数据的阀值是5 5(记录数为(记录数为5 5),则:),则:根据根据基本关系表一基本关系表一发现的特征规则是:发现的特征规则是:发现不到特征规则发现不到特征规则根据根据概括关系表一概括关系表一发现的特征规则是:发现的特征规则是:发现不到特征规则发现不到特征规则系别系别书名书名借阅次数借阅次数商学院商学院大趋势大趋势4 4文学院文学院大趋势大趋势2 2医学院医学院大趋势大趋势1 1如果定义噪声数据的阀值是如果定义噪声数

27、据的阀值是5 5(记录数为(记录数为5 5),则:),则:根据根据基本关系表一基本关系表一发现的特征规则是:发现的特征规则是:发现不到特征规则发现不到特征规则根据根据概括关系表一概括关系表一发现的特征规则是:发现的特征规则是:发现不到特征规则发现不到特征规则根据根据概括关系表二概括关系表二发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是文科文科的学生的学生系别系别书名书名借阅次数借阅次数文科文科大趋势大趋势6 6理科理科大趋势大趋势1 1应该说,此时的规则是有意义的,该书基本上是文科学生借阅,应该说,此时的规则是有意义的,该书基本上是文科学生借阅,t_权权=6/7%3

28、.14:)(%7 .85:)(,txtxx理科系别文科系别大趋势书名三、挖掘类比较:区分不同的类三、挖掘类比较:区分不同的类o要解决的目标要解决的目标 n在实际应用中,对单个类(概念)的描述或特征化并不在实际应用中,对单个类(概念)的描述或特征化并不一定感兴趣,而希望挖掘一种描述,它将一个类(概念)一定感兴趣,而希望挖掘一种描述,它将一个类(概念)与其它可比较的类(概念)相区分。类区分(比较)挖与其它可比较的类(概念)相区分。类区分(比较)挖掘将给出目标类与对比类相区别的描述。掘将给出目标类与对比类相区别的描述。o类比较方法和实现类比较方法和实现1)数据收集:通过查询处理数据库中相关数据集,将

29、它划)数据收集:通过查询处理数据库中相关数据集,将它划分为一个分为一个目标类目标类和一个(多个)和一个(多个)对比类对比类。2)维相关分析:选择所需要的维,去掉与概化不相关的维)维相关分析:选择所需要的维,去掉与概化不相关的维3)同步概化:目标类和所有对比类概化到同一层次)同步概化:目标类和所有对比类概化到同一层次4)导出比较的表示:结果可以是表、图或规则,表示中一)导出比较的表示:结果可以是表、图或规则,表示中一般包括对比的度量(如般包括对比的度量(如count%)姓名姓名性别性别专业专业籍贯籍贯出身日期出身日期信用情况信用情况电话电话学历学历张清张清男男计算机应用计算机应用南京南京78。0

30、1良良研研李玫李玫女女生物生物苏州苏州76。02优优研研李山李山男男高分子化学高分子化学盐城盐城77。02良良研研.王宁王宁男男计算机软件计算机软件镇江镇江78。04一般一般研研例:例:姓名姓名性别性别专业专业籍贯籍贯出身日期出身日期信用情况信用情况电话电话学历学历张明张明男男计算机科学计算机科学扬州扬州81。01良良本本王梅王梅女女法律法律重庆重庆82。02一般一般本本李山李山男男自动控制自动控制盐城盐城80。02中中本本.王民王民男男微波微波上海上海80。04一般一般本本初始目标类关系:研究生初始目标类关系:研究生初始对比类关系:本科生初始对比类关系:本科生目标类主概化关系(研究生)目标类

31、主概化关系(研究生)对比类主概化关系(本科生)对比类主概化关系(本科生)专业专业年龄段年龄段信用情况信用情况Count%科学科学21-25良良5.53科学科学26-30良良5.02科学科学3030以上以上优优5.86.商务商务3030以上以上优优4.68专业专业年龄段年龄段信用情况信用情况Count%科学科学16-20一般一般5.53科学科学16-20良良4.53科学科学26-3026-30良良2.32.商务商务3030以上以上优优0.68 比较表示:比较表示:年龄在年龄在26到到30之间、选择科学类专业且信用良之间、选择科学类专业且信用良的研究生占整个研究生人数的的研究生占整个研究生人数的5.02%,而同样的情况,本科生,而同样的情况,本科生只有只有2.32%3、量化区分规则、量化区分规则 量化区分规则对描述中每个概化元组附上一个统计兴

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论