




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章 概念描述:特征化和比较,数据挖掘可以分成两类 描述性数据挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。 预测性数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为。,概念描述,对于大量的细节数据,希望以简洁的描述形式(不同的粒度、不同的角度等)观察汇总的数据集。需要给出这种数据一个描述以概括出固有的特性,这种描述性数据挖掘称为概念描述。 概念描述: 特征化:对所选择的数据给出一个简单明了的描述 比较:提供对于两个或以上数据进行比较的结果,数据概化和基于汇总的特征化,数据概化 数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。 主要方法: 数据立方体(OLAP使用的方法) 面向属性的归纳方法,1,2,3,4,5,概念层,数据概化:数据立方体方法(不使用面向属性的归纳),执行计算并将结果存储在数据立方体中 优点: 数据概化的一种有效实现 可以计算各种不同的度量值 比如:count(), sum(), average(), max() 概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等 缺点 只能处理非数据类型的维和简单聚集数值类型的度量值 缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次,概念描述 VS. OLAP,概念描述和数据仓库的联机分析处理(OLAP)都跟数据概化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。 两者的主要区别: 概念描述 可以处理复杂数据类型的属性及其聚集 一个更加自动化的过程 OLAP 实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型 一个由用户控制的过程,面向属性的归纳,Attribute-oriented induction, AOI (KDD 89 Workshop) 受数据类型和度量类型的约束比较少 面向属性归纳的基本思想: 使用关系数据库查询收集任务相关的数据 通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化 通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作 通过与用户交互,将广义关系以图表或规则等形式,提交给用户,面向属性的归纳,步骤: 数据聚焦:选择和当前分析相关的数据,包括维。 属性移除: 如果某个属性包含大量不同值,但是 1)在该属性上没有概化操作,或者 2)它的较高层概念用其它属性表示。 属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符(比如求和等),则运用该操作符进行概化。 属性概化阈值控制: 可以设一个缺省的或可以指定的阈值,在不同的属性值个数少于该值后则停止进一步概化。 例子:比如地区维度分为省、市、区、街道阈值为40,则大约在地区维度要概化到省一级,2、例,在下面的初始工作表上做面向属性归纳,对于每个属性,概化讨论如下: 1)姓名、电话:该属性的值有许多,并且无概化操作,属性删除 2)性别:属性可取的值2个,属性保留不概化 3)专业:假定我们事先已定义了一个概念分层,可以将专业概化到艺术、 化学、机械、通信、信息、,所以可被概化 4)籍贯:此表以城市为单位,已无法概化,值不算太多,保留 5)出生日期:假定存在概念分层,首先概化到年龄,再到年龄段 6)信用:假定有优、良、中、一般、差的分层,可以概化 7)学历:可以按博士生、硕士生、本科生概化,概化过程将产生相等的元组,相等的元组归为一类并给出计数,性别,专业,籍贯,年龄段,信用情况,计数,男,信息,南京,19-22,良,10,女,信息,南京,19-22,优,9,男,化学,盐城,19-22,中,4,.,.,.,.,男,通信,镇江,22-25,一般,1,学历,本,研,本,本,此处,计数看成度量,其它看成维,概化结果的表示,表格,概化结果的表示,二维交叉表,地区,电视,电脑,产品类累计,江苏,浙江,广东,地区合计,概化结果的表示,可视化方法,电视销售 饼图,概化结果的表示,量化特征规则 概化关系可以用逻辑规则的形式表示,典型的是概化的元组代表一个规则的析取。 若单个概化元组不能代表工作关系中的所有元组,则规则应当带上量化信息,用满足规则的左部和满足规则右部的元组所占的百分比表示。带有量化信息的逻辑规则称为量化规则。 t_权兴趣度度量:描述规则中每个析取或对应概化关系的每个元组的典型性。,t-权,定义:设待特化的(或由规则描述的)对象类为目标类, qa是一个描述目标类的概化元组。 qa的t_权是来自初始工作关系集合中被qa涵盖的目标类元组的百分比。形式上为: 其中:n是概化关系中目标类元组的个数,q1,qn是概化关系中目标类的元组, qa在q1,qn中。显然,t_权的取值区间为0.0,1.0或0%,100%。,例子,假设初始工作集合,地区是南京、镇江、,产品类别是电脑的元组全部概化在第一个概化元组中,共有1000个元组。该概化元组的t_权是:,规则描述形式,例:有部分学生在图书馆借阅了大趋势这本书,想通过数据挖掘技术发现这部分学生具有什么样的特征。其基本关系表是:,概化层次:系别 文科 商学院 - 经济,金融,企管,会计,国贸 文科 文学院 - 中文,新闻,信管,历史,哲学 理科 医学院 理科 理学院 - 数学,天文,物理,(文,商学院),(文,商学院),(理,医学院),(文,商学院),(文,文学院),(文,商学院),(文,文学院),依据借阅次数的多少来决定是否为噪声数据,概化关系表一(按学院),(文,文学院),概化关系表二(按学科),概化关系表一(按学院),如果定义噪声数据的阀值是1(记录数为1),则: 根据基本关系表一发现的特征规则是: 借阅大趋势一书的是经济系的学生,如果定义噪声数据的阀值是1(记录数为1),则: 根据基本关系表一发现的特征规则是: 借阅大趋势一书的是经济系的学生 根据概括关系表一发现的特征规则是: 借阅大趋势一书的是商学院的学生 借阅大趋势一书的是文学院的学生,如果定义噪声数据的阀值是1(记录数为1),则: 根据基本关系表一发现的特征规则是: 借阅大趋势一书的是经济系的学生 根据概括关系表一发现的特征规则是: 借阅大趋势一书的是商学院的学生 借阅大趋势一书的是文学院的学生 根据概括关系表二发现的特征规则是: 借阅大趋势一书的是文科的学生,如果定义噪声数据的阀值是2(记录数为2),则: 根据基本关系表一发现的特征规则是: 发现不到特征规则,如果定义噪声数据的阀值是2(记录数为2),则: 根据基本关系表一发现的特征规则是: 发现不到特征规则 根据概括关系表一发现的特征规则是: 借阅大趋势一书的是商学院的学生,如果定义噪声数据的阀值是2(记录数为2),则: 根据基本关系表一发现的特征规则是: 发现不到特征规则 根据概括关系表一发现的特征规则是: 借阅大趋势一书的是商学院的学生 根据概括关系表二发现的特征规则是: 借阅大趋势一书的是文科的学生,如果定义噪声数据的阀值是5(记录数为5),则: 根据基本关系表一发现的特征规则是: 发现不到特征规则,如果定义噪声数据的阀值是5(记录数为5),则: 根据基本关系表一发现的特征规则是: 发现不到特征规则 根据概括关系表一发现的特征规则是: 发现不到特征规则,如果定义噪声数据的阀值是5(记录数为5),则: 根据基本关系表一发现的特征规则是: 发现不到特征规则 根据概括关系表一发现的特征规则是: 发现不到特征规则 根据概括关系表二发现的特征规则是: 借阅大趋势一书的是文科的学生,应该说,此时的规则是有意义的,该书基本上是文科学生借阅, t_权=6/7,三、挖掘类比较:区分不同的类,要解决的目标 在实际应用中,对单个类(概念)的描述或特征化并不一定感兴趣,而希望挖掘一种描述,它将一个类(概念)与其它可比较的类(概念)相区分。类区分(比较)挖掘将给出目标类与对比类相区别的描述。 类比较方法和实现 1)数据收集:通过查询处理数据库中相关数据集,将它划分为一个目标类和一个(多个)对比类。 2)维相关分析:选择所需要的维,去掉与概化不相关的维 3)同步概化:目标类和所有对比类概化到同一层次 4)导出比较的表示:结果可以是表、图或规则,表示中一般包括对比的度量(如count%),例:,初始目标类关系:研究生,初始对比类关系:本科生,目标类主概化关系(研究生),对比类主概化关系(本科生),比较表示:年龄在26到30之间、选择科学类专业且信用良的研究生占整个研究生人数的5.02%,而同样的情况,本科生只有2.32%,3、量化区分规则 量化区分规则对描述中每个概化元组附上一个统计兴趣度度量d_权。,设qa是一个概化元组,而Cj是目标类。其中qa覆盖目标类的某些元组。(也可能覆盖对比类的某些元组)。qa的d_权是初始目标类工作关系中被qa覆盖的元组数与初始目标类和对比类工作关系中被qa覆盖的总元组的比。形式定义为:,其中,m是目标类和对比类的总数,Cj在C1,Cm中,而count(qa Ci)是类Ci中被qa覆盖的元组数。d_权的取值范围为0.0,1.0(或0%,100%)。,例:,目标类 对比类,目标类d_权: d_权=90/(90+210)=30% 比较类d_权: d_权=210/(90+210)=70%,高d_权
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025黑龙江哈尔滨尚志市招聘警务辅助人员60人模拟试卷附答案详解
- 2025福建广电网络集团平和分公司诚聘乡镇营销员2人考前自测高频考点模拟试题完整答案详解
- 2025辽宁盘锦汇鑫招商运营有限公司招聘招商人员人员考前自测高频考点模拟试题及答案详解(网校专用)
- 2025广东广州市花都区汽车客运站有限公司招聘会计人员人员考前自测高频考点模拟试题及参考答案详解
- 2025湖南娄底市纪委监委、市委巡察办所属事业单位公开选调、公开招聘工作人员9人模拟试卷带答案详解
- 2025福建福州经济技术开发区市政工程中心第二季度招聘编外人员2人模拟试卷及参考答案详解1套
- 2025年4月广东深圳市光明区教育局招聘公办幼儿园工作人员模拟试卷及答案详解(典优)
- 2025广西崇左市壮族博物馆招聘讲解员1人模拟试卷(含答案详解)
- 2025年伊春金林区公益性岗位招聘16人考前自测高频考点模拟试题附答案详解(考试直接用)
- 2025呼伦贝尔莫力达瓦达斡尔族自治旗卫生健康系统校园引进人才模拟试卷及答案详解(网校专用)
- 订购包装木箱合同协议
- 订货系统培训课件
- 商混站驾驶员泵工奖罚制度
- 复杂牙拔除的临床操作
- 7.1 力(课件)2024-2025学年人教版八年级物理下册
- 铁艺制作合同范例
- 腰椎骨水泥围手术期的护理
- 2025年日历表(A4版含农历可编辑)
- T-JAASS 128-2024 高标准农田排灌系统生态化建设技术规范
- 2024版标准工厂租赁合同模板
- CIM登峰系列方冰制冰机技术服务手册
评论
0/150
提交评论