第四章数据预处理PPT课件

上传人：闯*** IP属地：广东上传时间：2020-04-23 格式：PPT 页数：118 大小：1.48MB 积分：25 举报 版权申诉

已阅读5页，还剩113页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据仓库与数据挖掘主讲王名扬信息与计算机工程学院 2 引言目前数据挖掘的研究工作大都集中在算法的探讨而忽视对数据处理的研究事实上数据预处理对数据挖掘十分重要一些成熟的算法都对其处理的数据集合有一定的要求比如数据的完整性好冗余性小属性的相关性小等高质量的决策来自高质量的数据因此数据预处理是整个数据挖掘与知识发现过程中的一个重要步骤数据挖掘数据库中的知识挖掘 KDD 数据挖掘知识挖掘的核心数据清洗数据集成数据库数据仓库 Knowledge 任务相关数据选择数据挖掘模式评估第4章数据预处理 5 数据预处理的重要性数据预处理是数据挖掘的重要一环而且必不可少要使挖掘算法挖掘出有效的知识必须为其提供干净准确简洁的数据然而当今现实世界中的数据库极易受到噪声数据空缺数据和不一致性数据的侵扰多数为脏数据 1 杂乱性如命名规则的不同如性别 A数据库male 1 female 2B数据库male 男 female 女 C数据库male M female F 数据预处理的重要性 2 重复性同一客观事物在数据库中存在两个以上相同的物理描述假设某周刊有100000个订户邮件列表中0 1 的记录是重复的主要是因为同一个客户的名字可能有不同的写法如 JonDoe和JohnDoe 因此每周需要印刷和邮寄100份额外的刊物假设每份刊物每周的邮寄和印刷费用是两美元公司每年将至少浪费1万美元以上数据预处理的重要性 3 不完整性由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素数据记录可能会出现数据值的丢失或不确定原因可能有 1 有些属性的内容有时没有家庭收入参与销售事务数据中的顾客信息 2 有些数据当时被认为是不必要的 3 由于误解或检测设备失灵导致相关数据没有记录下来 4 与其它记录内容不一致而被删除 5 忽略了历史数据或对数据的修改数据预处理的重要性 4 噪声数据数据中存在着错误或异常偏离期望值如血压和身高为0就是明显的错误噪声数据的产生原因数据采集设备有问题在数据录入过程发生人为或计算机错误数据传输过程中出现错误由于命名规则或数据代码不同而引起的不一致数据预处理的重要性数据清理清洗去掉数据中的噪声纠正不一致数据集成将多个数据源合并成一致的数据存储构成一个完整的数据集如数据仓库数据变换转换将一种格式的数据转换为另一格式的数据如规范化数据归约消减通过聚集删除冗余属性或聚类等方法来压缩数据数据预处理的常见方法 11 注意上述的各种数据预处理方法并不是相互独立的而是相互关联的如消除数据冗余既可以看成是一种形式的数据清洗也可以看成是一种数据归约消减 4 1数据清洗4 2数据集成和变换4 3数据归约4 4数据离散化和概念分层第4章 14 学习目的掌握数据清洗的处理方法空缺噪声不一致掌握各种数据归约的方法理解数据离散化的方法 4 1数据清洗现实世界的数据一般是脏的不完整的和不一致的而数据清洗试图填充空缺的值识别孤立点消除噪声并纠正数据中的不一致性因此从如下几个方面介绍 1 空缺值 2 噪声数据 3 不一致数据 1 空缺值的处理 17 空缺值数据并不总是完整的数据库表中很多条记录的对应字段可能没有相应值比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时有些数据因为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上如何处理空缺值 1 忽略该元组若一条记录中有属性值被遗漏了则将该记录排除在数据挖掘之外尤其当类标号缺少时通常这样做假定挖掘任务涉及分类或描述但是当某类属性的空缺值所占百分比很大时直接忽略元组会使挖掘性能变得非常差如何处理空缺值 2 人工填写空缺值工作量大可行性低3 使用属性的平均值填充空缺值如所有顾客的平均收入为 1000 则使用该值替换income中的空缺值如何处理空缺值 4 使用一个全局变量填充空缺值如将空缺的属性值用同一个常数如 Unknown 替换如果空缺值都用 Unknown 替换当空缺值较多时挖掘程序可能误以为它们形成了一个有趣的概念因为它们都具有相同的值 Unknown 因此尽管该方法简单我们并不推荐它如何处理空缺值 5 使用与给定元组属同一类的所有样本的平均值适用于分类数据挖掘如将顾客按信用度分类则用具有相同信用度的顾客的平均收入替换income中的空缺值 6 使用最可能的值填充空缺值最常用可以利用回归贝叶斯计算公式或判定树归纳确定推断出该条记录特定属性最大可能的取值如利用数据集中其他顾客的属性构造一棵判定树预测income的空缺值 2 噪声数据的处理噪声数据噪声 noise 是一个测量变量中的随机错误或偏差引起噪声数据的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致如何处理噪声数据 1 分箱 binning 分箱方法通过考察邻居即周围的值来平滑存储数据的值存储的值被分布到一些桶或箱中由于分箱方法参考相邻的值因此它进行局部平滑如何处理噪声数据分箱的步骤首先排序数据并将它们分到等深等宽的箱中然后可以按箱的平均值按箱中值或者按箱的边界等进行平滑按箱的平均值平滑箱中每一个值被箱中的平均值替换按箱的中值平滑箱中的每一个值被箱中的中值替换按箱的边界平滑箱中的最大和最小值被视为箱边界箱中的每一个值被最近的边界值替换如何处理噪声数据等深分箱 binning 按记录数进行分箱每箱具有相同的记录数每箱的记录数称为箱的权重也称箱子的深度示例已知一组价格数据 15 21 24 21 25 4 8 34 28现用等深深度为3 分箱方法对其进行平滑以对数据中的噪声进行处理思考根据bin中值进行平滑的结果结果 Bin1 8 8 8 Bin2 21 21 21 Bin3 28 28 28 在该例中 price数据首先被划分并存人等深的箱中深度3 对于按箱平均值平滑箱中每一个值被箱中的平均值替换例如箱1中的值4 8和15的平均值是9 这样该箱中的每一个值被替换为9 对于按箱边界平滑箱中的最大和最小值被视为箱边界箱中的每一个值被最近的边界值替换类似地可以使用按箱中值平滑此时箱中的每一个值被箱中的中值替换如何处理噪声数据等宽分箱 binning 在整个属性值的区间上平均分布即每个箱的区间范围设定为一个常量称为箱子的宽度示例已知一组价格数据 15 21 24 21 25 4 8 34 28现用等宽宽度为10 分箱方法对其进行平滑以对数据中的噪声进行处理结果先排序 4 8 15 21 21 24 25 28 341 划分为等宽度箱子Bin1 4 8 Bin2 15 21 21 24 25 Bin3 28 342 根据均值进行平滑Bin1 6 6 Bin2 21 21 21 21 21 Bin3 31 31 3 根据中值进行平滑Bin1 6 6 Bin2 21 21 21 21 21 Bin3 31 314 根据边界进行平滑 Bin1 4 8 Bin2 15 25 25 25 25 Bin3 28 34 练习已知客户收入属性income排序后的值人民币元 800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000要求分别用等深分箱方法箱深为4 等宽分箱方法宽度为1000 对其进行平滑以对数据中的噪声进行处理 1 等深分箱结果 1 首先划分为等深的箱箱1 800 1000 1200 1500 箱2 1500 1800 2000 2300 箱3 2500 2800 3000 3500 箱4 4000 4500 4800 5000 2 按箱的平均值平滑结果为箱1 1125 1125 1125 1125 箱2 1900 1900 1900 1900 箱3 2950 2950 2950 2950 箱4 4575 4575 4575 4575 1 等深分箱结果 2 按箱的中值平滑结果为箱1 1100 1100 1100 1100 箱2 1900 1900 1900 1900 箱3 2900 2900 2900 2900 箱4 4650 4650 4650 4650 2 按箱的边界值平滑结果为箱1 800 800 1500 1500 箱2 1500 1500 2300 2300 箱3 2500 2500 3500 3500 箱4 4000 4000 5000 5000 2 等宽分箱结果 1 首先划分为等宽的箱箱1 800 1000 1200 1500 1500 1800 箱2 2000 2300 2500 2800 3000 箱3 3500 4000 4500 箱4 4800 5000 2 按箱的平均值平滑结果为箱1 1300 1300 1300 1300 1300 1300 箱2 2520 2520 2520 2520 2520 箱3 4000 4000 4000 箱4 4900 4900 2 等宽分箱结果 1 按箱的中值平滑结果为箱1 1350 1350 1350 1350 1350 1350 箱2 2500 2500 2500 2500 2500 箱3 4000 4000 4000 箱4 4900 4900 2 按箱的边界值平滑结果为箱1 800 800 800 1800 1800 1800 箱2 2000 2000 3000 3000 3000 箱3 3500 3500 4000 箱4 4800 5000 如何处理噪声数据 2 聚类 Clustering 相似或相邻近的数据聚合在一起形成各个聚类集合而那些位于聚类集合之外的数据对象被视为孤立点特点直接形成簇并对簇进行描述不需要任何先验知识通过聚类分析查找孤立点消除噪声如何处理噪声数据 3 计算机和人工检查结合计算机检测可疑数据然后对它们进行人工判断4 回归发现两个相关的变量之间的变化模式利用回归分析方法所获得的拟合函数帮助平滑数据及除去噪声许多数据平滑的方法也是涉及离散化的数据归约方法例如上面介绍的分箱技术减少了每个属性的不同值的数量另外概念分层是一种数据离散化形式也可以用于数据平滑例如 price的概念分层可以把price的值映射到inexpensive moderately priced和expensive 从而减少了挖掘过程所处理的值的数量注意 3 不一致数据的处理 40 不一致数据处理不一致数据的方式人工更正利用知识工程工具如如果知道属性间的函数依赖关系可以据此查找违反函数依赖的值数据字典在将不同操作性数据库中的数据进行集成时也会带来数据的不一致如一个给定的属性在不同的数据库中可能具有不同的名字如姓名在一个数据库中为Bill 在另一个数据库中可能为B 对此可根据数据字典中提供的信息消除不一致 4 2数据集成和变换数据挖掘所需要的海量数据集往往涉及多个数据源因此在信息处理之前需要合并这些数据源存储的数据如果原始数据的形式不适合信息处理算法的需要就要进行数据变换 1 数据集成将来自多个数据源的数据合并到一起 2 数据变换对数据进行规范化操作将其转换成适合于数据挖掘的形式 1 数据集成 43 数据集成数据集成将多个数据源中的数据整合到一个一致的存储中这些源可以是关系型数据库数据立方体或一般文件它需要统一原始数据中的所有矛盾之处如字段的同名异义异名同义单位不统一字长不一致等 44 数据集成集成过程中需要注意的问题模式集成问题冗余问题数据值冲突检测与消除 45 1 模式集成问题模式集成整合不同数据源中的元数据进行实体识别匹配来自不同数据源的现实世界的实体如如何确信一个数据库中的customer id和另一个数据库中的cust number是同一实体通常数据库的数据字典和数据仓库的元数据可帮助避免模式集成中的错误 46 2 数据冗余问题数据冗余问题同一属性值不同的数据库中会有不同的字段名一个属性可以由另外一个表导出如一个顾客数据表中的平均月收入属性可以根据月收入属性计算出来 47 2 数据冗余问题数据冗余问题有些冗余可以被相关分析检测到如果变量A B间具有较高的相关系数表明A或B可以作为冗余而去掉除了检查属性是否冗余外还要检查记录行的冗余 48 3 数据值冲突问题数据值冲突对现实世界的同一实体来自不同数据源的属性值可能不同产生的原因表示比例或编码不同如重量属性在一个系统中可能以公制单位存放而在另一系统中可能以英制单位存放同一商品的价格属性值不同地域采用不同价格单位不同学校的成绩单可能以百分制五分制及其他等级制来存放等等 2 数据变换 50 数据变换数据变换将数据转换成适合数据挖掘的形式涉及内容 1 平滑去掉数据中的噪声将连续的数据离散化分箱聚类回归 2 聚集对数据进行汇总和聚集Avg count sum min max 如每天销售额数据可以进行聚集操作以获得每月或每年的总额可用来构造数据立方体 51 数据变换数据变换将数据转换成适合数据挖掘的形式涉及内容 3 数据概化使用概念分层用更抽象更高层次的概念来取代低层次或数据层的数据对象如街道属性可以泛化到更高层次的概念如城市国家同样对于数值型的属性如年龄属性可以映射到更高层次的概念如年轻中年和老年 52 数据变换数据变换将数据转换成适合数据挖掘的形式涉及内容 4 规范化将数据按比例进行缩放使之落入一个特定的区域以消除数值型属性因大小不一而造成的挖掘结果的偏差如将工资收入属性值映射到 1 0 1 0 的范围内常用的方法最小最大规范化零均值规范化 z score规范化小数定标规范化规格化的目的是将一个属性取值范围影射到一个特定范围之内以消除数值性属性因大小不一而造成挖掘结果的偏差数据变换规范化在正式进行数据挖掘之前尤其是使用基于对象距离的挖掘算法时必须进行数据的规格化如对于一个顾客信息数据库中年龄属性或工资属性由于工资属性的取值比年龄属性的取值要大得多若不进行规格化处理基于工资属性的距离计算值将远远超过基于年龄属性的计算值这就意味着工资属性的作用在整个数据对象的距离计算中被错误放大了数据变换规范化 55 数据变换规范化数据规范化将数据按比例缩放至一个小的特定区间 1 最小最大规范化假定minA和maxA分别为属性A的最小和最大值则通过下面公式将A的值映射到区间 new min new max 中的v 例假定属性income的最小与最大值分别为 12000和 98000 可根据最小最大规范化方法将其范围映射到 0 1 如属性值 73600将变换为 73600 12000 98000 12000 1 0 0 0 716 56 数据变换规范化 2 z score规范化零均值规范化将属性A的值根据其平均值和标准差进行规范化常用于属性最大值与最小值未知或使用最小最大规范化方法会出现异常数据的情况其中 meanA standard devA分别为属性A取值的均值和标准差例假定属性income的平均值与标准差分别为 54000和 16000 使用z score规范化则属性值 73600将变换为 73600 54000 16000 1 225 57 数据变换规范化 3 小数定标规范化通过移动属性A的小数点位置进行规范化小数点的移动依赖于A的最大绝对值例假定A的取值范围 986 917 则A的最大绝对值为986 为使用小数定标规范化用1000 即j 3 除每个值这样 986被规范化为 0 986 其中 j是使Max v 1的最小整数规范化将原来的数据改变很多特别是上述的后两种方法有必要保留规范化参数如平均值和标准差如果使用z score规范化以便将来的数据可以用一致的方式规范化注意 59 数据变换数据变换将数据转换成适合数据挖掘的形式涉及内容 5 属性构造利用已有属性集构造出新的属性并加入到现有属性集中以帮助挖掘更深层次的模式知识提高挖掘结果的准确性如根据宽高属性可以构造一个新属性面积 4 3数据归约对大规模数据库内容进行复杂的数据分析常需要消耗大量的时间使得这样的分析变得不现实和不可行数据归约 datareduction 数据消减或约简是在不影响最终挖掘结果的前提下缩小所挖掘数据的规模数据归约技术可以用来得到数据集的归约表示它小得多但仍接近保持原数据的完整性对归约后的数据集进行挖掘可提高挖掘的效率并产生相同或几乎相同的结果 4 3数据归约数据归约的标准用于数据归约的时间不应当超过或抵消在归约后的数据集上挖掘节省的时间归约得到的数据比原数据小得多但可以产生相同或几乎相同的分析结果 4 3数据归约数据归约的策略如下数据立方体聚集维归约数据压缩数值归约离散化和概念分层生成 1 数据立方体聚集 64 数据立方体聚集 2 维归约 66 维归约维归约主要用于检测并删除不相关弱相关或冗余的属性维用于数据分析的数据可能包含数以百计的属性其中大部分可能与挖掘任务不相关是冗余的如分析顾客是否会在商场购买mp3播放器诸如顾客的电话号码等属性多半是不相关的维归约通过删除不相关的属性或维而有效减少数据库的规模最常用的方法属性子集选择 67 维归约属性子集选择目标找出最小属性集确保新数据集的概率分布尽可能接近原数据集的概率分布如何找出原属性的一个好的子集d个属性有2d个可能的子集穷举搜索找出属性的最佳子集可能是不现实的特别是当d的数目很大时 68 维归约属性子集选择启发式算法对于属性子集选择通常使用压缩搜索空间的启发式算法它们的策略是做局部最优选择期望由此导致全局最优解 69 维归约属性子集选择常用的启发式方法 1 逐步向前选择该过程由空属性集开始选择原属性集中最好的属性并将它添加到该集合中在其后的每一次迭代将原属性集剩下的属性中的最好的属性添加到该集合中如遗传算法是一种基于生物进化论和分子遗传学的全局随机搜索算法 70 维归约属性子集选择常用的启发式方法 2 逐步向后删除由整个属性集开始每一步都删除尚在属性集中的最坏属性直到无法选择出最坏属性或满足一定的阈值为止如粗糙集理论利用定义的数据集合U上的等价关系对U进行划分对于数据表来说这种等价关系可以是某个属性或者是几个属性的集合因此按照不同属性的组合就把数据表划分成不同的基本类在这些基本类的基础上进一步求得最小约简集 71 维归约属性子集选择常用的启发式方法 3 向前选择和向后删除的结合将向前选择和向后删除方法结合在一起每一步选择一个最好的属性并在剩余属性中删除一个最坏的属性 72 维归约属性子集选择常用的启发式方法 4 判定树归纳在判定树的每个节点算法选择最好的属性将数据划分成类当判定树归纳用于属性子集选择时不出现在树中的所有属性假定是不相关的出现在判定树中的属性形成归约后的属性子集 3 数据压缩 75 数据压缩数据压缩就是利用数据编码或数据转换将原来的数据集合压缩为一个较小规模的数据集合压缩算法分为两类无损压缩 loseless 可以不丢失任何信息地还原压缩数据如字符串压缩有损压缩 lossy 只能重新构造原数据的近似表示如音频视频压缩 76 77 数据压缩两类 1 无损压缩指使用压缩后的数据进行重构或者叫做还原解压缩重构后的数据与原来的数据完全相同即数据经过压缩后信息不受损失还能完全恢复到压缩前的原样压缩软件 Zip或RAR 78 数据压缩两类 2 有损压缩又称破坏型压缩即将次要的信息数据压缩掉牺牲一些质量来减少数据量使压缩比提高常用于压缩声音图像以及视频音频能够在没有察觉的质量下降情况下实现10 1的压缩比视频能够在稍微观察质量下降的情况下实现如300 1这样非常大的压缩比常见算法 JPEG MPEG MP3等算法机理小波变换或主成份分析 4 数值归约 80 数值归约数值归约通过选择替代的较小的数据表示形式来减少数据量 1 有参方法通常使用一个参数模型来评估数据该方法只需要存储参数而不是实际数据能大大减少数据量但只对数值型数据有效如线性回归方法最小二乘法 Y X 81 数值归约数值归约通过选择替代的较小的数据表示形式来减少数据量 2 无参方法常见的有直方图聚类取样 82 1 直方图直方图根据属性的数据分布将其分成若干不相交的区间每个区间的高度与其出现的频率成正比例下面的数据是AllElectronics通常销售的商品的单价表已排序 1 1 5 5 5 5 5 8 8 10 10 10 10 12 14 14 14 15 15 15 15 15 15 18 18 18 18 18 18 18 18 20 20 20 20 20 20 20 21 21 21 21 25 25 25 25 25 28 28 30 30 30 试用直方图表示以压缩数据 83 1 直方图频率值对应关系图 84 2 聚类聚类将原数据集划分成多个群或聚类原则同类中的数据彼此相似不同类中的数据彼此不相似相似通常用空间距离度量聚类的有效性依赖于实际数据的内在规律 85 3 取样取样抽样允许用数据的较小随机样本子集表示大的数据集取样方法不放回简单随机取样 SimpleRandomSamplingWithoutReplacement SRSWOR 放回简单随机取样 SimpleRandomSamplingWithReplacement SRSWR 聚类取样先聚类后取样分层取样先分层后取样取样 SRS SRSWOR 简单随机选样不回放 SRSWR 简单随机选样回放 87 取样聚类采样首先将大数据集D划分为M个互不相交的聚类然后再从M个类中的数据对象分别进行随机抽取可最终获得聚类采样的数据子集聚类采样方法示意图 88 聚类取样 89 取样分层取样首先将大数据集D划分为互不相交的层然后对每一层简单随机选样得到D的分层选样如根据顾客的年龄组进行分层然后再在每个年龄组中进行随机选样从而确保了最终获得分层采样数据子集中的年龄分布具有代表性 90 分层取样分层采样方法示意图 4 4数据离散化和概念分层三种类型的属性值标称型名称型名义型数值来自于无序集合如性别地名人名等序数型数值来自于有序集合如奖学金的等级职称分布等连续型实数值如温度体重等离散化技术通过将属性连续取值阈值范围分为若干区间来帮助消减一个连续取值属性的取值个数如将气温划分为冷正常热 4 4数据离散化和概念分层概念分层概念分层定义了一组由低层概念到高层概念集的映射允许在各种抽象级别上处理数据从而在多个抽象层上发现知识用较高层概念替换低层次如年龄的数值的概念以此来减少取值个数虽然一些细节数据在泛化过程中消失了但这样所获得的泛化数据或许更易于理解更有意义另外在消减后的数据集上进行信息处理显然效率更高概念分层结构可以用树来表示树的每个节点代表一个概念 93 概念分层离散化方法常用的离散化方法 1 分箱属性的值可以通过将其分配到各分箱中而将其离散化利用每个分箱的均值或中数替换每个分箱中的值利用均值或中数进行平滑循环应用这些操作处理每次操作结果就可以获得一个概念层次树离散化方法常用的离散化方法 2 直方图等宽直方图中将数据划分成相等的部分或区间如 0 100 100 200 200 300 等深直方图值被划分使得每一部分包括相同个数的样本离散化方法常用的离散化方法 3 聚类分析聚类算法可以将数据集划分为若干类或组每个类构成了概念分层树的一个节点每个类还可以进一步分解为若干子类从而构造更低水平的层次当然类也可以合并起来构成更高层次的概念水平 4 基于熵的离散化熵是一种信息度量的方法5 通过自然划分分段基于熵的离散化思想考虑类别信息递归计算信息熵产生分层的离散化 I S 初始不确定性基于熵的离散化思想考虑类别信息递归计算信息熵产生分层的离散化给定一个数据元组的集合S 基于熵对S离散化的方法如下 1 属性A中的每个取值可被认为是一个潜在的区间边界或阈值T 例如 A的取值v可以将样本S划分为分别满足A v和A v两个子集这样就创建了一个二元离散化 2 对于数据集S 根据所划分子集而获得的最大熵增益来选择阈值划分后数据集S提供的信息如下 E A 学习属性A之后的不确定性基于熵的离散化其中S1和S2分别对应于S中满足条件 A T与A T 的样本对给定的集合熵函数Ent根据集合中样本的类分布来计算例如给定m个不同类别 S1的熵就是其中pi为类i在S1中出现的概率等于S1中类i的样本除以S1中样本的总行数同理计算Ent S2 3 确定阈值的过程递归的用于所得到的每个划分直到满足某个终止条件如 Ent S I S T 信息增益不能低于基于熵的离散化与迄今为止提到的其他方法不同基于熵的离散化使用了类别信息这使得它更有可能将区间边界定义在准确位置有助于提高分类的准确性此处用到的信息增益和信息熵也用于决策树归纳自然划分分段思想将数值区域划分为相对一致的易于阅读的看上去更直观或自然的区间聚类分析产生的概念分层可能会将一个工资区间划分为 51263 98 60872 34 而通常数据分析人员希望看到划分的形式为 50000 60000 自然划分的3 4 5规则常可以将数值数据划分为相对一致和自然的区间一般的根据最重要的数字上的值区域递归的和逐层的将给定的数据区域划分为3 4或5个等宽区间自然划分的3 4 5规则规则的划分步骤如果一个区间最高有效位上跨越3 6 7或9个不同的值就将该区间划分为3个等宽子区间 7 2 3 2 如果一个区间最高有效位上跨越2 4 或8个不同的值就将该区间划分为4个等宽子区间如果一个区间最高有效位上跨越1 5 或10个不同的值就将该区间划分为5个等宽子区间将该规则递归的应用于每个子区间产生给定数值属性的概念分层自然划分的3 4 5规则规则的划分步骤对于数据集中出现的最大值和最小值的极端分布为了避免上述方法出现的结果扭曲可以在顶层分段时选用一个大部分的概率空间 e g 5 95 例如在资产数据集中少数人的资产可能比其他人高几个数量级如果按照最高资产值进行分段可能导致高度倾斜的分层此时可以在顶层分段时选用一个大部分的概率空间 e g 5 95 越出顶层分段的特别高和特别低的部分采用类似的规则划分方法形成单独的区间示例 3 4 5规则假定AllElectronics所有分部1999年的利润覆盖了一个很宽的区间从 351 00 到4700 要求利用3 4 5规则自动构造利润属性的一个概念层次树示例 3 4 5规则思路设在上述范围取值为5 至95 的区间为 159 至1838 应用3 4 5规则的具体步骤如下 1 根据以上信息在利润数据集中最小和最大值分别为 MIN 351 MAX 4700 而根据以上分析对于分段的顶层或第一层要考虑的最低 5 和最高 95 的值是 LOW 159 HIGH 1838 2 依据LOW和HIGH及其取值范围确定最高有效位为1000 LOW按1000 美元向下取整得到LOW 1000 HIGH按1000 向上取整得到 HIGH 2000 示例 3 4 5规则 3 由于该区间在最高有效位上跨越了3个值即 2000 1000 1000 3 根据3 4 5规则该区间被划分成3个等宽区间 1000 0 0 1000 1000 2000 这代表分层结构的最顶层示例 3 4 5规则 4 现在考察原数据集中MIN和MAX值与最高层区间的联系由于MIN值落在区间 1000 0 因此调整左边界对MIN取整后的 400 所以第一个区间调整为 400 0 而由于MAX值不在最后一个区间 1000 2000 中因此需新建一个区间最右边区间对MAX取整后得5000 因此新区间为 2000 5000 因此最终概念树分层结构的最顶层包含4个区间 400 0 0 1000 1000 2000 2000 5000 示例 3 4 5规则 5 对上述每个区间递归应用3 4 5规则形成分层结构的下一个较低层第一个区间 400 0 划分为4个子区间 400 300 300 200 200 100 100 0 第二个区间 0 1000 划分为5个子区间 0 200 200 400 400 600 600 800 800 1000 第三个区间 1000 2000 划分为5个子区间 1000 1200 1200 1400 1400 1600 1600 1800 1800 2000 第四个区间

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第四章数据预处理PPT课件

文档简介

温馨提示

最新文档

评论

第四章 数据预处理PPT课件

文档简介

温馨提示

最新文档

评论

相关文档

第四章数据预处理PPT课件