版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、连续属性离散化连续属性离散化吴志强201512041.连续属性离散化的定义?2.进行离散化的目的?有什么好处?3.连续属性离散化方法有哪些?4.离散化结果的评价1 1、定义定义 连续属性离散化就是采取各种方法将连续的区间划分为小的区间,并将这连续的小区间与离散的值关联起来。 连续属性离散化的问题本质是:决定选择多少个分割点和确定分割点位置。2 2、连续属性离散化的目的连续属性离散化的目的 在实际数据库中存在较多的连续属性,而现有的很多数据挖掘算法只能处理离散型的属性,因此连续属性离散化是应用这些算法的前提。此外,有效的离散化能够减少算法的时间和空间开销、提高系统对样本的聚类能力、增强系统抗数据
2、噪音的能力以及提高算法的学习精度。连续属性离散化的好处连续属性离散化的好处减少给定连续特征值的个数相对连续特征更接近于知识层面的表达离散化的数据更易于理解,使用和解释很多不适用于连续型数据的算法得以适用可以有效地客服数据中隐藏的缺陷,使模型结果更加稳定离散化处理的一般过程离散化处理的一般过程1、对连续属性值按照某种指定的规则进行排序2、初步确定连续属性的划分断点3、按照某种给定的判断标准继续分割断点或合并断点4、如果第三步得到判定标准的终止条件,则终止整个连续 属性离散化过程,否则继续按第三步执行分类分类 属性离散化的方法有很多,基本上可分为三种分类方法:无监督离散化和有监督离散化。在离散化过
3、程中使用类信息的方法是有监督的,而不使用类信息的方法是无监督的。全局离散化和局部离散化。全局离散化指使用整个样本空间进行离散化,而局部离散化指在样本空间的一个区域内进行离散化。动态离散化和静态离散化。动态的离散化方法就是在建立分类模型的同时对连续属性进行离散化,而静态离散化方法就是在进行分类之前完成离散化处理。3 3、属性离散化的方法属性离散化的方法无监督离散化无监督离散化等宽分箱法等宽分箱法:将数据均匀划分成n等份,每份的间距相等。等频分箱法等频分箱法:把观察点均匀分为n等份,每份包含的观察点数相同。自定义法自定义法:根据研究目的,业务需求或数据分布情况进行分段。 优点:方法简单,易于操作
4、缺点:(1)需要人为地规定划分区间的个数。 (2)等宽法对异常点比较敏感,倾向于不均匀地把实例分布到各个箱中。 (3)等频法虽然避免了上述问题,却可能将具有相同类标号的相同特征值分入不同的箱中以满足箱中数据的固定个数的条件。* *异常点敏感问题异常点敏感问题 离散化前首先设定某个阈值将异常数据移除。方法1: 设定阈值为90%。将数据从小到大排序,移除全部数据最小的5%和最大的5%数据。方法2: 设定阈值为90%。将数据从小到大排序,然后对所有数据求和,并计算每个数据占总和的比例,移除最大的占比10%的数据。聚类分析的方法:聚类分析的方法: l首先是将连续属性的值用聚类算法(如K-means 算
5、法)划分成簇。l然后是将聚类得到的簇进行再处理,可分为自上而下的分裂策略或自下而上的合并策略。 缺点:需要指定簇的个数,从而决定产生的区间数。无监督离散化现状无监督离散化现状 现阶段,无监督的方法还比较少,在没有类信息的情况下,要得到好的离散化结果比较困难,并且离散化的结果也比较难衡量。但是实际数据集在多数情况下又是没有类标号的,我们可以考虑先使用聚类算法人为地为数据集添加类标号,然后再用添加了类标号的数据集进行离散化。属性离散化的方法属性离散化的方法有监督离散化有监督离散化基于熵的离散化方法:基于熵的离散化方法: 使用类别信息计算和确定分割点,是自顶向下的分裂技术。l步骤1:定义区间的熵;l
6、步骤2:把每个值看成分割点,将数据分成两部分,在多种可能的分法中寻找一种产生最小熵的分法;l步骤3:在分成的两个区间中,找较大熵的区间,继续步骤1;l步骤4:满足用户指定个数时,结束过程。 停止准则:l最小描述长度原则:选择分裂区间,使得理论尺寸与理论期望之和最小化。l共有信息理论:当前分裂不显著时停止分裂。Example:数据如下:信息计算如下:第一次分裂: 第一次分裂出现在断点3.5处 重复上述过程,得到最终的分段区间为: 2,3.5), 3.5,16.5), 16.5,19卡方分裂算法(自上而下):卡方分裂算法(自上而下): 把整个属性值区间当作一个离散的属性值,然后对该区间一分为二,即
7、把一个区间分为两个相邻的区间,每个区间对应一个离散的属性值,该划分可以一直进行下去,知道满足某种停止条件,其关键是划分点的选取。停止准则: 当卡方检验显著(P-值=)时,停止分裂区间;对其进行卡方检验,列联表如下:ABC2, 3.5)40263.5, 1966214106420计算得到chisq=3.8095,p值0.1489,接受原假设,A、B、C无显著差异。卡方合并算法(自下而上):卡方合并算法(自下而上): 把每一个属性值当作一个离散的属性值,然后逐个反复合并相邻的属性值,直到满足某种停止条件。关键要素是如何确定应该合并的相邻区间、最终的停止判断。停止准则: 当卡方检验不显著(P-值=
8、)时,继续合并相邻区间; 当卡方检验显著(P-值 )时,停止合并区间;对其进行卡方检验,列联表如下:ABC2 , 3.5)40263.5, 512035229计算得到chisq=2.25,p值0.3247,接受原假设,A、B、C有显著差异。 卡方检验方法的缺点:卡方检验方法的缺点: 应用卡方统计量检验两个对象是否相关时,需要人为设定置信水平参数,由统计学知识算出一个与计算量相比较的阈值。对于置信水平的设置要合理,过高会导致过分离散化,过低又会导致离散化不足。并且 每次循环只能归并两个区间,当样本集比较大时离散化速度较慢。离散化结果的评价离散化结果的评价完全离散化:指算法要能够完成数据集的多个连续属性的离散化处理。因为我们不太可能只需要对数据集的某一个连续属性进行离散化处理,除非数据集只包含一个连续属性。具有最简单的离散化结果:如果离散化处理完成后,属性空间的规模越小,由这些离散化处理所产生出来的数据所生成的规则越简单。因此,由这样的属性所获得的知识就更是通用。一致性:离散化处理应该最大程度保证经过离散化处理后所得到的数据集的一致性水平与原始数据集的一致性水平接近。预测精度:连续属性的最优离散化问题是一个NP难题。因此,人们只能试图获得一个次最优的离散化算法,在保证离散化结果性能要求的前提下,用尽可能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高一必修四的题目及答案
- 乡村题材短视频的传播策略研究-以网红“乡愁沈丹”为例
- 岩土工程详细介绍
- 2025年职业道德与卫生法律法规高频考题及答案(共210题)
- 2025年医院三基知识考试试题库及答案(共200题)
- 2025年叉车中级证考试题及答案
- 2025年智能电动车考试题及答案
- 2025年综合知识测试试卷及答案
- 串串火锅加盟合同范本
- 科目一考试题型型及答案
- 2025至2030中国农业机械化行业市场深度研究与战略咨询分析报告
- 压力管道年度检查报告2025.12.8修订
- 灯具制造工QC管理竞赛考核试卷含答案
- 2025年及未来5年市场数据中国氧化镍市场运行态势及行业发展前景预测报告
- 烟花仓储租赁合同范本
- 2025年《法律职业伦理》知识点总结试题及答案
- 2025年人力资源毕业论文人力资源毕业论文选题方向(四)
- 2025年信息安全工程师考试试题及答案
- 阿勒泰简介课件
- 化工设备基本知识培训
- 猫咖创业策划书模板范文
评论
0/150
提交评论