版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,数据预处理,主要内容,2.1 为什么要预处理数据 2.2 数据清理 2.3 数据集成 2.4 数据变换 2.5 数据归约,2,3,2.1 数据预处理的原因,现实世界的数据,不完整的 缺少属性值或某些感兴趣的属性,或仅包含聚集数据。 e.g., occupation= 含噪声的 包含错误或存在偏离期望的离群值。 e.g. Salary = -10 不一致的 采用的编码或表示不同 e.g.过去的等级: “1,2,3”, 现在的等级: “A, B, C”,4,数据错误的不可避免性,数据输入和获得过程数据错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左右,由于现实世界的数据一般是
2、脏的、不完整的和不一致的,且一些错误不可避免。因此必须先进行预处理,改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。,6,数据预处理的形式,数据清理 补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致 数据集成 集成多个数据库、数据立方或文件 数据变换 规范化和聚集 数据归约 简化数据、但产生同样或相似的结果,数据预处理的形式,2.2 数据清理,数据清理的任务: 填充缺失的值 光滑噪声并识别离群点 纠正数据中的不一致,9,忽略元组 人工填写空缺值:工作量大,可行性低 使用一个全局常量填充空缺值:将空缺的属性值用一个常数替代,比如“unknown” 使用属性的平均值填充空缺值 使
3、用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值:使用回归、贝叶斯公式或者判定树推测空缺值。这是最常用的一种方法。,2.2.1 如何处理空缺值,10,1.分箱 2.回归:通过让数据适应回归函数来平 滑数据 3.聚类:将类似的值聚集为簇,并且去除孤立点 4.计算机和人工检查结合:计算机检测可疑数据,然后对它们进行人工判断,2.2.2 噪声数据,11,分箱法光滑数据,price的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34 划分为(等深的)箱: 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34 用箱平均值平滑: 箱1:9,9,9 箱2
4、:22,22,22 箱3:29,29,29 用箱边界平滑: 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34,回归,x,y,y = x + 1,X1,Y1,Y1,聚类,聚类将类似的值聚成簇。直观的,落在簇集合之外的值视为离群点,2.3 数据集成,数据集成合并多个数据源中的数据,存放在一个一致的数据库(如数据仓库)中。 源数据可能包括多个数据库,数据立方体或一般文件。数据集成将数据转换或统一成适合于挖掘的形式。,15,1.实体识别 e.g. A.cust_id = B.customer_no ? 元数据可帮助避免错误 2.冗余问题 比如一个属性可以由另一个表推导出。 相关分析
5、3.数据值冲突的检测与处理 比如重量属性在一个系统中以公制单位存放,在另一个系统中以英制单位存放。 表示、比例或编码不同,2.3.1 集成需要注意的问题,属性的相关性分析,属性A、B之间的相关性可用下式度量: 其中,n是元组的个数。 (1)如果值0, 则A、B正相关,意味着A的值随B的值增加而增加 。该值越大,一个属性蕴含另一个的可能性就越 大。因此,一个很大的值表明A(或B)可以作为冗余而被去掉。 (2)值=0 A和B独立的,不相关 (3)值0 负相关,一个属性阻止另一个属性出现,17,平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。 聚集:对数据进行汇总或聚集。 数据概化:使用概念分层,
6、用高层概念替换低层或“原始”数据。 规范化:将属性数据按比例缩放,使之落入一个小的特定区间。最小-最大、Z-Score、小数定标规范化。 属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。,2.4 数据变换,规范化,1)最小-最大规范化:将原始数据v经线性变换,映射到区间new_minA, new_maxA 例如:income的最大,最小值分别为9000,2000,则将它的值映射到0,1时,若income的值6800规范后为: (6800-2000)/(9000-2000)*(1-0)+0=0.686,规范化,2) z-s
7、core规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。 在最大最小值未知适用,3)小数定标规范化,其中,j是使 Max(| |)1的最小整数 示例 :假设属性 A 的取值范围是从-986 到 917。属性 A 绝对值的最大值为 986。采用十基数变换规格化方法,就是 将属性 A的每个值除以1000(即j=3)因此-986映射为-0.986。,2.5 数据归约 Data Reduction,什么是数据归约? 所谓数据规约,也就是数据消减,目的是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果 为什么需要进行数据归约? 1)数据仓库中往往存有海量数据 2)在整个数
8、据集上进行复杂的数据分析与挖掘需要很长的时间,数据归约策略,(1)数据立方体聚集:对数据立方体做聚集操作 (2)维归约:检测并删除不相关、弱相关或冗余的属性和维。 (3)数据压缩: (4)数值归约: 用规模较小的数据表示、替换或估计原始数据 (5)离散化和概念分层产生 属性的原始数值用区间值或较高层的概念替换 注意:用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间,2.5.1 数据立方体聚集,数据立方体存储多维聚集信息,提供对预计算的汇总数据进行快速访问。 如:立方体内存储季度销售额,若对年销售额感兴趣,可对数据执行聚集操作,例如sum()等。,2.5.2 维归约,通过删除
9、不相关或冗余的属性(或维)减小数据集。 其目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。 通常采用压缩搜索空间的启发式算法。 逐步向前选择 逐步向后删除 向前选择和向后删除的结合 决策树归纳,2.5.3 数据压缩,分为无损和有损两种。 主要方法: 小波变换(DWT):有损 主成分分析(PCA):有损,小波变换,输入数据向量D,小波变换会将它转换为另一个向量D 虽然两个向量长度相同,但是小波变换后的向量D可以裁减。用户根据实际需要保留其中一部分数据,从而实现了数据的压缩。,主要成分分析,假设需要压缩的数据是由 N个数据向量组成, 共有k个维度(属性或特征)。主要
10、成分分析则是从这N个向量里找出最能代表数据的c个正交向量。这样,原来的数据就投影到该较小的集合中,导致数据压缩。,2.5.4 数值归约,通过选择替代的、“较小的”数据表示形式来减少数据量。 可以分为参数方法和非参数方法。 参数方法:是利用一个模型,通过计算获得原来的数据, 因此只需要存储模型的参数即可 常用方法:回归(regression )和对数线性模型 非参数方法:不使用模型 常用方法:直方图、聚类、抽样,线性回归模型,线性回归方法是利用一条直线模型对数据进行拟合。例如:利用自变量 X的一个线性函数可以拟合因变量Y的输出, 其线性函数模型为: Y=+ X 此时,我们只需要存储X的数据即可,
11、根据这个模型,就可以预测出Y的取值。,聚类,1.首先,将数据划分为群或簇,使得在每一个簇中的对象“类似”,但与其他簇中的对象“不类似”。 2.其次,为这些簇赋值,所有包含在同一个簇中的对象的值相同。 注意:如果数据可以组成各种不同的聚类,则该 技术非常有效,反之如果数据界线模糊,则方法无效。,例:下图显示的150朵鸢尾花花萼长度的相关数据,利用聚类的方式对数据进行处理,现用聚类方法归约数据,抽样,用数据的小得多的随机样本(子集)表示大型数据集。 抽样方法 s个样本无放回简单随机抽样(SRSWOR) s个样本有放回简单随机抽样(SRSWR) 聚类抽样 分层抽样,2.5.5 数据离散化和概念分层产
12、生,1.数据离散化将属性(连续取值)域值范围分为若干区间,每个区间对应一个离散值 2.为什么进行离散化? 1)在机器学习和数据挖掘中,很多算法如决策树、关联规则及基于粗糙集理论的许多方法,是用来处理离散型数据的,对于连续型数据却不适用;另外,有些算法即使能处理连续型数据,挖掘和学习也没有处理离散型数据有用和有效。 2)离散化后可以达到归约数据的目的。,概念分层(concept hierarchy) :通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据,数值数据的离散化,典型方法(所有方法均可递归应用) 1.分箱(binning) 分箱技术递归的用
13、于结果划分,可以产生概念分层 2.直方图分析(histogram) 直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层 3.聚类分析 将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点 4.基于熵的离散化 5.通过自然划分分段,通过自然划分分段,将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 聚类分析产生概念分层可能会将一个工资区间划分为:51263.98, 60872.34 通常数据分析人员希望看到划分的形式为50000,60000 自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间,自然划分的3-4-
14、5规则,规则的划分步骤: 如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(72,3,2) 如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间; 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间; 将该规则递归的应用于每个子区间,产生给定数值属性的概念分层; 数据集中可能出现特别大的正值和特别小的负值,最高层分段简单地按最大和最小值可能为了出现结果扭曲。可以在顶层分段时,选用一个能够代表大多数数据的区间。,3-4-5规则例子,(-$4000 -$5,000),第四步,分类数据的概念分层生成
15、,分类数据是指无序的离散数据,它有有限个值(可能很多个)。 分类数据的概念分层生成方法: 1)由用户或专家在模式级显式地说明属性的部分序 比如关系数据库的地点location属性可能包含以下属性:street,city,province_or_state和country。可以在模式级说明一个全序如streetcityprovince_or_state country,从而很容易的构造层次结构。,2)通过显示数据分组说明分层结构的一部分 这是概念层次树的一个手工构造方法。在大规模数据库中,想要通过穷举所有值而构造一个完整概层次树是不切实际的,但可以对其中一部分中间层数据,显示的指出分组。例如:在
16、构造了省和国家的层次树后,这时可以手工加入:安徽、江苏、山东华东地区;广东、福建华南地区等“地区”中间层次。,3)说明属性集,但不说明它们的偏序 主要是利用系统自动产生属性的序,构造有意义的概念分层。由于一个较高的概念通常包含若干从属的较低层的概念,定义在高概念层的属性与定义在低概念层的属性相比,通常包含较少数目的不同值。 分层规则:一个属性的不同值个数越少,它在封层结构中的层越高;越多,越处于最底层。,例:假设用户对于属性location选择了属性集:street(674399)、country(15)、 city(3567) 和province_or_state(365),但没有指定属性之间的层次。每个属性的不同值数目在括号中。 location的概念分层可以如下步骤自动产生。首先,根据属性不同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF 2388-2026水声材料声学性能参数测量系统(自由场法)校准规范
- 低压电器及元件装配工安全生产基础知识竞赛考核试卷含答案
- 电器附件零部件制造工岗前实践理论考核试卷含答案
- 炭极生产工发展趋势知识考核试卷含答案
- 煤调湿工安全操作强化考核试卷含答案
- 2026年火锅蘸料原料供应协议
- 会计实训技能试题及答案
- 《传播学概论》教学大纲
- 2026年长期护理保险失能评估与待遇支付题库
- 2026年清廉机关建设标准知识测试
- 拉萨市2026届高三第二次联考 英语+答案
- 外科非计划再次手术原因整改措施
- 敬重老师 主题班会课件
- 卫生统计报工作制度
- GA/T 2329-2025法庭科学虹膜图像相似度检验技术规范
- 低值易耗品管理办法
- 2026届福建省厦门市高三3月质检地理含答案
- 《生产安全事故分类与编码》27种事故类型现场处置卡课件
- 安全隐患报告奖惩制度范本
- 《铁路建设项目标准化管理手册》
- 学校食堂月度考核制度
评论
0/150
提交评论