




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,数据预处理,主要内容,2.1为什么要预处理数据2.2数据清理2.3数据集成2.4数据变换2.5数据归约,2,3,2.1数据预处理的原因,现实世界的数据,不完整的缺少属性值或某些感兴趣的属性,或仅包含聚集数据。e.g.,occupation=含噪声的包含错误或存在偏离期望的离群值。e.g.Salary=-10不一致的采用的编码或表示不同e.g.过去的等级:“1,2,3”,现在的等级:“A,B,C”,4,数据错误的不可避免性,数据输入和获得过程数据错误数据传输过程所引入的错误据统计有错误的数据占总数据的5%左右,由于现实世界的数据一般是脏的、不完整的和不一致的,且一些错误不可避免。因此必须先进行预处理,改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。,6,数据预处理的形式,数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致数据集成集成多个数据库、数据立方或文件数据变换规范化和聚集数据归约简化数据、但产生同样或相似的结果,数据预处理的形式,2.2数据清理,数据清理的任务:填充缺失的值光滑噪声并识别离群点纠正数据中的不一致,9,忽略元组人工填写空缺值:工作量大,可行性低使用一个全局常量填充空缺值:将空缺的属性值用一个常数替代,比如“unknown”使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用回归、贝叶斯公式或者判定树推测空缺值。这是最常用的一种方法。,2.2.1如何处理空缺值,10,1.分箱2.回归:通过让数据适应回归函数来平滑数据3.聚类:将类似的值聚集为簇,并且去除孤立点4.计算机和人工检查结合:计算机检测可疑数据,然后对它们进行人工判断,2.2.2噪声数据,11,分箱法光滑数据,price的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34划分为(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱边界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25,34,回归,x,y,y=x+1,X1,Y1,Y1,聚类,聚类将类似的值聚成簇。直观的,落在簇集合之外的值视为离群点,2.3数据集成,数据集成合并多个数据源中的数据,存放在一个一致的数据库(如数据仓库)中。源数据可能包括多个数据库,数据立方体或一般文件。数据集成将数据转换或统一成适合于挖掘的形式。,15,1.实体识别e.g.A.cust_id=B.customer_no?元数据可帮助避免错误2.冗余问题比如一个属性可以由另一个表推导出。相关分析3.数据值冲突的检测与处理比如重量属性在一个系统中以公制单位存放,在另一个系统中以英制单位存放。表示、比例或编码不同,2.3.1集成需要注意的问题,属性的相关性分析,属性A、B之间的相关性可用下式度量:其中,n是元组的个数。(1)如果值0,则A、B正相关,意味着A的值随B的值增加而增加。该值越大,一个属性蕴含另一个的可能性就越大。因此,一个很大的值表明A(或B)可以作为冗余而被去掉。(2)值=0A和B独立的,不相关(3)值0负相关,一个属性阻止另一个属性出现,17,平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。聚集:对数据进行汇总或聚集。数据概化:使用概念分层,用高层概念替换低层或“原始”数据。规范化:将属性数据按比例缩放,使之落入一个小的特定区间。最小-最大、Z-Score、小数定标规范化。属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。,2.4数据变换,规范化,1)最小-最大规范化:将原始数据v经线性变换,映射到区间new_minA,new_maxA例如:income的最大,最小值分别为9000,2000,则将它的值映射到0,1时,若income的值6800规范后为:(6800-2000)/(9000-2000)*(1-0)+0=0.686,规范化,2)z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。在最大最小值未知适用,3)小数定标规范化,其中,j是使Max(|)1的最小整数示例:假设属性A的取值范围是从-986到917。属性A绝对值的最大值为986。采用十基数变换规格化方法,就是将属性A的每个值除以1000(即j=3)因此-986映射为-0.986。,2.5数据归约DataReduction,什么是数据归约?所谓数据规约,也就是数据消减,目的是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果为什么需要进行数据归约?1)数据仓库中往往存有海量数据2)在整个数据集上进行复杂的数据分析与挖掘需要很长的时间,数据归约策略,(1)数据立方体聚集:对数据立方体做聚集操作(2)维归约:检测并删除不相关、弱相关或冗余的属性和维。(3)数据压缩:(4)数值归约:用规模较小的数据表示、替换或估计原始数据(5)离散化和概念分层产生属性的原始数值用区间值或较高层的概念替换注意:用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间,2.5.1数据立方体聚集,数据立方体存储多维聚集信息,提供对预计算的汇总数据进行快速访问。如:立方体内存储季度销售额,若对年销售额感兴趣,可对数据执行聚集操作,例如sum()等。,2.5.2维归约,通过删除不相关或冗余的属性(或维)减小数据集。其目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。通常采用压缩搜索空间的启发式算法。逐步向前选择逐步向后删除向前选择和向后删除的结合决策树归纳,2.5.3数据压缩,分为无损和有损两种。主要方法:小波变换(DWT):有损主成分分析(PCA):有损,小波变换,输入数据向量D,小波变换会将它转换为另一个向量D虽然两个向量长度相同,但是小波变换后的向量D可以裁减。用户根据实际需要保留其中一部分数据,从而实现了数据的压缩。,主要成分分析,假设需要压缩的数据是由N个数据向量组成,共有k个维度(属性或特征)。主要成分分析则是从这N个向量里找出最能代表数据的c个正交向量。这样,原来的数据就投影到该较小的集合中,导致数据压缩。,2.5.4数值归约,通过选择替代的、“较小的”数据表示形式来减少数据量。可以分为参数方法和非参数方法。参数方法:是利用一个模型,通过计算获得原来的数据,因此只需要存储模型的参数即可常用方法:回归(regression)和对数线性模型非参数方法:不使用模型常用方法:直方图、聚类、抽样,线性回归模型,线性回归方法是利用一条直线模型对数据进行拟合。例如:利用自变量X的一个线性函数可以拟合因变量Y的输出,其线性函数模型为:Y=+X此时,我们只需要存储X的数据即可,根据这个模型,就可以预测出Y的取值。,聚类,1.首先,将数据划分为群或簇,使得在每一个簇中的对象“类似”,但与其他簇中的对象“不类似”。2.其次,为这些簇赋值,所有包含在同一个簇中的对象的值相同。注意:如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界线模糊,则方法无效。,例:下图显示的150朵鸢尾花花萼长度的相关数据,利用聚类的方式对数据进行处理,现用聚类方法归约数据,抽样,用数据的小得多的随机样本(子集)表示大型数据集。抽样方法s个样本无放回简单随机抽样(SRSWOR)s个样本有放回简单随机抽样(SRSWR)聚类抽样分层抽样,2.5.5数据离散化和概念分层产生,1.数据离散化将属性(连续取值)域值范围分为若干区间,每个区间对应一个离散值2.为什么进行离散化?1)在机器学习和数据挖掘中,很多算法如决策树、关联规则及基于粗糙集理论的许多方法,是用来处理离散型数据的,对于连续型数据却不适用;另外,有些算法即使能处理连续型数据,挖掘和学习也没有处理离散型数据有用和有效。2)离散化后可以达到归约数据的目的。,概念分层(concepthierarchy):通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据,数值数据的离散化,典型方法(所有方法均可递归应用)1.分箱(binning)分箱技术递归的用于结果划分,可以产生概念分层2.直方图分析(histogram)直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层3.聚类分析将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点4.基于熵的离散化5.通过自然划分分段,通过自然划分分段,将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。聚类分析产生概念分层可能会将一个工资区间划分为:51263.98,60872.34通常数据分析人员希望看到划分的形式为50000,60000自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间,自然划分的3-4-5规则,规则的划分步骤:如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(72,3,2)如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;数据集中可能出现特别大的正值和特别小的负值,最高层分段简单地按最大和最小值可能为了出现结果扭曲。可以在顶层分段时,选用一个能够代表大多数数据的区间。,3-4-5规则例子,(-$4000-$5,000),第四步,分类数据的概念分层生成,分类数据是指无序的离散数据,它有有限个值(可能很多个)。分类数据的概念分层生成方法:1)由用户或专家在模式级显式地说明属性的部分序比如关系数据库的地点location属性可能包含以下属性:street,city,province_or_state和country。可以在模式级说明一个全序如streetcityprovince_or_statecountry,从而很容易的构造层次结构。,2)通过显示数据分组说明分层结构的一部分这是概念层次树的一个手工构造方法。在大规模数据库中,想要通过穷举所有值而构造一个完整概层次树是不切实际的,但可以对其中一部分中间层数据,显示的指出分组。例如:在构造了省和国家的层次树后,这时可以手工加入:安徽、江苏、山东华东地区;广东、福建华南地区等“地区”中间层次。,3)说明属性集,但不说明它们的偏序主要是利用系统自动产生属性的序,构造有意义的概念分层。由于一个较高的概念通常包含若干从属的较低层的概念,定义在高概念层的属性与定义在低概念层的属性相比,通常包含较少数目的不同值。分层规则:一个属性的不同值个数越少,它在封层结构中的层越高;越多,越处于最底层。,例:假设用户对于属性location选择了属性集:street(674399)、country(15)、city(3567)和province_or_state(365),但没有指定属性之间的层次。每个属性的不同值数目在括号中。location的概念分层可以如下步骤自动产生。首先,根据属性不同值个数,降序排
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025内蒙古大唐锡林浩特电厂招聘消防车驾驶员1人模拟试卷含答案详解
- 2025河南郑州市第六人民医院招聘模拟试卷及完整答案详解1套
- 2025内蒙古工业大学事业编制人员招聘20人模拟试卷附答案详解(考试直接用)
- 2025广西柳州市柳江中学参加广西师范大学2025届研究生毕业生春季专场双选会招聘11人考前自测高频考点模拟试题附答案详解
- 增生风险评估模型构建-洞察与解读
- 2025安徽六安市金安区引进事业单位紧缺急需人才20人模拟试卷带答案详解
- 2025广东医科大学招聘事业编制人员47人考前自测高频考点模拟试题附答案详解(考试直接用)
- 2025广西南宁马山县公安局第一次招聘警务辅助人员62人考前自测高频考点模拟试题及答案详解(名校卷)
- 进度模型实时自适应调整-洞察与解读
- 小麦节水栽培技术-洞察与解读
- 2025年中国零售用显示屏行业市场全景分析及前景机遇研判报告
- 吉林省长春市2024-2025学年七年级上学期生物月考试题(含答案)
- 2025至2030中国视觉点胶机市场运行状况与未来发展走势预测报告
- 心源性休克病人的护理
- 种草莓劳动课件
- 雀巢牛奶购销合同范本
- GB/T 37864-2019生物样本库质量和能力通用要求
- GA/T 952-2011法庭科学机动车发动机号码和车架号码检验规程
- 吊洞停止点检查记录表
- 以友辅仁教案
- “20道游标卡尺题目及答案”
评论
0/150
提交评论