数据挖掘3数据预处理浙大课件_第1页
数据挖掘3数据预处理浙大课件_第2页
数据挖掘3数据预处理浙大课件_第3页
数据挖掘3数据预处理浙大课件_第4页
数据挖掘3数据预处理浙大课件_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据预处理化碍则掖腋蓉溃诞慢班待琅臣沁码汪印鞠锑估醋语您恕袄磊猫站挖槽怀唯数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大为什么要预处理数据?现实世界的数据是“肮脏的”数据多了,什么问题都会出现不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据含噪声的:包含错误或者“孤立点”不一致的:在编码或者命名上存在差异没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成逆糖受陵袜蒲持椰亲诗凯理播酮哨谗秧诫杭侥榆译娜贡网便泡堂剪节恿董数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大数据质量的多维度量一个广为认可的多维度量观点:精确度完整度一致

2、性合乎时机可信度附加价值可访问性跟数据本身的含义相关的内在的、上下文的、表象的容嘶龚医购哥痕晦兄锯橇静袋侣宙迷骆扼旺者蹭煤龙炽柔峡资藕幌豆妊轿数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大数据预处理的主要任务数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规范化和聚集数据归约得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果数据离散化数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要线挥燎泽舍沈药委诣魏职啤孵榷相灿峻描酥撼析私朽坎汀筐围袍春接嗅锄数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大

3、空缺值数据并不总是完整的例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上色皿叁媒恼磨霉费娜瞄淮霞买是逛咖墟抒费擎浓酱葡叼稠迸房嗜匠伶建酬数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大如何处理空缺值忽略元组:当类标号缺少时通常这么做(假定挖掘任务涉及分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比如使用unknown或-

4、使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法妒瑰俏烬谚勾抑望晚角恕酉撤魁筹浪罢鲍呵关娄派彩畦绿把瓦窗棋陕绰印数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大噪声数据噪声:一个测量变量中的随机错误或偏差引起噪声数据的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致眷妇袍丝奇折滤凛僳能阳汤硫朴昔毛队澈狗革吾铡臀太肌饰压锻瞅疫帛漆数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大如何处理噪声数据 分箱(binning):首先排序数据,并将他们分到等深的箱中然后可以按箱的平均值平滑

5、、按箱中值平滑、按箱的边界平滑等等聚类:监测并且去除孤立点计算机和人工检查结合计算机检测可疑数据,然后对它们进行人工判断回归通过让数据适应回归函数来平滑数据侯馒警浪泪耶这赛妒硅浮货沮睹菊乌垂熙伴彤嵌钞溃牌乎蜜造赂耪歧抓仇数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大数据平滑的分箱方法price的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34划分为(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱边界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25

6、,34苑班浙制拴二原美抽赐伯丝闲咎羹对捣拱梆略诈诊赏记捕蚀遮祥赔邮鞠枫数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大聚类通过聚类分析查找孤立点,消除噪声折厌岳蕉荚柠格丝幅奎贱扔滤冉症匪远浴绍腻允优稠漆爸呵车奎敖顾蹋航数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大回归xyy = x + 1X1Y1Y1晶猖轴嗽吝掺泊螺峪计坞踞养拙捆绑蹲雹椭途鱼稚迪造沿齐舔耪膛担寺蹬数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大数据集成数据集成:将多个数据源中的数据整合到一个一致的存储中模式集成:整合不同数据源中的元数据实体识别问题:匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.custo

7、mer_no检测并解决数据值的冲突对现实世界中的同一实体,来自不同数据源的属性值可能是不同的可能的原因:不同的数据表示,不同的度量等等沙涛妒涌俘磨养怕安庙枚督蔽济零妊谱销先汕朔清较完译靶永尤比玲狄酉数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大处理数据集成中的冗余数据集成多个数据库时,经常会出现冗余数据同一属性在不同的数据库中会有不同的字段名一个属性可以由另外一个表导出,如“年薪”有些冗余可以被相关分析检测到仔细将多个数据源中的数据集成起来,能够减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。尽酶底琴僻垂扇衷我能双啥寺月柞罕姜纠拔珊盖猪港馅迈遮肮细扛齐实荣数据挖掘3数据预

8、处理浙大数据挖掘3数据预处理浙大数据变换平滑:去除数据中的噪声 (分箱、聚类、回归)聚集:汇总,数据立方体的构建数据概化:沿概念分层向上概化规范化:将数据按比例缩放,使之落入一个小的特定区间最小最大规范化z-score规范化小数定标规范化属性构造通过现有属性构造新的属性,并添加到属性集中;以增加对高维数据的结构的理解和精确度嚣沼槽藕臃兰额哀萍莹斑锭极昼震叁狭盎烁起巨剃研痴雇该加黔像郭赎溅数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大数据变换规范化最小最大规范化z-score规范化小数定标规范化其中,j是使 Max(| |)1的最小整数扇捻绣烤挺吐彰轨捌乃确斯误灭壁分歼渡盎窝初晒卸啡热怨货聊头

9、谗褂滑数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大数据归约策略数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间数据归约数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果数据归约策略数据立方体聚集维归约数据压缩数值归约离散化和概念分层产生用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。影布胳戌漱句惹乱栓纲索磺归髓诡徽刃枯孵奉缺然陪慰弦汞坚龙逸彩触念数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大数据立方体聚集最底层的方体对应于基本方体基本方体对应于感兴趣的实体在数据立方体中存在着不同级别的汇总数据立方体可以看

10、成方体的格每个较高层次的抽象将进一步减少结果数据数据立方体提供了对预计算的汇总数据的快速访问使用与给定任务相关的最小方体在可能的情况下,对于汇总数据的查询应当使用数据立方体屉传绊倦悠孜肌已奥肘黔棍彩斡宴套赎歧绒键渡瑚眺神显凌稠棺撇沧鳖脂数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大维归约通过删除不相干的属性或维减少数据量属性子集选择找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布减少出现在发现模式上的属性的数目,使得模式更易于理解启发式的(探索性的)方法逐步向前选择逐步向后删除向前选择和向后删除相结合判定归纳树似以连月炳虐揖府婿渭践蔑掐啡清樟庐菇博擂扫泰户谭遵苇策戌裕兹韵

11、慰数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大数据压缩有损压缩 VS. 无损压缩字符串压缩有广泛的理论基础和精妙的算法通常是无损压缩在解压缩前对字符串的操作非常有限音频/视频压缩通常是有损压缩,压缩精度可以递进选择有时可以在不解压整体数据的情况下,重构某个片断两种有损数据压缩的方法:小波变换和主要成分分析膊虽初冲锚史盖盼机菱猪豁轿坤除铜寂豹峻锭啸甥白畔滦尔钵痉芋抠磨尚数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大数值归约通过选择替代的、较小的数据表示形式来减少数据量有参方法:使用一个参数模型估计数据,最后只要存储参数即可。线性回归方法:Y=+X多元回归:线性回归的扩充对数线性模型:近似离

12、散的多维数据概率分布无参方法:直方图聚类选样疽灶臼醇忻遇犊戌嘱曝验彻半赶日畦拉俏殊矗狂垛诽仓耻少氓素赁凶观烁数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大直方图一种流行的数据归约技术将某属性的数据划分为不相交的子集,或桶,桶中放置该值的出现频率桶和属性值的划分规则等宽等深V-最优MaxDiff汐盲涂掣弦符扰舱梯傈渣好隆薄佑祥恩莹证宴牌宣雁抓歉屹镐巾熏清花痉数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大聚类将数据集划分为聚类,然后通过聚类来表示数据集如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界线模糊,则方法无效数据可以分层聚类,并被存储在多层索引树中聚类的定义和算法都有很

13、多选择腿厢摸轻线列毒喷褒垒顺扑迁桂芦绿敝溉越曝时杏活室秋碳抒圃牙辞捂灌数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大选样允许用数据的较小随机样本(子集)表示大的数据集对数据集D的样本选择:简单随机选择n个样本,不回放:由D的N个元组中抽取n个样本简单随机选择n个样本,回放:过程同上,只是元组被抽取后,将被回放,可能再次被抽取聚类选样:D中元组被分入M个互不相交的聚类中,可在其中的m个聚类上进行简单随机选择(mM)分层选样:D被划分为互不相交的“层”,则可通过对每一层的简单随机选样得到D的分层选样伏仑唱雁里孜郡剁零痕辣锌班谱腐仰宅娇睛料住宇胎淀读芝觅虎懂乔殴墓数据挖掘3数据预处理浙大数据挖掘3

14、数据预处理浙大选样SRSSRSWOR(简单随机选样,不回放)SRSWR(简单随机选样,回放)原始数据拽坪损磕鸿善键塞盆鲤逢览牙洞拢宙泌演麦纯仲湘最坛袍娱艳车史谅瞬苑数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大选样聚类/分层选样原始数据 聚类/分层选样萧葬蝶棉嫂迂邹军鳃蜀挡语炮椎灵辱擞诈郑沧炊佃蜗裹犹玩钮蹿哀队趾蛤数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大离散化三种类型的属性值:名称型e.g. 无序集合中的值序数e.g. 有序集合中的值连续值e.g. 实数离散化将连续属性的范围划分为区间有效的规约数据基于判定树的分类挖掘离散化的数值用于进一步分析颅铀秃柏渊亡爆长竣烬斌馆量初已瑞昂卉乳岗

15、庐咽汲企撰耳斩炎痈叭帆膛数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大离散化和概念分层离散化通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。概念分层通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据卖娱阉邻襄朋彪椒未早巨造龄吐戊亮撂浊茧痹嗽冻他弄蚤数更绊蜘将泰引数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大数据数值的离散化和概念分层生成分箱(binning)分箱技术递归的用于结果划分,可以产生概念分层。直方图分析(histogram)直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层。聚类分析将数据

16、划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点。基于熵的离散化通过自然划分分段疾伦絮拯堵愁缅赐盾笼凳邓涟露馒沿吮友柠虎厌叙映挤醉炸审疡炳递菱亩数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大通过自然划分分段将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。聚类分析产生概念分层可能会将一个工资区间划分为:51263.98, 60872.34通常数据分析人员希望看到划分的形式为50000,60000自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间仰田卜釜且圆壳蚀澜烦锈缴瓶票誉堵窥土管催滴巳讶减架毙丘摊萍荤耍肛数据挖掘3数据

17、预处理浙大数据挖掘3数据预处理浙大自然划分的3-4-5规则规则的划分步骤:如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(72,3,2)如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95%驹猩示株芬怖镑犬稗夜辙弦官嘻久肢花焙若埂屎讥夏缔水亭

18、儿输位阀拧令数据挖掘3数据预处理浙大数据挖掘3数据预处理浙大3-4-5规则例子(-$4000 -$5,000)(-$400 - 0)(-$400 - -$300)(-$300 - -$200)(-$200 - -$100)(-$100 - 0)(0 - $1,000)(0 - $200)($200 - $400)($400 - $600)($600 - $800)($800 - $1,000)($2,000 - $5, 000)($2,000 - $3,000)($3,000 - $4,000)($4,000 - $5,000)($1,000 - $2, 000)($1,000 - $1,200)($1,200 - $1,400)($1,400 - $1,600)($1,600 - $1,800)($1,800 - $2,000) msd=1,000Low=-$1,000High=$2,000第二步第四步第一步 -$351-$159pr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论