《机器学习从入门到精通》课件-第5章数据准备_第1页
《机器学习从入门到精通》课件-第5章数据准备_第2页
《机器学习从入门到精通》课件-第5章数据准备_第3页
《机器学习从入门到精通》课件-第5章数据准备_第4页
《机器学习从入门到精通》课件-第5章数据准备_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章

数据准备5.1数据探索5.2数据预处理5.1数据探索

5.1.1数据质量分析数据质量分析是数据探索的首要工作任务也是数据预处理的前提,是后期进行训练模型有效性和准确性的基础。数据质量分析的主要任务就是要检查数据中是否存在有脏数据。脏数据,一般是指不符合要求,以及不能直接进行相应分析的数据。常见的脏数据的表现形式有:缺失值、异常值、不一致的值、重复值以及含有特殊符号(如:#、@、&)的数据。5.1数据探索

1、缺失值在数据集中,缺失值所产生的原因有很多种可能,比如:在收集数据的时候,在填写数据时的遗漏,只填写了相关重要的数据,不重要的数据就没有填;在数据采集传输的过程中,由于设备的故障以及存储介质发生了故障,导致了数据的丢失等;还有一些情况是,这个属性值确实是不存在的,比如:对于一个孩童来说,在固定收入的属性中,确实是不存在的;另外还有一些情况是因为获取到这个信息的代价太大了,所以这个信息暂时的无法获取等。在数据探索阶段对缺失值分析,只需要统计缺失值属性的个数及缺失率,统计未缺失属性的个数及缺失率。5.1数据探索

2、异常值分析异常值分析主要是分析数据集中的数据是否有录入有误以及不合理的数据出现。比如:关于身高的属性,如果有些数据填入的是3米,那么这个数据就是异常的不合理的。忽视异常值数据是十分危险的,如果把异常值数据加入模型的训练中,那么将会影响模型的准确性,比如:如果将身高为3米的属性作为正确的数据加入到模型的训练中去,那么机器学习到的会认为高度3米都是人类的正常标准,那么它在进行后期判断的时候会将高度为3米物品作为人类的标准,大大降低了模型的正确率。重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。1)简单统计量分析2)3δ原则3)箱型图5.1数据探索

3、数据一致性分析数据不一致性是指相同数据属性但数值之间的矛盾性、不相容性。如果在训练模型之前没有将改数据现象发现,训练出来的模型将会产生与实际相违背的结果。数据不一致性问题主要发生在数据集成的过程中所产生,比如:两张表格中都存储了用户的电话号码,在用户的电话号码发生变更的时候,只更新了一张表格,另外一张表格没有进行更新,这个时候就产生了不一致的数据。5.1数据探索

5.1.2数据特征分析1、分布分析通过分布分析可以了解到数据的分布特征和分布类型,以便发现某些特大或特小的可疑数据。对于定量性数据,通过分布分析可以了解到数据的分布形式:对称的还是不对称的,以及数据的频率分布表等。2、对比分析对比性分析是指把两个相互联系的指标数据进行比较,从数量上说明数据规模的大小、数据水平的高低以及各种关系的协调等。3、统计量分析统计量分析是指通过统计指标定量的对数据进行统计描述,常用的两个方面:集中趋势和离中趋势。集中趋势是指平均水平的数据对个体数据集中趋势的度量,常用的方法有:均值、中位数、众数。离中趋势是指个体数据离开平均水平数据的度量,常用的方法有:极差、标准差、变异系数。4、相关性分析相关性分析主要是用来分析连续数值之间线性的相关程度的强弱。其主要的方法可以选择,直接绘制散点图法、绘制散点图矩阵或者计算相关系数。5.2数据预处理

5.2.1数据清洗1、缺失值处理通常对于缺失值的处理方法有三类:删除记录、数据插补和不处理。删除处理和不处理都比较简单,在这里主要介绍一下数值的插补。2、异常值的处理通常对于异常值的处理有如下方法:删除、视为缺失值来处理、平均值进行填补、不处理。5.2数据预处理

5.2.2数据集成1、实体识别问题实体识别问题主要任务是检测和解决同名异议、异名同义、单位不统一等。2、冗余属性识别冗余属性识别主要任务是排除同一属性多次出现、同一属性命名不一致导致了多次出现重复的情况。5.2数据预处理

5.2.3数据变换1、简单函数变换简单函数变换就是对原始数据上的所有数据进行某些数学函数变换,常见的方式有平方、开方、对数、差分运算等。2、数据标准化(归一化)数据标准化是指将原始数据按照不同的量纲进行统一的放大或缩小。如果不这样做的话,数值间的差别可能很大,不进行处理的话会影响到一些分析结果,所以需要对所有的数据进行标准化,从而减少数据与数据之间的差异。5.2数据预处理

5.2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论