《ETL数据预处理技术》课件-任务1 了解数据预处理基础_第1页
《ETL数据预处理技术》课件-任务1 了解数据预处理基础_第2页
《ETL数据预处理技术》课件-任务1 了解数据预处理基础_第3页
《ETL数据预处理技术》课件-任务1 了解数据预处理基础_第4页
《ETL数据预处理技术》课件-任务1 了解数据预处理基础_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ETL数据预处理技术任务一了解数据预处理基础1.1数据质量数据质量现实中的数据大体都不完整、不一致,无法直接进行数据挖掘,为此需排除此类问题,提高数据质量,以减少数据挖掘、数据分析的时间,满足用户对数据的需求。01.数据质量定义02.03.目录数据质量特点数据质量评价指标CONTENTS子任务1.1.1数据质量概念邮件管理员数据质量与姓名、地址有关,高质量的数据意味着清晰、准确、不存在二义性以及不重复的邮件传送地址。数据清洗工具销售商数据质量与姓名、地址有关,他们的工具是否能够规范地校验和匹配客户记录。数仓工程师数据质量是将他们接收的应用数据经过相关的处理,存储到表格中或者显示到窗口中数据挖掘和决策支持系统的使用者数据质量意味着准确、无重复且符合许多特定要求的数据。数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。但是,在不同的业务场景中,数据消费者对数据质量有着各自不同的观点,具体如下:从适用性的角度来看,数据质量是一个相对的概念(与决策有关)。对于不同的决策者,大家对数据质量的高低要求也是不同的。对于一个无关的数据,即使质量很高,对决策也起不到任何作用。例如,一个医院的病人基本信息通常包括姓名、年龄、血型、身高、地址等内容,如果想要研究某种疾病易发的年龄段,那么年龄信息的数据质量就非常的重要,而其它信息(即血型、身高、地址等信息)的数据质量相对来说作用不大。子任务1.1.2数据质量特点春秋季节:防风,美观,薄厚适中,长袖夏季:凉爽,美观,短袖或无袖,面料薄且柔软、透气冬季:保暖,美观,长袖,面料厚且柔软、透气“业务需求”会随着时间变化,数据质量也会随时间发生变化。数据质量可以借助信息系统来度量,但独立于信息系统而存在。教师的姓名、专业、课程、学生的评分学校教师评价系统医院疾病诊断系统无效必需数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失皮之不存毛将焉附!子任务1.1.3数据质量评价指标01准确性02完整性03简洁性04适用性不同领域不同功能对数据质量的评价有各自不同的指标,概括来讲,通常包括如下四个方面:不准确不完整身高不再适用于儿童乘车购票不适用步骤2:设置“CSV文件输入”双击“CSV文件输入”图标,进入该对话框,进行如下右图所示配置,添加文件“客户.csv”,点击“获取字段”,得到文件中的字段设置情况,如下右图:小结数据质量定义不同使用环境、不同需求,数据质量定义有所不同。数据质量特点不同领域表述方式有所不同。数据质量评价本节罗列的是数据质量的主要评价指标。任务一了解数据预处理基础1.2数据清洗定义及对象数据清洗定义对于数据的“灵魂两问”:难道数据也会变“脏”吗?所有的数据都需要清洗吗?01.数据清洗定义02.目录数据清洗对象CONTENTS子任务1.2.1数据清洗定义数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。数据清洗(Datacleansing/Datacleaning/Datascrubbing)可以有多种表述方式,其定义依赖于具体的应用。因此,数据清洗的定义在不同的应用领域不完全相同。目前业界一般认为,数据清洗的含义是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,以及去除空白数据域和知识背景下的白噪声。数据预处理在大数据分析应用中的环节子任务1.2.2数据清洗对象数据预处理的任务是对不满足数据挖掘要求的数据进行清洗,将清洗的结果交给数据挖掘的下一个环节。这些不满足要求的数据可以统称为“脏数据”。通常,对于这些“脏数据”主要关注其来源及其清洗方式。这些数据对象有如下分类:基于清洗方式的脏数据分类基于数据源的脏数据分类基于数据源的清洗对象通常有单数据源、多数据源两种。实际应用中,对于一些有常规要求的最好给出约束条件,避免输入错误单数据源单个数据源的数据质量,主要取决于它的模式设定,以及数据源中的数据完整性约束的控制,如果一个数据源没有数据模式,则对于输入或存储的数据缺乏相应的限制,这样出现数据不一致性或错误的几率就大大增加。多数据源来源于多个业务系统的数据,由于各业务系统在设计、实现时的功能需求、设计重点不同,多数据源存在的问题主要是名称冲突、属性值和结构的冲突名称冲突问题最常见,通常遵循“见名知义”原则,从字段含义的角度命名基于数据源的清洗对象通常有单数据源、多数据源两种。概括来讲,数据预处理主要针对有如下特点的数据:残缺数据:这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。此员工表“部门”、“性别”数据不完整概括来讲,数据预处理主要针对有如下特点的数据:错误数据:这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。概括来讲,数据预处理主要针对有如下特点的数据:重复数据:这一类数据是指在同一个数据表中相同数据出现多次的情况双胞胎√重复数据×小结数据清洗定义修正不符合要求的数据,不同应用领域表述方式不同数据清洗对象依据数据产生领域和处理方式确定清洗对象实际应用中通常针对不完整数据、冗余数据、错误数据三类任务一了解数据预处理基础1.3数据预处理原理及方法数据清洗定义认识数据处理的前提:数据预处理的原理是处理数据的根基与依据不同类型的“脏”数据有不同的清洗方法01.数据预处理原理02.目录数据预处理方法CONTENTS子任务1.3.1数据预处理原理利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要求的数据,具体有:

数据采集从数据库、文件、Web、API等数据源中采集和抽取数据,需考虑数据量、数据结构、数据格式、数据粒度等因素。数据清洗对数据进行识别、处理、修复、删除、填充等操作,提高数据质量和可用性数据集成将来自不同数据源的数据进行集成和整合,便于分析和挖掘数据转换对数据进行转换和格式化,以便适应不同的分析需求和工具,提高可操作性数据降维消除不必要的特征和维度,减少数据分析和挖掘的复杂性和成本,通常依靠机器学习手段进行评估数据采集指利用某些装置,从系统外部采集数据并输入到系统内部的一个接口。而大数据采集则是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。在数据采集过程中,可以使用网卡、条形码、触摸屏、PDA、RFID等各种设备进行数据的采集。数据清洗同一值的不同表示、拼写错误、不同的命名习惯、不合法的值以及空值都会导致“脏数据”的出现,通过定义好的数据清洗策略和清洗规则(即数理统计技术、数据挖掘技术等清洗策略)对脏数据进行清洗,得到满足数据质量要求的数据。数据集成联邦数据库模式:是最简单的数据集成模式,它需要在每对数据源之间创建映射和转换的软件,该软件称为包装器(Wrapper)。当数据源X需要和数据源Y进行通信和数据集成时,才需要建立X和Y之间的包装器。数据集成数据仓库模式:是最通用的一种数据集成模式,在数据仓库模式中,数据从各个数据源拷贝过来,经过转换,然后存储到一个目标数据库中。数据集成中介者模式:中介者(Mediator)扮演的是数据源的虚拟视图的角色,中介者本身不保存作保数据,数据仍然保存在数据源中。中介者维护一个虚拟的数据模式它把各个数据源的数据模式组合起来。数据映射和传输在查询时刻才真正发生。数据转换格式转换根据不同的分析工具的需求而进行转换数值转换为适应不同的数据分布形式及便于进行频域分析而转换——对数变换、幂次变换、离散余弦变换数据降维主成分分析(PAC):数据转换坐标系,线性布局奇异值分解(SVD):矩阵因式方法核主成分分析:处理非线性数据数据预处理评估数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据完整性数据准确性数据一致性数据规范性数据预处理评估数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据可靠性数据安全性数据可重复性数据易读性子任务1.3.2数据预处理方法

数据的标准化,是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值。1、数据标准化1、数据标准化方法说明最大-最小规范化对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值,其公式为:新数据=(原数据-极小值)/(极大值-极小值)z-score标准化基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。将属性A的原始值v使用z-score标准化到v'的计算方法是:新数据=(原数据-均值)/标准差小数定标规范化Decimalscaling通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x使用decimalscaling标准化到y'的计算方法是:y=x/(10*j)

其中,j是满足条件的最小整数对数变换对数据进行对数变换,使其符合正态分布数据标准化方法2、不同类型“脏”数据的预处理方法类

别说

明实

例机械原因由于机械原因导致的数据收集或保存的失败造成的数据缺失数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)等。人为因素由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据等。数据缺失值数据缺失值产生的原因多种多样,主要分为机械原因和人为原因两种。2、不同类型“脏”数据的预处理方法数据缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。数据的缺失是随机的,不依赖于任何不完全变量或完全变量数据的缺失不是完全随机的,依赖于其他完全变量数据的缺失依赖于不完全变量自身完全随机缺失随机缺失完全非随机缺失依赖性增强随机性渐弱2、不同类型“脏”数据的预处理方法数据缺失值2、不同类型“脏”数据的预处理方法冗余数据重复数据会对数据分析和建模产生负面影响数据分析结果的准确性:重复数据会导致数据分析结果的偏差,影响对数据的正确理解和决策。数据存储和计算资源的浪费:重复数据会占用存储空间和计算资源,增加数据处理的时间和成本。数据质量的下降:重复数据会降低数据的质量,使得数据不一致、不完整和不可靠。

2、不同类型“脏”数据的预处理方法冗余数据冗余数据的一般处理方法:2、不同类型“脏”数据的预处理方法噪声数据噪声数据(NoisyData)就是无意义的数据,现阶段的意义已经扩展到包含所有难以被机器正确理解和翻译的数据,如非结构化文本。任何不可被源程序读取和运用的数据,不管是已经接收、存储的还是改变的,都被称为噪声。2、不同类型“脏”数据的预处理方法噪声数据硬件故障编程错误语音识别错误光学字符识别错误噪声数据产生源头2、不同类型“脏”数据的预处理方法噪声数据处理方法删除含有噪声的记录均值方法修正回归算法修正小结数据预处理原理利用特定技术,满足数据质量要求数据预处理方法缺失数据、重复数据、噪声数据的具体处理方法因需求而定,可以删除(慎用),可以修正任务一了解数据预处理基础1.4数据预处理应用领域大数据时代,海量数据分析处理应用于多个领域不仅仅限于文字,而向语音、图像领域扩展1、数据预处理应用领域数据质量管理数据挖掘数据仓库数据清洗应用领域1、数据预处理应用领域质量管理领域1、数据预处理应用领域质量管理领域含义是一个循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益评估数据质量评估管理评估四个方面影响因素1、数据预处理应用领域质量管理领域完整性Completeness:完整性用于度量哪些数据丢失了或者哪些数据不可用规范性Conformity:规范性用于度量哪些数据未按统一格式存储一致性Consistency:一致性用于度量哪些数据的值在信息含义上是冲突的准确性Accuracy:准确性用于度量哪些数据和信息是不正确的,或者数据是超期的唯一性Uniqueness:唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的关联性Integration:关联性用于度量哪些关联的数据缺失或者未建立索引。质量评估1、数据预处理应用领域质量管理领域配置管理培训验证和确认监督和监控管理评估1、数据预处理应用领域质量管理领域信息因素技术因素流程因素管理因素数据质量的影响因素1、数据预处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论