版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主讲:第3章数据预处理1数据预处理概述2数据预处理的主要工作目
录3数据预处理的实践操作
数据预处理概述
1
数据预处理数据预处理是指在将数据用于数据分析之前,对原始数据进行必要的处理过程,包括清洗、集成、转换、规约等一系列操作,旨在提高数据集的质量,满足数据挖掘算法进行知识获取研究所要求的最低规范和标准。数据预处理概述数据质量:数据的实际状态与期望状态的比较数据实际状态数据期望状态比较高质量正确地反映了真实世界达到了其在运营、决策和规划中的期望状态期望状态
通常由个人或团体、标准组织、法律法规、业务要求或软件开发要求定义数据预处理概述数据预处理的意义:保证数据质量数据创建数据传递数据装载数据使用元数据描述及理解数据质量管理标准数据变化频率创建流程传递流程使用流程维护流程装载流程数据库设计数据使用规范人员培训质量管理机构数据质量目标数据质量问题的来源技术质量问题管理流程信息数据质量管理的必要性GIGO(GarbageInGarbageOut)数据质量维度完整性一致性唯一性有效性及时性准确性数据质量管理标准的6个维度
数据预处理的主要工作
2数据预处理的主要工作数据脱敏AEBDC数据清洗数据集成数据转换数据规约数据处理一、数据脱敏(DataMasking)数据预处理的主要工作又称数据去隐私化或数据变形,是在给定的规则、策略下对敏感数据(比如手机号、身份证号、银行卡等信息)进行转换、修改的技术手段,能够在很大程度上解决敏感数据在非可信环境中使用的问题。数据脱敏的原则保持业务规则的关联性保持数据之间的一致性多次脱敏之间的数据一致性保持原有数据特征数据脱敏的原则数据预处理的主要工作数据脱敏前后必须保持数据特征,例如:身份证号码由17位数字本体码和一位校验码组成,分别为区域地址码(6位)、出生日期(8位)、顺序码(3位)和校验码(1位)。那么身份证号码的脱敏规则就需要保证脱敏后依旧保持这些特征信息。
保持原有数据特征数据脱敏的原则数据预处理的主要工作在不同业务中,数据和数据之间具有一定的关联性。例如:出生年月和年龄之间的关系。同样,身份证信息脱敏后仍需要保证出生年月字段和身份证中包含的出生日期之间的一致性。
保持数据之间的一致性数据脱敏的原则数据预处理的主要工作数据脱敏时数据关联性以及业务语义等保持不变。特别是高度敏感的账户类主体数据,往往会贯穿主体的所有关系和行为信息,因此需特别注意保证所有相关主体信息一致性。主、外键关联性关联字段的业务语义关联性
保持业务规则的关联性数据脱敏的原则数据预处理的主要工作相同的数据进行多次脱敏,或在不同的测试系统进行脱敏,需要确保每次脱敏的数据始终保持一致性,这样才能保障业务系统数据变更的持续一致性以及广义业务的持续一致性。
多次脱敏之间的数据一致性数据脱敏的方法数据预处理的主要工作01遮蔽脱敏02替换脱敏03随机脱敏04偏移和取整05灵活编码数据脱敏的方法数据预处理的主要工作对敏感数据的全部或部分内容采用*或
#等字符进行遮蔽,导致敏感数据全部或部分不可见。
遮蔽脱敏(无效化)数据脱敏的方法数据预处理的主要工作数据替换与遮蔽方式比较相似,不同的是这里不以特殊字符进行遮挡,而是用一个设定的虚拟值替换真值。替换脱敏数据脱敏的方法数据预处理的主要工作采用和元数据结构相同、内容相近的随机内容进行随机替换,确保数据格式不变。(对姓名进行随机化需要有对应姓氏字典数据支持)
随机脱敏数据脱敏的方法数据预处理的主要工作通过随机移位改变数字数据,偏移取整在保持了数据的安全性的同时保证了范围的大致真实性,此项功能在大数据利用环境中具有重大价值。
偏移和取整数据脱敏的方法数据预处理的主要工作在需要特殊脱敏规则时,可执行灵活编码以满足各种可能的脱敏规则。比如用固定字母和固定位数的数字替代合同编号真值。
灵活编码二、数据清洗数据预处理的主要工作数据预处理的主要工作缺失数据是指原始数据中存在的空缺或无效数据。
缺失值处理02由于机械故障导致的数据收集或保存失败造成的数据缺失,比如数据存储的失败,存储器损坏等。由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如被访人拒绝透露相关问题的答案,回答问题无效,数据录入人员失误漏录了数据等。机械原因缺失人为原因缺失01数据预处理的主要工作删除个案就是将有缺失数据的个案都删除掉,不参加数据分析。适用于样本量很大、缺失数据的个案比例不太大的情况,而且有缺失数据的个案和无缺失数据的个案在分布上无显著差异时,才考虑使用,否则会使分析结果产生严重偏差。
缺失值处理——删除个案数据预处理的主要工作不删除有缺失数据的所有个案,仅在分析时删除相应变量的缺失数据,也就是对变量有完整回答的个案才能参与计算,对变量有缺失的个案不参加该次计算。这样,在分析中,参加不同计算的样本数可能不同。适用于在样本量不大、缺失数据较少并且变量间不是高度相关的情况下。
缺失值处理——删除缺失值数据预处理的主要工作利用其它数据替代或估算缺失值的方法。
用某个变量的样本均值、中位数或众数,代替无效值和缺失值。
根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。
缺失值处理——缺失数据插补数据预处理的主要工作根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,用1-7级量表测量的变量出现了0值,体重出现了负数,都应视为超出正常值域范围。SPSS、SAS和Excel等计算机软件都能够根据定义的取值范围,自动识别每个超出范围的变量值。具有逻辑上不一致性的答案,可能以多种形式出现:如许多调查对象说自己开车上班,又报告说没有汽车;或者调查对象报告自己是某品牌的重度购买者和使用者,但同时又在熟悉程度量表上给了很低的分值。
发现不一致时,要列出问卷序号、记录序号、变量名称、错误类别等,便于进一步核对和纠正。
异常值处理数据预处理的主要工作分析研究人员在不同领域对待异常点的态度并不相同:一方面,异常点可能会对样本总体造成偏移,或者有些算法对异常点尤其敏感,就会造成拟合的统计模型发生偏差,影响效果;另一方面,异常点在某一些行业被研究者重视,疾病监测(异常点可能代表疾病情况),信用欺诈(异常点可能代表欺诈行为)等。因此,异常点的检测和处理要慎重,要根据分析场景采取不同的处理措施。
异常值处理数据预处理的主要工作
异常值处理——检测方法01对变量进行描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用来判断变量的取值是否超出了合理的范围。简单统计量分析02如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。如果数据不服从正态分布,用远离平均值多少倍标准差来描述。3σ原则03箱型图识别异常值的一个标准,异常值通常被定义为小于QL
-1.5IQR或大于QU
+1.5IQR的值。箱线图分析数据预处理的主要工作
异常值处理——处理方法异常值处理方法方法描述删除含有异常值的记录直接将含有异常值的记录删除视为缺失值将异常值视为缺失值,利用缺失值处理的方法进行处理平均值修正可用前后两个观测值的平均值修正该异常值不处理直接在具有异常值的数据集上进行分析建模注意:先分析异常值出现的原因,再视具体情况判断异常值是否被舍弃。数据预处理的主要工作数据类型往往会影响到后续的数据预处理分析环节,因此,需明确每个字段的数据类型。比如,来自A表的“学号”是字符型,而来自B表的字段是日期型,在数据清洗时就需对二者的数据类型进行统一处理。
数据类型转换数据预处理的主要工作重复值的存在会影响数据分析结果的准确性,所以,在数据分析和建模之前需要进行数据重复性检验,如存在重复值,还需进行重复值的删除。数据工具法高级筛选法COUNTIF函数法条件格式法
重复值处理数据清洗时优先进行缺失值、异常值和数据类型转换的操作,最后进行重复值的处理。1在对缺失值、异常值进行处理时,要根据业务需求处理,常见的填充包括统计值填充、前/后值填充、零值填充。2在数据清洗之前,最为重要的是对数据表的查看,要了解表的结构和发现需要处理的值,这样才能将数据清洗彻底。3数据预处理的主要工作数据清洗的注意事项数据量的大小也关系着数据的处理方式。如果总数据量较大,而异常的数据量较少时,可选择直接删除处理,如总数据量较小,就需要认真去对数据进行处理。4在导入数据表后,一般需要将所有列一个个地进行清洗,来保证数据预处理的彻底性,有些数据可能看起来是正常可以使用的,实际上在进行分析时可能会出现问题。5数据预处理的主要工作数据清洗的注意事项常见的数据转换策略聚集处理对数据进行汇总操作。如聚集日销售数据计算月和年销售量。标准化处理将数据按照一定的比例缩放,主要有Min-Max标准化,Z-Score标准化等。平滑处理去除数据中的噪声,常用方法包括分箱、回归和聚类等。离散化处理将连续属性数据取值范围划分为若干离散化的区间,分别用不同的符号或整数值代表落在每个子区间的数值。主要有等宽法、等频法等。泛化处理用更高层次的概念取代低层次的数据对象,例如,年龄是一个低层次的概念,经过泛化处理后会变成诸如青年、中年等高层次的概念。属性构造利用已有的属性集构造出新的属性,并将其加入现有的属性集合。Min-Max规范化比较简单,但也存在一些缺陷,当有新的数据加入时,可能导致最大值和最小值的变化,需重新定义属性最大值和最小值。对被转换数据进行一种线性转换。转换公式:x=(待转换属性值-属性最小值)/(属性最大值-属性最小值)。假设属性的最大值和最小值分别是87000元和11000元,现在需要利用Min-Max规范化方法,将“顾客收入”属性的值映射到0-1的范围内,则“顾客收入”属性的值为72400元时,对应的转换结果:(72400-11000)/(87000-11000)=0.808。规范化处理—Min-Max规范化Z-Score规范化主要目的是将不同量级的数据统一转化为同一个量级,统一用计算出的Z-Score值衡量,以保证数据之间的可比性。转换公式:z=(待转换属性值-属性平均值)/属性标准差12假设要比较学生A与学生B的考试成绩,A考卷满分是100分(及格60分),B考卷满分是700分(及格420分)。很显然,A考出的70分与B考出的70分代表着完全不同的意义。但从数值来讲,A与B在数据表中都是用数字70代表各自的成绩。那么如何能用一个同等的标准来比较A与B的成绩呢?Z-Score就可以解决这一问题。3假设A班级平均分是80,标准差是10,A考90分;B班平均分是400,标准差是100,B考600分。通过上面的公式可以计算得出,A的Z-Score是1(即(90-80)/10),B的Z-Socre是2(即(600-400)/100),因此,B的成绩更为优异。若A考60分,B考300分,则A的Z-Score是-2,B的Z-Score是-1,这时,A的成绩较差。
数据预处理的实践操作
3数据预处理的实践操作——Excel用Excel进行数据清洗重复数据预处理、缺失数据预处理、逻辑错误数据预处理用Excel进行数据转换数据抽取、字段合并、字段匹配、数据计算、数据分组、数据互换用Excel进行数据抽样
数据工具法1.选定需要处理重复值的数据表,单击“数据”选项卡,选择“数据”菜单中的“删除重复值”按钮;2.在弹出的对话框中,勾选可能包含重复值的列(这里选“会员编号”),然后单击“确定”按钮,弹出处理结果框。数据预处理的实践操作——Excel
重复数据预处理
高级筛选法1.选中去重区域,单击“数据”选项卡,在“排序和筛选”选择“高级”按钮;2.在弹出的“高级筛选”对话框中选中,“方式”选“将筛选结果复制到其他位置”,“列表区域”选择需要筛选数据的单元格区域,“复制到”选择要存储的单元格位置,勾选“选择不重复的记录”,单击“确定”按钮。
重复数据预处理数据预处理的实践操作——Excel
COUNTIF函数法1.在需要处理重复数据的列右侧插入一列,比如要检查A列,则插入B列,然后在B列第一个单元格B1输入“=COUNTIF(A:A,A1)”--回车--单击B1单元格,将鼠标移到该单元格右下角,光标变为一个+,再双击+,该列其余单元格均按此公式计算(拖曳+光标至该列末尾也可);2.删除标记大于1的一行记录,即剔除了重复数据。(显示结果为几就表示有几个相同数据,如显示结果为1,表示整个区域只有一个数据)
重复数据预处理数据预处理的实践操作——Excel
条件格式法1.选定需要处理的数据列,单击“开始”--“条件格式”--“突出显示单元格规则”--“重复值”,即可把重复的数据及所在单元格标注为不同颜色;2.根据需要进行删除。
重复数据预处理数据预处理的实践操作——Excel数据预处理的实践操作——Excel
缺失数据预处理数据缺失:数据在收集过程中某个或某些属性的值不完整。如缺失值太多,说明数据收集过程中存在问题,可接受的标准缺失值≤10%。数据预处理的实践操作——Excel
缺失数据预处理缺失数据的处理方法:方法1:用一个样本统计量的值代替缺失值,典型做法是使用该变量的样本平均值代替。方法2:用一个统计模型计算出来的值去代替缺失值。方法3:将有缺失值的记录删除,这样将导致样本量的减少。方法4:将有缺失的记录保留,只在相应的分析中做必要的排除。数据预处理的实践操作——Excel1.选中有缺失数据的列,单击“开始”菜单下“编辑”功能区的“查找和选择”按钮,在弹出的菜单中选择“定位条件”;2.在定位条件对话框中选中“空值”,再单击“确定”按钮。
缺失数据预处理还可以怎么做?数据预处理的实践操作——Excel3.单击“开始”选项卡“编辑”功能区的“查找和选择”按钮,选择“替换”,在“查找和替换”对话框中,“查找内容”输入框留空,“替换为”输入框输入需要的数据即可。
缺失数据预处理数据预处理的实践操作——Excel对于有逻辑错误的数据,在分析之前需要清除逻辑错误,可使用IF函数来判断。使用格式:IF(指定条件,满足条件返回值,不满足条件返回值)
逻辑错误数据的处理数据预处理的实践操作——Excel例:在“会员信息表”中使用IF函数判断“性别”列是否有逻辑错误,正常的单元格不显示,错误的显示“异常”。主要操作步骤有:①点击“性别”列右侧某一空列与“性别”列B2单元格对应位置单元格;②在该单元格输入下列公式:=IF(OR(B2="F",B2="M"),"","异常")③双击公式单元格填充柄,显示数据逻辑判断结果。
逻辑错误数据的处理数据预处理的实践操作——Excel数据抽取就是保留原数据表中某些字段的部分信息,组合成一个新的字段。数据抽取的两种常用方法:(1)菜单法;(2)函数法。
数据抽取数据预处理的实践操作——Excel
数据抽取——菜单法1.选中拆分数据区域,单击“数据”--“分列”--在弹出的“文本分列向导”对话框中选择“分隔符号”,单击“下一步”按钮;数据预处理的实践操作——Excel
数据抽取——菜单法2.在“文本分列向导”第2步对话框中,“分隔符号”中勾选所需分隔符号(如“空格”或“其他”选项,输入“/"),单击“下一步”按钮;数据预处理的实践操作——Excel
数据抽取——菜单法3.在“文本分列向导”第3步对话框中,分别设置分隔后每个列的属性(点击“数据预览”下每一列),在“列数据格式”下选“文本”,“目标区域”选择分列数据的起始单元格,点击“完成”按钮即拆分完成。数据预处理的实践操作——Excel使用TEXT、LEFT、RIGHT、MID等函数功能来实现。TEXT使用格式:TEXT(待抽取数值的单元格,返回数字格式)LEFT使用格式:LEFT(待抽取数值的单元格,从左边取字符个数)RIGHT使用格式:RIGHT(待抽取数值的单元格,从右边取字符个数)
数据抽取——函数法例:提取生日中的年份,在D2输入公式:“=TEXT(C2,"yyyy")”,点击回车,然后拖曳或双击单元格右侧填充柄。数据预处理的实践操作——Excel字段合并就是将若干字段合并成为一个新的字段。字段合并可以利用CONCATENATE函数或者“&”(逻辑与)运算符。
字段合并例:将会员信息表中“省份”列与“城市”列合并为“购买省份及城市”列。数据预处理的实践操作——Excel字段匹配就是从具有相同字段的关联数据表中获取所需的数据,一般来说字段匹配要求原数据表与关联数据表至少存在一个关联字段,根据关联字段实现批量查询匹配对应的数据。字段匹配需要用到的函数是VLOOKUP函数,使用方法如下:=VLOOKUP(查找值,查找区域,返回数据在查找区域的第几列,匹配条件)
字段匹配例:在“会员信息表”B列插入“发货表”中的客户姓名。数据预处理的实践操作——Excel方法1:简单计算选定要计算的区域,在自定义状态栏中设置要计算的指标。
数据计算右键点击自定义任务状态栏,选择需要的指标即可数据预处理的实践操作——Excel
数据计算——常用函数函数名称函数功能语法格式ROUND函数按指定位数对数值进行四舍五入ROUND(number,num_digits)SUM函数计算单元格区域中所有数值的和SUM(number1,number2,…)SUMIF函数对满足给定条件的单元格或单元格区域求和SUMIF(range,criteria,sum_range)AVERAGE函数计算单元格区域中所有数值的平均AVERAGE(number1,number2,...)COUNT函数统计单元格区域包含数字的单元格个数COUNT(value1,value2,...)COUNTIF函数计算单元格区域中满足给定条件的单元格的个数COUNTIF(range,criteria)MAX函数返回给定参数的最大值MAX(number1,number2,...)MIN函数返回给定参数的最小值MIN(number1,number2,...)RANK函数返回一个数字在数字列表中的排位RANK(number,ref,order)数据预处理的实践操作——Excel
数据计算——常用函数函数含义输入公式示例NOW()返回当前日期(年/月/日小时:分钟)=NOW()TODAY()返回当前日期(年/月/日)=TODAY()DATE(年,月,日)返回指定日期=DATE(2024,1,10)YEAR(年/月/日)返回年份=YEAR("2024/1/10")MONTH(年/月/日)返回月份=MONTH("2024/1/10")DAY(年/月/日)返回1~31日中的第几日数=DAY("2024/1/10")DAYS(指定日期,开始日期)返回天数=DAYS(TODAY(),"1966/4/21")DATEDIF(开始日期,结束日期,单位代码)返回年数、月数、日数,单位代码:年“Y”,月“M”,日“D”=DATEDIF("1966/4/21",TODAY(),"Y")=DATEDIF("1966/4/21",TODAY(),"M")=DATEDIF("1966/4/21",TODAY(),"D")数据预处理的实践操作——Excel方法2:设置公式或函数计算——通过公式或函数计算
数据计算在“供货发货表”中按商品类别计算订单数量和销售额:在“供货发货表”按区域和商品类别计算订单数量及销售额:数据预处理的实践操作——Excel
数据计算在“供货发货表”按商品类别计算订单数量和销售额均值:在“供货发货表”按区域和商品类别计算订单数量及销售额均值:数据预处理的实践操作——Excel根据数据的类别或数值的大小进行分组。主要用IF()函数来实现。IF函数使用格式:IF(条件判断,结果为真返回值,结果为假返回值)
数据分组例题:对“会员信息表”按年龄分组进行处理,设置年龄≥60岁的为“老年”,35≤年龄<60岁的为中年,其余的为“青年”。数据预处理的实践操作——Excel数据表行列互换:选定需互换的区域,右键点击“选择性粘贴",在对话框中选“转置”后点击"确定”。数据类型互换:右键点击单元格,选"设置单元格格式”,在“数字”标签下设置“分类"。
数据互换数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中药治疗支气管炎实践技能卷及答案(专升本版)
- 2026年环境健康与安全的化学基础
- 2026年自动化化妆品灌装设备的设计案例
- 装饰装修施工技术方案
- 园林景观小品安装技术方案
- 岩土工程施工组织方案
- 2026年风力发电机组故障诊断研究
- 2026年水利水电工程的边坡勘察技术
- 卫生院住院楼空间布局方案
- 2026年创新设计案例分析机械领域的成功经验
- (一诊)2026年兰州市高三模拟考试地理试卷(含答案)
- 安徽商贸单招2026校考真题
- 中国建筑机电安装行业资质管理与竞争态势
- 2025-2026学年北京市西城区高三(上期)期末考试地理试卷(含答案详解)
- 南瑞集团在线测评试题
- 2026浙江工商大学后勤服务中心商贸服务部劳务派遣人员招聘2人笔试备考试题及答案解析
- 2026春招:鞍钢集团笔试题及答案
- 2026年上海市春季高考作文解析、对全国卷考生的启示、标杆范文
- 字母表示数(课件)-四年级下册数学北师大版
- 2026黄河勘测规划设计研究院有限公司招聘高校毕业生笔试(公共基础知识)测试题附答案解析
- 2026年深圳中考数学复习分类汇编:选择基础重点题(解析版)
评论
0/150
提交评论