版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章数据预处理◆2.1数据验证◆22数据清理23数据转换24小结第二章数据预处理12.1数据验证◆为避免数据冗余,在数据被加载到数据仓库之前,必须对数据进行有效性检查。◆如果没有进行必要的有效性检查,就有可能破坏依赖于数据仓库商业分析的完整性,帮助检查数据的有效性的最好方法是源系统的专家。源系统的专家包括具有技术专业知识和非技术知识的人士2.1数据验证2数据验证(续)令在多维数据集的处理过程中,AnalysisServices并不验证数据库的参照完整性。◆如果多维数据集的事实数据表包含的外码值不在相应的维度表的主码值范围内,则不处理包含这些值的事实数据行◆处理不会给出错误信息,但是多维数据集却包含了不完整的数据,从而导致数据分析的不准确。数据验证(续)3验证示例凭证编号借款合同编号客产门黄款性质分头货款期限好关借全额货款线分类担保方式借21320191132221974..11款凭证表1120193120.1329195413120190.13102050.132:2333..122222800.0010500,.13000.1302319..283120500.13050.10:5636..14041性方丈传玛担保方丈代码名称担方丈明妞代方式明妞代名称担保方式表不在此甲其它可转让的利验证示例4验证方式令查找SELECTDISTINCT担保方式FRoM借款凭证表WHERE担保方式NOTINSELECT担保方式明细代码FROM担保方式表)处理INSERTINTO担保方式表VALUES(4','质押',"404"质押-金融债券')INSERTINTO担保方式表VALUES(4,'质押',410’,′质押-外汇保函’)验证方式52.2数据清理从源系统中采集到的数据来源众多、种类繁杂以及录入不规范,因此可能导致某些数据值定义不完整、值缺失、数据冗余等情况。会影响多维分析结果的正确性。因此,在将这些数据加载到数据仓库或者数据集市之前必须对其进行清理。冗余数据的处理空值的处理不规范数据的处理2.2数据清理6冗余数据的处理☆1.重复行数据的清理技术◆数据表中的重复行数据是指由于企业数据库系统设计上的缺陷等原因,使数据表中存在数据值完全相同的记录。◆对重复行数据进行处理时要考虑两种情况:第一种是直接在原始表中删除重复行数据;第二种是在删掉重复行数据的同时将这些被删除的重复行数据保留在另一张表中,这样便于分析者査看有哪些重复行数据。冗余数据的处理7重复行数据示例行号代码名称利率开胎日明500109年五车期政债券和uL5011单位活其存5001100单位活存款70100NULL45m+m单位活款99Q-07-01-00:00.06NU5500100单位活存歌1807010000NUL6」510单位活其掌单位活具存款93191020单位活其素5.32019102300mNu9」12同存一1971020UNUu:50102某某银行债券科率104120190101-00-+ttt116419570110000NUuL357197010000Mu总行金融簧券9719901000AUL重复行数据示例8(1)直接在表中删除重复行数据◆步骤1查询有重复行数据的表中的全部数据并去掉重复行,将不包含重复行数据的结果保存到一个新的临时表中;◆步骤2删除有重复行数据的表中的全部数据;令步骤3将临时表中的数据写回到原表中。(1)直接在表中删除重复行数据9清理代码CREATEPROCEDUREP_HandleRedundanceRowDataTABNAMEVARCHAR(100)处理有重复行数据的表名ASDECLARESQLNVARCHAR(300)IFEXISTS(SELECTFROMTEMPDB.SYSOBJECTSWHERESUBSTRING(NAME,1,4=##TBANDXTYPE=U)DROPTABLE=:=TB将去掉重复行的数据插入到一个临时表中SETSQL=SELECTDISTINCT*INTO##TBFROM+TABNAMEEXEC(SQLEXEC(TRUNCATETABLE+TABNAMESETSQL=INSERTINTO+TABNAMESELECTFROM###tBEXEC(OSQLEXEC(DROPTABLE##TB)清理代码10数据仓库-数据预处理课件11数据仓库-数据预处理课件12数据仓库-数据预处理课件13数据仓库-数据预处理课件14数据仓库-数据预处理课件15数据仓库-数据预处理课件16数据仓库-数据预处理课件17数据仓库-数据预处理课件18数据仓库-数据预处理课件19数据仓库-数据预处理课件20数据仓库-数据预处理课件21数据仓库-数据预处理课件22数据仓库-数据预处理课件23数据仓库-数据预处理课件24数据仓库-数据预处理课件25数据仓库-数据预处理课件26数据仓库-数据预处理课件27数据仓库-数据预处理课件28数据仓库-数据预处理课件29数据仓库-数据预处理课件30数据仓库-数据预处理课件31数据仓库-数据预处理课件32数据仓库-数据预处理课件33数据仓库-数据预处理课件34数据仓库-数据预处理课件35数据仓库-数据预处理课件36数据仓库-数据预处理课件37数据仓库-数据预处理课件38数据仓库-数据预处理课件39数据仓库-数据预处理课件40数据仓库-数据预处理课件41数据仓库-数据预处理课件42数据仓库-数据预处理课件43数据仓库-数据预处理课件44数据仓库-数据预处理课件45数据仓库-数据预处理课件46数据仓库-数据预处理课件47第二章数据预处理◆2.1数据验证◆22数据清理23数据转换24小结第二章数据预处理482.1数据验证◆为避免数据冗余,在数据被加载到数据仓库之前,必须对数据进行有效性检查。◆如果没有进行必要的有效性检查,就有可能破坏依赖于数据仓库商业分析的完整性,帮助检查数据的有效性的最好方法是源系统的专家。源系统的专家包括具有技术专业知识和非技术知识的人士2.1数据验证49数据验证(续)令在多维数据集的处理过程中,AnalysisServices并不验证数据库的参照完整性。◆如果多维数据集的事实数据表包含的外码值不在相应的维度表的主码值范围内,则不处理包含这些值的事实数据行◆处理不会给出错误信息,但是多维数据集却包含了不完整的数据,从而导致数据分析的不准确。数据验证(续)50验证示例凭证编号借款合同编号客产门黄款性质分头货款期限好关借全额货款线分类担保方式借21320191132221974..11款凭证表1120193120.1329195413120190.13102050.132:2333..122222800.0010500,.13000.1302319..283120500.13050.10:5636..14041性方丈传玛担保方丈代码名称担方丈明妞代方式明妞代名称担保方式表不在此甲其它可转让的利验证示例51验证方式令查找SELECTDISTINCT担保方式FRoM借款凭证表WHERE担保方式NOTINSELECT担保方式明细代码FROM担保方式表)处理INSERTINTO担保方式表VALUES(4','质押',"404"质押-金融债券')INSERTINTO担保方式表VALUES(4,'质押',410’,′质押-外汇保函’)验证方式522.2数据清理从源系统中采集到的数据来源众多、种类繁杂以及录入不规范,因此可能导致某些数据值定义不完整、值缺失、数据冗余等情况。会影响多维分析结果的正确性。因此,在将这些数据加载到数据仓库或者数据集市之前必须对其进行清理。冗余数据的处理空值的处理不规范数据的处理2.2数据清理53冗余数据的处理☆1.重复行数据的清理技术◆数据表中的重复行数据是指由于企业数据库系统设计上的缺陷等原因,使数据表中存在数据值完全相同的记录。◆对重复行数据进行处理时要考虑两种情况:第一种是直接在原始表中删除重复行数据;第二种是在删掉重复行数据的同时将这些被删除的重复行数据保留在另一张表中,这样便于分析者査看有哪些重复行数据。冗余数据的处理54重复行数据示例行号代码名称利率开胎日明500109年五车期政债券和uL5011单位活其存5001100单位活存款70100NULL45m+m单位活款99Q-07-01-00:00.06NU5500100单位活存歌1807010000NUL6」510单位活其掌单位活具存款93191020单位活其素5.32019102300mNu9」12同存一1971020UNUu:50102某某银行债券科率104120190101-00-+ttt116419570110000NUuL357197010000Mu总行金融簧券9719901000AUL重复行数据示例55(1)直接在表中删除重复行数据◆步骤1查询有重复行数据的表中的全部数据并去掉重复行,将不包含重复行数据的结果保存到一个新的临时表中;◆步骤2删除有重复行数据的表中的全部数据;令步骤3将临时表中的数据写回到原表中。(1)直接在表中删除重复行数据56清理代码CREATEPROCEDUREP_HandleRedundanceRowDataTABNAMEVARCHAR(100)处理有重复行数据的表名ASDECLARESQLNVARCHAR(300)IFEXISTS(SELECTFROMTEMPDB.SYSOBJECTSWHERESUBSTRING(NAME,1,4=##TBANDXTYPE=U)DROPTABLE=:=TB将去掉重复行的数据插入到一个临时表中SETSQL=SELECTDISTINCT*INTO##TBFROM+TABNAMEEXEC(SQLEXEC(TRUNCATETABLE+TABNAMESETSQL=INSERTINTO+TABNAMESELECTFROM###tBEXEC(OSQLEXEC(DROPTABLE##TB)清理代码57数据仓库-数据预处理课件58数据仓库-数据预处理课件59数据仓库-数据预处理课件60数据仓库-数据预处理课件61数据仓库-数据预处理课件62数据仓库-数据预处理课件63数据仓库-数据预处理课件64数据仓库-数据预处理课件65数据仓库-数据预处理课件66数据仓库-数据预处理课件67数据仓库-数据预处理课件68数据仓库-数据预处理课件69数据仓库-数据预处理课件70数据仓库-数据预处理课件71数据仓库-数据预处理课件72数据仓库-数据预处理课件73数据仓库-数据预处理课件74数据仓库-数据预处理课件75数据仓库-数据预处理课件76数据仓库-数据预处理课件77数据仓库-数据预处理课件7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 办公楼公共设施保洁服务协议2025
- 美食类自媒体账号小李大口吃短视频运营
- 什么叫做岩土工程
- 核酸检培训测试题及答案
- 2025年南阳人才引进真题及答案
- 脓毒症在急诊室的快速处理2026
- 2025年九上开学英语试卷及答案
- 租赁烧烤餐桌合同范本
- 技能大赛全部试题及答案
- 山东艺考联考真题及答案
- GA 2113-2023警服女礼服
- 国开机考答案-钢结构(本)(闭卷)
- 纪委谈话笔录模板经典
- 消防安全制度和操作规程
- 叉车安全技术交底
- 国家预算实验报告
- 工业园区综合能源智能管理平台建设方案合集
- 附件1:中国联通动环监控系统B接口技术规范(V3.0)
- 正弦函数、余弦函数的图象 说课课件
- 闭合性颅脑损伤病人护理查房
- 《你看起来好像很好吃》绘本课件
评论
0/150
提交评论