下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据清洗基于建立的数据标准实现数据的物理或逻辑入湖,涉及的数据包括在各类生产作业过程中产生的结构化数据、非结构化数据,实时数据与离线数据。专业类数据包括但不限于钻完井数据、实验分析数据、档案数据、增产增注数据、化学驱数据、设备定位数据、人工举升数据、油田化工生产动态、井控数据、生产经营数据以及正在同步建设的相关专业数字项目库,共同形成“一湖数据”。数据子湖建设是对内外部的结构化、非结构化的原始数据的逻辑汇聚。数据入湖要遵从6项入湖标准,基于6项标准保证入湖的质量,同时面向不同的消费场景提供两种入湖方式(推拉方式),满足数据消费的要求。数据湖总体视图数据清洗实施数据清洗是数据入湖的前提,主要对各业务系统中准备进入湖的数据进行数据一致性、有效性、完整性的手段纠偏。主要工作为进行数据补全、数据去重、数据业务有效性检查等。结构化数据清洗数据分析、定义错误类型:数据分析是数据清洗的前提与基础,通过详尽的数据分析来检测数据中的错误或不一致情况,除了手动检查数据或者数据样本之外,还可以使用分析程序来获得关于数据属性的元数据,从而发现数据集中存在的质量问题定义清洗转换规则:数据分析得到的结果来定义清洗转换规则与工作流。根据数据源的个数,数据源中不一致数据和“脏数据”多少的程度,需要执行大量的数据转换和清洗步骤。数据清洗针对的对象主要有四个——缺失值、异常值、重复值和无用值,针对不同对象的不同形式,采取相应的方法进行处理,从而得到期望的数据非空校核:要求字段为非空的情况下,对该字段数据进行校核。如果数据为空,需要进行相应处理重复校核:多个业务系统中同类数据经过清洗后,在统一保存时,为保证主键唯一性,需进行校核工作异常值校核:包括取值错误、格式错误、逻辑错误、数据不一致等,需根据具体情况进行校核及修正无用值校核:目前业务中不需要使用到的、无价值的数据字段,需要进行校核及去除具体规则如下:缺失值清洗确定缺失值范围,按照缺失比例和字段重要性,分别制定策略:重要性高,缺失率低:通过计算进行填充;通过经验或业务知识估计重要性高,缺失率高:尝试从其他渠道取数补全;使用其他字段通过计算获取重要性低,缺失率低:不做处理或简单填充重要性低,缺失率高:去掉该字段填充缺失内容,某些缺失值可以进行填充,方法有以下四种:以业务知识或经验推测填充缺失值从其他业务系统数据中取数补全以同一指标的计算结果(均值、中位数、众数等)填充缺失值以不同指标的计算结果填充缺失值重复值清洗
重复数据可以进行去重或者进行标记。异常值清洗取值错误清洗范围错误:通过添加约束的方式过滤指定字段数值超出范围的数据。位数错误:通过其他业务系统数据进行更改。格式错误清洗时间、日期、数值、全半角等显示格式不一致:在整合多来源数据时可能遇到,将其处理成一致的某种格式即可。内容中有不该存在的字符:某些内容可能只包括一部分字符,比如身份证号是数字+字母,中国人姓名是汉字。最典型的就是头、尾、中间的空格,也可能出现姓名中存在数字符号、身份证号中出现汉字等问题。这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。内容与该字段应有内容不符:某些字段内容应该是数值,而实际数据中字段的内容却是字符串。这种情况可以采用类型转换来处理。逻辑错误清洗去除/替换不合理值,修正矛盾内容。无用数据清洗无用数据字段可以直接进行删除。但在进行该过程的时候,要注意备份原始数据。搜索、识别错误记录:自动检测属性错误检测数据集中的属性错误,需要利用高的方法自动检测数据集中的属性错误,方法主要有:基于统计的方法,聚类方法,关联规则的方法。检测重复记录的算法消除重复记录可以针对两个数据集或者一个合并后的数据集,首先需要检测出标识同一个现实实体的重复记录,即匹配过程。检测重复记录的算法主要有:基本的字段匹配算法,递归的字段匹配算法,Smith—Waterman算法,Cosine相似度函数。修正错误在数据源上执行预先定义好的并且已经得到验证的清洗转换规则和工作流。当直接在源数据上进行清洗时,需要备份源数据,以防需要撤销上一次或几次的清洗操作。在各数据源上应分别进行几种类型的转换,主要包括:属性分离从自由格式的属性字段中抽取值,自由格式的属性一般包含着很多的信息,这些信息需要细化成多个属性,从而进一步支持后面重复记录的清洗。确认和改正这一步骤处理输入和拼写错误,并尽可能地使其自动化。标准化为了使记录实例匹配和合并变得更方便,应该把属性值转换成一个一致和统一的格式。非结构化数据清洗非结构化数据清洗分为以下过程:定期在数据池中运行数据清理操作删除可能来自文本的数据之间的任何空格,做数据“Trip”函数,Trip掉多余的和不必要的空间,以便将数据提取为最紧凑的形式。检查重复的图像文件照片、报告等图像存储在文件中,而不是数据库中。通过将每个文件图像转换为数字格式,然后在图像之间进行交叉检查,可以对这些文件进行交叉比较。如果两个图像文件各自内容的数值完全匹配,则存在可以删除重复
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东广州市天河区东风实验小学招聘小学数学、音乐(舞蹈)教师笔试备考试题及答案解析
- 2026广东佛山市禅城区祖庙街道公有企业招聘1人笔试备考题库及答案解析
- 2026广西梧州市龙投人力资源有限公司招聘2人笔试备考题库及答案解析
- 2026云南省卫生健康委员会所属事业单位招聘301人笔试备考题库及答案解析
- 2026广东广州市花都区炭步供销合作社招聘合同制人员1人笔试备考试题及答案解析
- 2026年咸阳事业单位研究生招聘(78人)笔试备考试题及答案解析
- 2026福建厦门集美国合产业发展有限公司岗位招聘3人笔试备考试题及答案解析
- 2026年鹤岗市市本级公开招聘公益性岗位人员61人笔试备考题库及答案解析
- 2026北京中医药大学招聘(二)笔试备考试题及答案解析
- 2026内蒙古卫生职业技术学校招聘教师12人笔试备考题库及答案解析
- 2026年及未来5年市场数据中国金属铍行业市场竞争格局及发展趋势预测报告
- 2025-2030中国动物狂犬病疫苗行业发展现状及趋势前景分析研究报告
- 微生物菌剂培训课件
- 湖北省鄂东南教育联盟2025-2026学年高三上学期期中暨一模语文试卷及答案
- 第04讲 数与式综合提升卷(原卷版)-2025年中考数学一轮复习(全国版)
- 会议纪要标准化撰写模板
- 项目投资协议书范本合同
- 第二章拟投入施工机械设备
- 王庄矿5.0Mt-a新井设计 - 厚煤层回采巷道支护技术研究
- 心脏手术血糖管理
- 房地产企业总经理年度经营目标责任书模板
评论
0/150
提交评论