




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据处理流程规范目次目次I1 范围12 规范性引用文件13 术语、定义和缩略语13.1 术语和定义13.2 缩略语14 数据来源与处理流程14.1 数据来源14.2 数据处理原则24.3 数据处理流程24.4 数据获取与保存34.5 数据预处理34.6 数据清洗44.7 数据核检44.8 数据更新44数据处理流程规范1 范围本部分按照GB/T 1.1-2009给出的规则起草,提出了政务信息资源中的数据处理流程,包括数据预处理和数据清理过程。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T21063.1 政务信息资源目录体系 第1部分:总体框架GB/T 35274-2017 信息安全技术 大数据服务安全能力要求3 术语、定义和缩略语3.1 术语和定义下列术语和定义适用于本文件。3.1.1 数据安全 data security一是数据本身的安全,主要是指采用现代密码算法对数据进行主动保护,如数据保密、数据完整性、双向强身份认证等,二是数据防护的安全,主要是采用现代信息存储手段对数据进行主动防护,如通过磁盘阵列、数据备份、异地容灾等手段保证数据的安全。 3.1.2 数据预处理 data preprocessing数据预处理是指数据在处理、加工之前对数据进行的一系列操作。3.1.3 脏数据 dirty data脏数据是指系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在系统中存在不规范的编码和含糊的业务逻辑。3.1.4 数据清洗 data cleaning数据清洗是指利用现有的数据挖掘手段和方法清洗脏数据,将脏数据转化为满足数据质量要求或应用要求的数据的过程。3.2 缩略语下列缩略语适用于本文件。ETL:数据仓库技术 (Extract Transform Load)4 数据来源与处理流程4.1 数据来源政务信息资源中的数据是政务部门在履行职责及公众使用政务信息的多种平台的过程中形成或获取的,以一定形式记录、保存的文件、资料、图表和数据等各类数据资源,包括政务部门直接或通过第三方依法采集的、依法授权管理的和因履行职责需要依托政务信息系统形成的数据资源等。4.2 数据处理原则4.2.1 方法一致性数据处理过程中应统一决策,同一数据库范围内工作方法、 技术指标均应当统一,从而达成数据产品的一致性。4.2.2 数据可信性数据可信性是数据处理过程的基本原则,包括精确性、完整性、一致性、有效性、唯一性。精确性:描述数据是否与其对应的客观实体的特征相一致。完整性:描述数据是否存在缺失记录或缺失字段。一致性:描述同一实体的同一属性的值在不同的系统是否一致。有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。唯一性:描述数据是否存在重复记录。4.2.3 数据可用性数据可用性包括时间性、稳定性等。时间性:描述数据是当前数据还是历史数据。稳定性:描述数据是否是稳定的,是否在其有效期内。4.2.4 数据可追溯性数据可追溯性是数据处理过程中最好的依据,不论数据如何处理、改变,数据都可追溯。4.3 数据处理流程数据处理流程如下图所示:图1 数据处理流程图数据处理流程包含从数据来源的获取与保存、数据预处理、数据清洗、数据检核和数据更新等几个过程。4.4 数据获取与保存从数据来源获取到数据,在进行数据处理前要对数据进行备份,保证数据本身的安全,此外对保密数据、防护数据进行解密处理,获取到能够处理的数据并保存。4.5 数据预处理4.5.1 数据抽取数据抽取是从数据源中抽取数据的过程。数据抽取最常用的是ETL技术,具体数据抽取工具种类繁多,可根据实际业务数据的特点进行选择。从数据库中抽取数据一般有以下两种方式。a) 全量抽取:全量抽取类似于数据镜像或数据复制,它将数据源中的表或视图的数据原封不动的从数据库中抽取出来。该方法主要用于在系统数据初始化时使用。b) 增量抽取(更新):增量抽取是指在上次抽取完成后,对数据库中新增或修改的数据的抽取。4.5.2 数据过滤数据过滤要初步实现对数据中不符合应用规则或者无效的数据进行过滤操作,使得数据标准或代表内容统一。4.5.3 数据转换数据转换要实现对数据的格式、信息代码、值的冲突进行转换。4.5.4 数据加载数据加载过程进行的主要操作是插入操作和修改操作。搭建数据库环境将干净数据及脏数据分别插入到不同的数据表中。4.5.5 数据归约数据归约用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同,解决数据处理时数据量非常大的问题。4.6 数据清洗数据清洗依据数据清洗规则将脏数据转化为满足数据质量要求或应用要求的数据,为数据核检做好准备。4.7 数据核检对清洗过的数据依据相关标准或规范进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025聘请海外专家合作协议-合同模板资料文档
- 2025年智能港口自动化装卸设备市场潜力与竞争格局分析报告
- 潮玩收藏热背后的2025年市场与文化效应分析报告
- 2025年核子及核辐射测量仪器项目可行性研究报告及运营方案
- 2018-2024年中国糕点面包行业市场供需预测及投资战略研究咨询报告
- 2025年中国射频光纤传输模块(RFOF)行业市场运营现状及投资方向研究报告
- 2025-2030年中国锭叶行业深度研究分析报告
- 2025年供应链金融中小企业融资中的金融服务平台构建与运营报告
- 中国马尾库行业市场发展前景及发展趋势与投资战略研究报告(2024-2030)
- 2021-2026年中国自封式吸油过滤器市场深度分析及投资战略咨询报告
- (中职)数据采集技术(初级)项目1:数据采集技术教学课件
- 复件1235接线员辅导草稿
- 城市公共交通运营调度全套课件
- 痕迹检验学-自考-笔记
- 工厂仪表工培训
- IT服务工作单
- 产品质量保证协议的范本
- 世界各地风荷载雪荷载
- 设备及管道定点测厚指导意见
- 作文—照片里的故事
- 承压设备带压密封技术规范
评论
0/150
提交评论