TFBD 001-2023 一体化公共数据平台 部门数据专区建设要求_第1页
TFBD 001-2023 一体化公共数据平台 部门数据专区建设要求_第2页
TFBD 001-2023 一体化公共数据平台 部门数据专区建设要求_第3页
TFBD 001-2023 一体化公共数据平台 部门数据专区建设要求_第4页
TFBD 001-2023 一体化公共数据平台 部门数据专区建设要求_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.020CCSL70团 体 标 准T/FBD001—2023RequirementsfortheconstructionofintegratedBigdataplatformdepartmentdatazone2023-11-28发布 2023-11-28实施福建省大数据产业商会  发布T/FBD001T/FBD001—2023前 言本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件由福建大数据一级开发有限公司提出。本文件由福建省大数据产业商会归口。I一体化公共数据平台部门数据专区建设要求范围本文件规定了一体化公共数据平台中部门数据资源专区的定位关系、数据流向、建设要求。本文件适用于一体化公共数据平台各领域部门数据资源专区的建设。规范性引用文件(包括所有的修改单适用于本文件。GB/T21063.2 2GB/T26863—2022 火电站监控系统术语GB/T35295—2017 信息技术大数据术GB/T36344—2018 信息技术数据质量评价指标GB/T39477 信息安全技术政务信息共享数据安全技术要求术语和定义下列术语和定义适用于本文件。部门数据专区 departmentdatazone基于福建省一体化公共数据平台,满足跨部门应用场景的数据综合应用空间。数据集 dataset数据记录汇聚的数据形式。注:的特征,当其在网络上传输时或暂时驻留于计算机存储器中以备读出或更新时,表征的是动态数据。[来源:GB/T35295—2017,2.1.46]数据标准 datastandard数据的命名、定义、结构和取值规范方面的规则和基准。[来源:GB/T36344—2018,2.8]数据湖 datalake以原生格式存储原始数据的原始数据存储库或系统。注1:数据湖直接按原样存储数据,而无需事先对被存储数据进行结构化处理。2:数据湖能存储结构化数据如关系型数据库的表),半结构化数据CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)等。1[来源:GB/T26863—2022,10.42]原始数据库 originallibrary原始数据库是保留原始数据,能够反映原始业务场景的数据集。注:原始库为各类应用提供基本的数据支撑,为后续数据血缘追踪、原始场景回溯等业务需求提供支持。标准数据库 standardlibrary由原始库的数据按照标准库的数据标准,进行一对一清洗、转换、关联、比对等数据处理并按照业务使用规则或属性规则进行整合加工与汇总后形成的标准数据集。基础数据库 underlyinglibrary主题数据库 subjectlibrary按照主题分类标准进行数据的归集、加工、融合,形成针对业务主题的数据集合。定位关系依托福建省一体化公共数据平台的数据汇聚、治理、共享等能力,开通专区,满足各领域定制化数据治理需求。1图1 位关系图数据流向湖保持一致。5.2 标准库的数据来源于原始库,为基础库和主题库提供数据支持。

5.1原始库的数据来源于数据据组织与数据2基础库的数据来源于标准库,为主题库提供数据支持。主题库的数据来源于标准库、基础库,为不同业务场景应用提供数据支持。2图2 数据流向图建设要求架构要求安全要求部门数据资源专区建设安全要求应符合GB/T39477规定。原始库建设要求原始库的建设遵循以下要求:应根据数据湖中表的情况以增量或全量方式抽取数据;应保存所有操作数据;应支持结构化、半结构化、非结构化数据类型,数据更新频率与数据源保持一致;应以流水表和快照表为主,按日期对数据进行分区保存;不应使用拉链表;注:拉链表,即一种针对数据仓库设计中表存储数据的方式而定义的数据模型。GB/T21063.2数据表结构和数据粒度与接入时一一对应,不对数据做任何处理;注:数据粒度,即数据仓库中数据的细化和综合程度。原始库的数据组织形式宜依据数据来源进行分类。标准库建设要求标准库的建设遵循以下要求:(对原始库数据进行提取、清洗、关联、比对、标识等标准化的加工与处理;数据更新频率应与原始库更新频率保持一致;在标准化过程产生的问题数据应反馈至数据源单位修改;3标准库的数据组织形式宜依据数据来源分类,同类数据应做数据整合;注:如将“A地市常住人口”与“B地市常住人口”信息整合。数据存储周期宜根据业务情况而定。基础库建设要求基础库的建设遵循以下要求:在系统建设时应考虑后期数据扩展工作,预留足够存储空间、扩展接口等;建设和管理要求应满足相关工作实际需要;应对接收到的数据实现全生命周期管理,每条数据可溯源;基础库包括人口、法人、自然资源、经济、电子证照等。主题库建设要求主题库的建设遵循以下要求:主题库包括:政务服务、医疗健康、社会保障、生态环保、信用体系、应急管理、国资监管、经济运行监测等领域,划分规则见《全国一体化政务大数据体系建设指南》。4附 录 A(资料性)标准库数据清洗规则部门数据专区的标准库数据清洗通用规则见表A.1。表A.1 数据清洗通用规则类型具体说明示例日期YYYYMMDD,默认为1900010120230101时间YYYYMMDDHHMMSS,默认为1900010100000020230101051200字符串去除头尾空格;去除回车;默认为NULL;全角转半角Trim(‘政务服务’)整型默认为0(可根据具体业务类型调整),应不存在空格、换行等字符双精度默认保留4位小数位(可根据具体业务类型调整)身份证号18位字符,15位的身份证号应通过数据加工系统转化为18位身份证号主键去重去空值域清洗则不做数据转换,否则需要赋为默认值数值清洗强制转换对该字段强制转换为默认值密码字段转为“0”空格清洗对字段值进行检查,判断字段值是否为空格,假如默认值为空,则不做数据转换,否则将该字段转换为默认值………………5参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论