城市地面公共基础设施群运行保障平台数据融合规范第3部分:数据采集规范(征求意见稿)_第1页
城市地面公共基础设施群运行保障平台数据融合规范第3部分:数据采集规范(征求意见稿)_第2页
城市地面公共基础设施群运行保障平台数据融合规范第3部分:数据采集规范(征求意见稿)_第3页
城市地面公共基础设施群运行保障平台数据融合规范第3部分:数据采集规范(征求意见稿)_第4页
城市地面公共基础设施群运行保障平台数据融合规范第3部分:数据采集规范(征求意见稿)_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

T/CUPTAXX—2023

智慧交通车联网服务平台评价规范

1范围

本部分标准规定了城市地面公共基础设施群运行保障平台数据融合过程中的数据采集过程,数据采

集内容,数据采集技术﹑数据采集质量控制及数据采集安全控制。

本部分适用于城市地面公共基础设施群运行保障平台的规划设计、建设和管理,其他信息化领域的

数据采集过程也可以参考使用。

2规范性引用文件

GB/T5271.1-2000信息技术词汇第1部分:基本术语

GB/T31916.1-2015信息技术﹑云数据存储和管理第1部分:总则

GB/T22239-2019信息安全技术网络安全等级保护基本要求

GB/T36625.3-2021智慧城市数据融合第3部分:数据采集规范

城市地面公共基础设施群运行保障平台数据融合规范第1部分:总体架构

3术语和定义

GB/T5271.1-2000、《城市地面公共基础设施群运行保障平台数据融合规范第1部分:总体架构》

界定的及下列术语和定义适用于本文件。

数据采集dataacquisition

从多方数据源中得到原始数据,通过标准化处理并转化为满足数据共享与利用需求的过程。

运行监检测数据operationmonitoringanddetectiondata

基础设施管理单位通过实时集成监测、连续表观监测、动态快速检测、定期广域监测等多种监检测

方式对基础设施的结构与运行环境信息采集产生的数据。

安全预警safetywarning

预警发布责任单位根据事件对基础设施运行可能造成的危害程度、紧急程度和发展态势而发布预先

告知或态势通告。

应急管理contingencymanagement

道路、桥梁、隧道、交通枢纽、公共建筑等城市地面公共基础设施管理机构在突发事件的事前预防、

事发应对、事中处置和善后恢复的应对机制与措施,保障基础设施运行安全。

4缩略语

FTP:文件传输协议(FileTransferProtocol)

HTTP:超文本传输协议(HyperTextTransferProtocol)

HTTPS;超文本传输安全协议(HyperTextTransferSafeProtocol)

PDA:数据采集器(PersonalDigitalAssistant)

REST:表述性状态转移(RepresentationalStateTransfer)

SHA-1:安全散列算法1(SecureHashAlgorithm1)

SHA-2:安全散列算法2(SecureHashAlgorithm2)

SHA-3:安全散列算法3(SecureHashAlgorithm3)

5总体要求

运行保障平台应记录并保存数据采集过程中的数据来源、对接人、采集日志以及移动或者变更等

信息,从而确保数据的可追溯性。

运行保障平台在采集与传输数据过程中应避免数据的缺失与遗漏,保证数据的完整性。

3

T/CUPTAXX—2023

运行保障平台平台在数据采集过程中应对采集的数据进行预处理,包括清洗、转换、标准化等工

作,保证平台数据的规范性。

运行保障平台采集过程应如实处理并记录数据,不应存在异常或者错误数据,且不应随意更改数

据,保证数据的准确性。

运行保障平台在数据采集前应对数据来源的可靠性进行评估,保证数据的可靠性,且应符合下列可

靠性要求:

——可追溯性:融合数据及相关数据源数据应至少保留3年;

——容错性:保证当部分数据存在异常、错误的情况下,仍能够得到比较准确的融合结论;

——冗余性:对系统中关键信恳进行备份或采取冗余措施,具备系统容错能力。

平台应根据功能对各类型数据采集的延迟程度要求,对各个数据类型的数据采集方案进行优化,

保证数据的采集速度。

平台应支持对离线数据与实时在线数据的采集,并且支持结构化、半结构化和非结构数据数据的

采集。

数据采集技术应具备复杂网络环境下、不同异构数据源之间高速、稳定、弹性伸缩的数据移动及

同步能力。采集技术包括但不限于:

——针对结构单一,数据量相对较小的结构化数据,可通过数据库表、文件、网络服务(WebService),

REST,HTTP/HTTPS、消息订阅/发布等技术进行数据采集;

——针对传感器、智能手机、PDA设备、网络等渠道产生的类型丰富﹑数据量较大的数据,可通

过分布式系统接口、分布式流数据收集、网络爬虫等技术进行数据采集;

——针对由麦克风﹑摄像头等设备产生的海量音视频数据,可通过语音图像识别、编解码等技术转

化后进行数据采集;

——针对问卷调查、实地调研、资料分析等产生的数据,可通过在线填报、离线导入等人工转化方

式进行数据采集。

6数据采集过程

城市地面公共基础设施运行保障平台数据采集过程实现对数据提取、数据传输、数据汇聚,同时

提供采集过程的数据质量控制与安全控制等辅助工具。数据采集过程如图1所示:

图1数据采集过程示意图

6.1城市地面公共基础设施运行保障平台数据融合中数据采集过程包括:

4

T/CUPTAXX—2023

——数据源选择,根据运行保障平台数据需求以及数据源可提供的数据类型,确定数据采集的数据

源类型(文件、数据库、云、边缘计算服务器等)。

——数据采集方式,分为人工采集和系统采集两种,结合数据源的可提供方式以及平台的数据需求,

根据可操作性﹑成本导向等原则选定合适的数据采集方式。

——数据传输方式选择,根据数据源的类型及支持的传输方式(消息队列数据接口、API数据接口、

介质拷贝、数据传输软件等),结合平台的数据需求和数据采集方式,确定平台与数据源连接

通讯方式,并明确数据传输的标准、范围以及采集频率等信息。

——数据汇聚,对采集的各类原始数据进行清洗、转换、标准化、分析等预处理工作,确保数据的

完整性、准确性、可靠性和时效性。

——数据质量,数据采集周期内,根据平台对于不同数据类型的质量要求等级,对采集的数据进行

校验、核查等工作,保证数据的完整性、准确性、一致性、时效性、可访问性、可追溯性。

——数据安全,数据采集周期内,应按城市地面公共基础设施群融合平台数据安全及安全控制要求,

实现授权访问、可定位溯源,数据加密、安全审计及监测等。

7数据采集内容

从城市地面公共基础设施群运行保障平台建设与管理需求及我国城市地面公共基础设施群智慧运

维实践经验角度,城市地面公共基础设施群运行保障平台数据采集内容包括但不限于基础类数据、运行

监检测类数据、安全预警类数据、状态评定类数据、养护与运营管理类数据、应急管理类数据:

——基础类数据,人口数据、岗位数据、国土资源现状数据、设施基本信息数据、设施群属性数据、

城市规划数据、地理空间数据、有限元模型数据、设施外部风险数据等;

——运行监检测类数据,设备状态监测数据、结构健康监测数据、气象监测数据、地面沉降监测数

据、枢纽刷卡数据、视频监控数据、InSAR监测数据、遥感影像监测数据、车辆轨迹监测数据

等;

——安全预警类数据,基础设施结构健康状态预警数据、气象灾害预警数据、积水事件预警数据、

地面异常沉降预警数据、交通运行态势预警数据等;

——状态评定类数据:基础设施运行风险评定数据、基础设施健康状态评定数据、交通基础设施技

术状况评定数据、建筑安全性鉴定数据等;

——养护与运营管理数据,基础设施养护计划数据、养护维修数据、养护质量检验数据、交通组织

管理数据、交通管制数据、设施客流管制数据等。

——应急管理数据,基础设施应急机构数据、应急物资数据、应急人员数据、应急预案数据、应急

事件数据、应急处置数据等。

8数据采集方法

人工采集

人工采集是采用人工网络爬取、查阅资料、实地调研、介质拷贝等人工转化方式进行采集数据的过

程,包括人工获取、人工提取、人工转换、人工导入等过程,包括但不局限于以下方式:

——通过硬盘等硬件传输介质对数据进行采集;

——通过数据传输软件进行数据采集;

——通过人工网络爬虫从网络上爬取,实现数据采集;

——通过查阅资料或者实地调研等方式进行数据采集

系统采集

8.2.1系统采集的方式包括终端采集和软件系统采集。

8.2.2终端采集通过硬件终端、软件终端、网络爬虫等方式对物联网传感器数据、互联网数据等进行

数据采集。

8.2.3软件系统采集通过软件数据接口与目标系统对接,实现数据采集,包括但不限于以下接口方式:

5

T/CUPTAXX—2023

——数据库交换:通过访问数据库对源数据库中的数据进行采集、传输和入库,主要通过ETL工

具实现对数据库表的抽取、转换、加载;

——数据接口:数据资源提供方调取业务应用系统或数据库中的数据,并封装提供数据接口服务,

数据需求方通过数据接口调用获取数据;

——文件交换:以电子文件作为数据资源进行汇聚,常用的电子文件类型有wps、xml、txt、dcc、

docx、html、csv、xls、xlsx等。通过前置机的共享目录或FTP服务,实现共享文件数据组装、

数据传输、数据解析和数据使用,达到数据共享的目的;

——消息队列:以消息发布一订阅方式进行数据汇聚,可实现消息的异步发送接收,主要有kafka、

zookeeper等消息队列工具。

8.2.4系统采集除了符合GB/T36625.3-2021中7.2.2关于系统采集的要求,还应符合下列要求:

——系统采集应根据数据量大小以及数据更新频率等信息确定采集策略;

——对于海量数据,平台宜支持分批或增量读取,宜采用分布式方式对数据源进行读取;

——平台支持多种标准协议的服务接入方式,包括但不限于数据库抽取、服务网关、消息队列、文

件传输、直报系统、标准协议接口;

——数据采集实时性要求低的数据可采用定时批量采集的方式,实时性要求高的数据宜采用实时采

集的方式。

9数据采集质量控制

数据质量控制要求

9.1.1数据采集质量要求应符合GB/T363446的要求,在数据采集周期内,遵循数据完整性、准确性、

一致性、可访问性、时效性的原则;

9.1.2平台应在数据采集的各个阶段制定对应的数据质量控制流程,保证数据质量要求;

9.1.3应根据平台数据质量控制要求,选择适合的数据质量评价方法对数据质量进行定量评价,一般

分为全数检查和抽样检查。

数据质量控制方式

9.2.1数据清洗

数据清洗过程管理应包括但不限于:

——数据剖析:获取范围、体量、类型、内容、关系等信息,对数据源的完整性、准确性进行剖析

﹐及时发现数据源存在的质量问题;

——定义清洗规则:考虑目标数据资源特点和工作复杂程度,结合业务要求或用户和其他相关方的

需求、期望,确定切实可操作的数据清洗加工目标及规则。包括空值的检查和处理、错误数据

的检测和处理、不一致数据的检测和处理、重复数据的检测和处理等;

——执行数据清洗规则:依据定义的清洗规则,补足残缺/空值、纠正不一致、去重等;

——清洗结果验证:数据清洗方应对定义的清洗方法的正确性和效率进行验证与评估,对不满足清

洗要求的清洗方法进行调整和改进。数据清洗过程宜多次迭代并进行分析、设计和验证。

9.2.2数据转换

数据转换过程应包括但不限于以下工作:

——数据检查:开始数据转换工作之前应检查数据转换规则和字段是否一致,必要时可建立“数据

转换规则表”;

——数据转换:根据数据转换规则对数据的标准信息代码、格式,值类型等进行转换;

——数据验证:检查转换后的数据结构是否与目标数据库一致,并检查数据量、字段等信息是否相

同。

9.2.3数据分析

应通过数据聚合,数据归类,数据关联等方法,整合分析平台的数据资产,形成上下文完整有效的

数据。

6

T/CUPTAXX—2023

10数据采集安全控制

数据分级

10.1.1数据为保存在平台中的数据,根据数据遭到篡改、破坏、泄露或者非法获取、非法利用,对国

家安全、公共利益或者个人、组织合法权益等造成的危害程度,分为一般数据、重要数据和核心数据三

级;

10.1.2根据平台的实际情况,对组织与个人有影响的一般数据,按其危害程度从高到底又细分为4级

一般数据,3级一般数据,2级一般数据,1级一般数据;

10.1.3数据级别与影响对象、影响程度的对应关系见表1。

表1数据分级确定参考规则

影响对象与影响级别

数据级别

国家安全公共利益个人合法权益组织合法权益

特别严重危害、严重

核心数据特别严重危害--

危害

严重危害、一般危

重要数据一般危害--

4级一般数据无危害无危害特别严重危害特别严重危害

3级一般数据无危害无危害严重危害严重危害

2级一般数据无危害无危害一般危害一般危害

1级一般数据无危害无危害无危害无危害

采集安全要求

数据采集安全贯穿于数据融合整个过程中,应符合数据所属或主管部门的安全要求除符合GB/T

36625.3-2021中9.1对数据安全的相关要求外还应符合下列要求:

——平台应支持安全传输通道或者将敏感数据加密后再传输的机制,有标准协议规定除外;

——核心级、重要级、4级一般数据,3级一般数据这4个级别的数据的传送过程中完整性验证应

符合GB/T22239—2019中a)的要求;完整性校验算法应使用SM3、SHA-2/3系列散列

算法等,禁止使用SHA-1或MD5;

——核心级、重要级、4级一般数据,3级一般数据这4个级别的数据的传送过程中的保密性应符

合GB/T22239—2019中a)的要求;

——数据采集的通信安全传输应符合GB/T22239—2019中的要求。

7

T/CUPTAXX—2023

参考文献

[1]GB/T36625.3-2021智慧城市数据融合第3部分:数据采集规范

[2]GB-T42201-2022智能制造工业大数据时间序列数据采集与存储管理

[3]GB/T42127-2022智能制造工业数据采集规范

[4]GBT28788-2012公路地理信息数据采集与质量控制

[5]GA/T1495-2018道路交通安全设施基础信息采集规范

[6]DB2301/T113-2022公共数据采集规范

[7]DB34/T3820-2021智慧社区公共安全数据采集规范

[8]DB52/T1541.2-2020政务数据平台第2部分:数据归集规范

[9]T/ITS0115-2019城市交通运行状况采集系统数据融合平台技术规范

8

ICS

CCS

团体标准

T/CUPTAXX—2023

城市地面公共基础设施群运行保障平台数

据融合规范第3部分:数据采集规范

DataFusionSpecificationofUrbanGroundPublicInfrastructureGroup

OperationGuaranteePlatform

Part3:DataCollectionSpecifications

(征求意见稿)

2023-XX-XX发布2023-XX-XX实施

中国城市公共交通协会  发布

T/CUPTAXX—2023

智慧交通车联网服务平台评价规范

1范围

本部分标准规定了城市地面公共基础设施群运行保障平台数据融合过程中的数据采集过程,数据采

集内容,数据采集技术﹑数据采集质量控制及数据采集安全控制。

本部分适用于城市地面公共基础设施群运行保障平台的规划设计、建设和管理,其他信息化领域的

数据采集过程也可以参考使用。

2规范性引用文件

GB/T5271.1-2000信息技术词汇第1部分:基本术语

GB/T31916.1-2015信息技术﹑云数据存储和管理第1部分:总则

GB/T22239-2019信息安全技术网络安全等级保护基本要求

GB/T36625.3-2021智慧城市数据融合第3部分:数据采集规范

城市地面公共基础设施群运行保障平台数据融合规范第1部分:总体架构

3术语和定义

GB/T5271.1-2000、《城市地面公共基础设施群运行保障平台数据融合规范第1部分:总体架构》

界定的及下列术语和定义适用于本文件。

数据采集dataacquisition

从多方数据源中得到原始数据,通过标准化处理并转化为满足数据共享与利用需求的过程。

运行监检测数据operationmonitoringanddetectiondata

基础设施管理单位通过实时集成监测、连续表观监测、动态快速检测、定期广域监测等多种监检测

方式对基础设施的结构与运行环境信息采集产生的数据。

安全预警safetywarning

预警发布责任单位根据事件对基础设施运行可能造成的危害程度、紧急程度和发展态势而发布预先

告知或态势通告。

应急管理contingencymanagement

道路、桥梁、隧道、交通枢纽、公共建筑等城市地面公共基础设施管理机构在突发事件的事前预防、

事发应对、事中处置和善后恢复的应对机制与措施,保障基础设施运行安全。

4缩略语

FTP:文件传输协议(FileTransferProtocol)

HTTP:超文本传输协议(HyperTextTransferProtocol)

HTTPS;超文本传输安全协议(HyperTextTransferSafeProtocol)

PDA:数据采集器(PersonalDigitalAssistant)

REST:表述性状态转移(RepresentationalStateTransfer)

SHA-1:安全散列算法1(SecureHashAlgorithm1)

SHA-2:安全散列算法2(SecureHashAlgorithm2)

SHA-3:安全散列算法3(SecureHashAlgorithm3)

5总体要求

运行保障平台应记录并保存数据采集过程中的数据来源、对接人、采集日志以及移动或者变更等

信息,从而确保数据的可追溯性。

运行保障平台在采集与传输数据过程中应避免数据的缺失与遗漏,保证数据的完整性。

3

T/CUPTAXX—2023

运行保障平台平台在数据采集过程中应对采集的数据进行预处理,包括清洗、转换、标准化等工

作,保证平台数据的规范性。

运行保障平台采集过程应如实处理并记录数据,不应存在异常或者错误数据,且不应随意更改数

据,保证数据的准确性。

运行保障平台在数据采集前应对数据来源的可靠性进行评估,保证数据的可靠性,且应符合下列可

靠性要求:

——可追溯性:融合数据及相关数据源数据应至少保留3年;

——容错性:保证当部分数据存在异常、错误的情况下,仍能够得到比较准确的融合结论;

——冗余性:对系统中关键信恳进行备份或采取冗余措施,具备系统容错能力。

平台应根据功能对各类型数据采集的延迟程度要求,对各个数据类型的数据采集方案进行优化,

保证数据的采集速度。

平台应支持对离线数据与实时在线数据的采集,并且支持结构化、半结构化和非结构数据数据的

采集。

数据采集技术应具备复杂网络环境下、不同异构数据源之间高速、稳定、弹性伸缩的数据移动及

同步能力。采集技术包括但不限于:

——针对结构单一,数据量相对较小的结构化数据,可通过数据库表、文件、网络服务(WebService),

REST,HTTP/HTTPS、消息订阅/发布等技术进行数据采集;

——针对传感器、智能手机、PDA设备、网络等渠道产生的类型丰富﹑数据量较大的数据,可通

过分布式系统接口、分布式流数据收集、网络爬虫等技术进行数据采集;

——针对由麦克风﹑摄像头等设备产生的海量音视频数据,可通过语音图像识别、编解码等技术转

化后进行数据采集;

——针对问卷调查、实地调研、资料分析等产生的数据,可通过在线填报、离线导入等人工转化方

式进行数据采集。

6数据采集过程

城市地面公共基础设施运行保障平台数据采集过程实现对数据提取、数据传输、数据汇聚,同时

提供采集过程的数据质量控制与安全控制等辅助工具。数据采集过程如图1所示:

图1数据采集过程示意图

6.1城市地面公共基础设施运行保障平台数据融合中数据采集过程包括:

4

T/CUPTAXX—2023

——数据源选择,根据运行保障平台数据需求以及数据源可提供的数据类型,确定数据采集的数据

源类型(文件、数据库、云、边缘计算服务器等)。

——数据采集方式,分为人工采集和系统采集两种,结合数据源的可提供方式以及平台的数据需求,

根据可操作性﹑成本导向等原则选定合适的数据采集方式。

——数据传输方式选择,根据数据源的类型及支持的传输方式(消息队列数据接口、API数据接口、

介质拷贝、数据传输软件等),结合平台的数据需求和数据采集方式,确定平台与数据源连接

通讯方式,并明确数据传输的标准、范围以及采集频率等信息。

——数据汇聚,对采集的各类原始数据进行清洗、转换、标准化、分析等预处理工作,确保数据的

完整性、准确性、可靠性和时效性。

——数据质量,数据采集周期内,根据平台对于不同数据类型的质量要求等级,对采集的数据进行

校验、核查等工作,保证数据的完整性、准确性、一致性、时效性、可访问性、可追溯性。

——数据安全,数据采集周期内,应按城市地面公共基础设施群融合平台数据安全及安全控制要求,

实现授权访问、可定位溯源,数据加密、安全审计及监测等。

7数据采集内容

从城市地面公共基础设施群运行保障平台建设与管理需求及我国城市地面公共基础设施群智慧运

维实践经验角度,城市地面公共基础设施群运行保障平台数据采集内容包括但不限于基础类数据、运行

监检测类数据、安全预警类数据、状态评定类数据、养护与运营管理类数据、应急管理类数据:

——基础类数据,人口数据、岗位数据、国土资源现状数据、设施基本信息数据、设施群属性数据、

城市规划数据、地理空间数据、有限元模型数据、设施外部风险数据等;

——运行监检测类数据,设备状态监测数据、结构健康监测数据、气象监测数据、地面沉降监测数

据、枢纽刷卡数据、视频监控数据、InSAR监测数据、遥感影像监测数据、车辆轨迹监测数据

等;

——安全预警类数据,基础设施结构健康状态预警数据、气象灾害预警数据、积水事件预警数据、

地面异常沉降预警数据、交通运行态势预警数据等;

——状态评定类数据:基础设施运行风险评定数据、基础设施健康状态评定数据、交通基础设施技

术状况评定数据、建筑安全性鉴定数据等;

——养护与运营管理数据,基础设施养护计划数据、养护维修数据、养护质量检验数据、交通组织

管理数据、交通管制数据、设施客流管制数据等。

——应急管理数据,基础设施应急机构数据、应急物资数据、应急人员数据、应急预案数据、应急

事件数据、应急处置数据等。

8数据采集方法

人工采集

人工采集是采用人工网络爬取、查阅资料、实地调研、介质拷贝等人工转化方式进行采集数据的过

程,包括人工获取、人工提取、人工转换、人工导入等过程,包括但不局限于以下方式:

——通过硬盘等硬件传输介质对数据进行采集;

——通过数据传输软件进行数据采集;

——通过人工网络爬虫从网络上爬取,实现数据采集;

——通过查阅资料或者实地调研等方式进行数据采集

系统采集

8.2.1系统采集的方式包括终端采集和软件系统采集。

8.2.2终端采集通过硬件终端、软件终端、网络爬虫等方式对物联网传感器数据、互联网数据等进行

数据采集。

8.2.3软件系统采集通过软件数据接口与目标系统对接,实现数据采集,包括但不限于以下接口方式:

5

T/CUPTAXX—2023

——数据库交换:通过访问数据库对源数据库中的数据进行采集、传输和入库,主要通过ETL工

具实现对数据库表的抽取、转换、加载;

——数据接口:数据资源提供方调取业务应用系统或数据库中的数据,并封装提供数据接口服务,

数据需求方通过数据接口调用获取数据;

——文件交换:以电子文件作为数据资源进行汇聚,常用的电子文件类型有wps、xml、txt、dcc、

docx、html、csv、xls、xlsx等。通过前置机的共享目录或FTP服务,实现共享文件数据组装、

数据传输、数据解析和数据使用,达到数据共享的目的;

——消息队列:以消息发布一订阅方式进行数据汇聚,可实现消息的异步发送接收,主要有kafka、

zookeeper等消息队列工具。

8.2.4系统采集除了符合GB/T36625.3-2021中7.2.2关于系统采集的要求,还应符合下列要求:

——系统采集应根据数据量大小以及数据更新频率等信息确定采集策略;

——对于海量数据,平台宜支持分批或增量读取,宜采用分布式方式对数据源进行读取;

——平台支持多种标准协议的服务接入方式,包括但不限于数据库抽取、服务网关、消息队列、文

件传输、直报系统、标准协议接口;

——数据采集实时性要求低的数据可采用定时批量采集的方式,实时性要求高的数据宜采用实时采

集的方式。

9数据采集质量控制

数据质量控制要求

9.1.1数据采集质量要求应符合GB/T363446的要求,在数据采集周期内,遵循数据完整性、准确性、

一致性、可访问性、时效性的原则;

9.1.2平台应在数据采集的各个阶段制定对应的数据质量控制流程,保证数据质量要求;

9.1.3应根据平台数据质量控制要求,选择适合的数据质量评价方法对数据质量进行定量评价,一般

分为全数检查和抽样检查。

数据质量控制方式

9.2.1数据清洗

数据清洗过程管理应包括但不限于:

——数据剖析:获取范围、体量、类型、内容、关系等信息,对数据源的完整性、准确性进行剖析

﹐及时发现数据源存在的质量问题;

——定义清洗规则:考虑目标数据资源特点和工作复杂程度,结合业务要求或用户和其他相关方的

需求、期望,确定切实可操作的数据清洗加工目标及规则。包括空值的检查和处理、错误数据

的检测和处理、不一致数据的检测和处理、重复数据的检测和处理等;

——执行数据清洗规则:依据定义的清洗规则,补足残缺/空值、纠正不一致、去重等;

——清洗结果验证:数据清洗方应对定义的清洗方法的正确性和效率进行验证与评估,对不满足清

洗要求的清洗方法进行调整和改进。数据清洗过程宜多次迭代并进行分析、设计和验证。

9.2.2数据转换

数据转换过程应包括但不限于以下工作:

——数据检查:开始数据转换工作之前应检查数据转换规则和字段是否一致,必要时可建立“数据

转换规则表”;

——数据转换:根据数据转换规则对数据的标准信息代码、格式,值类型等进行转换;

——数据验证:检查转换后的数据结构是否与目标数据库一致,并检查数据量、字段等信息是否相

同。

9.2.3数据分析

应通过数据聚合,数据归类,数据关联等方法,整合分析平台的数据资产,形成上下文完整有效的

数据。

6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论