大数据归集文件_第1页
大数据归集文件_第2页
大数据归集文件_第3页
大数据归集文件_第4页
大数据归集文件_第5页
已阅读5页,还剩137页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1服务方案

1.1服务方案

1.1.1服务内容清单

我方按照以下清单提供服务:

序号服务内容单位数量

—*数据实施服务

1业务对象梳理项1

数据调研服务

2精细化业务梳理项1

3一级数据目录梳理项1

4数据目录梳理数据子目录梳理项1

5数据元目录梳理项1

6数据采集服务标准化接入部门数据项1

7数据清洗项1

数据治理服务

8数据加工项1

数据开发服务

1同步任务项1

2任务开发接口任务项1

3数据校验任务项1

4数据清洗任务项1

5数据转换任务项1

6SQL语句任务项1

7SQL模板任务项1

8可配置FTP任务项1

9任务视图可视化配置任务间依赖项1

10文件采集不同文件类型采集项1

11任务标签管理对任务标签的管理项1

12组合规则管理对组合规则配置管理项1

13SQL模版管理配置SQL模版任务项1

数据运维管理服务

1任务相关信息数据监测项1

2运维监测任务运行监测项1

3数据质量检测项1

4补数据项1

5调整调度状态项1

任务调度

6查看任务视图项1

7撤销任务项1

8运行日志项1

9任务记录启动备注项1

10结果比对项1

11文件采集记录对文件采集管理记录项1

查看接口的信息及其调用

12接口访问记录项1

记录

共享接口、任务执行器监

13系统监控记录项1

配置数据任务、存储阈

14告警规则管理值、平台生成接口等告警项1

规则

四数据资源弓录

1资源目录创建项1

资源目录管理

2资源目录变更项1

3发布状态管理项1

4接口目录管理账号配置管理项1

5接口停用管理项1

6数据资源订阅申请订阅数据资源项1

7相应接口订阅申请订阅数据资源接口项1

8订阅审核资源订阅申请的审核项1

五数据管理

对不同数据源的管理和维

1数据源管理项1

2分类树项1

3元数据管理分类管理项1

4表管理项1

5表类别管理对表类别进行增删改查项1

6数据资源监控数据库的相应监控信息项1

7数据报告数据量、数据异常情况项1

对数据源归属的物理存储

8存储容量管理项1

进行管理

八数据资源中心库建设

1数据原始库个1

2基础支撑库个1

3人口库个1

4法人库个1

5宏观经济库个1

6公共信用库个1

7空间地理库个1

8电子证照库个1

本次项目数据归集的目标主要有以下内容:

(1)在用业务系统梳理。各单位应做好本单位内所有在用业务系统梳理,

包含国家、省、市统建的业务系统,以及本单位内部自建业务系统。

(2)数据资源目录梳理。各单位应做好本单位内自建系统的数据资源目录

梳理,包含相关线下文档数据目录梳理。

(3)数据共享需求梳理。各单位根据实际业务情况,提出本单位对其他单

位数据共享的需求,并报县数据资源管理局。

(4)数据归集。各单位应根据县数据资源局《数据共享任务清单》,做好本

单位内数据归集以及相应系统的对接工作。

1.1.2数据调研与普查

建立实施组织

为确保责任到人、任务落地,采用“全县统筹、分类分组、集中攻关、强化

对接”模式,在县数据资源局统一部署下,各有关单位要建立本单位数据归集共

享工作专班,安排专人落实工作。

综合协调组:由县数据资源局主要负责人担任组长,成员包括项目负责人及

技术公司负责人。

技术保障组:由技术公司业务人员担任,县数据资源局配合其开展工作。

下发任务通知

县数据资源局下发有关工作通知,各相关单位在规定时间内反馈《信息化系

统评估清单确认表》和《数据资源调研表》,并指派实施对接的联络员。待收到

技术保障组回复后,安排调研计划。

信息化系统评估清单确认表

摸清部门现有业务系统使用情况。主要包括:系统名称、级别(国家、省、

市、县)、资金投入(万元)等。

具体内容需填写《信息化系统评估清单确认表》。

填表要求与说明:

A.所有项均为必填项。

B.需填报本单位所有在用的业务相关的系统、网站等,无论该系统、网站

是否本单位自建。

C.业务系统名称:要求填写完整业务系统名称,一般在项目建设相关文档

中会提及。

《信息化系统评估清单确认表》初步设计与样例如下:

系所属业务科负使建完.资是开所数是归归数

统部门空责用设成金否发、在据否集集据

名人范年年投在维护网内归方周库

称/围度度入用厂商络容集式期设

联(((/联类基(((计

系所万是系方型本是推n文

方属元/式(信/送/档

式层)否政息否/周(

级)务()抽/请

外系取年早

中网统))做

央/功准

/政用备

省务),

/内归

I'U网集

//时

县互需

)联提

网供

/)

)

怀县城执法督郑县222是城云政事否推日提

宁管局察股建003科技务件送供

智(数字好111(中外数数

慧化城管46888国)网据据

城指挥中12*有限部库

管心)318公司件文

系98数档

统据

数据资源调研表

分为政务数据目录编制表、社会数据目录编制表、外部数据需求3个表单。

数据资源填写工作内容:

A.梳理本部门的数据资源清单,按照数据资源的类别分别填入《政务数据

目录编制表》、《社会数据目录编制表》,其中《政务数据目录编制表》中优先填

写数据资源部分,标灰色的事项清单信息可后续补充提供。

B.梳理本部门对其他部门的数据资源需求,填入《外部数据需求》

补充说明:

政务数据资源与社会数据资源区别,政务数据资源是指行政许可、行政确认、

行政给付、行政征收、行政奖励、行政裁决、其他行政权力和公共服务职责中产

生或者获取的,以一定形式记录、保存的各类数据资源。社会数据资源是指本行

业部门内的社会组织,以及从事供水、供电、供气、供热、公共交通、电信、邮

政等公共服务的企事业单位依法产生或获取的数据,“互联网+社会服务”中的

教育、医疗健康、养老、体育、文化、旅游等领域数据。

具体内容需填写《数据度源调研表》。

数据调研服务

对本期需要接入的系统,涉及的业务对象和业务范畴进行梳理,包括业务

对象梳理和精细化业务梳理两部分内容。

(1)业务对象梳理

对本期接入的各个数据系统按照管理业务、基本对象、子对象、公用属

性、对象属性等维度进行详细梳理,为数据规范叱提供支撑。

(2)精细化业务梳理

对本期接入的各个数据系统按照管理业务、业务大类、业务数据对应系统

等维度进行详细梳理,为数据规范化提供支撑。

调研的内容包括数据和业务流程两部分。业务部门的数据都与其业务密切

相关,在调研报告的输出中,需要详细阐述被调研部门的业务现状。

调研内容如下表:

序号数据调研内容数据调研说明

系统数据是指存储在信息系统数据库中的数

1数据存在方式据,手工数据是指工作人员在日常工作中用

Excel表格制作的数据。

数据调研的内容按数据的类型还可以分为结

2数据的类型

构化数据和非结构化数据。

多个部门之间(或部门内部之间)的人口数据

3数据之间梳理的关联关系,数据之间的重复与否;多个部门

之间在一项业务中存在协同关联的

调研的内容还可以包括了解被调研部门对其

4数据需求

他部门数据的需求。

比对三定方案、权责清单等详细了解被调研部

5业务现状

门得业务现状。

1.126数据目录服务

根据调研结果,梳理数据目录,包括一级数据目录、数据子目录梳理和数

据元目录梳理。

数据资源目录梳理从两个维度进行梳理:

1、纵向整理是把分散在下级处室的数据资源汇总成总体数据资源目录,这

个过程是从下到上、逐级进行的;

2、横向整理是从内容上整理,先整理业务,再整理数据。对业务信息进行

分类汇总融合等处理,对数据进行合并同类项、确定责任方等处理。

一级数据目录梳理。将业务事项、业务子项根据数据目录梳理模板梳理成

数据目录列表。

数据子目录梳理。将业务和资源调查表中业务子项和资源子项先从各处室

业务和资源调查情况进行汇总,再梳理成数据子目录列表。

数据元目录梳理。将业务和资源调查表中中文名称、共享类型、数据类名

称、字段名称、定义、值域、备注等调查的资源先从各处室业务和资源调查情

况进行汇总,再梳理成数据元目录列表

1.1.3数据归集

数据归集范围

本项目的数据归集范围为各部门的核心业务数据汇聚。包括国家、省、市主

管部门留在怀宁县的所有数据,含100%的政务数据资源和60%的社会数据资源。

数据共享需求梳理

各单位根据实际业务情况,提出本单位对其他单位数据共享的需求,按照

《外部数据需求》填写,并报县数据资源局。

本项任务在任务下发后部门即可开展梳理工作。

(1)数据共享工作总则

•数据共享工作严格按照先申请后使用的模式进行。

•数据共享申请要求有理有据,明确数据使用范围及场景。

•数据使用严格按照申请时提出使用范围及场景进行使用,不允许擅自

挪作他用。

(2)数据共享申请流程规范

所有数据共享申请统一在后续发布的数据资源门户中进行线上申请,用请

流程如下:

部门根据实际工作

需要产生对其他部

门数据的需求

需求部门

提出需求申请

填报相应需求单

数据资源局审核

数据归集路径

(1)县级部门数据归集设计

县级部门系统由于所属网络不同,在数据归集时有同网归集和跨网归集两种

方式。

1)同网归集。由县数据资源局工作专班将共享数据抽取至大数据平台。

2)跨网归集。如果县级部门系统建在专网(如公安网、卫健专网等)内,则

由数源部门按照数据交换程序,将数据推送至前置机,再由县数据资源局工作专

班将共享数据从前置机抽取至大数据平价。

(2)市级数据归集设计

通过大数据平台的共享交换功能,把怀宁县归集数据上传至安庆市,完成市

级归集。

(3)来自社会公众的第三方数据结构化数据

1)通过接口调取或者离线批量数据直接导入的方式对第三方数据进行汇聚。

2)汇聚的数据进行校验、清洗、比对、转换、整合后进入到数据资源池中。

前置数据库归集步骤

各委办局单位提供数据目前有成熟的业务系统,有固定的数据库系统支

撑,此类数据共享方式应选择备份库共享模式。

(1)汇聚工作步骤

与部门相关业务人员或者第三方开发单位确认部门归集前置机数据库类

型、数据库名称、用户名及密码。

与部门确认核实每张表的数据更新频率,根据数据更新频率,配置全量数

据交换还是增量数据交换。

核对部门前置库归集表中英文字段注释是否齐全,核实表中字段是否属于

数据字典,如果是数据字典,需要部门提供数据字典项,补充数据字典项。

核对部门前置库归集表英文表名称是否有对应的中文名称,与第三方单位

确认并进行补充。

各部门前置库数据库类型存在种类多样的数据库类型,如数据库类型为

Oracle>MySQL、SQLServerDB2等,需要进行不同类型的数据库转换。作。

以上工作准备完成之后,开始进行部门前置库表数据到中心库数据归集实

施交换工作。

数据交换归集完成提交部门数据归集清单。

离线文件规范步骤

各委办局提供的数据多年来是以电子表格的形式或者纸质登记存档,无固

定的数据库系统,此类数据共享方式可选择手动传输离线文件汇聚模式。具体

实施过程如下:

整理离线数据文件过程中,需注意的事项如下:

不能合并行或列(即:不要出现合并的单元格)。必须确保一行为一条数

据,一列对应一个数据项。

第一行必须为数据项表头。第一行不能为空,或者非此数据目录表头的其

他信息。

同一列数据类型要相同,例如:“日期”列不能出现“自定义”、“文

本”、“日期”等多种类型,建议统一用“文本”类型。

对应的数据项值为一长串数字时,请统一使用“文本”类型,例如“旅游

编号”、“身份证号”等。

每个数据值的单元格中,不要出现多余的空吁,以及超链接之类的无效信

息。

(3)离线文件报送工具

在进行数据文件报送前,各委办局需先检测数据管理员使用的计算机能否正

常访问离线文件报送服务器。离线文件可通过数据交换平台直接上报。

数据采集服务

1.1.3.6.1数据采集服务流程

数据采集服务是将数据集市所需要的业务数据从城管'业务应用系统中采集

出来并建立原始库的过程。数据采集的方式通常有以全量/增量方式从各类主流

数据库(包括但不限于Oracle、SQLServer、MySQL等)、各类文件(txt、

excel、csv等)采集的结构化数据;通过标准化接口(Restful)采集的数

据;通过前置机方式采集的数据。对不同应用系统,可以采用不同采集方式;

甚至对同一应用系统中不同的业务数据,也可以采用不同采集方式。

数据采集流程如下图所示:

数据采集流程图

1)数据资源中心确定需要从生产库中采集的数据。

2)在确定需要进行采集的数据后,通过判断将要采集数据类型来配置相应

的数据采集方式,其中结构化数据采用数据库直接采集方式,非结构化数据采

用文件采集方式,单机数据和纸质文档数据采用手工输入方式。

3)启动采集仟务,根据配置好的采集规则,实现对数据的采集。采集杯务

可作为模板保存,方便其他同类任务复用;用户也可自定义任务标签,对采集

任务分类管理,降低采集任务的维护成本。

4)获取采集数据,并将采集完成的数据存入到数据资源中心的内部数据采

集库。

5)在数据运维中记录整个数据采集的过程信息。

1.1.3.6.2数据采集方式

系统需支持多种形式的数据采集方式如:全量采集、增量采集、接口采

集、文件采集(包括但不限于Oracle、SQLServer、MySQL等);

支持对同一应用系统中不同的业务数据,也支持采用不同采集方式。

1.1.3.6.3数据原始库

原始库提供业务系统数据的存储,屏蔽对业务系统的干扰。原始库是生产

系统数据源的直接拷贝,由ETL过程对数据源进行直接抽取,在格式和数据定

义上不作任何改变。与生产系统数据的唯一不同是,基础层数据具有时间戳。

特点如下:

1)对数据源作统一的一次性获取,数据中心其他部分都依赖于基础层的

数据,不再重复进行抽取,也不在生产系统上作运算,减小生产系统的压力。

2)在生产系统数据已经刷新的情况下,保存一定量的生产系统的历史数

据,以便在一次抽取过程中运算出错的情况下可以进行同溯。

数据治理服务

数据治理服务主要实现对数据归集库数据的清洗、转换、翻译、校验、夫

重、合并处理,并将相关的表合并成标准表和宽表,将杂乱的数据变为有序、

干净和高质,提升数据价值,为主题库的创建和数据分析应用提供基础。

数据治理业务流程如下图所示。

数据处理流程图

-:.II.

数据处理业务流程说明如下:

1)数据资源中心从采集库选择需要进行处理的数据。

2)对待处理数据,根据数据标准设置校验规则,随后对待处理数据进行数

据校验,确认数据的完整性和有效性,记录数据校验的结果,并确认数据校验

异常的原因。

3)对校验完成后的数据,根据数据标准设置清洗规则,随后对数据进行清

洗,记录数据清洗结果。

4)对清洗完成后的数据,根据数据标准设置比对规则,随后对数据进行比

对,记录数据比对结果,并确认数据比对异常的原因。

5)对比对完成后的数据,根据数据标准设置转换规则,随后对数据进行转

换,记录数据转换结果。

6)对完成处理的数据根据数据的类型存入到数据处理库。

7)在处理库中选择处理完毕的数据进行整合后,加载存入资源库,形成数

据资源中心的资源库,并以此为基础更新数据目录信息。

.1数据清洗

数据清洗主要对接入的各种不同数据源进行清洗操作,包括对冗余数据、

错误数据、缺失数据进行清洗操作。

(1)缺失值清洗

确定缺失值的范围:对每个字段都计算其缺失值比例,然后按照缺失比例

和字段重要性,分别决定除不需要的字段还是填充。填充方法:以业务知识或

经验推测填充缺失值;以同一字段的计算结果(均值、中位数、众数等)填充

缺失值;以不同字段的计算结果填充缺失值,如用身份证号码来计算年龄。

(2)格式内容清洗

格式不一致,如日期、全半角等显示格式不一致,要统一成统一的格式。

如将日期格式:yyyy-MM-ddHH:mm:ss全半角,转换为半角。

(3)逻辑错误清洗

主要是去掉一些使用简单逻辑推理就可以直接发现问题的数据。如年龄填

写了200等,需要去除不合理值。

(4)错误数据

主要是在已有内容中有不该存在的字符,如身份证号里有数字和X以外的

字符,以半自动半人工的方式找出问题,去掉不需要的字符。

.2数据加工

数据加工主要是在数据清洗后,根据实际的业务需求,对数据字段进行处

理的过程,包括字段映射、字段拆分、字段合并、字段补充、行列转换、数据

取值转换等工作。

(1)代码翻译

有些数据表存储的是代码信息,如性别存储的是M,F,在实际页面显示的

时候,需要转换成对应的中文名称,就需要对字段进行代码翻译,规则如下:

>只针木原始代码字段存储的是代码的情况

>原始代码字段去掉

>增加走应代码翻译字段:原始代码字段名称_CNAME

(2)数据合并

对于一些有多主键的表,为了关联方便快捷,需要对多个字段合并成一个

字段;其他业务需要的情况,需要将多个字段合并成一个字段。按照业务需求

对描述相同对象的信息数据进行合并。

(3)字段拆分

根据实际业务需要,将一个字段值的部分内容拆分成单独的字段。包括:

>日期拆成年、年月、年季、年月日等

>编号中拆巴有意义的字段,如身份证号,可以拆出行政区划,出生日

期等

>字段值本身由多部分组成,可以拆出各自内容,如存储时字段的每一

位代表一个意思,在实际应用时需要进行拆分。

(4)字段转换

一些字段不满足业务需要,可以采用相关函数对其进行处理后形成新的字段,

以满足后续的数据分析需要。

1.1.4数据资源目录编目

数据资源目录的编制

在数据归集完成后,根据数据归集的结果,编制相应的数据资源目录。

1.142数据资源目录的报送

各责任部门应按要求,在对信息资源目录进行复核、审查后,及时报送本级政

务信息资源共享主管部门。报送的信息资源目录为目录编制工具导出的统一格式

文件,或者et、xls、xlsx等电子表格文件。

1.1.4.3数据资源目录的审核汇总

在审核汇总过程中,如发现信息资源目录不符合要求,则退回责任部门整改;

如发现有重复采集的数据内容,县数据资源局工作专班与各部门协商,明确该数

据内容的第一采集部门,并将相关信息更新至本级政务信息资源目录。

1.1.4.4数据资源目录的管理维护

数据资源管理局工作专班为各责任部门接入提供技术支持,承担资源目录的

注册登记、发布查询、维护更新等日常管理工作。

1.145数据目录更新

各责任部门应对本单位发布的资源目录进行及时更新维护。

1.146数据目录编制发布

资源目录编制发布流程包括:前期准备、目录编制与报送、目录汇总与管理、

目录更新、目录详细设计、目录发布、目录生成等七个过程。

1.1.5数据库建设

帮助工作专班完成人口、法人、公共信用、宏观经济、空间地理和电子证照

6大基础信息资源库建设,为实现数字政府提供有力的数据支撑。

数据原始库

数据原始库存放全量数据,原始库的数据格式为DB数据。原始库中存放数

据的原始形态,确保数据源的统一性,为数据的全生命周期融合与数据质量追

溯提供可靠保障。

基础支撑库

基础支撑库是存储所有的基础数据。基础数据是指相对稳定,更新周期较

长的数据。基础数据在各个业务系统被使用,需保持一致性和统一性。

1.1.5,3基础信息资源库

以人口库为例,初步设计如下。

通过人口信息资源库的建设,实现信息数据的快速传递、完整收集、充分共

享,规范信息数据的采集和管理工作,从而促进各部门人口相关业务工作的规范

化建设,实现全县人口基础信息“统一建设、分类管理、综合开发、全面服务”

的整体目标。

依托电子政务网络,以资源整合和信息共享为基础,形成规范的数据采集和

维护更新机制,建设人口信息基础库。

以公安人口信息为基础,汇集教育、民政、人社、卫生、计生、房管和公积

金管理中心等有关部门和金融系统相关信息资源,建立覆盖全员人口、以公民身

份号码为唯一标识,具有基础性、基准性、权威性、全面性的人口信息资源库;

构建统一的人口信息共享服务平台,依法为政务部门、社会机构和公民个人提供

人口信息服务;准确掌握人口底数,为进一步提高政府监管能力和工作效率、制

定宏观政策、完善社会信用体系、建立健全实有人口动态管理机制、提高社会管

理创新水平提供信息支持。

(1)人口库模型设计思路

人口模型是人口单位基础库建设的核心,人口数据建模过程是将人口相关业

务数据进行抽象、转换、标准化的过程,能够很好的实现对数据的整理、管理并

加以利用。

(2)人口库模型基本元素

人口基础信息是指公民最基础的,相对变化频率较小,使用范围最为广泛的

信息。在公共数据信息基础再进行抽取合并,提取人口基础信息包括姓名、身份

证号、性别、出生日期、籍贯、户籍地址、民族、国籍、政治面貌、血型、宗教

信仰、婚姻状况十二项基本元素作为人口库的核心基础信息。

•姓名:人员代号,如公安登记的姓名、主主,教育登记的监护人等。

・身份证号码:人员唯一标识,办理户口、婚姻、教育、社保等业务登记

的身份证号码。

•性别:人员性别,系统中登记的男、女、未知性别相关的业务字段;

•出生日期:人员的出生日期,系统中登记的出生时间、出生日期、出生

年月W务信息。

•籍贯:人员籍贯,指的是曾祖父及以上父系祖先的长久居住地或出生地。

•户籍地址:人员的户籍地址,是户口本上登记的地址,不是现居住的实

际地址。

•民族:人员民族,主要是公安、教育、民政登记的汉族、回族等人员民

族信息。

•国籍:人员的国籍,即属于某个国家的身份,如常住人口登记的国籍。

•政治面貌:人员的政治面貌,如中共党员、共青团员、预备党员等人员

政治身份。

・血型:人员的血型,主要是卫计委、教育、公安登记的人员血型字段。

•宗教信仰:人员信奉某种特定的宗教,主要是有公安人口信息中登记的

宗教信仰。

•婚姻状况:人员的婚姻情况,主要是公安、民政、卫计委登记的婚姻状

况、婚姻状态。

在数据存储上,利用公民身份证号码关键属性,人口基础信息与公共属性信

息、业务共享信息实现数据关联,从而实现人口基础库数据的在逻辑上集中、物

理上分散的存储方式,降低数据物理集中存储造成的负荷。

在数据共享使用上,人口基础信息提供的是人口六项基本信息,可以快速的

查询定位对象,而后利用公民身份证号码与人口基础信息、业务共享信息进行关

联,可以有效快速的获取人口相关的信息数据。

(3)业务共享属性整合

人口是一个内容复杂、综合多种社会关系的社会实体,具有性别和年龄及

自然构成,多种社会构成和社会关系、经济构成和经济关系。人口的出生、死

亡、婚配,处于家庭关系、民族关系、经济关系、政治关系及社会关系之中,

一切社会活动、社会关系、社会现象和社会问题都同人口发展过程相关。在研

究人口发展的过程主要使用人口生命周期规律展示,从生到逝各阶段涉及到的

政府服务管理内容,建立居民全生命周期的服务与管理体系一“生命树”,如

下图所示:

人口库生命确

人口库生命树

生命树中涉及到公安、民政、计生、教育、人社、工商、住建、社区等众

多政府部门,建立了众多业务系统,针对人的不同阶段、不同需求提供不同服

务,产生了人的大量对象属性,这些属性存在于各个部门的业务系统中,无法

互联互通,造成了信息孤岛。人口基础库的建立汇集了各部门的相关业务数

据,形成业务共享信息,主要数据包括:

•公安

公安部门主要负责维护社会治安秩序、公共安全秩序、保护公民合法权益

等工作,涉及司法、治安强制、治安行政管理、以及特定人员的教育和保护等

诸多领域,产生大量的人口业务信息,主要包括常驻人口信息、、流动人口信

息、户籍信息、户口迁移信息、居民身份证信息、暂住证信息、重点人口信息

等业务数据。

•民政

民政部门主要负责优抚安置、救灾救济、社区建设、社会福利、社会事

务、老龄工作等业务,产生的人生相关业务信息主要包括结婚登记信息、离婚

登记信息、低保信息、社会救助信息、高龄津贴信息、“三属”优抚信息、殡

葬信息等业务数据。

•卫计

卫计委主要负责计划生育、卫生医疗等业务,在业务运行中产生人口相关

业务信息主要包括出生医学证明信息、政策外生育人员信息、育龄妇女信息、

死亡医学证明信息、亲缘关系信息等业务数据。

•人社

人社部门主要负责人力资源和社会保障方面业务,产生的人口相关数据包

括从业信息、退休人员信息、社会保险信息、医保信息、离职信息、职业资质

证信息等业务数据。

•教育

教育部门主要负责社会的教育资源规划及教育业务,主要产生的人口相关

数据包括学历/学位信息、学籍信息等人口数据。

•其他相关部门

其他政府相关部门也存在大量的是人口数据,包括房管局、公积金管理中心、

司法局、法院等部门。

(4)业务共享属性治理

各政府业务部门汇集的业务共享信息中,各部门的业务共享信息存在数据

交叉,通过清洗、整合、关联、转换等处理后形成规范的人口基础数据库,以

保证人口数据的完整性、鲜活性、准确性。同时,明确人的各种关联关系,例

如:人-房关系、家庭关系、人-单位关系等。

根据人口基础信息的来源和维护方式不同,在人口基础库公共属性信息抽

取方面存在三种模式:

•单一权威数据来源模式

单一部门提供来源和维护,其他部门协助职能部门补充、核准;例如:人

口基本信息、户籍地址、居民身份证照片和签发信息等是由公安部分提供信息

来源和数据维护,人口和计划生育、劳动和社会保障、民政、卫生等各部门提

供补充和核准;学历和学位信息由教育部门提供信息来源和维护。

•多个权威数据来源模式

多个职能部门共同维护某个数据的一类情况。例如婚姻状况信息,由民政

部门提供结婚和协议离婚方面信息,法院提供判决离婚方面的信息,公安提供

丧偶方面的信息,三部门共同承担对婚姻状况信息的维护和更新。

・无权威数据来源模式

某些相关数据尚无权威部门进行维护,但是存在多个数据来源的情况。例

如:地址信息,公安、民政、人社、教育、房产等各类部门均在记录人口的地

址信息,但是都不能够保障数据的准确性和实效性,此时就需要汇集各单位数

据,根据数据的鲜活性和可信程度从而确定准确的地址信息。

利用以卜的抽取模型建立人口公共属性信息,涉及人口公共的皿务信息.

主要包括:

>出生信息:包括公安部门提供的出生登记信息、卫生部门提供的出生医

学证明信息、计生部门提供的政策外生育信息等。

人员扩展信息:主要包括公安部门提供的户类型、居住类型、居住地

址、家庭人员数、死亡时间、死亡地点、死亡原因等信息,由卫计委提

供的身高、体重信息。

弱势人群信息:主要由民政部门提供的留守儿童、临时救助、老年人、

低保、五保、失独人员、优抚对象信息,由残联提供的残疾人信息,构

成弱势人群标签信息。

特殊人群信息:主要由公安提供的刑释解教、社区矫正、吸毒人员、邪

教人员等信息,由信访局提供的信访人员,由卫计委提供的传染性疾病

人员,构成特殊人群标签信息。

户籍信息:由公安部门提供的户籍登记、户籍迁入、户籍迁出、死亡注

销等信息。

证照信息:由公安、民政、人社、干.计、教育、司法等相关业务部门提

供的各类人口证件信息,如居民身份证、暂住证、工作居住证等。如公

安部门提供的居民身份证信息包括身身份证有效期起始日期、身份证有

效期截止日期、签发机关等信息。

照片信息:由公安、民政、卫计、人社等部门在'业务运行过程中采集的

人员照片信息。

财产信息:由公安提供的车辆信息,由房管局提供的房产信息、由人社

提供的社保信息、由公积金管理中心提供的公积金信息,及其他业务部

门提供的有关个人财产的相关信息。

通信方式:由公安、人社、卫计、教育等部门在业务登记过程中记录的

联系方式信息,包括手机号、固定电话、电报挂号、传真、QQ号、微

信号等相关联系方式。

健康信息:由卫计委提供的相关住院信息、诊断信息、体检报告、电子

病历等相关的个人健康状况信息。

教育经历:由教育部门以及相关培训机构提供的教育经历、培训经历信

息,主要包括学籍、学历、学位、毕业学校、专业、毕业时间等反映公

民受教育情况的信息。

>专业技能:由相关的职业、专业技能培训机构和技能证书颁发机构提供

的专业技能信息。包括公民的从业状况、从业记录及其变化情况。主要

由公安部门、人社部门、民政部门和计生部门等提供。

>人际关系:由公安、卫计部门提供的家庭关系、亲缘关系信息,以及人

员在社会中进行住宿登记、网吧登记、机场登记等相关记录形成的社会

关系信息,构成人际关系信息。

>奖惩信息:由公安、工会、交管、法院等部门提供的表彰信息、处罚信

息、刑罚信息等相关奖惩信息。

>死亡信息:死亡信息包括各部门提供的死亡信息,主要有公安提供的死

亡注销户口信息、人口计生委提供的死亡信息、人社部门提供的死亡信

息、民政部门提供的殡葬信息、卫生部门提供的死亡医学证明信息等。

(5)人口库建模过程

人口模型是人口信息基础库建设的核心,人口数据建模过程是将人口相关

业务数据进行抽象、转换、标准化的过程,能够很好的实现对数据的整理、管

理并加以利用。人口模型的建设过程主要包括业务数据库、主数据库管理、人

口数据模型三个部分。

•业务数据库是根据人口在社会运行过程中发生相关业务数据,记录人口

从生到逝过程中的仝部业务数据。

•主数据管理是利用数据处理引擎进行数据建模的过程,在数据建模过程

中制定数据建模的标准,从而根据标准进行数据清洗、转换、关联的过程。

•人口数据模型是数据建模后的结论,建立以人口基本信息为核心的人口

数据模型。

民务

政数

业据

务其业

数他务

部数

据门据

H

3

--

--

--

--

--

--

-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论