DB41∕T 2925-2025 异构数据融合技术指南_第1页
DB41∕T 2925-2025 异构数据融合技术指南_第2页
DB41∕T 2925-2025 异构数据融合技术指南_第3页
DB41∕T 2925-2025 异构数据融合技术指南_第4页
DB41∕T 2925-2025 异构数据融合技术指南_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS01.040.35

CCSL70

41

河南省地方标准

DB41/T2925—2025

异构数据融合技术指南

2025-08-08发布2025-11-07实施

河南省市场监督管理局发布

DB41/T2925—2025

目次

前言.................................................................................II

1范围...............................................................................1

2规范性引用文件.....................................................................1

3术语和定义.........................................................................1

4总体原则...........................................................................1

5融合过程...........................................................................1

6融合表应用.........................................................................4

附录A(资料性)异构数据融合示例.....................................................5

参考文献..............................................................................9

I

DB41/T2925—2025

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由河南省行政审批和政务信息管理局提出。

本文件由河南省大数据标准化技术委员会(HN/TC26)归口。

本文件起草单位:河南警察学院、河南日彤大数据科技有限公司、河南省公安厅、郑州轻工业大学、

郑州图悦信息技术有限公司、河南英明电子科技有限公司、郑州宁润信息科技有限公司、济源职业技术

学院、郑州云智信安安全技术有限公司。

本文件主要起草人:党玉龙、甘琤、甘一彤、刘会霞、许伟昶、刘琦、刘晓阳、常旭辉、骆凯丽、

刘兴磊、张楠、邢广东、周帅、董成成、远京辉、许天烨、高燕。

II

DB41/T2925—2025

异构数据融合技术指南

1范围

本文件提供了异构数据融合的总体原则、融合表设计、建立、数据导入和应用的指导。

本文件适用于跨领域多源异构数据的融合处理分析应用。

2规范性引用文件

本文件没有规范性引用文件。

3术语和定义

下列术语和定义适用于本文件。

信息

关于客体(如事物、事实、事件、过程)的知识,在一定的场合中具有特定的意义。

[来源:GB/T5271.1—2020,2.01.01.01,有修改]

数据

信息的可再解释的形式化表示,以适用于通信、解释或处理。

[来源:GB/T5271.1—2020,2.01.01.02]

异构数据融合

将不同来源、种类、结构的数据,融合到一个数据库表的过程。

注:本文件中的异构数据仅限定为结构化数据。

4总体原则

异构数据融合宜遵循以下原则:

——高效性:能对各类不同的数据高效入库,便于数据分析和应用;

——贯通性:不同类型的数据,根据其唯一号码、时间、地点等特征,可纵向贯通;

——扩展性:用户可以结合实际,在本文件的基础上增加、减少或修改字段;

——时效性:明确数据融合的频率和方式,实现数据的动态更新。

5融合过程

融合表设计

5.1.1总体设计

1

DB41/T2925—2025

将任意客体静态信息(含事物、事实的描述信息、联系信息)或动态信息(事件、过程)以多个字

段的形式表示在一条数据中,多条数据组成的融合表可表示不同客体的各类信息,实现异构数据融合。

5.1.2静态信息字段定义

标识号码字段:定义1个“号码”字段,代表不同的人或物(例如人的身份证号、物的唯一编码);

再定义1个“关系号码”字段,用以表示和前者标识号码关联的人或物。2个标识号码都填写,即为联系

信息。

名称字段:定义“号码名称”和“关系名称”字段,对应2个标识号码字段的称呼(例如人的姓名、

公司的名称)。

数据种类字段:定义“数据种类”字段,表示来自不同源的数据表名称(例如常住人口、法人基本

信息)。

描述字段:事物本身具备的多个属性,主要是“备注”字段(例如学历是本科/研究生、婚姻登记

是结婚/离婚)和“标签”字段(例如精神病患者、工作积极者)。

其他描述字段:“数字备注”(数字小数型)、“号码备注”、“号码备注2”。

5.1.3动态信息字段定义

时间字段:定义日期类型的字段“时间”,记录与数据相关的时间点(例如结婚时间、毕业时间);

再定义1个日期类型的字段“时间2”,结合前者可记录具有始、末含义的时间(例如飞机起飞和到达时

间);额外定义2个字符类型的字段“时间备注”“时间备注2”,记录源库中非日期类型的时间。

地点字段:定义2个地点字段“地点”“地点2”,记录与数据相关的地点(例如户籍住址、事件发

生地),或者记录具有始、末含义的地点(例如飞机起飞地和到达地)。

地理坐标字段:定义字符类型的字段“x”“y”,记录地理坐标经度x/纬度y,根据情况可以度分

秒法或十进制法写入。

5.1.4相关字段定义

所有字段名和内容字段:定义“字段名集合”字段,记录本表中所有字段及源表中剩余字段的名称;

另定义“字段内容集合”字段,填写与“字段名集合”中一一对应的值。也可将此2字段写入其他表,

避免本表体积过大。

照片链接字段:存储人/事/物图片的链接地址。

上传信息字段:包含“上传时间”(日期型,由系统自动生成当前时间)和“上传人或单位”字段。

源表主键字段:记录源表中的主键,便于查找原始数据记录或者数据关联。

5.1.5融合表结构

根据上述设计,形成表结构,见表1。用户可结合实际对字段进行增删改。

表1融合表结构

序号字段名字段含义字段类型长度备注

1zL数据种类字符50—

2mc号码名称字符100—

3hm号码字符100标识号码

4gxmc关系名称字符100—

5gxhm关系号码字符100关系标识号码

2

DB41/T2925—2025

表1融合表结构(续)

序号字段名字段含义字段类型长度备注

6sj时间日期—年月日时分秒

7sj2时间2日期—年月日时分秒

8dd地点字符200—

9dd2地点2字符200—

10x坐标经度x字符30可做备注地点或数字备注

11y坐标纬度y字符30可做备注地点2或数字备注2

12bq标签字符200标签合集,用逗号隔开

13bz备注字符500—

14szbz数字备注数字小数decimal(38,4)整数、小数均可存储

15hmbz号码备注字符100—

16hmbz2号码备注2字符100—

字符型时间,避免因源格式

17sjbz时间备注字符100

不对致无法入库

18sjbz2时间备注2字符100—

19zd字段名集合字符2000用^分开,可另表存储

20nr字段内容集合字符10000用^分开,可另表存储

21zp照片链接字符300非必要

22UUID源表主键字符50非必要

23sj0上传时间日期——

24dd0上传人或单位字符100—

融合表建立

融合表可在任何数据库上建立。宜优先采用分布式列式数据库构建融合表,并确保数据库支持智能

索引功能(自动为每个字段建立索引)。

数据导入

融合表建立后,数据导入操作说明如下:

a)将数据库表名(无需写“表”字)填入到“数据种类”字段(zL),将标识号码和其关联的标

识号码填入2个标识号码字段(hm、gxhm)中,将具有始、末等含义或必用的时间、地点字段,

填入到2个时间字段(sj、sj2)和2个地点字段(dd、dd2)中,以上字段为关键项;

b)将未来可能需要结构化SQL检索的字段填入到多个描述字段(bz、bq、hmbz等)中;但并非

一定要按字段名称字义填写相应的数据,只要字段类型相符,任何描述数据均可填入,例如:

“x”字段原本设计为填写x坐标,但如果某表无x坐标字段,则此字段可以灵活地转为填写

地点,或者其他字段内容;

c)将用以说明本表所有字段含义的中文名称,填入到“字段名集合”字段(zd)中,中间用固定

分隔符隔开(建议用^);将与“字段名集合”字段中一一对应的值填入到“字段内容集合”

字段(nr)中,中间用固定分隔符隔开。

使用示例详见附录A。

3

DB41/T2925—2025

6融合表应用

在融合表基础上,可进行下述大数据分析应用:

a)在融合表中仅需查询2个标识号码字段(hm和gxhm),即可实现对全部数据种类标识号码的

通查;

b)对2个时间字段(sj、sj2)、2个地点字段(dd、dd2)进行范围检索,可实现对所有具备开

始结束、出发到达含义的时间、地点数据的过滤;

c)通过按时间字段(sj)排序,可实现对多源数据表的统一贯通性时间排序;

d)对“号码”(hm)和“关系号码”(gxhm)字段进行迭代查询,可实现类似“图数据库”(一

种用于存储实体之间关系的数据库类型)的关联关系功能;

e)在融合表内以不同时间地点范围的数据集进行一次性关联join得出的交集,相当于多个源表

数据进行多次关联join才能得出的交集。

4

DB41/T2925—2025

附录A

(资料性)

异构数据融合示例

A.1表A.1给出了静态信息与描述人的动态信息的数据示例。其中示例1、2是静态信息(即描述信

息),示例3、4、5是描述人的动态信息。*号覆盖了隐私内容,在真实系统中,为原始数据。

表A.1静态信息与描述人的动态信息示例

字段名称示例1示例2示例3示例4示例5

数据种类出生地学历学历出生证明学习成绩

号码名称李四李四李四李四李四

410102****410102**410102**410102**410102**

号码

**002X****002X****002X****002X****002X

关系名称

关系号码

时间2002/7/1198*/7/79:002002/6/1

时间2198*/7/89:00

地点Z市J区河南*大学Z市J区河南*大学

地点2Z市A医院

坐标经度x

坐标纬度y

标签

备注本科硕士研究生学位论文

数字备注90

号码备注

号码备注2

时间备注

时间备注2

姓名^身份姓名^身份证号^毕姓名^身份证号^出生姓名^身份证号^考

字段名姓名^身份证

证号^出生业时间^毕业院校^时间^办证时间^出生试时间^学校^学科^

集合号^学历

地学历地^办证单位分数

李四^410102******

李四^410李四^410102***李四^410102******

李四^4101002X^198*/7/79:

字段内容102******0***002X^2002/7/1002X^2002/6/1^河

02******0000^198*/7/89

集合02X^Z市J^河南*大学^硕士南*大学^学位论文

2X^本科:00^Z市J区^Z市A医

区研究生^90

照片链接

源表主键

上传时间2020/7/12020/7/12002/9/11980/7/189:002002/6/2

上传人或Z市*服务Z市*服务中

河南*大学河南Z市A医院河南*大学

单位中心心

5

DB41/T2925—2025

A.2表A.2给出了单人简单与含始末的动态信息的数据示例。其中示例6是单人简单信息,示例7、

8、9是单人含始末的动态信息。*号覆盖了隐私内容,在真实系统中,为原始数据。

表A.2单人简单与含始末的动态信息示例

字段名称示例6示例7示例8示例9

数据种类电力缴费乘坐火车乘坐飞机旅店住宿

号码名称张三李四李四李四

410102**410102**410102**

号码DB410**

****002X****002X****002X

关系名称

关系号码

2025/1/232025/1/232025/1/242025/1/23

时间

15:00:0015:00:0009:00:0019:10:00

2025/1/232025/1/242025/1/24

时间2

16:10:0011:00:006:10:00

地点郑州**小区301郑州东郑州新郑机场安阳*宾馆

地点2安阳东上海虹桥机场

坐标经度x113.*37

坐标纬度y35.*12

标签

备注201

数字备注100

号码备注

号码备注2

时间备注

时间备注2

姓名^身份证号^入住时

姓名^户号^缴费姓名^身份证号^出发姓名^身份证号^离港

间^退房时间^宾馆名称

字段名集合时间^家庭地址^时间^到达时间^出发时间^到港时间^离港

^宾馆经度^宾馆纬度^

缴费金额地^到达地地^到港地

入住房号

李四^410102**李四^410102*****

张三李四^41010

****002X^2025/1/24*002X^2025/1/23

^DB410**^2025/12******002X^2025/1/

09:00:00^19:10:00^2025/1

字段内容集合/2315:002315:00:00^20

2025/1/2411:/246:10:00^安阳*宾

:00^郑州**小区25/1/2316:

00:00^郑州新郑机场^馆

301^10010:00^郑州东^安阳东

上海虹桥机场^113.*37^35.*12^201

照片链接

源表主键

2025/1/232025/1/232025/1/242025/1/24

上传时间

18:00:0018:00:0018:00:006:20:00

上传人或

郑州*电力公司*州铁路局郑州*机场*阳市公安局

单位

6

DB41/T2925—2025

A.3表A.3给出了静态联系信息与动态联系信息的数据示例。其中示例10是静态联系信息,示例11、

12、13是动态联系信息。*号覆盖了隐私内容,在真实系统中,为原始数据。

表A.3静态联系信息与动态联系信息示例

字段名称示例10示例11示例12示例13

数据种类夫妻民政婚姻登记信息购物信息车辆违章缴费

号码名称张三张三李四王五

410102*****

号码410102******0011134***444410502******0021

*0011

关系名称李四李四MM某东专卖店

410102*****

关系号码410102******002XJDsMM12*3豫A**56

*002X

2008/10/12025/1/12024/7/1

时间

10:00:0019:10:0010:10:00

2024/5/5

时间2

10:10:00

地点Z市J区民政局郑州**小区301Z市交警*支队

地点2广州**商城Z市A路与B路交叉口

坐标经度x

坐标纬度y

标签天生购物狂

备注结婚登记口红闯红灯

数字备注520200

号码备注

号码备注2

时间备注

时间备注2

男方姓名^男男方姓名^男方身份证号姓名^手机号^店家名称姓名^身份证号^违章车辆号牌

方身份证号^^女方姓名^女方身份证^店家ID^购物时间^收^缴费时间^违章时间^缴费地

字段名集合

女方姓名^女号^登记时间^登记地^登货地址^发货地址^标签点^违章地点^违章类型^缴费

方身份证号记类型^购买物品名称^价格金额^违章照片地址

李四^134***444^M王五^410502******0021^豫

张三^410张三^410102******

M某东专卖店^JDsMA**56^2024/7/110:10:00

102******000011^李四^410102*

字段内容M12*3^2025/1/1^2024/5/510:10:00^Z市交警

11^李四*****002X^2008/10/1

集合19:10:00^郑州**小区*支队^Z市A路与B路交叉口^

^4101010:00:00^Z市J区民政

301^广州**商城^天生闯红灯^200^http://c*

2******002X局^结婚登记

购物狂^口红^520/a*.jpg

照片链接http://c*/a*.jpg

源表主键

2008/10/7

上传时间2008/10/114:00:002025/1/25:00:002024/7/111:10:00

10:00:00

上传人或郑州市*村委

Z市J区民政局*互联网公司Z市公安局

单位会

7

DB41/T2925—2025

A.4表A.4给出了物、单位动态信息与综合信息的数据示例。其中示例14是描述物的动态信息,示例

15是描述单位的动态信息,示例16是既含人的描述又含联系的动态信息。*号覆盖了隐私内容,在真

实系统中,为原始数据。

表A.4物、单位动态信息与综合信息示例

字段名称示例14示例15示例16

数据种类机动车基本信息放射源证传染病密接人员信息

号码名称奔驰河南*监测公司钱七

号码豫A**56豫环辐证[E0217**1]137**77

关系名称赵六张三

关系号码4107261980****0011410719***105133**33

时间2019/8/110:10:002021/12/152:02:02

时间22019/7/1510:10:002021/12/1611:02:02

地点Z市交警支队新乡市P路*号安阳市迎宾大道

地点2郑州市**传染病医院

坐标经度x4107***113.*77

坐标纬度y35.*33

标签豪车密接人员

备注已隔离

数字备注450039.5

号码备注139**994101021979****0777

号码备注24101021982****0011

时间备注20161226

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论