文化旅游大数据建设第3 部分:数据存储与管理_第1页
文化旅游大数据建设第3 部分:数据存储与管理_第2页
文化旅游大数据建设第3 部分:数据存储与管理_第3页
文化旅游大数据建设第3 部分:数据存储与管理_第4页
文化旅游大数据建设第3 部分:数据存储与管理_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DB13文化旅游大数据建设第3部分:数据存储与管理河北省市场监督管理局发布I 2规范性引用文件 3术语和定义 4要求 附录A(资料性)GB/T37722-2019信息技术大数据存储与处理系统功能要求 4附录B(资料性)GB/T38676-2020信息技术大数据存储与处理系统功能测试要求 6参考文献 DB13/T××××-2025《文化旅游大数据建设》分为以下4个部分:——第1部分:数据采集——第2部分:数据预处理;——第3部分:数据存储与管理;——第4部分:数据分析与可视化。本部分为DB/T××××—2025《文化旅游大数据建设》的第3部分。本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起本文件由河北省文化和旅游厅提出并归口。本文件起草单位:河北民族师范学院本文件主要起草人:黄大伟、任海军、张海鹏、李建峰、郭晓晨、赵彦明、金疆、房健、林雪梅、姜立新、周长会、鞠安琪本文件于2025年*月首次发布。1文化旅游大数据建设第3部分:数据存储与管理本文件规定了文化旅游大数据建设中数据存储与管理的术语和定义、要求、功能测试要求。本文件适用于文化旅游大数据的数据存储与管理过程。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T5271.1-2000信息技术词汇第1部分:基本术语GB/T31916.3-2018信息技术云数据存储和管理第3部分:分布式文件存储应用接口GB/T37722-2019信息技术大数据存储与处理系统功能要求GB/T38676-2020信息技术大数据存储与处理系统功能测试要求YD/T3760-2020大数据数据管理平台技术要求与测试方法3术语和定义下列术语和定义适用于本文件。3.1分布式文件存储一种作为应用安装在操作系统之上的文件系统,其存储资源分布在不同的计算机节点上,并通过计算机网络相连。[来源:GB/T31916.3-2018,定义4.1.1]3.2数据管理在数据处理系统中,提供对数据的访问,执行或监视数据的存储,以及控制输人输出操作等功能。[来源:GB/T5271.1-2000,定义01.08.02]3.3数据管理平台提供支持的软件产品,一般包括数据源管理、元数据管理、数据质量管理、数据标准管理、主数据管理、数据模型管理、数据共享服务管理、数据资产管理、数据安全管理等。[来源:YD/T3760-2020-2000,定义2.2.1]23.4接口两个独立的功能单元进行信息交换的共享边界,由软、硬件,外部设备或进行操作的人之间进行物理互连、信号交换等各种特征构成。3.5存储节点大数据分布式存储系统中的基本存储单元,用于存储数据和处理数据访问请求。3.6数据质量数据的完整性、规范性、一致性、准确性、唯一性和关联性,是进行大数据信息挖掘的前提和保障。[来源:YD/T3760-2020-2000,定义2.2.5]4要求4.1基本要求4.1.1文化旅游大数据应进行存储和管理总体架构的规范化设计,保证数据存储系统各个分层之间的互操作可移靠性。总体架构的分层包括应用层、接口层、存储管理层和存储节点层。4.1.2文化旅游大数据由数据管理平台进行管理,主要功能管理数据的存储和调用,并提供元数据管理、数据质量管理、数据标准管理和数据安全管理。4.2文化旅游大数据存储与管理的总体架构4.2.1应用层提供数据存储、访问和管理的应用程序,支持数据分析、数据挖掘、机器学习多种应用场景。4.2.2接口层提供统一的访问接口,支持HTTP、RFC等多种协议,便于应用程序访问存储系统。4.2.3存储管理层对大数据存储系统进行资源管理、数据管理、副本管理、负载均衡等,保证存储系统的数据可靠性和运行。4.2.4存储节点层数据的存储和读取由多个存储节点共同完成,每个存储节点应具备独立的存储能力和计算能力。4.3文化旅游大数据的存储4.3.1文化旅游大数据的存储方式文化旅游大数据采用分布式文件存储的方式。34.3.2文化旅游大数据的存储功能文化旅游大数据存储的基本要求、分布式文件存储、分布式结构化数据存储、分布式列式数据存储、分布式图数据存储等功能要求应符合GB/T37722-2019第6章的要求。见附录A。4.4文化旅游大数据的数据管理4.4.1元数据管理元数据管理的功能应符合YD/T3760-2020第4.2条的要求。4.4.2数据质量管理数据质量管理的功能应符合YD/T3760-2020第4.3条的要求。4.4.3数据标准管理数据标准管理的功能应符合YD/T3760-2020第4.4条的要求。4.4.4数据安全管理数据安全管理的功能应符合YD/T3760-2020第4.9条的要求。5功能测试要求5.1大数据存储系统的功能测试按GB/T38676-2020第5章、第6章的规定进行大数据存储系统的功能测试,结果应符合本标准第4.2条的规定,见附录B。5.2大数据管理的功能测试5.2.1元数据管理的功能测试按YD/T3760-2020第5.2条的规定进行元数据管理的功能测试,结果应符合本标准第4.3.1条的规定。5.2.2数据质量管理的功能测试按YD/T3760-2020第5.3条的规定进行数据质量管理的功能测试,结果应符合本标准第4.3.2条的规5.2.3数据标准管理的功能测试按YD/T3760-2020第5.4条的规定进行数据标准管理的功能测试,结果应符合本标准第4.3.3条的规5.2.4数据安全管理的功能测试按YD/T3760-2020第5.9条的规定进行数据安全管理的功能测试,结果应符合本标准第4.3.4条的规4(资料性)GB/T37722-2019信息技术大数据存储与处理系统功能要求第6章6大数据存储子系统功能要求6.1基本要求大数据存储模块的基本要求如下:a)应支持数据上传、数据下载、目录查看、目录创建、目录删除、权限修改等操作;b)应支持标准、开放的数据访问API对数据进行操作;c)应提供数据加载工具的功能,满足大数据存储与处理系统和传统关系型数据库、其他文件系统之间交换数据和文件;d)应具备关键节点(部件)高可用性设计与要求;e)宜提供数据自动备份和手动备份的功能;f)宜支持数据批量更新、删除等数据管理功能;g)宜支持流式的实时数据人库,支持实时查询。6.2分布式文件存储分布式文件存储要求如下:a)应提供文件的上传、下载、读写、复制、移动、删除、访问控制等功能;b)应提供文件的容错机制和系统的高可用机制,包括数据块的备份、系统快速恢复等功能;c)应提供文件数据的校验和同步功能,保证数据的完整性与一致性;d)应提供分布式的弹性扩展功能,支持动态添加以及删除节点;e)应提供存储数据的压缩和加解密功能;f)应提供快速检索功能,支持数据资源的统一检索、编目、增加和删除操作;g)应提供文件的搜索、批量操作、回收站、快照等功能;h)宜提供小文件打包成大文件集中存储的功能;i)宜提供存储配额功能,能够基于目录的存储空间及文件数量进行配额控制。6.3分布式结构化数据存储分布式结构化数据存储要求如下:a)应提供结构化数据的分布式存储机制,实现数据存储的可扩展性;b)应提供API接口实现数据的各类查询操作;c)应提供多表关联功能;d)应支持数据分布式存储的一致性;e)宜支持行列混合存储,支持表按行或列格式组织存储;f)宜支持行列转换。6.4分布式列式数据存储分布式列式数据存储要求如下:a)应提供数据以键值形式进行存储的功能;b)应提供基于表、列族和列的用户权限管理功能,权限管理操作包括读、写、创建等;5c)应提供按照用户需要对数据库中的数据进行列加密的功能:d)应提供数据备份与恢复功能,包括库级别的备份和恢复、备份恢复进展/历史记录查看等功能;e)宜提供多级索引功能;f)宜提供将多个具有类似功能或存在关联的业务表合并存储的功能。6.5分布式图数据存储分布式图数据存储要求如下:a)应支持由节点及边组成(即节点间关系)的数据模型;b)应提供图查询、图遍历及图分析功能;c)应支持主流图数据库开发接口;d)应支持单节点、多节点多层关系的扩线查询;e)应支持最短路径、最优路径遍历搜索;f)宜支持项点、属性的继承操作;g)宜支持长任务异步会话机制。6(资料性)GB/T38676-2020信息技术大数据存储与处理系统功能测试要求第5章和第6章5概述本标准根据GB/T37722-2019规定的大数据存储与处理系统的功能要求,给出了相应的测试要求。6大数据存储子系统的功能测试要求6.1基本功能的测试要求大数据存储子系统基本功能的测试要求如下:a)应测试大数据存储子系统是否能对文件、图等数据进行上传和下载的操作;b)应测试大数据存储子系统是否能对目录进行创建、查看、权限修改、删除等操作:c)应测试大数据存储子系统能否通过API调用对文件、对象、图等数据进行查询、修改、删除、增加等操作;d)应测试大数据存储子系统能否通过开源或商业工具提供系统与传统关系型数据库之间交换数据和文件;e)应测试大数据存储子系统能否通过开源或商业工具提供系统与其他文件系统(如ext2等)之间交换数据和文件;f)应构造一个关键节点故障,验证大数据存储子系统中的数据读写是否正常;g)应测试大数据存储子系统能否通过界面/工具/命令行方式完成自动或手动备份。自动备份需配置相应的参数,如备份周期、备份数等;h)应对大数据存储子系统中存在的结构化数据、半结构化数据、非结构化数据执行批量更新、批量删除等操作,测试操作是否正常执行;i)应测试大数据存储子系统能否从消息队列读取数据,并将计算结果实时写入数据库:j)应测试大数据存储子系统能否将数据采集到实时检索平台,并根据索引主键进行实时查询。(本标准注:本条的测试要求对应GB/T37722-2019中6.1的要求)6.2分布式文件存储的功能测试要求分布式文件存储的功能测试要求如下:a)应测试大数据存储子系统能否进行文件上传、下载、读写、复制、移动、删除、访问控制等操作b)应测试大数据存储子系统能否对文件进行多副本备份,并能通过副本恢复出原始数据;c)应测试大数据存储子系统节点/软件发生故障时,如断电、数据节点失效等,不影响系统及业务的正常运行;d)应通过对副本文件进行写操作,然后查看块校验文件,验证副本文件所在节点的块校验文件相e)应测试删除节点前,单个数据节点先退出服务集群,集群数据重新分布,数据无损,业务不中f)应验证增加节点后,节点加人集群,系统数据重新分布,业务无中断;g)应测试按照已配置的压缩、加密算法,对数据进行压缩、加密和解密,原始数据无损坏和丢失;h)应测试大数据存储子系统能否对文件数据进行统一检索、编目、增加和删除操作7i)应测试大数据存储子系统能否通过命令或图形化界面对文件进行搜索、批量操作(创建/删除等)、文件删除后进入回收站、(创建/删除/查询等)快照操作:j)应测试大数据存储子系统能否根据配置的文件阈值,将存储系统中的小文件打包成大文件进行存储;k)应测试大数据存储子系统能否根据目录存储空间大小以及文件数量,对写文件设置最高上限。(本标准注:本条的测试要求对应GB/T37722-2019中6.2的要求)6.3分布式结构化数据存储的功能测试要求a)应通过向大数据存储子系统中导入结构化数据,测试在数据节点上能否看到块数据分布在不同的节点上;b)应测试大数据存储子系统能否支持通过API调用对结构化数据进行查询操作,包括:元数据、业务数据等;c)应通过创建多张表,进行表之间的关联,测试大数据存储子系统能否通过规则过滤等方式查询到某张表中的数据;d)应通过导入数据,测试数据所在节点的块校验文件是否相同:e)应通过导人多行多列的数据,创建表进行映射关联,测试是否可以接行接列进行数据查询:f)应通过导入多行多列的数据,创建表进行映射关联,进行行列转换,测试行数据与列数据能否进行转换。(本标准注:本条的测试要求对应GB/T37722-2019中6.3的要求)6.4分布式列式数据存储的功能测试要求分布式列式数据存储的功能测试要求如下:a)应通过创建表,写入数据,测试数据能否以键值形式存储在大数据存储子系统中。b)应分别对表、列族和列设置用户权限,包括读、写、创建等,测试相应用户能否对表、列族和列进行创建、读、写等操作。c)应通过对指定列进行加密,创建表,写入数据。测试表的属性是否是列加密状态,数据是否是非明文存储。d)应测试大数据存储子系统能否对数据库对象包括:表、索引、函数、触发器等进行备份和恢复:测试数据备份和恢复任务的进展和历史记录。e)应通过批量导入数据,导入时创建二级索引,测试大数据存储子系统能否通过索引查询到导入的数据。f)应通过构造多张表,导入数据,测试大数据存储子系统根据关联规则/关系合并后的表内容与预期是否一致。(本标准注:本条的测试要求对应GB/T37722-2019中6.4的要求)6.5分布式图数据存储的功能测试要求分布式图数据存储的功能测试要求如下:a)应通过定义图数据模型,上传数据文件和图规则映射文件,测试查询到的图数据与定义的数据模型是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论