大学数据中心平台项目建设需求说明_第1页
大学数据中心平台项目建设需求说明_第2页
大学数据中心平台项目建设需求说明_第3页
大学数据中心平台项目建设需求说明_第4页
大学数据中心平台项目建设需求说明_第5页
已阅读5页,还剩42页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

XX大学数据中心平台项目建设需求说明

一、项目背景

L现状

XX大学数据中心平台是为学校内部提供数据共享、数据服务应用及数据管

理的信息化基础设施。数据中心建设经历“以技术为导向”到“以应用为导向”,

再到“以服务为导向”的发展历程,目前完成了2期的项目建设,已建设内容如

下:

(1)数据中心(一期)

根据“以技术为导向”的指导原则,数据中心(一期)主要围绕“数据共享”

和“数据治理”两个方面进行基础技术平台的建设,建设内容包括建立数据仓库、

数据共享交换平台、支持数据治理活动的元数据管理系统和数据标准管理系统;

同时,基于平台进行业务系统的数据集成和数据标准的制定工作。

(2)数据中心(二期)

根据“以应用为导向”的指导原则,数据中心(二期)主要围绕“数据服务

应用”进行项目建设,同时通过“完善基础技术三台功能”和“深化数据治理活

动”两个方面的项目建设,提高数据共享能力和数据质量,推动数据服务应用的

建设目标的实现。建设内容包括:建立数据服务应用(高基表应用、领导驾驶舱、

个人数据门户、业务报表管理系统、学生宿舍智慧管理)完善基础技术平台功

能(数据共享门户和数据服务生态平台),建设自助式、丰富接口方式的、数据

资源丰富可视化的数据共享以及增加数据质量、数据安全、数据模型,数据资产

等数据治理领域的辅助技术工具;建立数据治理制度体系(制定了数据标准管理、

数据质量管理、元数据管理、数据集成管理等制度。

经过两期的建设和数据治理,采集了30余个核心业务系统的数据,建立了

8大类262个数据标准和19192个标准代码,建立共享数据资源177个,规范共

享数据接口421个,已为75个下游业务系统提供数据服务。数据共享平台每天

的数据交换量在300万次以上,在一定程度上打破了数据孤岛、应用孤岛、业务

孤岛,已建成“1+7”的数据服务生态:一个数据中台和七大数据应用,数据作

1

为生产要素的地位得到提升。但随着学校高质量发展以及信息化建设的不断深入,

对数据服务提出了更高的要求,现有基于ETL的定时数据采集与交换服务已无法

满足“互联网+校务”服务需求,尤其是数据中心缺乏对实时数据计算能力和非

结构化数据处理能力,无法满足业务系统对实时计算、非结构化数据利用及融合

数据价值挖掘与数据服务等口益增加的需求。

2.存在问题

经过前面两期的建设,学校数据质量大幅提升,数据资产作为学校的战略性

资产地位不断得到强化,数据中心建设是一项基础工作繁、技术要求高、建设周

期长和影响面广的系统化、持续性的基础工程,目前数据中心仍存在以下问题:

(1)缺少对复杂业务数据实时共享及实时数据分析支持能力。目前学校数

据中心已建成基于ETL等技术的定时采集、汇聚和交互平台,基本满足了非实时

性的数据服务场景,比如报表服务、业务系统数据交互服务、领导驾驶舱等;但

尚不能满足基于实时性的数据服务场景,比如一网通办、自助打印、迎新离校等

场景,以及财务、校园卡等涉及金融业务的应用场景。比如目前在毕业季办理学

生批量离校业务时,其中“欠费清缴”、“图书归还”等业务中的数据同步需要

30分钟以上,极大影响了办事效率和用户体验。

(2)缺少对半结构化及非结构化数据的统一存储计算分析能力。近年来学

校分批次建设了200余间智慧教室、并启动了新一代校园安防体系建设。现有数

据中心无法满足对来自于这些系统或场景的学习日志、教学视频录播、视频监控

等半结构化、非结构化数据的存储、分析、利用°《XX大学关于进一步提升拔尖

创新人才培养质量的实施意见》中明确要求实现基于“多模态数据驱动,实施发

展性学生学业评价。从多个维度开展基于多模态的学生学业评价改革。”采集在

线学习、课堂交互、教学录播、图书借阅、校园等多场景行为数据,纵向采集学

生从入学到毕业全过程学业数据,为学生学习质量监测提供可视化表征。因此,

需要建设湖仓管理底座,实现对日志数据源、电子文件数据源、API数据源、声

像文件数据源等多种数据源类型的实时数据采集。

(3)数据应用场景数量较少,提供师生数据服务能力有待提高。经过前面

两期的持续数据治理,学校的数据质量大幅提升,学校数据资产基础形成,推出

2

了广受教职工欢迎的智能表格填报等数据服务,极大减轻了教师的指尖负担。但

目前数据应用场景还太少,数据效能发挥不足,如何基于已有数据治理成果,以

服务化视角重新组织数据信息,实现数据变现及数据业务化,强化面向师生个人

的数据服务能力,提升师生获得感,是学校数据中心建设亟需解决的问题。

二、项目概况

L建设目标

项目建设将推动由数据战略驱动的业务及管理变革,挖掘数据服务应用场景,

提升教育决策科学化、管理精准化和服务个性化水平,推进教育治理方式改革和

学校的高质量发展,具体实现绩效目标如下:

1.增加实时数据共享和分析功能,提升计算时间颗粒度从分钟级到亳秒级,

满足智慧校园迎新、离校、自助打印服务等互联网+校务体系实时数据服务场景,

提高数据计算吞吐量,增强数据计算稳定性,完善数据共享功能,提升对数据共

享服务场景的支持水平。

2.增加非结构化及结构化数据的统一存储、加工、处理,及价值挖掘能力,

构建湖仓一体化数据架构,提升对全域数据的管理水平。

3.增加“学生综合预警系统”、“学生精准资助系统”、“学生学业画像”、“部

门全息画像”、“自助取数服务系统”5个数字校园数据服务场景,进一步为科学

决策、精准管理、个性化服务提供支持。

3

2.总体设计

应用架构图

S

个更

埔ztaifWsmst

应学生圻言及守军统第-金争芭像

用(4)⑦

K

实«

时W土K弘・遛

H(C

WI3)

SIH■安全・建

ftK挺方量・理

线

人事至线手工第姿出讦率改召或生至理件

I下

统E*«u%S«IttV'.9K11-搭累图]I—I

本项目应用架构图如上所示,建设内容按照“项目建设内容表”的序号在架

构图中进行对应标识。图中数字文字标识的湖仓管理底座、实时计算平台、数据

协同管理平台、学生综合预警系统、学生精准资助系统、学生学业画像、部门全

息画像、自助取数服务系统是本期项目的软件建没内容。

3.基本要求

(一)信息标准要求

(1)本项目系统建设应遵循《XX大学信息标准与规范-数据标准》、《XX大

学信息标准与规范-信息系统建设规范》和《XX大学信息标准与规范-数据集成

管理规范》进行开发,若系统与学校信息标准与规范不一致,供应商应提出解决

方案并实施完成。

(2)供应商须提供项目建设系统的数据字典文档,并把数据字典内容部署

到数据库的注释字段。

(二)数据安全要求

★(1)根据国家对教育行业信息安全等级保护工作的要求,供应商需要使

本系统符合信息安全等级保护相应等级要求相关技术标准。采购人可选择符合

4

《信息安全等级保护管理办法》规定条件的测评机构,依据《信息系统安全等级

保护测评要求》等技术标准,对本系统开展等级测评,供应商需根据测评机构的

整改意见(报告)免费对本系统做好整改修复并使之通过测评。提供承诺函,格

式自拟。

(2)在本项目实施和售后服务期间,本项目合同标的物(定作物)之应用

系统(含应用系统部署所需的操作系统,中间件,数据库)如果自身存在安全性

问题,并被采购人或者政府主管部门(包括但不限于公安部门、网信部门、教育

主管部门)扫描出存在的漏洞,供应商应积极配合安全漏洞修复并在采购人指定

的时间内完成。

(三)技术路线要求

★(1)项目技术路线符合信创技术路线要求,项目验收须获得信创适配符

合性报告C提供承诺函,格式自拟C

三、建设内容

1.湖仓管理底座

面向智慧校园(如智慧教室录播、校园安防等)半结构化、非结构化及结构

化的多模态数据的存储与集成,实现多类型数据容器融合,包括PostgreSQL>

MYSQL>人大金仓、达梦、Minio、clickhousc等,实现支撑校级全量全域全场

景数据服务业务建设目标,并支持信创技术路线。

序号模块具体技术(参数)要求

★为确保湖仓管理底座能基于学校现有校本数据中心规范体

系切实落地,并与学校数据管理整体战略保持高度一致,本次湖

仓管理底座建设须充分考虑学校现有数据的类型分布,并针对性

总体提供采集、存储、分析与管理能力及策略,投标人需承担湖仓管

1

要求理底座建设过程中可能产生的所有费用,包括但不限于底层数据

库优化费用、数据迁移费用等,这些费用应被合理计入投标成本

中,不得再向学校或第三方机构收取费用。【投标人须提供对应

承诺函,并加盖投标人公章】

5

(性能安全评分项)性能满足:单节点最高离线抽取速率2

45Mb/s,最大平均速率218万条/秒;单点可处理峰值数据21亿

条/h,处理峰值数据量235/h;单节点并发任务最大数据量280G,

提供单节点任务最大并发270条/s;单节点提供创建共享API服务

个数2450个。安全满足:软件架构有保障系统运行的安全策略和

机制,至少包括标识和鉴别、访问控制、安全审计、数据完整性、

数据保密性、会话管理等相关安全功能和机制。

投标人需根据本项目实际情况,按照“湖仓一体”的建设目

标完成数据底座平台的设计、规划、部署。需根据待处理数据的

体量规模、增长趋势、形态格式等因素,充分考一体化管理、容

量扩展、处理性能、异构兼容性等方面的要求,选用成熟稳定、

数据

架构先进、性能优异的数据库、文件系统等产品构建数据底座平

底座

台,并对数据底座平台的运行架构和配置参数进行合理规划设计,

平台

2保障数据底座能够完全满足我校数据资源管理的长期要求。

规划

投标方案中详细说明数据底座的具体产品选型、功能作用、

和部

技术特点、存储对象、适用场景,并说明数据底座与数据资源之

间的对应关系,数据资源在数据底座内流转方式设计。

中标人需完成数据底座的实际部署、配置,并进行必要的性

能调优,基于该底座架构完成本项目交付,保障各项功能和性能

要求的达成。

构建高性能0LAP的分布式数据库,支撑湖仓一体的物理架构,

支持以下特性:

1、支持列式存储。

分布

2、支持数据压缩。

式数

33、支持向量引擎操作。

据库

4、支持OLAP场景下的数据实时处理。

构建

5、支持数据高吞吐的方式批量并发写入。

6、支持多核和多服务器分布式部署和处理的方式,提高查询

的速度。

6

7、支持包括MergeTree^ReplicatedMergeTree^Log、Memory>

Distributed、Kafka、Buffer、MaterializedView>URL、HDFS、

S3等在内的多种表引擎,基于不同场景选择合适的表引擎存储和

使用数据。

8、大数据集群支持Multi-Master的多主架构,集群中每个

节点角色对等,客户端访问任一节点均能获取相同数据,避免单

点故障。

9、大数据集群支持数据分片语分布式查询,分片数量取决于

节点数量,支撑TB级以上数据查询的高性能响应。

10、支持关系型数据、JSON、XML等数据的存储,支持NoSQL

数据库的外部数据注册,基于sql实现NoSQL+SQL的实时关联查

询。

11、支持ACL的方式对于数据表的访问及操作权限进行控制,

字段细亿到行级和列级,以保护敏感数据不被未授权访问。

12、支持海量数据查询和计算的秒级返回,实际操作500G单

张大宽表的数据聚合,返回时间在3秒以内。

13、(演示评分项)支持数据实时关联计算能力,基于同一个

数据开发界面进行数据实时关联任务配置,可通过标准sql方式

对多张数据表进行实时动态捕获,至少包括支持根据数据关联逻

辑完成数据实时推送,支持按过滤条件取最新的数据,支持增量

无侵入,可在数据实时关联过程中引用数据清洗转换组件,清洗

转换组件至少包括加密、替换、切割。

构建可扩展、高性能的分布式文件系统,对数据湖、数据仓

分布库中的非结构化文件进行统一存储和对象化管理.,提供高性能检

式文索、文件共享、访问控制、高可靠运行等能力,支持以下特性:

4件系1、支持分布式架构:支持水平横向扩展,通过增加节点来提

统构高存储容量和性能,满足大规模数据存储需求。

建2、支持对象存储,所有数据包括文件本身、文件名、文件的

描述信息等都以对象的方式进行存储。提供高性能的对象存储服

7

务,能够满足各种大规模数据存储和处理的需求,提高数据传输

速度和访问响应时间。

3、针对数据的访问频度和热度不同,提供多种存储类别,满

足不用的使用场景和成本管理需求。

4、具有高度容错性,支持数据冗余,能够在节点故障、磁盘

损坏或文件出现坏块时保证数据的可靠性。支持采用纠删码

(ErasureCoding)和复制(Replication)等技术来保护数据免

受硬件故障的影响。

5、采用SSL/TLS的加密通信协议,确保数据在传输过程中的

安全。

6、支持通过RESTAPI对存储的对象进行检索和操作,降低

文件对象数据操作的门槛,提高与第三方应用对接的效率。

7、提供多种安全特性,包括访问控制、身份验证等,以保护

存储在其中的数据不受未经授权的访问和攻击。

8、提供全面的监控和管理功能,可实时监控存储资源的利用

率和访问情况,可以集成到第三方监控平台如zabbix中。

▲1、支持连接关系型、大数据类型、MPP型、NoSQL型、时

序型等多种不同类型的数据库,支持包括但不限于MySQLsOracle>

SQLServer>PostgrcSQL>KingBasc(人大金仓)、DaMeng(达梦)、

华为DWS、华为GaussDB、ClickHouse>Hive、Impala^MongoDB

RedisATDengine等数据库。

数据

2、支持连接消息队列、API接口等数据源类型作为数据采集

源连

5来源。

接适

3、支持对连接的数据库定义其承担的角色,包括作为数据采

集的来源库、作为ETL推送的目标库、作为数据仓库的承载库等

不同的角色。完成角色定义后,管理界面中应显示该数据库的角

色,并在各种的数据管理场景中自动按照其角色承担相应的功能。

4、支持将数据库与数据的来源部门、业务系统建立对应关系,

并基于该对应关系,对来自该数据库的数据表自动标注来源属性,

8

标注的明细程度要求达到字段级。如果这种自动标注的来源属性

不够准确或不符合实际管理要求,支持手工修改数据来源信息。

2.实时计算平台

提供湖仓实时数据共享和分析功能;实现分布.式集群架构,具备高性能和高

可靠性。实现数据交互从分钟级到毫秒级颗粒度,满足智慧校园迎新、离校、自

动打印服务等互联网+校务体系实时数据服务,并支持信创技术路线。

序模

具体技术(参数)要求

号块

总为满足学校实时业务场景的数据需求,本次须基于湖仓管理底

体座的架构设计与实时计算平台的数据开发要求,提供对非结构化数

1

要据与实时数据的对接采集能力。

1、要求内置数据开发引擎,支持全域数据的批流一体开发。支

持不少于20种数据源类型的对接,包括各种关系型数据库、API接

口数据源、消息接口数据源、HDFS文件系统、Hive.S3对象存储系

批统、图数据库、时序数据库等。

流2、要求批流一体引擎可连接上述各种数据源完成数据的读写和

—•处理操作;支持向S3、0SS等多种云存储写入数据。

体3、要求批流一体引擎支持新增插件来适配新的数据源类型;支

数持自定义开发插件,包括source,transfer,sink等。用户可根据

2

据实际业务场景开发相关插件,提高封装性,简化数据开发的操作使

开用难度。

发4、要求批流一体数据开发引擎既支持调用内置引擎,也支持调

引用Flink.Spark等外部执行引擎。要求在投标文件中明确说明支持

擎的Flink和Spark的版本类型。

5、要求批流一体数据开发引擎自带API开发组件,可引用API

接口作为数据源与其他数据源进行混合嵌套编排完成数据开发。

6、(演示评分项)要求具备开发任务流编排能力,基于同一个

9

数据开发界面进行数据开发任务配置,可通过平台拖拽式操作进行

数据开发任务配置,可在同一个任务中同时引用多种异构数据源,

至少包括关系型数据库、Hive、CSV文件、APT接口,可通过低代码

或零代码形式进行异构数据源的数据关联和转换映射。

7、支持在同一个任务流执行多个处理步骤,支持基于条件判的

多分支处理逻辑,满足复杂的业务场景任务开发需求。

8、支持任务控制,包括启动/停止/重置接口,查看接口运行日

志和历史记录。

9、要求可输出数据处理过程中各个运行步骤的详细监控信息,

可监测任务中数据吞吐量、QPS等指标。

10、要求支持与数据管理平台中的安全相关功能进行联动,在

数据集成处理过程中根据安全策略执行加密存储、脱敏、水印等处

理动作。

11、数据采集性能要求单节点离线抽取速率最高可达50Mb/s,

最大平均速率不少于20W条/秒,实时抽取效率可实现秒级同步,实

时抽取单节点最高可支撑20M的峰值流量。

1、针对学校数据集成的场景,产品需支持普通接口、集成接口

两种类型接口的创建;普通接口针对日常的数据采集和转换,集成

接口针对数据治理过程中的批量快速集成和数据库迁移场景。

批▲2、集成接口要求支持一次性完成多个接口的配置工作,方便

处用户一键进行数据的1:1入湖操作,同时要求根据管理需要支持相

理关功能的选配,包括但是不限于字符类型字段长度扩充倍数、Char

3数类型是否转换成varchar类型、源表为空是否继续执行。

据3、接口命名可根据学校业务需求进行自定义配置,方便系统管

开理员日常维护及操作。

发▲4、数据抽取方式需至少支持全量抽取和增量抽取两种类型。

▲5、为防止因源表数据库故障导致数据丢失的情况,创建接口

时可对源表数据是否为空进行判断,根据判断结果选择是否继续执

行数据同步操作。

10

6、支持创建接口时设置判断条件,接口执行前可选择清空或不

清空目标表。

7、接口任务运行过程中出现个别数据错误时,支持自动跳过并

继续执行(避免整个接口运行失败),在接口执行成功后支持查看同

步失败数据,只需重新对有错误记录的数据进行抽取即可。

▲8、支持将一个接口任务切分成多个数据块分批提交执行,提

高接口任务执行成功率。

9、为保障数据治理的质量,创建多表批量同步任务时,支持字

段注释率的自动检测,当单表注释率不达标时,系统应自动禁止创

建任务。

10、▲支持拉链表模式向目标数据对象同步数据,实现目标数

据的内容只增不减,保存数据行级颗粒度的历史版本。

11、▲支持批处理任务的并发执行,可在创建任务时指定任务

执行的最大并发数,系统自动限制其不可超过CPU的核数。

▲12、支持跨数据源的开发任务,可在一个数据开发任务中选

择多个异构数据源作为数据输入,基于sql语句的开发方式进行数

据预处理和关联。

1、提供可视化图形界面实现流式数据开发,实现跨数据库、消

息组件、SYSL0G协议的秒级数据同步,满足实时跨系统业务协同的

需求。

2、实现在可视化界面以无代码的方式创建实时同步任务,实现

跨数据库的实时数据同步。当源库数据发生变化时,实时同步接口

4数

可实时感知该变化,并将变化数据立刻同步到目标表。要求支持源

表的插入、更新、删除三种数据变化模式的完整同步,保持目标表

与源表内容一致。数据同步延迟(从源库数据发生变化的时刻到该

数据在目标库完成写入的时刻)不高于1秒。

3、(演示评分项)支持数据实时同步,可在线完成数据实时同

11

步任务创建配置,可通过平台创建实时同步任务,实时同步任务至

少包括接口型(Http、Socket)日志型(Mysql、Oracle、Sqlserver),

可通过图形化界面进行数据映射配置,支持完成数据自动映射操作,

自动映射规则至少包括同名映射、同位置配置,可通过测试报告及

图形化界面验证数据传输效率达到秒级(1秒内)。

4、支持在可视化界面中,对实时同步任务的运行状态进行管理。

需支持用户手工停止/启动/重置同步任务,支持查看任务的运行状

态,支持查看每天同步的数据变化量(分别展示读取、新增、修改、

删除的数据量)。当同步异常时,可自动统计错误记录数。当源和目

标表的记录数不一致时,系统需主动予以提示,提醒管理员进行处

理。

▲5、支持对实时同步任务进行数据血缘管理和数值追踪。在元

数据管的数据血缘管理中,可识别实时同步任务的源表和目标表,

正确展示表之间的血缘关系和字段之间映射关系。可对字段的取值

进行关键字检索,系统可自动根据血缘关系追溯上下游表的数据情

况,从而帮助排查可能存在的数据差异。

6、支持基于CDC的实时数据同步模式中,支持MySQL-CDC.

MongoDB-CDC、SQLServer-CDC、等多种类型的数据库。

7、支持不依赖CDC的实时数据同步模式。该模式下,要求在数

据库侧未开启CDC机制的情况下也支持实时数据同步,对数据库类

型无特殊要求。

8、实时数据同步过程中,要求支持各种数据处理逻辑,包括拷

贝、加密、连接、正则表达式、过滤、替换、切割等。

9、支持亿级规模数据的实时同步,支持对单个数据同步任务进

行多进程并发执行,并可以根据我校硬件资源的升级扩充增加任务

并发数量。

第1、针对第三方API接口数据,提供界面化的配置,实现对API

5三接口中的数据以增量、全量的机制遂行数据捕获和存储,同时提供

方预制鉴权模板库适配第三方API的鉴权。要求具备简单易用、可视

12

API化配置、管理和运维的特性。

接▲2、支持通过低代码图形化界面配置API调用的各项参数,包

□括APT的URL、请求方式、鉴权方式,请求参数、返回数据的字段

集结构、解析路径、分页方式、存储方式等,支持对配置参数的正确

成性进行即时校验,支持对API接口实现增量和全量两种数据调用模

开式,支持根据API的返回数据内容配置目标表的数据机构,实现API

发数据自动写入数据库进行持久化存储。

3、具备完善的API数据采集管理功能,支持监控API数据采集

任务进行,可查看API接口的运行状态、交换类型、执行失败数、

任务状态、采集启动时间等,全面管控APT数据的采集情况。

4、支持查看API接口的运行日志明细,可显示运行失败的接口

的详细报错信息,方便管理人员进行故障排查。

5、API鉴权模板扩充时,新增的鉴权参数需自动对相关联的数

据源添加秘钥信息,确保API对接时无需重复输入秘钥。

▲6、投标人需要具备API数据采集相关的充分知识储备,可提

供常见API的鉴权规则库,并内置在产品功能中以便自动化匹配调

用。可基于APT鉴权规则库快速完成高校常见的应用平台(例如企

业微信、海康及雨课堂等)的API接口数据对接。要求内置的API

鉴权规则不少于20个,并支持自定义扩充功能。

非一、日志数据集成开发

结1、针对日志类非结构化数据提供采集、存储、结构化、检索、

构计算、可视化、输出等功能,支持syslog、FTP多种日志源。要求

化实现日志数据的资产化管理和自定义分析,具备图形化监控、多副

6数本存储•、高比率压缩、自动匹配实时解析、高性能检索计算、数据

据输出等特性,支持应用程序对日志数据进行预处理,降低应用开发

集难度。

成2、要求支持日志数据与其他数据的关联计算。要求数据开发平

开台中的流批一体引擎可以直接调用日志数据和其他任何结构化数据

13

发完成算法开发并输出计算结果,支持流式处理和批处理两种不司的

处理模式,要求计算过程符合“湖仓一体”的特点,即无需在不同

数据容器之间进行任何数据复制或迁移即可直接完成关联和计算处

理。

3、要求日志数据处理模块具备高效率的数据查询检索性能,针

对1亿条左右规模的日志数据进行关键字检索,要求输出结果的平

均时间不超过10秒。

二、文件数据集成开发

1、针对图片文件(如JPG、PNG、BMP等)、文本文件(如TXT、

DOC、DOCX等)、表格文件(如XLS、XLSX、CSV等)、文稿文件(如

PPT、PPTX等)、图片文件(如JPG、PNG、BMP等)以及音视频流

数据等文档类对象进行自动化批量采集,存储到S3文件系统中,并

进行元数据提取和分类编目,支持将文档对象与数据仓库中的结构

化数据进行关联,提供按类目检索和关键字检索等功能。用于实现

非结构化文档对象的持久化存储、及产化管理和对外开放服务,帮

助应用程序获取文档对象支撑其业务运行。

2、要求具备访问鉴权功能,确保获取的文档下载链接仅在指定

授权时段有效。

三、非结构化数据集成数据范围

支持非结构化数据的自动与实时更新,包括但不限于自网办中

心、网站群系统、协同办文系统,上网管理系统等系统中自动采集

文档数据,且支持全量更新以及周期性的增量更新。

四、非结构化数据集成数据模式

支持多种采集模式,包括但不限于本地上传、FTP、API接口、自定

义脚本等。

14

实现数据开发任务的统一管理与高效调度,确保数据安全与业

务需求的精准匹配,为数据的高效管理与业务决策分析提供强大支

撑。

1、支持基于web界面的调度任务创建,为降低使用门槛,支持

通过拖拽的方式实现同步任务、异步任务、串行、并行、任务流的

创建,可根据我校数据的业务属性创建不同的执行频率或周期,支

持单次或者周期性任务创建。

2、支持基于Web界面的画布功能快速进行调度任务的创建,包

括批量导入调度任务(接口、存储过程、Shell脚本)、自动连接接

口、一键格式化、调度任务保存(调度任务名称、调度任务分类、

7任务类型、执行频率、执行时间、任务有效期等信息的配置)。

3、管理员将调度任务删除后支持暂时存放至回收站,便于用户

误删后的恢复、弃用任务的重新启用及已删除调度任务的批量管理

功能。

4、支持同一个调度中的前后两个任务或任务组通过条件判断、

数值输入的方式进行判断执行,如前面任务执行失败则触发后续的

分支任务执行,前面任务执行后返回的数据条目数少于XX条则停止

整个调度执行等灵活的配置。

5、提供可视化监控看板,可对同一个时间段的调度并发情况进

行提示和告警,避免因同一时间段执行任务过多导致任务大面积等

待或执行失败的情况出现。

提供面对业务系统的数据开放共享服务。具体包括:

数1.数据资源目录管理。提供友好的数据中心共享业务数据管理

据功能,方便用户共享使用数据中心数据。

开(1)支持数据资源的分类目录管理,生成数据资源目录。

8

放(2)数字资源目录实现多方式查询功能。

共(3)数据资源属性包括资源名称,资源描述,资源维度明细,资

享源更新频率,资源大小,资源来源部门,资源示例。

2.接口模块管理。管理平台接口信息,包括:

15

(1)实现多种交换场景:包括但是不限于定时共享场景,准实

时共享场景,移动应用共享场景,BI分析场景等。

(2)实现多种接口形式:APT,ETL接口,数据库,离线下载。

(3)实现将注册平台数据源的数据对象转换为API接口的形

式,并实现接口查看、编辑、删除等功能。

(4)实现选择数据源、多表级联、自定义设置查询条件和显示

列生成接口。

(5)实现接口的测试,停止和发布等功能。

(6)实现接口的申请和审核流程。

(7)实现多种API接口数据形式,包括:JSON、TXT等。

(8)实现线下电子文档转换为接口功能。

(9)实现接口数据全量和增量获取方式。

(10)实现接口分类管理。

(11)实现接口的多重安全认证方式,包括不限于:密钥验证、

token认证等。

(12)实现接口访问时效控制。

(13)实现接口加密功能。实现敏感数据进行加密传输。

(14)实现增量申请,例如开发者在同一张表提交多个字段申

请,能够识别之前申请的字段,仅给管理人员显示需求变更的字段

内容,在审核时实现选择字段进行批量通过或退回。

(15)实现文本数据的在线申请、审核功能,例如业务部门可

在线获取最权威的数据,审核通过后可直接下载为Excel文件或者

CSV格式文件,无需编程解析。

3数据共享开发管理。

(1)实现业务系统的注册功能,注册信息包括系统名称、IP

地址和系统描述等。

(2)实现业务系统的接口的申请、修、查看、删除和测试功能。

(3)提供申请接口API信息及API使用示例在线查看的功能,

包括API的访问地址、调用方法、参数命名、错误代码和示例代码。

16

(4)实现接口开发规范和开发DEMO在线查看的功能。

(5)提供平台使用帮助在线查看的功能。

1.实现对平台运行健康情况的监控,包括查看系统负载,查看

系统异常信息,查看接口异常报警,查看黑名单信息,可自定义时

间段统计业务系统访问平台系统信息,接口信息,查看使用平台的

9应用和没使用平台但已经注册的应用统计信息,并且所有统计信息

实现下钻查看。实现以业务系统为视角,查看系统的接口使用健康

情况。实现接口调用日志查看•。根据接口名称、接入系统、时间段

进行查询,查看日志详情。实现用户的平台操作日志查看。

3.数据协同管理平台

实现基于数据标准、数据质量、元数据、数据建模,数据安全,数据资产等

方面进行湖仓一体化的数据协同与融合管理,辅助数据治理整体服务过程,建立

跨部门、跨业务域的数据协同管理(0A)平台和流程体系。

序号具体技术(参数)要求

★为满足学校一体化协同管理要求,本次数据协同管理平台须架构

于湖仓管理底座之上,充分运用湖仓管理底座的底层数据库能力,

1并完成与相关数据库的兼容对接适配工作,这些适配费用应被合理

计入投标成本中,不得再向学校或第三方机构收取费用。【投标人

须提供对应承诺函,并加盖投标人公章】

1、可在线管理标准数据元素,定义标准数据元素的英文名称、

数中文注释、数据类型、数据长度等属性。

据2、支持将标准数据元素与代码表、编码规则、安全级别进行

标绑定。绑定后,当在数据模型中引用该数据兀素时,绑定的要素应

2

准自动跟随数据元素在数据模型中生效。

钟3、针对某个数据元素,可查看引用了该元素的所有数据模型

理的名称。

4、可自动生成标准数据元素的链接图谱,显示该数据元素的

17

各项属性、各种绑定要素、引用该数据元素的各个数据模型。

5、支持对标准数据元素集合进行版本管理,指定主版本作为

生效版本。

6、支持批量导入、导出标准数据元素。

7、可在线管理标准代码表,定义代码表的英文名、中文注释、

代码项、代码值。

8、支持将标准代码表与标准数据元进行绑定。

9、可查看所有引用了该代码表的表名称和字段名。

10、支持对单个代码表的内容变化进行版本跟踪,每当内容发

生变化时,自动生成新的版本,并留存历史版本的内容。

11、支持对标准代码表的集合进行版本管理,指定主版本作为

生效版本。可对不同版本进行内容差异比对,比对后可显示存在差

异的代码表名称、代码项名称等详细信息。

12、支持批量导入、导出标准代码表。

1、要求具备数据质量规则管理功能。可定义数据质量规则以

描述数据质量不合规的形态。要求可从完整性、准确性、一致性、

唯一性、及时性五种维度进行质量规则的配置。要求可以通过质量

规则的定义,既能够描述数据形态格式方面的显性问题,例如数据

缺失、数据重复、数值超限、格式错误、长度错误等情况,也能够

描述需要通过表间校验才能发现的复杂性、隐藏性问题,例如代码

错误、枚举错误、表间数据不一致、数据不符合正常业务逻辑等情

3况,还能够描述数据流转过程方面的问题,例如数据同步间隔不符

合业务要求,等等。

▲2、投标人需要具备对数据质量规则的充分储备枳累,可提

供常用的数据质量规则库并内置在产品功能中以便自动化匹配调

用。要求系统内置的质量规则模版数量不少于50个,可覆盖全部

五类质量维度,并支持自定义新的规则以扩充质量规则库。

3、支持将数据质量规则绑定到指定的表及字段上,作为数据

质量检查的依据。支持在一张表中指定多个检查字段,支持对一个

18

字段绑定多个规则。质量检查时,要求针对每一对“字段-规则”

绑定关系分别输出对应的问题数据。

4、对于已经绑定了代码表的字段,支持一键生成代码有效性

规则,并自动将代码有效规则绑定到该字段上。

5、要求系统可基于数据对象上绑定的质量规则,执行数据质

量检查动作,从而完成质量检查,输出数据质量报告,揭示具体的

数据问题。须支持定期自动化检查,定期输出各个时点的数据质量

报告。检查的间隔周期要求可自定义配置。

6、支持不配置调度即刻执行检查,以便尽快输出检查结果。

7、为了实现对数据仓库的不同层级进行数据质量检查,系统

需支持将对下游数据绑定的规则根据数据加工链路关系自动回溯

绑定到上游的数据对象上,而无需重复绑定操作。

8、支持自定义数据质量的量化评分规则,可通过调整各个质

量维度的权重生成不同的量化评价规则。支持预置多套不同的评价

规则,可在不同的质量报告可应用不同的量化评价规则,以满足对

数据质量的个性化评价要求。

9、支持将数据质量检查的结果按照检查的数据对象所对应的

部门、业务系统口径进行自动归集,生成以部门、业务系统为单位

的数据质量报告。

10、要求数据质量报告给出各个质量维度的分值及质量综合评

分,统计各个规则对应的问题数量,并针对一张表的各个字段下绑

定的每一条规则,分别输出问题数据的比例、数量,并支持查看每

一类问题数据的详细列表,以便启动数据纠错工作。

11、支持将质量报告导出为其他格式供线下查阅,支持的格式

包括电子表格、PDF、网页等。

12、支持将质量报告通过电子邮件、即时消息等形式通知到相

关人员,并支持部门针对数据质量报告所体现的问题进行线上反

馈。

13、为满足数据质量报告的灵活管理需求,须支持生成自定义

19

的质量报告。可手工指定数据表的范围、质量规则的范围、应用的

范围作为自定义质量报告的内容组成,并可自定义指定报告的接收

人。

14、要求基于不同时期的数据质量检查情况,对各部门、各系

统的数据质量情况进行排名,对变化趋势进行持续跟踪,通过可视

化界面进行展示,以便了解各个部门提升数据质量的动作和成效。

支持选择不同的时间跨度查看各部门、各系统数据质量的变化趋势

情况。

15、要求从全局对我校数据质量情况进行持续跟踪检测,对数

据检查的范围、规则、分数、检测次数、问题数据量、合格率等指

标进行全局统计分析,并通过趋势图进行动态展示。支持选择不同

的时间跨度查看全局数据质量的变化趋势情况。

1、可以对表、视图、存储过程等各种数据对象进行分类和管

理。支持自定义分类名称、分类层级,不限分类层级数。

2、可对每个数据对象的详细元数据信息进行管理,包括字段

组成、字段属性、字段含义注释、数据充实度(字段级)、数据来

源(字段级)。

3、可对每个字段进行绑定代用表、设置数据来源(字段级)

元等操作。

数4、对字段设置数据来源信息后,对应的表对象数据来源信息

4据应自动同步更新。如果一个表中不同字段有不同的来源信息,表的

管来源信息应完整显示多个来源信息。

理5、支持对每个数据实体的表结构变化进行自动跟踪,每当表

结构发生变化时,自动生成新的版本,并留存历史版本的内容。可

随时查看每个版本的时间和具体内容。

6、可自动构建生成整个数据仓库的全局数据流向图,以呈现

整个数据仓库的数据上行、下行流动信息。

7、流向图中,应可呈现从每个部门、每个业务系统采集到数

据仓库的数据量、数据内容和接口方式,以及数据仓库向每个部门、

20

每个业务系统提供数据服务的数据量、数据内容和接口方式,

8、流向图中,可以对从各部门、各业务系统采集的数据内容

进行下钻显示详情,包括每个采集接口的运行状态、源库/表、目

标库/表、最近执行时间、最后一次数据变化量等信息,并可以直

接定位到每个ETL接口的管理界面。

9、流向图中,可以对数据服务的内容进行下钻显示详情,包

括每个服务接口的运行状态、数据清单名称、源库/表、目标库,/表、

最后执行时间、最后一次数据变化量等信息,并可以直接定位到该

数据清单或ETL接口的管理界面。

10、可自动构建生成每个数据实体的全链分析图。全链分析需

揭示每个数据实体的血缘分析(上游加工来源)和影响分析(下游

服务去向)。

11、全链分析图可进一步展开到字段级详情,自动显示数据对

象在全链路上的字段映射关系。

12、全链分析图中,要求在所有节点上提供字段名称检索框以

便快速定位到特定字段,需支持模糊匹配。

13、在全链分析图上,要求在所有节点上提供数据明细内容的

预览和查询。

▲14、要求通过血缘分析图展现数据对象的上游加工来源。血

缘分析图需完整展示用来生成该数据对象的所有上游表,包括表

名、所属部门、所属系统。可进一步展开到字段级详情,自动显示

整个加工过程中字段的映射关系。

▲15、要求通过影响分析图展现数据对象的下游服务去向。影

响分析图需完整展示该数据对象生成的各个数据清单,以及各个数

据清单服务的各个下游应用,包括每个应用的名称、所属部门、调

用的字段范围。可进一步展开到字段级详情,自动显示整个数据服

务过程中字段的映射关系。

▲16、为帮助管理员精准定位数据处理故障,要求支持基于数

据明细内容的跟踪分析。支持在数据全链分析中,对字段取值内容

21

进行跟踪检杳。用户可针对指定字段输入查询关键字,系统需自动

在全链分析图的所有节点进行查找,显示匹配的结。管理员可基于

匹配结果判断数据内容在加工过程中是否发生异常或故障,以及故

障的具体发生点。

17、提供元数据全局检索功能。可通过支持精确匹配和模糊匹

配对输入的查询关键字进行匹配,显示查询出的数据库、表、字段、

注释、部门等不同类型的对象清单,显示清单中各个对象的元数据

信息,并支持下钻至该对象的详情管理界面。

1、可在线查看及编辑标准数据模型,定义数据模型的字段组

成、英文名称、中文注释、相关联的实体表、版本数量等信息。

2、可按照数据标准的主题分类对标准数据模型进行分类管理。

支持自定义分类,不限分类层级。

3、支持对单个标准数据模型管理的内容变化进行自动跟踪,

每当内容发生变化时,自动生成新的版本,并留存历史版本的内容。

可随时查看每个版本的时间和具体内容。

▲4、可基于标准数据模型直接在数据库中自动生成对应的实

体表,也可以生成SQL脚本以便手工建表。要求生成实体表的操作

既支持针对单个模型,也支持一次性针对多个模型批量生成实体

5表。

5、基于数据模型自动生成实体表时,系统应自动记录模型与

实体表的关联关系。支持手工断开模型与实体表的关联关系,断开

关联关系后,允许利用同一个模型重新生成另外的实体表。

6、支持对模型与实体表各自的版本变化进行动态跟踪。当模

型与实体表出现差异时,系统应自动予以提示,并给出具体的差异

详情。

7、支持对单个标准数据模型管理的内容变化进行版本跟踪,

每当内容发生变化时,自动生成新的版本,并留存历史版本的内容。

8、可对单个数据模型的不同版本进行内容差异比对,比对后

可显示存在差异的字段名称、字段定义等详细信息。

22

9、支持对标准数据模型的集合进行版本管理,指定主版本作

为生效版本。可对标准数据模型集合的不同版本的进行内容差异比

对,比对后可显示存在差异的模型名称、字段定义等详细信息,可

批量导出差异信息。

10、可在线管理所有由标准数据模型生成的实体表对象,查看

实体表的字段组成、英文名称、中文注释、存储位置等信息。

11、可显示每个实体表与其对应模型的一致性,存在差异时,

系统应自动予以提示,并给出具体的差异详情。

12、可在线编辑实体表,进行字段的新增、删除、修改。

13、在数据模型编辑过程中,要求系统自动进行约束,保证标

准数据模型中仅允许引用已经实现定义过的标准数据元素,并自动

继承标准数据元素的各项属性、各种绑定要素,从而保证所有标准

数据模型中的字段定义具备全局一致性。

▲14、要求系统自动对数据模型与实体表的一致性进行动态跟

踪。当出现差异时,系统应自动予以提示,并给出具体的差异详情。

15、支持一键操作完成模型与实体表的同步,既支持修改模型

以匹配实体表,也支持修改实体表以匹配模型,从而保证标准数据

模型与对应的实体表保持一致。

16、在实体表编辑过程中,支持一键操作将实体表的字段变更

同步应用到对应的模型上,从而维持模型与实体表的一致性。

17、在数据模型与实体表的双向同步过程中,新生成的字段定

义须自动扩充到标准数据元素集合中,从保持标准数据元素、标准

数据模型、实体表三者的一致性。

数1、要求内置不少于5种加密算法,至少包括AES、MD5、国密

据SM2-4o支持在数据发布或审核阶段针对特定字段,调用指定的加

安密算法对数据进行加密。

6

全2、要求内置不少于5种脱敏规则,至少包括遮盖脱敏、随机

管脱敏、仿真脱敏等不同规则。支持在数据发布或审核阶段针对特定

理字段,调用指定的脱敏算法对数据进行脱敏。

23

3、支持新建新的遮盖脱敏,自定义遮盖内容及覆盖规则。

4、支持通过https加密通道提供数据服务,支持动态Https

证书管理.,可管理多份Https证书,并根据需求随时应用新证书。

5、支持自定义各种安全等级,将安全等级绑定到数据对象上。

基于不同的安全级别,系统对数据对象的共享策略、审核流程、审

计日志等方面进行差异化处理。

1、数据资源建设情况提供一个看板界面,对数据资源的建设

进展、变化趋势进行跟踪展示。

2、要求看板中可以显示当前数据资源建设进度的主要指标,

包括业务部门数量业务系统、厂商、数据表、数据项、数据记录数、

数数据占用的存储空间、空值率、表和字段的注释、接受数据服务的

据业务部门、业务系统的数量等。

资3、要求所有指标均可以按照数据加工环节的不同层级分别查

7

产看,所有指标均可以以变化趋势图的方式进行可视化呈现,并可选

管不同的时间跨度。

理4、数据资源共享情况要求看板中可以显示当前数据共享情况

的主要指标,包括接受数据服务的业务部门、业务系统的数量,用

于服务的各种不同服务类型的数据资源的数量。所有的指标要求均

可以以变化趋势图的方式进行可视化呈现,并可选不同的时间跨

度。

一、数据标准与元数据联动

1、在数据模型设计中,对于在元数据管理中绑定了代码表的

字段,支持自动对该模型对应的实体表的字段自动继承该绑定关

系。

8二、元数据信息与数据质量联动

▲1、对于元数据中已经绑定了代码表的字段,在数据质量管

理中支持基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论