TCI 506-2024 智慧科研机构大数据平台技术要求_第1页
TCI 506-2024 智慧科研机构大数据平台技术要求_第2页
TCI 506-2024 智慧科研机构大数据平台技术要求_第3页
TCI 506-2024 智慧科研机构大数据平台技术要求_第4页
TCI 506-2024 智慧科研机构大数据平台技术要求_第5页
已阅读5页,还剩8页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS 01.020 TCCS A00团 体 标 准T/CI506—2024智慧科研机构大数据平台技术要求Technicalrequirementsforbigdataplatformofintelligentscientificresearchinstitutions2024-09-18发布 2024-09-18实施中国际技促会 发布PAGE\*ROMANPAGE\*ROMANII目次前言 II范围 1规范性引用文件 1术语和定义 1缩略语 2平台架构概述 2功能性技术要求 3非功能性技术要求 8前言本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国国际科技促进会提出并归口。本文件主要起草人:王新民、乔欢、孙鹏飞、朱洪波、刘志斌、陈平、林家全、于敏、佟盛、全晓东、高辰杰、张雷、汪伟民、何佳、王路宽、张艳丽,肖洪,李洪生、赵紫峰、尚尔钧、张林虎。11智慧科研机构大数据平台技术要求范围规范性引用文件(包括所有的修改单)适用于本文件。GB∕T37721-2019信息技术大数据分析系统功能要求GB/T38673-2020信息技术大数据系统基本要求术语和定义下列术语和定义适用于本文件。3.1智慧科研机构intelligentscientificresearchinstitutions3.2分布式计算distributedcomputing一种覆盖存储层和处理层的、用于实现多类型程序设计算法模型的计算模式。3.3集群cluster一组相互独立的、通过高速网络互联的计算机或服务器。[来源:GB/T38673-2020,3.3]3.4租户tenant对一组物理和虚拟资源进行共享访问的一个或多个云服务用户。[来源:GB/T38673-2020.3.4]缩略语下列缩略语适用于本文件。API:应用程序编程接口(ApplicationProgrammingInterface)HTML:超文本标记语言(HyperTextMarkupLanguage)JSON:JavaScript对象简谱(JavaScriptObjectNotation)LPA:标签传播算法(LabelPropagationAlgorithm)SDK:软件开发工具包(SoftwareDevelopmentKit)XML:可扩展标记语言(ExtensibleMarkupLanguage)平台架构概述21。2PAGEPAGE10图1智慧科研机构大数据平台参考架构数据接入提供结构化数据、非结构化数据或半结构化数据的采集、数据的导入导出XML、表格、JSON、HTML、电子邮件等。数据存储提供大数据的分布式存储管理,涵盖多种存储方式和文件系统。APISDK数据分析通过机器学习、可视化、统计分析等组件支持不同的数据分析类型、分析模式。数据服务为科研工作者提供个性化内容推荐、用户画像、科研成果数据分析、知识运维管理包含资源管理和系统管理等,具备高可靠、安全、容错、易用的集群管理能力,能够保护用户的数据隐私和安全,防止数据泄露和滥用。功能性技术要求数据接入功能要求作业调度包括但不限于以下要求:应支持对不同实验室、不同实验设备、不同业务系统的数据接入作业做智能调度;应支持对不同业务类型、实验类型的数据接入作业做智能编排、调度;应支持各类数据接入作业的批量启停、导入、导出;宜支持不同作业设备、业务数据接入任务的可视化、窗口化管理。数据采集包括但不限于以下要求:应支持与硬件实验设备、科研业务系统、科研文献系统等的互联互通;应支持数据的批量采集和实时采集;应支持对结构化数据、非结构化数据和半结构化数据的自动采集;PDF宜支持采集任务的可视化配置管理、图形窗口式操作;应支持多种形式的数据导入方式,如报表、XML、API消息队列包括但不限于以下要求:应支持高吞吐、分布式消息的处理;应支持消息的缓存;宜支持多种设备类型、多平台、多种客户端间的通信。数据传输包括但不限于以下要求:应支持通用的数据传输协议,如实验设备、机器数据、API应保证数据传输的稳定性、连续性、完整性、安全性。数据存储功能要求分布式文件系统应符合GB/T38673-2020中6.3规定,另包含但不限于以下要求:应支持文件容错机制和系统高可用机制,包括系统级、节点级、模块级的容错、系统快速恢复等;宜支持将小文件自动打包为大文件,进行集中存储;应支持结构化、半结构化、非结构化数据存储。分布式列数据库应符合GB/T38673-2020中6.3规定,另包含但不限于以下要求:应支持对不同架构、操作系统的兼容性;应支持根据工作负载和运行环境,提供配置参数修改的能力;应支持多级索引。分布式图数据库应符合GB/T38673-2020中6.3规定,另包含但不限于以下要求:RESTful宜内置多种科研领域算法模型,如结合科研项目、科研课题、科研人才、科研成果转化、科研机构舆情等进行算法模型构建。分布式关系型数据库包括但不限于以下要求:应支持结构化数据的分布式存储机制,保障数据存储的可扩展性和一致性;应支持多表关联、跨库关联;API数据处理功能要求批处理GB/T38673-20206.4流处理应符合GB/T38673-2020中6.4规定,另包含但不限于以下要求:应支持用户级别的访问控制;应支持滚动窗口和滑动窗口两种窗口方式的实时分析任务,时间窗口大小可调;应具备高容错能力,如节点、进程等出现异常时,能够重新部署该处理单元;应支持与常见数据库接口的兼容性;flink、spark图计算应符合GB/T38673-2020中6.4规定,另包含但不限于以下要求:应支持同步计算模型或异步计算模型编写迭代算法;应支持实现水平扩展的分布式图计算和图查询;宜支持索引,提供在线图分析和图查询功能;PageRank、社区发现、最短路、LPA内存计算应符合GB/T38673-2020中6.4规定,另包含但不限于以下要求:应支持负载均衡和水平扩展;应支持高度抽象算子,快速构建分布式的数据处理应用;应支持根据任务复杂程度及依赖关系,自动调度任务。批流融合计算应符合GB/T38673-2020中6.4规定,另包含但不限于以下要求:宜支持常用时间窗口,包括滚动窗口、滑动窗口,窗口大小可调节;宜支持对复杂任务的调度,如支持深度学习的训练等。数据分析功能要求分析模式GB∕T37721-20198.1分析类型应符合GB∕T37721-2019中8.2对预测型分析、描述型分析等模块的规定。分析支撑组件查询应符合GB∕T37721-2019中7.1对查询接口、查询优化等模块的规定。机器学习应符合GB∕T37721-2019中7.2对数据集管理、支持算法、模型评估内容等模块的规定。统计分析应符合GB∕T37721-2019中7.3对统计分析的内容模块规定。可视化包括但不限于以下要求:Excel、关系型数据库、JSON、XML应支持数据可视化,支持多维度、多图表、多形式的展示方式;应支持数据模型可视化,支持可视化交互、调整模型;宜支持数据资产可视化,如数据资产图谱等;宜内置多种行业、专业可视化展示模版,如仿真模拟数据可视化、三维可视化、科研管理可视化、成果转化可视化等;宜支持根据科研资讯、数据爬取、系统已有数据等内容自动生成科研报告。流程编排GB∕T37721-20199数据服务功能要求个性化内容推荐包括但不限于以下要求:应支持用户行为分析,包括查询偏好、活跃度等;应支持个性化内容推荐,如科研热点、学术推荐、荣誉认定等。用户画像包括但不限于以下要求:应支持用户自然属性数据分析;应支持用户系统日志、科研数据分析;应支持用户标签及多维度细分,包括科研领域、活跃度、忠诚度、影响力、用户属性、浏览偏好等;应支持多用户的关联分析。科研成果数据分析包括但不限于以下要求:宜支持科研相关业务数据的管理服务,如课题申报、经费管理、课题批文、论文投宜提供多维度科研绩效考核服务。知识产权服务包括但不限于以下要求:应支持智慧科研机构专利检索、分析等服务;应支持专利文献信息聚类分析,对技术热点进行文本聚类和引证分析;应支持智慧科研机构知识产权信息动态发布;应支持智慧科研机构成果转化延伸服务、资源管理、资源对接等。数据基础服务包括但不限于以下要求:应支持用户数据访问控制,包括用户基本信息、科研领域等;应支持上层应用注册机制、鉴权、管理;应支持服务功能查询机制;宜支持数据订阅、报告推送等功能。运维管理功能要求资源管理GB/T38673-20206.8系统管理GB/T38673-20206.9非功能性技术要求可靠性高可用应符合GB/T38673-2020中7.1.1的规定,另包含但不限于以下要求:应保障业务连续性;宜具备提供计算、存储、网络资源等核心组件的故障替换维护能力。数据冗余存储与分布应符合GB/T38673-2020中7.1.2的规定,另包含但不限于以下要求:应支持存储资源故障恢复后,数据能够自动重构,实现数据分布再平衡;数据备份和恢复GB/T38673-20207.1.3故障恢复与迁移应符合GB/T38673-2020中7.1.4中对故障恢复、故障迁移、故障影响等模块的规定。兼容性包括但不限于以下要求:兼容不同品牌的操作系统;宜支持国产自主可控操作系统及数据库等。安全性用户管理GB/T38673-20207.3.1权限管理应符合GB/T38673-2020中7.3.2对权限配置的规定。日志管理应符合GB/T38673-2020中7.3.3对操作日志统计、查询、分析等模块的规定。数据安全包括但不限于以下要求:应支持数据传输链路冗余机制,保障数据传输可靠性;应支持数据采集、传输、存储、处理等全流程安全加密机制,防止信息泄露;应支持数据分级、分类处理策略;应支持数据清洗、转换及使用过程中的安全性及可追溯性;应支持个人隐私信息保护,应支持个人信息授权同意、更正、删除;应支持基于用户角色的安全控制机制;应支持应用、设备与外部服务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论