T-CI 506-2024 智慧科研机构大数据平台技术要求_第1页
T-CI 506-2024 智慧科研机构大数据平台技术要求_第2页
T-CI 506-2024 智慧科研机构大数据平台技术要求_第3页
T-CI 506-2024 智慧科研机构大数据平台技术要求_第4页
T-CI 506-2024 智慧科研机构大数据平台技术要求_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CCSA00团T体标准I前言 2规范性引用文件 3术语和定义 4缩略语 25平台架构概述 26功能性技术要求 37非功能性技术要求 8前言本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国国际科技促进会提出并归口。本文件起草单位:北京大学长沙计算与数字经济研究院、华为技术有限公司、北京大学大数据分析与应用技术国家工程实验室、工业和信息化部电子第五研究所、船舶信息研究中心(中国船舶集团有限公司第七一四研究所)、北京航天情报与信息研究所、北京新科时代传媒信息技术有限公司、嵊州市大数据发展管理中心、嵊州市档案馆、同方知网数字出版技术股份有限公司、智慧流动(北京)科技有限公司、河南聚合科技有限公司、紫光软件系统有限公司、北京国科标研科技有限公司。本文件主要起草人:王新民、乔欢、孙鹏飞、朱洪波、刘志斌、陈平、林家全、于敏、佟盛、全晓东、高辰杰、张雷、汪伟民、何佳、王路宽、张艳丽,肖洪,李洪生、赵紫峰、尚尔钧、张林虎。1智慧科研机构大数据平台技术要求本文件规定了智慧科研机构大数据平台的平台架构概述、功能性技术要求、可靠性等相关内容。本文件适用于对智慧科研机构在建立大数据平台的技术要求指导,包括科研机构、高校,研究型机构,以及具有科研属性的实体单位。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB∕T37721-2019信息技术大数据分析系统功能要求GB/T38673-2020信息技术大数据系统基本要求3术语和定义下列术语和定义适用于本文件。3.1智慧科研机构intelligentscientificresearchinstitutions通过大数据、人工智能、云计算等新一代信息技术的应用,实现科研流程数字化、智能化、协同化、开放化、创新化的科研机构。3.2分布式计算distributedcomputing一种覆盖存储层和处理层的、用于实现多类型程序设计算法模型的计算模式。3.3集群cluster一组相互独立的、通过高速网络互联的计算机或服务器。[来源:GB/T38673-2020,3.3]3.4租户tenant对一组物理和虚拟资源进行共享访问的一个或多个云服务用户。[来源:GB/T38673-2020.3.4]4缩略语下列缩略语适用于本文件。API:应用程序编程接口(ApplicationProgrammingInterface)HTML:超文本标记语言(HyperTextMarkupLanguage)JSON:JavaScript对象简谱(JavaScriptObjectNotation)LPA:标签传播算法(LabelPropagationAlgorithm)SDK:软件开发工具包(SoftwareDevelopmentKit)XML:可扩展标记语言(ExtensibleMarkupLanguage)5平台架构概述智慧科研机构大数据平台的目标是基于大数据、人工智能等新一代信息技术,为科研机构提供全面、精准、实时数据服务的平台,通过整合多个数据源,如科研文献、研究论文、实验记录、科研人员信息、科研项目数据等,实现大数据的精准挖掘和分析,为科研人员提供全面的科研支持和服务,架构见图1。23智慧科研机构大数据平台由数据接入、数据存储、数据处理、数据分析、数据服务和运维管理等部分组成,主要内容如下。a)数据接入提供结构化数据、非结构化数据或半结构化数据的采集、数据的导入导出以及数据流的定义等功能,支持多协议接入,支持多系统集成。结构化数据包括数据库文件以及结构化文本文件等,非结构化数据包括图片、音频、视频、文档及应用数据等。半结构化数据包括XML、表格、JSON、HTML、电子邮件等。b)数据存储提供大数据的分布式存储管理,涵盖多种存储方式和文件系统。c)数据处理支持结构化、半结构化及非结构化数据,提供丰富的API接口和SDK开发包,支持分布式计算技术、流处理技术、内存计算技术等,实现稳定、强大的数据处理能力。d)数据分析通过机器学习、可视化、统计分析等组件支持不同的数据分析类型、分析模式。e)数据服务为科研工作者提供个性化内容推荐、用户画像、科研成果数据分析、知识产权服务,以及实验数据、论文数据、科研资料、专利信息的访问、查询、可视化等基础服务。f)运维管理包含资源管理和系统管理等,具备高可靠、安全、容错、易用的集群管理能力,能够保护用户的数据隐私和安全,防止数据泄露和滥用。6功能性技术要求6.1数据接入功能要求6.1.1作业调度包括但不限于以下要求:a)应支持对不同实验室、不同实验设备、不同业务系统的数据接入作业做智能调度;b)应支持对不同业务类型、实验类型的数据接入作业做智能编排、调度;c)应支持各类数据接入作业的批量启停、导入、导出;d)宜支持不同作业设备、业务数据接入任务的可视化、窗口化管理。6.1.2数据采集包括但不限于以下要求:4a)应支持与硬件实验设备、科研业务系统、科研文献系统等的互联互通;b)应支持数据的批量采集和实时采集;c)宜支持爬虫功能,支持对科研资讯、科研热点、政策热点、科研机构舆情等互联网数据的抓取;d)应支持对结构化数据、非结构化数据和半结构化数据的自动采集;e)宜支持对PDF等文档数据的批量导入、数据转换、提取入库等功能;f)宜支持采集任务的可视化配置管理、图形窗口式操作;g)应支持多种形式的数据导入方式,如报表、XML、API接口、机器语言等。6.1.3消息队列包括但不限于以下要求:a)应支持高吞吐、分布式消息的处理;b)应支持消息的缓存;c)应支持离线应用和在线应用对消息的使用和处理,保证实验设备数据采集的完整性;d)宜支持多种设备类型、多平台、多种客户端间的通信。6.1.4数据传输包括但不限于以下要求:a)应支持通用的数据传输协议,如实验设备、机器数据、API接口数据等的传输;b)应保证数据传输的稳定性、连续性、完整性、安全性。6.2数据存储功能要求6.2.1分布式文件系统应符合GB/T38673-2020中6.3规定,另包含但不限于以下要求:a)应支持文件容错机制和系统高可用机制,包括系统级、节点级、模块级的容错、系统快速恢复等;b)宜支持将小文件自动打包为大文件,进行集中存储;c)应支持结构化、半结构化、非结构化数据存储。6.2.2分布式列数据库应符合GB/T38673-2020中6.3规定,另包含但不限于以下要求:a)应支持对不同架构、操作系统的兼容性;b)应支持根据工作负载和运行环境,提供配置参数修改的能力;c)应支持多级索引。56.2.3分布式图数据库应符合GB/T38673-2020中6.3规定,另包含但不限于以下要求:a)应支持主流开发接口,如RESTful等接口;b)宜内置多种科研领域算法模型,如结合科研项目、科研课题、科研人才、科研成果转化、科研机构舆情等进行算法模型构建。6.2.4分布式关系型数据库包括但不限于以下要求:a)应支持结构化数据的分布式存储机制,保障数据存储的可扩展性和一致性;b)应支持多表关联、跨库关联;c)宜提供常见API接口类型,实现数据的各类查询操作、接口对接操作。6.3数据处理功能要求6.3.1批处理应符合GB/T38673-2020中6.4规定,应包含但不限于支持离线计算任务进度与状态的实时上报。6.3.2流处理应符合GB/T38673-2020中6.4规定,另包含但不限于以下要求:a)应支持用户级别的访问控制;b)应支持滚动窗口和滑动窗口两种窗口方式的实时分析任务,时间窗口大小可调;c)应具备高容错能力,如节点、进程等出现异常时,能够重新部署该处理单元;d)应支持与常见数据库接口的兼容性;e)宜支持基于多种分布式流处理引擎的查询语言,如flink、spark等。6.3.3图计算应符合GB/T38673-2020中6.4规定,另包含但不限于以下要求:a)应支持同步计算模型或异步计算模型编写迭代算法;b)应支持实现水平扩展的分布式图计算和图查询;c)宜支持索引,提供在线图分析和图查询功能;d)宜支持PageRank、社区发现、最短路、LPA等多种图计算能力。6.3.4内存计算应符合GB/T38673-2020中6.4规定,另包含但不限于以下要求:a)应支持负载均衡和水平扩展;6b)应支持高度抽象算子,快速构建分布式的数据处理应用;c)应支持根据任务复杂程度及依赖关系,自动调度任务。6.3.5批流融合计算应符合GB/T38673-2020中6.4规定,另包含但不限于以下要求:a)宜支持常用时间窗口,包括滚动窗口、滑动窗口,窗口大小可调节;b)宜支持对复杂任务的调度,如支持深度学习的训练等。6.4数据分析功能要求6.4.1分析模式应符合GB∕T37721-2019中8.1对离线数据分析、流数据分析、交互式数据分析等模块的规定。6.4.2分析类型应符合GB∕T37721-2019中8.2对预测型分析、描述型分析等模块的规定。6.4.3分析支撑组件6.4.3.1查询应符合GB∕T37721-2019中7.1对查询接口、查询优化等模块的规定。6.4.3.2机器学习应符合GB∕T37721-2019中7.2对数据集管理、支持算法、模型评估内容等模块的规6.4.3.3统计分析应符合GB∕T37721-2019中7.3对统计分析的内容模块规定。6.4.3.4可视化包括但不限于以下要求:a)应支持常见的数据源数据格式作为输入,如Excel、关系型数据库、JSON、XML等;b)应支持数据可视化,支持多维度、多图表、多形式的展示方式;c)应支持数据模型可视化,支持可视化交互、调整模型;d)宜支持数据资产可视化,如数据资产图谱等;e)宜内置多种行业、专业可视化展示模版,如仿真模拟数据可视化、三维可视化、科研管理可视化、成果转化可视化等;f)宜支持根据科研资讯、数据爬取、系统已有数据等内容自动生成科研报告。76.4.4流程编排应符合GB∕T37721-2019中第9章对工作流管理、告警和日志内容模块等模块的规定。6.5数据服务功能要求6.5.1个性化内容推荐包括但不限于以下要求:a)应支持用户行为分析,包括查询偏好、活跃度等;b)应支持个性化内容推荐,如科研热点、学术推荐、荣誉认定等。6.5.2用户画像包括但不限于以下要求:a)应支持用户自然属性数据分析;b)应支持用户系统日志、科研数据分析;c)应支持用户标签及多维度细分,包括科研领域、活跃度、忠诚度、影响力、用户属性、浏览偏好等;d)应支持多用户的关联分析。6.5.3科研成果数据分析包括但不限于以下要求:a)宜支持科研相关业务数据的管理服务,如课题申报、经费管理、课题批文、论文投稿、论文发表、学术著作、成果鉴定、验收管理、成果获奖、成果转化、专利管理、学术会议、项目评审、业务申报评审等业务数据;b)宜提供多维度科研绩效考核服务。6.5.4知识产权服务包括但不限于以下要求:a)应支持智慧科研机构专利检索、分析等服务;b)应支持专利文献信息聚类分析,对技术热点进行文本聚类和引证分析;c)应支持智慧科研机构知识产权信息动态发布;d)应支持智慧科研机构成果转化延伸服务、资源管理、资源对接等。6.5.5数据基础服务包括但不限于以下要求:a)应支持用户数据访问控制,包括用户基本信息、科研领域等;b)应支持上层应用注册机制、鉴权、管理;8c)应支持服务功能查询机制;d)宜支持数据订阅、报告推送等功能。6.6运维管理功能要求6.6.1资源管理应符合GB/T38673-2020中6.8资源管理模块规定,宜支持超算、智算等多种算力资源的提供、智能调度等功能。6.6.2系统管理应符合GB/T38673-2020中6.9对配置管理、租户管理、监控告警、服务管理、健康检查管理等模块的规定。7非功能性技术要求7.1可靠性7.1.1高可用应符合GB/T38673-2020中7.1.1的规定,另包含但不限于以下要求:a)应保障业务连续性;b)宜具备提供计算、存储、网络资源等核心组件的故障替换维护能力。7.1.2数据冗余存储与分布应符合GB/T38673-2020中7.1.2的规定,另包含但不限于以下要求:a)应支持存储资源故障恢复后,数据能够自动重构,实现数据分布再平衡;b)应支持至少一种数据库高可用架构,如主备、主从、多活等,可结合数据库高可用能力保证业务连续性。7.1.3数据备份和恢复应符合GB/T38673-2020中7.1.3对数据全量备份、数据增量备份、数据自动备份、数据手动备份、数据恢复等模块的规定。7.1.4故障恢复与迁移应符合GB/T38673-2020中7.1.4中对故障恢复、故障迁移、故障影响等模块的规定。7.2兼容性包括但不限于以下要求:a)兼容不同品牌的操作系统;9b)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论