版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数字学院2.0建设需求(一)项目概况随着大数据的应用以及我校管理程度的逐渐加深,我校在常态化的运转过程中,已经沉淀出了基于“学生、教师、资产、财务、教学”等对象下丰富的结构化数据基础,但面向对象的实时数据以及数据分析模型尚未建立,缺乏便捷高效的数据分析与评价支持体系,基于数据的管理评价工作以及运行机制有待挖掘;学校拟升级新一代数据体系和数据底座,根据我校在日常教学管理过程中已经生成的学生、教师、资产、财务、教学等维度的所有业务数据,进行统一整合及利用,实现学校数据分类分级、师生个人数字档案、师生画像、数据大屏等数据应用;(二)需求清单序号需求内容数量单位1新一代数据平台1套2干事创业数据应用场景1批(三)具体要求1.新一代数据平台功能建设目前学校数据平台数据的实时、安全、管理性问题并未解决,针对实时类业务,尤其是源端业务数据库表的任何变化不能进行实时捕获;存储进来的数据当前只能基于关系型数据库的离线开发,基于大数据技术的离线开发及实时开发能力仍不具备;在对外服务层面,不能灵活按照用的业务场景进行不同业务接口的编排;本次平台功能建设方案包含数据管理能力提升、实时同步、服务编排、数据开发、主数据管理大数据平台及分布式数据库建设;1)数据管理能力提升数据管理能力涉及数据采集、接口管理、数据质量、数据标准等各个环节能力提升,从而提升学校整体数据管理能力;数据集成:其中数据采集提供采集经典场景能力,包括库表采集场景,支持多表关联数据采集入MPP、全量数据采集入文件等;提供函数管理能力,内置日期函数convertToDate、convertToTimestamp等;并支持ETL能力:作业支持HttpServer类型,支持websocket、http、webservice类型数据源抽取;抽取组件支持websocket协议,支持表达式配置能力;文件抽取组件支持非结构化文件增量采集、断点续传、并行抽取;支持页面上传文件直接抽取;表抽取、表加载组件支持GBase8s类型数据源;自动建表字段类型映射,支持包含(Oracle/MySQL/Vertica);接口管理:支持通用API、函数API能力,通用API、函数API请求头配置及GET请求方式下入参配置支持json串解析;API网关规则管理设置IP规则时,支持设置多个IP网段;API导出接口文档支持WPS格式;数据API对外支持webservice服务访问功能;数据质量:支持质量检查能力,支持问题数据管理,包含查看问题数据表明细、问题数据搜索、清空问题数据存储表、下载问题数据、按照目录下载等;支持检查方案维度的报告生成,支持在数据表报告中预览问题数据;支持质量评估能力,提供评估模板,且评估报告支持导出质量评估报告支持外键信息、更新周期的展示;数据标准:支持数据标准发布能力,对已发布成功的标准,可将标准上线到资产门户中;已上线标准发生版本变更时,变更项将同步向资产门户更新;已上线标准停止时,资产门户对应的标准同步下线;2)实时同步能力提供实时同步能力,实时同步工具采用无侵入的技术解析源数据库事务日志,通过事务性、持久性、冲突解决策略保证数据的一致性,通过断点续传提供故障恢复能力并保证同步的持续性,实现实时数据集成;通过对业务数据库日志的分析,可以实时获取对数据库所有的插入、更新、删除操作,实时捕获增量数据,并将实时增量数据,通过可靠的传递机制(如断点续传),将数据传递到目标方,不会丢失数据并且可以保证数据一致性,适用于实时的报表分析、实时数仓建设等场景;名称技术指标功能描述实时同步指标监控和统计支持查看实时同步接入源、接入表、数据变化量Top10、已同步数据量、作业运行时长Top5,作业时延Top10、作业平均时延趋势等;作业设计支持按照业务树进行实时作业的创建、编辑、删除,支持作业移动到其他目录树下,支持作业批量导入导出,支持展示作业运行状态、运行阶段、运行时长及时延等;向导式作业配置;并行度推荐配置;支持全局表名映射,一次配置所有作业生效;表级增删改数据统计,数据变化一目了然;作业监控支持监控统计全量阶段总体的抽取进度、表级别的抽取进度以及作业级别的吞吐量;支持监控统计增量阶段总体数据变化量,表级别数据变化量,及作业级别的吞吐量等;源端数据感知支持通过捕获数据库日志的方式(CDC)实现数据库实时数据采集,源端数据库类型包括但不限于Oracle、MySQL等;数据软删除数据同步支持软删除功能,启用软删除后,源端数据删除时,删除数据可以同步至目标端,方便对删除数据进行分析;数据标签支持任务配置中给目标端增加标签,在目标表新增时间戳如originaltime、nowtime等字段,新增源数据库信息如sourceschema、sourceip:port、sourcetable、sourcetableid等字段,满足数据分析需求;自动建表支持实时同步任务目标端自动建表,提高工作效率;实时数据加载支持通过捕获数据库日志的方式(CDC)把实时数据加载至目标数据库,目标端数据库类型包括但不限于Kafka、Vertica等;数据库实时同步指标针对关系型数据库数据实时同步至MPP性能,单点数据同步2000w数据小于5min,平均传输速率可达7万条/秒;数据处理性能指标针对数据迁移侧,单点数据迁移速率可高达50mb/s,47G数据迁移时间小于12min,每增加一个节点性能呈线性增加;支持MySQL类型数据库XA事务支持抽取MySQL类型数据库(含DRDS)XA事务(MySQL集群的分布式事务),对数据库的变更进行实时捕获和同步,可以无缝地将MySQL中的数据传输到其他数据处理平台上进行实时分析和处理;微批聚合算法实时同步微批聚合算法应用于关系型数据库到MPP数据库进行CDC数据实时同步的场景,能够将源端无序的DML数据流进行去冗和分批聚合,由于频繁IO造成的性能骤降的问题,提升吞吐量;支持自动处理主键冲突支持自动处理主键冲突,无需人工干预,保证数据的准确性和完整性,避免因主键冲突导致的数据丢失或错误,有助于减少重复的工作和运维工作量,提高数据的处理效率;支持数据分发支持大规模的数据复制:将大量的数据从一个数据库复制到多个目标数据库;实时同步配置支持CDC实时数据同步功能,源端支持MySQL、PostgreSQL、Oracle、SQLServer、达梦、Mongodb等,目标端支持Vertica、MySQL、Oracle、SQLServer、MPP、达梦、ClickHouse、HDFS、Kafka等;实时同步源端抽取方式支持全量+增量(全量无缝转增量)、最近偏移量、指定偏移量、指定时间等不同方式;支持是否启用XA抽取设置,并可进行并行度、分片大小等设置,还可针对truncate、insert、update进行忽略操作的设置;当源库中模式名和表名与目标库中模式名和表名不一致时,支持针对目标端进行表名映射操作,并可进行增量并行度、全量并行度、批处理数量等相关设置,并可在监控界面按刷新频率查看全量、增量的变化及吞吐量情况;支持多种运行机制支持选择local模式和yarn模式提交,充分利用大数据集群资源;实时转换能力支持列过滤;函数表达式实时计算;表结构/索引/注释同步等;3)服务编排能力提供服务编排能力,服务编排可将已经接入的API通过画布方式进行托拉拽串并联关系编排,提供过滤组件、合并组件以解决特定业务场景;名称技术指标功能描述服务编排顺序控制支持web界面“拖拉拽”的方式编排多个API的执行顺序,包括先后关系、并列关系,进行依赖关系处理;结果解析支持web界面“拖拉拽”的方式将多个API的返回结果进行解析,以实现前面API的返回结果作为后面API的输入或者整个编排后的API的输出;接口并发访问性能指标支持通过编写javaScript脚本方式设计并生成标准restful接口,且并发访问性能侧,支持2000并发访问,平均响应时间小于1s,访问成功率高于99.99%;流程控制支持web界面“拖拉拽”的方式根据某个API的返回结果决定后续执行流程分支;结果选择支持web界面选择的方式从API返回参数中选择感兴趣的结果进行返回;基础组件基础组件用于关联组织内已创建的工作空间,通过工作空间来实现资源隔离;画布可以添加多个基础组件,进行多个工作空间之间的服务调用;编排配置具备服务编排提供触发器、连接器及处理器等相关能力;服务编排可以通过页面拖拉拽方式实现业务场景低代码设计和编排,辅助设计能力,包括配置实时检查、SQL在线测试、画布测试运行等;服务编排触发器能力,支持对外提供Restful接口,可以自定义API名称、请求路径、请求方式、请求参数和返回参数格式;连接器能力,包括数据源、HTTP请求、HTTP响应等,数据接进来可根据业务需求查询、插入、更新等能力;服务编排处理器能力,包括分支判断组件、变量赋值组件、数据筛选组件、函数处理组件、并行处理组件、数据拆分组件以及脚本处理组件等;场景编排支持可视化UI界面创建服务编排任务,通过拖拉拽触发器、连接器和处理器组件完成相应业务编排,支持服务的启动、停止、测试、导入、导出、注册等功能,对外提供统一入口;4)数据开发能力提供数据开发,数据开发是基于数据资产的一站式协同开发平台,为学校提供高效、便捷、可靠的全域数据开发和全链路数据监控,依托完全独立的任务调度框架,支持自由灵活的业务流程规划和全类型任务的开发、运行、监控,让数据分析流转的过程完全可控、可感知,让数据分析看的见摸得着;名称功能及技术指标技术要求数据开发表管理1、支持可视化管理Kafka、Vertica、Hive类型的表;
2、支持可视化的建表,支持从标准管理中选择数据集的方式创建表;
3、支持显示表管理创建的表和元数据采集的表;
4、支持根据外部建表SQL文件批量创建Hive、Vertica等类型的表;
5、创建表时可以根据不同业务对标进行主题、标签、分层划分;
6、支持编辑表,删除表,以及索引管理(HBase、MySQL、PostgreSQL等)功能;
7、支持注册、取消离线表、发布、申请等功能;
8、支持对表进行共享,组织内其他用户可以对表进行编辑和删除;9、Kafka类型表支持对表内容进行详情查阅;10、支持跨组织表的发布,发布后其他组织可以使用该表;11、支持表的的导入、全部导出功能,支持查看导出记录和模板下载;12、支持按照数据目录、主题、分层树形结构对表进行过滤;作业管理1、支持创建离线作业和自定义作业,支持编辑、删除、移动、复制等;2、支持实时作业的管理,包括实时作业和数据同步作业,支持编辑、删除、关联关系;3、支持内置任务和自定义等任务的作业资源管理;函数管理1、内置上百种函数,包括常用的字符串函数、数学函数、日期函数、聚合函数等;
2、支持以jar包方式注册自定义函数,加强自定义数据处理能力;调度中心支持业务流程的新建、修改、删除、复制、授权;2、支持业务流程批量添加分组、标签、删除,并查看批量操作记录;
3、支持业务流程的导入导出,并可以查看导出记录;
4、支持画布可视化拖拽方式开发业务流程,业务流程支持编辑、查看、批量删除,业务流运行时支持并行、串行、分支等方式;
5、业务流程支持发布、回退、同步、查看操作日志、子流程图查看等;
6、业务流程支持离线作业、自定义作业的拖拽至画布中;
7、业务流程支持根据业务流程名称和更新时间、创建时间等列进行排序;
8、单个SparkSQL节点支持数据补跑,对SQL中的日期变量界面中可以传递具体的值;
9、支持离线分析节点的出错重跑、中断续跑;10、业务流程支持分组和标签管理;调度运维1、调度运维支持业务流程的批量提交和停止;2、调度运维可以概览业务流程的健康状况和运行状态分布;3、调度运维概览页支持任务组资源使用趋势和业务流程状态甘特图;
3、业务流程支持按照分组和标签进行过滤;
4、调度运维中支持对业务流程调度进行调度上线和调度下线;5、监控页面可以查看节点的运行情况、日志、预览数据、子流程图;
6、支持查看任务调度运行实例的执行记录;
7、支持查看操作日志、调度管理、甘特图、提交、重跑等操作;8、业务流程支持简单调度、高级调度和消息调度;9、支持运行实例详情查看、重跑、过滤查询等;5)主数据管理能力提供主数据管理,主数据是指用来描述学校核心业务实体的数据,是核心业务对象、交易业务的执行主体;在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门和系统的、高价值的基础数据,是各业务应用和各系统之间进行数据交互的基础;从业务角度,主数据是相对“固定”的,变化缓慢;数据流向规划:数据流向规划是以业务系统作为维度,以主数据表或字段为颗粒度,规划每张主数据表及其字段与业务系统的U/C矩阵,展示数据被业务系统的使用与创建的关系;添加主数据的数据源支持将已注册的Oracle、MySQL数据源绑定为主数据的数据源;主数据维护支持对主数据添加分类,将主数据表关联分类;支持将主数据的数据源和非主数据的数据源添加为主数据表,并进行流程审批;同时支持通过数据集成ETL作业进行批量同步外部业务库数据到主数据表中;主数据维护支持通过模板批量导出和审批流程的自定义配置;主数据表中数据的添加、修改、删除需要进行流程审批,并支持查看操作记录;支持将主数据表中的数据备份以及根据备份文件进行数据恢复;支持其他使用方以接口的形式订阅主数据;主数据管理提供了字段编码规则的功能,支持常量、随机数、流水号、系统时间、字段值等类型,支持多种多种编码规则进行组合编码;订阅日志主数据绑定推送接口后,展示每次推送给订阅者的状态;6)数据安全能力随着数据安全法,个人信息保护法等法规颁布,学校部门对数据的安全建设更加的重视,敏感数据的保护,数据合规显得尤为重要;同时,对学校合规安全地发挥数据价值提出了更高的要求;既要应用数据,又要保护安全;子功能功能及技术指标技术要求数据安全识别配置1、支持数据分级分类能力,提供模板配置及分类模板功能;2、支持配置数据识别规则,内置常用敏感字段识别规则模板,敏感信息的匹配方式,包括列名和列值匹配,执行的匹配逻辑支持关键字匹配、正则匹配、样本库、Groovy四种方式;3、支持样本库管理,数据识别支持样本库识别;识别任务支持手动触发敏感字段扫描任务,可选择扫描的范围;支持针对数据源新建敏感数据识别任务,支持修改任务的识别配置;支持为敏感数据识别任务设置定时调度;支持展示和搜索敏感数据识别任务的运行日志;识别结果支持敏感表的展示和搜索;支持敏感字段的展示和搜索;支持对敏感数据识别结果进行手动修正,增强管理员对敏感数据的控制;支持人工标注敏感字段的功能;支持将敏感表发布成为API接口,实现敏感数据的动态脱敏;脱敏策略支持配置数据脱敏规则:系统支持哈希、掩盖、加密、转换、替换、洗牌六种数据脱敏方式,避免展示原始数据给未授权普通用户;每种脱敏方式包含多种实现;哈希:支持的哈希算法包括SM3、MD5、SHA-1、SHA-256、HmacSHA1;掩盖:支持分段掩盖、特殊字符分隔掩盖;加密:支持的加密算法包括Base64、DES、DESede、AES128、AES192、AES256、SM4;转换:支持的转换算法包括数字取整、日期取整、字符位移;替换:支持的替换算法包括分段替换、逐位替换、假名替换;洗牌:支持的洗牌算法包括打散重拍、随机选择;支持加密密钥管理,可以利用密钥和加密算法完成敏感数据的加密;动态脱敏支持配置用户允许访问的数据敏感级别,用户访问的数据密级低于等于自身密级时,展示原始数据,高于自身密级的数据使用配置的脱敏规则对数据脱敏展示;7)分布式数据库提供分布式数据库,采用高性能的列式存储与计算技术,支持多场景高级分析,集成库内机器学习,具有弹性扩展以及自定义外部扩展等先进特性,为学校海量数据查询和分析等任务提供性能和便利性体验保障;分布式数据库支持大规模并行计算和可扩展性能力,可一键加入和删除节点并自动完成数据重分布,扩展过程不需要中断正在运行的业务;分布式数据库集群中的所有节点完全对等,不需要主节点,数据加载、数据导出和查询都可以并行地在所有节点同时执行;名称技术指标功能描述分布式数据库基本功能支持存储字符、数值、时间日期、布尔等常用类型的数据的功能;支持存储、加载、读取XML、UUID等复杂类型的数据;具备存储、读取JSON数据类型的功能,并支持JSON创建函数、处理函数;支持数值运算型、比较运算型、逻辑运算型、字符串型、类型转换型等常见操作符;支持数值函数、字符函数、时间日期函数、聚合函数、窗口函数等常见函数操作类型;支持批量和单条数据的导入、更新和删除操作;支持内连接、左外连接、右外连接、内非连接等表连接查询,支持相关子查询、非相关子查询等子查询操作;支持创建、使用、修改、删除表空间的功能,具备创建、删除局部以及全局临时表,以及在临时表中插入数据、更新数据、删除数据的功能;具备事务操作的功能,具备事务隔离性、原子性、持久性、一致性;支持创建、修改、执行、删除自定义函数的功能,支持SQL/Python/C/C++语言实现自定义函数;支持SQL语句的图形化界面和命令行方式执行,支持查询计划的显示;支持集群节点信息、集群节点状态、表信息、列信息、节点分布规则信息、用户信息等常见系统表或视图的查询功能;支持精确到列级别的压缩;支持三副本存储及副本自动均衡的功能;运维管理支持可视化安装部署工具;支持对CPU、内存、存储和网络负载系统性能进行图形化监控管理的功能;支持当前登录会话信息查询能力,查询内容包括会话登录时间、会话登录客户端IP、会话登录用户名、会话当前执行作业等,并能够手动终止指定会话;支持当前作业信息查询能力,查询内容包括作业开始时间、执行时间、作业内容、作业提交人等,并能够手动终止执行作业;支持在线进行动态诊断事件下发,诊断对象包括常用内存申请、磁盘IO访问等操作行为,同时在启动诊断事件后自动生成该事件的诊断Trace信息;兼容性具备与JDBC和ODBC连接方式的兼容能力,提供JDBC和ODBC接口驱动;支持与大数据生态组件的兼容性,例如HDFS文件系统、Kafka流式计算等组件,兼容项目包括双向访问数据和双向数据操作;安全性具备通过密码对用户进行认证的能力,支持密码强度、用户登录重试锁定、重用和有效性控制;支持对各种SQL操作审计日志的生成、查询和清除;以库、表为单位,对不同用户的usage、select、create、update、delete、alter、drop、grantoption()操作权限进行分配;支持全量、增量两种方式对数据库内的数据进行备份;高级功能支持对空间数据类型进行存储、查询、索引、导入导出的功能;具备机器学习的功能,支持库内机器学习算法,包含随机森林、K聚类算法、SVM分类算法、线性回归、逻辑回归、朴素贝叶斯、自回归、XGBoost算法模型训练及预测、移动平均算法等;具备向量分析能力,能找出距离目标向量最近的k个向量对应的记录,具备GIS数据存储查询分析能力,支持各类GIS数据类型(如点、线段/折线、多边形)、支持普通几何体运算(如求面积、求距离)、支持空间运算操作符(如相交、重叠、包含)、支持GIS数据分析基本操作(如交集、并集);提供图形化界面的数据库优化设计工具,支持对数据库进行全量优化设计和增量优化设计,提升性能;支持数据实时聚合,创建实时聚合后查询耗时减少,大幅提高查询效率;支持自动宽表,通过自动宽表把复杂的多表关联查询转变为单表简单查询,宽表查询耗时比普通表关联查询耗时明显减少;支持基于标准SQL对时序数据进行分析,包括时序数据插值(常数插值、线性插值、间隙填充、插补等常用时序函数)、支持时序数据聚合计算(MIN/MAX/AVG/SUM等聚合函数,可将时序数据进行聚合)、支持时序数据异常值检测算法等;支持存储与计算分离架构部署,存储支持S3分布式对象存储、NFS共享存储和HDFS分布式文件存储;在存算分离架构下支持划分子集群功能,子集群之间资源实现物理隔离,并支持使用不同子集群执行不同类型任务操作(子集群工作负载隔离);支持基于Kubernetes的容器化部署;8)大数据平台能力提供一套完整的数据实时采集、数据存储、计算、分析、管理与开发于一体的大数据平台方案;提供海量数据存储以及高性能的查询分析处理能力,助力用户快速构建海量数据处理系统,分析挖掘数据内在价值,并用于指导学校经营决策,完成业务驱动到数据驱动的转型;大数据组件服务:提供丰富的大数据组件即服务,包括但不限于分布式文件系统、NoSQL数据库服务、内存数据库服务、离线计算、流式计算、内存计算、SQLonHadoop等服务,同时还提供自研统一SQL服务,可兼容标准SQL,对外提供统一的数据查询/分析服务,提升平台的整体易用性;管理中心:提供可视化安装部署、监控告警、主机扩容、大数据组件、日志统一等管理能力,大幅提升大数据平台运维效率;安全中心:提供基于Kerberos安全认证体系以及基于角色的用户权限管理体系:对用户进行合法认证,拒绝非法用户访问,恶意用户“进不来”;对用户、组件、读写等操作进行不同维度的审计,非法用户“逃不掉”;通过角色绑定大数据集群各组件操作权限,数据“拿不走”;将密钥的权限与用户绑定,对数据进行加/解密,数据“看不懂”;功能模块功能及技术指标具体参数要求大数据平台开放性要求平台软件基于Apache开源社区,不使用私有架构和组件替代开源组件,要求提供Hadoop3.0或者3.0以上版本,并能够跟随社区发展进行版本升级;可靠性管理节点在内的组件节点及所有业务组件中心管理节点实现HA包括但不限于HDFSNameNodeHA、YARNResourceManagerHA、HiveHA、HBaseMasterHA、ElasticSearchHA;支持一个active、多个standbyNameNode部署方式,提升集群可靠性;运维管理1.除了命令行外,集群管理软件需提供web图形化界面对集群服务器角色,配置和状态进行管理;2.可以通过图形化管理界面支持集群服务器上分布式系统状态监控和服务器状态监控;3.部署模式:为管理适应用户创建不同业务应用所需要的多个集群并统一管理,要求大数据平台支持独立模式和共享模式图形化管理界面同时管理多个Hadoop集群,支持多集群无缝切换;4.共享集群模式下,支持对多租户的资源使用情况进行统计,包含HDFS、Yarn、HBASE、kafka等;5.联机帮助:大数据集群提供在线联机帮助中心,方便用户及时查看使用;6.支持一键进行集群健康检查和主机健康检查,并能导出健康检查报告,及时发现集群潜在风险;7.支持统一告警管理,图形化的对集群状态、主机指标、组件指标、作业运行状态等进行监控;当监控结果符合告警定义时,则会产生告警;(1)监控内容:主机指标(CPU、内存、磁盘)使用率(支持自定义阈值)告警、组件指标(不同服务有不同的监控项);(2)告警:支持邮件通知方式,支持对不同集群告警设置不同的邮件接收地址;主机管理支持对集群所有主机进行全方位的统一管理:查看主机的资源使用分布统计图,如CPU/磁盘/内存/网络接收发送使用率等;查看主机列表信息:主机状态、IP、CPU、内存、磁盘使用率;扩展性集群节点数量从支持1台到上千台,并支持在线横向扩展;SQL兼容性1.100%兼容SQL92标准;支持存储过程等数据库对象;2.SQL支持丰富数据源(Hbase/Hive/HDFS/Solr/ElasticSearch);3.SQL语法支持增、删、改、查;4.SQL语法支持存储过程;5.SQL支持建立索引(同步索引和异步索引);6.支持流式计算SQL语法;统一SQL引擎为提升Hadoop的SQL兼容性,要求大数据平台提供统一SQL查询引擎,以HBASE为例,支持通过标准SQL进行HBASE表的增删改查,并支持UDF函数的扩展;具体要求如下:1.高性能SQL引擎兼容HBase、Hive、ES、关系型数据库(MySQL、PostgresSQL、Oracle等);2.通过SQL语句进行机器学习的算法操作;3.通过SQL语句进行图计算操作;4.支持通过SQL方式实现列加密;5.统一SQL完全兼容HQL语法,原有Hive业务无需适配;6.支持批处理、交互式、流处理的融合统一,能够根据SQL计算数据量自动选择批处理或交互式引擎,能够读取Kafka数据源并提交为Flink流作业;7.支持协同计算,能够动态注册数据源,包括HBase、Hive、MySQL、MPP数据库,支持异构数据源的联合查询;数据存储1.支持分布式文件系统HDFS、HBase数据库、Redis内存数据库和Hive离线数据仓库;2.满足存储各种类型海量数据的能力,实现数据的多副本高可靠存储;3.提供纠删码方式的高可用配置,降低存储投入;数据计算1.计算组件:需提供MapReduce、Spark、Storm、Flink、Impala等多种计算框架,离线计算、内存计算和流式计算并存,满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求;数据挖掘需提供机器学习算法库SparkMLlib,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法;全文检索1.支持Solr和ElasticSearch组件,且需满足检索响应快、实时高性能、海量存储等要求;2.ElasticSearch全文数据库要求支持支持对索引配置权限管控,且要求支持的权限粒度为read、index、create、delete、create_index、delete_index、view_index_metadata、monitor、manage、all;消息队列1.提供基于Kafka的分布式消息队列;2.支持web化管理界面,通过Web控制台管理Topic及消息,支持监控告警能力,同时满足多协议、多SDK访问需求;多类型数据结构支持1.支持结构化、半结构化、非结构化的数据结构;2.支持非结构化大对象数据(图片、语音等)的高速存储技术以及高并发低延时的检索技术,避免海量的图片、语音等数据的存取影响分布式在线HBase数据库的性能;3.支持半结构化(JSON/BSON形式存储)和非结构化数据的高效存取,其中半结构化数据支持字段内部建立索引;提供全文索引功能,支撑内容管理,实现文本数据等非结构化数据的提取和处理;多租户支持1.可以根据不同的业务部门,以及各自部门的业务需求,向多个部门提供资源隔离的多租户服务;2.租户可根据自身业务,使用划分好的大数据分析资源,无需指定具体物理机;3.自动实现资源隔离防止争抢现象;资源紧张或受限,可以动态调配的闲置资源;4.为保障的多租户的资源隔离,要求大数据平台提供共享资源模式,支持HDFS、Hive、HBase、Kafka、Spark、Flink、Yarn等组件;不同组件资源隔离方式不一样;HDFS基于存储目录、Yarn基于CPU和内存、Kafka基于Topic、Hive基于数据库、HBASE基于Regionserver等进行多租户隔离;安全性1.用户管理,支持集群超级管理员、集群普通用户和共享资源用户,对用户支持初始化密码、下载认证文件等;2.支持Kerberos统一认证;3.权限管控:支持web化的基于角色的统一权限管控,包括HDFS、YARN、HBase、Hive、Kafka等组件;4.支持分布式存储数据加密,支持主流AES128等算法,数据与密钥分离,并能支持用户自定义的加密算法;5.密钥管理:为保障数据的安全性,要求大数据平台支持可视化密钥管理和审计;6.支持用户权限认证,对存放在HDFS/HBase中的数据根据认证用户进行读/写访问控制;并支持支持ACL和Policy方式授权机制;7.各数据存储组件具有高容错性,自动保存数据副本,节点高可用保证数据安全;8.容灾备份:支持web化向导式的数据容灾备份管理,包含HDFS、HBase、Kafka、Hive等组件;其中,HDFS数据同步,可以选在备集群上执行,不占用主集群资源,保证不影响主集群业务;9.统一日志审计:(1)管理集群、所有主机、所有组件的日志、审计的集中管理;(2)提供日志检索、全文搜索、统计功能;提供可视化日志清理策略的设置与管理;(3)支持插件式、可扩展的数据采集接口和数据解析规则,后期通过简单配置即可管理上层应用程序的日志信息;2.数据服务依据学校的干事创业数据应用场景,通过“一数一源”的原则收集、整理、分析数据情况、指标需求和数据权责,基于梳理好的指标需求构建应用场景主题指标库;应用场景主要涉及可视化分析、学生画像、教师画像、预警预判,所需数据来源于学工、教务、人事、财务、资产、科研、图书馆、一卡通、考勤、宿管系统、门禁等业务系统等;主要围绕对以上业务系统的数据调研、数据集成、按照数据标准进行清洗、数据质量核验、数据开放共享以及数据分类分级服务等;根据学校实际情况,由中标人完成数据对接以及数据共享工作;根据学校需求建立相应数据集;3.干事创业数据应用场景建设名称用途功能点功能描述干事创业数据应用场景建设决策分析平台,教师、学生的群体、个人画像,学生安全预判预警分析决策分析平台人事主题分析:针对人事核心指标以及其他相关数据,呈现学校人事主题分析,辅助师资培养等决策;财务主题分析1.学费收入展示专门针对学费收入的展示,可能包括不同学期、不同专业或课程的学费收入;2.财政拨款展示展示拨款总额;可能包括拨款的来源、用途和时间等详细信息;3.财务支出展示展示所有支出的总览,包括支出的总额和各个部门的支出情况;4.支出部门展示按照不同的部门或单位展示支出情况;5.支出类型展示按照支出的类型(如行政支出、教学支出、研究支出等)进行展示;6.支出占比展示展示各类支出在总支出中所占的比例;通过占比分析,可以更直观地了解资金分配的合理性;资产主题分析1.资产变化趋势时间序列分析:展示各类资产随时间的变化趋势,如年度增减、更新换代等;图表展示:使用折线图、柱状图等图表形式,直观展示趋势变化;2.各部门资产分布部门资产列表:列出每个部门拥有的各类资产及其数量和价值;分布图:使用饼图或柱状图展示各部门资产的占比和分布情况;部门对比:允许用户选择不同部门,对比资产分布和使用效率;教师画像整合学校教师相关的所有数据,呈现多维度教师画像;学生画像学生个人画像整合学校学生相关的所有数据,呈现多维度学生画像;学生群体画像1.支持自定义查询筛选学生群体,自定义筛选条件包括但不限于学院、年级、专业、班级等,并查看该维度学生群体数据;2.学生概况:展示学生人数、男女比例、年龄、少数民族的人数和占比、港澳台学生的人数和占比、注册状态分布、学籍分布;学生人数和男女比例的分布、少数民族学生人数分布、港澳台学生的人数分布、不同生源地的学生人数、低龄学生名单、少数民族学生名单;展示学生政治面貌分布;3.学业情况:展示学生的平均加权成绩、挂科人数和占比、平均挂科学分;学生的平均加权成绩的年级趋势、按年趋势、分布情况,挂科人数的年级趋势、按年趋势、分布情况,挂科学分的分布,挂科学生排行和挂科课程排行,学生成绩查询;5.图书借阅情况:展示学生历年图书借阅的次数、借阅书籍的数量;展示学生借阅图书排行TOP10书籍名称,图书类型,图书编号,图书借阅时间、归还时间、作者、出版社、藏书地点等;支持按照图书类型进行借阅占比分析展示;6.奖助勤贷情况:展示学生的获奖学金、获助学金、勤工助学、助学贷款的人数和占比;学生的获奖学金、获助学金、勤工助学、助学贷款的分布和排行;学生的获奖学金、获助学金、勤工助学、助学贷款的金额以及占比;7.重点关注学生:展示不同类型重点关注学生人数:学业重点关注、经济重点关注、心理重点关注、思想重点关注、品行重点关注;展示不同类型关注人数变化趋势;关注学生对口帮扶次数;各学院关注学生变化趋势,各学院关注学生对口帮扶次数;学生安全预判预警分析1.学生安全预警:支持展示今日不在宿人数、早出晚归人数、夜间出入人数、多日无记录、重点场所出入人数;支持展示校门实时信息统计、宿舍实时信息统计、学生预警次数TOP5、楼栋预警信息统计;2.学生日常预警:支持展示今日未签到人数、未销假人数、违纪人数、到期未返校人数、心理异常人数、特别困难学生、负面清单学生;支持展示心理异常类型分布、违纪类型分布、学生违纪次数TOP5、未销假学生排行TOP5、负面事项次数学生排行TOP5、负面事项分布、未签到学生人数统计;3.学生学业预警:支持展示一般学业预警、橙色学业预警、黄色学业预警、红色学业预警;支持展示学业预警等级分布、挂科课程排行、学生挂科学分TOP5、成绩排名下降比例TOP5、各学院预警学生统计;数据生产类低代码工具为保证项目的顺利实施,需支持预留数据生产类低代码工具,以满足后续拓展需求,具体如下:1.表单设计工具 1.1可视化表单设计能力:(1)提供拖拽式、所见即所得的图形化表单设计能力;(2)可通过Excel文件导入模式导入创建表单;(3)提供种类多样的模板库满足快速制表需求;(4)同时支持流式表单和多标签式表单的配置;(5)提供页面布局可视化设计,支持双列、多列布局设定;支持设置表单背景图、配色;(6)支持自定义表单提交后的提示词和展示图片;1.2表单内置控件:(1)提供各类表单控件;包含但不限于:1)单行输入、多行输入、下拉选择、多级下拉、复选框、单选框、数字输入框、富文本、日期、日期区间、图片、附件、矩阵单选、矩阵多选、定位、地址、按钮、自动编号等控件;2)下拉选择、复选框、单选框等控件支持联动对应数据源的相关数据;3)地址下拉选择控件支持多级联动,比如行政区(省/市/区(县)/街道...)、二级单位/系所(年级)/班级;(2)支持设定常用公式,如日期函数、数字函数、文本函数等,可在前端进行公式计算后自动填充至对应字段;如获取当前日期、截取字符串中的对应长度的内容;(3)提供表单字段间关联显示;(4)提供可配置数据联动,即从其他表单按照设定规则关联对应数据,规则包括与或关系,支持多个条件设置;(5)提供在线手写签名控件,无缝嵌入业务流程;(6)表单存在历史数据时,也可支持修改字段,数据导出时,支持导出历史版本的数据;(7)单行输入、数字输入控制支持设定格式校验,如邮箱、手机号、身份证号检验;支持设定字段是否必填、是否允许重复值、限定字符范围;(8)单一字段需支持设定字段权限,包括是否前端可见、是否可编辑;(9)单选框可批量添加选项、支持设定选项分值、选项颜色;(10)通过计算公式控件实现表单内控件值的复杂计算,如自动计算多个单选项的得分、平均分;1.3Web支持要求:(1)实现文件附件的上传、存储、下载、图片预览;附件上传可限定个数、大小等,图片上传可限定拍照上传、图库上传;(2)采用H5技术构建应用,实现自适应终端设备显示;(3)实现表单数据下载为Excel/PDF文件导出;导出Excel表时可选择要导出的字段、可设定导出的文件名称;(4)表单设计器所形成的表单能以“所见即所得”方式配置打印模板,即通过打印代码对应至Word文件中,上传Word模板后实现自动填充模板数据、结果打印及导出;(5)需可支持设定多个打印模板,用户可在前端选择套用哪个模板进行打印;(6)打印支持图片打印、勾选值打印,支持多条记录合并打印至一个文件或每条记录独立打印;(7)实现数据管理端的可视化配置,能够设定显示字段、筛选字段、字段排序、操作按钮、数据条目样式、分页规则等;(8)支持管理员进行操作按钮自定义,按钮名称可自定义,操作事件需支持修改字段值、打开关联表、发放编辑、发起填报、发起审批、打开外部URL等;(9)数据管理端操作需支持添加、导入、导出、删除、发放采集、发放编辑、批量编辑、统计未提交人员、发通知等;(10)实现填报提醒的可视化配置,能够设定提醒规则,在有数据提交或修改时按照设定的规则进行提醒的推送;(11)实现提交校验规则的配置,能够设定校验公式和提示语,只有满足规则的数据方可提交;1.4表单权限要求:(1)基于用户、角色、组织架构分配用户的字段权限(对哪些数据可见、可编辑)、操作权限(对数据能够执行哪些操作,包括导入导出、增删改查)、数据权限(能够查看哪些数据);(2)支持数据审核,实现功能的一键开关;(3)支持设定表单填报的开启时间段、收集上限、用户填写次数限制、填报记录操作权限;1.5表单数据管理后台要求:(1)要支持至少三种形式的表单数据后台管理样式,包括但不限于列表式、卡片式等常用样式,支持对管理后台的某些内容展示顺序、筛选条件进行自定义配置;2.流程设计工具 2.1可视化流程设计能力:(1)支持包括处理节点、条件节点、条件节点嵌套、抄送流程等各种流程要素;(2)支持包括支持单一审批、多人顺序、串并组合、多人会签、或签、抄送、转办等常用流程模式;支持自定义节点名称和条件;(3)支持撤回、超时提醒、拒绝、通过、转他人办理、打回修改等常用操作;支持自定义操作名称;(4)支持与表单工具结合,实现流程应用的填报表单可视化设计;可根据表单填写的内容设置不同的流程流转条件;(5)支持配置流程条件分支的优先级,当流程任务满足多个条件时根据优先级顺序执行;(6)支持设定单一节点的处理人规则,包括发起人自选、管理员指定部门/院系管理员(系统内体现为部门主管)、角色等属性;(7)支持按照节点设定表单操作权限,包括可见、可编辑、只读、隐藏等;(8)可配置是否开启手写签名、处理意见,可一键应用至全局;(9)可配置超时提醒规则,可设定超时时间和提醒内容;(10)可配置提交规则(提交时间段、提交次数等)、撤回规则、审批人去重规则;2.2权限控制能力:(1)平台提供完善的组织架构管理,能够与学校用户权威数据源进行对接实现自动同步;(2)实现多级组织架构管理,包括修改、导入、导出、设置部门负责人;(3)实现基于角色的权限体系,包括应用是否可见、管理范围等;(4)实现分级授权管理,可授权单一应用管理员,包括数据权限、操作权限等;(5)实现管理员配置流程服务时,操作日志的跟踪,可查看对于流程修改的详细日志;2.3与表单设计无缝集成能力:(1)实现基于表单数据直接配置数据权限和流转条件;(2)对移动终端表单提供完善支持,在无需程序开发的情况下实现多种终端适配;(3)实现表单+流程的可视化打印模板配置,实现自动填充表单数据、审批过程数据,实现打印及导出;2.4执行状态的可视化:(1)支持根据流程图及当前执行状态生成易于用户理解的流程办理过程记录及后续执行路径、数据日志等;(2)可设定是否隐藏具体审批人;(3)可视化过程监控,跟踪活动状态,发现流程错误时可人工干预,包括修改审批人、强制通过、强制拒绝;(4)支持对流程执行情况统计、筛选以及数据的导出和下载;2.5消息通知服务:(1)支持实现统一的消息通知服务,能够实现任务流转状态变化时自动执行通知;(2)消息通知服务可以对接邮件、短信、微信等常见通知渠道,并支持可扩展的额外通知渠道的适配;2.6审批数据管理后台:(1)要支持至少三种形式的审批数据后台管理样式,包括但不限于列表式、卡片式等常用样式,支持对管理后台的某些内容展示顺序、筛选条件进行自定义配置;2.7分类和批量审批管理:(1)待办分类;不同类业务的待办提醒可通过筛选条件进行快速筛选,包括办理状态、服务名称等,支持批量操作审批;(2)能够让流程管理人员自行定义审批管理页面上哪些表单元素需要在列表中显示,还可以指定显示顺序、筛选条件、操作按钮等;3.预约组件工具 3.1预约对象管理:(1)支持手动添加和批量导入预约对象;支持配置预约对象的属性,比如会议室的描述、设备等,能支持上传预约对象图片;(2)支持针对单一预约对象设定管理员;(3)支持与表单、流程工具进行结合,可配置预约时需填报的表单及审批流转流程;(4)支持为预约对象生成二维码,扫码进行预约;3.2规则设置管理:(1)支持配置提前预约的时间范围、同时进行预约的数量、单次预约的最大时长等属性;(2)支持动态限定用户取消预约的最小提前量,如至少提前一小时进行取消;(3)支持跨预约对象、预约应用判断时间冲突,避免同一用户抢占相同时间的多个对象;(4)支持周期预约,用户可一次性预约一个周期的相同时间段;(5)支持开启签到签退限定;签到需支持位置签到、二维码签到、扫码签到等;支持弹性签到签退时间;支持手动签退和自动签退;(6)支持设定违约处罚措施,超过设定的违约次数上限后暂停用户预约权限;(7)支持特殊对象预约规则设定,在通用预约规则下需支持单独设定某个对象的预约规则;(8)要能支持将每日开放时间划分为多个时间段,支持自定义时间段区间;支持设定每周的开放时间;支持设定暂停开放日期区间;(9)要能支持批量设定多个预约对象的每周、每日的开放时间,也能针对单一对象进行特殊化设置;3.3预约数据管理:(1)管理员要能查看所有的预约记录、违约记录,可在后台取消预约记录和消除违约记录;要支持记录的批量导出;(2)支持设定黑名单,在黑名单内的用户无法使用预约功能;4.活动组织工具 4.1活动后台(1)活动管理:支持新建、预览、发布下架、管理活动,根据活动状态、分类、报名数、评论数和时间排序筛选,根据活动名称等关键信息搜索活动,支持列表和卡片视图切换,便于查阅管理;(2)管理员权限:管理员可以查看、审核、上架下架、删除所有活动;(3)活动基本信息:支持设置活动标题、封面、活动开始结束时间、活动分类、主办方、举办形式,线下活动支持地图选点和详细地址、图文混排的活动介绍,支持直接预览文档内容,播放视频、活动奖励的学分和学时;(4)报名设置:支持进行报名设置,一个活动可以添加多个报名项目,每个报名项目可以设置名称、报名时间、报名人数限制、报名填报表单、报名范围限制、用户取消报名限制、是否支持现场报名;(5)报名采集信息:可以根据实际需要添加表单字段,用于采集信息,支持必要字段:单行输入、数字输入、时间日期输入、联系人输入、下拉选择输入、矩阵表格等,支持设置手机号或邮箱格式限制,可以设置字段的默认值,并且部分默认值可以根据报名用户自动填充,减少用户填写时间;(6)展示页面设置:不同活动可以选择不同的展示页面,已创建的活动也可以切换展示页面,展示页面多端适配,至少支持:电脑端、APP端、微信端;(7)模板库:提供上百个精美活动预置模板,可以从活动模板直接创建活动,减少活动配置和界面设计工作量,包含讲座类、征集类、打卡类、答题类、问卷采集类多种模板;(8)定时发布:支持指定一个时间自动发布活动;(9)活动提醒:支持为选定范围的用户发送活动通知,提醒用户参与活动;(10)作品征集:支持设置征集规则和作品投票规则,可设置需提交的作品格式,提交份数、投票时间、投票规则等,采集完成后支持多环节评审,每次评审支持审核和专家评分,评选出最佳作品,并支持颁发获奖证书;(11)知识竞答:支持创建在线答题竞赛类活动,提供多种类型题库直接使用;(12)报名规则:为防止用户报名过多活动造成浪费,可以限制用户最大报名活动数和最多申报活动数,也可以设置活动时间重叠校验,防止报名的活动同时进行的情况;(13)黑名单规则:支持查看违约记录、管理黑名单人员,符合设定条件的人员会自动加入黑名单,也支持自动移除黑名单,减少管理员操作;(14)自动通知:支持根据活动关键节点自动发送活动的通知,通知内容包括标题、内容、收件人,可动态插入活动相关字段,例如活动时间、名称、地点等;(15)活动类型模板:允许用户根据活动类型对活动字段进行修改,支持拖拽调整顺序,删减字段、编辑标题说明、设置必填选填、设置分页标题,内置多个实用活动组件,支持新增输入字段,用于填写特殊的活动信息,减少开发量,包括选择、输入类型,支持新增应用,应用包含:前台地址、后台地址、接口推送等功能;4.2活动过程管理(1)报名审核:支持报名审批机制,用户提交报名申请,活动管理员审批是否可以成功报名,审批通过自动发通知告知用户报名成功;已报名用户也可以直接删除或改为审核不通过;(2)报名填报信:报名填报信息展示在报名名单的列表中,一个界面展示所有的字段,支持设置隐藏字段、冻结常用字段、直接在线预览用户提交的文档和视频内容;(3)报名名单管理:支持对已报名学生发放信息采集和变更通知,实现对报名时填写字段的订正修改,支持批量导入用户,按部门选择并导入用户;(4)提前报名:把报名表单独发布给组织架构内部分人群,并设置接收比例,按照报名设置条件进行提前报名,支持管理员提前添加参与活
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗应急预案的编制规范
- 医疗器械采购中的数据安全合规
- 医疗侵权因果认定的时效性影响
- 医疗AI算法透明度的国际认证标准本土化实践
- 医保政策对肿瘤个体化治疗中基因检测经济性的影响
- 激光加工技术进展-洞察及研究
- 零信任架构的安全模式-洞察及研究
- 钙钛矿太阳能电池的长期稳定性研究-洞察及研究
- 财政政策与经济波动-第1篇-洞察及研究
- 吡喹酮在疟疾疫苗开发中的应用前景-洞察及研究
- 深圳机场突发事件应急预案
- 水电站建筑物课程设计
- 个人借款合同个人借款协议
- 生物科技股份有限公司GMP质量手册(完整版)资料
- 儿童行为量表(CBCL)(可打印)
- 地貌学与第四纪地质学总结
- 2023年德语专业四级考试真题
- GB/T 36713-2018能源管理体系能源基准和能源绩效参数
- 温度仪表基础知识课件
- OnyxWorks使用注意说明
- DB53∕T 1034-2021 公路隧道隐蔽工程无损检测技术规程
评论
0/150
提交评论