数据中台-项目需求规格说明书_第1页
数据中台-项目需求规格说明书_第2页
数据中台-项目需求规格说明书_第3页
数据中台-项目需求规格说明书_第4页
数据中台-项目需求规格说明书_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

软件需求规格说明书**集团数据中台项目软件需求规格说明书**集团数据中台项目目录TOC\o"1-4"\h\z\u223761项目概述 1211221.1项目名称 1266911.2项目背景 141691.3建设目标 184581.4项目规模 2179802现状与业务部门调研 3149672.1现状分析 3132492.2数据中台价值 44172.3业务部门需求分析 5306452.4数据需求分析 639812.5中台性能需求 12200293总体功能需求 12251403.1总体功能需求 12200153.2核心功能需求 1527643.2.1数据管理中心 15109353.2.2任务编排调度中心 178633.2.3平台管理中心 18253753.2.4数据采集交换中心 2035593.2.5数据质量校验 21230143.2.6计算引擎中间件 21208803.2.7存储与计算中心 22219023.2.8数据仓库 22201783.2.9数据共享中心 23165763.2.10平台监控中心 23188073.2.11数据应用中心 23278394平台设计安全性需求 25327234.1.1安全性需求 25287344.1.2身份鉴别 251835阶段建设规划 25199865.1最终成果 27158366硬件基础设施分析 28108476.1.1数据存储需求分析 2899546.1.2系统部署需求 29189846.1.3硬件设施说明 30146167项目成员配置需求 31第第43页项目概述项目名称**集团数据中台项目,以下简称数据中台项目。项目背景**集团经过多年的信息化建设,信息化水平日益提升,已经积累了海量的生产和经营数据,这些数据分布在各种不同业务的系统和数据库中,包含了营运,人力,技术,安服,财务等,支撑着**集团业务的发展。**集团组建了数据平台开发小组,用传统的数据处理模式搭建了由数据大屏、动态监控系统、闭环监控管理系统、业务板块数据分析平台组成的数据仓库,促进公司数据管理与应用的规范化与制度化,为数据分析挖掘工作打下了一定的技术基础。现有数据平台虽有完整的数据模型设计,但是偏重业务的设计和技术,在执行过程中,很难保证数据的全面,且数据应用不跨数据中心,这在数据平台建设初期发展快,效率高,能快速提现业务价值,但是随着数据仓库的建设,数据量急速叠加,整体成本居高不下,导致数据混乱、数据灾难风险高。建设目标通过数据技术,搭建**集团数据中台,将所有数据进行采集汇聚到数据中台,进行计算、存储、加工,同时统一标准和口径,形成标准数据,每个数据应用都以数据中台为唯一数据来源。从**集团全局进行统一规划,统一建设,闭环涵盖数据应用开发全流程,满足从数据采集导入、交换处理、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据共享输出应用等全流程,强调数据的“全”,从设计、组织、建设、流程角度保障模式的落地,形成数据资产层,搭建数据应用“高速公路”,减低数据使用门槛,支持**集团机关、包括下属单位和控股单位等40多个单位数据共享和集中应用开发全流程场景需求。项目规模(一)用户规模项目建成后用户覆盖**集团业务部门以及各下属单位,详细如下:1.业务部门用户**集团机关各业务部门。2.下属单位用户**集团各下级单位。(二)项目覆盖范围汇集**集团各级子公司现有信息化系统的结构化基础数据以及公司外部可获取的相关数据,以这些数据为基础,建立**集团数据中台。业务现状现状分析随着业务和数据规模持续增长,**集团现有数据平台架构的缺陷日益暴露:1.数据仓库加工方面:维度、指标、分析场景的增加和复杂化。各业务系统间数据交叉混乱,难以统一整合,无法满足对内对外的各种数据需求。数据处理模式需要耗费大量的人力物力来支撑,已无法满足越来越庞大的数据体系,对于海量数据的处理与应用能力也非常的有限,导致数据开发成本越来越高,效率下降,很难从现有的数据模式中提取出有价值的信息,从而难以发现能够有效支持生产中需要决策的更深层次的规律;2.交互式查询分析方面:目前存在较多种业务信息系统,当新需求开发过程中进行取数时,数据源之多使得取数程序如八爪鱼般从各个系统提取数据,并且经常采用外链方式直连数据库,这种高耦合的机制导致出现“一个应用崩溃导致多个应用崩溃”,即“环环相扣”的局面,对生产跟管理造成广泛的负面影响,同时单机关系型数据库支持数据量有限,复杂查询效率低下,查询时效无法满足;3.数据模型调整方面:无法快速支持分析纬度、指标的灵活变化。数据标准和规范统一困难,在用户角度上,易产生数据不正确的错觉,并且难以利用这些数据做管理分析,在信息角度上,维护难度大且耗费了大量工时;在企业角度上,数据可用性不高,对内对外都无法很好地提取、分析数据,运维成本高,人力物力都及其浪费;4.没有便捷迅速的数据修复机制,对于数据处理任务失败的情况,难以快速全面地找出其后置任务进行数据修复,增加了运维难度,运维效率大打折扣;数据中台价值随着移动互联网、云计算、物联网和大数据技术的广泛应用,现代社会已经迈入全新的数据时代。越来越多的企业开始重视大数据战略布局,接连实施“大中台”战略,构建符合互联网大数据时代的,具有创新性、灵活性的“大中台、小前台”的机制,即作为前台的一线业务会更便捷、更快速的适用瞬息万变的市场,而中台将集合整个企业的运营数据能力,产品技术能力,对各前台业务形成强有力的支撑。回顾信息化建设这一路,构建了很多的业务系统,经历了上万次取数,制作了成百上千的报表,但在支撑了当初的业务系统建设的同时,到底给如今的数据仓库留下了多少资产呢?老系统迟早要换,新系统还是要建,但是老系统的好基因却很难留下来,如今这一代的数据仓库与上一代的数据仓库不能说是演进,而是重来。数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,数据中台的建设不仅是技术的沉淀,数据中台更核心的是“数据模型、算法服务、数据产品、数据管理”这些跟具体业务有强关联性,是**集团独有的且能复用的,比如**集团自建的2000个数据模型,300个数据融合模型,2万个数据标签等,这些更是数据中台的核心,是**集团业务和数据的沉淀,这些才能降低重复建设,减少烟囱式协作的成本,更是行业差异化竞争优势所在。结合**集团现状,升级现有数据平台,打造成为集数据采集、数据标准、数据处理、数据仓库、数据分析、监测告警于一体的数据中台已成为亟不可待的任务,把数据当做资源,以数据中台提升数据化管理与企业生产能力、驱动企业运行与决策的科学性,构建智慧**集团,打造核心竞争力,沉淀业务、技术和数据,最大程度上发挥数据资源的价值,做到“用数据说话、用数据管理、用数据决策、用数据创新”。业务部门需求分析通过调研,公司各部门有以下的业务需求:(一)信息中心:平台能协助部门对公司的数据进行统筹和集中管理,对数据标准、资源目录和数据分析模型进行制定,对数据的接入和共享进行监督和监控数据资源的变化情况。(二)数据中心:平台能帮助中心强化对数据的运营能力,提供对数据资源的审核和维护功能,能实现对数据接入和共享的审批,协助中心管理和实现公司业务部门业务报表需求,维护平台数据标准和资源目录,生成整体数据分析报告和验证数据分析结果。(三)人力资源部:平台需要提供报表填报的功能,可供公司各直属单位按人力资源部制定的报表格式提交数据;(四)财务预算部:平台应有跨部门协作的能力,如现由人力资源部门对工种进行定义,再基于该定义来统计财务部门需要的数据;(五)公交管理部:平台能提供自由组合报表的功能,以便于部门可以按需制作自己需要的数据报表。(六)生产经营部:(1)平台预留接口,可对接现有的已开发的各类系统;(2)后续可满足个性化定制表格需求;(3)支持对接系统取数,也支持属下单位填报后汇总。(七)安全服务部:平台能够对事故、违章和维修板块的数据进行集中和统计分析,方便部门日常和周期性的报表分析。(八)技术工程部:平台能协助公司制定统一维修技术数据体系,再由公司向各直属单位进行推广,以便于规范工作流程。(九)党群工作部:平台能为对职工信息进行管理,对不同的人员加上不同的标签,能直观地看到每一个人员的特征。数据需求分析1.提供数据采集和报表统计应用,按业务部门提供的规则,按不同业务如:公交、客运;按不同内容如:组织架构、经营状况、财务收入、违章事故,自动生成统计报表;2.系统设定权限体系,方便业务上的协作;3.通过标准规范制定,推动统一数据体系的开展;4.通过数据共享建设,保证平台和其他系统的交互能力。通过数据调研,公司各业务部和各下属单位进行对接,接入业务部门所需的数据需求具体如下:基础数据基础数据包括车辆档案、人员档案、线路档案、线路站点档案、站场档案、一线一册、视频监控点档案、车辆配线数据,如表1所示。序号数据名称描述1车辆档案车辆具体信息,如车辆自编号、车牌号、车长等2人员档案人员具体信息,如姓名、年龄、性别、岗位等3线路档案线路具体信息,如线路编码、名称、站点等4线路站点档案线路站点具体信息,如站点编码、名称等5站场档案站场具体信息,如编码、名称、范围等6一线一册一线一册具体信息,如线路编码、册略等7视频监控点档案视频监控点具体信息,如监控点编码、名称等8车辆配线数据车辆每日的配线记录,采用小更纸数据表1:基础数据采集需求表硬件数据硬件数据主要为公交车上电子设备的数据,包括智能视频、云总线、调度终端、羊城通设备等,具体内容参考表2。序号数据名称描述1疲劳行为数据疲劳行为数据,主要是智能视频报警数据2云总线设备预警行为云总线设备预警行为,主要是云总线采集器返回的违规驾驶预警数据3实时更纸公交实时更纸,来自调度系统数据4电子更纸公交电子更纸(T+1)5进出站进站出站信息,为报站器上报的数据6公交gps车辆实时GPS轨迹信息7公路gps车辆实时GPS轨迹信息8公交签到签退司机签到签退信息9计划排班信息司机的计划排班信息10羊城通市民刷羊城通记录11云总线设备充电数据获取云总线采集器设备的车辆充电情况12车辆维修获取维修系统车辆维修数据13加油数据获取加油系统车辆加油数据14NC更纸审批确认后的更纸15公交路单公交路单导入表2:硬件数据需求表人力资源部人力资源的数据主要包括人员的流失率、流失人数、新入职人数、净增长人数、平均年龄、工资总额、计提收入、人工成本、人均成本、职工人数等,具体内容参加表3。序号数据名称描述1流失率指统计期内流失人数的占比2流失人数统计期第一天0:00至最后一天24:00时间段内离职、退休和身故的人数。3新入职人数统计期第一天0:00至最后一天24:00时间段内新入职的人数。4净增长人数统计期第一天0:00至最后一天24:00时间段内的净增长人数。5净增长率统计期内经增长人数的占比。6平均年龄反映统计范围内人员的年龄平均水平7工资总额报告期内直接支付给本单位职工的劳动报酬总额。8计提收入指统计周期内驾驶员上车营运产生的提成工资9人工成本报告期内直接或间接支付给本单位全部职工的总费用10人均成本报告期内直接或间接支付给本单位全部职工的总费用均值11平均工资/人均工资报告期内在统计范围内人员的工资总额均值12职工人数报告期内实有的人员数。13工资人数报告期内直接支付劳动报酬的本单位人数。14期初人数指报告期初第一天0:00的时间点实有的人员数,不含当天新入职和调入的人员。15期末人数指报告期末最后一天24:00的时间点实有人员数,不含当天离职、退休和身故的人员。16平均人数指报告期内平均每天拥有的人数。17全员劳动生产率指劳动者在单位时间内的生产效率,用劳动者的生产成果与相应的劳动消耗量之间的比率表示。它表明劳动者在一定时间内的生产能力,是一项重要的经济效益指标。18出勤率是反映制度规定应利用的劳动时间内的出勤情况指标。19驾驶员人车比每辆营运车辆配备营运驾驶员情况指标20高峰载客工时利用率指统计期内驾驶员高峰载客行车时间占高峰总劳动时间的比重21载客工时利用率指统计期驾驶员载客行车时间在总劳动时间中所占的比重22载客行车工时指营运驾驶员执行营运任务所产生的时间23总工时指驾驶员总的劳动时间24载客停站工时指营运驾驶员执行营运任务在本任务结束后,到下一个任务开始前停车产生的时间25辅助工时指营运驾驶员执行非营运任务所产生的时间,其中非营运任务不包含中停休息26上车人数指执行各种上车任务的营运驾驶员人数27营运上车人数指执行营运任务的营运驾驶员人数28配线人数指已分配线路、能正常参与营运的营运驾驶员人数29上车人日指统计期内每天执行各种上车任务的营运驾驶员人数总和30配线人日指统计期内每天已分配线路、能正常参与营运的营运驾驶员人数总和31上车率指统计期内每天执行各种上车任务的营运驾驶员人数总和,在统计期内每天已分配线路、能正常参与营运的营运驾驶员人数总和的占比32在册天数指统计期内营运驾驶员在职天数33配线天数指统计期内营运驾驶员分配到线路的天数34上车天数指统计期内营运驾驶员执行上车任务的天数35营运上车天数指统计期内营运驾驶员执行营运上车任务的天数表3:人力资源数据需求表安全服务部安全服务部的数据主要有16S进出站、速度评价、急加急减、路口再加速、手刹评价、N档评价、预警45秒等数据,具体内容参见表4。序号数据名称描述116s进出站根据进出站,计算司机在站点停留时间小于16s的次数;频率=违规次数/站点数*1002速度评价超速;频率=违规次数/总里程*10003急加急减频率=违规次数/总里程*10004路口再加速在同一个路口连续超速2次及以上的次数;频率=违规次数/总里程*10005手刹评价违规数据匹配电子更纸及公路路单等获取司机信息;频率=违规次数/云总线营运里程6N档评价违规数据匹配电子更纸及公路路单等获取司机信息;频率=违规次数/纯电车营运里程7停站N档评价违规数据匹配电更纸及公路路单等获取司机信息;频率=违规次数/纯电车站点数*1008预警45违规数据匹配电子更纸以及公路路单等获取司机信息

预警45频率=违规次数/云总线营运里程(过滤行经高速线路)*10009超速50违规数据匹配电子更纸以及公路路单等获取司机信息

超速50频率=违规次数/云总线营运里程(过滤行经高速线路)*100110车辆未停稳开车门实时更纸口径匹配司机信息;频率=违规次数/总里程*100011打手机属实动态监控判定结果为属实的次数;频率=违规次数/总里程*100012抽烟属实动态监控判定结果为属实的次数;频率=违规次数/总里程*100013疲劳驾驶属实动态监控判定结果为属实的次数;频率=违规次数/总里程*100014最低安全行车时间评价次数15出站未打灯实时更纸口径匹配司机信息;频率=违规次数/站点数*10016进站未打灯实时更纸口径匹配司机信息;频率=违规次数/站点数*10017出站未关门,出站未打灯实时更纸口径匹配司机信息;频率=违规次数/站点数*10018进站未减速,进站未打灯实时更纸口径匹配司机信息;频率=违规次数/站点数*10019靠站未开门,进站未打灯实时更纸口径匹配司机信息;频率=违规次数/站点数*10020靠站未开门,进站未减速,进站未打灯实时更纸口径匹配司机信息;频率=违规次数/站点数*10021进站未减速,未停稳开车门,进站未打灯实时更纸口径匹配司机信息;频率=违规次数/站点数*10022门未关起步实时更纸口径匹配司机信息;频率=违规次数/总里程*100023驾驶员未系安全带实时更纸口径匹配司机信息;频率=违规次数/总里程*100024时速超50公里(GPS)实时更纸口径匹配司机信息;频率=违规次数/总里程*100025下班没有签退实时更纸口径匹配司机信息;频率=违规次数/总里程*100026违规关闭“开门禁启开关”实时更纸口径匹配司机信息;频率=违规次数/总里程*10002716s进出站评价实时更纸口径匹配司机信息;频率=违规次数/站点数*10028停站N档评价实时更纸口径匹配司机信息;频率=违规次数/站点数*10029疑似急转班(T+1)实时更纸口径匹配司机信息;频率=违规次数/总里程*100030时速超50公里(云)实时更纸口径匹配司机信息;频率=违规次数/总里程*100031时速超93公里(云)实时更纸口径匹配司机信息;频率=违规次数/总里程*100032驾驶员标准化操作行为统计不同的违规类型,符合经过重点监控区域站点的数据(进站前5s至出站后5s)33一线一册操作行为符合经过一线一册监控区域站点的数据(进站前5s至出站后6s)34交通事故频率=次数/里程*100000035交通违法频率=次数/配车数*10036流程超时率流程超时率=超时数/流程总数*10037流程处理率流程处理率=流程已结束/流程总数*10038节点超时统计流程中每个节点的超时统计39节点属实统计流程中每个节点的判定情况统计40节点人员接收预警量流程中每个节点的不同的操作人员的情况(暂无法统计)41节点人员处理预警量流程中每个节点的不同的操作人员的情况(暂无法统计)42动态监控一级预警包括:GPS信号丢失/偏离线路异常异常停车等,通过GPS轨迹以及线路轨迹计算得出表4:安全服务部数据需求表技术工程部技术工程部对数据的需求包括百公里能耗数据、百公里电耗成本、高峰充电占比、保修材料成本、轮胎成本、小修频率等,具体内容参见表5。序号数据名称描述1百公里能耗统计期内,营运车辆每行驶百公里所消耗的燃料量2百公里电耗成本统计期内,营运车辆每行驶百公里所消耗的能耗成本3高峰充电占比统计期内纯电动车高峰充电量占总充电量百分比4保修材料成本统计期内营运车辆每行驶千公里所发生的保修材料费5轮胎成本统计期内营运车辆每行驶千公里所发生的轮胎材料费6小修频率统计期内营运车辆每行驶千公里所发生的临修次数7救济率统计期内营运车辆每行驶万公里所发生的救济次数8返修率车辆保修期内发生的返修车次9高峰期未完工率评价车辆高峰期维修效率的指标,每月高峰期(早高峰时间为7:00-9:00,晚高峰时间为17:00-19:00)未完工的一保、临修报修车次(剔除高峰期前一个小时及高峰期间报修车次)占月度一保、临修车次(剔除高峰期前一个小时及高峰期间报修车次)的比例。表5:技术工程数据需求表财务预算部1.人员基础信息,主要包括:(1)公司的人员数(统计最小粒度为月),(2)中层干部、一线生产人员(公交、公路、出租、维修)的等各阶层平均工资,(3)公司各工种的人数分布,来源公司人力资源系统;2.车辆基础信息,主要包括:车辆数(统计最小粒度为月),来源统计系统;3.车辆营运信息,主要包括:公交车和出租车的运营里程(统计最小粒度为月),来源各直属单位的生产管理系统;审计部核需要获取财务三大报表,利润、资产负债和现金流量表中的数据,以及公司各直属单位的审计数据。党群工作部需要获取职工的基本信息和公司属下各工会和团组织的组织架构信息,职工基本信息主要包括在职、离退休和特殊群体职工的基本信息等,工会和团组织的信息主要包括组织建设情况和获奖情况等信息。公交管理部公交管理部对数据的需求包括车辆早晚高峰出车率、早晚高峰发班车次、单班车日、双班车日、载客里程等,具体内容参加表6。序号数据名称描述1早高峰出车率早高峰出车数/工作车日2晚高峰出车率晚高峰出车数/工作车日3早晚高峰出车率早晚高峰出车数/工作车日4早高峰发班车次早高峰发班车次5晚高峰发班车次晚高峰发班车次6早晚高峰发班车次早晚高峰发班车次7单班车日单班车日8双班车日双班车日9单班车率单班车率10单班载客里程单班载客里程11双班载客里程双班载客里程12单班营运里程单班营运里程13双班营运里程双班营运里程14单班工作车日单班工作车日15双班工作车日双班工作车日16营运空程营运空程17营运时间营运时间18工作车日工作车日19营运车日营运车日20工作车率工作车率21载客里程载客里程22营运里程营运里程23停站时间停站时间24营运时间营运时间25停站率停站率26应收综合收入应收综合收入27车日收入车日收入28千公里收入千公里收入29配员人数配员人数30配员人车比配员数/配车数31上车人次上车人次32上车人车比上车人数/配车数33驾驶员上车率上车人数/配员数*100表6:公交管理部数据需求表市场经营部市场经营部对数据的需求包括实发班次、客运量、总里程、运营里程、营收综合收入、千公里收入、班次收入、班次客运量驾驶员上车率等数据,具体内容参加表7。序号数据名称描述1实发班次实发班次2客运量客运量3总里程总里程4营运里程营运里程5应收综合收入应收综合收入6千公里收入千公里收入7班次收入(元)应收收入/班次8班次客运量客运量/班次9驾驶员上车率上车人数/配员数*10010正班率计划班次/实发班次*10011实载率客运量/座位数*10012工作车率工作车日/营运车日*10013驾驶员人均产值线路应收收入/线路配员数14车日收入应收综合收入/工作车日15车日行程工作车日/营运里程表7:市场经营部数据需求表中台性能需求数据中台建立完成后具备一定的检错和容错能力;保证系统能够持续(7×24小时)无故障运行。主要包括以下几点指标内容1. 平台管理系统最大支持同时在线人数≥100人;2. 数据平均抽取效率:≥300条/分钟;3. 数据一致性:单次数据抽取任务错误率≤0.05%;4. 单个服务接口支持每分钟访问≥100次访问量;5. 系统响应时间:单条件精确查询≤2秒返回结果,组合条件查询≤5秒返回结果。6. 数据时效性:系统数据每天更新,确保数据的有效性。总体功能需求总体功能需求图1:数据中台总体功能图1.数据采集交换中心:是数据中台数据接入的入口。数据中台本身几乎不产生数据,所有数据来自于业务系统层,数据采集交换是数据中台必须提供的核心能力,把各种异构网络、异构数据源的数据能够方便地采集到数据中台进行集中存储,为后续的加工建模做准备。2.数据开发中心:通过数据采集交换中心汇聚到中台的数据,这时的基本是原始的明细数据,业务很难使用,数据开发中心提供数据加工以及加工过程管控的能力,数据开发人员利用数据开发中心提供的功能,可以快速把数据加工成对业务有价值的形式,提供给业务使用。数据开发中心主要是面向开发、分析人员,提供离线、实时、算法开发工具以及任务的管理监控、告警等一些列集成工具,方便使用,提升效率。3.数据治理中心:主要解决的是数据数据质量问题,包括数据一致性和可复用性。数据量大,增长快,业务对数据的依赖也会越来越高,数据要统一建设,统一数仓、标签数据、应用数据的标准和规范。4.数据计算存储中心:为数据中台提供计算和存储能力,基于hadoop生态体系构建,包含多个数据存储、计算框架,解决多源异构的海量数据存储、计算等问题,最终计算结果形成数据仓库。5.开放共享中心:把数据变为一种服务能力,通过数据服务让数据参与到业务,激活整个数据中台,数据服务体系是数据中台存在的价值所在。企业的数据服务是千变万化的,中台产品可以带有一些标准服务,但是很难满足企业的服务诉求,大部分服务还是需要通过中台的能力快速定制。6.数据调度中心:数据中台需承载着大量多样的数据处理任务,调度中心主要解决各种任务能够按照业务自定义的执行顺序和执行策略,被自动化的调度且具备足够的容错能力。7.数据管理中心:定位为闭环涵盖数据中台能力的全平台整合,包括对数据资产目录、元数据、数据血缘、数据生命周期等进行管理和展示。同时统一数据应用开发门户,满足从数据ETL、数据研发、可视化展现、数据治理、数据输出到工作流调度的数据应用全生命周期开发工具的集中管理。8.微服务治理:基于目前流行的SpringCloud微服务技术,提供了服务注册中心,统一配置中心,网关,鉴权中心,熔断保护,用户中心,日志手机,服务双向通讯等能力,建立多个微服务集群,来提供高可用能力。微服务治理体系是数据中台得以健康、持续运转的基础,如果没有它们,数据中台很可能像个一般项目一样,一期搭建起平台、建设部分数据、尝试一两个应用场景之后而止步,无法正常地持续运营,不能持续发挥数据应用价值。核心功能需求数据管理中心经过调研分析,公司现有的信息化系统系统28个,需要对各级子公司的信息化系统进行数据资源目录归类整理,开展主数据治理,形成总的数据资源目录和共享资源目录,为后续的数据应用、共享和展示做准备。初步统计的“公司信息化系统表”如下。序号系统名称在用/在建1基础档案系统在用2NC统计系统在用3NC安服系统在用4NC票据管理系统在用5NC计提系统在用6NC财务系统在用7NC人事系统在用8安全服务系统在用9司机一点通APP在用10微信公众号在用11线管易系统在用12智能调度系统在用13营运车辆智能维修管理系统在用14材料管理系统在用15调度排班系统在用16站场联网售票在用17客运车辆GPS监控系统在用18视频监控管理系统在用19车载设备管理系统在用20云总线系统在用21轮胎管理系统在用22消防器材管理在用23物业管理系统在用24协同管理系统在用25考核评议系统在用26数据分析应用在建27客户关系管理系统在用28网格化微教育平台在建表8:**集团信息化信息表(一)数据资源管理新增数据项管理需求:主要是需对新增数据项进行管理,新建的信息化系统,在完成项目详细设计方案后,需登录平台进行数据项的对标工作,对新建系统中涉及到的数据项,与平台中的数据项标准进行比对,系统建设完成后,需对系统涉及到的数据项进行验收对标,保证信息化系统符合数据标准化要求。数据资源管理需求:提供元数据管理、主数据管理、数据质量管理、数据标准管理,主要是以数据资源目录为基础,统一整合各类数据资源,确保数据质量,形成数据库体系结构,并且实现数据资源的统一管理。提供数据项标准的创建与维护功能。1.新增数据项管理,对新建信息化系统的数据项进行管理,可在系统进行自动对标,进行数据项标准申报、变更和审核;2.存量数据管理,以数据资源目录为基础,提供平台数据资源和数据标准的检索、查询和修改等功能。3.建立源库表-->接口表-->ETL处理过程-->目标库表的元数据关联关系,从而为后续的数据标准管理、主数据管理、数据质量管理、数据安全管理奠坚基础。(二)数据标准规范标准规范制定需求主要是对各信息化系统的数据进行标准规范的制定,通过制定全方位的标准规范,将信息资源体系的生产、整合、共享和管理各个环节业务有效的连接起来,并为各业务系统间的数据共享和信息服务提供标准规范。标准规范的制定工作需要提交以下文档:平台所有数据项及数据属性标准规范、主数据治理规范、数据字典标准规范、资源数据库表结构标准规范。标准规范的协调和优化功能,确保平台建设少走弯路、提高效率,并提高数据的质量。1.对公司内部业务系统数据资源调研分析,明确数据范围,整理数据表结构和数据字典,校验数据信息,分析数据质量。2.数据资源目录建设,可按不同的分类如部门职能、单位配置数据资源总目录,对公司内部数据资源总目录进行分析,挑选出可共享给内部各单位的数据资源形成公司内部数据共享目录。3.数据资源目录管理,提供管理员对资源编目的增、删、改等基本编目功能,能够将目录库按照指定的格式导出为Word和Excel格式,以便编辑和打印成册,提供普通用户对资源目录的浏览和查看功能。任务编排调度中心任务编排与调度是数据中台的数据流核心,数据中台应支持批量任务调度管理,即实现统一的任务调度与编排管理功能,其中的任务指的是大数据领域数据开发过程中的ETL任务,包括常规的CommandShell和HadoopMR、Hive、Spark、Sqoop、Python等不同类型的大数据任务,还包括数据到达检查任务和工作流之间的依赖任务检查。支持使用工作流的可视化的方式对工作任务进行统一编排和调度。调度平台让相关的业务系统、处理系统按照一定的业务逻辑,在开发人员的编排下,像流水线一样,或串行,或并行,按照一定的依赖关系,在每日,每周定时触发,依次执行。主要应包含以下功能:1.一次性调度:该业务执行一次后进入执行完毕状态,不再进行调度。该类型的调度可以细分为两种:及时性调度和定时调度2.循环调度:该业务执行一次后进入执行完毕状态,但需要循环调度,当下一次调度周期来临,则会被继续送入执行队列执行。3.可以设置业务的调度计划,即手动执行与自动循环执行(手动执行和循环执行都会由调度管理器选择队列执行)4.提供完善的接口和管理模块,让众多的作业管理简易高效。5.支持任务失败或者任务完成触发告警,支持多级别细颗粒度的告警,和监控系统打通,支持邮件、电话、短信等多种方式通知相关人员。6.对于同一工作流编排任务中,支持并发执行,例如在一个工作流的上一次提交未执行完成时,可以重新触发该工作流的新一次提交,使其并发执行。平台管理中心(一)需求分析平台管理主要是对平台的用户管理、权限管理和站内信息的管理等。1、用户管理:至少包括用户查询、用户新增、用户资料修改等功能。2、权限管理:平台的使用用户为公司及其直属单位的信息化部门工作人员。不同的使用用户的账号的权限各不相同,可对平台账号按照权限进行划分:高级管理员账号、管理员账号、公司内部各业务部门账号、运维人员账号、开发人员账号等。(1)高级管理员:信息中心和数据中心负责人的账号为高级管理员账号,具有最高的系统访问权限。可对平台所有的功能进行操作。例如:数据共享审批、数据查询统计、数据资源查看、平台资源管控等功能。(2)管理员:公司信息化管理部门账号为管理员账号,可根据用户需要对平台各子系统功能权限进行调配,并管理平台账号。(3)普通用户直属部门:对应公司各直属部门,平台为各个部门分配一个账号,拥有浏览平台的数据资源目录、数据资源使用申请和数据共享等功能,是系统主要的使用用户之一。(4)普通用户子公司管理层:对应公司下属各子公司管理层,平台为各个子公司分配一个账号,拥有浏览平台的数据资源目录、报送数据资源和申请使用数据资源等功能,是系统主要的使用用户之一。(5)运维人员:平台运维监控及数据处理等工作人员。(6)开发人员:根据各直属部门、子公司相关功能需求和公司管理业务需要,在平台上进行基础应用服务的开发。3、通知公告通知公告以简要列表的形式列出由平台管理人员发出的通知公告,并按通知公告到达的时间进行倒序排列,将最新的通知公告列在第一条,用户登录时及可查阅通知公告信息。(二)设计说明用户管理包括用户查询、用户新增、用户资料修改等功能,通过对每个用户设置系统角色和机构进行权限控制,通知公告主要以文字形式为主,可结合图片。数据采集交换中心建设数据采集交换服务平台,使用数据采集工具,对业务系统进行全量数据采集,支持结构化、半结构化以及无结构化的存储系统之间的数据同步。将数据采集交换流程进行拆分,抽象出数据源,交换任务,交换作业等概念,达到可视化管理数据同步流程的目的。需求说明:1.数据源管理:以绑定项目的方式共享数据源;可设置数据源对外权限,控制数据的流入和流出。2.多传输引擎支持:整合Alibaba的DataX传输引擎,搭建数据ETL平台对数据进行接入和标准化转换,提供数据抽取、转换和加载功能,可通过SQL/JDBC/ODBC等不同接口、批量导出脚本、Sqoop并行化抽取等方式,从现有业务系统数据库(Oracle、sqlserver、mysql、HDFS、Hive、HBase、ElasticsSearch)中批量导出数据并经转换处理后,将数据输入到对应的HDFS和Hive资源库。3.监控长时间运行的任务和状态异常任务,及时释放占用资源并发出告警。数据质量校验支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台,解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。依赖计算引擎中间件进行数据计算,提供数据质量模型构建、数据质量模型执行,数据质量任务管理,异常数据发现保存以及数据质量报表生成等功能。1.数据质量模型定义:支持单表校验数据、跨表校验数据、自定义校验数据,包括空值校验,枚举校验、自定义校验规则等常用校验。2.数据质量报表:支持生成数据质量报表。3.日志管理:支持日志聚合管理,方便排查数据质量任务。4.异常数据管理:支持异常数据提取和存储,快速定位问题。5.支持任务编排工作流中进行数据质量校验。计算引擎中间件计算引擎中间件:对接上层数据处理应用,屏蔽掉底层大数据计算平台的各种调用和使用细节,起到承上启下的作用,是维护数据中台稳定运行的关键服务。主要核心组件有:1.网关:支持WebSocket一对多能力的网关服务,主要用于解析和路由转发用户的请求到指定微服务。2.统一入口:从作业生成到提交到执行引擎,再到作业信息反馈给用户和作业关闭,管理一个作业的全生命周期。3.引擎管理器:负责向资源管理服务申请和锁定资源,并实例化新的引擎。4.执行引擎:真正执行用户作业的微服务,它由引擎管理器启动,直接跟提交给它作业的统一入口进行交互,将作业正确执行,并反馈用户需要的各种信息,如日志、进度、状态和结果集等。5.资源管理服务:实时管控每个系统和每个用户的资源使用情况,管理微服务集群的资源使用和实际负载,限制系统和用户的资源使用量和并发数。6.注册中心:每个微服务都内置了EurekaClient,可以访问EurekaServer,实时获得服务发现的能力。存储与计算中心计算和存储中心主要包括:分布式列存储数据库、分布式文件系统、SQL引擎、实时流处理引擎、联合查询引擎、全文检索引擎、分布式批处理计算引擎(Hadoop/Spark/MapReduce)以及任务调度与监控等组件。数据仓库主要是由于现有各个信息化系统的数据库都为各个系统独自使用,且数据库没有分基础库、标准库和关联库等类别,都为生产库,各自生产库中数据库的设计都不一样。需将这些需要接入的信息化系统的数据库中的数据采集到数据仓库中,通过数据仓库分层标准,对数据进行层层清洗和处理,形成最终标准数据仓库。数据仓库分层设计原则:1.把复杂的问题简单化,将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,方便定位问题。2.减少重复开发,规范数据分层,通过中间层的数据,减少极大的重复计算,增加一次计算结果的复用性。3.隔离原始数据,不论是数据异常还是数据的敏感性,使真实数据与统计数据解耦开。数据共享中心提供公司接收或主动获取管理部门、其他相关单位共享的数据内容,比如交通违法违章数据、行业整体营运数据等;同时预留公司提供给外部其他单位数据的接口平台,具备公司与其他单位之间的数据输出和管理的条件。平台监控中心整个平台涉及到多台服务器、大量存储、多个软件平台,因此需要建设平台监控功能,对这些软硬件的运行状态进行实时监控,当平台或者数据出现异常时,运维人员可通过该功能,方便快捷的查询出现异常的原因,以便迅速进行故障处理,保障系统的正常运转。数据应用中心数据主题分析是在基础库和关联库的基础上,面向公司各业务领域的分析应用,采用多种技术手段,将相关的数据进行进一步的分析,如进行公交企业财务和运营情况结合的经营状况分析、客运站营运数据分析、公共交通出行OD客流和出租车经营分析、整体动态数据监控等;展示主要是对数据流向和各类数据的实时统计进行展示,具体举例如下:1.公交企业经营状况分析首先对公交企业经营状况分析,参与的信息包括企业基本信息、财务情况和营运情况等等。通过关联分析,建立车辆数、人员数、收入和车辆里程的关联。2.客运场站经营企业营运数据分析客运站的营运数据主要包括发送班次、旅客发送量和售票数据等,通过对每个客运站的数据进行分析,得出每天发送班次和旅客发送量排名靠前的客运站,判断每个客运站周边区域的人流量和市内人群的迁移偏好。3.公司数据资源展示功能公司数据资源展示功能对数据流向和各类数据的实时统计进行展示。包括数据共享概况、数据整合信息、核心资源统计、各单位提供数据量和共享给各单位的数据量等。4.动态系统监控对车辆硬件产生的各类数据的进行实时分类统计。包括疲劳行为数据,云总线设备预警数据等动态安全数据监控等。平台设计安全性需求安全性需求遵循有限授权原则、全面确认原则和安全跟踪原则,采用严密的安全体系,平台系统满足总体安全机制,满足加密、认证、数据完整性、一致性、不可否认性等安全性要求。平台具备通用性和开放性。平台提供安全运行的实施方案,并对重大的安全事件拥有足够丰富的的应急方案。并在发生异常运行情况时应自动告警,提供邮件、短信、控制台等通知方式。身份鉴别1.平台满足“口令+证书”的双因素认证、限制认证错误次数、加密整个通信会话、加密存储重要数据。2.对前台注册用户、后台内容管理用户及系统管理用户应采用身份鉴别技术,对需要访问系统内信息的用户进行识别,避免非授权的访问和信息泄露。3.提供角色认证,提供应用认证、管理员认证、操作员认证、服务器认证。阶段建设规划整体项目建设周期:需求调研阶段。在这个阶段,业务分析人员和项目开发人员将一起讨论并制定本项目的详细需求。方案设计阶段。在这个阶段,针对前一阶段确定的需求,项目组将制定一个详细的实施方案。这个方案定义项目开发参与人员分工、项目开发规范及流程、项目开发详细计划、项目开发进度表。实施阶段。在这个阶段,项目组成员严格按照前一阶段制定的项目管理计划按人/天的进度予以实施。培训验收阶段。在这个阶段,根据双方所签订项目合同和系统设计的要求,组织本项目的初验。试运行阶段。项目承包方跟踪用户试用情况,并跟进修改完善系统,保障系统运行良好。验收阶段。按验收规范要求完善验收材料,按程序申报验收及做好有关汇报工作。本项目的专业定位是**集团企业级数据中台的建设,数据中台架构的优化及规范体系的建立。数据仓库系统的建设有其顺序性,且需要大量时间。数据仓库系统建设过程中,将发现原有的系统在作业流程、数据质量、数据标准化的问题,基于此发现,进一步对平台的缺陷进行修复。基于上述想法,数据平台具体的实施分三个阶段,当第一建设完成后,第二阶段、第三阶段将建设更为详细的企业各系统数据模型,增加新的源数据系统,扩展和完善数据主题域,新建更多主题数据仓库,涵盖整个**集团的业务范围。具体实施阶段规划如下图所示:图2:数据中台阶段性建设内容最终成果通过整合**集团各个业务部门、分子公司、各个产业板块业务数据,将**集团各层级管理人员关心的业务指标以驾驶舱、分析报表等形式通过智慧决策平台的个性化展现,各管理层通过这个平台可以一目了然地看清公司全貌和业务全貌,让公司管理者从各个方面多个个维度来掌握公司经营情况,为公司机关层面和分子公司管理层提供高效数据分析和决策支持。与此同时,通过大数据、数据分析等应用,逐步形成针对各产业板块的个性化的数据挖掘、数据预测,以提高对市场的洞察力、提升客户满意度、促进技术创新,最终达成提升企业市场竞争力,为企业创造更多的经济效益和社会效益。硬件基础设施分析数据存储需求分析经过调研分析,公司现拥有车辆12345辆,公交车辆1234辆,公路客运车辆1234辆,拥有出租汽车1234辆;拥有公交线路1234条;公路客运线路1234条,拥有维修车间123间,充电桩1234个,加油站12间,全员人数23456人,在册驾驶员人数12345人。按企业经营管理相关规定,所有车辆存在GPS等硬件和经营数据等多类动态基础信息,这些数据的数据量较大,需要占用较多的存储资源,预计所需流式数据存储资源计算如下:序号数据项日数据量单条容量(kb)单项日增量(kb)1公交GPS20000000+0.12525000002公路GPS2000000+0.125250003公路车交易数190000+0.35665004出租车GPS7000000+0.1258750005出租车交易数据20000+0.3570006羊城通记录2000000+0.24000007进出站3000000+0.154500008疲劳行为数据600000+0.352100009云总线设备预警行为3000000+0.1545000010实时更纸70000+0.352450011电子更纸70000+0.352450012公交签到签退2000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论