有线信息网络股份有限公司分布式数据分析平台建设项目固定资产投资项目立项申报表_第1页
有线信息网络股份有限公司分布式数据分析平台建设项目固定资产投资项目立项申报表_第2页
有线信息网络股份有限公司分布式数据分析平台建设项目固定资产投资项目立项申报表_第3页
有线信息网络股份有限公司分布式数据分析平台建设项目固定资产投资项目立项申报表_第4页
有线信息网络股份有限公司分布式数据分析平台建设项目固定资产投资项目立项申报表_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

省广电有线信息网络股份有限公司固定资产投资项目立项申报表项目名称分布式数据分析平台建设申报日期2016年1月项目编号项目类别运营支撑系统需求单位运营支撑中心建设单位运营支撑中心项目内容自2012年建设以来,经营分析系统与BOSS、终端、互动、网格、财务等12个业务系统完成对接,面向全省13个分公司62家区县单位提供超过2000种数据报表服务,有力的支撑了公司各项经营决策和市场开发工作。目前系统存储各类数据120TB,数据日增长速度200GB。现有的数据集中存储模式难以支撑业务数据的快速增长,数据计算性能瓶颈已经无法满足各单位查询数据的实效性。另一方面,随着全省经营工作的深化以及BOSS系统全省割接工作的推进,各地涌现出大量个性化报表需求以支撑当地经营工作的开展。基于以上原因有线2016年主要是将现有集中的数据仓库,按地市拆分为统一调度、独立运行的分布式式数据分析平台,并且在执行全省统一指标口径的前提下满足各单位在日常经营工作中的个性化统计需求。主要内容包括:1、搭建分布式数据分析平台,提升分子公司查询统计效力:针对数据集中存储的性能和安全瓶颈问题,利用现有硬件建设分布式大数据存储和计算平台,将数据按13个分公司维度进行分布式存储和计算,并提供各分公司独立使用,提高数据安全性并满足各单位数据应用的需求,支撑全省数据高效应用。2、实施硬件改造,实现系统性能提升:通过利旧现有PC服务器、购置适当磁盘、扩容存储阵列等硬件改造手段实现系统性能的提升;并且调整无锡和南京独立经分系统的硬件架构,整合进入分布式数据分析平台。3、建立支撑省市县三级管理的核心经营指标库,保障全省经营KPI数据统一性和准确性:梳理全省BOSS割接后的业务差异,设计统一的数据统计口径标签,从而建立全省统一的权责发生制收入、好视乐产品订购数、好视乐产品渗透率、流失率、互动率等核心经营指标库,提升全省数据决策能力。4、个性化报表开发,满足各地经营工作开展:全省13个分公司及62个区县单位个性化报表开发约500个。项目计划目标进度季度月份投资金额(万元)项目各阶段目标(可按调研、采购、签订合同、初验、终验划分阶段)备注一季度一月项目立项二月三月项目采购二季度四月510合同审批五月六月需求调研三季度七月软件开发八月九月设备上线调试四季度十月系统投入试运营十一月十二月项目初验项目预算及其构成投资预算总额:510万元(后续预计继续投资_____万元)预算构成表设备、软硬件及工程等用途数量单位单价(万元)合计(万元)分布式大数据存储平台搭建分布式大数据存储平台的数据同步、平台部署1套5050全省统一数据口径标签开发、数据ETL过程开发全省统一数据口径标签开发、数据ETL过程开发1套5050核心经营指标库开发核心经营指标库开发1套3030个性化报表开发个性化报表开发1套5050PC服务器扩容扩容老旧PC服务器的内存和硬盘,用来部署分布式数据库1套5050磁盘阵列用于存储全省2500万用户重要的业务、消费、行为数据1套105105SSD阵列用于大数据平台实时数据查询1套90908路PC服务器用于大数据平台的主数据库2台42.585总计:510万元项目建设单位意见省公司技术研发部意见省公司投资计划部意见省公司财务资产部意见分管领导意见总经理意见附:项目可行性研究报告。附:有线固定资产投资分布式数据分析平台建设项目可行性报告申报单位/部门:运营支撑中心项目编制人:项目复核人: 省广电有线信息网络股份有限公司二O一六年一月现有业务能力及业务发展历史数据本期工程拟达到的能力数据,预计满足的业务发展期限自2012年建设以来,经营分析系统与BOSS、终端、互动、网格、财务等12个业务系统完成对接,面向全省13个分公司62家区县单位提供超过2000种数据报表服务,有力的支撑了公司各项经营决策和市场开发工作。目前系统存储各类数据120TB,数据日增长速度200GB。根据全省各分子公司的迫切需求,目标要解决的突出矛盾在于:1、系统功能应用增加、数据量翻番、单台主机存在的性能瓶颈等原因造成的系统性能缓慢,已经远不能满足各单位对数据的需求;2、数据同步不及时造成的数据运行的时效性和准确性不够。这主要是由于BOSS和经分性能不匹配、缺乏集中的控制器,以及对数据不同步时缺乏有效报警机制造成的;3、数据口径不统一,影响全省统一经营指标的分析。这是由于BOSS2业务模式和BOSS1差异很大,对BOSS1的统计口径在BOSS2里完全不适用,急需梳理BOSS2中各单位的业务规则,建议统一口径下的经营指标库;4、网格系统和财务系统数据需求激增,这主要体现在财务系统数据要求每月3号前要同步及时和准确的账务数据,而网格系统要求每天早上6点-8点前要同步所有业务数据,目前的经分系统性能已难以满足。1、搭建分布式数据分析平台,提升分子公司查询统计效力:针对数据集中存储的性能和安全瓶颈问题,利用现有硬件建设分布式大数据存储和计算平台,将数据按13个分公司维度进行分布式存储和计算,并提供各分公司独立使用,提高数据安全性并满足各单位数据应用的需求,支撑全省数据高效应用。2、实施硬件改造,实现系统性能提升:通过利旧现有PC服务器、购置适当磁盘、扩容存储阵列等硬件改造手段实现系统性能的提升;并且调整无锡和南京独立经分系统的硬件架构,整合进入分布式数据分析平台。3、建立支撑省市县三级管理的核心经营指标库,保障全省经营KPI数据统一性和准确性:梳理全省BOSS割接后的业务差异,设计统一的数据统计口径标签,从而建立全省统一的权责发生制收入、好视乐产品订购数、好视乐产品渗透率、流失率、互动率等核心经营指标库,提升全省数据决策能力。4、个性化报表开发,满足各地经营工作开展:全省13个分公司及62个区县单位个性化报表开发约500个。一、总论部分1项目简介项目背景“有线经营分析系统”作为省级数据中心,基本实现了全省各类数据的集中统一。目前,系统支撑了全省13个分公司的数据需求,支撑的需求范围包括:全省经营分析数据、全省结算、全省报表、全省财务数据、精确营销推荐、以及向BOSS系统、智能推荐系统、积分系统、南京数据仓库、省财务系统等推送数据等。通过前四期项目建设,经营分析系统目前存储了全省13家分公司和数十家合作单位的用户信息和业务发展数据,数据容量大约120TB;支撑了全省机顶盒、增值业务的上下游结算工作;实现了数字电视、互动高清、宽带业务发展等公司经营指标的统计和展现。但是随着全省BOSS系统的割接,经分系统承载的压力愈来愈大,也无法响应各单位在市场转型过程中爆发的数据应用需求,这主要体现在以下几个方面:(1)系统性能缓慢。首先由于现在报表、手机经分、省经营分析平台等全省应用都部署在经分系统的主数据库上,并且随着全省数据需求的激增,开发的报表等应用开发越来越多,应用负载也越来越大,对系统性能影响较大。其次是随着全省BOSS割接,数据量成倍增加,对系统计算性能压力是非线性地急剧增长,是造成系统性能缓慢的重要原因。另外由于现在的经营分析系统是集中式部署,所有性能和负载压力都集中在一台服务器上,造成单台主机性能瓶颈明显。(2)数据同步不及时。现在数据应用中出现的查询不出结果、数据不准确的问题,主要都是由于数据同步不及时造成的。现在经分系统和BOSS系统采用实时同步软件进行实时同步,采用点对点的方式直接从主机端(BOSS系统)同步至目标端(经分系统)。但是由于BOSS系统性能远高于经分系统,造成主机端与目标端性能不匹配,在主机端数据大量变化时,目标端来不及接收从而造成经分系统大规模数据积压。另外现有的数据同步方式缺乏有效的报警机制,数据不同步时仍然显示同步正常,造成数据不同步时无法及时发现。(3)数据口径不一致。2015年BOSS2割接整合的关键一年,由于苏南各个分公司和苏南区县的业务模式和BOSS1里的业务模式差异很大。现在BOSS1里全省统一的数据统计口径在BOSS2里完全不适用。另外,BOSS2里的每个地市都有自己个性化的业务规则,统计方法也各不相同,造成现在全省数据统计口径不能完全统一,对全省经营指标的分析和管理有较大影响。(4)外部系统对经分系统的数据要求越来越高。随着企业信息化管理,各系统对数据的要求越来越高。首先财务系统从经分系统同步各类收入数据,要求每个月3号之前必须同步,并且要求数据准确。网格系统每天从经分系统对接各类数据,随着全省网格化营维体系建设的深入,各单位对网格系统的数据更新时间要求很高,所以网格系统也要求经分系统在每天早上6:00-8:00前同步数据。但是由于现在经分系统性能的瓶颈,这些要求还不能完全满足。项目意义与必要性根据上述分析的性能缓慢、数据不同步造成数据不准确、数据口径不统一、财务/网格系统数据需求等主要问题,采用现有的集中式部署的架构已经无法满足当前全省各地急迫的数据需求。因此2016年必须建设一套分布式数据分析平台,解决突出矛盾,提升数据效率和效益。该系统建设的意义和必要性包括:(1)提升全省数据计算和查询效率,满足各单位及时获取经营数据的要求目前各单位对收入类、发展类的经营数据需求迫切,很多单位均反映每月初出账期系统性能缓慢影响了月度的结算、数据统计、数据核算等重要工作开展,强烈要求省公司进行系统扩容。随着全省数据量的增长,这个问题日趋严重,本期项目通过分布式数据分析平台的建设,能够解决现在系统性能缓慢的突出矛盾,提升月初、年初集中出账期间数据更新和计算能力,满足省公司以及各分子公司及时获取经营数据的迫切要求。(2)建立全省统一的经营指标库,满足省公司和各分子公司监控经营KPI的迫切需求随着省公司对各分子公司KPI考核要求的细化和规范化,各单位老总纷纷要求能够在系统中查询及时查询用户发展、互动率、宽带率等经营指标的KPI完成情况,有的放矢的进行工作重心调整。但是由于2015年BOSS2中分子公司刚刚割接,业务规则和BOSS1中的不尽相同,原有的BOSS1中的统一数据口径已经不能适用。另外BOSS2中各单位之间的业务差异也较大,需要梳理出业务差异和规律,形成统一的数据口径并以此建设全省统一的经营指标,满足现在省公司和各分子公司决策层进行经营监控和决策的需求。(3)搭建地市独立分布式数据库和存储,满足各单位高效自主查询个性化数据的要求随着有线市场化转型的深入,各单位除了需要获取全省统一的经营指标数据以外,还迫切需要很多个性化数据辅助市场活动的开展。目前给各单位开放的视图由于是共享数据库模式,在使用人员多、查询脚本复杂的情况下已经不堪重负,常常出现由于某个单位运行高并发计算任务造成数据库宕机从而全省所有单位都无法使用的尴尬局面,很多单位要求省公司部署独立的数据库供大家使用。因此,需要搭建13台分布式数据库和存储,每个分公司和所辖区县单位独享一台数据库,彼此间互不干扰,能够高效自主查询个性化数据,甚至在上面搭建本地应用,支撑各单位经营工作开展。(4)给省网格系统和省财务系统提供及时和准确的数据,支撑全省网格化服务营维体系和“权责发生制”财务结算制度的推进随着公司新型网格化服务营维体系全省推广,省网格系统计划在2016年在全省推广上线,对数据的实效性要求更高,原则上需要主数据库在每天早上6点之前就同步所有数据。但是现有的系统性能无法满足该要求。同时,省财务系统要求每个月3号前同步准确的账务数据,目前由于系统性能瓶颈也无法满足。所以必须搭建分布式数据分析平台,提升系统性能,不然无法支撑网格化服务营维体系建设和财务制度推进。项目建设思路及目标建设思路通过系统架构重塑、软件优化、硬件提升等技术手段,提升数据计算和分析的效率,满足全省对数据时效性和稳定性的需求;通过梳理业务规则、建设全省统一的数据统计口径从而建设全省统一的经营指标库,支撑全省经营工作的评价和分析;通过开发数据集市、自助取数以及个性化报表,来满足各单位个性化的数据应用需求;通过上述数据时效性、准确性、指标统一性和个性化数据丰富性的提升,进一步满足财务系统、网格系统的数据应用需求。建设目标(1)搭建分布式数据分析平台,提升分子公司查询统计效力:针对数据集中存储的性能和安全瓶颈问题,利用现有硬件建设分布式大数据存储和计算平台,将数据按13个分公司维度进行分布式存储和计算,并提供各分公司独立使用,提高数据安全性并满足各单位数据应用的需求,支撑全省数据高效应用。(2)实施硬件改造,实现系统性能提升:通过利旧现有PC服务器、购置适当磁盘、扩容存储阵列等硬件改造手段实现系统性能的提升;并且调整无锡和南京独立经分系统的硬件架构,整合进入分布式数据分析平台。(3)建立支撑省市县三级管理的核心经营指标库,保障全省经营KPI数据统一性和准确性:梳理全省BOSS割接后的业务差异,设计统一的数据统计口径标签,从而建立全省统一的权责发生制收入、好视乐产品订购数、好视乐产品渗透率、流失率、互动率等核心经营指标库,提升全省数据决策能力。(4)个性化报表开发,满足各地经营工作开展:全省13个分公司及62个区县单位个性化报表开发。2前期项目实施情况2.1现有项目的总体实施情况自2012年建设以来,经营分析系统与BOSS、终端、互动、网格、财务等12个业务系统完成对接,面向全省13个分公司62家区县单位提供超过2000种数据报表服务,有力的支撑了公司各项经营决策和市场开发工作。目前系统存储各类数据120TB,数据日增长速度200GB。2.2现有项目的总投入和实际业务承载能力经营分析系统建设(一期)共投入436.67万元,其中软件132万元,硬件304.67万元。一期完成了建立全省统一的数据模型和接口规范;搭建不依赖于应用的基础数据管理平台,采集来自BOSS、支付平台、电子营业厅等相关系统数据;满足省、市、县三级权限开发管理;建设掌上经分;实际业务承载南京及南京区县、常州、镇江、泰州、淮安、盐城等分公司。经营分析系统建设(二期)总预算150万元,实际总额148万元,其中软件58万元,硬件90万元。二期逐步将系统推广到部分市县合作单位,对接VOD系统等外围系统的数据;建设结算模块,初步支撑全省结算工作;迁移BOSS系统102张报表至经分系统。经营分析系统建设(三期)总预算92万元,实际总额90万元,均用于软件建设。三期完成了7个经营专题在手机客户端的展现,为省财务系统、省网格化服务营维支撑系统提供数据支撑,并与4A系统集成,实现账号统一管理。经营分析系统建设(四期工程)总预算160万元,系统将采集苏州、无锡、扬州和21家县公司业务底层数据;建立结算专用的数据视图,支撑省、市、县三级结算工作;采集全省云媒体系统中的用户行为和业务访问数据;建立开放性数据集市,将经营工作中常用数据开放给各单位使用。2.3现有项目的业务应用情况和系统能力占用情况(1)现有项目的业务应用情况通过四期的建设,经分系统作为省级数据中心,初步实现了全省各类数据的集中统一。系统目前存储了除苏州、无锡外全省11家分公司和数十家合作单位的用户信息和业务发展数据,数据容量大约120TB;支撑了全省机顶盒、增值业务的上下游结算工作;实现了数字电视、互动高清、宽带业务发展等公司经营指标的统计和展现。系统支撑了全省60多个地市、区县公司的数据需求,支撑的需求范围包括:全省经营分析数据、全省结算、全省报表、全省财务数据、精确营销推荐、以及向BOSS系统、网格化服务营维支撑系统、智能推荐系统、积分系统、省财务系统等推送数据等。截至2014年底,系统共设有各级账号5946个,2014年累计页面访问量达到627万次。(2)现有系统能力占用情况2012年经分系统购置了两台8路数据库服务器,目前已满负荷运行,CPU负载长期超过50%。如下图一所示,系统现在每天任务集中调度时,IO使用率很高,最繁忙时达到100%。另外存在单核CPU满载的情况,造成系统瞬时压力很大。在这种情况下,系统极其容易出现登陆使用卡死、无法登陆、甚至数据库崩溃的情况。现在经分现有数据100T左右,每天BOSS通过过来的数据约100G/天;全省云媒体推广后,对接的用户行为详单数据约150G/天。一年的数据增长为(100G+150G)*365/1024=89T。考虑到2016年需要建设分布式数据存储,给各个地址配备独立数据库资源,因此需要建设足够大的存储,把现有的数据都放在分布式数据平台上给各个地市使用。考虑磁盘阵列的空间利用率为50%,为满足至少一年的数据存储量,磁盘阵列的大小应该=(100T+89T)/2=94.5T。另外要考虑数据热备,实际存储空间要翻倍,因此计划2016年购买至少200T的存储阵列,并且每年需要按实际数据增长量扩容。2.4下一年度业务和能力需求情况(1)亟需提升全省数据计算效率和稳定性各单位均对数据的计算效率提出很高要求,比如在每个月1-2号就能查询到准确的上月收入、用户发展数据。(2)提升数据的准确性现在数据的准确性瓶颈主要来源于数据同步的不及时,所以必须要改造现有的数据同步机制和软件。(3)全省统一的经营指标现在省公司急需一套统一的经营指标口径,能够对全省各分公司、各区县公司进行横向、客观的比较。BOSS2中的各个单位均希望能够尽快掌握全省统一口径下的经营指标数据,以便监控自己的KPI是否完成。(4)个性化的本地数据应用支撑一线市场人员对与用户和业务发展相关的各类数据需求更加频繁和多样化,对数据获取的时间要求也更为紧迫,并希望自己直接获取相关数据。除此以外各地市希望能够有自己独立的数据库进行本地数据的查询,甚至是把本地一些IT应用部署在之上。3项目评价指标3.1技术性能指标满足全省业务数据和用户行为数据的存储、统计和分析;支撑1000-2000个并发;每天的数据计算时间控制在6-8个小时。工程进度指标:按计划完成项目建设和验收。3.2效益指标本项目是技术支撑类项目,不产生直接经济效益。但是通过本项目的建设,能够充分利用企业核心系统产生的大量宝贵的数据资源,建成全省统一的数据支撑中心,为公司提供统一的数据,支撑区县网络整合,支撑网格化营维体系建设,为领导的科学管理提供准确、可靠的基本数据,为市场经营工作提供及时、准确、科学的决策依据,从而提高公司的竞争能力、管理质量及运作效率,使统计分析更加实用化、直观化,是领导科学管理的好助手,是适应信息管理发展的客观需要,将会促进管理模式的改进,极大地提高管理水平的提高。4简要结论分布式数据分析平台预算510万元,其中软件180万,硬件330万。通过该项目的建设,能够提升全省数据计算的效率、满足各地复杂多变又高时效性的要求;能够实现全省经营指标数据的统一分析、横向比较,从而协助各分公司及时掌握各项业务的经营情况,具有较好的社会和经济效益,将进一步提升公司在三网融合市场竞争中的地位,故此项目可行且有必要实施。二、业务发展预测1市场分析(1)提升全省数据计算和查询效率,满足各单位及时获取经营数据的要求目前各单位对收入类、发展类的经营数据需求迫切,很多单位均反映每月初出账期系统性能缓慢影响了月度的结算、数据统计、数据核算等重要工作开展,强烈要求省公司进行系统扩容。随着全省数据量的增长,这个问题日趋严重,本期项目通过分布式数据分析平台的建设,能够解决现在系统性能缓慢的突出矛盾,提升月初、年初集中出账期间数据更新和计算能力,满足省公司以及各分子公司及时获取经营数据的迫切要求。(2)建立全省统一的经营指标库,满足各公司监控经营KPI的迫切需求随着省公司对各分子公司KPI考核要求的细化和规范化,各单位老总纷纷要求能够在系统中查询及时查询用户发展、互动率、宽带率等经营指标的KPI完成情况,有的放矢的进行工作重心调整。但是由于2015年BOSS2中分子公司刚刚割接,业务规则和BOSS1中的不尽相同,原有的BOSS1中的统一数据口径已经不能适用。另外BOSS2中各单位之间的业务差异也较大,需要梳理出业务差异和规律,形成统一的数据口径并以此建设全省统一的经营指标,满足现在省公司和各分子公司决策层进行经营监控和决策的需求。(3)搭建地市独立分布式数据库和存储,满足高效自主查询个性化数据的要求随着有线市场化转型的深入,各单位除了需要获取全省统一的经营指标数据以外,还迫切需要很多个性化数据辅助市场活动的开展。目前给各单位开放的视图由于是共享数据库模式,在使用人员多、查询脚本复杂的情况下已经不堪重负,常常出现由于某个单位运行高并发计算任务造成数据库宕机从而全省所有单位都无法使用的尴尬局面,很多单位要求省公司部署独立的数据库供大家使用。因此,需要搭建13台分布式数据库和存储,每个分公司和所辖区县单位独享一台数据库,彼此间互不干扰,能够高效自主查询个性化数据,甚至在上面搭建本地应用,支撑各单位经营工作开展。(4)给省网格系统和省财务系统提供及时和准确的数据,支撑全省网格化服务营维体系和“权责发生制”财务结算制度的推进随着公司新型网格化服务营维体系全省推广,省网格系统计划在2016年在全省推广上线,对数据的实效性要求更高,原则上需要主数据库在每天早上6点之前就同步所有数据。但是现有的系统性能无法满足该要求。同时,省财务系统要求每个月3号前同步准确的账务数据,目前由于系统性能瓶颈也无法满足。所以必须搭建分布式数据分析平台,提升系统性能,不然无法支撑网格化服务营维体系建设和财务制度推进。三、技术实施方案1技术方案简述有线分布式数据分析平台的技术架构是面向大数据时代的应用需求,同时兼顾传统统计分析需求的技术架构,对传统离线分析扩充大数据平台能力。建设思路调整现有架构,把实时报表、非实时报表、视图查询、省集中数据应用从主数据库集中部署的模式改为分数据库部署,提升主数据库运行性能。优化软件,通过ETL任务依赖关系优化、非实时报表优化等技术手段,提升数据计算效率。调整现有视图查询部署在单一数据库的架构,通过搭建13个地市的分布式数据库和存储,把非实时数据和实时数据的查询能力下发到各个地市,满足各地区(分公司和所辖区县)独享数据库进行自主数据查询和应用的要求。以全省统一口径的原则,梳理BOSS2中各单位的业务差异和业务规则,逐步建设全省统一的数据指标库。系统建设方案系统现有架构目前的数据平台主要采用集中部署的架构,由3大块组成(如下图所示):(1)部署在BOSS1报表库上,从BOSS1实时同步数据,支撑除苏州、无锡、扬州以外的地区所有实时报表、视图查询(以下简称BOSS1实时报表);(2)部署在BOSS2报表库上,从BOSS2实时同步数据,支撑苏州、无锡、扬州三地市的实时报表、视图查询(以下简称BOSS2实时报表);(3)部署在经分核心数据库上,支撑web经营分析系统、手机经分、BOSS精确营销、财务数据、网格系统、自助取数,以及所有非实时报表的统计和查询。在这种架构下,目前存在的突出矛盾包括:第一,经分核心库上部署了大量数据应用,特别是非实时报表如用户发展等数据,是利用经分系统DW层和DWA层的各个生产表上的数据根据相应规则统计得到,这些报表均直接部署在经分系统的主服务器上。由于这些报表查询人数多、频次高,每次查询都会消耗大量的数据库性能,造成经分系统主服务器的负载过大,甚至影响了主数据库里各类ETL过程的运行。第二,BOSS1和BOSS2的报表库上部署了各个地市的视图,供各单位进行自主数据查询统计。但是由于使用人数太大,造成视图查询效率也非常低。系统架构调整和重造在2016年的分布式数据分析平台建设中,打破现有的集中存储、应用集中部署的方式,构建如下图所示的系统架构:实时报表、非实时报表、全省集中数据应用分离部署在分布式数据分析平台搭建中,计划搭建独立的非实时报表库,所有非实时报表从经分主数据库剥离出来,部署在该非实时报表库上,减轻经分主数据库的压力。非实时报表库和经分主数据库之间进行数据同步。实时报表库直接从BOSS1和BOSS2实时同步数据,部署所有的实时报表应用。手机经分、WEB经营分析、自助取数、网格系统/财务系统的接口数据等全省统一的数据应用部署在经分主数据库上,保证全省统一的数据指标。搭建分布式存储平台,供13个地区进行自主数据视图查询改变现有的数据集中存储和视图集中查询的现状,搭建13个地市分库的分布式存储平台。经分主数据库通过每天定时的ETL任务把经过清理和处理的数据集市、静态视图分发到13个分库上;BOSS系统中的实时数据直接通过同步软件分发到13个分库上,每个地区使用独立的数据库进行自主数据查询。同时,自助取数等便捷的数据应用功能可以通过集群的方式在13个地市分库上部署,方便各地非技术人员进行自主数据查询。部署13套自助取数应用,对这13套应用进行集群,各地市访问每个应用的实际结点,这样各地市互不干涉,相对独立的使用。运维人员通过集群地址进行维护和管理,以减少维护和管理的工作量。把点对点的实时数据同步方式改造为数据同步中心的架构前文分析过现有点对点实时数据同步存在的问题,为了解决数据同步不及时造成的数据不准确的突出矛盾,计划建立数据同步控制中心,BOSS1和BOSS2的实时数据先同步至主控制点,再由该主控制节点根据同步策略向各地市节点分发,避免同步链路同时运行时的数据拥堵,并且建立报警机制,一旦出现数据拥堵进行及时报警。优化软件提升数据运算效率ETL优化梳理现有各类数据在需求上的时效性,根据紧急重要程度,时间点要求做优先级划分,针对时效性要求高的任务,合理规划,缩短数据生成的路径,以缩短数据生成时长。对现有耗时较长的任务,根据表数据不同情况,采用数据库整体参数调优,表结构优化:如分区表(如根据ID取模分区,根据组织、行政区划等分区),添加必要的索引等,脚本本身优化,等多管齐下,来提高效率,减少执行时长。非实时报表的优化目前非实时报表目前都直连经分主数据库,查询DW层明细表,这部分报表量大约在230个。随着业务的发展,数据量的增加,查询的速度越来越慢,经常会出现查询卡死、甚至直接宕机的情况,目前只能通过重启应用来缓解压力,极大影响报表的正常使用。所以需要对此报表进行优化。梳理分析现有的报表,按照实时与非实时,查询频率高和低,使用人数等情况,重新规划,把现在查询经分明细的报表,通过增加中间表、结果静态化,大数据量表分表分区,优化查询sql等多种方式相结合的方法,提升报表查询的效率,降低服务器压力。数据集市下发在主数据库上建全省统计的集市表和宽表,然后每天完成经分的ETL后,把集市表和宽表通过DBLINK直接把宽表的数据插入到各地市分库中,每个地市只插入各本地市的数据,并可以13个地市并行进行,各地市的宽表串行进行。数据库迁移在数据移植前,我们应该记录、统计原有数据库的完整信息,方便在移植完成后进行对应的检查工作。记录的信息主要有:(1)需要移植的数据范围:全库或按照用户(记录具体的用户名称);(2)记录数据文件、表空间状态:如果系统中部分表空间或数据文件存在OFFLINE的状态,应确认该部分表空间以及数据文件中的数据是否需要移植。(3)记录目前系统中的对象数量以及状态:如果该查询结果中存在INVALID状态的对象,必须记录对象的名称、类型并在移植工作正式开始前确认这部分对象应该的实际状态。(4)记录目前系统中的索引数量以及状态:如果该查询结果中存在INVALID状态的索引,必须记录索引的名称、类型并在移植工作正式开始前确认这部分索引应该的实际状态。硬件提升主数据库硬件升级由于经分主数据库硬件配置不高,存在较严重的性能问题,具体体现在:1、与BOSS数据同步时,由于经分库写入太慢,出现堵塞问题,导致数据同步不及时。2、随着各地市的数据割接,经分系统处理的数据越来越多,越来越复杂,导致每天处理的时间越来越长,现在处理的时间已超过10个小时,现在上午8:30上班时,业务部门不能正常地看到数据了,为此也急需提升硬件配置,缩短ETL的处理时间。存储及备份估算:存储规划需求存储容量计算公式存储容量(GB)ETL接口原始数据*0.5*(1+0.1*6)3207.673629数据仓库基础层表空间原始数据*312028.77611数据仓库汇总层表空间原始数据*3*0.56014.388055数据仓库应用层表空间原始数据*3*0.253007.194027专题应用数据存储空间500500数据质量400400合计Sum25158.03182考虑到ORACLE数据库的压缩比例是50%,同时考虑到当前1个月的数据不压缩,实际压缩6个月数据,数据库空间需要留20%的冗余,实际使用空间是=(非压缩空间+压缩空间)=((Sum*1/7)+(Sum*6/7*50%))/(1-20%)实际使用空间是=(非压缩空间+压缩空间)((Sum*1/7)+(Sum*6/7*50%))/(1-20%)17970.02273建议采用Raid5方式进行扩容。Raid5=1.33总裸容量((Sum*1/7)+(Sum*6/7*50%))/(1-20%)×1.3323900.13023备份计算预计空间(GB)原始数据备份,系统需要保留历史的原始资料一年(压缩后备份)12*N*((1+10%)*500*31+(1+10%)*C*31*400+D*450*31+500*31*2+*20*1024+(1+10%)*S*31*400+4000)/1024/1024/1024*0.148115.10444数据仓库基础表空间+数据仓库的汇总表空间18043.16416系统保留1个月的全量备份镜像数据数据库数据备份18043.16416系统还需要脱机保留3年的数据备份12*3*原始数据备份144345.3133保留3年的数据备份按0.1的压缩比率12*3*原始数据备份*0.114434.53133OLAP14001400.505658系统程序和应用程序、项目管理等其他数据的备份,3年需要900900数据库备份合计82893.30559存储空间合计142319.1382确定主数据库的硬件配置为:分类配置数量数据库服务器8*8Core3.0GHz1T内存10TPCI-e卡20TSSD硬盘1磁盘阵列50*2TBDualController1为了更好地满足各地市个性化的需求,让各地市能快速、方面地得到数据且各地市互不影响,需要对每个地市建一套小经分,每个地市配两台服务器,一台用于数据库,一台用户前台应用的部署。所需硬件配置如下:分类配置数量数据库服务器2*8Core2.4GHz256G内存10T硬盘13应用服务器2*8Core2.4GHz128G内存1T硬盘可以考虑与数据库服务器共用冷热数据分区存储在当前的数据库条件下,最主要的性能瓶颈是在存储的I/O读写。提升性能性价比较高的方式就是使用高速存储阵列,提高I/O读写的效率。但是高性能存储价格非常高,综合考虑成本等因素,采用冷热数据分区存储的方式:即高使用度的数据为热数据,存放在高性能存储中,明显提升计算和查询的效率;低使用度数据为冷数据,放在普通存储中。整体的存储规划为高速PCI-E闪存卡+SSD硬盘+普通磁盘阵列的硬件方案,具体为:PCI-E卡:用来保存每日的任务需要用到的基础表、结果表,以及用于运算的临时表空间。根据经分现有541个日任务,每个日对应一个表,平均每一个表存储空间按照300MB,则保存一个月数据需要541x0.3x30≈5TB;月任务181个,平均一个按1.5GB存储空间计算,一个月需要270GB;另外需要运算量较大的任务组,需要单独的临时表空间用于运算,一共有13个任务组,每个平均需要150GB的临时表空间,一共是150*13≈2TB。共计:5+2+0.3=7.3TB再考虑一段时间内数据的增长量,10TB是个比较合理的大小。SSD硬盘:用以保存最近3个月数据,保证一些经常的查询用。根据日常任务情况预计需要20TB。普通磁盘阵列:用以保存各种不常用的数据和历史数据,约100TB。充分利旧现有硬件设备考虑节省成本等因素,整个分析平台的搭建充分利用现有硬件设备。13个本地数据库利旧使用已有服务器,但是需要对现有服务的内存和硬盘进行扩容,以保证每个本地数据库有足够的存储空间。项目配置内存和硬盘扩容4台四路服务器,内存每台扩256G,硬盘配600GSAS盘28块8台两路服务器,56块1TBSAS盘统一数据口径,建设统一经营指标现在数据主要从两套BOSS取数据,而目前BOSS2的ETL过程基于无锡经分修改而来,与BOSS1有统计口径有差异;而统一的规则,统一的处理逻辑是保障数据准确性的最重要、最基本的原则,也是全省各单位进行公平客观的横向比较的根本依据;因此,需要对现有BOSS1和BOSS2、以及BOSS2中各单位的不同业务规则进行梳理,在坚定全省指标统一口径的前提条件下,根据条件成熟程度进行逐步统一。在对业务规则梳理清晰以后,需要改造现有的DWA数据处理层,对无锡、苏州、扬州数字基本业务标签ETL开发;如皋、张家港、宜兴、常熟、扬州、昆山、江阴、太仓、吴江互动业务标签ETL开发;苏州和无锡宽带业务标签ETL开发;全省统一有效和缴费用户标签开发。最后建设全省统一的经营指标库,手机经分、总经理视图等全省统一数据应用均从该经营指标库中取值进行展现。2.2.6个性化数据建设基于宽表的自助取数自助取数应用依赖于经过ETL加工处理后的数据模型和自助分析中间存储数据,非技术类人员不再需要直接到数据库里写脚本查询数据,而是能够通过WEB应用自助获取个性化数据,对数据的使用更加方便和快捷。主要功能包括:自助取数:通过选取配置好的数据模型,用户可以设置需要的取数结果指标字段、筛选条件字段和排序字段。设置完成后,可以预览取数结果信息,也可以将取数配置保存为即时任务、定时任务和取数模板等信息等。支持上传文件的导入以及已经完成的数据的二次关联处理。(2)一站式自助分析:一站式自助分析功能引导用户快速上手自助分析工具,以一站式点击的方式一步步知道用户下一步该做什么,轻松完成自己需要的取数操作以及分析报表的制作。(3)取数任务配置:让用户在已配置好的数据表或数据视图基础上进行取数配置,设置完成后,用户可以预览符合查询条件的取数结果信息,也可以将取数配置保存为即时取数信息、定时查询任务和取数模板等信息。(4)即时任务:支持关键信息的条件查询功能,方便用户快速定位到需要查看或者操作的即时任务。(5)定时任务:支持关键信息的条件查询功能,方便用户快速定位到需要查看或者操作的定时任务。(6)取数模板:将典型场景、复用率比较高等配置信息保存下来,用于以后多次使用,同时支持条件查询,方便用户快速查找需要操作的模板信息。个性化报表开发考虑到2015年的需求,2016年肯定会有很多个性化报表需求,经过需求分析后的确对各地经营工作支撑作用明显的,会作为个性化报表开发任务列入研发计划。2.2.7数据外部接口(1)网格营销数据提供配合网格系统分批实施,为47个区县上线的网格系统提供数据。(2)财务数据提供随着公司的业务发展,新的一年财务口径和要求要作适当地调整,为及时满足财务部统计需求,需要为财务部提供新的财务数据,包括统计逻辑的调整,接口方式的调整等。需与10个分公司财务指标数据进行对接3项目的技术路线、工艺合理性、成熟性、关键技术的先进性3.1技术路线经营分析系统基于J2EE架构,J2EE体系包括JSP、Servlet、EJB、WEBSERVICE等多项技术。这些技术的出现给应用开发提供了一个非常有竞争力的选择。通过多层技术构架把这些技术组合起来,形成一个适应项目需要的稳定架构。3.2关键技术3.2.1组件化技术在丰富和扩展功能组件的基础上,明确组件间接口,建立数据封装机制,并初步制定标准化接口,促进系统架构向组件化、标准化和开放化的方向发展。把系统平台化、模块化、可组装化,并可以根据需要定制系统。3.2.2ETL技术面对复杂的业务系统,多种的数据源,海量的数据,通过ETL工具,帮助经营分析系统的设计、部署和管理,并制定自动化处理流程。ETL既有建模功能,又有数据抽取、转化、清洗和转换功能,大大减小了开发的工作量,同时也保证了抽取出来数据的质量,并且便于以后系统的扩展和元数据的维护。3.2.3OLAP技术OLAP即联机分析处理,联机分析处理是针对特定的分析主题,设计多种可能的观察形式,设计相应的分析主题结构(即进行事实表和维表的设计),使管理决策人员在多维数据模型的基础上进行快速、稳定和交互性的访问,并进行各种复杂的分析和预测工作。多维数据分析是OLAP的一个重要属性,是指对以多维形式组织起来的数据采取切片、切块、旋转、上卷、下钻等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据。4项目性能水平分析4.1在线数据存放周期清单级以外的数据保留至少24+1个月;客户资料永久保留;多维/汇总数据信息:多维/汇总数据保留3年;BOSS清单级数据保存12+1个月,计算所需的存储空间(物理空间)。4.2数据库查询/相应性能从数据量的角度来划分,经营分析系统的数据可以分为两类:小型表和大型表。小型表主要是指那些记录数在1000万以下的表,例如产品和服务、资费方案等。大型表主要是指那些记录数在1000万以上的表,例如客户信息、账单等。4.3前端应用响应性能对于信息使用者,当其返回的结果集小于10万条记录时,查询的响应时间(包括远程用户的数据传输时间)90%在3分钟以内。5项目成熟程度5.1项目技术保障项目供应商应说明在南京的工程技术维护队伍人员、机构情况和服务模式。项目供应商应对其在省内、南京市的售后服务、技术支持方面情况做出说明。在中国有无技术支持中心,地点设在何处,能否提供7x24小时技术服务。项目供应商应说明在中国境内是否建立有远程联机监视/诊断服务中心。培训计划:确定需要的管理、技术方面的培训,确定培训人员、培训课程以及不能通过培训需要进行的面培训措施。沟通计划:确定项目组的内外部人员联系方式、沟通方式、沟通途径、负责事宜以及发生变更情况的处理流程。5.2项目安全保障建立合理规划的监控系统业务架构,适应经营分析系统的业务发展扩展能力,并且有良好稳定性的运维安全保障系统。具备丰富的通告和报警机制,可以通过多种方式将系统故障信息送达相关责任人。具有良好的可扩展性,具有向其他系统的可移植性。具有统一的接口服务系统,实现接口统一监控。四、项目实施进度安排1项目实施的各阶段表4-1项目实施进度表项目实施计划季度月份项目各阶段目标一季度1月系统立项2月3月项目采购二季度4月合同审批5月6月需求调研三季度7月软件开发8月9月设备上线调试四季度10月系统投入试运营11月12月项目初验五、投资估算与资金筹措1投资总估算 表5-SEQ表5.1-\*ARABIC1项目投资估算总表序号费用类别投资估算项目名称单位单价(万元)数量总价(万元)一硬件PC服务器扩容套50150磁盘阵列1套套1051105SSD阵列一套套901908路PC服务器两台台42.5285小计1330二软件开发费用分布式大数据存储平台搭建套50150全省统一数据口径标签开发、数据ETL过程开发套50150核心经营指标库开发套30130个性化报表开发套50150小计2180三基础设施及配套小计3四集成及施工费小计4五工程建设其他费小计5六合计5102资金筹措方式省公司拨款六、经济与社会效益分析1经济效益(1)监控公司主营业务发展态势每日将前一日的用户发展情况、收入情况、业务系统访问情况以及其他业务发展的关键指标以图形和报表的方式进行展现。各级领导和市场人员可以通过浏览器、手机APP、短信、邮件等形式定制并接受所关注的指标,及时监控业务发展情况,采取相应的应对措施。对于关键指标,不仅能够查询指标发展趋势,而且能够进行横向、纵向对比,方便各级单位分析查找问题和差距。(2)精细化营销通过建设面向地市运营市场一线的数据集市功能,针对地市分公司的不同应用建立适配的工作流程,从数据以及流程方面支撑地市分公司的使用。为地市分公司市场营销提供客户个体分析,提高经营分析结果的可实施能力;开发地市分公司数据平台,满足地市个性化、临时性的分析需求;支持地市分公司开发灵活专题分析,加强大客户、集团客户、新业务等方面的分析能力。(3)提高运营效益针对ARPU值较高的高价值客户,关注其业务使用行为和消费行为,为市场部门开发符合用户个性的产品套餐提供数据依据。建立收入波动分析,运用经营分析技术及时反馈业务收入情况,一方面掌握业务营销活动的效果(包括新套餐渗透情况、离网挽留政策成效),另一方面减少分公司收入流失的可能性,提升管理层对经营的掌控力。2社会效益通过报表开发、专题等的推广应用,从以下几个方面能够为公司上下的经营、管理和服务等提供数据支撑,为公司带来良好的社会效益:(1)通过系统在全省的推广建设,可以收集到客户的消费习惯、消费趋势、客户的业务喜好等信息,了解和掌握客户需求,及时制定相关的产品政策,加大高评价产品的宣传与推广,摈弃一些不受欢迎的产品,同时,通过推出好评节目组合的新产品来吸引客户,丰富客户的文化生活。(2)全省统一的数据信息平台搭建,通过在数据上的整合,为省公司进行资源整合做了铺垫,避免更多的资源浪费。报表系统也实现统一管理,减轻了BOSS系统的压力。通过数据整合,省公司可以了解全省经营状况,市县公司可以了解本地经营状况。统一的平台提高了公司的管理效率,降低了运营成本。基于C8051F单片机直流电动机反馈控制系统的设计与研究基于单片机的嵌入式Web服务器的研究MOTOROLA单片机MC68HC(8)05PV8/A内嵌EEPROM的工艺和制程方法及对良率的影响研究基于模糊控制的电阻钎焊单片机温度控制系统的研制基于MCS-51系列单片机的通用控制模块的研究基于单片机实现的供暖系统最佳启停自校正(STR)调节器单片机控制的二级倒立摆系统的研究基于增强型51系列单片机的TCP/IP协议栈的实现基于单片机的蓄电池自动监测系统基于32位嵌入式单片机系统的图像采集与处理技术的研究基于单片机的作物营养诊断专家系统的研究基于单片机的交流伺服电机运动控制系统研究与开发基于单片机的泵管内壁硬度测试仪的研制基于单片机的自动找平控制系统研究基于C8051F040单片机的嵌入式系统开发基于单片机的液压动力系统状态监测仪开发模糊Smith智能控制方法的研究及其单片机实现一种基于单片机的轴快流CO〈,2〉激光器的手持控制面板的研制基于双单片机冲床数控系统的研究基于CYGNAL单片机的在线间歇式浊度仪的研制基于单片机的喷油泵试验台控制器的研制基于单片机的软起动器的研究和设计基于单片机控制的高速快走丝电火花线切割机床短循环走丝方式研究基于单片机的机电产品控制系统开发基于PIC单片机的智能手机充电器基于单片机的实时内核设计及其应用研究基于单片机的远程抄表系统的设计与研究基于单片机的烟气二氧化硫浓度检测仪的研制基于微型光谱仪的单片机系统单片机系统软件构件开发的技术研究基于单片机的液体点滴速度自动检测仪的研制基于单片机系统的多功能温度测量仪的研制基于PIC单片机的电能采集终端的设计和应用基于单片机的光纤光栅解调仪的研制气压式线性摩擦焊机单片机控制系统的研制基于单片机的数字磁通门传感器基于单片机的旋转变压器-数字转换器的研究基于单片机的光纤Bragg光栅解调系统的研究单片机控制的便携式多功能乳腺治疗仪的研制基于C8051F020单片机的多生理信号检测仪基于单片机的电机运动控制系统设计Pico专用单片机核的可测性设计研究基于MCS-51单片机的热量计基于双单片机的智能遥测微型气象站MCS-51单片机构建机器人的实践研究基于单片机的轮轨力检测基于单片机的GPS定位仪的研究与实现基于单片机的电液伺服控制系统用于单片机系统的MMC卡文件系统研制基于单片机的时控和计数系统性能优化的研究基于单片机和CPLD的粗光栅位移测量系统研究单片机控制的后备式方波UPS提升高职学生单片机应用能力的探究基于单片机控制的自动低频减载装置研究基于单片机控制的水下焊接电源的研究基于单片机的多通道数据采集系统基于uPSD3234单片机的氚表面污染测量仪的研制基于单片机的红外测油仪的研究96系列单片机仿真器研究与设计基于单片机的单晶金刚石刀具刃磨设备的数控改造基于单片机的温度智能控制系统的设计与实现基于MSP430单片机的电梯门机控制器的研制基于单片机的气体测漏仪的研究基于三菱M16C/6N系列单片机的CAN/USB协议转换器基于单片机和DSP的变压器油色谱在线监测技术研究基于单片机的膛壁温度报警系统设计基于AVR单片机的低压无功补偿控制器的设计基于单片机船舶电力推进电机监测系统基于单片机网络的振动信号的采集系统基于单片机的大容量数据存储技术的应用研究基于单片机的叠图机研究与教学方法实践基于单片机嵌入式Web服务器技术的研究及实现基于AT89S52单片机的通用数据采集系统基于单片机的多道脉冲幅度分析仪研究机器人旋转电弧传感角焊缝跟踪单片机控制系统基于单片机的控制系统在PLC虚拟教学实验中的应用研究基于单片机系统的网络通信研究与应用基于PIC16F877单片机的莫尔斯码自动译码系统设计与研究基于单片机的模糊控制器在工业电阻炉上的应用研究基于双单片机冲床数控系统的研究与开发HYPERLINK"/detail.htm

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论