付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、企业数据中心系统平台技术方案建议书(说明:本文为word格式,下载后可自由编辑)第1章总体建设方案1.1总体建设思路ITIT埼出更踱施住机存傀网翱由 Q图、数据中心构建思路图按照对数据中心的理解,完整的数据中心应该具备IT基础设施(主机、存储、网络)企业级ETL平台、数据存储中心、数据共享服务、应用层、统一门户、数据管控平台。应用层E1平台国用层1.2功能框架系统功能框架分为企业级ETL平台、存储与计算中心、服务层、应用层、统一门户、统一平台管控。企业级ETLETL平台:负责企业数据中心数据采集、加工、汇总、分发的过程,完成企业级数据标准化、集中化,实现数据脉络化、关系化,实现统一的数据处理加
2、工,包括:非实时数据处理和实时数据处理,提供数据抽取、数据转换、数据加载、数据汇总、数据分发、数据挖掘等能力。存储与计算中心:建立统一的数据中心数据模型,以及统一的数据存储与计算,具体提供关系数据库、分统一门户应用层数据共享服务存储与计算中心企业级ETLETL平台I IT T基础设施层r妾扇II流E8E8吨用|-GO脸用LTE互联网傩11生上分析1自百业各分析渠道运苴客户标锤_买时首铃统一平台管控数据眼箝组件查找及路由员找均衡讹能件茎功叁崎一数据箱型崎一数据箱型关察数据库鎏型暨分布拉衅分布式计算|负裁及衡|域名分配|雕解|接入管理|应用注册|蘸硼|上一箍圉缺数据开放共享服努平台文件AprApr
3、服第阔用苜理据视打件放电化粗服务监控件如件3-通阻黝据服务管理布式非关系数据库、分布式文件、分布式计算,实现统一的数据存储与计算。数据共享服务:通过数据服务标准化开放访问,帮助企业IT建设中,应用和数据分离,引入更多的应用开发商,促进应用的百花齐放和应用的专业性;基于标准化接口,实现对标签、客户视图、指标等数据查询API封装,实现与周边系统实时互动,体现数据价值,减少数据冗余,保证数据安全,保证数据的一致性。应用层:应用层的应用使用服务层提供的各种数据服务。本期应用层包括:经分应用、流量运营、ESOP应用、VGOP应用、指标库、流量运营战略地图、掌上分析、自助业务分析、区域洞察、渠道运营、自助
4、分析、客户标签库、实时营销、LTE互联网管控策略。统一门户:提供统一域名分配、负载均衡、鉴权管理、统一管控平台接入、应用注册、应用发布、应用访问数据信息等功能,同时提供数据中心被应用访问的频次,被应用访问的数据范围,提供数据资产的评估,为应用上下线和数据开放提供依据。统一平台管控:面向开发人员、运维人员实现数据、应用、资源的统一管控,包括:数据资产管控、开发管理、监控管理、调度管理、系统管理、安全管理。1.3技术架构图、技术架构SQL配件APEnceptorRSfARKHaaseTQEC享tHadcop电HS.KfiSSMSHS.KfiSSMSI I七曲理解|LT1L<1L&
5、; 口琬m m迫防使用系统技术架构分为数据采集、计算存储服务、数据共享服务、平台管控。采用Hadoop云技术,可以满足计算能力线性扩展、多租户能力、数据汇总能力;批处理场景采取Hadoop的Map/Reduce、Hive或者Spark来完成;流式数据处理,采用Esper计算引擎实现。数据采集:采用Flume计算框架,实现文件和消息采集与解析;采用流式爬虫、中文分词、图片识别技术,实现互联网网页信息实时采集;采用FTP文件方式实现对数据文件的采集;采用Socket消息方式实现对消息数据的采集;采用sqoop方式实现将数据库数据装载到HDFS文件系统。计算存储服务:采用Hadoop中HDFS文件系
6、统提供统一的大数据数据存储,满足全量数据留存;基于Yarn提供跨平台的资源管理,满足资源的统一调度与管理;采用Hadoop实现非实时ETL,实现海量数据的批处理,主要处理ODS层-DWD层-DW层-ST层的数据处理;视业务数据情况部分DW层-ST层的数据处理采用Spark计算框架实现; 采用Esper和rabbitmq支撑流数据处理与复杂事件处理;利旧DB2提供ST层数据的存储与计算,支持高并发的指标级数据共享。数据共享:数据开放共享采用基于HTTP协议REST风格的OpenAPI完成同步处理与基于消息队列(MQ)完成异步处理,实现类SOA面向服务的架构体系。支持OAuth提供一个安全的、开放
7、而又简易的授权协议。数据共享服务部署在集群环境中以应对高并发的访问请求,并实现集群的负载均衡。统一平台管控:采用JavaEE技术,通过MVC模式(ModelViewController,是模型视图控制器)把业务逻辑、数据、界面显示分离的方法组织代码,将业务逻辑聚集到一个部件里面,在改进和个性化定制界面及用户交互的同时,不需要重新编写业务逻辑。HDFSHDFS(至星数据留存)Mc信令(实时)数据通过Socket消息适配模块接入至Esper计算引擎进行实时处理,向应用提供事件API服务,支撑实时营销应用;后期如Gn信令、LTE信令也提供实时数据,可满足基于Gn信令、LTE信令的实时处理。除Mc信令
8、(实时)数据外,Gn信令、Mc信令、自有业务订购与使用行为等数据通过非实时ETL方式装载到Hadoop的HDFS文件系统,实现全量数据留存;由Hive承担主库的职能,实现海量数据的批处理,承载ODS-DWD-DW-ST各层数据处理,其中DW层部分数据提供给Spark,由Spark完成数据处理工作。对外数据服务可以由不同种类的API来完成:1.%2.%3.%4针对诸如客户统一视图、 客户标签库的数据探索查询服务:将数据加载到Spark的RD计,通过API将数据共享出去;2.%2.%3.%4针对诸如客户标签信息查询、客户详单查询类的数据查询服务(特点是通过一个Key来查询数据):将数据加载到Hba
9、se中,通过API将数据共享出去;3.%2.%3.%4针对诸如指标数据查询、KPI数据查询服务(特点是高并发、多维度的数据查询):将数据加载到DB2数据库(利旧)中,通过API将数据共享出去;1.4数据流图计算与存储层,Hive,Hive(魏批处悭魏批处悭)m m三摩时ETLETL实时ETLETL4.%2.%3.%4针对多租户的数据共享服务,详见5.3章节;第2章企业ETL数据处理平台2.1功能框架企业1SETL平台垸一数据处理摭工!数据处理首控平台根据数据中心的建设需求,企业级的ETL平台实现统一的数据采集、转换、加载、处理以及统一调度、管控等功能。这里的ETL指的是广义的ETL,具备以下的
10、特点:统一数据获取接入,支持B域数据、M域数据、O域数据或其他外部数据统一接入数据中心平台。支持结构化和非结构化数据采集、加工;对非结构化数据要实现从非结构化到结构化的处理过程。支持数据采集、转换、加载等关键,.数据处理过程,实现企业数据的标准。从周期上,支持批量的数据采集,实时的数据采集满足数据中心数据加工,处理以及对外提供数据分发、同步支持全过程的数据稽核。包括事前、事中、事后的稽核方式。以及灵活的稽核规则管理,算法管理全过程的可视化开发配置管理。通过可视化的开发配置,测试和部署上线。全过程元数据管理。重点要实现事前的元数据管理。管理的内容包括:支持数据模型、数据流程、转换规则、数据关系和
11、转换映射规则。企业级的ETLETL平台产品DACPDACP可以很好支持上述的关键功能特点。獭据批处理赛时数据处理统一旃度苣理第3章数据存储层1 1总体概述Mc信令(实时)数据通过Socket消息适配模块接入至Esper计算引擎进行实时处理,向应用提供事件API服务,支撑实时营销应用;后期如Gn信令、LTE信令也提供实时数据,可满足基于Gn信令、LTE信令的实时处理。除Mc信令(实时)数据外,Gn信令、Mc信令、自有业务订购与使用行为等数据通过非实时ETL方式装载到Hadoop的HDFS文件系统,实现全量数据留存;由Hive承担主库的职能,实现海量数据的批处理,承载ODS-DWD-DW-ST各层
12、数据处理,其中DW层部分数据提供给Spark,由Spark完成数据处理工作。1 1存储规划HiveHbasedb2ODS层3+1月3+1月-DWD层6+1月-计算与存储层DW层12+1月-ST层36月-36月客户标签/视图3月12+1月-指标3+1月-永久1 1模型设计数据模型设计按照层次,主题的数据模型设计的思路。系统根据模型设计会自动转成hadoop上存储。层次、主题映射到相应的目录。逻辑模型到 hadQQRhadQQR 物理模型转换|设计人员在削龌 i 里技距啸断电骼,如下;|索胸罡表的自雌猿为在 Hadoqp 上的物理存二层次.主题“表名g色限呻7.一+层次(主题_表名_巾Isb曲*m
13、 口主题_ _jdr_gsjdr_gs _yyyyBisdd_yyyyBisdd* *U U: :p*rtunM-gcHlHwhjp*rtunM-gcHlHwhjkid20l40L01udjqnn_gkid20l40L01udjqnn_g 工。英迎 1 1udrudr 二 9 9 二 00180018 工皿artionareaoDde=wihBtBLsk.d=2Q140102edt_igiffl_OlOWD2001edr_gsin_0010020021 1模型规范化管理1分层规范依据数据仓库建模理论,结合实际经验,数据计算平台承载数据模型分为四层:ODS、DWD、DW和ST,即接口层、存储层、
14、汇总层、应用层。模型分层说明:pwt3pwt3n n 虹esM?Jukd=20l40101cdr_gsesM?Jukd=20l40101cdr_gs _001.0Q2001._001.0Q2001.1 1 皿口&2 2p&rtUQ<ueKadjixgjtukJblOl40.101p&rtUQ<ueKadjixgjtukJblOl40.101抵jgn.OO1002001jgn.OO10020013jg3jg 知.00IOO2OO2.00IOO2OO2接口层:ODS模型的数据结构与业务系统接口文件结构保持一致,接口层的数据在数据计算平台进行暂存。存储
15、层:即明细数据层,是数据计算核心层数据模型之一,用于存放由清洗、转换层来的数据或者接口层直接来的数据,其设计目标是为后续的汇总数据层和信息子层提供数据基础。汇总层:即轻度汇总数据层,也是数据计算核心层数据模型之一,该层实现对主题内的数据做轻量汇总。设计目标是为应用层提供足够灵活、方便的基础数据,并保证从该层获取数据是性能最优。应用层:在汇总数据层之上,数据按照应用需求做数据聚合,生成相关应用所需数据的数据层。应用数据层是面向应用的,但是也不是每个应用都在应用数据层对应一个表,对应用要在数据应用层中进行整合。1表命名规范OMG标准化组织建议,采用5分段的命名规范:如下层短忒容.前曜一编号一主体名
16、_百窜/1 1层次模式名v v2 2前蝮 33,、主体名的、后盛1 1钿表层dirtupdirtuptmptmpN/AN/A愚聒.孽号I/AI/A善效等公用区加.唯tdtdN/AN/A与BO55BO55恻同M/AM/ASTSTdvappdvapp小 1 1叁庭J J额卜H/AH/Ar r酬自行毂DWDWdirctrdirctrtotoM/AM/A沿用二总层命名DWDDWDI IftntnR/AR/A005005dwifc适用与BO55BO55冽同砒1 1日期1字段命名规范建立字段的命名规范,并固化为domain类型,指导模型设计字段命名。当有变更,可以做到跨平台的统一建模。数据项遭獐字葭名物理
17、手段名标每父其对V V志xx_flagxx_flag次融X*X*欠融xx_numxx_numxxStxxnumxxnumxxAS?xxentxxent时区XXXX时长xxduraxxduraXXflowXXflow逑用XXXX要xxfeexxfee1模型版本管理新建,测试,上线,变更模型设计!测试上转;要更数据表结构以元型据为中心进行版本管理。同时在程序中建表不允许 erst 盯劭 I 砧方式必须调用平台提供的建表函数,以确保表结枸转述信息、定义信息和实际生产环节能够保持一致遇匕餐笃就计工且或元irir帽管3 3二旦运丁表里内安里,三里的无虻需也对表麦亏卷三管理:新差号测SJL&HfS
18、JL&Hf匕注也R R袅二身更后文蛀嵬.田里要乱瞽运亏第4章数据开放服务层4.1建设目标通过数据服务标准化开放访问,帮助企业IT建设中,应用和数据分离,引入更多的应用开发商,促进应用的百花齐放和应用的专业性。基于标准化接口,实现对标签、客户视图、指标等数据查询API封装,实现与周边系统实时互动,体现数据价值,减少数据冗余,保证数据安全,保证数据的一致性。对于详单级数据,支持通过文件或授权的方式共享给周边系统。通过统一的技术平台框架,制定企业数据标准体系规范,基础数据采集处理,加工汇总,可以引入多家厂商或多租户进行标准化开发。要实现上述目标,需要解决的关键问题:1)需要什么样平台功能?2
19、)开放的对象。给谁开放?3)开放什么内容。包含两部分,基础数据的集成开发的开放和应用访问层数据开放。4)开放的安全保障机制5)如何保证开放对象开发提交的结果的规范化、质量。6)开放平台运营的组织结构和流程制度。4.2概述要满足建设目标的要求,数据服务开放的整个功能框架如下:4.2.1开放对象示例说明如下开放对象说明使用形式相关数据多租户通过授权的机制, 给租户开放通过sql查询数据能力, 租户可以在此基础上汇总加工自己私有的数据SQL,进行数据处理在保障数据安全性、 数据可控性的前提下, 将Hive仓库的ODS、DWD、DW各层的开放授权给数据处理开放给租户。ESOP,VGOP通过文件接口将数
20、据分发给对端系统, 满足其数据分析需求文件客户视图,汇总模型等手机经分通过在线同步API调用的方式获取数据开放API指标类数据实时营销客户端通过事件注册的方式监听服务接口,当服务满足触发条件是主动通知监听客户端消息服务信令位置信息等4.2.2开放共享方式共享方式说明应用场景示例文件接口数据中心将数据主动导出文件,发送给数据需求方1 1、bossboss 的互动接口2 2、即席查询临时周期性生成数据开放对象多租户开液开放形式开放平台安全管理运行机制开放内容-HIHE-HIHE 仓库-OgDWDQWOgDWDQW 租户数据处理能力开放 J JHBASEHBASEI客户标签查询直找役跖主麦至管理下线
21、.医务迫:淳警鼻最据开放共 E 覆平台朋劳监空音蜡理平白茗户标签自助分折数据月腾组样客户视园产品视图一)二今:三雄芒里日志营理即工即工DB2开放 APIAPI通过 APIAPI 查询获取结果数据,即查即用,不落地。按查询数据对象粒度分为三类:1 1)STST 表查询1 1、通过对发布的数据模型发起 LSQLLSQL 行查询获取数据2 2)指标类查询2 2、如手机经分查询指标,原来是通过接口表导入数据,可以通过 APIAPI 来查询数据3 3)单用户清单信息查询APIAPI数据分发将数据中心的数据分发到目标数据库。需求方提出申请审批通过后,系统通过分发平台定期将数据分发到目标库定期数据同步。如将
22、用户行为汇总数据定期同步到经营分析系统即席查询业务分析人员通过封装好的数据模型和提供在线即席查询分析工具,进行查询分析获取数据临时统计,临时取数消息服务通过消息传递数据。适合于系统之间的实时协助,如用户事件信息。需求方作为消息的消费者, 同时传递消息事件和内容4.3多租户管理4.3.1概述采用多租户的思路,将数据能力和数据平台数据处理能力按需、可控的进行开放,在保障数据安全性、数据可控性的前提下,通过标准化封装的数据操作,可视化开发工具开放给业务运营部门,由其自行进行数据操作开发。使用企业级数据中心提供统一开发平台来实现多租户数据开发,其功能结构如下图:开发团队成员开发团队管理日常管理开发配置
23、运行监控系统包括两部分:开发管控和技术平台。通过这两部分互相配合实现系统开发能力的开放。这种模式下需要解决的关键问题包括如下:如何进行资源控制,数据权限管理,跨系统之间的数据交互,自动调度运行,元数据管理。4.3.2角色功能系统管理员:对开发团队进行管理,数据权限和系统资源的分配、审批。1、设置开发团队使用资源和账号2、对开发团队提出的数据权限申请进行审批授权3、表的敏感级别和敏感字段。不同团队对同一数据安全级别可以不一样4、对开发团队上线进行审批。检查性能,开发规范的满足情况,调度申请周期是否合理5、对开发团队数据导出安全进行审计租户开发:使用统一的技术架构和开发工具,在可以使用的数据的基础
24、,加工出私有数据1、查看详细的数据结构2、新申请数据权限,如果需要新的数据,可以进行申请,由管理员审批后就可以使用3、数据加工开发,进行数据汇总、关联查询,数据导出等类型数据数据加工开发4、临时上线、正式上线。5、对其所开发的程序数据运行情况监控。fjN 行法=考4.3.3统一开发平台技术详解7租户用户管理租户与系统用户映射通过映射开发管理平台帐号及执行平台帐号,以租户的方式实现用户及用户组管理,以达到资源管控及数据权限控制的目的。如下图,在管控平台进行开发团队的管理和对应账号的设置,在数据平台完成对租户的资源、权限进行控制。现账号的权限、资源的控制。在查询或运行某个数据处理任务时,用其对应的
25、账号进行执行。从而实现对开发团队开发运行的任务资源、权限的控制。在管理平台新建租户的账号或数据权限变更时,管理平台根据配置参数,实时调用OCDC的相关API自动进行授权、修改、创建账号。7系统计算资源分配控制在管控平台统一对租户进行计算资源白分配,分配完的参数部署到hadoop或关系数据库,实现控制。实现资源控制,包括两部分:hadoop上的资源分配和关系数据库的资源分配(DB2)。Hadoop计算资源控制要实现计算资源的控制,hadoop需要OCHadoop3.2以上,安装安全组件(sentry)计算资源控制原理资源池跟系统的账号相关。一个系统账号只能属于一个资源池,YARN支持采用资源池方
26、式对系统用户进行CPU,内存的运行控制。资源池控制参数:独占资源:最小分配的资源。系统确保此用户有最小的资源。共享资源:系统空闲时可以使用的最大资源其中单位:虚拟的cpu核和内存单位。如何设置租户的资源参数,是一个需要不断根据运行情况进行优化的过程。租户追最大理吊匕钠赤号小谈西相占时回空间津新UXIOmfr.5W0mh.4W50005000河QMQnnbiMMtl.1加t心心7M4弛 3注:Spark同hadoop的资源管理DB2资源控制要实现DB2的资源控制,要求:DB29.5版本。目前db2的版本已经满足,需要开通WLM的生效参数。在DB29.5版本推出了工彳负载管理WLM(参考附录,不用
27、额外收费),但只能限制CPU数量。控制参数如下:参数名说明minmin分配给某个服务类的最小资源百分比。缺省值为0。softmaxsoftmax在有冲突的情况下(这里可以理解为资源紧张时),服务类可获得的最少资源比例。在没有冲突的情况下,服务类可获得的资源可以超过该值设定的比例。缺省值100hardmaxhardmax在没有冲突的情况下,服务类可获得的最大资源比例。缺省彳1为1007系统存储资源分配Hadoop存储资源控制,每个租户独立一个文件跟目录,设置文件目录大小;db2的存储资源控制,对每个租户独立一个表空间,设置表空间大小;说明:hadoop存储控制采用的是操作系统的目录大小的控制。缺
28、陷是无法高度自动共享可用空间。即一个目录大小分配出去之后,意味其就占有了这个空间。因此一般做法是由小到大慢慢分配空间。7数据权限分配与控制在开发管理平台进行对数据权限的分配。根据分配的结果在数据平台进行授权、回收等操作。数据权限的控制包括:表级权限控制和字段级的权限控制:表级权限分配:系统根据分配的结果,产生授权或权限回收的脚本到db2,hadoop进行执行完成权限控制。注:在管理平台分配的是逻辑模板表,数据平台控制的是实际的表。因此有一个模块专门按模板表的权限规则转换为物理表的授权脚本执行。字段级权限分配:在表级授权的基础上,对表的字段的权限进行授权分配。由于目前db2,hadoop不能直接
29、实现对字段级的权限控制。所以我们采用两种方式实现这个功能:方式1:建立视图,过滤掉没有权限的字段,然后将视图授权给相关账号。实现字段级的权限控制。方式2:通过应用级的控制。通过开发人员编写的sql语句解析,分析其查询中所用到的字段,如果字段超出权限范围,则给出提示,不允许执行。资源控制手段列表:控制项目db2db2hadoophadoop表级权限通过 db2db2 的权限管理, 通过脚本实现数据权限的分配通过 kerborskerbors 的权限管理, 通过脚本实现数据权限的分配字段级权限通过视图通过视图资源-CPU-CPU通过 wlmwlm 进行设置通过 YARNYARN源池进行控制资源-内
30、存无法实现通过 YARNYARN源池进行控制资源-存储每个租户独立一个表空间,设置表空间大小每个租户独立一个文件跟目录, 设置文件目录大小系统文件目录每个租户在数据主机上建立文件目录, 存放源代码,可执行程序每个租户在数据主机上建立文件目录,存放源代码,可执行程序7租户的数据开发过程7. .查看数据字典开发人员可以查看到所有的数据字典。查看内容包括数据表名,中文名称,描述信息,存储位置、数据结构。通过调用基础平台的元数据实现数据字典查看。8.开发界面通过开发平台配置数据处理流程,可支持库内与库外、云平台与关系数据库的混搭数据处理,示例如下:上述的处理流程实现:在hadoop上对ods_cdr通
31、过sql脚本汇总dw_cdr,再通过数据分发到db2上的dw_cdr_yyyymmdd表上。开发人员需要对输出表dw_cdr设置表结构,sql处理汇总处编写sql脚本。在一个处理的任务流程中,节点包括数据节点,数据函数节点拼接起来的一个处理流程。其中数据处理函数节点包括:Sql,tcl,java,shell,数据分发,数据加载,数据导出,ods_cdrods_cdrqH|db2:dw_cdr_yyyymmdddb2:dw_cdr_yyyymmdddw_cdrdw_cdrftp、创建表,删除表等。9. .测试在界面上可以立即执行某个节点或整个处理流程,执行过程和日志信息会实时输出到前台界面进行查
32、看。如下示意图:10. .上线开发人员在界面上直接提交上线。包括临时上线和正式上线两种。临时上线需要开发人员填写生效的开始日期,结束日期,调度周期。正式上线,系统管理管理员会进行审批。审批的项目包括:程序名称,表名是否规范,字段名称和中文信息是否完整。在上线时,系统会自动将程序代码、数据结构从开发环境的配置信息部署到生产环境下。11.运行程序上线后,调度平台就会根据程序数据依赖关系自动进行调度。如果是临时上线的只有调度运行在有效期内的程序才会被调度执行。程序开发人员可以申请延长有效期或申请固定上线。调度执行多租户调度使用平台提供的统一调度功能,实现过程如下:5.%2. .调度运行
33、会调度在有效期的程序才会调度。6.%2.SQLSQL脚本执行开发人员开发好的SQL脚本,可以到多个数据平台上运行,入到相应的数据平台运行。a)开发人员可以指定节点运行的数据库,如下图ptarFardefcharsr仓库蜕苫wlect50rnamgrupecnnaihxmmd.rftGTSUWfb)系统会对开发人员的编写的sql进行解析,获取其依赖的输入表和输出表。再跟元数据进行对比自动选择相应数据库。选择策略如下:所有输入表都在同一个库则选择那个库输入表分布在两个库系统给出错误提示。建议其采用数据同步再进行开发。如果涉及到的表涉及到两个库都存在如果有关联表,则跟着关联表同个库,否则优先选择大数
34、据平台。7.%2. .跨数据平台命令的运行比如:如何实现在hadoop平台执行汇总数据,导入到db2,在进行汇总。Server端在读取这个一个处理任务时,将命令发送汇总命令给hadoopAgent执行,然后在发送命令给hadoopAgent进行分发到db2,然后在发送命令给db2agent进行数据处理。DMPSERVDMPSERV依据输入表关系,根据数据关系实现正确调度依赖运行。对租户的临时程序调度时,系统需要进行正确选择投元翱搪库历史瓦,弋锭壬 3 三篝W 总导/博息/日志中也归金忌4st4sts s型第5章应用开发与部署应用开发流程应用层的所有业务应用具备与底层数据松耦合特性,通过接口层提
35、供的各种数据接口,向业务人员或第三方厂商提供开放API服务。根据不同的应用场景,通过对相应的API进行选择和组合,从而快速生成所需要的业务应用,以满足对应用的快速开发、部署、上线的能力。对于应用的开发可通过两种方式进行实现:1、数据中心平台内应用开发:通过数据中心提供的应用开发平台直接进行应用开发,开发平台提供高效的可视化开发界面,包括对各类API可以追根溯源,展现详细API元数据信息等。同时对应用设计、应用开发、应用测试、应用上线、应用下线进行全流程、全生命周期的开发管控。此类开发场景主要适用于不具备硬件资源的用户(如业务部门开发人员)进行应用开发。2、数据中心平台外应用开发:通过Http协
36、议数据服务接口,直接调用数据中心服务层中的各类API服务,通过开发编写相应的计算过程形成对应的业务应用。此类开发场景主要适用于具备硬件资源(如第三方厂商)的用户进行应用开发。1,1,开限曾理平白.五雕C C九上线4.4.金护曲控第乐台祈如理匪*喷所言吞的编入案量吾昂有投用使用触蜒阻的申附间到期卮,系梦目动画也分即菖碗分析人母前覆钗噩及寻慵Ra/*空间,抖着忖悔时脚本对于应用于医统裁据处理开发.曲好廉必须室鲤受砒杖可以使用的.解姚在上丽时这些内存先行自轴飒.应用部署建议本期从外部系统接入8类数据源,所有清单数据在企业数据中心进行基础汇总,提供数据、存储和API接口服务能力,供14类应用调用。畸时
37、上势置罟申请住时任蓍下跪黄匹回收号上会行RDBRDB标签库应用:所有标签数据计算、存储在数据中心,标签结果数据在HIVE和HBASE分别存储一份数据,HIVE上存储的数据通过Spark的RDD对外提供“根据标签查用户群”API,HBASE上存储的数据对外提供“根据号码查标签信息”API。指标库:所有指标计算、存储在数据中心,结果数据存储在RDB,通过“KPI查询”API对外提供服务。掌上经分应用支撑:掌上经分需要的KPI由经分提供,改为由数据中心“KPI查询”API提供。实时营销支撑:将MC位置信令事件集成到数据中心,由数据中心提供消息事件给实时营销平台。LTE互联网管控策略(PCC)、自有业
38、务分析平台、区域价值洞察:对于这些规划中的系统,建议采用多租户的方式,在企业数据中心完成数据处理和存储都在数据中心,应用通过调用API获取数据。经分系统一经接口、MIS接口、财务报表、ESOP、VGOP、战略地图、渠道运营平台、所需的数据源,统一由数据中心将DWD、DW层数据分发文件给各系统,由应用系统自行进行数据加工及展现。经分其他应用(除去一经接口、MIS接口、财务报表):数据处理和存储都在数据中心,ST层数据彳存在db2oKPIMKPIMAPIAPI聿#t4P|#t4P|用户怅单用户信息HDFSHDFSKPIKPIHBASE消息(PCCKOPVGOPVGOP季上经分应用后Lt用户详单豆I
39、kIk信至无嗯信.SAPI.SAPIDW/DWDDW/DWD存户信皂白有业务力购信息盘数信/55地囹白相批若使用信息ST?享APTAPT位省信息第6章统一门户6.1概述企业数据中心统一门户的建设是为了降低系统使用人员访问数据中心的难度,提高系统的易用性,并且实现数据中心的资源有机整合和统筹管理。.数据开放服务门户:对于数据开放服务提供开发者门户,含有数据服务授权申请、开发者帮助文档、服务注册、创建、注销等。.管控平台门户:对整个数据中心管控平台使用者门户,系统管理、运维调度、质量监控等。.应用使用门户:对于应用使用者的门户,支持多租户应用、第三方应用的集成统一呈现。6.2门户功能框架统一门户功
40、能框架如下图所示门户功能框架包括门户接入、门户功能两部分;通过功能适配到角色工作台形成不同的角色视图。门户接入:主要负责企业数据中心用户访问渠道的接入管理;接入应用的日志管理、负载均衡与访问授权。门户功能:包括角色工作台、认证管理、权限管理、用户管理、流程审批、数据开发、应用开发、数据授权、运维监控、多租户管理等界面。户格入由1 13 3件接入J户功能推入第7章管控平台概述元数据管理功能框架元数据管理是需要将各系统的信息、设计工具信息、生产平台信息,进行收集管理,统一管理。提供一个视图,以帮助使用人员了解系统的数据分布、数据关系、业务规则、指标口径等。元数据包括:系统类元数据、技术类元数、管理
41、类元数据。总体功能框架图数据生产平台B B瞰匚-a.数。幡口据M M威接口集毅据接口统应用库、一门款隹立用数据管理体系一-%僵甥居处理执行引擎数据檐核与评估日志、指标、在能采集任务调度K 寻旨与计筐发肺护统化互针对数据中心的要求,元数据管理需要具备的关键的特性如下:1)要求提供标准化的应用开发工具,满足在不同平台上的开发需求100%的ETL开发、数据模型开发、应用开发能基于开发工具实现95%以上的元数据能自动采集、解析与管理,元数据的范围包括但不局限于数据结构、数据词典、字段维度、程序映射逻辑、数据生命周期等4)多租户的统一元数据管理基于元数据的应用开发工具提供统一的应用开发工具,完成高效应用
42、的开发,并可以自动完成应用元数据的采集。提供诸如数据展示包括报表工具,仪表盘分析等工具如1、支持常见的各种报表样式插口皆成和EtEt前台应用指标+F+F友配ISIS人一蜓理程序开发福宜展程指标配置的速聚室情鼬阿魁定位告警优化地面鹏口信息电市叮位杷I I元数次班量*超亶期极统信息手工站改加本出FFFF日土聚处3、支持各种数据源方式2、分组式报表支持常见各种分析图,同时支持图表组合分析多表头报表卡片式报表+B-J,支持oracle,db2,mysql等常见的关系型数据库支持gp,gbase等mpp数据库支持hdfs,hbase等大数据平台提供数据支持webservice获取数据基于元数据的数据开发
43、工具采用元数据驱动(MDA)设计理念,去规划元数据对象的创建、运行、评估、维护各环节节。屏蔽大数据平台差异性,统一模型设计、统一程序开发,将元数据融入到开发各个环节,利于管理。数据模型设计支持IDE数据模型设计,同时支持模型设计工具powerdesignErwin批量导入功能。提供数据周期、数据表级字段级铭感设置、字段口径定义。数据流程设计设计程序输入表和输出表的元数据信息。程序开发根据设计的内容转换成开发内容。开发人员就可以在此基础上进行开发。提供各个接入平台统一封装函数,降低开发难度数据质量控制.常规检查。包括及时性,运行状态,运行时长,处理记录数等进行常规检查。.对程序日志进行稽核。包括
44、单步的处理时长,记录数的波动等.对程序的目标表启动检查。检查目标的统计指标值,关键字段维度、层次间数据的一致性进行检查提供程序界面测试功能对开发内容进行测试和调优,检查质量规范,性能,质量是否满足期望发布应用到正式运行环境元数据收集存储:程序的基本信息。包括程序的名称,中文名称,备注,周期,层次,主题,创建人,开发人员程序的处理步骤信息。包括程序步骤编号,调用函数,执行脚本程序输入输出关系。输入模型,输出模型程序的字段映射规则。输入模型到输出模型的转换规则IAPIs引挚 I IwindowsUnix/Unux.windowsUnix/Unux.适配 I IDB2OracleOraclemyss
45、ilDB2OracleOraclemyssil数据流设计设计数据模型,设置数据存储周期,敏感级别,数据模型数据流设计,支持模型字段映射关系设计.数据流程设计设计程序输入表和输出表.输入表可以是文件,也可以是远程数据库上的某个表。目标表可以是文件也可以是远程目标数据库上的表。.数据模型设计对输入表和输出表,进行表结构的设计。包括表的基本信息,存储信息和表的关系。根据不同的存储类别,会有设计参数上的差异。.转换映射规则设计根据表的关系和表模型信息,进行转换映射。映射规则包括合并,拆分,规则转换,函数转换等常见的操作统一封装的函数库,屏蔽底层差异性,通过类sql编写,或函数调度,实现跨
46、平台统一开发。根据数据仓库处理过程抽象出5大类通用函数库,统一调用参数接口,开发人员针对不同不平台实现无差异的开发。如将某类数据文件加载到数据库中,开发人员只要指定数据文件路径和目标表。系统执行时如果是要入库到DB2调用DB2的命令,如果是Hadoop平台,调用Hadoop的命令。大数据平台类 7国大数据平台类队O O宜件摩作美titi传统关系数据库方 Q 模型类xjxje e数组像作类平白无关寰作由o o变量演作 T0 数据套换类口表结构无较U U传输表结构口从数据库导出数其一口导出CSCS1 1曰件口导入皿心:件口导入数据到数据艮“骸据迂移-I-If 曲声 w 由!&Y YI|1h
47、rhrs sn nRR.n n上1 1 IMM通过可视化的流程界面,拖拽方式实现对函数的编排,对每个节点函数编写参数,实现数据加工功能。降低开发难度。开发时候,对函数进行编排,填写节点函数参数。实现一个具体的数据处理过程可视化程序开发支持多种脚本开发,提供基于web脚本开发工具编写如tcl、python开发程序;能够从开发的脚本中自动解析建立元数据:输入表和输出表的关系;脚本类的开发工具,集成了开发,测试,上线集成操作。同时将函数库,数据模型统一进行集成;Li3CLi3C l.Btll.BtlT T| |1 1如七titi明IkdIkd3att3att窈ingFiq5MringF
48、iq5Mr明划了H Hrunsrunsfcfc横口CWbattingiEKJATxCWbattingiEKJATx邪splayerIS,$1splayerIS,$1tstsyearyearSESE韶rungrpjtUurungrpjtUuGROUPrunsby(yeai)GROUPrunsby(yeai);MxnjnsMxnjns加岫方qrp_d&uGmtJWTEqrgpqrp_d&uGmtJWTEqrgpK亚汕H H? ?2 2河丹5m5mJQIKJQIKbybyHijwj,rumbyyaar,rjns)Hijwj,rumbyyaar,rjns);t tjouadatijou
49、adati= =ftKEACHjakD_ux_runGSERME$0ftKEACHjakD_ux_runGSERME$0Byear,$2aspherlD,year,$2aspherlD,犯5 5例n.n.由u u;7.2.4关键技术说明7.2,4.1前向元数据管理1、在开发过程中通过IDE工具产生结构化的元数据信息。于其工,彳月后.打MJUIft屈进行函数流程编徘.每个节点对应TWtTWt此期廿rV 对每个节点函数输入参熟能聘类QLQLHKflHKflPtOniMptPtOniMptf fFILTERFILTER%VAff%VAffururKGhelper,/昵UMITUMITDwbugDwb
50、ugWAtaio(|WAtaio(|i iC0GROLPHWlBYWAR维查看题据或运行的详;细日志信息I查看表结构信息一或通过这里创建1414* *姜触11*址-7IAflJH7IAflJHNLiwn*VflhJNLiwn*VflhJ 可视化IDBf发工具2、在上线时,对元数据内容进行稽核检查,保证元数据信息的完整性,合理性。通过统一的上线作为管理的控制点。每个团队提交要上线的内容,存到统一元数据库进行标准化检查稽核。上线时检查的内容:程序需要提交的内容:程序本身的信息和程序输出表的信息。统一上线工具旅事开发工具:-开发团队1 1克交HiHi卜胤峰内容:FQAFQA天战福|表结构信息程序信息
51、指标ZIZI泾信息螂配置信息事前检查;在上线时进行控制L L包括命名规范,信息完整性,合理性i i户开夜团队2 2IkIk七具F F就第畏受上本他磔-提登方H H: :统一元散据存储MxmMxm开发团队弓;皿些开发工具尹菱脸上线的类型后工按: 时存抵用期,融漏安全独息信目和地雷信息.电眼卿近行样查是否奈尼肉茶更震irW-.irW-. - - J Jr r. .8fc-一.1 1SiGJbbSiGJbb4=*3*4=*3*耕模块上或程序上找表结构克更上级每个开发团队输出到不同的开发目录。内容包括现有的数据字典、业务口径、程序代码等。这些输出到同一的元数据中心,进行统一的标准化和规范化检查统一的标
52、准与规范,统制定基本的规范和标准,不管哪个开发小组开发的内容必须满足这些基本的标准。流程管理通过流程管理实现对数据处理过程的统一管控,并提供一系列工具实现数据处理过程可视化、可管控,它包括对系统资源、软件资源、业务应用、参与人员等各种资源统一管理,综合监控平台,随时重现大数据环境中各个组成部分相互依赖,为各级IT管理人员提供从资源规划、资源收集、性能分析、故障定位与处理、统计分析、知识沉淀与管理过程的支持流程引擎流程管理集成自有轻量型流程引擎来完成各类流程快速配置开发。功能如下:1、流程的建模和实现在流程定义、执行、管理控制等阶段,业务和IT人员的高度一致流程运行,以及整体性能查看和监控可视化
53、提供灵活的手段实现流程的修改和演进支持流程模式以及部门协同,支持流程中的附件添加和查看自带的业务规则和决策表支持分支选择,路由到特定用户、用户组、角色、投票规多租户的元数据管理1团队设置管理2不同系统的开发桌面入口生命周期f廿*:1?1?坤鼻口OB*xx vavam 曲*;酷*0 0 1 1,. .RrHKP.WmiRrHKP.Wmi, ,*“青育性片H H -5F 同系统的录内-MM=*l-(Bd急E E”n湖*脸分鹏目祖叫牯口和 PK1IALPK1IAL口死慌麻a a区用难在应用程炜信由应用信息元数据中心则、例外和事件处理、服务水平监控规则等2、流程仿真、优化和分析3、开发管
54、控、版本控制4、流程评估和监控分析作业任务管理通过元数据获取作业输入表作为作业启动的前置条件1、通过数据流程设计来确定数据关系2、人工进行修改作业输入、输出3、支持手工设置前置作业作业任务资源占用类型评估采集程序的历史运行时长,处理记录数等关键指标,支持系统自动测算和人工指定,对程序的资源占用类型分为三类:1、高:运行时长特别长,处理记录数比较多2、中:处理记录数相对较小,处理步骤多,时间较长。3、低:运行时间很短的程序作业任务静态优先级按照应用的重要性,根据血缘分析,寻找路径上的所有处理任务。1、重要越高的应用,其路径上的节点的任务优先级越高。2、人工进行修改维护7.5数据管理数据生命周期管
55、理上线不管通过什么方式完成开发,上线必须保证数据的相关的信息完整性,合理性。由数据管理员负责对上线要素信息的检查。保证在上线时信息要素被正确保存,以作为后续使用。上线检查基本信息要素一辑型一称物理,型一名,度层次寸土小分类.本信息|龙的含义说明h-口一版:号权限信息要素:权限信息要素:杖取信量存储信息要素:一1容器名栋, 二 理划仃仙周期实后“犍周期数据关系要素:上外袖美_董辱可美系输入I输出历史拍照历史拍照【一一蒜噌不蒜噌不表的基本信息检查基本信息字段结构存储规则数据使用规则质量规则QfQf呆存心历史版本I I贵执行录预览数据日星性蛆:L L 基本信息存储信息-数据关系名称:|DWD|DWD
56、DWDDWDUSERPHONUSERPHONE EMAPYMAPY YVYV中文名:小闻用户电话号码对应关系月表类型:类型:口业与镰水口用户缴汇总鼻度汇总高度汇总口临时表dw诋户电话号码对应关系月表存转主库:回仓库口元数据库口历史库Had。叩库口地市库敏感线别:C 无工)1级敏感。2皴敏感表结构基本僖息字基本僖息字段结构段结构|存存储规则数据使用规则储规则数据使用规则质量规则质量规则|_|_噌加批量导入届类似创建册除建表脚本字比较良导出多刷新fcj保存E名称中文名字段类型允许将E|E|0 0STATJJONSTATJJONVARCHARVARCHAR6 6 E|E|1USERJDUSERJDB
57、IGINTBIGINTa aN NE|E|2 2PHONE_NOPHONE_NOVARCHARVARCHAR1515N NB B3 3USER_STATUSER_STATVARCHARVARCHAR5 5Y Y0 04DATA_TIMEDATA_TIMETIMESTAMP1010Y Y表存储信息设置基本信息字段结构存端盘则数据使用规则质量规则新建Q。册除H H保存次据库名是否存储压缩策略存储时长表空间赋权用户拆分字段ESDPNdADOOPNJASS1N60PNJWDBNdISDBN1KDBN系统规范性自动检测事照利厘HUH字用申文名中有条数周用段名上要以NUMS展ok施2014-04马牌对应n
58、RANnRAN口字盘中文名含品牌英文:&要包含日RAN口ak龈2014-04.2014-04.产鼠对控PRODPROD中文字段含声品凰黄女名含RR口口ok由2014-04.2014-04.AJNSfiEE宇区中文名含收入划英文名标幽?包含FEEakD*D*2014-04.字段卓老龄在字段奇名只能用英文,数字及下如港且不电以电于并里的fl*fl*3Q14-D43Q14-D4手段中文名检查中文名瘠中不加卿二宜T博手6趴标点荷号,空格,科卷尾号等其毡羊嵋中艾errorGErnklE.GETBrFE.OEJCODECfiJirYFEFROCE.GErnklE.GETBrFE.OEJCODECf
59、iJirYFEFROCE.2014-04.2014-04., ,标志刑度FLACFLAC表中字较中文名稔帝奇志英文必掰以FLAG结区Qk施2014-04.时长对应DURDUR耒中手段中文名讣而及渤长-英文颂以口口侬尾akOtOt2014-04.2014-04.时何做餐受继为恒而总冢哀中字段带时间的法如E类型必尔毋hEglam口ok谕2014-04.2014-04.日mismis芸苑用由加衰中字殷帝日期时,甑霜空摄曲线为由帕okKA2014-04.时解对应HUEHUE字段中文中国含时间的英文名f版必缠包含limeak醵2014-04.2014-04.日对及面馆字段中文名中包含日期英文名漠包含日父
60、白ok曲2014-04.2014-04.用户痴JRJR附际usus r r(1 1字段中文名目台用户标诅.英支名粕空理州usMjdok也 gg2014434.T 完整性乾查201M数据监控.1存储策略情况检查表的实际存储情况和规划存储周期情况进行对比,因。 为下期扩容做准备。承名名彝士矍说晕效文妁大小王詈附长付HLHL讨回装计目切关阜弟J8用面:畅配酗而事早期无UJMBCI.ACCTJTEH_YYYM帏日日白!129*778.T TN月2Q11-02-W0或 3ADC_(M1-6_WVWMT TU U月2C11-02-060flEQ.*LLU3ERGRRBDETML一 igGFRM 柳月斑1SO4E31SO4E3T TH H且211-02-010&0Ol.&am
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单纯性下肢静脉曲张微创治疗共识 (2026 版)
- 一级建造师考试(机电工程管理与实务)题库含答案(吉林省延边州2025年)
- 2025年松原一级建造师考试(机电工程管理与实务)题库含答案
- 国家开放大学《法律职业伦理》期末考试题库及答案2025年
- 重症人工智能应用中国专家共识(2026版)
- 2026年四川凉山州从“五方面人员”中选拔乡镇领导班子成员考试经典试题及答案
- 省级行业企业职业技能竞赛(水轮发电机组值班员)考试题及答案(上海市2025年)
- GAPDH-siRNA-Positive-Control-Mouse-Rat-生命科学试剂-MCE
- 年终护理技术成果展示
- 2025年无人机飞行数据记录与分析
- 弯头知识课件
- 小学奥数几何模块-等高模型、等积变形、一半模型
- 了解妊娠合并症对母婴健康的影响
- 心律失常PPT医学课件
- 2023【画室装修】护墙板包工合同范本正规范本(通用版)
- 汽车吊、随车吊起重吊装施工方案
- 排水管网清淤疏通方案(技术方案)
- ISO17025:2017管理评审报告(CNAS可编辑)
- CT维保服务投标方案
- 2023年中日友好医院住院医师规范化培训(超声医学科)招生考试参考题库+答案
- GB/T 14054-2013辐射防护仪器能量在50 keV~7 MeV的X和γ辐射固定式剂量率仪、报警装置和监测仪
评论
0/150
提交评论