版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大型集团企业数据资源管理平台建设方案
1.数据资源管理平台建设目标....................................................1
2.数据仓库架构设计............................................................1
2.1.数据仓库框架..............................................................1
2.2.数据源定义................................................................3
2.3.组件架构定义..............................................................4
2.4.元数据管理定义............................................................5
3.数据仓库方案设计............................................................6
3.1.传统数据仓库方舆..........................................................7
3.2.大数据平台参考技术架构...................................................15
1.数据资源管理平台建设目标
■支持多层次的数据应用,包括ODS、数据仓库及数据集市层;
■采用整合的数据模型,同时利用企业服务总线和数据整合平台,
建立XX集团统一的企业数据管理,提供准实时数据服务和批量数据
服务,实现跨部门、跨应用系统的数据共享;
■数据仓库具备大数据采集、存储、计算能力扩展,支撑后续业
务应用大数据挖掘需求。
2,数据仓库架构设计
传统数据存储、分析技术已无法支撑大数据的存储,挖掘,大数
据能力作为传统数据仓库的重要增强、组成部分,能够灵活满足业务
分析需求。
2.1.数据仓库框架
根据XX公司在数据仓库规划与建设项目中积累的经验,对比全
球公共事业行业领先实践案例,并结合XX集团公司实际现状与未来
发展需求,提出了XX集团数据仓库框架。
此框架主要描述了XX公司数据仓库建设所需要具备的各种组
件与相关架构,其主要组成部分包括:
・数据源一临时存放将要传入数据仓库内的数据。这些数据包
括:各业务应用系统的应用数据、银行缴费交易等外部业务系统应用
数据,社交数据、网站数据、设备运行状态等数据。
■架构组件一架构组件指数据仓库中数据从数据源流向最终
用户的过程中用来对数据处理、存储和访问提供支持的软件与硬件系
统。数据仓库架构框架主要包括ETL架构、前端展现架构、数据仓库
存储架构、运维管理与开发架构几类。
•元数据管理一使数据信息能够正确定义、收集并发布的工具
与技术,主要包括用户数据的业务含义与技术特征。
元数据管理
技术横据元数据业务元数据
数据源前端展现
报表
9
分析
挖掘
运维管理
开发架构
2.2.数据源定义
数据源是存放最终用户报表所需各类信息的源头,是操作型与交
易处理型业务应用系统(如燃料管控系统、人力资源系统、财务系统
等)内收集和存放的数据集合。数据仓库一般是从满足报表与分析需
求的单独数据源头或者多个数据源开始,在整个数据仓库生命周期内
逐渐扩展,并且逐步按照需要纳入更多数据源与外部系统的数据。
随着物联网、移动互联网的发展及应用,手机、智能终端、网上
商城、社交网络、电子通讯、卫星定位,任何操作都附带产生大量的
各种类型的数据。数据成为社会生活中举足轻重的生产要素,数据在
当今数字化社会中的发挥的作用日益关键。为支撑XX集团后续在大
数据的分析挖掘需求,后续需要考虑大数据源的梳理及定义。
2.3.组件架构定义
数据仓库存储架构
数据仓库存储架构由数据仓库内包含的全部数据存储区域组成。
同时,这一架构还包括了数据与处理的物理分布,以及支撑这些数据
存储区域的硬件与软件系统。
尽管数据仓库是一种集中式的数据集合,但是,为了满足用户对
于性能、可用性以及可伸缩性方面的需求,企业可以通过多条路径来
实现端到端的数据仓库技术架构。数据仓库存储架构实现路线的目标
是构建能够满足用户与操作需求的数据存储方法与物理分布方式。
数据仓库存储架构内的数据存储区域主要包括:数据缓冲区
(Staging)、数据仓库区(DataWarehouse)、操作数据存储区(ODS)、
数据集市(DataMart)、大数据存储等几部分,并且数据仓库存储架
构的构成由于最终用户实际业务需求的不同而多种多样。
ETL架构
ETL架构主要提供数据转储以及数据移动控制相关的各种流程
与服务,用于完成数据导入数据仓库的工作。ETL架构主要由以下几
个能够确保数据定期被正确地导入数据仓库的服务组成:任务调度、
批量文件控制、错误处理、异常处理、文件与数据传输、审核与验证。
前端展现架构
前端展现架构主要负责通过各种前端展现工具将数据仓库内的
数据展现给最终用户。
2.4.元数据管理定义
元数据管理包括对元数据的定义、收集、控制和发布。由于元数
据管理存在于数据仓库的每一格组建内,因此,它是数据仓库架构框
架内比较独立的部分。所以,数据仓库需要拥有规范的元数据定义、
收集与利用机制。
元数据是关于数据的数据,将业务术语与物理数据库建立一个
对应。利用元数据,分别以业务视图和技术视图描述存储在数据仓库
中的数据。元数据在开发过程中并非全新的概念。通常,我们利用元
数据来定义文件结构,定义数据模型内数据属性的命名、数据长度与
标准,以及定义数据属性到数据属性与数据属性到报表间的映射关系。
元数据主要包括业务元数据与技术元数据:
・业务元数据
业务元数据是最终用户所需要的描述具体业务信息意义、质量
和时效性的数据。比较关键的业务元数据包括:
•描述数据仓库内应该具有哪些数据的业务规则
•业务层次以及关键绩效指标(KPI)的定义
•数据元素的通用业务定义与计算方法
•业务环境内数据的转换规则
•源系统名称与位置
用户安全特性
-技术元数据
技术元数据主要用于确保数据仓库内存放的数据能够有效、及
时并且精确地反映源系统中所抽取数据的信息。技术元数据还用于控
制未来的系统修改与增强。下面给出了比较重要的技术元数据列表:
•数据仓库属性长度与定义
•源系统到目标系统内数据属性间的映射关系
•查询相应时间
•查询使用以及聚集表
•数据仓库内数据加载、更新与归档计时
•批量文件传输计时与验证
3.数据仓库方案设计
数据仓库由大数据平台及传统数据仓库两部分构成,分别提供
大数据存储挖掘,业务运营数据存储分析能力,支撑近期XX集团财
务集中管控平台建设及后期业务发展需求。
BI应用
仪表盘报表
洞察发现
传统数据仓库现有的业务系统
财务人资物资其它财务应用
集市集市集市集市
物资应用
数据仓库区(DW)
人费应用
批出
实时
网斗应用
采集
操作数据区(ODS)其它应用
经济/社会
网站日志流程事件支付历史视频日志音频日志应用程序日志社交媒体移的位置数据传感器....
网络数娓
聚合数据(包括结构化、非结构化、半结构化数据)
传统数据仓库
通过数据集成工具(ETL),批量/实时从业务系统中抽取数据,
集中存储业务运营数据,为业务运营分析及管理辅助决策提供数据支
撑,同时提供运营数据查询功能。
传统数据仓库可为大数据平台提供大数据分析所需要的业务运
营数据,大数据平台分析结果可存储在传统数据仓库内。
大数据平台
作为传统数据仓库的补充,用于接入并存储传感器数据、设备状
态数据、社交媒体、网站日志等大数据曰记,并提供大数据分析处理
能力。大数据分析处理结果可以作为数据仓库中数据集市的输入;同
时数据仓库中ODS、数据集市中的数据可为大数据平台提供数据源。
3.1.传统数据仓库方案
数据仓库由操作数据存储区(ODS)、企业数据仓库区(DW)、数据
集市区构成。
数墀q点蛋磬聂।I至更级
查询报表仪表盘多维分析分析
数据集市区
羽更加料主题
b企业数据仓库区
操作数据存储区
数据集成/系统集成
ODS区是XX集团数据仓库架构中重要的功能区域,它集成了
来自不同数据库的相同业务类型的数据,为终端用户提供一致的企业
数据集成视图;详细的交易数据在被处理载入数据仓库前都将以符合
三级范式的形式存储在操作数据存储区(ODS)中,操作数据存储区
由三层构成:
源系统数据层:用于存放从业务系统直接抽取出来的数据,这些
数据在数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,
因此在抽取过程中能够降低数据转换的复杂性;
数据整合层:用于存放经过整合和模型化后的数据,按主题进行
组织和管理,保持当日全量数据,数据整合层也是数据仓库区的唯一
数据来源。支撑非实时日常分析(周、月统计)、运行数据查询提供
T+1天、1个月内应用系统的明细数据,进行版本控制。
数据共享层:数据共享层为外部应用系统提供数据共享服务。数
据共享的方式根据对响应时间和返回的数据量的不同,可分为实时数
据共享和批量数据共享,从而满足各类数据共享的需求。
■实时数据共享:通过企业服务总线对外部系统实时提供数据共
享,通常一次只输出少量数据,但时效性要求较高(小于T+1);
■批量数据共享:通过数据集成工具(ETL)为应用系统提供批
量数据共享服务,一般返回大量数据,执行的时间通常也较长。
数据仓库区是XX集团数据仓库架构中最核心的数据存储区域,
它包含一个相对稳定的、企业级的数据仓库数据模型,支撑大部分的
数据应用。数据仓库通过对ODS输入数据做进一步清洗转换,存储
汇总和整合级数据,并按照第三范式格式保存和保留较长时间的明细
数据,为后续的决策支持性应用提供数据的支撑。
为了更好的支持海量数据操作与并发用户访问,数据仓库区必
须进行物理优化并且采用轻量级索引。在复杂的海量数据环境中,数
据仓库会由多个用于处理数据集成与求和并集中放置的数据存储区
组成。
■数据仓库区内的数据按照主题存放,数据粒度与ODS一致或粗于
ODS区,这些数据主要是企业级数据与历史信息,数据在线存储的周
期一般较长;数据仓库管理的数据包含了集成之后的多年历史数据,
数据量巨大;
■数据仓库区的数据是由ODS区的数据按照数据模型的要求进行
整合后形成,这一数据模型应该满足第三范式,并用作支撑大部分的
基于数据仓库的应用。数据应被合理的规划、组织、存储,分片和索
引,保证数据的管理和使用的高效性。
主要功能如下:
1)仓库模型数据存储,数据仓库中大部分存储的是汇总数据
和部分明细数据;
2)数据共享,数据仓库提供批量和联机数据共享服务,其范
围是决策分析型数据的共享。数据的时效性根据不同的业务需求的统
统上通常会大于T+0,且非原始操作型数据,除部分历史数据外,多数
为汇总数据。
设计数据仓库存储模型时,需要考虑以下几点:
■能灵活满足各种分析型业务的需求
■快速的响应性能
■数据集中管理
■具有灵活的扩展能力
数据集市是一组部门级的、特定业务主题的应用,用于决策与分
析的数据集合。这些数据需要针对用户的快速访问和数据输出进行优
化,优化的方式可以通过对数据结构进行汇总和索引。通过数据集市
可以保障数据仓库的高可用性、可扩展性和高性能。
数据集市是针对部门级的、特定业务主题的应用,用于决策与分
析。
主要功能如下:
1)数据集市数据存储,数据集市中存储的是各数据集市所需
要的数据;
2)数据共享,数据集市也提供批量和联机数据共享服务,其
范围是面向主题的数据共享。一般数据服务周期〉=T+1,且数据粒度
为针对某个特定业务主题的汇总数据以及部分细节数据。
数据集市建设考虑因素:
1)数据集市的建立方式:在数据集市创建的过程中应首先考虑采用
逻辑集市(视图)的方式,仅当逻辑集市无法满足系统需求时,才使
用物理集市。
■逻辑集市(视图方式)和物理集市。其中逻辑集市具有开发周
期短,易扩展,节省存储空间的优点,其缺点是性能较低;
■物理集市往往可以获得较高的性能,但其开发设计周期相对较
长、扩展性低、对于存储空间要求较高。
2)数据集市的数据不应从源数据系统直接抽取。因为,如果数据集
市从源数据系统直接向数据集市提供数据则可能导致数据的不一致,
也可能导致多个额外进程产生,这些进程在源系统中将占用额外的系
统资源,进而造成资源上的浪费。建议XX集团数据仓库与数据集市
采用使用分布式结构来提高整个系统的可用性、可扩展性和高性能。
3)结合XX集团实际情况,公司数据仓库中数据集市所存放数据根
据应用类型的不同而采用不同类型的数据模型,如OLAP联机分析选
用星形模式(Satr-Schema),数据挖掘应用则应选用数据宽表(Broad
Table/CAR)结构等,其存储数据周期根据应用需求而定。
4)数据集市区的数据由数据仓库区的数据经过转换后形成,直接支
撑前端的应用需求c数据集市的数据通常会作为OLAP服务和应用服
务的数据输入。
综上所述,ODS、DW、DM的很多方面都是互补的,可以支持
分析型应用、均使用数据集成技术,但它们也有以下区别,为了更好
的展示和阐述ODS、DW、DM三层数据层的层次关系,整理对照表
如下所示:
对照子操作型数据・
数据仓库-DW数据集市・DM
项ODS
针对于专业分析人
特定业务部二或
主要用一线业员和企业中高层管
使用用业务主题的专业
务和管理人员理人员,支持其长期
户分析人员和管理
日常查询趋势分析和战略决
人员
策
用户访查询(根据未来查询查询
问需要可以增加、
对照子操作型数据・
数据仓库・DW数据集市・DM
项ODS
修改、删除操
作)
支持跨业务条
存储目面向主体的、集成的面向特定业务主
线、面向特定业
的数据存储,支持中、体的决策支持
务需求的应用
长期决策分析支持
业务对介于面向应用
面向主题面向主题
象和面向主题之
间
按数据主题(如:关
主要提供细粒系人,条件,协议等)保存针对某个特
数据粒
度运营数据,也的数据建模方式来定业务主题的汇
度
可以存储粗粒组织数据,保存细节总数据以及部分
度的汇总数据数据,也保存粗粒度细节数据
汇总数据
数据稳
动态相对稳定相对稳定
定性
对照子操作型数据・
数据仓库・DW数据集市・DM
项ODS
更新频实时、近实时或
定期批量更新定期批量更新
率批量更新
主要保存当期
数据和详细数
据,或只招有限
主要保存历史数据
周期的历史数
和部分细节数据,根据业务需求决
数据时据,如:大部分
如:汇总数据保存5定,一般大于等
效性数据保存13个
年,细节数据至少保于13个月。
月历史数据,少
存7年。
量数据根据业
务需求确定保
留期限。
ODS理论上能从国内其他大型企
够支持高性能业的实践看,数据服
服务水数据处理(秒务周期<=T+1,且在一般数据服务周
平级),但性能指有实际业务需求的期>=T+1
标需要根据业时候,实现Active
务需求来制定,Warehouse,提供
对照子操作型数据・
数据仓库・DW数据集市・DM
项ODS
T+0服务
3.2.大数据平台参考技术架构
基于对业界大数据平台、解决方案的调研和分析,结合业界大数
据技术发展趋势,XX集团大数据平台技术参考架构图如下;
大数据分析应用
实时流散融理(M,R,M,Rv2[YARN].、MPP、BSP)传统数据仓库
处理
流式计算实时窗询分布式计算内存计算挖掘计算
(Storm/S数
park据
Streamin集
g/Yahoo大数据分布式存储成
S4)
关系型数据库内存数据库文档型数据库图形数据库
6^获取(Chukwa/Flume/Scribe/Splunk,KafKa,Sqoop/DataX)
传感器运行日志非结结构化结结构化
数据获取
通过ETL抽取、文件适配器、网络抓取、实时数据采集等多种技
术从外部数据源导入结构化数据(关系库记录)、半结构化数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海科创职业技术学院《嵌入式系统与应用》2024-2025学年第二学期期末试卷
- 青岛大学《食品生物技术(实验)》2024-2025学年第二学期期末试卷
- 西安建筑科技大学《灯光造型》2024-2025学年第二学期期末试卷
- 南昌医学院《信息技术教学案例分析》2024-2025学年第二学期期末试卷
- 漳州科技职业学院《分析化学上》2024-2025学年第二学期期末试卷
- 企业采购申请审批制度
- 四川中医药高等专科学校《经典文学作品诵读》2024-2025学年第二学期期末试卷
- 长沙医学院《日语演讲比赛》2024-2025学年第二学期期末试卷
- 厦门演艺职业学院《微积分Ⅰ(二)》2024-2025学年第二学期期末试卷
- 合肥共达职业技术学院《小学语文教学理论与实践》2024-2025学年第二学期期末试卷
- 抖音肖像合同范例
- 梅尼埃病护理
- 数字营销学课件 1第一章 数字营销概述
- TCQMBA 1-2024 儿童体表光学图像引导放疗标准流程
- 智慧农业节水灌溉系统操作手册
- 《劳动教育理论与实践中职版》中职生劳动教育课程全套教学课件
- 大学美育 课件 绪论
- 植物纤维化学
- 物业费债权转让协议范本
- 山东第一医科大学生理学(本)期末复习题
- DZ∕T 0130.6-2006 地质矿产实验室测试质量管理规范 第6部分:水样分析(正式版)
评论
0/150
提交评论