大数据时代数据仓库技术跟进_第1页
大数据时代数据仓库技术跟进_第2页
大数据时代数据仓库技术跟进_第3页
大数据时代数据仓库技术跟进_第4页
大数据时代数据仓库技术跟进_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据时代数据仓库技术跟进数据仓库(datawarehouse,可简写为dw或dwh)是为企 业所有级别的决策制定过程提供支持的所有类型数据的战 略集合。它是单个数据存储,出于分析性报告和决策支持的 目的而创建。数据仓库是为企业所有级别的决策制定过程提 供支持的所有类型数据的战略集合。在大数据(big data)时代,随着技术的发展,数据仓 库已包含提取、清洗、集成数据并将数据交付给决策者的完 整生态系统,包括提取-转换-加载(etl)和商业智能(bi) 功能。数据仓库在捕获所有形式的企业数据,以及在其后准 备这些数据供全企业决策者使用的过程中,起到非常广泛的 作用。大数据与数据仓库的异同大数

2、据时代的到来,确实对传统的数据仓库认知产生了 重大的影响。什么是大数据?大数据的“大”实际上并不是 最令人关注的特征。大数据是很多不同格式的结构化、半结 构化、非结构化和原始数据,在某些情况下看起来与过去30 年来我们存储在数据仓库中清一色的标量数字和文本完全 不同。从另外一个角度来讲,小数据比较简单,有比较成熟 的技术应对它。大数据是多种类型数据的组成,需要使用多 种技术对待它。每一个识别和监测它的手段和方法是不一样 的。然而,很多大数据不能使用任何类似sql这样的工具 进行分析。对于企业及应用来说,数据仓库应用更加有效。 两者并不形成替代,特别是银行业等行业里面,更多的是互 为补充。数据仓

3、库的技术特点被称为数据仓库之父的billlnmon在其著作(building the data warehouse) 一书这样描述:数据仓库是一个面 向主题的、集成的、相对稳定的、反映历史变化(time variant)的数据集合,用于支持管理决策。可以从两个层 面对数据仓库的概念进行理解,一是数据仓库是面向分析处 理的,主要用来支持决策制定;二是数据仓库包含历史数据, 是对多个异构的数据源数据按照主题的集成,它的数据相对 固定,不会经常改动。面向主题的:数据仓库的数据都是按照一定的业务主题 进行组织的,面向主题体现在数据仓库的建设中,而且还包 含在业务数据分析和存储上。集成的:数据仓库中的数

4、据来自各个不同的分散数据库 中,它并不是对源数据库数据的简单拷贝,而是按照划分好 的主题和数据分析要求,经过数据抽取、清理、汇总和整理 等步骤,消除源数据中的错误和不一致的数据,保证数据仓 库中数据的正确性和可用性。所以,它是整合集成的。相对稳定的:数据仓库的稳定性体现在它的非易失性 上,由于数据仓库是面向分析的,其中的数据是从业务数据 中加载过来的历史数据,所进行的主要操作是查询和分析, 供决策分析使用,所以其修改和删除操作很少,只需要定期 的增量加载,所以具有相对稳定特征。反映历史变化:数据仓库必须能够不断地捕捉业务系统 中的变化数据,记录企业生产过程的各个阶段的信息,以满 足决策分析的需

5、要,所以必须实时地把新变化的业务数据追 加到数据仓库中去,通过数据随时问变化的研究和分析,可 以对企业的发展历程和未来趋势做出定量分析和预测。选择实施方法企业级数据仓库的实现通常有两种途径:一种是从建造 某个部门特定的数据集市开始,逐步扩充数据仓库所包含的 主题和范围,最后形成一个能够完全反应企业全貌的企业级 数据仓库;另外一种则是从一开始就从企业的整体来考虑数 据仓库的主题和实施。前一种方法是各个击破,投资少、周 期短且易于见到成果,但由于该设计开始时是以特定的部门 级主题为框架的,向其他的主题和部门扩充往往非常困难。 而后一种方法恰恰相反:投资大、周期长,但是易于扩展。以哪种方法进行实施,

6、主要取决于各个行业和客户的实 际情况。如电信和银行业,采用第二种方法比较可行,这是 因为这两个行业业务发展变化快,为了能够适应将来的变 化,整个数据仓库架构必须是可扩展的和易于维护的。如果 只是基于部门级的需求去设计,将来肯定无法适应变化。如 果重新设计,势必造成前期投入的浪费。对其他一些行业, 如制造业和零售业,本着“急用先行”的原则,可以先从某 一局部入手,慢慢扩展为数据仓库。从技术上讲,以部门需求作为主要考虑因素建立的系 统,它的数据量不会太大,会影响对将来数据膨胀风险的正 确估计,当数据集市扩展到企业范围的时候,由于原有技术 无法支撑新的数据规模,会造成数据装载和数据分析速度的 降低,

7、甚至达到不可用的地步。企业级的数据仓库会涉及更 多的额业务系统,只有充分研究各业务系统,才能了解如何 对不同格式、不同标准、不同接口的数据进行集成。当然,对于第二种方法,也不是说把摊子铺的越大越好。 合理的做法是“统筹规划,分步实施”。根据业务需求,把 业务的主要方面都涵盖进去,确定彼此之间的联系;对于次 要的需求,可以预留一些接口,以备将来细化。否则,如果 整个调研周期拖得太长,等进入实施阶段,业务又发生变化, 不得不重新修改设计,同样会造成浪费。所以,先搭建好一个易于扩展且稳定的架构,在此基础 上逐步实施,是一个兼顾长远发展与合理投入的最佳方式。 此外,分步实施还可以减少风险:前一阶段的经

8、验教训可以 为下一阶段提供有益的借鉴,从而使得数据仓库的建设不断 完善,不断发展。结合先进技术从业务需求出发和其他的应用系统相比,数据仓库对于需求分析和系统 设计等前期工作要求更高,其重要性也更加突出。可以说, 分析和设计阶段决定了数据仓库最终的失败。因为需求不明 确、设计不合理造成的根本性缺陷是以后实施阶段所无法弥 补的。因此在分析和设计阶段,对相关的业务部门和技术部 门要进行详细的调研,在用户和开发人员之间的迭代和反馈 是必须和重要的,它决定了数据仓库最终的成功与否。由于数据仓库是面向业务分析的,所以最主要的需求应 该从业务部门获取和收集,因为数据仓库最终是要服务于业 务部门的。需求抓的不

9、准,导致将来将无法解决业务部门的 问题,这个数据仓库项目就是失败的,技术再先进也没有用。 这是衡量数据仓库成败与否的唯一尺度。实施的过程中,最好能够把行业专家的经验,与企业现 有的需求进行整合,以期得到一个更加全面的需求范围,有 利于适应将来业务的变化和扩展。从技术角度来讲,必须建立一个可伸缩、可扩展、高性 能的数据仓库平台,才能为将来不断的完善、不断发展打下 一个良好的基础;由于数据仓库项目要涉及多个业务系统, 数据量非常庞大,所以本身的投入也是很大的,在保证系统 高效稳定的前提下,尽量降低成本是非常重要的。相关链接数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业 问题范围,一般可将数据仓库分为下列3种类型:操作型数 据库(ods)、数据仓库(datawarehouse)和数据集市(data mart)o操作型数据库(ods)既可以被用来针对工作数据做决策支持,又可用做将数 据加载到数据仓库时的过渡区域。与dw相比较,ods有下 列特点:ods是面向主题和面向综合的;ods是易变的;ods 仅仅含有目前的、详细的数据,不含有累计的、历史性的数数据仓库(data warehouse)此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。数据仓库是为企业所有级别的决策制定过 程提供支持的所有类型数据的战略集合。它是单个数据存 储,出于分析性报告和决策支持的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论