版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库的数据存储和实现当面对大量的数据,而且是各种各样类型的数据,还可能有的数据单元(粒度)很大,单纯靠数据库是不易解决,为了解决这些问题,提高系统后台的效率,就需要引进数据仓库。有关数据仓库的数据存储的几个基本问题:1.数据存储的方式?数据仓库的数据由两种存储方式:一种是存储在关系数据库中,另一种是按多维的方式存储,也就是多维数组。2.存储何种数据?数据仓库中存在不同的综合级别的数据。一般把数据分成四个级别,早期细节级数据,当前细节级数据,轻度综合级,高度综合级。不同的综合级别一般称为粒度。粒度越大,表示细节程度越低,综合程度越高。级别的划分是根据粒度进行的。数据仓库中还有一种是元数据,也就是关于数据的数据。传统数据库中的数据字典或者系统目录都是元数据,在数据仓库中元数据表现为两种形式:一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包含了数据源的各种属性以及转换时的各种属性;另一种元数据是用来与多维模型和前端工具建立映射用的。3.粒度与分割粒度是对数据仓库中的数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多;反之粒度越大,细节程度越低,综合程度越高,回答查询的种类越少。分割是将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理的效率。数据分割后的数据单元成为分片。数据分割的标准可以根据实际情况来确定,通常可选择按日期、地域或者业务领域等进行分割,也可以按照多个标准组合分割。4.追加时数据的组织方式这里说一种比较简单的情况,轮转综合文件。比如:数据存储单位被分为日、周、季度、年等几个级别。每天将数据记录在日记录集中;然后七天的数据被综合存放在周记录集中,每隔一季度周记录集中的数据被存放到季度记录集中,依此类推……这种方法把越早期的记录存放的综合程度越高,也就是粒度越大。数据仓库的实现步骤:一般地,设计和创建数据仓库的步骤是:1.确定用户需求确定终端用户的需要,为数据仓库中存储的数据建立模型。通过数据模型,可以得到企业完整而清晰的描述信息。数据模型是面向主题建立的,同时又为多个面向应用的数据源的集成提供了统一的标准。数据仓库的数据模型一般包括:企业的各个主题域、主题域之间的联系、描述主题的码和属性组。深入地分析企业的数据源,记录数据源系统的功能与处理过程。一般地,设计数据仓库最重要的一步便是要理解商业动作的规律,只有了解数据是如何被处理的,才能分解商业处理过程,从中获取数据元素。利用现有系统的信息,确定从源数据到数据仓库的数据模型所必须的转化/综合逻辑。这涉及到应该合并转化多少数据;是综合所有的数据文件还是综合发生变化的操作系统文件;转化/综合过程应该多长时间执行一次等问题。决定数据转化与更新频率是重要的商业事件。无论数据仓库的更新是采用事件驱动还是时间驱动,都必须让数据仓库知道当某种事件发生时就需要更新数据。在数据仓库建立之前,应该写一个详细的方案和实现规划。这种方案和实现规划包括:建立商业案例、收集用户需求、确定技术需求。建立商业案例包括由该方案解决的商业需求、方案的成本和投资的收益。收集用户需求主要是调查用户建立数据仓库的意图。用户需求可以确定这些内容:数据需求(粒度级)、企业经营系统包含的数据、这些数据遵循的商业规则、需要提供给用户的查询、用户需要的标准报告、将要使用的客户应用程序工具。确定技术要求包括下列内容:硬件体系结构和框架(例如,链接到数据市场所在的地理位置)、备份和恢复机制、安全性限制、从经营系统到数据仓库加载数据和转换数据的方法。2.设计和建立数据库设计和建立数据库是成功地创建数据仓库的一个关键步骤。这一步通常由有经验的数据库设计人员使用,因为这一步涉及的数据来自多种数据源并且要把它们合并成一个单独的逻辑模型。不像OLTP系统那样以高度的正规化形式存储数据,数据仓库中存储的数据以一种非常非正规化的形式存储数据以便提高查询的性能。数据仓库常常使用星型模式和雪花型模式来存储数据,作为OLAP工具管理的合计基础,以便尽可能快地响应复杂查询。b.迁移数据从经营系统中迁移数据一般是在数据拷贝到数据仓库之前,把数据拷贝到一个中间数据库中。如果数据需要净化,那么把数据拷贝到中间数据库中是必要的。应该在OLTP系统中活动比较低的时候拷贝数据,否则会降低系统的性能。另外,如果该数据仓库是由来自多个相关经营系统中的数据构成,应该确保数据迁移发生在系统同步的时候。如果经营系统不同步,那么数据仓库中的数据可能会产生预想不到的错误。在MicrosoftSQLServer7中,MicrosoftSQLServerDataTransformationServicesImportandExportwizards可以用来创建一系列任务,可以把数据从异构经营系统中拷贝到一个运行SQLServer的中间数据库中。c.数据净化数据净化就是使数据达到一致性。在多个经营系统中,可能有相同的数据。例如,一个名称为ABCCooperation的公司可能被写成ABCCo、ABC、ABCCooperation等。如果这些名称不一致,那么在查询的时候就会将这个公司作为两个不同的公司处理。如果在数据仓库中的数据生成一致的信息,那么该公司的名称必须完全一致。数据净化可以通过下面几种方法得到:在从OLTP系统拷贝到中间数据库或者数据仓库时,使用SQLServer的数据转换服务的数据引入引出向导修改数据写一个连接数据源的MicrosoftActiveX脚本或者VisualC++程序,由DTSAPI程序执行,来净化数据例如,在定单系统中,这些数据需要净化:State(必须总是两个字符的值)以及ProductName(必须是产品的完整名称,不能使用缩写)。那么,在拷贝数据的进程中,可以使用数据转换服务的引入引出向导检查State的值,使其为两个字符的值,通过写VisualC++程序可以保证产品的名称为完整的名称。一旦数据净化之后,就可以把数据移动到数据仓库中。d.转换数据在数据的迁移进程中,一般地,经常需要把经营数据转换成一种单独的格式,以便适应数据仓库的设计。例如,转换数据可以包括下列内容:把所有的字母字符转变成大写字母;重新计算汇总数据;把单个数据分解成多个数据,例如把格式为nnnn-description的产品代码分解成单独的代码和描述值;把多个数据合并
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海立达学院《安全生产技术》2025-2026学年第一学期期末试卷(A卷)
- 2026年医院医疗废物暂存点洗手台设置要求
- 2026年垃圾焚烧发电厂烟气净化系统安装
- 2026年学校突发公共卫生事件应急预案编制
- 上海立信会计金融学院《安全管理与法规》2025-2026学年第一学期期末试卷(B卷)
- 上海立信会计金融学院《安全检测与监控》2025-2026学年第一学期期末试卷(B卷)
- 2026年超声科盆底超声检查技术操作规范培训
- 2026年喷码机日常维护保养计划表
- 大连东软信息学院《Android 程序设计》2025-2026学年第一学期期末试卷(B卷)
- 2026年安全标准化事故管理培训课件
- 第10课 诚信贵如金(课件)小学道德与法治二年级下册
- 蒸汽发生器设备安装施工方案
- 《湖北省高速公路初步设计咨询审查报告范本(试行)》2026
- 中国针灸市场行业分析报告
- DB14∕T 3286-2025 成人预防接种门诊设置指南
- T-HNCAA 052-2023 公路桥梁结构健康监测系统实施和验收标准
- 水泥路面施工质量方案
- 2025年数字媒体艺术历年真题及答案
- 2026国考与省试题及答案
- 2025年新疆高考理科试卷及答案
- 筋膜刀理论知识培训课件
评论
0/150
提交评论