版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库的粒度(原创)博客分类:DataWarehouse概述粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。数据的粒度一直是一个设计问题。数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。粒度的大小需要数据仓库在设计时在数据量大小与查询的详细程度之间作出权衡粒度的双重级别很多时候,十分需要提高存储与访问数据的效率,以及非常详细地分析数据的能力。当一个企业或组织的数据仓库中拥有大量数据时,在数据仓库的细节
2、部分考虑双重(或多重)粒度级是很有意义的。事实上,需要多个粒度级而不是一个粒度级的需求,是因为粒度级设计采用双重级别应该是几乎每个机构默认的选择。下图表明了在数据仓库的细节级上的两种粒度级。逐个地区活动升桥处理在数揀仓库层管理九駅数据轻度综合10早归话历山T0天详堀由话历史英他尊客活动离抽布级很斜节级鞄度的取童级一个电话公司我们所称的双重粒度设计,在这个例中的数据仓库体现为两种类型数据:轻度综合数据和“真实档案”细节数据。数据仓库中的数据能回溯十年。从数据仓库中提取的数据是流向电话公司不同地区的“地区”数据,然后各地区独立地分析各自的数据。在个体级上进行各自的启发式分析处理。现在来回答两个问题
3、,什么是轻度综合,什么是“真实档案”?轻度综合下图为轻度综合的实际例子假油节绒轻度综合数据3。天的細节轻度烷件JJones4月12日下午6:016:12413-566-9982按线员帮助4HI2H下午6:156:16415-J34-S847性途4月12日下午&:站9:鹑408-223-77454flI3H上午9:12-92340J?-223-7745斗月以日上午10:15-1C:2L40-223-7745按线员請助4月15日上午11:0111:21415-964-47384月15B上午11:39-12:01705-570-5770未按逋4月150下午12:10-12:46703-841-577
4、号码错谍*月16EI下午12:3412:56415-964-3130每月-w#w(ortr均崗要的字节数一4?(Joo四冃恃JJones电话數塑454-电话的平购怪度14舟钟任绘电谱數摆个接线城帮助呼曲散Z牛耒接通电话數个存付1伞记录所需的字节数225当数据从操作型环境(存储30天的数据)载入时,它就被顾客综合成可能用于DSS分析的数据域。J.Jones的记录显示她每月打电话的次数、每个电话的平均长度、长途电话的次数、接线员帮助呼叫的次数,等等。在轻度综合数据库中的数据量比细节数据库中的数据量少得多。当然,在轻度综合级数据库中,对能访问的细节级存在一定的限制。真实档案数据仓库中数据的第二层最低
5、粒度级存放在数据的真实档案层上,如下图所示真实档案四月伪JJones电话次暫43牛电话的平均茫度14廿钟长途电话次数用个接线员帮助呼叫次数2个未接通电话次散If95%甚至更酸的DSSJtS在此进行5%或更少的D呂处理在此进厅JJcncs4月12日T午6:12415-56-9982接绽员帮助4月12日下午6:15-6:16415-33447怅途4月121下午6:236:38403-223-77454月13II上午9:129:23408-223-7745斗月I孑日上午10:1510;21408-223-7745接蝇员帮助4月1引上午11:0111:121斗15-964-47384H15|上午11:
6、3912:01703-570-5770未搂逋4月邛日下午2:1012:46703-841-5770号码错误斗月垮日下午12:弭F2处415-964-3130*耗费时问-复杲在数据的真实档案层上,存储的所有的细节来自于操作型环境。在这一层上确实有大量的数据。由于数据量太大,因此有必要将数据存放在如磁带这样的介质上。通过在数据仓库的细节级上创建两种粒度级,DSS设计者可一举两得。大部分DSS处理是针对被压缩的、存取效率高的轻度综合级数据进行的。如果什么时候需要分析更低的细节级(5%时间或更少的可能),可以到数据的真实档案层。在粒度真实档案层上,访问数据将是昂贵的、麻烦的和复杂的事情,但如果必须进入
7、这一细节级也只得如此。随着时间的迁移,如果需要开发某种搜索数据的真实档案级的模式,设计者可能要在轻度综合级上创建某些新数据域。鉴于费用、效率、访问便利和能够回答任何可以回答的查询的能力,数据双重粒度级是大多数机构建造数据仓库细节级的最好选择。只有当一个机构的数据仓库环境中只有相对较少的数据时,才应尝试采用数据粒度的单一级别。确定粒度级别确定粒度级别开始时是需要一些常识和直觉的。在很低的细节级上建立轻度汇总的数据级是没有意义的,因为需要太多的资源来处理数据。而在太高的细节级上建立轻度汇总的数据级,则意味着许多分析必须在真实档案级上进行。因此确定轻度汇总的粒度级的第一件事是进行有根据的猜测。但进行
8、有根据的猜测也只是一个开端。还需要一定数量的反复分析来改进这个猜测。如下图所示,对于轻度汇总的数据为了确定合适的粒度级别,唯一可行的方法是将数据拿到最终用户的面前。只有当最终用户实际看到了数据之后,我们才能作出确定的回答。下图同时说明了我们所需做的反复的循环。对于数据怎样轻度汇总是没有限制的(限制只存在于设计者的脑海里)。有一点很重要,在典型的需求系统的开发中,在还不清楚大部分需求之前就忙于进行是不明智的。但在数据仓库的建造中,如果已知了至少一半的需求后,还不开始同样也是不明智的。换句话说,在建造数据仓库中,如果开发者想等着大多数需求明了后才开始工作,那么这个仓库是永远建不起来的。尽快启动与D
9、SS分析员的反馈循环是非常重要的提高粒度的方法有好多方法用来提高数据的粒度,如以下所列:当源数据置入数据仓库时,对它进行汇总。当源数据置入数据仓库时,对它求平均或进行计算。把最大/最小的设定值置入数据仓库。只把显然需要的数据置入数据仓库。用条件逻辑选取记录的一个子集置入数据仓库。一个粒度的例子I活细节级低细节级图为关于粒度划分的例子毎月卩字节惻如:顾g月的毎个电讹的細节妊制节列例如:一个嚨客一牛月的魁话侏舍20C牛字节毎月-伞记录01activityrac.mtithcumcall曰wg4engthcunilond5.s七Hncgeuitiinteriruptdid.阳Q202302例如:一个
10、.颐客一个月的每个电话的细节ILI例如:一个顾客一个月的电话棕舍“CassSquire卜.星期是否蛤他在波T:顿的立左打了电话?”能回签.堪管需要_足盟懒的检索根本就不能回毎细节巳经谄失但找单平记呆是个卑常不常见的轟件“上个月人1从华盛蚊打出的长途电.话平均有爭少个?”S4175CKX)OQQ牛谨录.进軒45000000iki/o撞L750000卜记录”进歼4丸000I/O根据上图提出了下面的问题:“CassSquire上星期是否给他在波士顿的女友打了电话?”在低粒度级上,这个问题是可以回答的,虽然这种回答将花费大量资源去查阅大量的记录,但是Cass上周是否给他在波士顿的女友打了电话最终总是可
11、以确定的。然而,在高粒度级上就无法明确地回答这个问题。假如在数据仓库中存放的只是CassSquire打的电话总数,那么就不能确定其中是否有一个电话是打往波士顿的。但是,在进行DSS处理时(这在数据仓库环境中是常见的),很少对单个事件进行检查。通常是针对某种数据集合进行处理的,这意味着要查阅大量记录。例如,假设提出下面的集合性查询问题“上个月人们从华盛顿打出的长途电话平均多少个?”在一个DSS环境中这种查询类型是非常常见的。当然,它既可以在高粒度级上也可以在低粒度级上得到回答。但在回答这个问题时,在不同的粒度级上所使用的资源具有相当大的差异。在低粒度级上回答这个问题需要查询每一个记录,所以需要大量的资源来回答这个问题。但在高粒度级上,数据进行了很大的压缩,而且能够提供一个答案。如果在高粒度级上包括了足够的细节,则使用高粒度级数据的效率将会高得多。在设计和构造数据仓库之初就必须仔细考虑这种权衡。分割问题分割是数据仓库中数据的第二个主要的设计问题(在粒度问题之后)。数据分割是指把数据分散到各自的物理单元中去,它们能独立地处理。在数据仓库中,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东高鲲能源数据投资有限公司招聘第四批人员6人备考题库及完整答案详解【必刷】
- 2026广东佛山南海区大沥镇盐步第三幼儿园招聘备考题库【培优】附答案详解
- 工程中安全教育培训制度
- 2026天津市勘察设计院集团有限公司招聘4人备考题库及参考答案详解【培优】
- 2026年春季贵州电网有限责任公司校园招聘备考题库附答案详解【a卷】
- 工程审计工作制度
- 2026江西宜春上高县招聘看护队员18人备考题库附参考答案详解(培优b卷)
- 广东省内部审计制度
- 幼儿园支出审计制度
- 幼教资金审计制度
- 风电施工安全培训课件
- 学生社交能力与同伴关系的培养
- 脱硫石膏处置协议书
- 景观照明设施运行维护经费估算
- 航天禁(限)用工艺目录(2021版)-发文稿(公开)
- 动物的呼吸和氧气运输
- 醛-亚胺-壳聚糖水凝胶的构筑及性能研究进展
- 无人机行业信息安全培训
- 管理会计学 第10版 课件 第4章 经营预测
- 2023年华南师范大学教师招聘考试历年真题库
- 2023年新改版教科版五年级下册科学全册练习题(一课一练)
评论
0/150
提交评论