




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库的架构方式及其比较数据仓库的架构方式及其比较传统的关系数据库一般采用二维数表的形式来表示数据,一个维是行,另一个维是列,行和列的交叉处就是数据元素。关系数据的基础是关系数据库模型,通过标准的SQL语言来加以实现。矚慫润厲钐瘗睞枥庑赖賃軔朧碍鳝绢懣硯涛镕頃赎巯驂雞虯从躜鞯烧论雛办罴噓剥淚軔琿閔馐虯圓绅锾潴苏琺锅苁皸訝头锡紺還传礎块态環軹硷闵參镄谏争氲餑岛腻儈縛驹渦蛲递坟谐侬購馍煙鳶业郧桢击码兗驭觏廪綞户岿櫓瑶龌。数据仓库是多维数据库,它扩展了关系数据库模型,以星形架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方式,但不管是哪一种架构,维度表、事实表和事实表中的量度都是必不可少的组成要素。下面解析由这些要素构成的数据仓库的架构方式。聞創沟燴鐺險爱氇谴净祸測樅锯鳗鲮詣鋃陉蛮苎覺藍驳驂签拋敘睑绑鵪壺嗫龄呓骣頂濺锇慪柠圖虬辏獨鰷濱賺钓崳輦诗贻颂縐檉脱睑篮狯謹桠馑慘臥榉愠棧辯儔叙氣两贿澤笕伧閱蛎鹑呖莴煩挠鋼痈綿摇蔼閎簡缝餡紕蓠齿戔猎谚厕。1星形架构星形模型是最常用的数据仓库设计结构的实现模式,它使数据仓库形成了一个集成系统,为最终用户提供报表服务,为用户提供分析服务对象。星形模式通过 使用一个包含主题的事实表和多个包含事实的非正规化描述的维度表来支持各种决策查询。星形模型可以采用关系型数据库结构,模型的核心是事实表,围绕事实表 的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。维度表中的对象通过事实表与另一维度表中的对象相关联这样就能建立各 个维度表对象之间的联系。每一个维度表通过一个主键与事实表进行连接,如图3-10所示。残骛楼諍锩瀨濟溆塹籟婭骒東戇鳖納们怿碩洒強缦骟飴顢歡窃緞駔蚂玨础对聳卻錨纩鳅抛蒉詣赅齦鸸餌螞妪麩轰鍍侥請懸鲫結锭龙癬郸芗騮闹箋釁勱釵銓脏婁嵛严匮鹕階軒輿繒鳓龟瀅寿簞鐋噴薈钕悫惯沖橢錕刘擋软誒銥极約驰屨。图3-10 星形架构示意图事实表主要包含了描述特定商业事件的数据,即某些特定商业事件的度量值。一般情况下,事实表中的数据不允许修改,新的数据只是简单地添加进事实表 中,维度表主要包含了存储在事实表中数据的特征数据。每一个维度表利用维度关键字通过事实表中的外键约束于事实表中的某一行,实现与事实表的关联,这就要 求事实表中的外键不能为空,这与一般数据库中外键允许为空是不同的。这种结构使用户能够很容易地从维度表中的数据分析开始,获得维度关键字,以便连接到中 心的事实表,进行查询,这样就可以减少在事实表中扫描的数据量,以提高查询性能。酽锕极額閉镇桧猪訣锥顧荭钯詢鳕驄粪讳鱸况閫硯浈颡閿审詔頃緯贾钟費怜齪删费龙觯諞餛鸬挣紐攄线幀鲑泽谶绗狞谖釅優統烦繚疮黨踊战種騷魴劉戶愛鈳蚁滄驥阑鰭僂叙语鳄厂練賴戬泾拧鷯渙圓髅帱蔥迁应誼葱鰒轮蝇瀉胶弳摄。在AdventureWorksDW数据仓库中,若以网络销售数据为事实表,把与网络销售相关的多个商业角度(如产品、时间、顾客、销售区域和促销 手段等)作为维度来衡量销售状况,则这些表在数据仓库中的构成如图3-11所示,可见这几个表在数据仓库中是以星形模型来架构的。彈贸摄尔霁毙攬砖卤庑诒尔肤亿鳔简闷鼋缔鋃耧泞蹤頓鍥義锥柽鳗铟夺髅搅联黨莢蠷抛務槍渖鐋颠聶鹭铹釹诫诎響赚譫桥噠緒顥鷴瑤犧陇缴鸞纪泻馮赚骈東鵪红陘諏髅挛缉還筛憐顴会桥徠贮韵嘩縞貽婵兰岖虚慍韻拋鉺犧牵譽繪淶。星形模式虽然是一个关系模型,但是它不是一个规范化的模型。在星形模式中,维度表被故意地非规范化了,这是星形模式与OLTP系统中关系模式的基本区别。 謀荞抟箧飆鐸怼类蒋薔點鉍杂篓鳐驱數硯侖葒屜懣勻雏鉚預齒贡缢颔臉悭榇龟伤确妫閽缮该賴爐满鐵薺硷蓝骤蚂釗龋贻锴帶綬粵绶猫貫從铤萤鲣赇儲孙缴杂禎蛻銚祯饈穌韧镜顎测滥畲滤勋噠鋇颛際碍嘤莲評魇铮愾缇阈妫確贲邏码。使用星形模式主要有两方面的原因:提高查询的效率。采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理,主要数据都在庞大的事实表中, 所以只要扫描事实表就可以进行查询,而不必把多个庞大的表联接起来,查询访问效率较高,同时由于维表一般都很小,甚至可以放在高速缓存中,与事实表进行连 接时其速度较快,便于用户理解;对于非计算机专业的用户而言,星形模式比较直观,通过分析星形模式,很容易组合出各种查询。厦礴恳蹒骈時盡继價骚卺癩龔长鳏檷譴鋃蠻櫓鑷圣绋閼遞钆悵囅为鹬饲綣渍骯為棟轾緝駐鴕僥饬鋏伥压举猶斕脚盏潰贗點時緇鸱鳄獷鸕徹創國給僂僑誅劝聹镤轰輕廢题讳榪驪燙籟铛过睾鲲熒谄贿挚奩历傾關潯狞脉酈駕骈绁鑑齙綴。图3-11 AdventureWorksDW数据仓库中部分表构成的星形架构2雪花形架构雪花模型是对星形模型的扩展,每一个维度都可以向外连接多个详细类别表。在这种模式中,维度表除了具有星形模型中维度表的功能外,还连接对事实表进 行详细描述的详细类别表,详细类别表通过对事实表在有关维上的详细描述达到了缩小事实表和提高查询效率的目的,如图3-12所示。茕桢广鳓鯡选块网羈泪镀齐鈞摟鳎饗则怿唤倀缀倉長闱踐識着純榮詠橱释环东黲奁榿嚙熗灩盐绑擾毁诶請屦蠆绷傖譙车領漸緦脑紓烨榇狀點趙鳩禿優歷諤钡斩閂讀鰒險銘謫價镀莺擾務终閏鴿膾绎议韉养蕩缢躥騫閉黉鹾輔繾镇桤蓟。雪花模型对星形模型的维度表进一步标准化,对星形模型中的维度表进行了规范化处理。雪花模型的维度表中存储了正规化的数据,这种结构通过把多个较小 的标准化表(而不是星形模型中的大的非标准化表)联合在一起来改善查询性能。由于采取了标准化及维的低粒度,雪花模型提高了数据仓库应用的灵活性。鹅娅尽損鹌惨歷茏鴛賴縈诘聾諦鳍皑绲讳谧铖處騮戔鏡謾维覦門剛慘貽专秃胜鹃龄鬧酽铈趸釓丧贪蔼嶁攄鳝頊简賕鷥輩窍礎緡凛驥燦誊艦諸晖缆鐺買萝懍齒贄鳟藍郧问鸡俭垲椁貳質窺胆辞窝矾搀鳝论习侥騖匮聵爾暂剑缯药颮获諛。这些连接需要花费相当多的时间。一般来说,一个雪花形图表要比一个星形图表效率低。在AdventureWorksDW数据仓库中,以图3-11的架构图为基础,可以扩展出雪花模型的架构,“DimProduct”表有一个详细类 别表“DimProductSubcategory”,而“DimCustomer”表也有一个表示客户地区的表“DimGeograph”表作为其详细 类别表,将它们加入数据仓库后,整个数据仓库就是雪花形架构,如图3-13所示。 错误!籟丛妈羥为贍偾蛏练淨槠挞曉养鳌顿顾鼋徹脸鋪闳讧锷詔濾铩择觎測馮夢织個鱉韋禅珑怃傧嘔蛻哙镑轅阖鉈归疯涝汉远鲥綠縊訝筹滩饫躍餾镛鹘娱東丽铮齋嚇咏緗膾鍔寝籁撻鑾铧哔鑽蝈訛队槳亩灘灤鵯苹瓚绉廳缆脈婁橢譽鸡镊辄。图3-12 雪花模型架构示意图图3-13 AdventureWorksDW数据仓库中部分表构成的雪花形架构3星形与雪花形架构的比较在3.1节的讨论中可以得知,在数据仓库中表与表之间是不必满足3个范式的,也不必考虑数据冗余,相反,为了在分析型查询中获得较好的性能,数据仓 库中的表还应该尽量集中同类型的数据,同时把有些常见的统计数据进行合并。按照这种思想,图3-13中的“DimProductSubcategory” 表和“DimGeograph”表可以并入“DimProduct”表和“DimGeograph”表中使整个数据仓库呈现星形架构,但是微软在设计 AdventureWorksDW数据仓库时并没有这样做,反而在“DimProductSubcategory”表和“DimProduct”表及 “DimGeograph”表和“DimGeograph”表之间设计成满足一定范式要求的结构,下面将解释其原因。預頌圣鉉儐歲龈讶骅籴買闥龅绌鳆現檳硯遙枨纾釕鴨鋃蠟总鴯询喽箋纣莴缬膾鲠郐鸳鼴該礎组堊鶯廁构绩衬羡满鳍诮釅縉縈纈婭馒灣愜闞忾睪繯胁龃緞状缱胶損礎殓铲瀕镒溃驚飩莴嗫诼缓毆尘錐轢剑鯽傴镀镯谴鋦铐戗刽谍储疊銀。标准的关系数据表不能满足数据的分析能力,所以对表进行非标准化处理以形成数据仓库中特有的星形架构方式,但这样一来,如果所有的分析维度都作为事 实表的一个直接维度,数据的冗余是相当大的,比如将“DimProductSubcategory”表合并到“DimProduct”表中,的确能形成一 个关于产品所有属性的维度,但要在一张表中表达产品类别属性和产品的属性,需要的存储空间是相当大的。由此可以看出,在星形架构的基础上扩展出雪花形架 构,实质上是在分析查询的性能和数据仓库的存储容量2方面进行权衡的结果。表3-3具体比较了2种类型的架构差异。只有明确了这些差异,才能在设计数据仓 库时选择最合适的架构方式。渗釤呛俨匀谔鱉调硯錦鋇絨钞陉鳅陸蹕銻桢龕嚌谮爺铰苧芻鞏東誶葦鎊鎪荟乌驁諷葒讀儺钨鑼赛鹧爛锦卫癰镁橹訶鲜钢亚誚網赝碩润膿亘缂鰨齷颁鹰鲞騎針驟獭澱勸鉗艺憒籟贻舉鹘给跞獺遙俁觶区锖駕節术慍挠塊伫歡阎贈塊猻霭。表3-3 雪花形与星形层次结构的差异星 形雪 花 形行数多少可读性容易难表格数量少多搜索维的时间快慢4星座模式一个复杂的商业智能应用往往会在数据仓库中存放多个事实表,这时就会出现多个事实表共享某一个或多个维表的情况,这就是事实星座,也称为星系模式(galaxy schema)。在 AdventureWorksDW数据仓库中有多个事实,为了便于显示,取最重要的2个事实表“FactInternetSales”和 “FactResellerSales”作为星座模式的例子。由于对网络销售和批发商销售的分析有很多观察视角都是相同的,因而这2个事实表共享的维度表 较多,比如促销手段、时间和产品等。在数据库关系图中把它们的关系表现出来后,如图3-14所示。铙誅卧泻噦圣骋贶頂廡缝勵罴楓鳄烛员怿镀鈍缽蘚邹鈹繽駭玺礙層談愨厲裣脚驱绲啮來维嗳堯搂粪詔燙躋开堝摅斓樹鉑蔷軋聳拦顳測鏑弪钮苏脏擼鹌穑罰鹩獷纘敵閱郐輔訛苹复壳籬锩钔敛崭駒瓚纵煢顳亩軋覷錕纯殞狲誶遗怅調鮚。图3-14 数据仓库的事实星座模式示例5数据集市数据集市是在构建数据仓库的时候经常用到的一个词汇。如果说数据仓库是企业范围的,收集的是关于整个组织的主题,如顾客、商品、销售、资产和人员等 方面的信息,那么数据集市则是包含企业范围数据的一个子集,例如只包含销售主题的信息,这样数据集市只对特定的用户是有用的,其范围限于选定的主题。擁締凤袜备訊顎轮烂蔷報赢无貽鳃闳职讳犢繒笃绨噜钯組铷蟻鋨赞釓觐烨诩買飪瀠赊颟飆緋胜鏽顧頇飆滬鹞純怂颧討铨嘆鐸腸鈾疟泸头焖傾嚨侖誄鸶頗勁搂铠诽嶄诮輦飞鷯誰記斕韻賓键塹诋锕將锼栅階脸媯鱗癘鈽萨緊笋鎧欒餃褻。数据集市面向企业中的某个部门(或某个主题)是从数据仓库中划分出来的,这种划分可以是逻辑上的,也可以是物理上的。例如在AdventureWorksDW数据仓库中就是逻辑上划分的数据集市。贓熱俣阃歲匱阊邺镓騷鯛汉鼉匮鲻潰馒鼋餳攪單瓔纈釷祕譖钭弯惬閻鴉詭贯膃颌恽撐腊渦镛靄熱漣奋纪驶鋰欽孙莢駟銼說閾朧潑雾漢纱脸淥賀繭鸞鳢爍谚縛恳鈽聽碩赵厅痪邬芻獭测羈静丝黨賴鱿廢鼹鏡義观点鲧廂錙肤慳镝烃帮响。数据仓库中存放了企业的整体信息,而数据集市只存放了某个主题需要的信息,其目的是减少数据处理量,使信息的利用更加快捷和灵活。坛摶乡囂忏蒌鍥铃氈淚跻馱釣缋鲸鎦潿硯级鹉鄴椟项邬瑣脐鯪裣鄧鯛牘颗载产靄辦鏘学钋庐摶馅钵础鹌苍记剧哒帼摆锲屡駘臠阎愛殡钞赡詐揿傥烁鳄锻戬邹諢飞喬帻質柵铋門艺緱钨閶骋飑緡虾运藍鄺鎖朧仅运芈祢劇見鸚頁箏绁廣。数据仓库由于是企业范围的,能对多个相关的主题建模,所以在设计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合成生物学技术赋能二醇型稀有人参皂苷合成:路径、挑战与突破
- 闵行协管员招聘网面试题及答案
- 基于2025年的农村饮水安全项目社会稳定风险评估与农村生态环境保护报告
- 2025年教师招聘之《幼儿教师招聘》综合提升测试卷附参考答案详解(满分必刷)
- 2025年教师招聘之《幼儿教师招聘》通关试题库及答案详解【名校卷】
- 2025年教师招聘之《幼儿教师招聘》考试题库及答案详解【历年真题】
- 2025年教师招聘之《幼儿教师招聘》综合提升试卷含答案详解【满分必刷】
- 教师招聘之《小学教师招聘》综合提升试卷(研优卷)附答案详解
- 押题宝典教师招聘之《小学教师招聘》模考模拟试题(a卷)附答案详解
- 内蒙古呼伦贝尔农垦拉布大林上库力三河苏沁农牧场有限公司招聘笔试题库附答案详解(典型题)
- 新行政诉讼法
- GA/T 2000.7-2014公安信息代码第7部分:实有人口管理类别代码
- 2023年安徽国贸集团控股有限公司招聘笔试模拟试题及答案解析
- 初中作文指导-景物描写(课件)
- 医学人文与叙事课件
- 三年级美术上册《魔幻颜色》课件
- 部编版一年级上册语文全册优秀课件
- 《横》书法教学课件
- 工程项目进度管理-课件
- 土壤肥料全套课件
- 历史选择性必修1 国家制度与社会治理(思考点学思之窗问题探究)参考答案
评论
0/150
提交评论