版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商业智能核心技术与应用数据仓库设计数据仓库的基本概念数据仓库是面向主题的、集成的、稳定的、随时间不断变化的数据库系统。它介于数据源与多维数据库之间,起到承上启下的作用。数据仓库是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现方法来帮助决策支持。数据源数据仓库决策数据仓库的设计理念在设计仓库数据库之初把用户的分析需求纳入考虑范围是十分有必要的。同时,数据仓库的构建必需基于业务数据库,业务数据源的结构也是不得不考虑的问题。因此在设计数据仓库的时候,应该坚持用户驱动与数据驱动相结合的设计理念。业务数据模型设计的设计范式1NF
如果一个表中没有重复组(即行与列的交叉点上只有一个值,而不是一组值),且定义了关键字、所有非关键属性都依赖于关键字,则这个表属于第一范式(常记成1NF)
2NF
如果一个表属于1NF,且不包含部分依赖性,既没有任何属性只依赖于关键字的一部分,则这个表属于第二范式(常记成2NF)。3NF
如果一个表属于2NF,且不包含传递依赖性(即没有一个非关键属性依赖于另一个非关键属性,或者说没有一个非关键属性决定另一个非关键属性),则这个表是第三范式(常记成3NF)。业务数据模型设计的ER图表示ER模型(实体联系模型)简称ER图。它是描述概念世界,建立概念模型的实用工具。ER图包括三个要素:实体、属性、实体之间的联系联系归结为三种类型:
一对一联系(1:1)
设A、B为两个实体集。若A中的每个实体至多和B中的一个实体有联系,反过来,B中的每个实体至多和A中的一个实体有联系,称A对B或B对A是1:1联系。一对多联系(1:n)
如果A实体集中的每个实体可以和B中的几个实体有联系,而B中的每个实体至我和A中的一个实体有联系,那么A对B属于1:n联系。多对多联系(m:n)
若实体集A中的每个实体可与和B中的多个实体有联系,反过来,B中的每个实体也可以与A中的多个实体有联系,称A对B或B对A是m:n联系。
多对多联系举例统计特征FatLeanUglyWealthy统计特征客户客户统计特征销售Fact客户统计特征JohnFatRichardLeanJohnUglyRichardWealthy客户JohnRichardCristian客户销售额John1.0Richard3.0Cristian10.0每个统计特征对销售人员来说是怎么样的呢?统计特征销售额AllDemographics14.0Fat1.0Lean3.0Ugly1.0Wealthy3.0数据仓库模型设计最佳实践数据仓库模型设计主要分三个阶段:1、概念设计2、逻辑设计3、详细设计并分别产生三类设计模型1、主题域模型2、业务数据模型3、物理模型数据仓库模型设计采用迭代式开发,这一点也符合数据仓库系统迭代开发的特点。它具有较好的灵活性和易变性,适应于主题不明确或不确定的需求。概念设计数据仓库是面向主题来组织数据,一个数据仓库有若干个主题,而每个主题又有一个数据集合体做支撑,这个数据集合称为主题域。概念设计的中心工作是在需求分析基础上设计的主题域模型。主体域模型是客观到主观之间的桥梁,是与硬件环境、软件选择无关的数据抽象模型,是为下一步建立业务数据模型、物理模型服务的概念性工具。主题域具有两个特性1、独立性,即主题域具有明确的边界与独立的内涵,虽然主题间可以有交叉,但不影响其独立性。2、完备性,即每个主题的分析要求所需的数据均应能在主题域中得到。采用概念数据模型设计就是要设计主题域的数据结构。数据仓库项目的主题域模型示例逻辑设计逻辑设计设设计到的知知识点包括括:业务数据模模型设计的的建模对象象应包含实实体、属性性、关键字字和联系。。业务数据模模型设计应应该遵守规规范化准则则:即第三三范式设计计准则。业务数据模模型的ER图表示法。。逻辑设计的的中心工作作是设计业业务数据模模型,业务务数据模型型是用具体体的软件结结构来实现现概念数据据模型。目前数据仓仓库一般是是建立在关关系数据库库基础上,,因此数据据仓库的设设计中采用用的业务数数据模型就就是关系模模型。业务数据模模型设计的的建模对象象实体我们把客观观存在并且且可以相互互区别的事事物称为实实体。实体体可以是实实际事物,,也可以是是抽象事件件。属性描述实体的的特性称为为属性。关键字如果某个属属性值能唯唯一地标识识出实体集集中的每一一个实体,,可以选作作关键字。。联系实体集之间间的对应关关系称为联联系,它反反映现实世世界事物之之间的相互互关联。联联系分为两两种,一种种是实体内内部各属性性之间的联联系。另一一种是实体体之间的联联系。逻辑设计方方法—定义实体体主题域主题实体粒度类型说明生皮分选物料物料物料代码,唯一标识每种物料维度物料分类物料分类代码,唯一标识每种物料分类维度分选结果分选结果物料代码*仓库*供应商*产地*皮种量度组逻辑设计方方法—定义实体体层级日月季年物料物料分类供应商逻辑设计方方法—定义量度度组主题域量度组量度聚合计算公式说明生皮分选分选结果分选结果数量累加财务员工员工工资平均逻辑设计方方法—定义关系系主题实体采购分选结果预算日期日**月*季年物料物料**物料分类逻辑设计的的关键因素素粒度特例详细设计物理模型是是从业务数数据模型创创建而来的的,建立物物理模型通通过扩展业业务数据模模型,使模模型中包含含关键字和和物理特性性。物理模型设设计包括::设计存储结结构——创建实体设计索引策策略——创建索引设计存储策策略——创建分区设计存储结结构——创建实体创建物理实实体表视图约束创建事实表只包括主键键、外键和和度量事实表一个OLAP模型可以有有多个事实实表事实表经常常有millionsofrows事实往往是是数字‘量度’有些事实可可以被累加加,另一些些不能最小粒度原原则不欢欢迎迎描描述述性性属属性性((瘦瘦高高vs.矮胖胖))创建建维维度度表维度度描描述述事事实实逻辑辑上上通通过过key关联联维度度表表往往往往包包含含相相当当多多的的属属性性典型型的的属属性性是是文文本本的的、、离离散散的的维度度往往往往含含有有层层次次主键键往往往往是是系系统统产产生生的的primarykey很可可能能是是共共享享的的维度度表表设设计计常规规维维度度主键键代理理键键((可可选选))名称称排序序键键((可可选选))自定定义义汇汇总总公公式式((可可选选))父子子维维度度父键键一元元运运算算符符((可可选选))数据据仓仓库库的的星星型型结结构构Employee_DimEmployeeKeyEmployeeID...EmployeeKeyTime_DimTimeKeyTheDate...TimeKeyProduct_DimProductKeyProductIDProduceNameProductBrandProductCategory...ProductKeyCustomer_DimCustomerKeyCustomerID...CustomerKeyShipper_DimShipperKeyShipperID...ShipperKeySales_FactTimeKeyEmployeeKeyProductKeyCustomerKeyShipperKeyUnitsPrice...TimeKeyCustomerKeyShipperKeyProductKeyEmployeeKey多个外键事实维度键数据仓库库的雪花花型结构构二级维度度表Sales_FactTimeKeyEmployeeKeyProductKeyCustomerKeyShipperKeyUnitsPrice...Product_Brand_IdProductBrandProductCategoryIDProduct_Category_IdProductCategoryProductCategoryIDProduct_DimProductKeyProductNameProductSizeProductBrandID主维度表表雪花型结结构的特特点节省存储储空间一定程度度上的范范式星型vs.雪花型Whichoneisbetter?长期以来来的争论论两种观点点各有支支持者争论在继继续……目前看来来,大部部分更加加倾向于于星型支持星型型维度的的论点事实表总总会是很很大的,,在维度度表上节节省的空空间相对对来说是是很小的的增加了数数据模型型的复杂杂度查询操作作概念上上更复杂杂了从数据仓仓库到多多维数据据库的加加载时间间会更长长因此,只只有当维维度表极极大,存存储空间间是个问问题时,,才考虑虑雪花型型维度简而言之之,最好好就用星星型维度度即可支持雪花花型维度度的论点点从数据仓仓库到多多维数据据库的加加载过程程中,雪雪花型维维度的效效率更高高。雪花型维维度描述述了更清清晰的层层次概念念。只有当最最终用户户可能直直接访问问数据仓仓库时才才考虑星星型。((而这是是不被建建议的))。思考:PrimaryKey与KeyPrimaryKeykeyNameColorSizeDescription1A001捷达银灰…………2B003宝马火红…...……3C010切诺基宝石蓝…………………………………………本身已经经有了Key的标识以以后,是是否还需需要PrimaryKey?技巧:创创建数字字主键数字之间间的比较较永远比比字符比比较快得得多。物理存储储时,数数字简单单得多,,因为它它们长度度一样。。字符则则不同。。内存中,,字符占占的空间间大得多多。(4byte的指针+文本长度度*2(Unicode)+2。数字则则仅有4bytes支持变化化维度注意维度表与与事实表表不是绝绝对的同一个表表,可以以同时是是维度表表与事实实表同一个表表,可以以有时是是维度表表,有时时是事实实表创建“父父子型””维度EmployeeManagerTheBoard<None>SteveBTheBoardBillGTheBoardJimAllSteveBPaulMaSteveBBobMuSteveBTodNPaulMaDavidVPaulMaPaulFleDavidV父子维度度缓慢变化化维不变化更新新增举例:当当某销售售人员从从一个部部门调至至另一个个部门,,他的历历史业绩绩该如何何核算??创建物理理模型主键:PK_,,整型自自增外键:FK_排序键::Sort_字符类型型:nvarchar量度类型型:float、numeric创建视图图、约束束视图尽量少用用或不用用视图,,以避免免意想不不到的逻逻辑陷阱阱约束尽量使用用约束,,以确保保数据的的完整性性。正确确的数据据所带来来的益处处会远远远大于ETL性性能的损损失。设计索引引策略——创建索引引创建索引引用以提提高查询询速度避免索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年全民健康生活方式知识竞赛试题及答案
- 2025-2026学年教科版五年级科学上册期中测试题卷及答案解析
- 浙江协议书合同咨询平台
- 慢性持续哮喘急性发作的药物预防策略
- 慢性咳嗽的强化治疗策略
- 感染暴发中的疫苗接种策略与效果评估
- 感染性休克免疫调节个体化策略
- 患者隐私权与医疗公共利益的平衡策略
- 物料提升机安装及附墙方案
- 患者隐私保护满意度提升策略
- 保安服务礼仪培训课件
- 天津轨道交通集团秋招试题及答案
- 危急值报告制度全流程管理与临床实践指南
- 2025年关于中国社会科学杂志社总编室(研究室)公开招聘5人的备考题库及答案详解1套
- 加油站后备站长培训成果
- 西交利物浦大学《马克思主义基本原理概论I》2024-2025学年期末试卷(A卷)
- 2025黑龙江土木与交通学院实验技术派遣人才招聘3人考试笔试备考试题及答案解析
- 2025贵州省山地智能农机产业发展有限公司招聘15人笔试考试备考题库及答案解析
- GB/T 6003.1-2022试验筛技术要求和检验第1部分:金属丝编织网试验筛
- YY/T 1269-2015血液透析和相关治疗用水处理设备常规控制要求
- GB/T 17619-1998机动车电子电器组件的电磁辐射抗扰性限值和测量方法
评论
0/150
提交评论