下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
每⽇⼀练5道数据仓库建模⾯试题来源:CSDN作者:数据分析⼩Y每⽇⼀练如果要对数据分析⾯试题进⾏归纳总结,基本可以分为三⼤类,分别是技术题、逻辑思维题、业务场景题。本栏⽬旨在为⼩伙伴们分享常考/经典的数据分析⾯试题,⼤家在学习之余也可以进⾏⾃测,巩固学习成果(⽂末赠送学习资料)今⽇,我们就数据仓库建模部分总结了5道经典的⾯试题,⼀起测测吧!1什么叫数据仓库?数据仓库的特点?⾸先,⽤于⽀持决策,⾯向分析型数据处理,它不同于企业现有的操作型数据库;其次,对多个异构的数据源有效集成,集成后按照主题进⾏了重组,并包含历史数据,⽽且存放在数据仓库中的数据⼀般不再修改。数据仓库是⼀个⾯向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,它⽤于⽀持企业或组织的决策分析处理。2数据仓库和数据库有什么区别?事务性数据库和决策⽀持数据库的区别,当然包括⽬标、⽤途、设计等等1.数据是⾯向事务处的,数据是由⽇常的业务产⽣的,常更新;数据仓库是⾯向主题的,数据来源于数据库或⽂件,经过⼀定的规则转换得到,⽤来分析的。2.数据库⼀般是⽤来存储当前交易数据;数据仓库存储⼀般存储的是历史数据。3.数据库的设计⼀般是符合三范式的,有最⼤的精确度和最⼩的冗余度,有利于数据的插⼊;数据仓库的设计⼀般是星型的,有利于查询。3数据仓库的基本架构是什么?数据源,ETL,datastage,ODS,datawarehouse,datamart,OLAP等等,可能为针对每⼀个结构进⾏发问啊1.数据源是数据仓库系统的数据源泉,通常包括企业各类信息,包括存放于RDBMS中的各种业务处理数据和各类⽂档数据;各类是数据仓库系统的数据源泉,通常包括企业各类信息,包括存放于RDBMS中的各种业务处理数据和各类⽂档数据;各类法律法规、市场信息和竞争对⼿的信息等等;2.数据的存储与管理数据的存储和管理是整个数据仓库的核⼼,是关键。数据仓库的组织管理⽅式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。从数据仓库的技术特点着⼿分析,来决定采⽤什么产品和技术来建⽴数据仓库,然后针对现有各业务系统的数据,进⾏抽取、清理,并有效集成,按照主题进⾏组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。3.OLAP服务器对需要的数据进⾏有效集成,按多维模型予以组织,以便进⾏多⾓度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。•ROLAP基本数据和聚合数据均存放在RDBMS之中;•MOLAP基本数据和聚合数据均存放于多维数据库中;•HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。4.前端⼯具主要包括各查询⼯具、数据分析⼯具、数据挖掘⼯具、种报表⼯具以及各种基于数据仓库或数据集市的应⽤开发⼯具。数据分析⼯具主要针对OLAP服务器。报表⼯具、数据挖掘⼯具主要针对数据仓库。4模型设计的思路、业务需求与数据驱动构造数据仓库有两种⽅式:•⾃上⽽下•⾃下⽽上BillInmon先⽣推崇“⾃上⽽下”的⽅式,即⼀个企业建⽴唯⼀的数据中⼼,就像⼀个数据的仓库,其中数据是经过整合、经过清洗、去掉脏数据的、标准的,能够提供统⼀的视图。要建⽴这样的数据仓库,并不从它需要⽀持哪些应⽤⼊⼿,⽽是要从整个企业的环境⼊⼿,分析其中的概念,应该有什么样的数据,达成概念完成整;(会考虑到很全⾯的设计)RalphKimball先⽣推崇“⾃下⽽上”的⽅式,他认为建设数据仓库应该按照实际的应⽤需求,加载需要的数据,不需要的数据不要加载到数据仓库中。这种⽅式建设周期较短,客户能够很快看到结果。(针对客户的需求,需求要什么就做什么)⼆者都要达到同⼀个⽬标:企业级数据仓库。实际上在建设数据仓库的时候,⼀般都参照这两种⽅式结合使⽤没有硬性规定。5模型设计的步骤
构建企业级数据仓库五步法:1.确定主题即确定数据分析或前端展现的主题。主题要体现出某⼀⽅⾯的各分析⾓度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑。2.确定量度确定主题后,需要考虑分析的技术指标。它们⼀般为数据值型数据,其中有些度量值不可以汇总;有些可以汇总起来,以便为分析者提供有⽤的信息。量度是要统计的指标,必须事先选择恰当,基于不同的量度可以进⾏复杂关键性指标(KPI)的设计和计算。3.确定事实数据粒度确定量度之后,需要考虑该量度的汇总情况和不同维度下量度的聚合情况。例如:在业务系统中数据最⼩记录到秒,⽽在将来分析需求中,时间只要精确到天就可以了。在ETL处理过程中,按天来汇总数据,些时数据仓库中量度的粒度就是”天”。如果不能确认将来的分析需求中是否要精确的秒,那么,我们要遵循”最⼩粒度原则”。在数据仓库中的事实表中保留每⼀秒的数据,从⽽在后续建⽴多维分析模型(CUBE)的时候,会对数据提前进⾏汇总,保障产⽣分析结果的效率。4.确定维度维度是分析的各个⾓度。例如:我们希望按照时间,或者按照地区,或者按照产品进⾏分析。那么这⾥的时间,地区,产品就是相应的维度。基于不同的维度,可以看到各个量度汇总的情况,也可以基于所有的维度进⾏交叉分析。维度的层次(Hierarchy)和级别(Level)。例如:在时间维度上,按照”度-季度-⽉”形成了⼀个层次,其中”年”,”季度”,”⽉”成为了这个层次的3个级别。我们可以将“产品⼤类-产品⼦类-产品”划为⼀个层次,其中包含“产品⼤类”、“产品⼦类”、“产品”三个级别。我们可以将3个级别设置成⼀张数据表中的3个字段,⽐如时间维度;我们也可以使⽤三张表,分别保存产品⼤类,产品⼦类,产品三部分数据,⽐如产品维度。建⽴维度表时要充分使⽤代理键。代理键是数据值型的ID号码(每张表的第⼀个字段),它唯⼀标识了第⼀维度成员。在聚合时,数值型字段的匹配和⽐较,join效率⾼。同时代理键在缓慢变化维中,起到了对新数据与历史数据的标识作⽤。5.创建事实表在确定好事实数据和维度后,将考虑加载事实表。业务系统的的⼀笔笔⽣产,交易记录就是将要建⽴的事实表的原始数据。我们的做法是将原始表与维度表进⾏关联,⽣成事实表。关联时有为空的数据时(数据源脏),需要使⽤外连接,连接后将各维度的代理键取出放于事实表中,事实表除了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 咸阳市渭城区2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 张家口市万全县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 东莞市东城区2025-2026学年第二学期四年级语文第四单元测试卷(部编版含答案)
- 山南地区琼结县2025-2026学年第二学期三年级语文第五单元测试卷部编版含答案
- 玉树藏族自治州杂多县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 思茅市思茅市2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 太原市晋源区2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 培训站建设计划方案
- 深度解析(2026)《2026-2027年支持实时操作系统与功能安全的微控制器内核IP在汽车与工业领域成为标准获芯片设计公司广泛授权与生态投资》
- 育人论文题目及答案高中
- 和谐婚姻家庭知识讲座
- 宠物腹部手术-胃切开术
- 宠物腹部手术-肠管侧壁切开术
- 2022-2023学年六年级下册综合实践活动茶与生活(说课稿)
- 丙戊酸镁缓释片及其制备工艺
- 警惕病从口入-课件
- 各大名校考博真题及答案心内科部分
- 中药与食物的关系药食同源
- 杭州电子科技大学-计算机学院-计算机科学与技术(学术)培养方案
- 新人教版五年级下册数学(新插图)练习六 教学课件
- GB/T 23901.2-2019无损检测射线照相检测图像质量第2部分:阶梯孔型像质计像质值的测定
评论
0/150
提交评论