版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一课 昨夜西风凋碧树。独上高楼,望尽天涯路王国维在人间词话说:“古今之成大事业、大学问者,必经过三种之境界:昨夜西风凋碧树。独上高楼,望尽天涯路。此第一境也。衣带渐宽终不悔,为伊消得人憔悴。此第二境也。众里寻他千百度,蓦然回首,那人却在,灯火阑珊处。此第三境也。”王国维认为治学第一境界:“昨夜西风凋碧树。独上高楼,望尽天涯路昨夜西风凋碧树。独上高楼,望尽天涯路”,这词句出晏殊的蝶恋花,原意是说,“我”上高楼眺望所见的更为萧飒的秋景,西风黄叶,山阔水长,案书何达?在王国维此句中解成,做学问成大事业者,首先要有执着的追求,登高望远,瞰察路径,明确目标与方向,了解事物的概貌。王的治学第二境界是说:
2、“衣带渐宽终不悔,为伊消得人憔悴衣带渐宽终不悔,为伊消得人憔悴。”这引用的是北宋柳永蝶恋花最后两句词,原词是表现作者对爱的艰辛和爱的无悔。若把“伊”字理解为词人所追求的理想和毕生从事的事业,亦无不可。王国维以此两句来比喻成大事业、大学问者,不是轻而易举,随便可得的,必须坚定不移,经过一番辛勤劳动,废寝忘食,孜孜以求,直至人瘦带宽也不后悔。王的治学第三境界是说:“众里寻他千百度,蓦然回首,那人却在,灯火阑珊处众里寻他千百度,蓦然回首,那人却在,灯火阑珊处。”是引用南宋辛弃疾青玉案词中的最后四句。王国维以此词最后的四句为“境界”之第三,即最终最高境界。要达到第三境界,必须有专注的精神,反复追寻、研
3、究,下足功夫,自然会豁然贯通。课程安排(一)总学时:15学时,其中12学时理论,3学时联系,课后作业估计有5学时(二)考核方法: 平时考勤:30分 理论答题:30分 随堂练习:20分 课后作业:20分(三)教材 数据仓库生命周期工具箱kimball等著,清华大学出版社 数据仓库工具箱-维度建模权威指南,kimball等著,清华大学出版社(四)教学方法 讲师讲解课程,布置家庭作业(利用网络资源完成讲师制定任务); 随堂作业,现场完成作业 结业考试,检查教学成果 综合练习,提升学习成果目目23456数据仓库是一个解决方案数据仓库几种常见架构数据仓库类项目中人员配置个人职业发展规划建议汇聚数据财富
4、挖掘潜力无限录录初识数据仓库-基本概念1Kimball生命周期导图小明的大学生活小明学籍管理系统图书管理系统机房管理系统选课管理系统食堂管理系统校园监控系统学院活动管理系统医务室管理系统学号,姓名,籍贯,性别,年龄,入学时间,毕业时间,院系,辅导员,班级,.学号,姓名,图书编码,图书名称,图书类别,借阅时间,应还日期,是否损坏,赔款记录ID.学号,机房编码,登记时间,机器编码,练习课程,会员卡号,预存金额,欠款,罚款记录ID,组织教师,院系,.学号,姓名,院系,必选课标识,课程编码,教师,学期,选课时间,考核是否通过.刷卡流水号,饭卡编码,学号,姓名,院系,菜谱编码,菜谱系列,价格,食堂窗口I
5、D学号,姓名,院系,寝室编码,辅导员,外出时间,进入时间,是否寝室熄灯时间活动ID,活动名称,学号,姓名,组织者,活动时间,活动地点,活动事由,等级流水,学号,姓名,院系,辅导员,疾病,药品,单价,数量,支付方式,医生,时间,你们认识小明吗?小明,男,南京人,父母在职,数学系五班,大二,辅导员李华.小明,喜欢吃混沌,口味便辣,每周必有三次吃拉面,每半月吃3一次鱼,几乎每个2天吃一次肉类食物,体重75KG,身高170,偏胖,需要改善食物结构.小明,每周二、四、六、日,22点后回校,在外承接的家教任务,家境条件困难,申请贫困奖学金.小明,学习成绩良,离散数学成绩不好,统筹学成绩最佳,有3们课程优秀
6、,1门课程挂科,体育成绩一般.小明,身体健康状况正常,颈椎僵硬.小明,多在晚上7点30分进入图书馆自习,虽然是数学系,但喜欢历史和物理,本学期借阅历史书籍32次,物理数据28次.小明,积极参加课外活动,涉及足球、演讲比赛、围棋,曾获得班级级别奖励5次,其一等奖1次,二等奖2层i,院系级奖励1次小明参加工作5年后的求职简历知识导引 什么是数据仓库? 什么是DSS? 什么是经营分析? 什么是EIS? 什么是OLTP,OLAP? 什么是BI?即席查询报表即席查询报表特殊抽特殊抽取程序取程序小应用小应用程序程序信息中信息中心心决策支决策支持系统持系统主管信主管信息系统息系统数据仓库系数据仓库系统统BI
7、90年代提出,年代提出,90年代中形年代中形成潮流成潮流BIBI描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。 Gartner Group1996Gartner Group1996商业智能领域:商业智能领域:DSSDSS、OLAPOLAP、数据仓库、数据仓库、ETLETL、数据集市、数据挖掘、商业建模、数据集市、数据挖掘、商业建模.为提高企为提高企业运营性能而采用的一系列方法、技术和软件的总和业运营性能而采用的一系列方法、技术和软件的总和70年代年代70年代提出,年代提出,80年代得到年代得到
8、发展发展数据仓库产生背景需求的变化业务系统的建设逐渐完善分析类需求不断增加不断增加的信息孤岛导致数据集成问题不断增加技术发展状况关系数据库技术日趋成熟报表和复杂查询处理起来非常困难各个系统之间数据不一OLTP系统(生产系统)面向应用事务驱动的实时性高数据检索量相对少只存当前数据数据仓库系统(决策系统)面向主题分析和决策实时性要求不是特别高数据检索量大存储大量的历史数据和当前数据数据仓库为用户提供多样的功能需求数据仓库理论的形成数据仓库的定义数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volat
9、ile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。 -BillInmon什么是数据仓库相关概念以Data Warehouse技术为基础,以OLAP和Data Mining工具为手段实施的一套解决方案。 DSS(Decision Support System)相关概念EIS:主管信息系统(Executive Information System),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。ETL:数据抽取(Extract)、转换(Transform)、
10、装载(Load)的过程。它是构建数据仓库的重要环节。Data Mart为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数(subjectarea)。经营分析系统: Business Analysis Support System。元数据:元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为技术元数据、业务元数据和管理元数据。数据质量:数据质量管理平台能够使得数据质量管理流程自动化、集中化、智能化自动化、集中化、智能化ROLAP(关系型在线分析处理)MOLAP(多维在线分析处理)HOLAP(混合型线上分析处理)。数据仓库的特点面向主题:
11、面向主题:操作型数据库的数据组织面向事物处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。例如:当事人、协议、机构、财务、事件、产品等主题。集成的:集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定的:相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
12、反映历史变化:反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。MedicaidWelfareMental HealthChild Services分布式分布式(数据集市数据集市)集中式集中式(数据仓库数据仓库)MedicaidWelfareMental HealthChild ServicesEmployeesClient ServicesProgram EffectivenessDistrict OfficesCostsEligibility数据仓库
13、与数据集市的业务分析能力DW/DM的流派之争:Bill Inmon与Ralph Kimball双方的观点 围绕主题来组织数据仓库中的数据,每个主题区域仅仅包含该主题相关的信息;数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,创建以数据仓库为来源的数据集市 数据仓库是数据集市的联合,通过一系列相同维度定义的数据集市递增地构建数据仓库,而每个数据集市通过联合多个数据源来满足特定的业务需求自上而下自下而上和自上而下的结合:双方的观点 使用数据集市联合的方式,开始会带来极高的用户体验,但随着数据集市的增多,会形成网状结构,建设重复,数据质量变差。 使用数据总线的结构来控制数据集市点建设,
14、所有的数据集市在一套总线环境中,有相同的维度定义,故既可以迅速部署、满足业务需求,也可以规范的形成数据仓库InmonKimball 维度:维度:对数据进行分类的一种结构,用于从特定的角度观察数据对数据进行分类的一种结构,用于从特定的角度观察数据。(例如:时间、地区、产品)例如:时间、地区、产品)维度的维度的两个用途两个用途选择针对期望详细程度的层次的数据分组对细节数据综合(聚集)到相应的详细程度的数据层次维的组织方式:维层次路径(HIERARCHY )维层次路径由代表不同详细程度的维层次(Level)组成。维的层次:特定角度的不同细节程度基本概念-维度度量(指标):数据的实际意义,一般是一个数
15、值度量指标例如:销售量、销售额,一个度量的两个组件数字型指标聚集函数CUBE:一个多维模型构成的多维数据空间我们将其称做数据立方体(Cube)其逻辑上相当于一个多维数组基本概念-度量& cube这个方格代表在某个时间、这个方格代表在某个时间、某个地区通过某个销售渠道某个地区通过某个销售渠道所销售的产品的销售额所销售的产品的销售额基本概念-多维数据模型多维模型通常用Cube来表示。多维模型可以更加直观的表示现实中的复杂关系多维模型的基本组成:维、度量。举例:计算每一个商场、每个产品的销售额维(Dimension),维层次路径、维层次、维成员(维实例)、维层次属性度量(Measure)数据立方体(
16、Cube)切片Slice基本概念-多维分析基本动作:切片、切块切块Dice旋转Rotate基本概念-多维分析基本动作:旋转、钻取钻取Roll up / Drill down基本概念-多维数据模型的实现技术Relational OLAP (ROLAP)利用关系数据库来存储和管理基本数据和聚合数据,并利用一些中间件来支持缺失数据的处理具有良好的可扩展性Multidimensional OLAP (MOLAP)利用多维数据库来存放和管理基本数据和聚合数据,其中需要对稀疏矩阵处理技术对预综合的数据进行快速索引Hybrid OLAP (HOLAP)利用关系数据库来存储和管理基本数据,利用多维数据库来存储
17、和管理聚合数据。基本概念-OLTP与OLAPn 针对特定问题的联机数据访问和数据分析技术 n 满足对数据进行多角度、快速、一致、交互、深入观察 n 使用预定义的多维数据视图对数据进行分析处理,支持对数据的切片、切块、钻取。n 多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。 也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(Real time System)。衡量联机事务处理系统的一个重要
18、性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。On-Line Analytical ProcessingOn-Line Transaction ProcessingpMOLAP表示基于多维数据组表示基于多维数据组织的织的OLAP实现实现(Multidimensional OLAP)pROLAP表示基于关系数据库表示基于关系数据库的的OLAP实现(实现(Relational OLAP)ROLAPMOLAP沿用现有关系数据库技术专
19、用技术响应速度相对molap要慢性能好,响应速度快数据转载计算速度快数据转载速度慢存储空间耗费小,维数没有限制需要进行预计算,可能导致数据爆炸,维数有限,无法支持维的动态变化借助rdbms对数据存储,无文件大小限制受操作系统平台文件大小限制,难以达到tb级可以通过sql语句实现详细数据和概要数据的存储缺乏数据模型和数据访问的标准不支持预计算的读写操作无法完成维之间的运算无法完成多行计算支持高性能的决策支持计算复杂的跨维计算多用户读写操作行级计算ROLAP vs MOLAP基本概念-星型模式(Star Schema)星形模式星形模式是一种多维的数据关系,它由一个事实表(FactTable)和一组
20、维表(DimensionTable)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算,甚至可以做2080分析。这样就可以从不同的角度数字来分析业务主题的情况。基本概念-雪花模式(Snow Flake Schema)雪花模型,当有一个或多个维表没有直接连接到事实表上,而是
21、通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 层次 区域,这些被分解的表都连接到主维度表而不是事实表。相比星型模型,雪花模型的特点是贴近业务,数据冗余较少,但由于表连接的增加,导致了效率相对星星模型来的要低一些基本概念-事实星座形事实星座形,一种常见的数据仓库的概念模型。这种模型往往应用于数据关系比星型模型和雪花模型更复杂的场合。事实星座模型需要多个事实表共享维度表,因而可以视为星形模型的集合,故亦被称为星系模型基本概念-数据架构数据架构包含内容有:1)数
22、据流架构,设计数据流层次及每个层次间的关系2)数据管理架构,需要依据数据使用频率和价值考虑历史存储方式;存储粒度,数据集市的粒度与事实表的冗余;3)业务数据架构,设计模型时,需要考虑表的拆分与合并,字段的派生与去冗;关注业务过程;4)数据安全架构,一般安全管理分为操作系统级、数据库级、Schema级、表/视图级、数据级(行数据),以及BI界面控制级别、CUBE控制等多个层次。这里主要说的是数据行级。基本概念-元数据 基本概念v元数据是描述数据的数据,其内容主要包括数据的格式、结构、约束、加工过程、部署情况等。 v元数据管理包括元数据采集与关联、元数据信息维护、标准代码及术语信息维护等内容。对元
23、数据的分析包括血缘分析、影响分析等。元数据元数据业务元数据业务元数据业务属性业务实体数据质量业务规则技术元数据技术元数据列/字段表/视图/文件数据库/文件服务器数据质量控制规则数据映射逻辑业务指标企业级数据模型/数据规范定义数据质量贷款余额的定义贷款合同的定义还款日期贷款日期CAPMCURBALCAPMdb2、sybase、oracleLen(身份证)=15或18ETL过程不良贷款率的口径指标体系、报表体系数据质量包含子项示例关联工作数据架构Data WarehouseArtificialIntelligenceData MartOLAPDecision Support SystemData
24、MiningOperation DatabaseBusiness Intelligent SystemDatabase System各种概念之间的关系作业一:搜集右图中涉及的概念含义,提交数据仓库相关重要术语定义。作业二:企业什么样要建立数据仓库?提交一页纸内容进行说明目目23456数据仓库是一个解决方案数据仓库几种常见架构数据仓库类项目中人员配置个人职业发展规划建议汇聚数据财富 挖掘潜力无限录录初始数据仓库-基本概念1Kimball生命周期导图数据仓库是一个建设过程,不是一个产品,是一个持续的过程35数据仓库是一个解决方案: 多层结构体现可扩展架构DataWarehouseExtractTr
25、ansformLoadRefreshOLAP 引擎AnalysisQueryReportsData miningMonitor&IntegratorMetadata数据源前端工具ServeData MartsOperational DBsOthersources数据存储OLAP Server数据仓库解决方案-群雄逐鹿1数据仓库解决方案-群雄逐鹿2数据仓库解决方案-群雄逐鹿3数据仓库解决方案-工欲善其事,必先利其器(商业工具篇)建模工具:Powerdesigner、ErwinETL工具:用于数据的集成和处理Datastage、Infomatic、Automation数据质量工具:一般集成在ETL
26、工具中分析工具:u报表工具:BO、COGNOS、安讯、润乾、BRIOuOLAP工具:COGNOS、BOBI分析门户:一般集成在分析工具中数据挖掘工具:SAS、SPSS元数据管理工具:metacenter、石竹、CA、Infomatic数据仓库解决方案-工欲善其事,必先利其器(开源工具篇-报表工具)uEclipse Eclipse BIRTBIRT Eclipse下面的一个企业智能和报表 工具,能为J2EE的WEB应用程序创建漂亮醒目的PDF或者HTML格式的报表,它提供了核心的报表功能uJasperReportsJasperReports Java报表工具,始于2001,现在JasperSof
27、t公司持续开发和支持该工具。该工具类似于商业软件Crystal Report,支持PDF、HTML、XLS、CSV和XML文件输出格式,现在是Java开发者最常用的报表工具。uJFreeReportJFreeReport 现在是Pentaho的一部分,它是一个优秀的用来生成报表的Java类库。它为Java应用程序提供一个灵活的打印 功能并支持输出到打印机和PDF, Excel, HTML和XHTML, PlainText, XML和CSV文件中。uMondrianMondrian 是Pentaho的一部分,为一个用Java开发的OLAP服务器,实现了MDX语言、XML解析和JOLAP规范,可以
28、不写SQL就能分析存储于SQL 数据库的庞大数据集,可以封装JDBC数据源并把数据以多维的方式展现出来uJPivotJPivot 一个JSP 自定制的标签库,可以绘制一个OLAP表格和图表。用户可以执行 典型的OLAP导航,如下钻,切片和方块。它使用Mondrian 作为其OLAP服务器。它使用WCF (Web Component Framework) ,基于XML/XSLT来渲染Web UI组件。uKETL 由具有IBM和KPMG背景的Kinetic Networks公司开发,现在已经有三年多的产品应用历史,成功应用于一些产品中,在点击流(ClickStream)分析应用中表现出色。KETL
29、采用Plug-in的架构,使用Java开发uKETTLE 一个元数据驱动的ETL工具。已经加入Pentaho。uClover ETL 一个基于Java的ETL Framework,可以用来开发自己的ETL应用uEnhydra Octopus 一个基于Java的ETL工具,使用JDBC来连接各种数据源,易于使用和部署。数据仓库解决方案-工欲善其事,必先利其器(开源工具篇-ETL工具)Pentaho 一个以工作流为核心的、强调面向解决方案而非工一个以工作流为核心的、强调面向解决方案而非工具组件的具组件的BI套件,整合了多个开源项目套件,整合了多个开源项目u工作流引擎:SharkandJaWEu数据
30、库:FirebirdRDBMSu集成管理和开发环境:Eclipseu报表工具:EclipseBIRTuETL工具:Enhydra/KettleuOLAPServer:MondrianuOLAP展示:JPivotu数据挖掘组件:Wekau应用服务器和Portal服务器:JBossu单点登陆服务及LDap认证:JOSSOu自定义脚本支持:MozillaRhinoJavascript脚本处理器。数据仓库解决方案-工欲善其事,必先利其器(开源工具篇-BI工具)SpagoBI 集成了集成了Mondrain和和JProvit,能够通过,能够通过OpenLaszlo产生实时报表。产生实时报表。SpagoBI
31、使用使用java开发,不依赖于具体的操作系统,有很强的开发,不依赖于具体的操作系统,有很强的扩展能力扩展能力u报表工具:JasperReports/EclipseBIRT/iReportuOLAPServer:MondrianuOLAP展示:JPivotu数据挖掘组件:WekauMap引擎:GeouETL:BIEu搜索引擎:LuceneuDashboard:OpenLaszlouPortalServer:JBoss/Tomcat/JOnAS。数据仓库解决方案-工欲善其事,必先利其器(开源工具篇-BI工具)方法论数据仓库技术组件与功能应用分析集合数据组织过程与个性应用实现项目实施项目实施数据仓库
32、项目组织步骤、人员角色、建设放方案等一系列方法的集合,指导方针数据模型的建模方法;统一的概念模型、逻辑模型;数据库中对应的组织(物理化)ETL功能组件;前端门户组件、模版;元数据管理;用户与组织;权限组织;面向业务的分析;面向问题的专题;固定报表;即席查询分析;KPI;分析、互动流程数据的加载、清洗、组织规划的过程;用户本地的需求整理与实现;与开发者的经验、技能相关;数据仓库解决方案-工欲善其事,必先利其器(关注项目实施过程)矿工矿工勘探员勘探员农夫农夫操作员操作员旅行者旅行者老总老总/ /经理经理KPI,仪表盘,简单的综合信息报表营销人员营销人员当前周期的数据,明细数据,直接获取下载,用来做
33、业务分析员分析员有一定的分析能力,对预定义的报表、查询感兴趣,偶尔使用灵活的动态报表组合自己需要的在综合信息熟练的分析员熟练的分析员精通分析技术,对数据敏感,除使用固定报表、查询外,会针对特定的业务问题、数据质量问题进行分析,常使用灵活的动态可配置的应用,必要时会进入数据仓库直接探索。专业分析员专业分析员对业务发展的趋势的假设作出求证,或者通过挖掘等技术找出改善业务的途径 (特定用户进行细分等),一般直接使用数据仓库。数据仓库解决方案-工欲善其事,必先利其器(重点关注业务需求-用户)简单图表展现;固定报表;动态的可配报表;图表互动分析;可切片旋转的OLAP;KPI指示器;可层级筛选的明细查询;
34、对以上进行组合的复杂应用;带有分析流程的应用;数据仓库解决方案-工欲善其事,必先利其器(重点关注业务需求-需求类型)规范功能规范功能个性需求个性需求新需求提出新需求提出统一的应用框架下统一的应用框架下管理和开发管理和开发数据仓库解决方案-工欲善其事,必先利其器(重点关注业务需求-应用框架)作业三:申请百度文库用户,搜集数据仓库类项目解决方案一个,提交*解决方案阅读笔记,要求45页;参考:阅读笔记中要求能够回答如下问题:数据源有哪些?源系统的数据是怎么捕获加载到数据仓库就中?数据仓库内部逻辑层次是如何划分的?方案解决用户什么样的问题?用户群体是哪些?目目23456数据仓库是一个解决方案数据仓库几
35、种常见架构数据仓库类项目中人员配置个人职业发展规划建议汇聚数据财富 挖掘潜力无限录录初始数据仓库-基本概念1Kimball生命周期导图数据仓库领域的两位大师Bill Inmon数据仓库之父,数据仓库概念的创始人理论: Corporate Information Factory(CIF) 主要著作:数据仓库、企业信息工厂http:/主要著作:数据仓库工具箱维度建模的完全指南、 数据仓库生命周期工具箱 设计、开发和部署数据仓库的专家方法http:/Ralph Kimball数据仓库方面的知名学者理论:Mutildimensional Architecture(MD) Bill Inmon 企业信息
36、工厂Kimball 企业数据总线两种架构方案对比分析混合架构方案-融合、趋势利用EDW,存储各源系统明细粒度数据,解决源系统变化对数据仓库系统的冲击,解决代码标准化的问题。利用企业数据总线结构,解决应用一致性的问题;可以快速见效、实现投入产出比。敏捷架构设计方案-企业数据总线1)基于企业数据总线方案进行模型设计2)维度模型包含明细粒度数据和汇总数据3)维度模型是企业级,维度的设计围绕业务过程而不是按照某个部门进行设计4)维度模型也是支持扩展的5)维度模型设计不应该仅仅关注报表或分析,应该以度量过程为中心6)一致性维度作为集中的、持久的主数据建立在ETL系统中7)关注业务度量过程,而不是仅仅是报
37、表或分析8)数据管理和治理首先应该关注维度数据9)维度建模的考虑应该早于设计星型模型或OLAP多维数据库10)开发小组与业务相关方的值合作11)以迭代、增量方式处理开发过程12)避免陷入凭空使用敏捷技术建立分析或报表方案的陷进中敏捷架构设计方案-企业数据总线矩阵示例数据仓库实施方法概论方法论主要描述了项目实施的步骤、系统建设的内容以及过程管理中的一系列方法: 实施过程中的具体内容; 采用的软件工程方法; 项目管理的内容; 实施的目标管理; 风险管理;重点:螺旋式上升式的建设模式,对于应用分析建模、数据建模乃至整个系统的建设,都是适用的。例子:某项目分析、建设、培训、使用、反馈、分析、改进.国外
38、常见的项目过程ETL工具展现分析工具数据库元数据管理工具数据库建模工具COGNOSBOBRIOORACLEDB2SYSBASECAMetaManagerPowerDesignerERWINInfomaticDataStageInfomatic解决方案方法论行业模型典型分析项目控制项目建设物理模型数据加载应用开发上线加载产品选购方案选择项目工作1)功能组件高度抽象与产品化(ETL、展现分析、建模、元数据等)2)项目以解决方案的实施为主(公司一般具有相关行业的通用解决方案)3)建设、实施过程以本地化、个性化为目的,完成用户的分析目标,技术方面比重较少生命周期法的建设模式业务维度建模的生命周期法(K
39、imball)业务需求定义;技术轨迹:技术结构设计、产品选择与安装数据轨迹:维度建模、物理设计、Data Staging Area设计与开发应用轨迹:最终用户应用规范、最终用户应用开发部署维护与增长u 技术平台;u 数据平台;u 产品平台;吉贝克数据仓库实施方案目目23456数据仓库是一个解决方案数据仓库几种常见架构数据仓库类项目中人员配置个人职业发展规划建议汇聚数据财富 挖掘潜力无限录录初始数据仓库,不是数据库1Kimball生命周期导图Kimball生命周期导图程序/项目规划与管理评估准备评估准备范围及论证范围及论证人员配备人员配备规划的开发及维护规划的开发及维护1.强有力的执行主管,有相
40、关经验、能够协调内部资源、能够说服上层领导支持项目推进;2.解决DW/BI活动的引人注目的动机3.准备可行性,技术、资源、数据三要素1.确定项目范围,对业务有意义,对IT可管理2.避免太原则,即时间太短、源系统太多、源系统分布不能太广、用户群体太多;3.项目启动利益与成本,关注后期成本4.业务团体确定预期财务收益1.业务发起人、推动者、领导者、用户2.实施方提供项目经理、架构师、模型师、业务分析师、BI设计与开发人员、ETL架构师设与开发人员、数据库管理员3.实施方上层领导、销售人员,协调内部资源、与外部沟通1.划分项目阶段,建立里程碑2、项目经理组建队伍、制定计划3、项目经理需要非常了解用户
41、需求,应对项目变化:sayNO!增加范围与预算!更换项目内容!业务需求定义123需求预规划需求预规划1)选择讨论话题;希望做什么?为什么要做,如何知道决策等)选择讨论话题;希望做什么?为什么要做,如何知道决策等2)确定及筹备需求小组,确定懂业务的分析师,准备调查问卷、)确定及筹备需求小组,确定懂业务的分析师,准备调查问卷、3)选择、调度和准备业务代表;与业务人员沟通,与业务管理层沟通,关)选择、调度和准备业务代表;与业务人员沟通,与业务管理层沟通,关注战略方向,不宜过多关注战术,约谈客户注战略方向,不宜过多关注战术,约谈客户1小时小时1.5小时为宜小时为宜收集业务需求收集业务需求1)初启)初启
42、 ,主持人点出访谈重点,以业务为中心,主持人点出访谈重点,以业务为中心2)访谈流程)访谈流程 3) 形成最终文档,提交会议纪要,整理收集资料形成最终文档,提交会议纪要,整理收集资料指导以数据为中心的访谈,数据探查小组、模型师参与访谈指导以数据为中心的访谈,数据探查小组、模型师参与访谈,了解需求可行性;,了解需求可行性;文档管理,编写需求规格说明书;文档管理,编写需求规格说明书;需求优先级管理和需求范围管理;需求优先级管理和需求范围管理; 目标:明白他们做什么和为什么要做了解访谈者对数据的数据经验分析类型,了解业务人员对bi的理解了解潜在的其他需求和管理层的规划业务需求定义-关键任务-用户访谈针
43、对不同的用户角色,采用不同的访谈方式、提问内容技术架构设计46%22%19%数数据据转换标转换标准准BIBI架架构构占据比例占据比例虽虽然然没没有有ETLETL环节环节高,但高,但影影响响了了业务业务人人员对员对系系统统的的认认可度,他可度,他们关们关注需求是否准确注需求是否准确实现实现关关注注数数据模型的据模型的设计设计思路,思路,etletl加工的便捷性、加工的便捷性、数数据是否据是否支持等支持等ETLETL环节验证环节验证占据比例最高;占据比例最高;成功成功关键环节关键环节,系,系统统是否好用是否好用,是否可管控,影,是否可管控,影响响用用户对户对系系统统的最的最终评终评价价数数据管控,
44、及元据管控,及元数数据据与数与数据据质质量量7%6%l 描绘DW/BI环境的技术服务与基础设施蓝图1 1收集收集与与架架构构相相关关需求需求2 2架架构构需求文需求文档档化,列出影化,列出影响响架架构构的需求的需求3 3 建立架建立架构构模型,架模型,架构构需求需求划划分分为为主要主要组组件,如件,如ETLETL、BIBI、元、元数数据、据、数数据据质质量、量、数数据据标标准等准等4 4确定架确定架构实现阶构实现阶段,重新段,重新审视审视架架构构需求需求5 5设计并设计并定定义义子系子系统统,部分需求,部分需求商商业产业产品无法提供,需要品无法提供,需要构构建建这这些些产产品品6 6建立架建立
45、架构规划构规划,编写编写架架构设计构设计文文档档初步架初步架构设计构设计1 1评审评审及确定技及确定技术术架架构构,与项与项目目小小组内组内部,甲方部,甲方项项目目经经理理与与技技术负责术负责人人讨论讨论架架构蓝图构蓝图2 2确定架确定架构设计构设计中待中待验证验证的技的技术术问题问题 3 3 准准备验证备验证方案和可接受的方案和可接受的验证结验证结果果与标与标准准4 4修修订订架架构设计蓝图构设计蓝图5 5再次再次评审评审6 6 评审评审通通过过的架的架构设计蓝图构设计蓝图在在项项目目组内组内培培训训,形成共,形成共识识架架构设计评审构设计评审产品选择与安装了解公司内部硬件与软件采购流程了解
46、市场上流行的商业工具和开源工具罗列核心的重要的评价选项;应该驾驭评估过程,而不是被供应商驱动确定评价准则矩阵及指示重要性的权衡因素厂商提供机器,进行POC试验,实现某个场景通知期望的某个厂商,产品试用、开始培训,保留谈判的能力;维度建模1. 确定参与人,特别是业务代表;2. 业务需求评审,将需求转为维度模型,支持更广泛的分析而 不是特定报表3. 利用建模工具,支持将设计成果同步到数据库中;4. 利用数据分析工具(编写sql)探查源表结构、字段、关系、获取规则等内容5. 利用或建立命名规则,包含主词+限定词+类词6. 日期与设施的协调,制定计划、准备会议室或沟通用设施,如白板、投影仪1. 统一对
47、高层气泡图的理解,利用气泡图,将事实表和与之关联的维度表之间的关系清晰的展现给非技术人员;2. 粒度需要建模小组考虑业务需求需要什么以及物理数据源能够提供什么数据3. 总线矩阵一行可能对应多个气泡图,每个气泡图对应特定粒度的特定事实表4. 气泡图保证在陷入细节前,每个人能够具有共同的理解,也有助于与利益相关方交流时介绍项目时使用确定维度及其属性确定事实确定缓慢变化维度技术建立详细的表设计文档模型问题跟踪维护总线矩阵1. IT评审,由IT部门组织同行进行评审;挑战:不熟悉维度建模,需要提供必要的培训;2. 核心用户评审3. 广泛的业务用户评审,实质上是教育与培训,启迪,而不是强迫他们接受;先评审
48、气泡图,在评审总线矩阵,在到维度,再到事实表,在到如何应用1. 项目简短描述;2. 高级数据模型图3. 详细的针对每个事实和维度表的维度设计工作单4. 开发的问题客户客户Insurance Agency代理机构Geography位置Demography人口统计特征Behavior Scores行为Financial Scores财务Product产品Psychographics购买特征(消费行为)Since Date相关行为开始日期Begin Date初始日期End Date结束日期Assets资产Policy保单Policy Rating相关费率Policy Life Cycle statu
49、s保单状态Application Date申请Payment Cat支付Insured ParticipantInsured Participant保单保单Maturity Date到期/满期日期Determination Date其他重要日期Currency货币高级维度模型-气泡图企业总线矩阵-维度详细工单设计维度建模小结2345维度建模是一个迭代的维度建模是一个迭代的 过程,需要不同技能的人员通力合作,包含业务专家过程,需要不同技能的人员通力合作,包含业务专家设计工作从总线矩阵中抽取的实体级别的初始图形模型开始设计工作从总线矩阵中抽取的实体级别的初始图形模型开始详细建模过程要深入到定义、资
50、源、关系、数据质量问题以及每张表的需求转换详细建模过程要深入到定义、资源、关系、数据质量问题以及每张表的需求转换确定列和表名的工作始终与设计过程交织开展,提供给确定列和表名的工作始终与设计过程交织开展,提供给BIBI工具的列名必须是业务团工具的列名必须是业务团体能够理解的体能够理解的最终结果是维度模型通过业务与数据两方面验证最终结果是维度模型通过业务与数据两方面验证经验:要将甲方的业务专家、核心技术人员纳入到建模小组中;切记切记!经验:依据企业价值链将核心过程画出气泡图经验:通过维度的一致性来讲业务过程串起来,通过扩展维度或者扩展事实表的方式将多个源表数据纳入进来经验:有限级别-参考核心系统的
51、名称规则,参考已有BI系统的命名规则,参考专业术语翻译规则,自定义规则,经验:维度的加工规则整理出来;数据质量问题和缓慢变化维的问题考虑进来;1物理设计物理设计与物理模型的设计紧密相关 表和列名是用户体验的关键因素,用于数据模型和BI应用的导航,因此它们对业务来说应该是有意义的; 空值、异常值处理规则 增加硬件资源,更多的cpu和内存 利用聚集表,缩减维度,提高查询性能 获取用户的访问模式,通过评价数据统计分布寻找划算的聚集点 包含块、文件、磁盘、分区、表空间以及数据库的具体存储细节; 索引和聚集表,提供优秀的查询性能设计聚合,包含设计聚合,包含OLAP数据库数据库确定物理存储细节确定物理存储
52、细节. 数据库规划,如数据库名、表空间、网络端口、用户;索引规划,主键唯一索引、位图索引(过滤和分组)、B树索引 事实表中日期宜建立位图索引,主键建立B树索引或聚集索引开发命名及数据库标准开发命名及数据库标准开发数据库规划开发数据库规划BI应用规范BI应用规范,不是Bi开发规范,是需求实现结果呈现方式的一种描述,在需求明确后着手的一项工作。1.创建应用程序标准和模板,包含报表名、标题、报表主题、页眉页脚、报表文件名、创建仪表板和分析性应用程序模板2.确定初始应用程序集,需要将报表进行合并与拆分,确定优先级3.制定详细的应用程序规范,关注实体模型、用户交互、数据集、计算规则、与其他报表交互 4.
53、设计导航框架和门户,制定一种策略来帮助用户迅速找到他们所需的东西5.审查以及确认应用程序和模型,结合模型设计成果和需求对比,审视如何sql编写,olap如何查询,发现问题6.与业务人士一同审查BI应用规范BI应用规范示例BI应用规范-实体模型BI应用规范-应用程序详细定义BI应用规范-应用导航框架BI应用程序开发培训BI门户、报表调度和验证数据模型建立报表过程元数据系统用户手册性能调整设计和开发运营BI应用程序设置用户安全性设计详细说明报表间指标勾稽关系是否成立设计和开发分析性应用程序验证应用程序策略风险小,部署可能是在BI门户中 简单创建一个链接,授予访问权限程序存档维度是否重复或者为空定义
54、用户交互、创建查询、格式编排安装和测试BI工具准备应用程序开发构建应用程序应用程序和数据测试验证完成文档部署计划BI开发与与ETL开发同步进行,优先准备好维度数据部署测试测试环境环境Description of the contents生产生产环境环境程序功程序功能测试能测试数据集数据集测试测试部署过部署过程测试程测试程序程序部署部署数据初数据初始化加始化加载载上线成上线成果验证果验证Description of the contents运维与发展数据仓库是一个长期的过程,需要不断的维护和升级系统程序执行状况 日常监控,性能调优 基础数据维护 日志跟踪与清理 监控后台资源利用率 管理磁盘空间
55、备份与恢复管理磁盘空间 数据库空间 文件存储空间 应用端文件存储空间 BI离线报表和cube存储空间备份与回复 关系数据库 配置文件 上传数据文件 离线数据文件 日志文件 元数据资料库 备份策略有增量备份、全量备份1.提供用户支持 网站, 超级用户 DW/BI 团队2.维护BI门户 收集相关信息,如: 数据仓库的状态 非计划停机 警告用户存在的问题 系统当期的运营状况3.系统监控 数据的安全性 应用的访问情况 用户的登陆状况 报表的访问统计新增需求 新增需求,体现在基于现有数据,新增分析粒度和指标 新增源系统数据入库,增加分析应用 系统对外供数,开发接口需求变更 源系统业务规则变化导致需求变化
56、 业务用户提出修订现有应用 整合企业多个应用,数据源切换 外部接口调整应用下线 依据应用访问情况统计,无人使用或者使用率极低的报表下线处理数据上传 计划值导入系统 外部数据文件准备与导入系统融合 与多个应用系统进行融合培训 持续不断的为DW/BI系统提供教育培训,包含入门培训、进修课程、高低级培训 鼓励思想交流1234管理前台管理后台新增需求或需求变更其他应对避免的常见错误10)过于迷恋技术和数据,而没有将重点放在业务需求和目标上;9)没有一个强有力的项目发起人;8)将项目处理为持续性项目,而不是追求更容易管理的,有挑战性的迭代开发工作;7)过于耗费精力关注数据结构和数据模型,用尽所有预算;6)过于关注后台数据处理过程和易于开发,没有重点考虑前端查询性能和易用性;5)展现区数据结构复杂,花费大量时间支持业务用户;4)维度模型被放入单一基础之上,不考虑使用可共享的、一致性维度通过数据结构将这些模型联系在一起;3)只将汇总数据加载到展示区的维度结构中;2)臆想业务、业务需求及分析,其涉及的数据及支持技术都是静态的;1)忽略数据DW/BI系统的成功直接来源于业务的认可10)应对关注业务需求和目标,技术是实现业务需求的一种手段而已;9)在立项或者项目启动阶段,寻找一个有影响力,平易近人的高级管理人员作为项目发起人;8)需要明确项目可实现的目标,迭代开发;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿班吃饭不挑食健康教案方案
- 建筑工地机械设备操作规程参考
- 3.1.1 脂肪烃的性质及应用(第1课时 脂肪烃的类别 烷烃的性质) 课件 高中化学新苏教版选择性必修3(2022-2023学年)
- 电商平台客户服务流程标准与优化策略
- 术后切口疼痛的护理
- 巡山现代诗歌阅读及答题辅导
- 喉咙气管插管护理
- 数学思维培养与创新能力开发方案
- 酒店前台服务标准操作流程
- 企业法人类型及法律责任解析
- 中建办公商业楼有限空间作业专项施工方案
- 初三数学期末试卷分析及中考复习建议课件
- 四川省成都市青羊区2023年九年级一诊英语试卷
- 拆零药品登记表
- 附件1北京建筑大学新办本科专业教学评估方案
- 第12课 水陆交通的变迁 高二历史 课件(选择性必修2:经济与社会生活)
- 七年级上册语文期末考试卷及答案浙教版
- 22种常见环境违法行为笔录调查询问笔录及现场笔录模板(修改版)
- 解决问题的五原则-培训资料
- 吉林大学发动机原理讲义
- 老年大学规章制度管理办法汇编
评论
0/150
提交评论