数据仓库系统的设计及开发_第1页
数据仓库系统的设计及开发_第2页
数据仓库系统的设计及开发_第3页
数据仓库系统的设计及开发_第4页
数据仓库系统的设计及开发_第5页
已阅读5页,还剩106页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023年1月15日1数据仓库的设计及开发2023年1月15日22.3.数据仓库设计—数据建模最佳实践—构建高性能的数据仓库数据仓库设计—ETL设计数据仓库设计—建模过程日程安排数据仓库设计—界面设计数据仓库的开发应用过程2023年1月15日33.灵活性能够很好的分离出底层技术的实现和上层业务的展现当上层业务发生变化时,通过数据模型,底层技术实现可以较为轻松的完成业务的变动,从而达到整个数据仓库系统的灵活性1.业务核理改善业务流程能够全面了解业务系统的业务架构图和整个业务运行情况2)能够将业务按照特定的规律进行分门别类和程序化2.解决信息孤岛及数据差异1)

建立全方法的数据视角;2)

保证整个企业的数据的一致性;3)

消除各个部门之间的信息孤岛;4.加快数据仓库系统的建设开发人员和业务人员能够很容易达成系统建设范围的边界的界定能够使整个项目组明确当前的任务,加快整个系统建设的速度为什么需要数据模型2023年1月15日4数据仓库建模人员所需的技能和能力分析能力见树又见林模拟论证学习能力抽象综合交流能力组交互演示调查访谈原型设计能力企业体系架构2023年1月15日5数据仓库设计建模的要点和原则建模原则选择创建什么模型对如何动手解决问题和如何解决方案有深远影响每一种模型可以在不同的精度级别上表示最好的模型是与现实相联系单个模型不充分,需要一组模型去处理建模的要点正确认识建模方法论2023年1月15日6利用图形来建立数据模型图形具有直观性、简单性以及可理解性等优点图形能自然地表达客观世界理解图中路径探索2023年1月15日7什么是数据模型业务建模,生成业务模型,主要解决业务层面的分解和程序化。领域建模,生成概念模型,主要是对业务模型进行抽象处理,生成领域概念模型。逻辑建模,生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。物理建模,生成物理模型,主要解决,逻辑模型针对不同关系型数据库的物理化以及性能等一些具体的技术问题。2023年1月15日8思考需求建模与业务建模需求建模与业务建模谁先谁后?软件开发过程是否应该是:业务调研,业务建模(业务分析),(业务模型分析)需求调研(这时,已经有一部分需求可从业务模型中获得),需求建模,需求分析……2023年1月15日9业务建模—组织结构分析组织结构,用户及权限的分析客户组织结构的分析公司组织机构区域位置集团/省/地市用户的分析用户组角色权限的分析功能权限分析数据权限分析2023年1月15日1031十二月月202211例:三大运营营商的组织架架构调整2022年年12月31日12业务建模—业务流程分分析什么是业务务流程2022年年12月31日13业务流程分分析的内容容(1)原有流程程的分析。。(2)业务流程程的优化。。(3)确定新的的业务流程程(4)新系统的的人机界面面。2022年年12月31日14业务流程分分析的步骤骤1.系统环境调调查2.组织机构和和职责的调调查3.功能体系的的调查与分分析4.管理业务流流程的调查查与分析2022年年12月31日15案例学习::

新业务务客户服务务业务流程程—新业务查询询流程2022年年12月月31日日16业务务流流程程可可以以代代替替业业务务建建模模吗吗在业业务务流流程程的的背背后后,,有有一一个个更更加加根根本本的的因因素素———商业业需需求求。。商商业业需需求求才才是是真真正正的的业业务务模模型型,,业业务务流流程程只只是是一一种种实实现现手手段段而而已已。。例::新新用用户户入入网网业业务务流流程程::1:首首先先把把SIM卡和和号号码码在在交交换换网网络络上上做做对对应应关关系系的的注注册册;;2:市市场场部部把把SIM卡存存入入一一定定的的金金额额,,发发给给销销售售商商,,收收取取销销售售商商的的货货款款;;3:销销售售商商把把卡卡卖卖给给用用户户,,用用户户填填写写入入网网合合同同,,SIM装入入手手机机可可以以立立即即通通话话;;4:销销售售商商把把入入网网合合同同交交给给市市场场部部,,市市场场部部资资料料录录入入人人员员将将用用户户的的资资料料录录入入系系统统;;5:计计费费系系统统按按照照用用户户选选择择的的资资费费对对话话单单进进行行计计费费;;6、市市场场部部按按照照用用户户的的消消费费情情况况给给销销售售商商计计算算佣佣金金和和返返利利。。思考考::真真正正的的业业务务模模型型(需求求)是什什么么??2022年年12月月31日日17从业业务务流流程程中中提提取取概概念念和和逻逻辑辑模模型型心得得体体会会::看到到背背后后的的商商业业需需求求,,你你会会发发现现模模型型原原来来非非常常稳稳定定不需需要要急急于于知知道道所所有有的的细细节节性性的的需需求求,,只只要要了了解解比比较较重重要要的的20%的的需需求求2022年12月31日182022年12月31日19数据仓仓库数数据模模型-星型模模型与与雪花花模型型2022年年12月31日日20数据仓仓库建建模的的原则则兼顾效率与数据粒度的需要1支持需求的变化2避免对业务运营系统造成影响3满足不同用户的需要4考虑末来的可扩展性52022年年12月31日日21数据仓仓库建建模的的三个个阶段段概念模模型设设计(ConceptDataModeling):这一阶阶段之之前的的首要要工作作是通通过需需求分分析,,明确确需求求所涵涵盖的的业务务范围围。然然后再再对需需求范范围内内的业业务及及其间间关系系进行行高度度概括括性的的描述述,把把密切切相关关业务务对象象进行行归类类,即即划分分主题题域。。概念模模型的的设计计是为为逻辑辑模型型的设设计做做准备备,它它没有有统一一的标标准,,主要要根据据设计计者的的经验验。逻辑模模型设设计(LogicalDataModeling):分别对对概念念模型型的各各个主主题域域进行行细化化,根根据业业务定定义、、分类类和规规则,,定义义其中中的实实体并并描述述实体体之间间的关关系,,并产产生实实体关关系图图(ERD),然然后遵遵照规规范化化思想想在实实体关关系的的基础础上明明确各各个实实体的的属性性。实实体产产生于于中国国移动动开展展的业业务、、服务务及其其涉及及的对对象((如客客户、、帐户户、员员工、、机构构、资资源)),实实体间间的对对应、、约束束关系系则来来自于于各业业务过过程中中的规规则。。可以以说,,这一一阶段段面对对的是是业务务。物理模模型设设计(PhysicalDataModeling):物理模模型设设计主主要依依据逻逻辑模模型针针对具具体的的分析析需求求和物物理平平台采采取相相应的的优化化策略略。此此时会会在一一定程程度上上增加加数据据冗余余或者者隐藏藏实体体之间间的关关系或或者进进行实实体的的合并并和拆拆分,,目的的是提提高数数据分分析的的速度度,适适应具具体数数据库库的容容量、、性能能等限限制。。可以以说,,这一一阶段段面对对的是是具体体软硬硬件平平台和和性能能要求求。一旦逻逻辑模模型到到位,,物理理模型型就有有了可可参照照的依依据,,开发发工作作内容容也同同时得得到明明确。。物理模模型设设计一一般在在架构构设计计阶段段2022年年12月31日22数据仓库系系统所采用用的建模流流程概念模型为为逻辑模型型的设计作作准备,没没有统一标标准,主要要根据设计计者经验逻辑模型对对概念模型型的各个主主题域进行行细化,根根据业务定定义、分类类和规则,,定义其中中的实体并并描述实体体之间的关关系,并产产生实体关关系图(ERD)一旦逻辑模模型到位,,物理模型型就有了可可参照的依依据,开发发工作内容容也同时得得到明确2022年年12月31日23数据仓库概概念模型主题域的设设计DW主题的划分分必须是基基于需求的的主题划分分,而不仅仅仅是基于于已有查询询和报表数数据的主题题划分DW主题题是是通通过过对对业业务务人人员员的的访访谈谈,,充充分分了了解解业业务务流流程程和和信信息息使使用用需需求求为为主主要要根根源源的的DW主题题的的设设计计必必须须能能够够满满足足业业务务人人员员的的内内在在的的分分析析需需求求DW主题题设设计计的的过过程程中中,,业业务务环环节节点点分分析析是是关关键键DW细化化分分析析主主题题,,解解决决指指标标的的歧歧义义问问题题,,为为模模型型设设计计、、数数据据提提取取、、数数据据展展现现等等多多个个方方面面奠奠定定基基础础2022年年12月月31日日24数据据仓仓库库的的数数据据模模型型系统记录域((SystemofRecord):这部分是是主要的数据据仓库业务数数据存储区,,数据模型在在这里保证了了数据的一致致性。内部管理域((Housekeeping):这部分主主要存储数据据仓库用于内内部管理的元元数据,数据据模型在这里里能够帮助进进行统一的元元数据的管理理。汇总域(SummaryofArea):这部分数数据来自于系系统记录域的的汇总,数据据模型在这里里保证了分析析域的主题分分析的性能,,满足了部分分的报表查询询。分析域(AnalysisArea):这部分数数据模型主要要用于各个业业务部分的具具体的主题业业务分析。这这部分数据模模型可以单独独存储在相应应的数据集市市中。反馈域(FeedbackArea):可选项,,这部分数据据模型主要用用于相应前端端的反馈数据据,数据仓库库可以视业务务的需要设置置这一区域。。2022年12月31日日25数据模型的技技术功能结构构划分分段存储区((StagingArea)是为了保证数数据移动的顺顺利进行而开开设的阶段性性数据存储空空间,它是业业务系统原始始数据进入数数据仓库前的的缓存区。基础数据仓库库根据业务需求求的不同,基基础数据仓库库的组织形式式以三范式模模型为主,在在有的系统中中也可能采用用星型或雪花花模型。数据集市(DataMart)数据集市中的的数据通常由由基础数据仓仓库的详细数数据聚合而来来,根据数据据聚合程度的的不同包含轻轻度聚合、中中度聚合和高高度聚合三种种不同的层次次。汇总的方方式将依据数数据量的大小小和使用频度度综合考虑2022年12月31日日26数据仓库的模模型—关系模型2022年年12月31日日27数据仓仓库的的模型型—星型模模型通过数数据预预连接接和建建立有有选择择的数数据冗冗余,,设计计者为为访问问和分分析过过程大大大简简化了了数据据。星型连连接应应用于于设计计数据据仓库库中很很大的的实体体,而而数据据模型型则应应用于于数据据仓库库中较较小的的实体体。2022年年12月31日日28数据仓仓库的的模型型—雪花模模型许多维维度存存在着着比较较复杂杂的结结构,,它们们有的的还具具有多多层的的层次次结构构。因因此,,很难难将这这样的的维表表只采采用一一个关关系表表的形形式表表达出出来,,必须须将这这些维维表规规范成成有多多个外外键关关联的的关系系表2022年年12月月31日日29星型型模模型型VS雪花花模模型型比较项目优点缺点星型模式1.查询效率高,事实表作连接时其速度较快;2.便于用户理解。比较直观,通过分析星形模式,很容易组合出各种查询增加了存储空间雪花模式1.在一定程度上减少了存储空间2.规范化的结构更容易更新和维护1.比较复杂,用户不容易理解;2.浏览内容相对困难3.额外的连接将使查询性能下降2022年12月31日30宽表横表与纵纵表处理方便便性与业业务支撑撑灵活性性的差异异宽表在横表的的基础上上拓展,,强化处处理方便便性开放给业业务人员员使用,,直接解解决业务务问题单条记录录包括用用户基本本信息、、产品选选择和使使用量、费用信信息2022年12月31日31数据仓库库建模方方法—范式建模模法优点:从关系型型数据库库的角度度出发,,结合了了业务系系统的数数据模型型,能够够比较方方便的实实现数据据仓库的的建模缺点:在某些时时候反而而限制了了整个数数据仓库库模型的的灵活性性,性能能等2022年12月31日32数据仓库库建模方方法—维度建模模法优点:维度建模模非常直直观,紧紧紧围绕绕着业务务模型,,可以直直观的反反映出业业务模型型中的业业务问题题缺点:如果只是是依靠单单纯的维维度建模模,不能能保证数数据来源源的一致致性和准准确性2022年年12月31日33数据仓库建建模方法—实体建模法法优点:能够很轻松松的实现业业务模型的的划分,因因此,在业业务建模阶阶段和领域域概念建模模阶段,实实体建模法法有着广泛泛的应用缺点:不太适用于于物理建模模2022年年12月31日34数据仓库建建模的十大大戒律1)必须回答紧紧迫的问题题;2)必须有正确确的事实表表;3)将有正确的的维表,描描述必须按按最终用户户的业务术术语表达;;4)必须理解数数据仓库所所影响的公公司过程或或影响数据据仓库的公公司过程;;5)对于事实表表,应该有有正确的““粒度”;;6)根据需要存存储正确长长度的公司司历史数据据;7)以一种对于于公司有意意义的方式式来集成所所有必要的的数据;8)创建必要的的总结表;;9)创建必要的的索引;10)能够加载数数据仓库数数据库并使使它以一种种适宜的方方式可用。。2022年12月31日日35数据仓库缓慢慢变化维的一一个案例一个案例在一个零售业业数据仓库中中,事实表保保存着各销售售人员的销售售记录,某天天一个销售人人员从北京分分公司调到上上海分公司了了,那么如何何来保存这个个变化呢?也也就是说销售售人员维度要要怎么恰当的的处理这一变变化。如果我们要统统计北京地区区或上海地区区的总销售情情况的时候,,这个销售人人员的销售记记录应该算在在北京还是算算在上海?当然是调离前前的算在北京京,调离后的的算在上海,但是如标记这这个销售人员员所属区域??这里就需要要处理一下这这个维度的数数据,即我们们缓慢变化维维需要做的事事情。2022年12月31日日36数据仓库缓慢慢变化维的解解决方案新数据覆盖旧旧数据保存多条记录录,并添加字字段加以区分分.添加记录录的生效日期期和失效日期期来标识新旧旧数据不同字段保存存不同值,,这种方法用用不同的字段段保存变化痕痕迹.但是这种方法法不能象第二二种方法一样样保存所有变变化记录,它只能保存两两次变化记录录.适用于变化不不超过两次的的维度。另外建表保存存历史记录,,而维度只保保存当前数据据混合模式2022年年12月31日日37数据仓仓库建建模_案例2022年年12月31日日38案例::怎样样构建建数据据仓库库模型型确定主题域域确定主题域域及各各主题题域之之间的的关系系确定主主题域域的业业务数数据确定业业务数数据中中的业业务实实体确定业业务实实体之之间的的关系系确定物物理模模型2022年年12月月31日日39确定定主题题域域及及各各主主题题域域之之间间的的关关系系服务通过网络实现/网络支持服务网络产生事件/事件包括网络类产品被销售给客户/参与人使用和管理产品跟踪应付&应收/提供成本&收入历史事件包含财务类参与人产生和经历事件/事件包括参与人的产品/服务产生事件

事件包括产品类营销产生事件事件实现营销营销被锁定位置/位置定位营销针对特定产品/产品通过营销推向市场为参与人建立帐户、帐单/记录帐户、成本和付款服务使用的帐务信息/帐务记录产品的成本和付款定位网络/网络支持的位置营销的目标针对参与人/参与人是营销的受众包括消费者和运营商在内/

位置定位FinanceManagement(财务管理)BILLING(帐务)NETWORK(网络资源)PRODUCT(产品)MARKETING(市场营销)LOCATION(地域)PARTY(参与人)EVENT(事件)跟踪总帐/负责2022年年12月月31日日40基本结构特征奖励隐私参与与人人主主题题描描述述了了和和电电信信运运营营商商有有着着业业务务联联系系的的任何何个个人人、、企企业业、、组组织织、、团团体体等等。。确定定主主题题域域的的业业务务数数据据2022年年12月月31日日41参与人间关联

参与人角色组织层次结构层次结构级别层次结构类型商业组织内部组织标准分类代码确定定基基本本结结构构业业务务数数据据的的业业务务实实体体及及关关系系参与与人人::和和电电信信运运营营商商有有着着业业务务联联系系的的任任何何个个人人、、组组织织机机构构、、家家庭庭和和虚虚拟拟客客户户。例::财务务市场场营营销销网管管例::客户户潜在在客客户户电信信运运营营商商代理理商商供应应商商管理理者者雇主主职工工个人家庭组织参与人2022年12月31日42特征符合程度度特征类别值客户特特征征帐户特特征征特征类类别别例:个人喜好好信用类信信息家庭类信信息教育类信信息职业类信信息机构类信信息例:信用等级级职业状态态收入子女数教育程度度特征分分组组完全符合合部分符合合不符合确定特征征业务数数据中的的业务实实体及关关系2022年年12月31日日43奖励计划管理参与人角色奖励目标客户群目标群奖励等级奖励类型参与人奖励历史记录奖励励计计划划奖励计计划::记录录电信信运营营商向向客户户提供供奖励励和回回报的的历史史。确定奖奖励业业务数数据中中的业业务实实体及及关系系2022年年12月31日44隐私信息类别同意周期组织隐私策略信息参与人帐户隐私信息帐户同意等级信息参与人同意等级信息参与人隐私信息隐私信息类类别确定隐私业业务数据中中的业务实实体及关系系2022年年12月31日45业务系统与与数据仓库模模型的映射2022年年12月31日46数据仓库建建模_案例实践国内社保行行业背景2022年年12月月31日日47目前前我我们们国国家家的的社社保保主主要要分分为为养养老老,,失失业业,,工工伤伤,,生生育育,,医医疗疗保保险险和和劳劳动动力力市市场场这这6大块块主主要要业业务务领领域域。。在这这6大业业务务领领域域中中,,目目前前的的状状况况养养老老和和事事业业的的系系统统已已经经基基本本完完善善,,已已经经有有一一部部分分数数据据开开始始联联网网检检测测。。对于于工工伤伤,,生生育育,,医医疗疗和和劳劳动动力力市市场场这这一一块块业业务务,,有有些些地地方方发发展展的的比比较较成成熟熟,,而而有有些些地地方方还还不不够够成成熟熟。。请大大家家思思考考并并简简单单描描述述社社保保行行业业的的数数据据仓仓库库模模型型::大致致的的业务务模模型型大致致的的概念念模模型型社保保行行业业数数据据仓仓库库业业务务模模型型2022年12月31日日48社保行业数据据仓库领域概概念模型2022年12月31日日49社保行业数据据仓库逻辑模模型2022年年12月31日日50通过领领域概概念模模型细细化逻逻辑模模型每一个个抽象象的实实体,,例如如:““人””的属属性包包括年年龄,,性别别,受受教育育程度度等等等。各个抽抽象实实体间间的联联系。。例如如:对对于养养老金金征缴缴这个个“事事件””的属属性得得考虑虑,对对于失失业劳劳动者者培训训这个个“事事件””的属属性得得考虑虑等等等。找出抽抽象事事件的的关系系,并并对其其进行行说明明。例例如::对于于“事事件””中的的地域域,事事件等等因素素的考考量等等等。。建议:可以参参考3NF的建模模方法法,表表达出出实体体的属属性,,以及及实体体与实实体之之间的的联系系。例例如::在这这个阶阶段,,我们们可以以通过过采用用ERWIN等建模模工具具等作作出符符合3NF的关系系型数数据模模型来来。社保行行业数数据仓仓库物物理模模型2022年年12月31日日51完成物物理模模型生成创创建表表的脚脚本。。不同同的数数据仓仓库平平台可可能生生成不不同的的脚本本。针对数数据集集市的的需要要,按按照维维度建建模的的方法法,生生成一一些事事实表表,维维表等等工作作。针对数数据仓仓库的的ETL车和元元数据据管理理的需需要,,生成成一些些数据据仓库库维护护的表表,例例如::日志志表等等。注:根据业业务实实际的的需要要和自自己对对抽象象能力力的把把握来来创建建适合合自己己的数数据模模型2022年年12月31日52总结:数据仓库建建模需注意意的几个问问题数据粒度和和数据组织织维和度量的的唯一性和和公用性数据粒度一一旦变粗,,就要考虑虑多个主题题的融合汇汇总不论如何归归并,需要要保持数据据之间的联联系对ODS中的各个主主题的事实实数据进行行时间上的的汇总把包含细节节过多的交交易记录进进行拆分汇总、再汇汇总2022年12月31日532.3.数据仓库库数据模模型—星形与雪雪花最佳实践践—构建高性性能的数数据仓库库数据仓库库设计—ETL设计数据仓库库设计—建模过程程日程安排排数据仓库库设计—界面设计计数据仓库库的开发发应用过过程2022年12月31日54ETL数据转换换过程的的功能模模块设计计ETL数据转换换操作大大致可以以分为6个组或模模块:数数据的提提取、验验证、清清理、集集成、聚聚集和装装入。2022年12月31日日55ETL的设计要点(1)ETL的设计一定是是针对具体的的应用相关的的,针对不同同的业务和分分析模型有不不同的抽取要要求在设计过程中中需要考虑是是否需要预留留字段,增加加属性等等数据的粒度,,在同一CUBE中必须统一数据周期的确确定,在设计计ETL时需要事先确确定抽取的时时间抽取的方式尽尽量采用增量量的抽取以减减小每次抽取取的数量数据流和工作作流的考虑2022年12月31日日56ETL的设计要点(2)流程的异常处处理ETL的调整,运行行管理以及监监控针对业务的需需求进行ETL的配置和设置置界面ETL对CUBE的管理ETL装载数据初始始化的过程程序具有自修修复功能2022年年12月31日57确定ETL的抽取及加加载策略抽取策略每日增量每日全量每月增量每月全量抽取策略全表覆盖历史加载直接追加主表加载初始加载其它加载2022年年12月31日58ETLMapping实体映射表表2022年年12月31日59确定ETL接口需求系统和任何何其他外部部系统或组组件进行交交互相关需需求接口一般由由系统间的的传输方式式、传输协协议、传输输过程、接接口处理模模式、抽取取周期、编编码原则、、命名规则则、验证方方式和数据据单元等组组成2022年年12月月31日日60确定定ETL接口口的的实实现现方方式式2022年年12月月31日日61确定定ETL接口口的的数数据据要要求求及及保保障障2022年年12月31日日62确定ETL接口文文件的的格式式2022年年12月31日日63确定ETL接口文文件的的内容容2022年年12月31日日64确定ETL接口单单元2022年年12月31日日65ETL接口数数据处处理流流程2022年12月31日66ETL接口出错错处理接口处理理重传机机制1、经营分分析系统统方校验验数据源源内容后后把出错错记录放放入“出出错记录录文件存存放目录录”2、数据源源厂商定定时查阅阅此目录录,分析析错误原原因,并并采取纠纠正措施施例如::重新传传送此数数据项文文件。具具体的实实现方式式需双方方协定。。大数据文文件分拆拆机制只要是增增量抽取取的,原原则上不不考虑分分拆,对对于GSM清单和普普通短信信清单,,数据量量很大,,考虑分分拆成12个数据文文件,每每2小时一个个。2022年12月31日67案例学习习2022年年12月31日682.3.数据仓库数数据模型—星形与雪花花BI项目设计开开发的最佳佳实践数据仓库设设计—ETL设计数据仓库设设计—建模过程日程安排数据仓库设设计—界面设计数据仓库的的开发应用用过程2022年年12月31日69确定界面元元素界面主颜色色字体颜色及及大小界面布局界面交互方方式界面功能分分布界面输入输输出模式2022年年12月31日70某运营商KPI系统目标以最方便的的形式让各各级领导对对考核指标标完成情况况进行浏览览分析采用良好方方式实现常常用指标的的关联展示示,更加符符合业务人人员的分析析逻辑采用树型菜菜单对个体体分散指标标进行分类类展示组织织,提高指指标分析的的操作的便便捷性详细编写各各业务指标标的统计口口径,让用用户可以方方便查询和和检索2022年年12月月31日日71KPI系统统指指标标体体系系2072数据据准准确确性性刷新新/上载载数数据据的的频频率率(定期期)数据据下下钻钻能能力力访问控制KPI系统关键性:低高KPI分层KPI系统主要功能能2022年12月31日日731。支持角色色,有预定义义好的权限视视图2。分层管理理:每个KPI有对应的““保障”KPI的层次定义3。动态交互式式环境用户可以设置置KPI分解的百分比比支持分解维度度(按部门、、运营中心如如地市等)可调整的KPI分解规则4。阀值预警5。内部标杆共共享KPI系统框架和关关键功能2022年年12月31日日74整体KPI首页界界面分分为三三个目目录级级★KPI考核指指标★KPI通报指指标★KPI个体指指标体现以以表格格的形形式展展现数数据,,辅助助以图图型增加指指标之之间的的关联联性,,从多多角度度体现现指标标的内内容。。增加指指标说说明的的模块块,对对用户户使用用该指指标时时容易易产生生理解解误差差的内内容提提供相相应解解释。。KPI系统首首页界界面2022年年12月31日日75树状的的目录录力求求简单单,清清晰,,操作作方便便,减减少用用户的的点击击切换换环节节过程程。KPI系统树树状目目录结结构2022年年12月31日76简单明了的的KPI指指标往往成成为管理者者和普通市市场人员最最关注的对对象领导的聊望望台滚动指标告告警指标列表区区首页或结果果展示区滚动指标告告警区KPI系统首页界界面2022年12月31日77增强指标标之间的的关联性性,对若若干指标标的内在在联系,,进行归归类对比比展示,,以多KPI系统界面面12022年12月31日日78KPI指标主要展现现此项指标在在时间上的对对比,例如,,上月当日,,历史同期,,环比等。KPI指标按业务分分析逻辑有机机排列,方便便业务人员对对比观看。KPI在表格上增加加趋势的展现现,分为三种种,“平稳””,“升高””,“降低””点击以后将展展示最近一周周的趋势KPI系统界面22022年12月31日日792.数据仓库数据据模型—星形与雪花BI项目设计开数据仓库设计计—ETL设计数据仓库设计计—建模过程日程安安排数据仓仓库的的开发发应用用过程程数据仓仓库设设计—界面设设计2022年年12月月31日日80自顶顶向向下下(Top-downApproach)建造造企企业业数数据据仓仓库库建设设中中心心数数据据模模型型一次次性性的的完完成成数数据据的的重重构构工工作作最小小化化数数据据冗冗余余度度和和不不一一致致性性存储储详详细细的的历历史史数数据据从企企业业数数据据仓仓库库中中建建造造数数据据集集市市得到到大大部部分分的的集集成成数数据据直接接依依赖赖于于数数据据仓仓库库的的可可用用性性对信信心心的的极极大大考考验验::投资资大大,,建建设设时时间间长长,,阶阶段段成成果果显显现现困困难难!!ExternalDataODSCentralDataWarehouseDataMartDataMart2022年年12月月31日日81自底底而而上上(Bottom-upApproach)创建建部部门门的的数数据据集集市市范围围局局限限于于一一个个主主题题区区域域快速速的的ROI--局部部的的商商业业需需求求得得到到满满足足本部部门门自自治治--设计计上上具具有有灵灵活活性性对其其他他部部门门数数据据集集市市是是一一个个好好的的指指导导容易易复复制制到到其其他他部部门门扩大到企企业数据据仓库创建EDW作为一个个长期的的目标重复投资资:每个个部门都都重复进进行数据据整理!!企业数据据仓库建建设困难难:数据据口径、、不一致致性问题题突出!!DataMartDataMartCentralDataWarehouseExternalDataODSpartpartpartpartpartpart2022年12月31日82数据仓库库工程项项目的特特点数据仓库库工程既既包括数数据又包包括程序序,而且且是以数数据为基基础的系系统数据仓仓库工工程中中的数数据仓仓库的的目标标是面面向主主题数据仓仓库工工程是是以处处理分分析型型目标标为主主而不不是事事物型型目标标,它它对数数据内内容正正确性性与形形式规规范性性有严严格要要求数据仓仓库工工程中中数据据来源源已有有多种种信息息系统统,因因此对对系统统的数数据要要有一一定的的限制制制约约,也也就是是有了了建立立统一一数据据平台台的需需求2022年年12月31日日83数据仓仓库工工程项项目的的开发发应用用过程程解决方方案启启动((Solutionstartup)业务发发现((Businessdiscovery)解决方方案建建议((Solutionproposal)解决决方案案计划划(Solutionplanning)仓库概概念建建模((Warehouseconceptualmodeling)仓库阶阶段设设计((Warehousephasedesign)解决方方案实实现周周期((Solutionimplementationcycle)解决方方案部部署((Solutiondeployment)2022年年12月31日84数据仓库业业务发现过过程收集记录业业务需求理解客户业业务环境差异分析,,理解客户户的业务难难题及需求求,弥补当当前业务状状态及其业业务需求之之间差异2022年年12月31日85收集记录业业务需求确定业务对对象确定数据分分析场景确定功能需需求理解客户的的业务环境境理解基础架架构环境理解数据环环境差异分析需求分析识别业务主主题领域识别数据差差异识别基础设设施差异识别资源的的差异理解客户环环境三个任务可可以重叠进进行数据仓库的的业务发现现内容2022年12月31日日862022年12月31日日87数据仓库工程程项目的开发发流程图2022年12月31日日88数据仓库的数数据流程(1):对原始数数据进行数据据抽取、清洗洗、整理后成成为数据仓库库中的各种综综合度的数据据表。(2):经过维度度分析得到维维表并定义相相应的格式表表。(3):从数据仓仓库中抽取数数据形成事实实表及补充事事实表。(4):从数据仓仓库中抽取信信息,整理成成数据挖掘宽宽表,用于数数据挖掘。(5):宽表中的的数据通过数数据挖掘程序序处理后生成成的扩展数据据(挖掘结果果)需要重新新回写进事实实表。(6):利用数据据展现工具展展现OLAP和数据挖掘的的结果。2022年12月31日日89数据据仓仓库库需需求求分分析析数据据仓仓库库的的特特点点是是面面向向主主题题,,按按主主题题组组织织数数据据。。1、主主题题分分析析对对于于在在层层次次结结构构中中的的每每个个主主题题,,需需要要进进行行详详细细的的调调研研,,确确定定要要分分析析的的指指标标,,确确定定用用户户从从哪哪些些角角度度来来分分析析数数据据即即维维度度,,还还要要确确定定用用户户分分析析数数据据的的细细化化或或综综合合程程度度即即粒粒度度。。主主题题、、指指标标、、维维度度、、粒粒度度是是是是建建立立数数据据仓仓库库的的基基本本要要素素。。2、数数据据分分析析(1)数据据源源分分析析(2)数据据数数量量分分析析(3)数据据质质量量分分析析3、环环境境要要求求分分析析需需要要对对满满足足需需求求的的系系统统平平台台与与环环境境提提出出要要求求,,包包括括设设备备、、网网络络、、数数据据、、接接口口、、软软件件等等的的要要求求。。数据据源源分分析析主题题分分析析数据据质质量量分分析析环境要求求分析2022年12月31日90数据仓库库系统总总体设计计体系结构设计接口设计应用程序模块设计①数据源层②数据后端处理层③数据仓库及其管理层④数据集市层⑤数据仓库应用层⑥数据展示层①数据源与分析模型的接口②分析模型与应用的接口2022年12月31日91分析设计实施需求分析风险分析方案设计POC实施UAT发布环境准备Scope系统功能目标分析系统性能环境所带来的风险分析可以容忍的见险关键流程的定义确定组织架构方案设计(技术/框架/流程)数据备份方案时间窗环境(DB/TOOL/DATA)源代码/POC数据POC报告CUT计划测试/用户测试数据备份系统观察系统发布BugFixBI项目目建设方方法论2022年12月31日92BI项目组组织图图9212/31/2022SteeringCommittee(项目经理)(甲方项目经理)ProjectManagerETL&DM(SeniorSE)Report(SeniorSE)TestQAKMSoultionArchitect2022年年12月31日日93BI项目组组织说说明项目指指导委委员会会(SteeringCommittee):项目指指导委委员会会主要要由甲甲方与与HP的资深深主管管们所所组成成,负负责决决定项项目的的策略略方向向与目目的,,并提提供项项目执执行所所需要要的支支持与与承诺诺。协助处处理与与仲裁裁项目目执行行过程程由项项目经经理所所提报报(Escalate)所遇遇到之之困难难与争争议。。协助处处理项项目执执行上上所需需要之之人力力资源源支持持与调调动,,如项项目团团队之之人员员指派派等。。项目经经理((ProjectManager):在项项目经经理的的协助助下,,承担担并完完成下下列工工作::规划详详细的的项目目计划划书管理项项目中中所有有的日日常事事务与与工作作事项项,以以期达达成项项目每每的阶阶段性性任务务及目目标核审项项目进进度与与项目目里程程碑定期与与甲方方项目目经理理共同同执行行项目目的审审核并并商讨讨项目目的计计划定期以以书面面方式式向项项目指指导委委员会会报告告项目目进行行的状状况针对项项目执执行上上所遭遭遇的的例外外事件件进行行处理理,并并适当当提报报给项项目指指导委委员会会以寻寻求支支持与与协助助与甲方方项目目经理理共同同担负负起项项目建建置成成功的的责任任9312/31/20222022年12月31日94BI项目组织织说明专案架构构师(SolutionArchitect):负责项目目相关之之技术架架构与功功能设计计等,并并领导项项目执行行技术团团队确认项目目技术架架构符合合甲方之之维运要要求与质质量标准准。ETL组2人:负责ETL部分的开开发与实实施Report组2人:负责BOReport部分的开开发与实实施Test组2人:负责项目目的系统统测试与与用户最最终测试试其中测试试组有1人兼任QA和KM角色。9412/31/20222022年12月31日日95M0M1M2M3M4M5BI项目里程碑Milestone项目启动需求阶段POC项目实施集成测试ReleaseUATM0.5M1.5M2.5M3.5M4.5RollOut注:在大约项目启启动后2个月,POC阶段将完成,也即最初的原原型构建,用户可以得到到一个阶段性性的Release,下一步的项目目实施及集成成测试将以迭迭代的方式实实现。2022年年12月31日日96BI项目实实施阶阶段阶段输入输出项目启动-评估SOW/方案建议书/迁移评估问题清单评估计划,迁移方案,原始系统检查报告项目启动-项目计划项目实施方案,当前环境和业务需求,数据和属性,适用的实施工具项目计划,质量计划,风险管理计划,配置管理计划,单元测试案例(持续更新),集成测试案例(持续更新)POC源代码,POC数据,原始系统检查报告,实施方案实施模块,POC测试结果,POC经验总结,实施方案(更新),模块实施步骤报告迁移源代码,POC数据,原始系统检查报告,迁移方案实施的ETL脚本,数据模型,数据代码,迁移测试脚本,模块实施步骤报告集成测试测试计划,测试案例,基准版本,质量计划已测试应用,测试报告,测试案例(更新)发布已实施应用ReleaseNote用户验收测试(UAT)验收测试计划验收测试报告RollOut已迁移应用部署计划,培训材料2022年12月31日97优化及案案例分析析-业务务环境数据库服服务器:Windows2000Server+Oracle8i+IIS+PowerPlayEnterpriseServer应用服务务器:Windows2000Server+Transformer客户端:IE5.0以上版本本。2022年12月31日98优化及案案例分析析-优化化内容1.RAID2.索引的建建立3.SQL优化4.直接装载载、分区区选择、、网络设设置2022年12月31日992.数据仓库库数据模模型—星形与雪雪花BI项目设计计开发的的最佳实实践数据仓库库设计—ETL设计数据仓库库设计—建模过程程日程安排排数据仓库库的开发发应用过过程数据仓库库设计—界面设计计2022年12月31日日100影响仓库性能能的关键因素素系统硬件磁盘(转速、、容量)IO速度(光纤卡卡、网卡、路路由器)CPU(个数、主频频)主机个数数据模型逻辑模型物理模型应用复杂度及及业务发展EDWDataWarehousing2022年12月31日日101物理模型对性性能的影响数据仓库的创创建(Build)初始化每天数据载入入每月数据载入入数据维护应用查询,统计的支持(Query)KPI固定报表OLAP数据挖掘专题分析即席查询经营分析报告告/策划查询性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论