版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主讲教师:戴小廷商业智能数据与商业决策支持
—步入数据的纷繁世界商业智能概述
—初步了解商业智能商业智能原理
—洞察商业智能核心技术商业智能的敏捷实现
—了解商业智能实现工具理论篇应用篇案例篇(课内实验)—掌握商业智能实现工具(专周实训)—商业智能行业典型应用第3章商业智能原理一、数据仓库的基本原理二、数据仓库系统三、数据仓库的开发与应用四、联机分析处理五、数据挖掘六、数据挖掘的决策支持及应用了解数据仓库系统的结构、开发和应用;初步掌握数据仓库原理、联机分析处理技术和数据挖掘技术方法;会应用联机分析处理技术分析数据;能够进行简单的关联规则挖掘。本章学习目标5第一节数据仓库的基本原理6
数据仓库的产生1996年,中国IT界两大热门话题:互联网络
数据仓库美国FORTUNE杂志统计2000家商务公司中,90%应用DW。计算机应用初期电子数据处理(EDP)决策支持系统(DSS)执行信息系统(EIS)数据仓库探求企业办公室(OA)开发环境财会部(AM)→数据结构→(全局数据)很难一致人事部(PM)系统结构一什么是数据仓库?7没有(一致的)全局信息→很难产生正确的决策没有(完整的)历史数据→历史数据分析(经验)发展趋势预测隐含信息挖掘→更难支持企业决策研究企业范围内的数据集成多数据库系统面向问题的分析海量数据存储产生一项新的信息技术
DataWarehouseDW的概念起源于20世纪80年代,美国著名信息工程学家W.H.Inmon博士提出数据仓库的概念。8数据仓库定义以1992年W.H.Inmon出版《BuildingtheDataWarehouse》为标志,数据仓库迅速发展起来,Inmon也被誉为“数据仓库之父”。W.H.Inmon对数据仓库的定义是:“数据仓库是支持决策过程的、面向主题的、集成的、随时间变化的、稳定的数据集合。9
对比内容
数据库
数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序,重复处理面向主题域,分析应用数据特性动态变化,按字段更新静态、不能直接更新,只能定时添加、刷新数据结构高度结构化、复杂,适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能需要访问大量记录对响应时间的要求以秒为单位时间长数据仓库与传统数据库的比较10数据库数据仓库JJones女1945年7月20日。。。。。JJones去年有两张罚单一次大事故。。。。。JJonesMain大街123号已婚。。。。。JJones两个孩子高血压。。。。。人寿保险汽车保险房产保险健康保险JJones女1945年7月20日出生去年两张罚单一次大事故已婚两个孩子高血压。。。。。。顾客实例:11数据仓库的特点面向主题主题是在较高层次上对数据抽象面向主题的数据组织分为两步骤抽取主题确定每个主题所包含的数据内容集成的数据仓库是稳定的随时间变化的题在数据仓库中都是由一组关系表实12数据仓库的特点——面向主题13数据仓库的特点面向主题集成的数据仓库的数据是从原有的分散数据库数据中抽取来的消除数据表述的不一致性(数据的清洗)数据的综合数据仓库是稳定的随时间变化的14数据仓库的特点——集成15数据仓库的特点面向主题集成的数据仓库是稳定的数据仓库的主要数据操作是查询、分析不进行一般意义上的数据更新(过期数据可能被删除)数据仓库强化查询、淡化并发控制和完整性保护等技术随时间变化的16插入删除插入修改删除访问修改访问数据的逐个记录方式处理数据的批量载入/访问数据库数据仓库数据仓库的特点——数据仓库是稳定的17数据仓库的特点面向主题集成的数据仓库是稳定的随时间变化的不断增加新的数据内容不断删除旧的数据内容定时综合数据仓库中数据表的键码都包含时间项,以标明数据的历史时期18数据仓库的特点——随时间变化数据库数据仓库时间期限:当前到60—90天记录更新键码结构可能包括也可能不包括时间元素时间期限:5—10年数据的复杂快照键码结构包括时间元素19二数据集市人们在早期开发企业级数据仓库时,一般是先建立一个全局的数据仓库,然后在此基础上建立各种应用,即采用“自顶向下”的方法,但在开发的过程中会出现以下问题:如果按“自顶向下”的方法建立企业级数据仓库,建设规模往往较大,建设周期长,投资大。在数据仓库建好后,随着使用数据仓库的部门增多,对数据仓库资源的竞争将成为企业面临的一个难题。各个部门都希望能定制数据仓库中的数据,但数据仓库是面向企业的
。为解决上述问题,数据集市就应运而生了。20数据集市的定义数据集市(DataMart)——具有特定应用的数据仓库,从数据源中收集数据,是企业数据仓库的一个子集。主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。人力资源数据集市财务数据集市运输数据集市仓储数据集市等21数据集市的特点数据集市除具有数据仓库的基本特征以外,还具有以下特点:(1)规模较小,灵活,可以按照多种方式来组织,如按特定的应用、部门、地域、主题等。(2)开发工作一般由业务部门主持定义、设计、实施、管理和维护。(3)能够快速实现,代价较低,投资回收期短,风险小。(4)具集的紧密集成。(5)有利于进一步升级到完整的数据仓库或形成分布式数据仓库。
22数据集市的类型数据集市可以分为两种:独立的数据集市(IndependentDataMart),数据直接来源于数据源。从属的数据集市(DependeantDataMart),数据来源于中央的数据仓库。23数据源数据源分析工具分析工具独立数据集市两种数据集市分析工具中央数据仓库数据源数据源从属数据集市分析工具分析工具24第二节数据仓库系统25数据仓库管理工具抽取、转换装载元数据库数据建模工具数据仓库系统=数据仓库(DW)+仓库管理+分析工具关系数据数据文件其它数据当前数据历史数据用户查询工具C/S工具OLAP工具DM工具源数据仓库管理数据仓库分析工具数据仓库系统结构图一数据仓库系统结构26数据仓库系统数据仓库居系统的核心地位是信息挖掘的基础数据仓库管理系统是整个系统的引擎负责管理整个系统的运转主要包含ETL、元数据库和数据建模工具27数据仓库系统数据仓库系统的工具层一般的查询工具、功能强大的分析工具是整个系统发挥作用的关键主要包括:(1)查询工具主要是对分析结果的查询很少有对记录级数据的查询28数据仓库系统(2)验证型工具多维分析工具(OLAP工具)用户首先提出假设,然后利用各种工具通过反复、递归的检索查询以验证或否定假设(3)发掘型工具从大量数据中发现数据模式预测趋势和行为29数据仓库支持的一个集成化产品一个集成化的产品集数据仓库系统31粒度——是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;
细化程度越低,粒度级就越大。粒度——细节的级别粒度的划分决定了数据仓库中数据量的大小和查询的详细程度。多重粒度二数据仓库的存储基本概念32粒度的一个例子高细化低细化每月200个记录每月40,000个字节每月一个记录每月200个字节通过检索可以回答无细节无法回答询问某一运单的细节33
分割分割——将当前细节数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。分片——数据分割后的独立单元。数据的分割提高了数据管理的灵活性
重构、索引、重组、恢复、监控分割的标准:日期、地域、业务领域。34分割的一个例子分片9分片8分片72014分片6分片5分片42013分片3分片2分片12012金融收入仓储收入运输收入35数据仓库的数据组织形式简单堆积数据轮转综合数据简化直接数据连续数据数据更新数据更新方式批量更新初次数据提取时将采用批量更新增量更新当数据源中的数据发生改变时,采用增量更新,避免较大的网络负载和处理开销实时更新数据源中的数据发生变化时,随之改变数据仓库中的数据周期更新按固定的周期将数据源中的数据更新反映到数据仓库中,开销更小。如果数据在一个周期内,数据有变化,通常只能反映出最后一次的更新数据,这个问题基本通过数据源的日志来解决。数据都是历史数据,但弊端是数据丢失,37数据仓库的基本数据模式多维数据模型事实表——存放与分析主题相关的维编号和度量的基本数据维——人们观察数据的特定角度,是每个事物的属性,也是度量的取值条件度量——事实表中的数据属性,一般是数值型数据维表——表示维的各种表维——量的取值条件,维用外键表示38数据仓库的基本数据模式星型模式(StarSchema)以事实表为中心若干维表与事实表相联简洁、查询方便且易于理解39星型模式产品标识符类标识符大类标识符产品名类名大类名现货存量销售表产品标识符商店标识符日期标识符单价销售金额日期表日期标识符日月季年商店标识符市名省名国名洲名商店表产品表40数据仓库的基本数据模式雪花模式(SnowflakeSchema)维一般是由若干层次组成把维按其层次结构表示成若干个表规范化、节省存储空间但需多做连接操作41雪花模式销售表产品标识符商店标识符日期标识符单价销售金额日期表日期标识符日月月季月表季年季表产品表产品标识符类标识符产品名现货存量类表类标识符大类标识符类名大类表大类标识符大类名商店表商店标识符市名市名市名省名市表省名国名省表国名洲名国表三OLTP与OLAP环境下的数据库模式示例OLTP环境采购子系统订单(订单号,供应商号,商品号,数量,日期,总金额)商品(商品号,类别,单价)供应商(供应商号,供应商名,地址,电话)销售子系统顾客(顾客号,姓名,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)OLTP环境(续)库存管理子系统领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,库房管理员,地点,库存商品描述)人事子系统员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)OLAP环境下商品商品固有信息:商品号,商品名,类别,颜色等;商品采购信息:商品号,供应商号,供应价,供应量,供应日期等;商品销售信息:商品号,顾客号,售价,销售量,销售日期等;商品库存信息:商品号,库房号,库存量,日期等。OLAP环境下(续)供应商供应商固有信息:供应商号,供应商名,地址,电话等;供应商品信息:供应商号,商品号,供应价,供应日期,供应量等。顾客顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,地址,电话等。顾客购物信息:顾客号,商品号,售价,购买日期,购买量等。46第三节数据仓库的开发与应用一数据仓库的开发策略有反馈的平行开发欧式有反馈的由上而下模式有反馈的由下而上模式
平行开发模式由上而下模式由下而上模式数据仓库开发策略二数据仓库设计的步骤元数据模型业务数据理解和需求分析分析主题和元数据概念模型设计事实及其量度和粒度维度模式确定逻辑模型设计数据仓库的物理存储方式物理模型设计数据仓库生成需求分析49在数据仓库设计的开始,首先要做的事是有关分析人员需确定领域的分析对象,这个对象就是主题。如在商场中经常需要分析的主题是商品、顾客与供应商。主题是一种较高层次的抽象,对它的认识与表示是一个逐步完善的过程。因此,在开始时不妨先确定一个初步的主题概念以利于设计工作的开始,此后随着设计工作的进一步开展,再逐步扩充与完善。
设计步骤一:需求分析50准备具体的物理实现环境,包括:
设计步骤二:概念设计在明确主题与已有数据源的情况下,用E-R图和信息包图方法建立一个数据仓库抽象数据模型。概念模型的评估:其内容包括数据仓库的性能指标,如数据存取能力,模型重组能力,数据装载能力等。在评估基础上提出数据仓库的软硬件平台要求,包括计算机、网络结构、操作系统、数据库及数据仓库软件的选购要求等。51在逻辑模型设计基础上确定数据的存储结构、索引策略、存储分配及数据存放位置等与物理有关的内容。物理模型设计的具体方法与数据库设计中的大致相似。
设计步骤三:逻辑模型设计
设计步骤四:物理模型设计在数据仓库概念模型基础上可以设计逻辑模型。52
设计步骤五:数据仓库生成根据逻辑模型与物理模型用数据仓库的建模语言定义数据模式。根据元数据编制数据抽取程序,将数据源中的数据作加工以形成数据仓库中的数据。数据加载:将数据源中的数据,通过数据抽取程序加载到数据仓库中去。53第四节联机分析处理OLAP(On-lineAnalyticalProcessing)技术数据仓库是管理决策分析的基础,要有效地利用数据仓库的信息资源,必须要有强大的工具对数据仓库的信息进行分析决策。
OLAP(在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,迅速灵活地对当量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。55一联机分析处理的定义在线分析处理是一类软件技术,利用它可以使分析人员、管理人员以及主管从多种信息视角通过快速、一致和交互地访问数据,达到对数据的洞察。这些视角是从原始数据转换过来的,反映了企业的真实维度,易于被用户理解。是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP(On-LineAnalyticalProcessing)业务处理系统数据准备区数据仓库OLAP服务器客户端可视化处理底层中间层顶层数据抽取数据清理转换多维化数据加载OLAP在三层数据仓库结构中的位置OLAP的特性1.快速性.用户对OLAP的快速反应能力有很高的要求。2.可分析性.OLAP系统应能处理与应用有关的逻辑与统计分析。3.多维性.多维性是OLAP的关键属性。系统能够提供对数据分析的多维视图和多维分析。4.信息性.
不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。OLAP的基本概念
维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。如时间维是某个商品销售量随时间发生的变化,从时间维对商品的销售进行观察。维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,…,维n,观察变量),(时间,地区,产品,销售额)。多维数据集:是用一个多维数组来表示,决策分析的基础,也是OLAP的核心,常称立方体或者超立方。OLAP展现在用户面前的是一幅幅多维视图。数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000)。OLAP:多维分析用维的方法观察数据产品,时间,地区,财务指标等数据模型等同于业务模型主营业务收入分析分公司服务城市时间收入种类北京上海天津北京广东...Q1Q4运输收入仓储。。。Q2Q3OLAP多维数据分析切片和切块(SliceandDice)在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。钻取(Drill)
钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻取的深度与维所划分的层次相对应。旋转(Rotate)/转轴(Pivot)通过旋转可以得到不同视角的数据。主营业务收入分析分公司服务城市时间收入种类北京上海天津北京广东...Q1Q4运输收入仓储。。。Q2Q3OLAP的分析方法:切片和切块(SliceandDice)OLAP的分析方法:钻取(drill-down)按时间维向下钻取按时间维向上钻取602014年OLAP:旋转/转轴按照不同的顺序组合维,对数据进行考察数据立方体旋转a)旋转前b)旋转后65OLAP与OLTPOLTP系统——联机事务处理
On-LineTransactionProcessing
事件驱动,面向应用。
如:银行的储蓄系统OLAP系统——联机分析处理
On-LineAnalyticalProcessing
跨部门,面向主题。OLTP与OLAP对比66面向分析,分析驱动面向应用,事务驱动面向决策人员,支持管理需要面向操作人员,支持日常操作用户数量相对较少用户数量大响应时间合理对响应时间要求高一次处理的数据量大一次处理的数据量小周期性更新经常更新历史数据当前数据综合性数据细节性数据数据库/数据仓库数据(分析型)数据库数据(操作型)OLAPOLTP67基于关系数据库的OLAP——ROLAP以二维表与多维联系来表达多维数据(综合数据)星型结构事实表,存储事实的量及各维的码值(BCNF)维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余)事实表通过外键与每个维表相联系雪花、星座、雪暴模拟多维方式显示(观察)数据二OLAP的数据组织68基于多维数据库的OLAP——MOLAP以多维方式组织数据(综合数据)以多维方式显示(观察)数据多维数据库的形式类似于交叉表,可直观地表述一对多、多对多的关系如:产品、地区、销售额关系多维多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指针结构以关系数据库存放细节数据、以多维数据库存放综合数据69MOLAP与ROLAPMOLAP计算速度较快支持的数据容量较小缺乏细节数据的OLAPROLAP结构较复杂以关系模拟多维支持适当细节的OLAP较成熟HOLAP是以上两种的综合用关系数据库存放细节数据用多维数据库存放综合数据同时具有ROLAP的可伸缩性和MOLAP的快速技术70桌面级工具BrioQuery(ROLAP)BusinessObjects(ROLAP)CognosImpromptu(ROLAP)CognosPowerPlay(MOLAP)服务器级OLAPHyperionEssbase(原ArborSoftwareEssbase(MOLAP))MicroStrategyDSSAgent(ROLAP)Oracle’sExpress(hybridMOLAP/ROLAP)71实例1:一个3维的模型,3个维为:部门,时间,销售。它的三维立方体,三维表三OLAP应用实例时间部门销售20182019汽车家具服装
销售量利润增长%72三维表—切片—下钻—旋转21.730667721.3202388所有其他27.232540222.4375098汽车31.16600533.862548家具21.538110227.2234670服装利润增长%销售量利润增长%销售量20192018实例2:在当下的竞争环境下,企业为了分析,定位,拓展新的市场,必须对目标进行多维分析,OLAP是多维数据分析工具的集合。例子:以鲁东商业银行在2000年至2005年之间的贷款数据进行的多维分析案例9张表间的关系及各表包含的字段表为分析需求分析主题鲁东商业银行贷款金额分析分析的数值(事实)贷款总额、正常贷款额以及不良贷款额。分析的角度(维度)信贷机构、时间、贷款类别、贷款期限和经营状况。分析粒度(维度级别)信贷机构:市行、支行和管辖机构。时间:年、季度和月。贷款类别:贷款的类别。贷款期限:贷款期限、贷款期限明细。经营状况:经营状况。案例构造事实表的视图:分析数据库中的数据表间关系案例构建数据仓库和多维数据集连接数据源创建数据仓库建立多维数据集选择事实数据表建立“信贷机构”维度建立“借款日期”维度建立“贷款类别”维度建立“贷款期限”维度建立“经营状况”维度完成多维数据集的建立案例使用多维数据集浏览器查看数据案例替换网格中的维度:“借款日期”替换“贷款类别”案例添加“贷款期限”维度案例下钻“借款日期”维度。下钻是上卷的逆操作,它是沿着维的层次向下,查看更详细的数据案例上卷“借款日期”维度。上卷是沿着维的层次向上聚集汇总数据案例切片:筛选经营状况为“亏损”的企业。当显示维和上下文维的参与度之和等于2时,称之为切片(一个维度固定,根据其他维度变化来看分析)案例切块:筛选“经营状况”为“亏损”的企业、“贷款期限”为“短期贷款”。当显示维和上下文维的参与度之和大于2时称之为切块案例通过实例可知,OLAP主要实现如下几种功能通常包含交互式查询和对数据的分析2提供分析的建模功能3生成概括数据和聚集,层次4支持功能模型以进行预测、趋势分析和统计分析5检索并显示二维或三维表格、图表或图形化的数据6快速响应查询7OLAP主要实现功能给出数据仓库中数据的多维逻辑视图1具有多维数据存储引擎,按阵列存储数据885AnyQuestions?86粒度——细节的级别高细化——低粒度例如:一个顾客一个月内的订单的细节低细化——高粒度例如:一个顾客一个月内的订单的综合87数据的分割难以管理容易管理分片88简单堆积文件1月1日1月2日1月3日……2月1日2月2日
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江省龙江教育联盟2026届高三上学期期末考试生物试卷(含答案)
- 广东省深圳市深圳实验学校2025-2026学年上学期期末七年级数学试卷(无答案)
- 2025-2026学年北京市朝阳区八年级(上)期末道德与法治试卷(含答案)
- 五宫数独题目及答案
- 初中数学知识梳理课件
- 吉林省四平市伊通满族自治县2025-2026学年八年级上学期期末考试地理试题(原卷版+解析版)
- 涉密测绘外业安全保密管理制度
- 防火卷帘控制技术要领
- 冀教版二年级下册数学第六单元-三位数加减三位数-同步练习题带答案(新)
- 施工员招聘考试及答案
- 生物化学:实验七 牛乳中酪蛋白的制备
- 骨折合并糖尿病病人护理
- 旋磁治疗机前列腺总结报告
- 《自信的秘密》节选
- 仍然不足够专题培训
- YC/T 547.6-2017烟草行业专用计量器具技术审核规范第6部分:卷烟通风率检测设备
- 部编版八年级语文上册期末复习专题课件
- 教育行业中国智慧教育白皮书:基于信创体系的智慧教育
- 丝印检验标准
- GB∕T 28202-2020 家具工业术语
- GB∕T 1348-2019 球墨铸铁件-行业标准
评论
0/150
提交评论