版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商务智能原理与方法
—参考文档—2023年7月16日机密商务智能方法概论全文共221页,当前为第1页。目录引言商务智能过程数据仓库商务智能应用构建商务智能环境关联规则分类分析聚类分析概念描述商务智能方法概论全文共221页,当前为第2页。目录引言商务智能简介商务智能与信息社会商务智能与企业管理商务智能与数据挖掘商务智能与新技术融合小结及练习商务智能方法概论全文共221页,当前为第3页。商务智能的概念通常认为是于1996年由加特纳集团(GartnerGroup)提出的。商务智能是一门新兴的边缘学科汇集了来自数据库、管理信息系统、统计学、人工智能中的机器学习与模式识别等多学科的成果,具有很强的生命力。公司定义IBM利用已有的数据资源作出更好的商业决策,它包括数据访问、数据和业务分析,以及发现新的商业的机会。这说明商务智能的实质是从数据中有效地提取信息,从信息中发现知识,为商务决策和战略发展。GartnerGroup商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。微软是任何尝试获取、分析企业数据以更清楚地了解市场和客户、改进企业流程、更有效地参与竞争的努力,以便在正确的时间向正确的决策者提供正确的信息。Oracle商务智能就是在核实的时间提供核实的数据访问以制定正确的决策课本商务智能是一个从大规模(海量)数据中发现潜在的、新颖的、有用的知识的过程,旨在支持组织的业务运作和管理决策。商务智能方法概论全文共221页,当前为第4页。企业对信息资源开发与利用要求的提升,促使了商务智能的发展。1、数据应当得到有效的管理和组织,才能通过系统化得应用,服务于组织的管理和决策信息资源的开发与利用包含两个层面的含义2、对信息资源的利用存着一个由浅入深,由单一到综合的过程事务处理(OLTP)分析处理(OLAP)知识发现(KDD)On-LineTransactionProcessing联机事务处理系统On-LineAnalyticalProcessing联机分析处理系统KnowledgeDiscoveryinDatabases商务智能方法概论全文共221页,当前为第5页。对数据进行深入的,智能化的分析,寻找潜在的未来知识别名:数据挖掘、知识抽取、信息发现、数据考古,最常用的术语是“知识发现”和“数据挖掘”。相对来讲,数据挖掘主要流行于统计界,数据分析、数据库和管理信息系统界;而知识发现则主要流行于人工智能和机器学习界。KDD
实现数据的电子化采集、交换和处理。用户群:通常层级较低数据:当前的功能:日常处理OLTP要求对数据进行多维度的综合整理用户群:决策层数据:历史的功能:分析决策OLAP超市前端+后台运营商务智能方法概论全文共221页,当前为第6页。OLAP和KDD又有很多不同的地方数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。传统的查询和报表工具是告诉你数据库中都有什么(whathappened),OLAP则更进一步告诉你下一步会怎么样(Whatnext)、和如果我采取这样的措施又会怎么样(Whatif)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。OLAP分析过程在本质上是一个演绎推理的过程。OLAPKDD但是如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。商务智能方法概论全文共221页,当前为第7页。商务智能概念中通常有四个要素:大规模数据,数据驱动,潜在新颖性和知识有用性大规模数据:商务智能是从海量的数据中发现知识,因此数据挖掘的效率是重要的考量。数据驱动:由于数据规模的缘故,传统的建模假设都难人工穷举数据变量和属性组合。潜在新颖性:商务智能通过数据挖掘所获得的知识是非显见的,而且是新颖的。知识有用性:通过商务智能得到的知识是用于业务运作和管理决策的。也就是说,所发现的知识的有用性通常与应用环境有关。商务智能方法概论全文共221页,当前为第8页。目录引言商务智能简介商务智能与信息社会商务智能与企业管理商务智能与数据挖掘商务智能与新技术融合小结及练习商务智能方法概论全文共221页,当前为第9页。处在信息社会的一个重要标志性特征就是信息融合,这主要体现在两点:技术透明性和技术渗透性技术透明性技术渗透性信息融合两个要点需要和人联系,第一首先想到的是电话,而不是信件我们并不需要了解3G,4G的网络技术商务智能方法概论全文共221页,当前为第10页。由信息技术进步和广泛应用驱动的技术融合不断深化,从两个方面对于人们的社会生活和经济活动产生影响一方面,企业中许多传统的业务决策问题逐渐变成信息决策问题另一方面,信息产品及其应用随着技术创新呈现出越来越丰富的形态和特征商务智能方法概论全文共221页,当前为第11页。商务智能是信息社会的产物---信息社会的技术融合使技术透明性和渗透性非常高,因而为商务智能的发展提供了沃土。商务智能比传统的业务报告在内容以及时效性上都有长足的进步传统业务报告数据充分而知识匮乏1传统报告不能满足用户需求天气预报:每天只告诉你历史数据对你来说有用么?2传统分析工具的整合能力有限用户被限定在数据对象中,而不能进一步分析和整合3信息技术及应用的推广大容量数据存储,互联网,并行处理,云技术4商务智能发展起来的四种推手商务智能方法概论全文共221页,当前为第12页。商务智能是信息社会繁荣的推动力—从传统的商业领域逐步拓展到政务领域、教育领域、医疗领域等其他各领域商业领域
政务领域教育领域医疗领域其他各领域商务智能方法概论全文共221页,当前为第13页。引言商务智能简介商务智能与信息社会商务智能与企业管理商务智能与数据挖掘商务智能与新技术融合小结及练习目录商务智能方法概论全文共221页,当前为第14页。商务智能可以在企业的各个层面发挥作用Title销售管理领域营销领域客户关系管理财务分析人力资源管理供应链管理商务智能方法概论全文共221页,当前为第15页。商务智能对企业的战略决策也同样具有非常重要的影响,这种影响体现在3个方面:公司战略、业务战略和职能战略。业务战略公司战略职能战略商务智能可以进行企业外部因素分析:外部环境分析、行业状况分析、竞争对手分析等商务智能可以根据公司各战略业务单元的经营业绩和经营定位来选择合格的投资组合战略商务智能可以在分析企业内部因素(劳动力,成本,技术,竞争等)的基础上为职能战略提供科学的决策依据商务智能方法概论全文共221页,当前为第16页。实例:商务智能在服装行业的应用亚洲60%欧洲40%常规款式的时装和童装量小且流行性强的服装高效供应链快速反应供应链IT驱动设计实时销售数据顾客喜好流行趋势传至采购部➠采购确定生产数量➠供应商安排生产➠送至德国汉堡物流中心分类➠快速配送到全球门店商务智能方法概论全文共221页,当前为第17页。归纳而言,商务智能对于企业至少有四个方面的作用理解业务改善关系可以对各项业务进行准确的评估,帮助理解业务的驱动因素,识别对业务产生影响的关键因素,积极推动业务发展,培养良好发展态势提供有关业务状况的有用信息,提高企业知名度,改善全信息链的效率衡量绩效创造商业机会从企业各个应用该系统中提取各种基础绩效指标与关键绩效指标,对员工的工作绩效进行追踪、衡量和评价。以商务智能为基础的企业绩效管理成为欧美企业最热门的管理和信息技术课题之一掌握各种商务数据和信息的企业可以出手这些信息而获利。(咨询)商务智能方法概论全文共221页,当前为第18页。商务智能又是如何协助企业进行管理的呢?通常我们认为有4种方式:基于目标的管理,基于异常的管理,基于事实的管理和基于智能协同的管理基于智能协同的管理:实现企业内部与外部资源的协同基于异常的管理:检测实际指标与计划目标之间的偏差基于目标的管理:能计算跨组织的绩效目标241基于事实的管理:将企业目标与事实结合3需要说明的是,商务智能不只是一套软件和工具,同时也是建立在灵活性、响应速度和软/硬件基础上的一套业务运作的方法,这也是现代商务智能的核心理念。商务智能方法概论全文共221页,当前为第19页。商务智能的商业价值主要有三个方面的体现:省钱,提高效率和提高竞争力省钱提高竞争力省时,省力(提高效率)商务智能可以给企业带来三个方面的好处需要说明的是,商务智能作为对信息的提炼和知识的积累,是企业的一项重要的隐形资产,不能简单的用传统的指标来衡量。(其实,对于很多企业来说,这就是资产!比如投行,比如券商等等)商务智能方法概论全文共221页,当前为第20页。引言商务智能简介商务智能与信息社会商务智能与企业管理商务智能与数据挖掘商务智能与新技术融合小结及练习目录商务智能方法概论全文共221页,当前为第21页。数据挖掘是商务智能的核心技术,从认知层次来看,数据挖掘的基本目标是预测(Prediction)和描述(description)从认知层面看数据挖掘的基本目标预测:利用数据中已知的变量和字段来确定一些感兴趣的未知或未来的值描述:集中于寻找一些人类能够理解的模式来对数据进行刻画商务智能方法概论全文共221页,当前为第22页。通常我们可以根据知识类型将数据挖掘划分为6类时序数据分析其他模式识别和统计分析方法概念描述分类和预测关联规则聚类数据挖掘六种分类1234561归纳或简约,通过将数据进行一般化、汇总或将可能矛盾的数据特征进行说明,来寻求对一个数据自己的简约的描述2将一组个体按照某种标准进行汇总,形成新的类,目的是同一类的距离尽可能的小,不同类的距离尽可能的大3发现数据之间的关联性、相关性和因果性。比如:港口物流繁荣与腹地经济增长关系4一方面包括根据按类进行划分的属性值将数据进行分类,瓦举出关于每一类数据的描述或模型;另一方面包括根据已有的信息和模式来预测未来的或位置的属性值5统计方法的直接应用,包括:趋势和偏差分析,用户定义的模式匹配分析及周期数据分析6回归分析,相关分析商务智能方法概论全文共221页,当前为第23页。数据挖掘系统的体系结构如下图所示数据文件数据库数据仓库数据挖掘引擎模式评价模块可视化工具用户知识库过滤清理整合知识库(KnowledgeBase)是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合通过应用兴趣度标准来精炼、聚集发现的模式,它还会评价存储在知识库中的阈值。次模块有时被集成到数据挖掘模块中。数据挖掘系统与用户的通信接口。用户通过它来制定数据挖掘计划、提供挖掘所需要的信息、浏览数据挖掘的结构、评价挖掘的模式。包括一系列功能模块,每种模块还包含多种算法。商务智能方法概论全文共221页,当前为第24页。数据挖掘时数据驱动的,它并不始于一个有待证明的具体逻辑模式,而始于复杂的海量数据,利用强大的分析工具和特定的知识提取方法,从数据出发,对各种模式进行匹配,经过筛选,获得潜在的、新颖的、有用的知识模型驱动数据驱动业务处理信息查询报表生成分析处理多维分析数据仓库知识发现数据挖掘智能决策模型与数据的作用数据挖掘与传统的数据分析的本质区别在于数据挖掘时在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的知识具有先前未知、潜在有效和可使用的特征。商务智能方法概论全文共221页,当前为第25页。引言商务智能简介商务智能与信息社会商务智能与企业管理商务智能与数据挖掘商务智能与新技术融合小结及练习目录商务智能方法概论全文共221页,当前为第26页。新兴技术与新兴应用的不断涌现,创造了一个动态变化的商务环境,在这样的形势下,商务智能领域的创新业不断加速,并越来越与企业系统、电子商务系统、知识管理系统、web2.0等各种类型的技术及应用融合在一起(1)商务智能方法概论全文共221页,当前为第27页。与新技术融合(2)商务智能方法概论全文共221页,当前为第28页。与新技术融合(3)商务智能方法概论全文共221页,当前为第29页。与新技术融合(4)商务智能方法概论全文共221页,当前为第30页。与新技术融合(5)商务智能方法概论全文共221页,当前为第31页。引言商务智能简介商务智能与信息社会商务智能与企业管理商务智能与数据挖掘商务智能与新技术融合小结及练习目录商务智能方法概论全文共221页,当前为第32页。小结在经济管理活动中,数据代表着对现实实际及业务活动的事实性记录;信息可以被理解为一数据的形式存在的,对现实世界语义的反应;知识代表着被组织起来用于解决问题的信息;智能则意味着利用知识来获取效益的能力1商务智能随着internet的高速发展和企业信息化的不断深化而产生的,是信息社会高度发展的产物,同时,商务智能的出现和发展也极大地推动了信息经济的发展和信息社会的进步。2商务智能应用已经对商务环境及现代企业的经营、管理活动产生了深刻的影响。其与新技术的融合,日益显示出强大生命力和巨大商业价值。4商务智能是从大量数据中提取出未知的、潜在有用的、新颖的知识的过程,旨在支持组织的业务运作和管理决策。数据挖掘时商务智能的技术核心。常见的商务智能及数据挖掘的方法有概念描述、聚类、关联规则、分类和预测、时序数据分析及其他一些模式识别和统计分析方法。3商务智能方法概论全文共221页,当前为第33页。目录引言商务智能过程数据仓库商务智能应用构建商务智能环境关联规则分类分析聚类分析概念描述商务智能方法概论全文共221页,当前为第34页。商务智能过程是一个多步骤的处理过程,一般可分为六个步骤:问题定义、数据选择、数据预处理、数据转化、数据挖掘和知识解释/评估数据转化后的数据预处理后的数据模式知识目标数据123451数据选择2数据预处理3数据转化4数据挖掘5知识解释/评价一开始是在基本业务数据层面进行数据处理,用于对日常运作的信息处理和汇总。进一步,在业务数据库的基础上,通过数据抽取、汇总和转换形成数据仓库,并进一步进行分析。在数据仓库的基础上,可以采用数据挖掘技术进行知识发现。商务智能方法概论全文共221页,当前为第35页。商务智能过程数据库与事物处理数据仓库与在线分析处理知识发现与可持续竞争优势小结及练习目录商务智能方法概论全文共221页,当前为第36页。数据管理经历了三个阶段:自由管理,文件管理和数据库管理自由管理文件管理数据库管理自由管理和文件管理方式在数据存储结构上的标准化程度很低,不足以支撑数据的综合性管理和应用,而数据库是以一定的组织方式存储在一起的相关数据的集合。商务智能方法概论全文共221页,当前为第37页。数据库是“按照数据结构来组织、存储和管理数据的仓库”,数据库概念的两个主要目标是减少数据冗余(数据共享性)和获得数据独立性。获得数据独立性:数据独立性指两个方面,即数据与数据间的独立性及数据与处理间的独立性。前者指对于某些数据的更新,不影响与其不相关的其他数据,后者是指对某些数据的更新,不影响处理该数据的应用程序。减少数据冗余:数据冗余指数据重复,即同样的数据存储在多个文件中,冗余数据意味着相同事实的重复,如果对这些相同的事实进行多处修改时发生错误,使它们的值不等时,很难判断哪个值是正确的。数据库概念主要目标商务智能方法概论全文共221页,当前为第38页。数据库管理系统(DBMS)是一种操纵和管理数据库的软件,用于建立、使用和维护数据库。它对数据库进行统一的管理和控制,以保证数据库的安全性和完整性。用户通过DBMS访问数据,管理员通过DBMS修改数据程序程序程序模式维护查询数据维护事物管理器“查询”处理器存储管理器数据元数据DBMSDBMS以特定的结构化方式来管理和保存数据DDL编译器DML编译器嵌入型DML预编译器查询运行核心程序授权和完整性管理器事物管理器文件管理器缓冲区管理器商务智能方法概论全文共221页,当前为第39页。使用数据库环境来管理数据,具有很多方面的优势123456集中管理数据降低系统复杂性剔除包含复杂数据的孤立文件减少数据的冗余和不一致通过集中控制来管理数据的混乱将数据逻辑视图和物理视图分开,降低程序和数据间的依赖性允许对信息进行定制查询,增强了适应性提升了信息存取和利用的可能性商务智能方法概论全文共221页,当前为第40页。OLTP(OnlineTransactionProcessing)在线事物处理,也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果OLTP应用领域记录来自销售点终端或通过网站输入的订单(在线订票)当库存量降到指定级别时,订购更多的货物在制造厂中将零部件组装为成品时对零部件进行跟踪。记录雇员数据OLTP特征支持大量并发用户定期添加和修改数据反映随时变化的单位状态面对的是事物操作人员和底层管理人员处理的数据高度结构化,涉及的事务比较简单,访问路径已知商务智能方法概论全文共221页,当前为第41页。商务智能过程数据库与事物处理数据仓库与在线分析处理知识发现与可持续竞争优势小结及练习目录商务智能方法概论全文共221页,当前为第42页。OLTP解决业务自动化和信息查询的基本需求,但在资源开发和利用的分析处理层面上则无能为力,这样就要求建立一个面向分析的,集成保存大量历史数据的新型数据管理机制-----数据仓库(DW)信息处理的任务包括信息获取信息传递(信息获取反过程)信息创造(涉及到对信息进行加工)信息存储信息通信事物处理和分析处理都是信息创造的过程,事物处理时统计报表和数据查询,分析处理则是对信息的分析,涉及到信息的切分,多维化,前推和回溯,以及回答what-if问题。常见的分析处理应用如多维视图,预测,敏感性分析和成本控制等,由于这类应用随着网络的发展而更为强大,因此称之为在线分析处理(OLAP)商务智能方法概论全文共221页,当前为第43页。OLAP与OLTP之间的关系客户数据库产品数据库数据仓库路由器数量改变改变产品价格添加供应商改变还款期限数据数据是否有替代品可用库存是否可控投资是否达到年度预算商务智能方法概论全文共221页,当前为第44页。数据仓库是把一个组织中的历史数据收集到一个中央仓库中以便于处理,是当今信息管理中的主流趋势之一,是OLAP应用的环境和基础。相比传统的数据库,数据仓库具有四个重要特征数据仓库根据主题域来组织和提供数据,使用标准化的面向业务的数据并不可行,根据主题的数据必须是多种多样的,并且是基于决策者的角度来组织和提供数据的。面向主题面向事物处理的操作型数据库,为了提高应用程序访问数据的效率是面向事物处理任务,但造成系统之间相互独立。而数据仓库中的数据是对原有分散的数据库进行数据抽取、清理的基础上经过系统加工、汇总和整理后实现数据的集成,消除了源数据中的不一致性。集成的操作性数据库中的数据是实时更新的,而数据仓库中的数据主要是做决策分析用的,所涉及的数据通常是用作查询的,很少涉及修改和删除,一般都是加载和刷新。相对稳定的操作性数据库主要关心当前某一时间段内的数据。数据仓库中的数据通常包含历史信息,数据仓库的作用就是应用大量的历史数据,通过分析,判断并找到某些模式或预测趋势,来作为当前决策的支持源。反应历史变化商务智能方法概论全文共221页,当前为第45页。将OLAP应用构建于数据仓库,而不是数据库上主要是基于三个技术原因计算机处理速度的大幅度提升、存储及处理成本的大幅度降低,是保障数据仓库能够有效运行的物理基础。决策分析理论的完善和应用,使数据仓库中的分析技术能够有效实现,这样分析人员能够得到自己想要的信息。生成多角度,多层次和不同粒度的分析结构,人们无法判预测或控制决策数据的存取路径。原因二原因三原因一商务智能方法概论全文共221页,当前为第46页。在当下的竞争环境下,企业为了分析,定位,拓展新的市场,必须对目标进行多维分析,OLAP是多维数据分析工具的集合。例子:以鲁东商业银行在2000年至2005年之间的贷款数据进行的多维分析案例9张表间的关系及各表包含的字段商务智能方法概论全文共221页,当前为第47页。表为分析需求分析主题鲁东商业银行贷款金额分析分析的数值(事实)贷款总额、正常贷款额以及不良贷款额。分析的角度(维度)信贷机构、时间、贷款类别、贷款期限和经营状况。分析粒度(维度级别)信贷机构:市行、支行和管辖机构。时间:年、季度和月。贷款类别:贷款的类别。贷款期限:贷款期限、贷款期限明细。经营状况:经营状况。案例商务智能方法概论全文共221页,当前为第48页。构造事实表的视图:分析数据库中的数据表间关系案例商务智能方法概论全文共221页,当前为第49页。构建数据仓库和多维数据集连接数据源创建数据仓库建立多维数据集选择事实数据表建立“信贷机构”维度建立“借款日期”维度建立“贷款类别”维度建立“贷款期限”维度建立“经营状况”维度完成多维数据集的建立案例商务智能方法概论全文共221页,当前为第50页。使用多维数据集浏览器查看数据案例商务智能方法概论全文共221页,当前为第51页。替换网格中的维度:“借款日期”替换“贷款类别”案例商务智能方法概论全文共221页,当前为第52页。添加“贷款期限”维度案例商务智能方法概论全文共221页,当前为第53页。下钻“借款日期”维度。下钻是上卷的逆操作,它是沿着维的层次向下,查看更详细的数据案例商务智能方法概论全文共221页,当前为第54页。上卷“借款日期”维度。上卷是沿着维的层次向上聚集汇总数据
案例商务智能方法概论全文共221页,当前为第55页。切片:筛选经营状况为“亏损”的企业。当显示维和上下文维的参与度之和等于2时,称之为切片(一个维度固定,根据其他维度变化来看分析)案例商务智能方法概论全文共221页,当前为第56页。切块:筛选“经营状况”为“亏损”的企业、“贷款期限”为“短期贷款”。当显示维和上下文维的参与度之和大于2时称之为切块案例商务智能方法概论全文共221页,当前为第57页。通过实例可知,OLAP主要实现如下几种功能通常包含交互式查询和对数据的分析2提供分析的建模功能3生成概括数据和聚集,层次,以及在每一维交叉点上对聚集和概括级别的审计4支持功能模型以进行预测、趋势分析和统计分析5检索并显示二维或三维表格、图表或图形化的数据6快速响应查询7OLAP主要实现功能给出数据仓库中数据的多维逻辑视图1具有多维数据存储引擎,按阵列存储数据,这些阵列是商业维的逻辑表示8商务智能方法概论全文共221页,当前为第58页。商务智能过程数据库与事物处理数据仓库与在线分析处理知识发现与可持续竞争优势小结及练习目录商务智能方法概论全文共221页,当前为第59页。随着企业发展,其对信息系统统计决策支持的要求越来越高,需要更多的知识来有效支持决策,以获得竞争优势,这对数据分析和利用提出更高的要求.有些时候数据挖掘任务一无所获,有时候能发现金砖。下图为知识发现VSOLAP数据挖掘工具数据仓库80%南区老年客户是忠实客户期限超过3个月的10000以上的应收账款84%可能会形成坏账65%购买名牌产品的30岁以下女性通常有80%可能购买每月新品知识发现OLAP上个月有多少产品销售额超过10000?库存降低10%后管理成本是多少?达到盈亏平衡的最低折扣是多少?1231客户关系管理部门2财务部门3销售部门商务智能方法概论全文共221页,当前为第60页。案例分析:背景:360搜索会通过安全卫士和浏览器将用户平时浏览网页的信息反馈给360的搜索爬虫服务器,然后再由爬虫对相关信息进行抓取,这就可能会造成许多网站内部系统等暴露在搜索结果里,引发敏感数据的泄露在360浏览器的隐私策略中,注明了360安全浏览器会在您的计算机上记录有关浏览历史记录的实用信息。这些信息包括:浏览历史记录、您访问过的大部分网页的的屏幕截图、Cookie或网络存储数据、访问网站时留下的临时文件、地址栏下拉列表、最近关闭的标签列表、关闭窗口时的未关闭标签列表、使用内置安全下载器的下载记录、浏览器插件中保存的内容等。数据挖掘增强企业竞争优势虚假案例商务智能方法概论全文共221页,当前为第61页。商务智能过程数据库与事物处理数据仓库与在线分析处理知识发现与可持续竞争优势小结及练习目录商务智能方法概论全文共221页,当前为第62页。小结企业中的数据资源的开发和利用一般分为事物处理、分析处理和知识发现三个层次。事物处理能回答“发生了什么”的问题,分析处理回答“为何会发生”的问题,而知识发现回答的是“将会发生什么”的问题1商务智能是一个多步骤的处理过程,一般分为:定义问题,数据选择,数据预处理,数据转化,数据挖掘,知识评估,一般来说,商务智能是事务处理,分析处理,知识发现三个阶段的整合。2通过商务智能过程帮助企业决策者及时地了解自己的客户、了解竞争对手、了解自己的现状、了解发展的机会,一再激烈的竞争环境中获得并保持竞争优势。4事务处理的特点在于事务处理量大,但事务处理内容比较简单且重复率高。分析处理则可以利用多种处理手段,对数据仓库所提供的数据进行面向管理决策的统计、展示和预测。数据挖掘在信息资源高度综合集成的基础上,利用新型的海量数据分析方法,发现潜在的,新颖的,有助于管理决策的规律和知识。3商务智能方法概论全文共221页,当前为第63页。目录引言商务智能过程数据仓库商务智能应用构建商务智能环境关联规则分类分析聚类分析概念描述商务智能方法概论全文共221页,当前为第64页。数据仓库数据处理技术演进数据仓库过程与体系结构数据集成、提取与转换数据仓库开发、管理与安全小结及练习目录商务智能方法概论全文共221页,当前为第65页。数据分析与处理技术的发展历经了数据收集与数据库创建、数据管理(包括数据存储和数据检索、数据库事务处理)、数据分析和理解(包括数据仓库和数据挖掘)三个不同的发展阶段60’70’80’90’00’数据收集和数据创建原始的文件处理利用文件系统,生成各种报告数据库管理系统网络和关系型数据库系统数据建模工具索引和数据组织技术用户界面查询优化OLTP高级数据库系统高级数据模型:扩展关系型,面向对象关系型面向应用的数据库:空间数据库,时态数据库,多媒体数据库,主动式数据库,科学数据库,知识库,www数据仓库和数据挖掘数据仓库和OLAP技术数据仓库和知识发现新一代的信息系统数据库技术发展的轨迹商务智能方法概论全文共221页,当前为第66页。随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库的数据量和规模也急剧增长,单纯的数据查询和基本分析已经远远不能满足企业管理人员及决策者的需求,数据仓库和数据挖掘的出现,为此注入新的活力报表统计查询模式规则关系传统数据分析发现数据√为了服务决策和科研工作人工智能大型数据库机器学习数据挖掘应用应用商务智能方法概论全文共221页,当前为第67页。数据挖掘实际上是信息处理基础逐渐发展和演进到一定程度而涌现出的新技术和方法。数据挖掘的核心智能决策技术历经数十年的发展,其中包括数理统计、人工智能和机器学习等
随着神经网络技术的形成和发展,人们的注意力逐渐转向知识工程。知识工程不同于机器学习,它直接为计算机输入已被代码化的规则,计算机通过使用这些规则来解决问题。专家系统就是使用这种规则的成果人们试图通过某些方法来实现自动决策支持,当时机器学习是关注的焦点。机器学习就是通过已经解决的问题来做范例,用机器来学习范例并进行推理,总结规则,这些规则具有通用性。海量数据搜索,多处理器计算机基础技术发展成熟及智能化的决策支持技术的发展,推动着数据挖掘方法发展成为成熟、稳定且易于理解和操作的技术。电子数据处理初期-机器学习知识工程高级智能商务智能方法概论全文共221页,当前为第68页。一些大的数据分析公司和数据库厂商都推出了自己的数据挖掘工具,以IBM,Oracle,SAS,SPSS公司为例EnterpriseMinerIntelligentMinerClementineDarwin商务智能方法概论全文共221页,当前为第69页。数据挖掘技术除了在市场分析、政府管理、健康医疗、科学研究推动之外,还有四个主要的技术原因也激发了数据挖掘的开发、应用和研究的兴趣I超大规模数据库的出现,如商业数据仓库和计算机自动收集的数据记录II先进的计算机技术,如更快和更大的计算能力和并行体系结构III对巨大亮数据的快速访问IV对数据应用精神统计方法计算的能力四个技术原因商务智能方法概论全文共221页,当前为第70页。数据仓库数据处理技术演进数据仓库过程与体系结构数据集成、提取与转换数据仓库开发、管理与安全小结及练习目录商务智能方法概论全文共221页,当前为第71页。数据仓库是计算机和数据应用发展到一定阶段的必然产物是,其目的是建立一个体系化的数据存储环境,将分析决策所需要的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转换成集成、统一的信息数据仓库中存在两种主要数据原始数据由原始数据导出的,适合分析的导出型数据这种转化过于简单,远远不能满足各种分析的需求,随着数据载入量增大,数据仓库的规模逐渐变得庞大。分析工作不能指望单一的数据仓库,有必要建立分层的数据仓库体系商务智能方法概论全文共221页,当前为第72页。数据仓库体系化环境操作型环境数据仓库局部仓库个人仓库基层管理全局级部门级个人级数据从操作型环境经过综合整理进入全局级数据库;企业中的有关部门再从全局数据仓库中组织适合自己特定需求的数据,建立各自的局部仓库;个人从全局数据库中或局部仓库中提取所需数据,即个人仓库。数据的全局级数据仓库中的集成性、一致性,为部门级和个人级的数据提取工作赢得了效率。知网商务智能方法概论全文共221页,当前为第73页。OLAP数据仓库通常采用三层体系机构:操作环境层(包含整个企业内有关业务的OLTP系统和一些外部数据源),数据仓库层(把操作环境层的相关数据进行提取、清洗和转换所形成的数据层次)和业务操作层(包含各种数据分析工具)数据集市外部数据源数据仓库多维数据模型元数据查询/报告数据挖掘业务操作层数据仓库层操作环境层商务智能方法概论全文共221页,当前为第74页。数据仓库的实现过程主要包含四个部分:数据仓库的设计与建模、数据集成、数据存储和管理、数据分析和展现数据集成数据仓库中的数据来自于不同的系统,这些系统的硬软件环境各不相同,造成数据结构各异,提取这些系统中的数据,进行净化、整理、综合及概括,转化为统一的格式加载到数据仓库中。数据存储及管理数据仓库的存取可以选用多维数据库,也可以选用关系型数据库及其他的特殊存储方式。要保存数据的安全性、完整性及一致性,同时还有有复杂的分析查询和高效能。数据分析和展现OLAP是一项分析处理技术,它从企业的数据集合中收集信息,并运用数学运算和数据处理技术,灵活、交互式地提供统计、趋势分析和预测报告。通过OLAP工具对数据仓库中的数据进行多维分析,汇总,形成图表或报表的形式。数据仓库的设计与建模设计是迭代方式进行的。数据模型是采用迭代方式建立数据仓库的关键。商务智能方法概论全文共221页,当前为第75页。数据模型其可以分为高层建模、中间层建模和底层建模三个层次。高层建模中的实体和企业的主要主题域相关,然后将高层模型中表示出的每个主要主题域或实体扩展为一个中间层模型,最后基于中间层模型创建物理数据模型
高层建模:ER模型*,实体关系层
底层建模:物理模型
中间层建模:数据项集*实体联系模型,是概念数据模型的高层描述所使用的数据模型或模式图,它为表述这种实体联系模式图形式的数据模型提供了图形符号商务智能方法概论全文共221页,当前为第76页。随着数据仓库的发展,动态数据仓库备受关注,动态数据仓库基于传统数据仓库架构和技术原理,它是对传统数据仓库的补充和扩展,不禁包含复杂的战略性的决策支持,还包括战术性的决策支持和事件的自动检测与处理为了寻求决策的有效性和连续性,企业会趋向于采取自动决策代替人来决策。是目前数据仓库技术发展的第五个阶段。第四阶段就是动态数据仓库。数据仓库发展的第三阶段就是提供数据采集工具,以便利用历史资料创建预测模型.决策者关心的重点从单纯的“发生了什么”转向到“为什么会发生”,这个阶段数据仓库所做的工作主要是分析五四三二一利用批处理技术,把不同来源的信息集成到单一的仓库中,形成报表数据仓库技术自诞生至今,经历了五个发展阶段战略性决策战术性决策商务智能方法概论全文共221页,当前为第77页。动态数据仓库的几个要点问题传统的数据仓库技术重点用于支持企业决策者的战略智能,它对实时性的要求相对低一些,而动态数据仓库技术则重点用于支持企业一线员工的运营智能分析,它对数据的实时性要求更高。动态数据仓库有两大特点一是动态访问。它是指一线用户可以动态,或者说实时地访问他所需要的信息。二是动态数据加载。传统数据仓库的数据加载与动态数据仓库的数据加载所需的技术设施几乎相同。不同的是传统的数据加载不是实时和连续的。商务智能方法概论全文共221页,当前为第78页。数据仓库数据处理技术演进数据仓库过程与体系结构数据集成、提取与转换数据仓库开发、管理与安全小结及练习目录商务智能方法概论全文共221页,当前为第79页。商务智能所依赖的信息系统通常是一个由传统系统、不兼容数据源、数据库与应用共同构成的复杂数据集合,这就需要一个解决方案来化解企业的数据一致性与集成性问题,而这个方案就是ETL,即数据提取、转化、装载的过程ETL作为BI/DW的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%,这是国内外从众多实践中得到的普遍共识。商务智能方法概论全文共221页,当前为第80页。通过金蝶决策支持平台架构图,可以大体了解ETL在整个决策过程中的位置商务智能方法概论全文共221页,当前为第81页。ETL的实施,首先要确定实施范围,再选择实施工具,最后确定实施方案确定实施范围选择实施工具确定实施方案通过对目标表信息的收集,确定ETL的范围考虑资金运行的平台、对源目标的支持程度、可编程的灵活性、管理和调度功能、对异常情况的处理等抽取分析、变化数据的捕获、目标表的刷新策略、数据的转换及数据验证商务智能方法概论全文共221页,当前为第82页。数据提取用于获取商务智能系统所需要的数据,它们通常是源数据的子集,是在对数据仓库的主题和数据本身内容理解的基础上,选择主题所涉及的相关数据TransformationExtractionLoading数据选择过程将搜索所有与业务对象相关的内容和外部数据信息,并从中选择出适用于数据挖掘的数据。数据仓库中的数据源主要是在线事物处理数据,数据源中的数据存在大量的数据更新,因此存在如何将数据源中的数据变化反映到数据仓库的问题,这涉及到两个方面将变化的数据源反映到数据仓库中,所涉及到的两方面数据更新方式数据传输方式商务智能方法概论全文共221页,当前为第83页。数据更新主要的考虑因素有增量更新还是批量更新、实时更新还是周期更新TransformationExtractionLoading数据更新方式批量更新初次数据提取时将采用批量更新增量更新当数据源中的数据发生改变时,采用增量更新,避免较大的网络负载和处理开销实时更新数据源中的数据发生变化时,随之改变数据仓库中的数据周期更新按固定的周期将数据源中的数据更新反映到数据仓库中,开销更小,数据都是历史数据,但弊端是数据丢失,如果数据在一个周期内,数据有变化,通常只能反映出最后一次的更新数据,这个问题基本通过数据源的日志来解决商务智能方法概论全文共221页,当前为第84页。数据传输模式即数据仓库中的数据是采用拉的方式还是推的方式由ETL程序通过DRDA或ODBC等数据库协议直接访问源数据库获取所需数据进行处理在源系统上根据定义的数据格式将每日增量数据生成数据文件,再通过FTP或文件拷贝的方式传送给ETL程序处理(DRDA)是IBM的跨IBM平台的数据库信息访问标准,遵循SQL标准开放数据库互连(ODBC)是MICROSOFT提出的数据库访问接口标准TransformationExtractionLoading商务智能方法概论全文共221页,当前为第85页。随意的选取一个数据,在后续的分析中可能导致意想不到的结果,因此数据提取必须谨慎,通常需要考虑四个方面的因素1234提取策略:小数据完全提取,大数据采用时间戳增量提取数据选取注意事项提取周期:根据源数据的不同性质和实际分析需求而有所不同提取日期:在相关业务系统空闲的时段进行提取的目标数据:①数据库比较:时间和资源代价昂贵②应用程序日志:简化了ETL过程工作,增加了原系统端应用程序小组的负担③数据库日志:由DBMS负责④时间戳:全表扫描,影响性能⑤位图索引:将提取数据资源降到最低TransformationExtractionLoading商务智能方法概论全文共221页,当前为第86页。数据转换的任务主要是进行不一致的数据转换、数据粒度的转换和一些商务规则的计算,是真正将源数据变为目标数据的关键环节(1)TransformationExtractionLoading数据不一致包括同一数据源内部的不一致和多个数据源之间的数据不一致等类别,例如在一个应用系统中,BJ表示北京,SH表示上海,GZ表示广州。而在另一个应用系统中,对应的代码分别为1、2和3。此外,不同业务系统的数量单位、编码或值域需要统一,例如某供应商在结算系统的编码是990001,而在CRM中编码是YY0001,这时就需要抽取后统一转换编码。不一致的转换商务智能方法概论全文共221页,当前为第87页。数据转换的任务主要是进行不一致的数据转换、数据粒度的转换和一些商务规则的计算,是真正将源数据变为目标数据的关键环节(2)TransformationExtractionLoading业务系统一般存储细粒度的事务型数据,而数据仓库中的数据是用于查询、分析的,因此需要多种不同粒度的数据。这些不同粒度的数据可以通过对细粒度的事务型数据聚集或分组产生。数据粒度的转换例如职业可能有几十种不同的值,如软件工程师、电子工程师、硬件工程师、顾问等,我们可以用一个“工程师’’来对其进行归纳,以减少模型的复杂度。比如希望通过每个客户的详细通话记录对客户进行细分,派生出呼叫次数和平均通话时间等属性列。数据分组数据聚集商务智能方法概论全文共221页,当前为第88页。数据转换的任务主要是进行不一致的数据转换、数据粒度的转换和一些商务规则的计算,是真正将源数据变为目标数据的关键环节(3)TransformationExtractionLoading不同的企业有不同的业务规则,不同的数据指标,这些指标有的时候不是简单的加加减减就能完成,这个时候需要在ETL中将这些数据指标计算好了之后存储在数据仓库中,供分析使用。商务规则的计算商务智能方法概论全文共221页,当前为第89页。数据源中数据的质量是非常重要的,低劣的“脏”数据容易导致低质量的决策甚至是错误的决策。此外,这些“脏”数据或不可用数据也可能造成报表的不一致等问题。因此有必要全面校验数据源的数据质量,此过程是数据清洗即数据值的缺失,这在顾客相关的数据中经常出现,例如顾客输入个人信息时遗漏了所在区域缺失数据数据重复是反复录入同样的数据记录导致的,这类数据会增加数据分析的开销。数据重复常见的错例如在教学选课系统中,选修某门课程的人数不能够超过该课程所在教室的座位数。错误数据例如一个顾客记录中省份字段使用SH(上海),而此顾客的邮政编码字段使用100000。数据冲突主要的数据质量问题商务智能方法概论全文共221页,当前为第90页。清洗数据要本着四个方面的规则数据补缺:对空数据、缺失数据进行数据补缺操作,无法处理的作标记数据清洗的四项原则数据替换:对无效数据进行替换格式规范化:将源数据抽取的数据格式转换成为便于进入仓库处理的目标数据格式主外建约束:通过建立主外键约束,对非法数据进行替换或导出到错误文件重新处理商务智能方法概论全文共221页,当前为第91页。数据加载是将经过提取、转换的数据加载到数据仓库中,即入库。加载任务主要是确定数据入库的次序,装入初次数据和进行数据的定期刷新初次加载完全刷新增量加载主要加载策略在初始装载后,为维护和保持数据的有效性,可以采用更新和刷新的方式:更新是对数据源的变化进行记录,而刷新则是指在特定周期数据完全重新装载。TransformationExtractionLoading商务智能方法概论全文共221页,当前为第92页。问题为什么要做ETL,而不是直接利用数据?商务智能方法概论全文共221页,当前为第93页。答案这个原因有多种多样,比如可能原始数据量太大,需要加以提炼;可能业务数据的服务器面临性能压力,不希望分析工作影响性能;可能源数据的异构性和低质量,需要加以规范;还有可能有些数据直接利用起来有困难,例如SAP系统中的数据。商务智能方法概论全文共221页,当前为第94页。ETL的开发设计主要有4个方面的内容设计数据准备区的数据结构:数据准备区是在ETL过程中专门用于对数据进行抽取、清晰、转换等处理的临时数据库,这里需要根据ETL的需要来设计准备区的库表结构定义数据提取规则:数据提取的设计中首先要定义数据提取规则,记录在数据提取规则表中,而后设计出数据提取的流程定义数据清洗转换规则:在处理数据源中存在的有错误、不一致或无用的数据之前,必须分析清楚那些事脏数据,记录在登记表中,并对其逐一确定清洗,记录在清洗转换规则表中ETL流程设计:定义ETL流程的每一个步骤,并确定每一个步骤需要进行的工作,以流程图的形式描述整个ETL流程ETL的开发设计4个方面商务智能方法概论全文共221页,当前为第95页。ETL的开发主要包括5个步骤(1)建立ETL过程对每个单位的测试整合测试回归测试效能测试质量保障测试接受度测试ETL要为三组装载过程而开发:初始装载、历史性装载和增量装载。如果企业计划用DBMS的装载工具来填充商务智能数据仓库,只需要编写提取和转换程序:如果使用ETL工具,还要为ETL工具编写说明书。所有编制的ETL程序集ETL工具模块,都必须按单位进行组合机功能和编辑上的测试商务智能方法概论全文共221页,当前为第96页。ETL的开发主要包括5个步骤(2)建立ETL过程对每个单位的测试整合测试回归测试效能测试质量保障测试接受度测试在第一次发布的时候,要进行整合测试,在接下来的发布中要进行回归测试。这两种测试都要事先制定正式的测试计划,包括测试理由、预期的测试结构、实际的测试结果和测试运行的日志。商务智能方法概论全文共221页,当前为第97页。ETL的开发主要包括5个步骤(3)建立ETL过程对每个单位的测试整合测试回归测试效能测试质量保障测试接受度测试由于许多商务智能目标数据库的规模都很大,有必要对ETL程序和工具模块进行压力测试。效能测试可以通过压力测试模拟工具来模拟。商务智能方法概论全文共221页,当前为第98页。ETL的开发主要包括5个步骤(4)建立ETL过程对每个单位的测试整合测试回归测试效能测试质量保障测试接受度测试这种测试通常在一个独立的质量环境中,在操作人员的监督下进行。商务智能方法概论全文共221页,当前为第99页。ETL的开发主要包括5个步骤(5)建立ETL过程对每个单位的测试整合测试回归测试效能测试质量保障测试接受度测试接受度测试对ETL过程的所有功能进行验证,以确保完整性和正确性。商务智能方法概论全文共221页,当前为第100页。数据仓库数据处理技术演进数据仓库过程与体系结构数据集成、提取与转换数据仓库开发、管理与安全小结及练习目录商务智能方法概论全文共221页,当前为第101页。随着数据仓库技术的发展,数据仓库的开发策略从由上而下模式发展到由上而下模式、由下而上模式、平行开发模式、有反馈的由上而下模式、有反馈的由下而上模式、有反馈的平行开发模式等六种模式有反馈的平行开发欧式有反馈的由上而下模式有反馈的由下而上模式
平行开发模式由上而下模式由下而上模式数据仓库开发策略商务智能方法概论全文共221页,当前为第102页。策略1—由上而下模式,其是将原来分散存储在企业各处的OLTP数据库中的有用数据,通过筛选、提取、转换等处理后建立整体性数据仓库。数据集市中的数据是为了某个部门的应用而从整体性数据仓库中筛选出来的,是其一个子集OLTP数据库数据仓库数据集市数据集市和数据仓库的关系是单方面的,即数据从数据仓库流向数据集市商务智能方法概论全文共221页,当前为第103页。策略2—由下而上模式,其是从构造各个部门或特定的企业问题的数据集市开始的,整体性数据仓库是建立在这些数据集市的基础之上的,这样的作法初期投资少,见效快,解决的是较小的商业问题,容易使资金和收益聚焦OLTP数据库数据仓库数据集市商务智能方法概论全文共221页,当前为第104页。策略3—平行开发模式,其是在一个整体性数据仓库的数据模型的指导下,数据集市和整体性数据仓库的建立同步进行。平行开发可避免部门在开发各自的数据集市时的盲目性,减少各个数据集市之间的冗余和不一致OLTP数据库数据仓库数据仓库模型数据集市数据集市数据集市数据集市数据集市数据集市……平行开发与由上而下模式的区别在于,它满足了各个部门希望尽快建立子集的数据集市以进行决策支持的需求,同时改变了由上而下模式中部门数据集市与整体性数据仓库关系中的附属地位,在建立数据集市时获得的经验有助于整体性数据仓库的数据模型的优化和整体性数据仓库的构造。商务智能方法概论全文共221页,当前为第105页。策略4—有反馈的由上而下模式,其反馈分为两个阶段:(1)用户的新需求不断被反馈给部门的数据集市,部门数据集市根据用户的新需求产生自身的需求变化;(2)部门数据集市把变化反馈给整体数据仓库,整体数据仓库再相应变化OLTP数据库数据仓库数据集市用户商务智能方法概论全文共221页,当前为第106页。策略5—有反馈的由下而上模式,其先构造部门数据集市,再在次基础上构造整体性数据仓库,因此,数据集市能够较好地满足用户的需求,在整体性数据仓库建立之后,需求变化将主要体现在数据集市与数据仓库之间OLTP数据库数据仓库数据集市如果在建设各个部门数据集市时能注意保持数据一致性,并能根据用户的反馈不断调整,那么这样建立起的数据仓库在投入使用之后能坚守尹用户需求变化而带来的不便。商务智能方法概论全文共221页,当前为第107页。策略6—有反馈的平行开发模式,开发人员在整体性数据仓库数据模型的指导下建立部门数据集市,并把建立过程中所遇到的问题、解决方案及用户意见等信息反馈给整体性数据仓库数据模型。OLTP数据库数据仓库数据仓库模型数据集市数据集市数据集市数据集市数据集市数据集市……用户用户整体性数据模型在指导部门数据集市构造的同时,也收集开发人员和部门客户反馈的信息,并根据这些信息调整自己,从而保证下一阶段整体性数据仓库的构造相对顺利地进行。商务智能方法概论全文共221页,当前为第108页。事实上在有反馈的平行开发模式中,整体性数据仓库的开发,可以在建立第一个部门数据集市的同时进行。一方面,对减少数据集市之间的数据冗余和不一致而言,并不需要一个完全建立好的整体性数据模型,整体性数据模型在指导数据集市构造的同时,也要不断根据研发人员和用户的反馈来做调整。另一方面,部门数据集市在研发和使用过程中得到的经验,有助于研发人员在设计整体性数据模型时更好地了解客户需求。12商务智能方法概论全文共221页,当前为第109页。数据库的建模任务通常基于3种不同的视角:概念模型、逻辑模型和物理模型,数据仓库设计也不例外在数据仓库的三级数据模型中,概念模型表示现实世界的业务信息构成关系,用数据库设计中的实体关系模型(ER)进行设计,但需要用分析主题代替传统ER模型中的实体。概念模型在逻辑层,数据库设计一般采用范式规则的表及其关系来表示,数据仓库设计中的逻辑模型也采用关系模型,但是表与表之间是以星型结构、雪花结构等方式相连接的。逻辑模型物理模型则属于这些表的物理存储结构,如表的索引设计等。物理模型元数据模型作为数据模型的灵魂,自始至终伴随着数据仓库的设计、实施和使用商务智能方法概论全文共221页,当前为第110页。数据仓库设计的步骤及其中各种概念之间的关系如下图所示元数据模型业务数据理解和需求分析分析主题和元数据概念模型设计事实及其量度和粒度维度模式确定逻辑模型设计数据仓库的物理存储方式物理模型设计数据仓库需求分析商务智能方法概论全文共221页,当前为第111页。数据仓库的用户一般是企业的管理者,分析需求和业务需求有很大差异,因此不能把数据库设计阶段的用户需求直接用在数据仓库设计中。数据仓库的设计应该坚持用户驱动和数据驱动相结合的设计理念用户驱动数据驱动用户需要什么可以从系统中获得哪些有用信息有什么用户需求业务数据商务智能方法概论全文共221页,当前为第112页。数据仓库不同于数据库,数据仓库的逻辑数据模型是多维结构的数据视图,也称多维数据模型,在模型中,主要数据是实际值,而这些实际值是依赖于维的,多维数据视图就是在这些维构成的多维空间中存放着数据实际值201020112012上海北京深圳HTCNOKIAIPHONE数据仓库的多维结构商务智能方法概论全文共221页,当前为第113页。目前使用的多维数据模型主要有星形模型、雪花模型和星系模型等------星形模型星形模型星形模型是由事实表和多个维表组成的。维表中存放描述性数据,并围绕事实表建立。事实表中存放大量关于企业的事实数据,元祖个数通常很大,而且非正规化程度很高。如果我有两个数据是(…,烟台,山东,中国)
(…,济南,山东,中国)location
维表中这些城市实体的属性province_or_state,
country
之间都会有些冗余商务智能方法概论全文共221页,当前为第114页。目前使用的多维数据模型主要有星形模型、雪花模型和星系模型等------雪花模型雪花模型雪花模型是星形模型的扩展,是对星形模型的维表进一步层次化,原来各维表可能被扩展为小的事实表,优点是,最大限度地减少数据存储量,然而,与巨大的事实表相比,这种空间的节省可以忽略。但它增加了用户必须处理的表的数量,增加了某些查询的复杂性,因此,在数据仓库设计中,雪花模式不如星形模式流行。商务智能方法概论全文共221页,当前为第115页。目前使用的多维数据模型主要有星形模型、雪花模型和星系模型等------星系模型星系模型复杂的应用可能需要多个事实表共享维表。这种模式可以看作星形模式集,也叫星系模型。数据仓库收集了关于整个组织的主题信息,因此是企业范围的,通常使用星系模型,因为它能对多个相关的主题建模。数据集市是数据仓库的一个部门子集,是部门范围的,流行星形或雪花模式。商务智能方法概论全文共221页,当前为第116页。其他的模型还包括第三范式(3NF),它不同于星形模型,把事实表和维表的属性作为一个实体都集中在同一个数据库表中,或分成多个表来表示,表按第三范式组织数据,减少了维表中的键和不必要的属性每个属性的值唯一,没有多义性所有非主属性完全依赖于每个键每个非主属性不能函数决定于其他属性第三范式三个条件商务智能方法概论全文共221页,当前为第117页。第一范式(1NF):如果关系模式R的每个关系r的属性都是不可分的数据项,那么就称R是第一范式的模式。简单的说,每一个属性都是原子项,不可分割üû商务智能方法概论全文共221页,当前为第118页。第二范式(2NF):定义:如果关系模式R是1NF,且每个非主属性完全函数依赖于候选键,那么就称R是第二范式。简单的说:首先要满足第一范式,其次每个非主属性要完全函数依赖与候选键,或者是主键üû商务智能方法概论全文共221页,当前为第119页。第三范式(3NF):如果关系模式R是2NF,且关系模式R(U,F)中的所有非主属性对任何候选关键字都不存在传递依赖,则称关系R是属于第三范式。简单的说:首先要满足第二范式,其次非主属性之间不存在函数依赖ûü商务智能方法概论全文共221页,当前为第120页。三个范式简单表示:第三范式就是没有传递依赖第二范式就是完全依赖,没有部分依赖第一范式就是原子性,字段不可再分割商务智能方法概论全文共221页,当前为第121页。元数据(Metadata):是关于数据的数据(Dataaboutdata),是以概念、主题、集团或层次等形式建立的信息结构,并记录数据对象的位置。简单来说,元数据对于数据来说,类似于一个人的名片,或者是一本图书馆藏书的卡片
案例在一个大型的医疗卫生机构,拥有一个专门的数据资料管理机构,来统一管理各类需要提交和归档的数据资料。从数据内容来看,可能有管理类、业务类和科学研究类;从学科来看,可能有基础医学、临床医学、预防医学等等;从存储类型来看,可能有DBase、EXCEL、文本文件等等;……商务智能方法概论全文共221页,当前为第122页。在这个系统里什么是元数据,什么是元数据标准,什么是元数据库当我拿着自己的数据光盘去入库归档的时候,管理员要求我填写一张关于要入库数据的表格,以便于管理和查阅,填好这张关于要入库光盘的表格,就是这张光盘中数据的元数据,表格所规定的要填写的内容,就是“元数据标准”案例我们把这张表格中所规定填写的项目,作为一个一个的属性字段,可以建立一个关于元数据的数据库———就是元数据库:商务智能方法概论全文共221页,当前为第123页。通常,元数据可以分为四类,分别是关于数据源的元数据、关于数据模型的元数据、关于数据仓库映射的元数据和关于数据仓库使用的元数据关于数据源的元数据关于数据仓库映射的元数据关于数据仓库使用的元数据关于数据模型的元数据元数据分类商务智能方法概论全文共221页,当前为第124页。(1)关于数据源的元数据是现有业务系统的数据源的描述信息,是对不同平台上的数据源的物理结合和含义的描述数据源中所有物理数据结构,包括所有的数据项及数据类型1每个数据项的有效值4其他系统中具有相同该业务含义的数据项的清单5所有数据项的业务定义2每个数据项更新的频率,以及有谁或那个过程更新的说明3商务智能方法概论全文共221页,当前为第125页。(2)关于数据模型的元数据描述了数据仓库中有什么数据以及数据之间的关系,是用户使用管理数据仓库的基础内容包括1234I/O对象:支持数据仓库I/O操作的各种对象,元数据要描述该对象的定义、类型、状态、存档周期关系:两个I/O对象之间的关联,包括一对一、一对多或多对多关系成员:描述每个关系中两个I/O对象的具体角色、关系度、约束条件关系关键词:描述两个I/O对象是如何建立关系的,即之名每个关系的相应对象的关键字商务智能方法概论全文共221页,当前为第126页。(3)关于数据仓库映射的元数据,是用元数据反映数据仓库中的数据项是从那个特定的数据源抽取的,经过哪些转换、变换和装载过程从源系统的数据到数据仓库的目标数据的转移是一项复杂的任务,包括获取、过滤、验证、融合、综合、装载、存档等ETL步骤,其工作量占整个数据仓库开发的70%左右表映射ETL步骤属性映射记录筛选规则关于数据仓库映射的元数据所描述的内容ETL任务商务智能方法概论全文共221页,当前为第127页。(4)关于数据仓库使用的元数据是数据仓库总信息的使用情况的描述,帮助用户从数据仓库总查询所需要的信息,用于解决问题数据仓库中有什么的元数据,即按主题查看数据仓库的内容已有的可重复利用的查询语言信息,以方便用户的使用而不必重新编程21数据仓库的用户最关心的两类元数据商务智能方法概论全文共221页,当前为第128页。安全问题一直是数据仓库管理中的关键问题,从数据仓库的体系结构与资源组成来分析,主要包含四个方面的内容实体安全数据安全软件安全运行安全商务智能方法概论全文共221页,当前为第129页。数据仓库的安全措施有技术性安全措施和非技术性安全措施两大类信息传输的安全措施(如加密)应用系统的安全措施(如统一界面)服务器的安全措施(如权限)网络系统的安全措施(如隔离)技术性安全措施商务智能方法概论全文共221页,当前为第130页。非技术性安全措施包括制定安全管理制度和计算机安全立法两种非技术性安全措施制定安全管理制度,加强内部控制机制对计算机安全进行立法商务智能方法概论全文共221页,当前为第131页。小结数据仓库通常采用三层体系结构:操作环境层,数据仓库层和业务操作层1数据仓库的开发策略有六种模式,数据仓库的设计同样是基于三级数据模型进行的2数据仓库系统存在着各种不安全因素4元数据是整个数据仓库的核心3商务智能方法概论全文共221页,当前为第132页。目录引言商务智能过程数据仓库商务智能应用构建商务智能环境关联规则分类分析聚类分析概念描述商务智能方法概论全文共221页,当前为第133页。未来商业领域将凸显产品销售向服务和解决方案销售的转变,IBM在过去10多年间的成功转型就是这一趋势的真实写照。凭借两个“卸下”和两个“拥抱”,IBM成功转型为软件和服务提供商,成就了一段经典的大象跳舞生产打孔卡制表机、钟表、秤和奶酪切片机的制造企业投入50亿美金,IBM转战大型计算机领域,System/360大型计算机的推出成为大型机时代的标志;上个世纪60年代,在电子管计算机、小型数据处理计算机、集成电路计算机方面已经有所建树出价35亿美元,购并普华永道咨询公司,并将其与IBM商业创新服务部合并共同组建成全新的IBM商业咨询服务公司。IBM公司硬盘业务以20.5亿美金卖于日立公司IBMPC和笔记本所有业务以12.5亿美金卖给联想集团1995年,IBM果断成立了软件集团,并在2005基本形成了以RationalSoftware、DB2、Lotus、WebSphere和Tivoli五大软件品牌为核心的软件基础设施平台IBM商用打印机业务7.25亿美金出售给日本理光。商务智能方法概论全文共221页,当前为第134页。IBM再度转型:以“智慧的地球”战略剑指“物联网”2009年1月,IBM首席执行官彭明盛在与奥巴马的“圆桌会议”上首提“智慧的地球”,他认为IT产业下一阶段的任务是把新一代IT技术充分运用在各行各业之中,即将感应器嵌入和装备到电网、铁路、桥梁、隧道、公路、建筑、供水系统、大坝、油气管道等各种物体中,并且被普遍连接,形成“物联网”。2010年,IBM就展示了800多个典型案例,涉及到6万多个智慧地球的项目。更重要的是,IBM也摸索出一套智慧地球在城市、行业、企业落地的模式。这使IBM成为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年快消营销数字化转型协议
- 2026年广告维护医疗信息化合同
- 2026年教育投放顾问服务协议
- 2026新版中国钇组稀土矿产项目可行性研究报告
- 2026服务机器人场景化应用痛点分析与解决方案设计报告
- 2026无酒精鸡尾酒市场增长趋势与品牌出海投资潜力研究
- 热转移防护膜涂布工保密意识知识考核试卷含答案
- 柠檬酸充填封装工岗前实操熟练考核试卷含答案
- 通信接入设备装调工安全知识评优考核试卷含答案
- 锅炉操作工变革管理考核试卷含答案
- 【人工智能赋能小学体育教学的对策探究(论文)3800字】
- 社区医院-AI数字员工方案
- 石油化工行业标准规范目录(SH)
- 第11课《防恐防暴有办法》课件
- 新课改背景下初中科学探究式教学实施
- 部编版语文六年级上册 第1单元 3 古诗词三首同步练习(有答案)
- 探寻中国茶:一片树叶的传奇之旅学习通章节答案期末考试题库2023年
- 猪的温度要求与夏季猪舍降温措施
- 全国统一施工机械台班费用定额
- 珩磨操作规程7篇
- 2023年中医医师定期考核专业理论知识考试题库及答案(共860题)
评论
0/150
提交评论