




已阅读5页,还剩67页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
考,考填空选择,教学纲要,商务智能概述(三个技术填空选择)在线分析处理OLAP技术(1)数据挖掘技术和方法*数据挖掘过程数据仓库(大题考的多,6选1实验指导书有18分)商务智能应用*,知识,知识是对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。事实性知识和经验知识(考什么是隐性和显性知识)。洞察力(insight),IBM商务智能定义知识就是力量。BI系统收集您客户的相关信息并加以分析,以帮助您确定商机和创建可以满足客户需求的战略。数据仓库、数据挖掘和决策支持中的先进技术创建大量的BI工具。,微软商务智能定义WatchthisinteractivevideoandlearnhowMicrosoftbusinessintelligencesolutionscanhelpyourIT,Finance,OperationsandSalesdepartmentsaccesstherightinformation,faster:,SAP商务智能定义SAPBusinessObjectsBI解决方案提供全面的商务智能功能,用户可根据可靠的数据和分析,作出有效而明智的决策。借助这些强大的解决方案,企业中的所有用户均可访问、分析和共享组织中的各种信息,并可以设置信息格式及在信息中进行导航。,事务型处理数据和分析型处理数据的区别3-4条一条2分,数据仓库(DataWarehouse)定义,数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。以1992年WHInmon出版BuildingtheDataWarehouse为标志,数据仓库发展速度很快。WHInmon被誉为数据仓库之父。WHInmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。,面向主题(特点、什么意思),数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。,1集成性,数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。,2稳定性,数据仓库内的数据有很长的时间跨度,通常是5-10年。数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作.数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。,3时变性,时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。,4支持管理决策,数据仓库支持OLAP(联机分析处理)、数据挖掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。,数据仓库系统的结构(四步曲画图),元数据,数据仓库的所有数据都要通过元数据来管理和控制。元数据描述关于源数据的说明,包括源数据的来源、源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管理所需要的信息。源数据的来源说明源数据是从哪个系统、哪个历史数据、哪个办公数据、哪个Web页、哪个外部系统抽取而来。源数据说明源数据在数据仓库的作用、用途、数据类型和长度等。,元数据(2),元数据:是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程。要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。,数据仓库的数据模型最后大题要有模型(重点前两个模型),概念模型,由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。概念模型简化了这个过程并且允许用户与开发者和其他用户建立联系:确定系统边界:决策类型、需要的信息、原始信息确定主题域及其内容:主题域的公共键码、联系、属性组确定维度:如时间维、销售位置维、产品维、组别维等确定类别:相应维的详细类别确定指标和事实:用于进行分析的数值化信息,实例,例试画出销售分析的概念模型。解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:(1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。(2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。(3)度量和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。,销售分析的概念模型,信息包:销售分析维度,类别,概念模型图实例组合ID写清楚,逻辑模型,星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。星形图包括了三种逻辑实体:指标、维度和详细类别维表的本质是多维分析空间在某个角度上的投影,多个维表共同建立一个多维分析空间。,sales数据仓库的雪花模式,InformationModellingofSalesInformationDemand,UniqueIdentifier,Attribute,StrongEntityType,1-nRelationship,0-nRelationship,DerivedAttribute,WeakEntityType,DWLayerandtheMappingtoInformationModel,DataWarehouseLayer(logicallayer),InformationModel(conceptuallayer),MapInformationObjectsToDatabasefields,-RenameObjectstoUserfriendlynames-Calculatefields-Defineobjectdisplayattributes-Convertcurrenciesetc.,星型模型例子,粒度(选择填空),粒度:对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。粒度越小,综合程度越低,回答查询的种类越多;粒度越高,综合程度越高,查询的效率也越高。在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。,2.1数据仓库的开发模型填空题,张三,客户,客户与产品,特性,个体,整体,整体间联系,属性,实体,同质实体,异质实体,列(字段、数据项),记录,表文件,数据库,信用,现实世界是存在于现实之中的各种客观事物。概念世界是现实情况在人们头脑中的反应。逻辑世界是人们为为将存在于自己头脑中的概念模型转换到计算机中的实际的物理存储过程中的一个计算机逻辑表示模式。计算机世界则是指现实世界中的事物在计算机系统中的实际存储模式。,图2.1现实与不同模型的变化联系,元数据模型,数据粒度模型和聚集模型,图2.2数据模型关系图,数据仓库的设计是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。元数据模型作为数据仓库的灵魂自始自终伴随着数据仓库的开发、实施与使用。数据粒度模型和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。,大题可用,由于传统的实体关系图无法表述数据仓库中所需要的用户所感兴趣的分析数据、描述数据和细节数据的关系,因此将ERD中的实体分成指标实体(事实实体)、维实体和详细类别实体(引用实体)。,指标实体处于概念模型的中心,是数据仓库活动的中心。往往最后形成数据仓库中的实体-事实表。在现实世界中则是业务处理或者某一事件(例如,销售、服务等)。,指标实体,维度表,维实体在数据仓库中主要用于对实体指标的过滤和重新组织提供指导。,详细类别表,详细类别实体在数据仓库中也用物理数据库表示,通常与现实世界中的某一个实体相对应。,实例:P95、P96,2.2.2规范的数据模型,表2-1数据仓库的数据与普通的数据库系统的数据之间的对比写三点与前面一样任选,2.2.4雪花模型,维度表,维度表,维度表,维度表,维度表,事实表,详细类别表,详细类别表,图2.7雪花模型的结构示意图,1.单元测试,当数据仓库的每个单独组件完成后,就需要对它们进行单元测试,单元测试的目的是寻找存于单个程序、存储过程和其他位于一些独立环境中的模块的错误。在测试过程中不仅要求单元能对各种正常情况进行正确处理,也要求对各种错误情况具有防御能力,不至由于某个用户的误操作导致系统的崩溃。,3.6.4数据仓库的测试,2.系统集成测试,在完成数据仓库单元测试以后,还需要进行数据仓库的集成测试,测试是验证每个单元与数据仓库系统和子系统之间的接口完好,能够正常传递数据,执行系统的整体功能。在测试之前必须依据数据仓库的所有组件功能、数据仓库应用方法和数据仓库开发计划,制定详细的测试计划。在完成数据仓库的系统集成测试以后,就可以进行数据仓库数据的首次加载。在数据仓库交付用户使用之前,需要对数据仓库进行交付测试。,什么是OLAP?,定义1:OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。定义2:OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。,OLAP决策分析,OLAP分析属于验证驱动型发现:用户首先提出自己的假设,然后利用OLAP工具检索查询以验证或否定假设。,OLAP基本概念,维:是人们观察数据的特定角度,是考虑问题时的一类属性(时间维、地理维等)。维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,维n,变量)。(时间,地区,产品,销售额)数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000),OLAP特性,快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。客户/服务器体系结构两层或三层C/S结构。可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。多维性(最关键属性):多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。,OLAP特性,快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。客户/服务器体系结构两层或三层C/S结构。可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。多维性(最关键属性):多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。,OLAP操作(填空or选择),Codd从可视化角度提出,主要基于统计的方法:切片和切块(SliceandDice)在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。钻取(Drill)钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻取的深度与维所划分的层次相对应。旋转(Rotate)/旋转(Pivot)通过旋转可以得到不同视角的数据。辅之于各种图形展示分析结果钻过、钻透,OLAP分类,MOLAP(性能更好的)的多维立方体(Multicube),基于多维数据库(MDDB)的OLAPMOLAPOLAP服务器:存储OLAP服务软件和多维数据库MDDB存储:采用“超立方体”形式MDDB存取:多维操作,ROLAP与MOLAP比较(简答、填空)要求3-4点即可,在MOLAP中,不但把多维实视图在概念上看成一个超立方体,而且在物理上把多维实视图组成一个多维数组,而不象ROLAP以表的形式存储实视图。在MOLAP中,维的属性值被映射成多维数组的下标值或下标的范围,而总数据作为多维数组的值存储在数据的单元中。ROLAP在节省存储空间、灵活性、与关系数据库保持一致性等方面有明显的优势;MOLAP则在性能和管理的简便性方面有其优点。,MOLAP的查询速度比较快,但有下面限制:用多维数组实现多维实视图,需要很大的存储空间。在实际的数据仓库中,每维的属性值个数可能数万。例如几万种产品、几万个连锁店等。而实际的维数可能多达几十乃至几百。耗费的存储空间相当可观,由此带来加载、维护等问题。在多维数组中,很可能有些单元是空白的,如节假日商店不营业;某些产品在某些地区不销售等。MOLAP与关系数据库系统从存储结构到查询语言都有相当大的差别,不可能在RDBMS的基础上实现。,ROLAP与MOLAP比较(续),数据挖掘受多学科的影响重点,数据挖掘是一个交叉科学领域,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息科学。,一个比较正式的数据挖掘的定义,高层次上的主动式自动发现方法,被称为发现驱动型知识发现。从数据中提取正确的、有用的、未知的和综合的信息并用它进行决策的过程。数据挖掘的相关学科是统计理论、数据库技术和人工智能。前BusinessObjects的ToddRowe曾表示:“从技术上讲,甚至只要有完备的Excel数据就能用上BI。”,过程,数据挖掘隐性知识并不是一个装在软件包装盒中的工具可以简单的买到并运行在商业智能环境中,也不会自动开始产生值得注意的商业规律。,正确的简答or填空,提取的信息应该是正确的,并且在统计上是重要的以支持有依据的决定。正确意味着确证性和完整性。不但需要从数据库中得到正确的客户,还希望得到所有正确的客户。这就需要原始数据和数据挖掘过程都具有正确性。,有用的,数据挖掘过程可能会传递正确的和重要的结果,但是这些知识必须是对商业有用的。如结果告诉你要在一个大量的渠道上多样化市场运作,这可能会无法办到。同样结果必须使你能抢在竞争对手之前行动。,未知的,数据挖掘要产生新的信息。如果过程只是传递一些无关紧要的结果,那么数据挖掘的商业动力就会消失。这就是区分验证和探索的性质。,最小要求同上,以上显示了数据挖掘最小要求,可以用它来评价数据挖掘是否对业务环境增加了附加的价值其他要求,典型的数据挖掘系统结构重点简答,数据挖掘流程国际标准CRISP-DM(1)简答题,商业理解。这可能是数据挖掘最重要的阶段。商业理解包括确定业务对象、评估情况、确定数据挖掘目标以及制订工程计划。数据理解。数据提供了数据挖掘的“原材料”。此阶段用于了解您的数据源以及这些数据的特征。此阶段包括收集初始数据、描述数据、探索数据和验证数据质量。“输出节点”选项板上提供的数据审核节点是一个用于数据理解的、不可或缺的工具。、数据准备。对数据源进行分类之后,您需要准备数据,以便进行挖掘。准备包括选择、清理、构建、集成数据以及格式化数据。建模。此阶段毫无疑问是数据挖掘的核心部分,在此阶段将使用精巧复杂的分析方法从数据中提取信息。此阶段包括选择建模技术、生成测试设计,以及构建和评估模型。评估。选定模型之后,就可以评估数据挖掘结果在多大程度上能够帮助您实现业务目标了。此阶段的要素包括评估结果、查看数据挖掘过程,以及确定后续步骤。部署。既然您已经付出了上述所有努力,现在就应该有所获益了。此阶段主要是将您的新知识结合到日常的业务流程中,来解决最初的业务问题。此阶段包括计划部署、监视和维护、生成最终报告,以及复查该工程。,数据挖掘流程国际标准CRISP-DM(3)简答结合上面的图理解,55,使用决策树进行分类,决策树一个树形的结构内部节点上选用一个属性进行分割每个分叉都是分割的一个部分叶子节点表示一个分类决策树生成算法分成两个步骤树的生成开始,数据都在根节点递归的进行数据分片树的修剪:去掉一些可能是噪音或者异常的数据决策树使用:对未知数据进行分割按照决策树上采用的分割属性逐层往下,直到叶子节点,56,决策树算法,基本算法(贪心算法)自上而下分而治之的方法开始时所有的实例都在根节点属性都是分类型(如果是连续的,将其离散化)所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量(如信息增益)停止分割的条件一个节点上的实例都属于同一个类别;没有属性可以再用于对数据进行分割,57,属性选择的统计度量,信息增益Informationgain(ID3/C5.0)所有属性假设都是分类型字段经过修改之后可以适用于数值型字段信息增益率(C4.5)基尼指数Giniindex(IBMIntelligentMiner)能够适用于分类和数值字段2检验(CHAID)其他,58,BP神经网络的训练(1)简答题,分析业务问题。选择训练样本集,对其输入值和输出值进行预处理。依靠经验确定网络的拓扑结构,并对神经元的权值和偏置进行初始化。利用反向传播等算法训练网络,不断调整网络权值减少预测误差,获得网络的最佳权。用测试集检验网络的分类或预测质量。预测未知样本的分类。,BP神经网络是一种监督学习方法,使用反向传播的学习算法:通过迭代处理一组训练样本,把每个样本的网络输出值Tk与实际值Ok比较,然后按一定的方式调整网络权和神经元的偏置,使得实际值和网络输出值之间的误差平方和最小:,式中sample为样本集。这种网络权的调整“后向”进行,即由输出层,经由隐层,多次重复训练,直到满足误差要求。,59,BP神经网络的训练(2),为使ERR最小,可以利用最优化理论的梯度下降法更新网络权值。通常有两种方法更新权和偏置:一种是每训练一个样本就更新权和偏置,另一种是在处理训练集中的所有样本之后再更新权和偏置。这实际上是以wij和wjk为变量的多元函数ERR的最小化问题。利用梯度下降法,权的更新方式如下:,式中,是学习率,,这个参数可避免陷入局部最小。学习率太小,会使网络学习速度慢,而太大的学习率可能使学习过程振荡。通常在网络训练的初期学习率设置大一些,随着训练误差的减少,学习率可逐渐变小。,60,二元变量的相异度计算原题计算,gender是一个对称的二元变量其它的都是非对称的二元变量将值Y和P编码为1,值N编码为0,根据Jaccard系数计算得:,61,支持度和置信度,定义6:关联规则是形如X-Y的规则,其中X,Y为项目集且XY=。定义7:在数据库D中,若s%的事务包含XY,则关联规则X-Y的支持度为s%;在数据库D中,若c%的包含项目集X的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年传染病防控知识检测模拟试题答案及解析
- 2025-2030功能性食品行业消费需求变化及营销策略评估报告
- 2025-2030功能性运动纺织品技术专利布局与商业化应用前景报告
- 2025-2030功能性药用饲料对肉品质改善效果验证分析报告
- 2025-2030功能性寡糖在幼畜饲料中应用效果市场调研报告
- 2025-2030共享出行平台用户粘性分析及市场拓展策略研究报告
- 2025-2030全球动力电池回收利用产业发展现状与前景预测报告
- 新能源汽车二手车市场2025年评估指标与流通体系完善策略报告
- 2032年新能源汽车出口市场品牌建设与品牌国际化研究报告
- 2025年市场拓展:新能源汽车换电服务在二三线城市的推广策略报告
- DB37-T 1933-2022 氯碱安全生产技术规范
- 校园传染病防控班主任培训
- 《大肠癌的治疗进展》课件
- GB/T 15268-2024桑蚕鲜茧
- GYK运行记录智能分析系统研究
- 计划生育服务站劳动合同
- GB/T 44757-2024钛及钛合金阳极氧化膜
- 红领巾爱祖国 星星火炬耀成长主题班会2
- 中国地级市经纬度-精确版
- 07SG111-1 建筑结构加固施工图设计表示方法
- DB44-T 2474-2024 自然教育标识设置指引
评论
0/150
提交评论