




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、商 务 智 能第1章 商务智能概述1.1 商业决策需要商务智能一、数据、信息和知识1、数据:符号、事实和数字 信息:有用的数据关系:信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。数据是信息的载体, 信息是对数据的解释。事物运动数据信息记录解释知识:对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。2、决策离不开信息、知识决策需要信息,更离不开知识;知识更多地表现为经验-学习的结晶;学习的过程是不断地对信息加工处理;信息的收集、加工、传输与利用贯穿着决策各阶段的工作过程。信息已成为企业经营中重要性仅次于人才的第二大要素。决策=信息+经验+冒险商务智能是对企业信息的科学管理。
2、3、商务智能支持商业决策商务智能如何创造知识和价值1.2 商务智能简介商务智能这一术语1996年由 Gartner 公司的分析师Howard Dresner首次提出,他提出商务智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。一、商务智能概念商务智能是整合了先进信息技术与创新管理理念的结合体,集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力,涉及企业战略、管理思想、业务整合和技术体系等层面,促进信息到知识再到利润的转变,从而实现更好的绩效。先进信息技术:商务智能是多项技术的综合应用;
3、集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息:商务智能的层次;企业战略:商务智能服务于企业战略;管理层、业务层:商务智能用户多样性;更好的绩效:商务智能提升企业绩效。二、商务智能的价值1、在商务智能背后有一些商业驱动力,如:增加收入,减少费用和更有效地竞争的需求。管理和模拟当前商业环境复杂性的需求。减少IT费用和利用已有公司业务信息的需求。2、商务智能的价值制定合适的市场营销策略;改善顾客智能;经营成本与收入分析;提高风险管理能力;改善业务洞察力;提高市场响应能力。1.3商务智能系统的功能 数据集成:数据是决策分析的基础;信息呈现:商务智能的初步功能;经营分析:运营指标、运营
4、业绩和财务分析;战略决策支持:合理的投资组合。1.4 商务智能应用领域银行:美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。分析客户使用分销渠道的情况和分销渠道的容量 ;建立利润评测模型;客户关系优化;风险控制等电子商务:网上商品推荐;个性化网页;自适应网站生物制药、基因研究:DNA序列查询和匹配;识别基因序列的共发生性 电信:欺诈甄别;客户流失保险、零售政府部门、教育机构、医疗机构和公用事业等。利用商务智能的企业现在已越来越多,遍及各行各业。第13章 商务智能发展一、商务智能的发展事务处理系统TPS管理信息系统MIS主管信息系统EIS决策支持系统DSS
5、智能决策支持系统IDSS二、商务智能应用趋势更成熟的数据分析和展现技术;从战略型的BI到操作型或者实时型的BI;关注绩效、关注价值、关注数据质量。三、商务智能在中国的发展商务智能在中国的发展尚处于起步阶段,大部分企业对商务智能仍然缺乏必要的了解。国、内外商务智能软件企业的实施和应用水平有很大的差距,目前国外有一些企业已进入多维分析和数据挖掘阶段,而国内商务智能的发展只是近几年的事情,商务智能应用的范围和程度都与国外企业有很大差距。绝大多数实施商务智能的企业的应用水平停留在基本的数据整合阶段和简单的统计分析阶段,真正实现深度数据分析的项目很少。四、中国商务智能应用存在的问题起步较晚:国内管理者想
6、要利用商务智能解决缺乏有效信息支持决策的管理模式和操作准则越来越体现出缺乏理性的缺点。因此国内企业管理者试图通过商务智能解决上述问题,但这种需求比国外发达国家滞后了。差距拉大:目前国内各行业商务智能的发展水平仍是参差不齐,商务智能在行业内也存在差距,不同规模的企业应用商务智能的差距也在拉大。普及有待时日:技术、观念和管理水平的相对落后,商务智能的普及还需要较长时间供应商有待成长五、商务智能动态1、商务智能发展的特点实时;标准化;嵌入式商务智能;移动商务智能;大众化趋势;供应商的动向;易用性。2、2012年商业智能的6大预测内存中的分析;可视化发掘;大数据;移动商业智能;云商业智能;社交,协作的
7、商业智能。第2章 商务智能系统架构2.1 商务智能系统组成1、体系结构(Architecture):体系结构是指一整套的规则和结构,为一个系统或产品的整体设计提供主框架。2、商务智能的体系结构一个商务智能的体系结构是通过识别和理解数据在系统中的流动过程和数据在企业中的应用过程来提供商业智能系统应用的主框架。商务智能系统构架(见书P27)3、商务智能系统的组成数据源与数据提取;数据仓库;访问工具;决策支持工具;商务智能应用;系统管理;元数据管理。2.2 数据集成数据集成是在逻辑上或物理上把不相同来源、格式、特点的数据有机地整合,从而为企业提供全面的数据共享。目的:运用一定的技术手段把分布在异构系
8、统中的数据按一定的规则组织成一个整体,使用户能有效地对其进行共享、分析,因此数据集成是构建数据仓库的基础。1、数据集成的常用方法数据联邦;基于中间件模型;数据仓库;主数据管理2、主数据管理与数据仓库的关系联系:二者相辅相成,都是减少数据冗余和不一致性的跨部门集中式系统,都依赖ETL、元数据管理等技术保证数据质量。数据仓库系统的分析结果可以输入到主数据管理系统中。区别:主数据管理是为呼叫中心、电子商务和CRM等业务系统提供联机服务,数据仓库面向分析型的应用;主数据管理涉及的数据量相对较小,在运行中对主数据的集成实时性要求比数据仓库高。3、主数据管理与ODS的关系实时性要求具有共性,但主数据管理系
9、统不储存ODS系统的交易数据。第3章 数据仓库3.1 从数据库到数据仓库1、企业数据处理分为:事务型处理和分析型处理2、事务型处理即操作型处理,是指对数据库的联机操作处理OLTP。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。3、分析型处理分析型处理:用于管理人员的决策分析,例如DSS、 EIS和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访
10、问大量的历史数据,支持复杂的查询。分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。4、事务型处理数据和分析型处理数据的区别(见书P36)5、数据库系统的局限性数据库适于存储高度结构化的日常事务细节数据。决策分析型数据是多维性,分析内容复杂。在决策分析环境中,如果事务处理的细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。决策型分析数据的数据量大,这
11、些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力。6、多库系统的限制可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能通过网络在线联入多库系统。响应速度:全局查询多级转换和通信传输, 延迟和低层效率影响响应速度。系统性能:总体性能取决于源站点中性能最低的系统, 影响系统性能的发挥;系统开销:每次查询要启动多个局部系统, 通信和运行开销大。 3.2 数据仓库1、数据仓库的发展1981年 NCR公司为Wal Mart建立了第一个数据仓库。1988
12、年 IBM公司的研究员Barry Devlin和Paul Murphy创造性的提出了一个新术语数据仓库1991年 Bill Inmon正式出版Building the Data 、Warehouse,第一次给出了数据仓库的清晰定义和操作性极强的指导意见1993年 拉尔夫.金博尔出版了The Data Warehouse Toolkit,在具体构建方法上提出不同意见1996年 加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。2、数据仓库(Data Warehouse)含义:数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一
13、 用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。Bill Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。3、数据仓库的技术要求复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。对进行高层决策的最终用户的界面支持
14、:提供各种分析应用工具。4、数据仓库结构3.7 数据仓库模型1、概念模型设计概念模型用来表达信息世界中的信息结构,通常人们利用概念模型定义实际的数据需求。概念模型最常用的表示方法是实体关系法(E-R法),E-R图将现实世界表示成信息世界,便于向计算机的表示形式进行转化。目前的数据仓库实际上是通过主题分析表示概念模型,每个主题用若干维和度量表示。维度是人们观察世界的特定角度,度量是确定与维度分析有关的数值信息。2、逻辑模型设计主要工作:a分析主题域进行概念模型到逻辑模型的转换;b确定粒度层次划分;c确定数据分割策略;d关系模式定义;e定义记录系统。3、数据仓库常用的两种基本逻辑模型:星型模型:星
15、型模型的核心是事实表,事实表把各种不同的维表连接起来。雪花模型:雪花模型是星型模型的扩展,某些维表中的数据可以进一步分解到附加的表中。4、物理模型设计物理模型设计因素:a I/O存取时间;b空间利用率;c维护的代价。主要工作:a全面了解所选用的数据库管理系统,确定一个最适合应用要求的物理结构,特别是存储结构和存取方法。b了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。c了解外部存储设备的特征。5、确定一个最适合应用要求的物理结构估计存储容量;确定数据的存储计划;确定索引策略;确定数据存放位置;确定存储分配。3.4 元数据数据仓库的所有数据都要通过元数据来管理和控制。1、元数
16、据元数据:是用来描述数据的数据。元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。2、元数据的分类技术元数据:与数据仓库开发、管理和维护相关的数据。(如数据源的元数据、数据模型的源数据、数据仓库映射的源数据)业务元数据:从业务角度描述数据,为管理及业务分析人员服务。(如数据仓库使用的元数据)3、元数据的存储方式元数据有两种常见存储方式:以数据集为基础,第个数据集对应元数据文件;以数据库为基础的,即元数据库(推荐)。3.5 数据抽取、转换和加载ETL是构建数据仓库的重要环节,也
17、是企业数据管理的核心,对数据仓库的后续环节影响较大。1、数据抽取(Extraction)确认数据源;数据抽取技术2、数据转换( Transform)数据转换的的主要任务是对数据粒度以及不一致的数据进行转换。数据转换的形式:格式修正;计算值和导出值;度量单位的转化化;日期/时间转化;特征集合转;信息的合并;汇总等3、数据清洗(Cleaning)数据清洗也称数据净化,主要指对数据字段的有效值检验。有效值的检验通常包括:范围检验;枚举字段取值;相关检验要求。4、数据装载( Load)数据装载方式:a基本装载:按照装载的目标表,将转换过的数据输入到目标表中去。 b追加:如果目标表中已经存在数据,追加过
18、程在保存已有数据的基础上增加输入数据。 c破坏性合并:用新输入数据更新目标记录数据。 d建设性合并:保留已有的记录,增加输入的记录,并标记为旧记录的替代。数据装载类型:a初始装载:这是第一次对整个数据仓库进行装载。 b增量装载:由于源系统的变化,数据仓库需要装载变化的数据。c完全刷新:这种类型的数据装载用于周期性重写数据仓库。5、数据处理的有关讨论数据库中的空缺值;不一致的数据;样本空间的大小;与分析无关的数据不要装入数据仓库;数据离散化;数据规范化3.6 操作数据存储很多情况下,DB-DW的两层体系结构并不能涵盖企业所有的数据处理要求。日常管理和控制决策的问题并不是联机事务处理,又算不上高层
19、决策分析,需要企业全局一致的、细节的、当前或接近当前的数据,又需要面向主题、集成的数据环境。因此需要DB-DW之间存在着一个中间层次,即操作型数据存储 ODS(Operational Data Store )。1、ODS和DW的比较(见书P44)3.7数据集市(Data Mart)1、数据集市:数据仓库是一种反映主题的全局性数据组织。但是,全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织,它们即是数据集市。因此,有时我们也称它为部门数据仓库。2、数据集市类型:按照数据获取来源:独立型:直接从操作型环境获取数据;从属型:从企业级数据仓库获取数据。3、数
20、据仓库VS数据集市数据仓库与数据集市的关系类似于传统关系数据库系统中的基表与视图的关系。数据集市的数据来自数据仓库,它是数据仓库中数据的一个部分与局部,是一个数据的再抽取与组织的过程。注:数据集市不是数据仓库数据集市并非小的数据仓库多个数据集市集合并不构成数据仓库第4章 在线分析处理OLAP发展背景60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展 (数据以表格的形式而非文件方式存储)。注:OLTP在线事务处理通常是一个或一组记录的查询和修改,用于处理短暂的交易事务。1993年,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。(认为OLT
21、P已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求) 4.1 OLAP简介联机分析处理(OnLine Analysis Processing,OLAP)在数据仓库系统中,联机分析处理是重要的数据分析工具。OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。OLAP是独立于数据仓库的一种技术概念。当OLAP与数据仓库结合时,OLAP的数据源为数据仓库,数据仓库的大量数据是根据多维方式组织的。1、OLAP的定义OLAP委
22、员会的定义:OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。2、OLAP的基本概念维:是人们观察数据的特定角度,是考虑问题时的一类属性。维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面。维的成员:维的一个取值。是数据项在某维中位置的描述。多维数组:维和变量的组
23、合表示。一个多维数组可以表示为: (维1,维2,维n,变量)数据单元(单元格):多维数组的取值3、超立方结构(Hypercube)多维数据集立方体或超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性(收缩超立方结构,这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维)。 4、OLAP的特点快速性Fast:用户对OLAP的快速反应能力有很高的要求。可分析性Analysis:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。多维性Multidimensional:多维性是OLAP的关键属性。系统必须提供对
24、数据的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性Information:OLAP系统应能及时获得信息,并且管理大容量信息。4.2 OLTP VS OLAP(见书P65)4.3 OLAP操作E.F.Codd从可视化角度提出,主要基于统计的方法:切片和切块(Slice and Dice):切片与切块的作用是对分析的数据进行过滤,使用户专注于局部数据。钻取(Drill):钻取能够帮助用户获得更多的细节性数据。 旋转(Rotate):旋转(Pivot)通过旋转可以得到不同视角的数据。辅之于各种图形展示分析结果。1、切片、切块 (Slice and Dice)多维数据是由多个维度组成的,
25、如果在某个维度上选定一个取值,则多维数据从n维下降成n-1维。切片与切块在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有两个以上,则是切块。切块可以看成是在切片的基础上,确定某一个维成员的区间得到的片段,也即由多个切片叠合起来。2、钻取(Drill)钻取改变维的层次,变换分析的粒度。钻取有向下钻取(drill down)和向上钻取(drill up)操作。向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据,即从汇总数据深入到细节数据进行观察或增加新维。向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数。3、旋转(R
26、otate)通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去。或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个)。4.4 OLAP分类(见书P69)1、ROLAPROLAP是基于关系数据库的OLAP。它是一个平面结构,用关系数据库表示多维数据时,采用星型模型、雪花模型。2、MOLAPMOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构,采用类似于多维数组的结构。3、ROLAP与MOLAP的比较(见书P71)数据存取速度 MOLAP在数据存储速度上性能好数据存储的容量 ROL
27、AP在存储容量上基本没有限制多维计算的能力 MOLAP能够支持高性能的决策支持计算维度变化的适应性 ROLAP对于维表的变更有很好的适应性数据变化的适应性 ROLAP中灵活性较好,对于数据变化的适应性高软硬件平台的适应性 ROLAP对软硬件平台的适应性很好元数据管理 MOLAP和ROLAP都没有成形的标准4、HOLAPHOLAP(Hybrid OLAP),即混和型OLAP,介于MOLAP和ROLAP之间。在HOLAP中,对最常用的维度和维层次,使用多维数据表来存储,对于用户不常用的维度和数据,采用ROLAP星型结构来存储。 HOLAP得宜于ROLAP的可伸缩性,和MOLAP的快速计算。(如MS
28、 SQL SERVER)在HOLAP的多维数据表中的数据维度少于MOLAP中的维度表,数据存储容量也少于MOLAP方式。HOLAP在数据存取速度上又低于MOLAP。4.6 OLAP工具目前许多公司已经推出了相应的OLAP支持工具:ORACLE;IBM;Business Object;SAS;NCR。第5章 数据挖掘 5.1 数据挖掘概述1、数据挖掘的由来:数据爆炸但知识贫乏;网络之后的下一个技术热点;支持数据挖掘技术的基础;从商业数据到商业信息的进化。注:如何才能不被信息淹没,而是从中及时发现有用的知识,提高信息利用效率:要学会抛弃信息!2、从商业数据到商业信息的进化(见书P84)3、数据挖掘
29、软件的发展第一代数据挖掘软件:独立的,可以支持少数几种数据挖掘算法。第二代数据挖掘软件:和数据库系统进行了集成,能够处理在规模的数据,但缺少对业务的预测能力。第三代数据挖掘软件:增加了预测功能,还可在分布式系统中运行,可挖掘网络环境下的数据。第四代数据挖掘软件:支持移动计算和各种嵌入式系统,扩展了应用领域。4、数据挖掘的定义定义:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取正确的、有用的、未知的、综合的以及人们感兴趣的知识并用于决策支持的过程。目的:不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。5、数据挖掘受多学科影响:数据挖掘是一个交叉科学领
30、域,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息科学。 6、数据挖掘与传统数据分析方法的区别数据挖掘的数据源与以前相比有了显著的改变:数据是海量的;数据有噪声;数据可能是非结构化的; 传统的数据分析方法基于假设驱动的:一般都是先给出一个假设然后通过数据验证。数据挖掘在一定意义上是基于发现驱动的:模式都是通过大量的搜索工作从数据中自动提取出来 。7、数据挖掘与数据仓库8、数据挖掘与OLAP完全不同的工具,基于的技术也大相径庭OLAP基于用户假设:a what happened查询和报表工具是告诉你数据库中都有什么b what next OLAP更进一步告诉你下一步会怎么样c wh
31、at if如果我采取这样的措施又会怎么样数据挖掘本质上是一个归纳的过程,不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。数据挖掘和OLAP有一定的互补性。9、数据挖掘模型及流程数据挖掘模型:a为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了CRISP-DM。b CRISP-DM(Cross Industry Standard Process for Data Mining)模型,最先在1996年被提出,当前的白皮书版本是1.0。c目的是把数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。10、为保证项目
32、的可靠性和可管理性,CRISP-DM规定一个数据挖掘项目应该产生11个报告:业务理解报告;原始数据收集报告;数据描述报告;数据探索报告;数据质量报告;数据集描述报告;模型训练报告;模型评估报告;部署计划;监控和维护计划;总结报告。通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。11、数据挖掘的过程(见书P85图)数据挖掘过程的分步实现,不同的步骤需要不同的专业人员参与完成,大体分为三类:A业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。B数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各
33、步操作,并为每步操作选择合适的技术。C数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。数据挖掘是一个多领域专家合作的过程,也是一个在资金上和技术上高投入的过程。注:数据挖掘过程要反复进行,在反复过程中,不断地趋近事物的本质,不断地优化问题的解决方案。5.2 数据挖掘的应用及其发展1、数据挖掘的应用数据挖掘技术的产生本身就有其强烈的应用需求背景,它从一开始就是面向应用的。具体涉及数据挖掘的商业问题:数据库营销(Database Marketing);客户群体划分(Customer Segmentation & Classification);背景分析(Pro);交叉销售(Cros
34、s-selling);客户流失分析(Churn Analysis);客户信用评分(Credit Scoring);欺诈甄别(Fraud Detection)2、数据挖掘的未来发展趋势未来的热点应用领域:网站的数据挖掘(Web site data mining);生物信息或基因的数据挖掘;文本挖掘(Textual mining);多媒体挖掘。5.3 数据预处理1、数据清理数据清理的内容:修补空缺值,识别出数据中的孤立点、去除噪声,消除数据中的不一致。常用的数据清理方法:聚类;空值处理;冗余和重复。2、空值处理有些记录的值可能空缺,或者某一个属性可能会有大量的空缺值。a对第一种情况,可以不使用这些
35、记录;b对第二种情况,可以丢弃这个属性。 另一种处理空缺值的方法是归咎(imputation)。可以使用一些相关技术(复杂度逐渐增加):a从别的记录中随机抽取一个值添入。b取其他记录中对应属性的最频值,中间数或平均数。c对其他记录中这个属性的值分布做一个统计模型,然后根据分布情况,随机选一个值。d试图用统计或挖掘技术从相似记录的值中预估空缺值。3、数据挖掘算法聚类分析;分类分析;关联分析;序列模式挖掘;回归分析;时间序列分析。5.4 聚类分析1、聚类分析的概念类是指相似对象的集合。 聚类是把对象或样本的集合分组成为多个簇(类)的过程,使同一个组中的对象具有较高的相似度,而不同类型的对象差别较大
36、。聚类是一种无监督分类法: 没有预先指定的类别; 2、聚类问题的数学描述给定数据集合V,根据数据对象间的相似程度将数据集合分成组,并满足: 则该过程称为聚类。Ci称为簇。3、聚类分析的统计量通过引进一些表示样本间相似程度的度量标准把性质相似的对象归为一类,这些度量标准称为聚类统计量。距离和相似系数是经常采用的聚类统计量。 距离:a连续值数据常用的距离度量方法:欧几里德距离;曼哈坦距离;明考斯基距离;切比雪夫距离。b其他数据类型的距离度量方法:可分类变量、二元变量、标称变量、序数型变量和文本等。a连续值数据常用的距离度量方法:b其它类型变量常用距离度量方法:二元变量:变量的取值只有两个状态,如性
37、别,表示是否吸烟,医疗检查正常还是不正常等。 i和j是两个变量:q是两个变量中都为1的个数 t是两个变量中都为0的个数 s是i变量中为0,j中为1的个数 r是i变量中为1,j中为0的个数(1)二元变量权重相同(对称的,如性别)即:分子为两者相异的总数,分母为二元变量总数(2)二元变量权重不同(非对称的) 例如,一个疾病化验结果正常和不正常,对一个群体,正常者总是大多数,我们用1表现几率小的 情况,0表示另一种情况。 评价系数,Jaccard系数即:两个相异的数量作为分子,相异的数量加两个为1的数量作为分母。(同对称二元变量相比,两个同为0的数量不出现在分母中)相似系数:对于连续型数据,常用的相
38、似系数Cij 有夹角余弦和相关系数等。4、常用聚类算法聚类目标: 将一个包含n个数据对象的数据库组织成k个划分(k P(Cj|X),1=jY的规则,其中X,Y为项目集且XY=。例:(超级市场)在购买商品A的客户中有部分人会同时购买商品B,则可用关联规则表示为:A=B(support,confidence)关联规则度量标准:a支持度(Support):同时购买A和B的客户人数占总客户数的百分比称为规则的支持度。b置信度(Confidence):同时购买A和B的客户人数占购买A的客户人数的百分比称为规则的置信度。注:在实际应用中,概率P一般无法事先给出,所以常以频度代替有意义的关联规则:a 为了发
39、现出有意义的关联规则,需要给定两个阈值:最小支持度和最小置信度。b关联规则挖掘的实质是在数据集合中寻找满足用户给定的最小支持度和最小置信度的规则。关联规则挖掘问题的分解给定数据库D,关联规则的挖掘就是找出所有存在于数据库D中的强关联规则。因此整个关联规则挖掘过程可以分解为以下两个子问题:a找出所有的频繁项目集;b根据找到的频繁项目集导出所有的强关联规则。关联规则分类:a 根据规则中所处理的值类型:布尔关联规则;量化关联规则。b 根据规则中所涉及的数据维:单维关联规则;多维关联规则。根据规则中所涉及的抽象层A 一般采用自顶向下策略,由概念的顶层开始向下,到较低的更特定的概念层,对每个概念层的频繁
40、集累加计数,直到不能再找到频繁项集。B 对于所有层使用一致的最小支持度注:因为较低层次抽象的项不大可能像较高层次抽象的项出现得那么频繁。如果最小支持度阀值设置的太高,可能丢掉出现在较低抽象层次中有意义的关联规则。如果阀值设置太低,可能会出现在较高抽象层的无兴趣的关联规则。注:在较低层使用递减的最小支持度2、Apriori算法(见书P139) Lk:k项频繁集的集合; Ck:k项集的候补集合步骤1.连接: 用 Lk-1自连接得到Ck,(k2) 设L1,L2是两个有k-1个有序项的项集,Lji代表k-1个项的第i项(j=1,2; i=1,2,k-1)。L1和L2是可连接的L1XL2,需满足: L1
41、1=L21 ,L12=L22,.,L1k-2=L2k-2, L1k-1 L2k-1,产生的项是: L11L12.L1k-2L1k-1L2k-1(Lji是有序的)例:L1=A,B,C , L2=A,B,D,L3=A,C,F则:L1 X L2=A,B,C,D L1 X L3,L2 X L3均为空2.修剪: 一个k-项集,如果它的一个k-1项子集不是频繁的,那它本身也不可能是频繁的。 Apriori 的性能瓶颈A、Apriori算法的核心:a用频繁的(k-1)_项集生成候选的频繁 k_项集b用数据库扫描和模式匹配计算候选集的支持度B、Apriori 的瓶颈:候选集生成a巨大的候选集:104 个频繁1
42、_项集要生成 107 个候选 2_项集要找尺寸为100的频繁模式,如 a1, a2, , a100, 你必须先产生2100 1030 个候选集(1_项集)b多次扫描数据库:如最长的模式是n的话,则需要n次数据库扫描注:为提高Apriori算法的性能,有许多改进的算法。3、其他关联规则算法FP树;约束性关联规则挖掘算法;增量式关联规则挖掘算法;多层关联规则挖掘。5.6 序列模式分析序列模式的发现是由RAgrawal于1995年首先提出的。序列模式寻找的是事件之间在顺序上的相关性。例如,“凡是买了喷墨打印机的顾客中,80%的人在三个月之后又买了墨盒”,就是一个序列关联规则。序列模式挖掘在交易数据库分析、Web访问日志分析以及通信网络分析等领域具有广泛的应用前景。1、序列模式序列模式定义:给定一个由不同序列组成的集合,其中每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。5.7 时间序列时间序列的数据库内某个字段的值是随着时间而不断变化的。时间序列数据是包含时间属性的序列数据的一种特殊形式,序列数据库中既可以包含时间属性,也可以不包含时间属性。有关时序和序列数据挖掘的研究内容包括趋势分析,在时序分析中的相似度搜索以及与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北京市师范大学附属中学2025届物理高二下期末综合测试试题含解析
- 深度解读教育创新银行的儿童财商教育体系
- 三湘名校教育联盟2025年高一物理第二学期期末预测试题含解析
- 教育政策与医疗科技的融合发展
- 多媒体技术在教育培训中的应用与创新
- 教育技术与职场培训促进知识互换的策略探讨
- 教育科技创新引领未来教育方向
- 智慧城市安防监控系统的科技前沿与挑战
- 教育与科技结合推动动物防疫知识传播
- 中职情绪调适教案课件
- 山西省建设工程计价依据
- 内科学讲义(唐子益版)
- 煤矿在用安全设备检测检验制度
- GB/T 24632.2-2009产品几何技术规范(GPS)圆度第2部分:规范操作集
- GB/T 20428-2006岩石平板
- GB/T 11363-1989钎焊接头强度试验方法
- 内调焦准距式望远系统光学设计2022年
- 核磁共振的发展史课件
- 切纸机安全操作规程标准范本
- 国家开放大学2022秋法理学形考1-4参考答案
- 医院管理学考试(复习题)
评论
0/150
提交评论