商业数据挖掘PPT完整全套教学课件_第1页
商业数据挖掘PPT完整全套教学课件_第2页
商业数据挖掘PPT完整全套教学课件_第3页
商业数据挖掘PPT完整全套教学课件_第4页
商业数据挖掘PPT完整全套教学课件_第5页
已阅读5页,还剩220页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘基础1数据挖掘基础.pptx2数据管理.pptx3数据挖掘算法.pptx4-7数据挖掘准备.pptx8-10构建数据挖掘模型.pptx11数据挖掘的商业应用.pptx12如何做专题分析.pptx全套可编辑PPT课件数据挖掘基础数据挖掘产生的背景数据挖掘的定义数据挖掘任务概率论与数理统计数据挖掘方法数据挖掘工具数据挖掘产品实例数据挖掘环境搭建数据挖掘产生的背景“信息爆炸”引发对数据挖掘的需求解决数据爆炸和知识贫乏这对矛盾的需要企业竞争中挖掘有用数据商业运作的数据挖掘需求什么是数据挖掘?数据挖掘(DataMining)是指从大量的数据(结构化和非结构化)中提取有用的信息和知识的过程。在这个定义中,数据是大量的、真实的、不完全的、有噪音的、模糊的、随机的实际应用数据;所发现的信息和知识是潜在的并隐藏在大量数据背后的,是用户感兴趣的、可理解、可运用的知识。所以,数据挖掘有时也被人们称为知识挖掘、知识提取、知识发现等,可以说数据挖掘的本质就是知识发现,它所有发现的知识都是隐藏在大量数据之中的关联信息,所有的知识都是有特定前提和约束条件的,是面向特定领域的,而且,这些知识还要能够易于被用户理解,能用自然语言表达所发现的结果。数据挖掘、信息、知识的转化关系数据信息知识环境或对象智力与关联什么是数据挖掘?数据、信息、知识的转化从商业角度出发,数据挖掘可理解为一种商业信息处理技术,其主要目的是对大量的商业数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键知识。由于在商业运作过程中,无时不在产生数据,对企业来说,这种数据是大量的,收集这些数据不再是单纯的以分析研究为目的,更主要的是通过对这些数据进行深入挖掘,提供真正有价值的商业决策信息,从而获得更多利润。什么是数据挖掘?什么是数据挖掘?从商业应用角度看数据挖掘数据挖掘任务

数据挖掘任务有很多种,也有很多不同的表述,它们彼此之间也多有交叉,常见的有如下几种:(1)分类学习:分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类可以利用训练数据集,进而通过一定的算法模型求得分类规则,也可被用于规则描述和预测。目前比较常见的分类算法有K最近邻居算法(KNearestNeighborAlgorithm)、决策树算法、贝叶斯分类和支持向量机算法(SupportVectorMachine)等。(2)聚类分析:聚类就是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。目前常见的聚类算法有基于划分的算法、基于层次的算法、基于密度的算法和基于网格的算法等。数据挖掘任务(3)关联规则:关联规则挖掘是描述两个或两个以上变量的取值之间存在某种规律性,数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联、因果关联等,关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。(4)时序模式:时序模式是指通过时间序列搜索出的重复发生概率较高的模式。其与回归一样,是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。(5)偏差分析:在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的,偏差检验的基本方法就是寻找观察结果与参照之间的差别。(6)预测:预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常采用预测方差来度量。预测的主要方法有统计学中的回归分析等等。概率论与数理统计概率论和数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前广泛应用于各行各业,迄今已有数百年的发展历史。如今,强大有效的数理统计方法和工具,如SAS、SPSS等,已成为信息咨询业的基础。统计学是关于数据资料的收集、整理、分析和推理的科学,侧重于应用研究随机现象的本身的规律性来考虑资料的收集、整理、分析,从而找出相应随机变量的分布律或它的数字特征,尽可能作出较合理精确的推断。统计学和数据挖掘有着一个类似的目标,即发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其他领域的思想、工具和方法,尤其是计算机学科。目前采用的许多数据挖掘方法和思想是和统计学紧密相连的。在当前的数据挖掘软件包中被用到的统计分析过程,包括决策树推断(C4.5、CART等)、规则推断(AQ,CN2,RECON等)、最近邻方法、聚类方法、关联规则、特征提取、可视化。另外,有些挖掘过程还包括一些统计学方法,如神经网络、贝叶斯信念网络、遗传算法、自组织图、神经模糊系统。数据挖掘方法(1)——决策树决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建立树的分支。每个分支子集中重复建立树的下层结点和分支的过程。采用决策树,可以将数据规则可视化,也不需要长时间的构造过程,实际应用中的决策树可能非常复杂,但是即使复杂,每一条从根节点到叶子节点的路径的含义仍然是可以理解,精度较高,决策树的这种易理解性对数据挖掘的使用者来说是一个显著的优点。因此,决策树在知识发现系统中应用较广。然而,采用决策树方法也有其缺点,决策树方法很难基于多个变量组合发现规则,不同决策树分支之间的分裂也不平滑。决策树方法的起源是概念学习系统CLS,然后发展到ID3方法而达到高潮,最后又演化为能处理连续属性的C4.5。著名的决策树方法还有CART和Assistant。后来,人们也把决策树方法应用在数据挖掘中,目前决策树方法还主要用于分类。数据挖掘方法(1)——决策树构造决策树的过程为:首先寻找初始分裂,整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的;决定哪个属性域作为目前最好的分类指标,一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂,量化的标准是计算每个分裂的多样性(diversity)指标;其次,重复第一步,直至每个叶节点内的记录都属于同一类,直至增长到一棵完整的树输出判定树分类算法决策树挖掘过程输入数据挖掘方法(2)——神经网络神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳,提炼总结出来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法,用神经网络本身的结构来表达输入和输出的关联知识。基于神经网络的数据挖掘的种类数以百计,但最常使用的有基于自组织神经网络的数据挖掘和基于模糊神经网络的数据挖掘两种。驱动数据挖掘的神经网络实现实际上是以神经网络为工具的联机分析处理技术,该技术特别适合于针对某种规则、定理、专家知识、法定限度等监督或约束下的动态监测监控、预测预报以及事务数据库、动态数据库、Internet信息库等的数据挖掘。例如地震前兆预测预报、灾害(洪水、火灾等)动态监测、数据驱动下的资源动态预测等。数据挖掘方法(2)——神经网络(1)基于自组织神经网络的数据挖掘。自组织过程是一种无教师学习的过程。通过学习,可以提取一组数据中的重要特征或某种内在的知识,如分布的特征或者按某种特征聚类。芬兰学者T.Kohonen认为,神经网络中邻近的各个单元如同组成大脑的神经元一样,所发挥的作用各不相同,通过相互作用,可以自适应地发展成检查不同性质信号的特殊检测器。因为处于不同大脑空间部位的神经元分工是不同的,它们各自对不同的输入模式敏感。T.Kohonen提出了一种学习方式,使输入信号映射到低维空间,并且保持相同特征的输入信号在空间上对应临近区域,这就是所谓的自组织特征映射(SOFM)。

(2)基于模糊神经网络的数据挖掘。尽管神经网络具有较强的学习、分类、联想与记亿等功能,但是在将神经网络用于数据挖掘时最大的难度是无法对输出结果给出直观的说明。将模糊处理功能引进神经网络之后,不仅可以增加神经网络的输出表达能力,而且使系统变得更加稳定。经常用于数据挖掘的模糊神经网络有模糊感知机模型、模糊BP网络、模糊Kohonen聚类网络、模糊推理网络和模糊ART模型等。数据挖掘方法(2)——神经网络驱动数据挖掘的神经网络实现实际上是以神经网络为工具的联机分析处理技术,该技术特别适合于针对某种规则、定理、专家知识、法定限度等监督或约束下的动态监测监控、预测预报以及事务数据库、动态数据库、Internet信息库等的数据挖掘。例如地震前兆预测预报、灾害(洪水、火灾等)动态监测、数据驱动下的资源动态预测等。数据挖掘方法(3)——粗糙集波兰科学家Z.Pawlak在1982年首先提出粗糙集(RoughSet)理论是一种研究不精确、不确定性知识的数学工具。它在处理信息含糊性上有几个优点:无需提供除问题所需处理的数据集合之外的任何先验信息,如统计中要求的先验概率和模糊集中要求的隶属度;算法简单、易于操作。因而,近年来得到越来越广泛的应用。首先,数据挖掘研究的实施对象多为关系型数据库。关系表可以看成粗糙集理论中的决策表,这给粗糙集方法的应用带来极大的方便;第二,现实世界中的规则有确定性的,也有不确定性的。从数据库中发现不确定性的知识,为粗糙集方法提供了用武之地;第三,从数据中发现异常,排除知识发现过程中的噪声干扰也是粗糙集方法的特长;第四,运用粗糙集方法得到的知识发现算法有利于并行执行,可以极大地提高发现效率。对于大规模数据库中的知识发现来说,这正是人们所追求的;第五,数据挖掘中采用的其他技术,如神经网络的方法,不能自动地选择合适的属性集,而利用粗糙集方法进行预处理,去掉多余属性,可提高发现效率,降低错误率;第六,粗糙集方法比模糊集方法或神经网络方法在得到的决策规则和推理过程方面更易于被证实和检测。数据挖掘方法(3)——粗糙集粗糙集的基本概念有:信息系统:在粗糙集理论中假定现实世界中的信息是用一张表来表达,并称之为信息系统。信息系统是一个由三元组S={U,A,V}组成的,其中U表示对象集合,A是属性集合,V是A的值域,实际属性就是对象上的等价关系,即A是等价关系的集合。其具体表现是用二维表格来表示的,在这张表中,列表示属性(A),行表示对象(U),表格中的值(V)即是其中一个属性对应的一个等价关系。决策表:在信息系统中,A表示属性集合,A=C∪D,其中C是条件属性,D是决策属性,具有条件属性和决策属性的知识表达系统构成的特殊的信息系统,即决策表。不可分辨关系:近似空间(approximationspace)是一个二元组<U,R(B)>,U同上,B是A的属性子集,R(B)是U上的二元等价关系,R(B)={(x1,x2)|f(x1,b)=f(x2,b),b为B中的任一元素}。R(B)也称不可分辨关系。属性子集B将全部样本U划分成若干等价类,称为B-基本元素(B-elementary)。知识由概念组成,如果某知识中含有不精确概念,则该知识不精确。粗糙集对不精确概念的描述方法是:通过上近似概念和下近似概念这两个精确概念来表示。基于粗糙集的数据挖掘算法实际上就是对大量数据构成的信息系统(即决策表)进行约简,得到一种属性归约集的过程,最后抽取规则。粗糙集方法得到的分类规则一般是符号形式的显性规则,这正是数据挖掘所追求的。数据挖掘方法(4)——模糊集模糊集的理论是1965年美国自动控制专家查德(L.A.Zadeh)教授首先提出来的,它是基于模糊数学的一种处理方法,其基本出发点是针对许多信息和数据的模糊性,如雨点的大小;人的高矮;收入的多少等等,这些信息本身缺乏一个确定的结果,经常只描述一些元素之间的某种联系的程度。模糊集与粗糙集都是针对信息和数据的模糊性的处理方法,但两者存在很大的不同。从集合的对象间的关系来看,模糊集强调集合边界的病态和集合本身的含混性,而粗糙集强调的是集合对象问的不可分辨性;从研究的对象来看,模糊集研究的是属于同一类的不同对象对集合的隶属关系,重在隶属程度,因此模糊集是数据挖掘中常用的聚类方法之一。粗糙集以不可分辨关系为基础,研究的是不同类中的对象组成的集合之间的关系,重在分类,因此,粗糙集是数据挖掘中常用的分类方法之一。数据挖掘方法(4)——模糊集数据挖掘方法(5)——遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。其基本思想是基于达尔文Darwin的进化论和Mendel的遗传学说。该算法由密执安(Michigan)大学教授Holland及其学生于1975年创建。与传统搜索算法不同,遗传算法从一组随机产生的初始解,称为种群,开始搜索过程。种群中的每个个体是问题的一个解,称为染色体。染色体是一串符号,例如一个二进制字符串。这些染色体在后续迭代中不断进化,称为遗传。在每一代中用适应度(Fitness)来衡量染色体的好坏。生成下一代染色体,称为后代。后代是由前一代染色体通过交叉(Crossover)或变异(Mutation)运算形成。根据适应度大小选择部分后代,淘汰部分后代,从而保持种群大小是常数。适应度高的染色体被选中的概率高。这样,经过若干代之后,算法收敛于最好的染色体,它很可能就是问题的最优解或次优解。数据挖掘方法(5)——遗传算法应用遗传算法进行数据挖掘,首先要对实际问题进行编码,编码方法可以是二进制编码,也可以是十进制编码。然后,定义遗传算法的适应度函数,由于算法用于规则归纳,因此适应度函数由规则覆盖的正例和反例来定义。随机产生一组规则,对每一个规则应用数据库中给定的个体例子进行判断,根据适应度函数计算其适应度。应用选择、交叉、变异运算对该组规则进行进化,再利用选择运算产生下一代规则,这样经过若干次迭代后,遗传算法满足终止条件,从而得到一组理想规则。接下来,利用这些规则对数据库中的数据进行加工,删除规则覆盖的例子,对剩余的数据继续采用以上遗传算法,去挖掘第二组规则。重复以上步骤,直至数据库中的所有例子都被覆盖或者满足事先约定的终止条件。最后应用规则优化算法对所得规则进行优化,使之得到最简规则。其中遗传算法的终止条件为三种:找到了满足问题的解;候选取群体已收敛于某一点,即经过遗传操作后候选解的前后代之间没有显著的优化,就认为遗传算法已经收敛,此时可以选择输出最优解,不过,该点可能是局部最优解;算法已达到了设定的代数等。并非所有的遗传运算过程都是有效的,为了防止计算过程无限运行下去,需要设定遗传的代数来终止运算过程。数据挖掘方法(5)——遗传算法目标(函数)映射为适应度函数初始种群实际问题计算个体适应度满意终止条件否?选择交叉变异产生下一代规则(种群)输出满足问题的规则遗传算子数据挖掘方法(6)——支持向量机

数据挖掘方法(6)——支持向量机

数据挖掘工具——选择指标所提供的数据挖掘功能和算法可处理的数据类型数据存取能力运行平台和兼容性数据预处理能力与其他系统的接口可扩展性可伸缩性可视化工具操作性能数据挖掘工具——选择指标作为一家商业机构,其还会考虑如下一些因素:(1)公司的数据挖掘需求是短期行为还是长期使用。如果是短期行为,就购买那些能解决特定问题的软件包或外包给咨询公司。如果是长期使用,就需要购买功能比较丰富,使用比较方便,维护升级比较好的企业型数据挖掘工具。(2)公司的数据状态。在挑选数据挖掘工具前,公司必须对现有的数据进行评估。如果没有具备进行业务主题数据挖掘数据或者现有格式不能满足数据挖掘工具的需求,可暂时不考虑购买数据挖掘工具。如果公司已经拥有适合数据挖掘的数据仓库或数据库,应该尽量选择能够与数据仓库紧密结合的数据挖掘工具。(3)公司的行业特点。每个行业都有自身的行业特点,往往为了解决本行业特定的商业问题,需要提供能够解决特定应用问题的数据挖掘工具。每个公司必须结合自己的实际情况何需要,充分考虑厂商在数据挖掘领域的实施经验,避免踏入仅仅“选择工具”的陷阱,力求获得一个完整的数据挖掘解决方案,并和厂商一起完成这个复杂的、富有挑战性、创造性并充满乐趣的过程。同时,必须将数据挖掘工具提供的技术和实施经验与企业的业务逻辑数据和需求紧密结合,并在实施过程中不断磨合。只有这样,才能够将数据挖掘真正融入公司日常的经营决策之中,才能够取得成功。数据挖掘工具——常用数据挖掘工具目前国际上广泛应用的数据挖掘工具有很多,数据挖掘工具分为平台型工具和专业型工具。平台型工具具有通用性并提供全套服务,它们不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。例如SAS公司的SASEnterpriseMiner、IBM并购SPSS后也整合了IntelligentMiner和SPSSClementine、Teradata公司的系列产品,还有微软的SQLSever数据挖掘模块、甲骨文的OracleDarvin、Waikato大学开发的Weka平台以及开源软件R语言等。常用工具类型厂商产品特点

平台类工具SASSASEnterpriseMiner支持元数据管理与维护SASETS(时间序列预测)SASOR(运筹学)SASSTAT(统计分析)SASQC(质量控制)IBMDB2IntelligentMinerforData分为建模、浏览、评估等部分DB2IntelligentMinerforText主要功能是特征抽取、文档聚焦、文档分类和检索SPSSClementine易用的数据挖掘工具平台SPSSAnswerTree快速建立决策树模型TeradataTeradataProfiler对数据源进行质量分析TeradataADSGenerator产生分析数据组TeradataWarehouseMiner专为大规模数据而设计TeradataModelManager模型管理器侧重于提供有好的界面微软MicrosoftSQLServerDataMining允许模型对整个数据集运行甲骨文Darwin(神经元网、决策树、K近邻)为初学者和有经验的人都提供了相对较强的用户界面StatSoftDataMiner、QCMiner、TextMinerStatSoft公司还提供Statistica软件专业类工具FairIsaac公司FICOscore面向信用卡积分Unica公司AffiniumModel面向营销自动化………………数据挖掘产品实例——TWM工具本书实例为Teradata系列挖掘产品,主要包括TeradataProfiler、TeradataADSGenerator、TeradataWarehouseMiner、TeradataModelManager。其中TeradataWarehouseMiner是运行在Teradata平台上的高效数据挖掘工具,其主要优势是数据库内挖掘。相比传统数据挖掘工具,TWM场内挖掘的优势主要体现在:在Teradata中挖掘,无需数据转移;数据管理由Teradata完成,省时省力;充分利用Teradata的并行处理能力;挖掘性能随Teradata数据库性能的扩展而扩展;可以在全部细节数据上挖掘。数据挖掘产品实例——TWM工具安装配置TWM工具,使用TWM工具建立数据挖掘工程并实现一个完整分析所需要的7个工作步骤:(1)连接ODBC数据源(需要相应权限)(2)创建新工程(或打开已有工程)(3)添加分析模块到工程中(4)设置输入和分析选项(5)设置输出和结果选项(6)执行分析模块(点击‘运行’按钮)(7)查看结果数据挖掘环境搭建

所谓数据挖掘环境是指实施数据挖掘所需要的体系和技术准备,它决定了如何开发模型,需要什么软件和硬件。Teradata的数据挖掘都是基于数据仓库的,因此数据仓库是数据挖掘实施很重要的环境,除此之外,数据挖掘的体系架构和中间层模型也是数据挖掘环境需要考虑的。数据仓库为数据挖掘提供了良好的基础良好的数据挖掘体系架构有助于模型的快速开发和部署中间层模型为快速实施数据准备提供了基础数据挖掘环境搭建常用的数据挖掘的体系结构谢谢各位的聆听!

数据管理了解和管理数据数据结构数据类型数据统计特征数据转换数据质量主数据管理数据结构数据结构一般定义为指互相之间存在着一种或者多种关系的数据元素的集合和该集合中数据元素之间的关系组成。不同的学者在不同的论述场景里也给出了一些其它定义,比如SartajSahni在其《数据结构、算法与应用》一书中定义数据结构是数据对象,以及存在于该对象的实例和组成实例的数据元素之间的各种联系,这些联系可以通过定义相关的函数来给出;CliffordA.Shaffer在《数据结构与算法分析》一书中定义是数据结构是抽象数据类型(AbstractDataType,ADT)的物理实现;RobertL.Kruse在《数据结构与程序设计》一书中将一个数据结构的设计过程分成抽象层、数据结构层和实现层,其中抽象层是指抽象数据类型层,它讨论数据的逻辑结构及其运算,数据结构层和实现层讨论一个数据结构的表示和在计算机内的存储细节以及运算的实现。在数据挖掘中,尤其是大多数情况下的结构化数据的挖掘中,数据结构可以具体指代同一类的数据元素,各元素之间有相互关系。绝大部分的数据挖掘算法可以使用一种非常简单的数据格式,我们称它为宽表。宽表将客户相关的信息都记录在一行上,以便进行分析。其特征:每个客户一条记录,极多的属性(字段、列、变量、指标),几百个指标是很常见的,有时指标达3000以上。数据类型从数据的测量尺度来看,数据可以分为四种类型:(1)名义分类数据,取值是定性的,表现为互不相容的类别或属性,没有顺序和大小的差异,如客户类型、性别(男、女)、本地网(是、否)等。(2)有序分类数据,各类别之间有程度的差异,但不能进行算术运算,如收入的低、中和高。(3)定距数值数据,可以计算两个取值之差,但不能做其它类型的算术运算,如日期和时间的间隔。(4)定比数值数据,支持各种类型算术运算的数据,如话务量、收入等。数据类型数据通常以字符串或数字的形成出现,但数据的形式未必能说明数据的类型。许多编码都包含数字,但这些数字之间并没有顺序,更不能进行四则运算。有时数据是以字符串的形式存储,但它们之间是有顺序的,如代表客户等级的钻、金和银。上述的四种类型的数据都是结构化的数据,还有文本、图片、声音和视频等数据,它们属于非结构化数据,还以电信行业数据举例,譬如用户姓名、地址、投诉内容等。数据挖掘算法不能直接处理非结构化数据,需要首先将非结构化数据转化为结构化数据。另外还有事务数据、数据矩阵、各类有序数据、文本数据、Web数据、多媒体数据(图形图像、音频视频)等。数据统计特征数据统计特征,指运用统计学的方法进行数据探索,发现数据中隐藏的规律,为数据挖掘过程中的数据质量检查、变量筛选和变量预处理提供依据。数据统计特征(1)——单一分类变量对单一分类变量探索的最基本统计方法是通过柱形图或者条形图描述变量中不同类别出现的次数或频率分布。通过变量的频数分析,我们可以回答:一个分类变量取值个数是多还是少?用户是集中在某几个类别还是分散在各个类别?是否某些类别的用户数与经验不符?通过回答这些问题,我们可能会发现潜在的数据质量问题,也为建模前的变量预处理提供思路。例如一个分类变量取值很多,但大多数类别的用户数较少,此时建议将用户数较少的类别进行合并,以便更能满足数据挖掘算法的需要。数据统计特征(2)——单一数值变量单一数值变量探索的最常用方法是计算变量的一组描述统计量,如描述数据集中趋势的统计量:均值、中位数和分位数等;描述数据离散程度的统计量:极差、方差、标准差和离散系数等;探索单一数值变量的分布:箱线图和直方图。当然了,总量是最常用的分析变量,即直接对一组数据计数或者求和,譬如某区域的总用户数、某区域的总收入、总话务量等。总量反应了总体情况,在环境相似情况下,通常还用总量进行比较分析,譬如人口规模、经济环境基本相近的两个区域,进行收入量、用户总量的比较分析等。数据统计特征(2)——单一数值变量(1)描述数据集中趋势的统计量均值:一组数据的平均值,它是对较细粒度的数据进行汇总得到的较粗粒度的数据。如电信XX省份移动用户的平均ARPU值,它可以让人们对该省份移动用户价值的高低有个基本的认识。中位数:将数据按从小到大的顺序排列起来,形成一个数列,居于数列中间位置的那个数据,即50%位置的那个数据。中位数跟均值相比,它不容易受极端值的影响。分位数:中位数是分位数的一种,分位数是指处于第n%位置的数,常用的分位数有四分位数、十分位数、百分位数。如ARPU值最高的前10%的用户就是百分位数的一个应用。数据统计特征(2)——单一数值变量(2)描述数据离散程度的统计量极差:数据中的最大值与最小值之差,只考虑数据中的两个值,容易受极端值的影响。方差:衡量一组数据偏离其平均值的波动程度,如用户最近几个月的ARPU值波动大小,就可以用方差来衡量。方差一般代表信息量的多少,如果一个变量的方差越小(极端情况只取一个值),那么它包含的信息量就越少,它对挖掘的作用就越小。标准差:方差的平方根,它是使用更频繁的波动度量指标,它与数据有相同的量纲。离散系数(变异系数):一组数据的标准差与均值之比,是衡量数据离散程度的相对指标。它的优点是不受数据量纲的影响,可以对不同量纲的数据波动程度进行比较,离散系数越大表明数据的波动越大。如可以用离散系数比较用户话务量和ARPU的波动大小。数据统计特征(2)——单一数值变量(3)探索单一数值变量的分布数值变量的描述统计量只能从总体上描述一组数据,但是不能充分地描述一组数据的细节,两个平均值和方差完全相同的变量,它们的分布可能差别较大。这里介绍两种探索数值变量分布的方法:箱线图和直方图。箱线图:箱线图类似于股票的K线图,它是利用数据中的五个统计量:最小值、第一四分位数(Q1)、中位数、第三四分位数(Q3)与最大值来描述数据的一种图示方法。它可以粗略地观察数据分布的对称性,分布的分散程度,是否有极端值等信息,特别地可以用于对几组数据分布的比较。直方图:将数值变量离散化,以变量的取值区间为横坐标、区间频数或频率为纵坐标而作的连续排列的柱形图,用于评估数值变量取值的分布情况,类似于分类变量的柱形图。数据统计特征(3)——多个变量的关系对于多个分类变量,可以通过构造多维表的形式观察它们的关系,对于多个数值变量,可以通过计算变量之间的相关系数来判断它们之间相关程度的大小。二维表是把其中一个分类变量作为行,另一个分类变量作为列,行和列交叉所形成的单元格用两类别出现的频数或频率填充而形成的交叉表格。通过二维表如何判断两个分类变量之间的关系,一种方法是通过观察可视化的图形,但是要展现整个表格的内容是有困难的,我们可以有重点的观察。数据统计特征(3)——多个变量的关系相关系数:另一个非常重要的统计概念,是考察一个数值变量的变化与另一个数值变量的变化关联程度大小的度量。如用户的话务量和ARPU就存在相关关系,一般话务量越高的用户,ARPU也会越高。相关系数变化范围在-1和1之间,相关系数为0表明两个变量不相关;相关系数大于零表明两个变量存在正向相关关系,且数值越大,相关性越强,为1意味着当一个变量变化时,另一个变量将完全按同方向变化;相关系数小于零表明两个变量存在反向相关关系,且数值越大,相关性越强,为-1意味着当一个变量变化时,另一个变量将完全按反方向变化。数据转换数据转换是为了使数据符合模型算法的要求,并且为了显著提高模型的效果和稳定性,对数据做的一系列预处理工作。对单个数值型变量,常用的转换方法有变量离散化、变量归一化、变量标准化(Z-Score变换)和数学变换等。对单个分类型变量,常用的转换方法有分类变量数值化和分类变量类别规整等。对多个数值型变量,介绍通过主成分分析或因子分析进行变量降维的转换。数据转换(1)——单个数值变量变量离散化(Binning)是指将连续的数值变量转换为离散的区间或类别变量,也称作分箱或分档,常用的离散化方法还有等宽离散化、等频离散化和有监督的离散化(如决策树根据信息增益对变量进行划分)。变量归一化(Normalization)指使转换后的数值落在特定的区间内,比如说,通过减去最小值并且除以整个区间范围。归一化不影响数据的排列顺序,但它消除了数据量纲的影响,使得具有不同量纲的数据具有可比性。数据标准化(Standardizing)指将数据减去平均值并且除以标准差,它可以衡量数据非正态分布的程度。数学变换:由于某些模型的使用条件对数据的分布有一定的要求,而实际的数据往往不能满足这些要求,因此就需要对原始变量进行适当的数学变换以满足模型的要求。常用的数学变换有对数变换、指数变换、倒数变换和Logit变换等。数据转换(2)——单个分类变量分类变量数值化:生成指示变量是分类变量数值化最常用的方法,它对某些要求输入变量必须是数值变量的模型(如Logistic回归和神经网络)是一种有效的处理方法,它把变量的每个取值生成一个是否的指示变量。分类变量类别规整:对分类变量的类别重新梳理和调整,如类别合并和概念分层。类别合并是对类别数量较多的变量进行类别合并,行成具有少数几个类别的变量,合并的原则包括使各类别用户数大致相同(如将用户数都较少的类别合并),或者各类别的目标变量差异较大(如将流失率都较高的类别合并)。概念分层指用较高层次的类别代替原有的类别,如用较高层次的产品分类代替较低层次的产品分类。类别合并可以避免模型的过度拟合,概念分层可以让新生成的变量更有业务含义或对目标的影响更加显著。数据转换(3)——多变量降维

当数值变量很多并且存在较强相关性时,会对模型构建造成不利的影响,一种有效的处理方法就是变量降维。变量降维指在不损失变量大量信息的前提下,将众多相关性较强的变量变成少数几个不相关的因素。变量降维常用方法是主成分分析和因子分析,它们经常作为聚类分析和多元回归分析的中间过程,达到同时减少变量个数和消除变量相关性的目的。数据质量对企业而言,数据质量的重要性不言而喻。六步法是Informatica公司为帮助指导数据质量控制而设计的,从初始的数据探查到持续监测以及持续进行的数据优化。探查数据内容、结构和异常建立数据质量度量并明确目标设计和实施数据质量业务规则将数据质量规则构建到数据集成过程中检查异常并完善规则对照目标,监测数据质量主数据管理主数据管理(MasterDataManagement,MDM)是将主数据作为企业的记录系统进行创建和维护的方式。实施MDM的目的在于确保主数据具有准确性、一致性和完整性,并且能够在内部或外部业务流程、应用程序或用户使用的环境中周而复始地流转。主数据管理解决方案可能包括以下一些特性:在企业层面上整合了现有纵向结构中的客户信息以及其它知识和深层次信息;共享所有系统中的数据,使之成为一系列以客户为中心的业务流程和服务;实现对于客户、产品和供应商都通用的主数据形式,加速数据输入、检索和分析;支持数据的多用户管理,包括限制某些用户添加、更新或查看维护主数据的流程的能力;集成产品信息管理、客户关系管理、客户数据集成以及可对主数据进行分析的其它解决方案。主数据管理下面是评估MDM产品时需要的考虑的关键要求。第1项要求:在单一MDM系统内为多个业务数据实体提供支持第2项要求:确保以平台方法实施MDM第3项要求:为复杂的关系和层级结构提供支持第4项要求:自动生成面向服务的体系架构(SOA)服务第5项要求:在MDM系统内集成数据质量第6项要求:混合搭配不同的MDM体系架构类型第7项要求:跟踪数据历史和沿袭情况,为满足合规性要求提供支持第8项要求:实施可同时用于两种操作模式的MDM:分析模式和运营模式第9项要求:使用多种部署模式:企业内部模式、云中模式及混合模式第10项要求:满足项目或企业层数据治理要求谢谢各位的聆听!

数据挖掘算法数据挖掘常用算法数据挖掘常见类型两类数据挖掘问题对应的数据挖掘算法业务问题对应的数据挖掘算法举例决策树回归分析聚类分析关联分析数据挖掘的常见类型对数据挖掘问题进行简单的划分,其主要有两类问题:有目标变量的数据挖掘(有监督的挖掘或预测问题)和无目标变量的数据挖掘(无监督的挖掘)。

有目标变量的数据挖掘,使用目标变量,从数据中发现能解释目标变量的模式,并且要求历史数据中包含目标变量所有可能取值的样本。流失预警是一个典型的有目标变量的数据挖掘问题,历史数据中同时包含流失客户和活跃客户的信息,目标就是发现能解释流失客户与活跃客户差异的原因。根据目标变量的不同类型,预测问题又分为分类预测和数值预测,如预测客户是否流失属于分类预测问题,预测收入属于数值预测问题。无目标变量的数据挖掘,不使用目标变量(或者目标变量不清晰),以发现数据的潜在有用模式为目标,通过人工方式去理解发现的模式及其有用性。如从现有客户中发现有意义的细分群体的聚类模型,发现哪些产品经常被客户一起购买的关联规则模型。两类数据挖掘问题对应的数据挖掘算法有目标变量无目标变量分类预测数值预测决策树Logistic回归模型神经网络判别分析遗传算法最近邻方法多元回归模型回归树神经网络遗传算法

聚类模型(细分模型)关联规则序列模式时间序列其他描述性模型业务问题对应的数据挖掘算法举例业务问题数据挖掘算法哪些客户有购买新产品的倾向决策树/逻辑回归哪些客户有终止服务使用的倾向决策树/逻辑回归收入未来的变化趋势多元回归模型/时间序列客户未来服务使用量的变化趋势多元回归模型/回归树哪些客户存在欺诈行为神经网络/聚类分析了解客户存在哪些细分群体聚类分析给客户推荐手机阅读的哪类内容关联规则/最近邻方法客户在购买该产品后接下来会购买什么序列模式了解哪些产品经常被客户一起购买关联规则客户的信用度如何描述性模型决策树——基本概念决策树(DecisionTree)是一种以实例为基础的归纳学习算法,是一种从无次序、无规则的训练样本集中推理出决策树表示形式的分类规则的方法,它提供了一种展示类似在什么条件下会得到什么值这类规则的方法。主要应用于分类预测。分类预测的结果有定性和定量两种。在实际应用中,将定性的分类预测称为分类,用来确定类别属性;定量的分类预测成为预测,用来预测具体的数值。决策树的结构和构造方法属性选择噪声与剪枝子树复制和碎片问题决策树——常用算法决策树的两大核心问题:一是决策树的生长,即一棵决策树是如何长成的,在样本数据中选择哪一个属性作为根节点,然后如何分支,如何选择内部节点,直到生长出树叶,即到达叶节点,这一系列过程可称为决策树的分枝准则,即具体算法;另一核心问题是决策树的剪枝,则防止决策树生长过于茂盛,无法适应实际应用的需要。常用的决策树算法分为两类:基于信息论的方法和最小GINI指标的方法。信息论的方法包括:ID系列算法和C4.5、C5.0,而最小GINI指标方法包括:CART、SLIQ和SPRINT算法。决策树的剪枝方法有预修剪(Pre-Pruning)和后修剪(Post-Pruning)。决策树——ID3算法ID3算法是以信息论为基础,运用信息熵理论,采用自顶向下的贪心搜索算法。其核心思想是在决策树中各级节点上选择分裂属性。用信息增益作为属性选择的标准,使每个非叶子节点测试时,能获得关于被测试例子最大的类别信息。使用该属性将训练样本集分成子集后,系统的信息熵值最小。

其生成步骤为:①选择具有最大信息增益的属性作为决策树的当前决策节点,并将该属性从候选属性中删除;②根据当前决策节点的不同取值将该样本数据集划分成若干个子集;③重复上面步骤①、②,当满足以下条件之一时,决策树停止生成新的分支:①给定节点的所有样本属于同一类。②没有剩余属性可以用来进一步划分样本。③分支没有样本。决策树——ID3算法

决策树——ID3算法

决策树——C5.0算法

C4.5算法在ID3算法的基础上进行了改进,增加了对连续属性的离散型的处理。对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。而C5.0则是在C4.5的基础上改进了执行效率和内存使用,应用于大数据集的分类算法。它采用Boosting方式来提高模型准确率。决策树是用样本的属性作为结点,用属性的取值作为分枝的树结构的。属性的度量标准有很多,如:信息增益率、GINI指标、距离度量等。C5.0采用信息增益率作为属性的度量标准。步骤如下:首先对所有样本赋以一个抽样权重(一般开始的时候权重都一样即认为均匀分布),在此样本上训练一个分类器对样本分类,这样可以得到这个分类器的误差率,我们根据它的误差率赋以一个权重,大体是误差越大权重就越小,针对这次分错的样本我们增大它的抽样权重,这样训练的下一个分类器就会侧重这些分错的样本,然后根据它的误差率计算权重,就这样依次迭代,最后我们得到的强分类器就是多个弱分类器的加权和。我们可以看出性能好的分类器权重大一些,这就体现了boosting的精髓。决策树——CART算法CART算法是一种产生二叉决策树分类模型的技术。它与ID系列算法和C4.5不同的是,它使用的属性度量标准是Gini指标。Gini指标主要是度量数据划分或训练数据集D的不纯度为主,系数值的属性作为测试属性,Gini值越小,表明样本的“纯净度”越高。CART算法在满足下列条件之一,即视为叶节点不再进行分支操作。①所有叶节点的样本数为1;样本数小于某个给定的最小值或者样本都属于同一类的时候;②决策树的高度达到用户设置的阈值,或者分支后的叶节点中的样本属性都属于同一个类的时候;③当训练数据集中不再有属性向量作为分支选择的时候。决策树——CART算法

决策树——剪枝技术前剪枝(Forward-Pruning)是提前停止树的构造而对树进行剪枝。如果一个结点对样本的划分将导致低于预定义阀值的分裂,则给定子集的进一步划分将停止。选取一个适当的阀值是很困难的,较高的阀值可能导致过分简化的树,较低的阀值可能使得树的简化太少。由于前剪枝不必生成整棵决策树,且算法相对简单,效率很高,适合解决大规模问题,所以这种方法得到了广泛的应用。后剪枝(Post-Pruning)首先构造完整的决策树,允许决策树过度拟合训练数据,然后对那些置信度不够的结点的子树用叶子结点来替代,这个叶子结点所应标记的类别为子树中大多数实例所属的类别。ID3算法、C5.0算法和CART算法都是先建树再剪枝,属于后剪枝。后剪枝方法现在得到比较广泛地使用。常用的后剪枝算法有:CCP(CostComplexityPruning)、REP(ReducedErrorPruning)、PEP(PessimisticErrorPruning)、MEP(MinimumErrorPruning)。决策树——剪枝技术(1)CCP剪枝法。CCP剪枝法是一种基于训练集的自下而上的剪枝法,也叫做CART剪枝法。剪枝过程包括两步:①从原始决策树开始生成一个子树序列;②从第1步产生的子树序列中,根据树的真实误差估计选择最佳决策树。(2)REP剪枝法。REP剪枝法由Quinlan提出,是一种自下而上的简单实用的剪枝方法。该方法的基本思路是,从训练集中提取一部分数据作为剪枝集,这部分数据不用来构建决策树,因此评估错误率时有较小的偏置。比较树Tmax的子树对剪枝集的分类错误率,及将该子树变为叶子节点后的分类错误率。若前者大于后者,则将该子树剪枝为叶子结点,并以到该结点的多数实例所代表的类来标识。重复以上过程,直到继续剪枝会增加错误率为止。(3)PEP剪枝法。PEP剪枝法由Quinlan提出,是一种自上而下的剪枝法,剪枝基于自由训练集得到的错误估计,因此不需要单独的剪枝数据。很明显,训练集上的错误率被乐观偏置,不能用来生成最优剪枝树。因此,Quinlan引入了统计学上连续修正的概念来弥补这一缺陷,在子树的训练错误中添加一个常数,假定每个叶结点都自动对实例的某部分进行错误分类,这一部分一般取叶结点所覆盖的实例总数的1/2。计算标准错误率时,连续修正遵循二项式分布。(4)MEP剪枝法。MEP剪枝法也是以一种自下而上的剪枝法,目的是在未知的数据集上产生最小预测分类错误率。回归分析——基本概念

回归分析——线性回归模型

回归分析——Logistic回归模型

回归分析——线性回归模型(3)模型检验在一次抽样中,未知参数的估计值与真实值的差异有多大?是否显著?需要进行统计检验,统计检验包括三种:拟合优度检验:检验样本的数据点聚集在回归线周围的密集程度方程显著性检验:检验自变量与因变量的线性关系总体上是否显著变量显著性检验:检验每个自变量与因变量之间的线性关系是否显著回归分析——线性回归模型(4)逐步回归当输入变量之间存在较强相关性时,线性回归模型的参数估计会失真,需要对变量进行筛选,常用的方法是逐步回归法(Stepwise)。逐步回归法(Stepwise)的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含先主动变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没用不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。回归分析——Logistic回归模型

回归分析——Logistic回归模型

回归分析——Logistic回归模型

聚类分析——基本概念概括性的定义聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程,聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。进一步的分析聚类和分类的区别,在分类问题中,训练样本的分类属性的值是已知的,而在聚类问题中,需要根据训练样本的值来确定分类属性值。采用聚类分析技术,可以把无标识的数据样本自动划分为不同的类,并且可以不受人的先验知识的约束和干扰,从而获取数据集中原本存在的信息。所以说,聚类是一种无指导学习(无监督学习),即从样本的特征向量出发研究通过某种算法将特征相似的样本聚集在一起,从而达到区分具有不同特征样本的目的。分类则是一种有指导学习(有监督学习),它具有先验知识(分类号),而无监督聚类学习并不具有这种先验知识。聚类分析——算法分类基于距离的相似度计算:欧几里德距离(欧氏距离)、曼哈顿距离主要的聚类算法可以划分为如下几类:划分方法(PartitioningMethods)层次的方法(HierarchicalMethods)基于密度的方法(Density-basedMethods)基于网络的方法(Grid-basedMethods)基于模型的方法(Model-basedMethods)聚类分析——K-Means算法K-means算法的具体流程如下:①从数据集中选择聚类的K个质心,作为初始的簇中心;②计算每个对象到各质心的距离,把样本指派给距离最小的簇;③根据每个簇当前所拥有的所有对象更新质心;④根据每个对象与各个簇中心的距离,分配给最近的簇;⑤然后转③,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。注意:利用每个簇的平均值代表新的簇的质心。聚类分析——K-Means算法

聚类分析——两步聚类算法两步聚类是一种探索性的聚类方法,是随着人工智能的发展而发展起来的智能聚类方法中的一种。它最显著的特点就是它分两步进行聚类,主要用于处理非常大的数据集,可以处理连续属性和离散属性。它只需遍历数据集一次。两步聚类的特点包括:同时处理离散变量和连续变量的能力;自动选择聚类数;通过预先选取样本中的部分数据构建聚类模型;可以处理超大样本量的数据。两步算法的基本原理分为以下两个步骤:第一步:预聚类。遍历一次的数据,对记录进行初始的归类,用户自定义最大类别数。通过构建和修改特征树(CFTREE)来完成;第二步:聚类。对第一步完成的初步聚类进行再聚类并确定最终的聚类方案,使用层次聚类的方法将小的聚类逐渐合并成越来越大的聚类,这一过程不需要再次遍历数据。层次聚类的好处是不要求提前选择聚类数。许多层次聚类从单个记录开始聚类,逐步合并成更大的类群。聚类分析——两步聚类算法聚类特征(ClusteringFeature,CF)是BIRCH增量聚类算法的核心,CF树中的节点都是由CF组成,CF是一个三元组,这个三元组就代表了簇的所有信息。给定N个d维的数据点{x1,x2,....,xn},CF定义如下:CF=(N,LS,SS)。其中,N是子类中节点的数目,LS是N个节点的线性和,SS是N个节点的平方和。CF有个特性,即可以求和,具体说明如下:CF1=(n1,LS1,SS1),CF2=(n2,LS2,SS2),则CF1+CF2=(n1+n2,LS1+LS2,SS1+SS2)。CF树是在遍历数据集的过程中不断添加、更新条目及分裂节点来形成的。根据第一个样本即可建立根节点以及相应的条目,之后逐个地将后续的样本根据距离最小的原则指派到CF树中。一个CF树有三个参数:B=分支系数,中间节点的最大子节点数量;T=叶节点中的类的半径或直径的阈值;L=叶节点的最大CF簇数量。聚类分析——异常检测基于聚类的异常检测至少有两种方法:一种是异常检测模型利用未标记的数据进行训练,这些数据包含了正常数据和攻击数据;另一种是模型仅利用正常数据进行训练,从而建立正常行为轮廓。模型特征Portnoy等人模型采用数理统计的思想对原始数据包进行标准化,对标准化后的数据采用单链接法进行聚类,从而识别攻击簇Y-means改进经典K-means算法,不依赖k的值,动态地对数据进行聚类MINDS对数据进行聚类,利用基于密度的局部孤立点来检测入侵三种异常检测模型的特征表聚类分析——异常检测现在比较成熟的异常点检测方法主要有以下几类:(1)基于统计的方法(2)基于距离的方法(3)基于偏差的方法(4)基于密度的方法(5)高维数据的异常检测关联规则——基本概念

关联规则——基本概念关联规则依据不同的分类标准,可以有以下的分类:(1)基于规则中处理变量的类型,关联规则可以分为布尔型和数值型。布尔型考虑的是项集的存在与否,而数值型则是量化的关联。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。(3)基于规则中涉及到的数据维数,可以分为单维关联规则和多维关联规则。关联规则——算法原理关联规则的挖掘就是在事务数据库D中找出具有用户给定的最小支持度(MinimumSupport,minsup)和最小置信度(MinimumConfidence,minconf)的关联规则。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集或大项集。具体步骤是:Step1根据最小支持度阈值找出数据集D中所有频繁项目集;Step2根据频繁项目集和最小置信度阈值产生所有关联规则。基本算法思想包括:(1)搜索算法。(2)分层算法(宽度优先算法)。(3)深度优先算法。(4)划分算法。(5)抽样算法。关联规则——Apriori算法Apriori算法的基本思路:Apriori算法使用频繁项集的先验知识(称为逐层搜索的迭代方法),k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。Apriori算法的两大缺点:一是可能产生大量的候选集,二为可能需要重复扫描数据库。Apriori算法采用连接和剪枝两种方式来找出所有的频繁项集。关联规则——Apriori算法(1)连接步

为找出Lk(所有的频繁k项集的集合),通过将Lk-1(所有的频繁k-1项集的集合)与自身连接产生候选k项集的集合。候选集合记作Ck。设l1和l2是Lk-1中的成员。记li[j]表示li中的第j项。假设Apriori算法对事务或项集中的项按字典次序排序,即对于(k-1)项集li,li[1]<li[2]<…<li[k-1]。将Lk-1与自身连接,如果(l1[1]=l2[1])&&(l1[2]=l2[2])&&…&&(l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1]),那认为l1和l2是可连接。连接l1和l2产生的结果是{l1[1],l1[2],…,l1[k-1],l2[k-1]}。(2)剪枝步Ck是Lk的超集,也就是说,Ck的成员可能是也可能不是频繁的。通过扫描所有的事务(交易),确定CK中每个候选的计数,判断是否小于最小支持度计数,如果不是,则认为该候选是频繁的。为了压缩Ck,可以利用Apriori性质:任一频繁项集的所有非空子集也必须是频繁的;反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从CK中删除。关联规则——FP-Tree算法FP-Growth算法采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FrequentPattern-growth,FP-Tree),但仍保留项集关联信息。该算法和Apriori算法最大的不同有两点:第一,不产生候选集;第二,只需要两次遍历数据库,大大提高了效率。其基本思路是不断地迭代FP-tree的构造和投影过程。具体算法描述如下:①对于每个频繁项,构造它的条件投影数据库和投影FP-tree;②对每个新构建的FP-tree重复这个过程,直到构造的新FP-tree为空,或者只包含一条路径;③当构造的FP-tree为空时,其前缀即为频繁模式;当只包含一条路径时,通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。关联规则——FP-Tree算法编号项目集1f,a,c,d,g,i,m,p2a,b,c,f,l,o3b,f,h,j,m,p4b,c,k,m,o,s5a,f,c,e,l,n,o,p实例项目集FP-Tree算法示意图谢谢各位的聆听!

数据挖掘准备数据挖掘的准备数据挖掘过程商业理解数据准备数据理解数据挖掘过程——Fayyad过程模型Fayyad过程模型是一个高级处理过程,它从数据集中识别出以模式来表示的知识,其包含多个处理步骤,各个步骤之间相互影响、反复调整,形成一种螺旋式的上升过程。(1)确定挖掘目标(2)建立目标数据集(3)数据清洗和预处理(4)数据降维和投影(5)选择挖掘算法(6)模式评价和解释数据挖掘过程——Fayyad过程模型Fayyad过程模型数据挖掘过程——CRISP-DM过程模型各种数据挖掘过程模型各有特色,很多都是与自己的产品相关联的,并不能完全通用。因此,一些软件供应商和用户组织(包括NCR,Daimler-Benz,SPSS等)成立了跨行业数据挖掘过程标准(CRISP-DM,CrossIndustryProcessStandardforDataMining)协会,开发了一个与行业无关、与工具无关的数据挖掘过程模型。这个模型主要面向数据挖掘的商务应用,可以在数据挖掘项目的整个生命周期中为用户提供指导。跨行业数据挖掘过程标准是一个分层次的过程模型。最上层称为阶段层(Phaselevel),它包含从商务理解到结果实施的六个一般性阶段;第二层称为一般任务层(Generictasklevel),它详细描述了每一个阶段所包含的任务。这些描述是一般性的,但可以概括所有的数据挖掘情况;第三层是专门任务层(Specializedtasklevel),该层将描述上一层中的一般性任务在具体的特定环境下的执行情况。;第四层是过程实例层(Processinstancelevel),它是一个数据挖掘项目的实际执行过程的行动、决策和结果的记录。数据挖掘过程——CRISP-DM过程模型CRISP-DM参考模型数据挖掘过程——Teradata数据挖掘流程经过最近几年数据挖掘项目的实践,Teradata在原有主流数据挖掘方法论CRISP-DM的基础上,形成了自己的理解,并把挖掘实践流程具体化CRISP-DM各阶段工作重点数据挖掘过程——Teradata数据挖掘流程数据挖掘的一般任务商业理解——商业理解任务商业理解这一阶段所包含的一般性任务如下:确定业务目标。这一步产生的输出:背景、业务目标、业务成功标准。评估环境。这一步将产生的输出:资源清单、需求,假设和约束、风险和所有费用、术语表、成本和收益。确定数据挖掘目标。这一步产生的输出:数据挖掘目标、数据挖掘成功标准。产生项目计划。这一步产生的输出:项目计划、工具和技术的初步评价。商业理解——如何定义业务需求定义业务需求是通过与提出需求的业务部门进行沟通,就挖掘背景、目标、当前状况和期望进行深入的沟通,确定挖掘项目需要解决的业务问题及应用场景,确保业务问题可以转化为数据挖掘问题。定义业务需求是成功数据挖掘过程中最有技巧的一个阶段,因为它需要不断对问题进行交流,以得到对问题的正确理解。可以从三个方面实现:确定业务主题数据可行性模型如何应用商业理解——如何设计模型思路设计模型思路是在明确业务问题的基础上,将业务问题转化为一个数据挖掘问题,并明确挖掘的基本思路。主要任务包括以下几方面:确定业务问题对应的挖掘问题类型确定业务目标的数据定义确定模型的时间窗口确定数据需求商业理解——如何设计模型思路(1)确定业务问题对应的挖掘问题类型可以从业务差异和数据差异两个方面考虑。1)业务差异一个业务问题分解为多个不同的数据挖掘模型。例如有一个业务问题要确定哪些客户是某产品的潜在高价值客户,这里的业务目标可以进一步分解成两个目标,一是哪些客户愿意对该产品做出响应,另一个是对该产品做出响应的客户中哪些会成为未来消费较高的客户。此时我们可以转化为两个数据挖掘问题,一个是客户是否对产品做出响应的分类预测模型,一个是客户对产品未来的消费价值的数值预测模型。2)数据差异并非所有的问题都可以获得相应的数据支持。例如一人多卡识别模型中,网内一人多卡的数据基础远远好于跨网一人多卡,所以可以考虑分解成数个子问题以应对不同的数据基础。有些子问题比较简单,用业务规则就可以解决,如网内一人多卡,可以通过同一身份证办理多个号码或一个IMEI对应多个号码的业务规则解决。对于较复杂的跨网一人多卡问题,可以通过交往圈识别模型解决。商业理解——如何设计模型思路(2)确定业务目标的数据定义对于有目标变量的数据挖掘问题,首先需要确定目标变量的数据定义。最常见的情况是二分类预测问题,如流失预警模型中目标变量为客户是否流失,营销活动响应度模型中目标变量为客户是否会对营销活动做出响应,它们的数据目标比较容易确定。有些挖掘问题的数据目标较难确定,需要通过一定的分析来确定。在数据定义确定以后,分析用户群的范围也基本确定。商业理解——如何设计模型思路(3)确定模型的时间窗口对有目标变量的挖掘模型,确定模型的时间窗口非常重要,模型的时间窗口可以分为模型构建时间窗口和模型应用时间窗口。任意时间可以分为三个阶段:过去、当前和将来,建立模型的目的就是用过去的数据来预测将来的结果,这是模型应用的阶段。在模型构建阶段,过去、当前和将来就是较远的过去、不远的过去和最近的过去。预测模型通过发现“较远的过去”事情发生的规律来解释“最近的过去”发生的结果,当模型构建完成后,就可以用“最近的过去”发生的事情来预测将来要发生的事情。数据挖掘对时间的划分商业理解——如何设计模型思路(4)确定数据需求确定数据需求主要是确定模型分析用户群及数据需求的时间跨度。当业务目标的数据定义确定以后,分析用户群的范围就确定了,例如流失预警模型中那些当前状态不正常的用户需要剔除。当模型的时间窗口确定以后,数据需求的时间范围就确定了,例如流失预警模型的分析窗口如果取三个月的话,那些最近三个月入网的用户因为没有足够的行为信息,需要进行剔除。数据准备——数据准备任务数据准备过程中包含了大量的各种任务,收集、描述和探测数据算一类,选择、清洗、构建、集成和格式化算另外一类,检验数据质量是最后一类:收集原始数据描述数据探测数据数据选择数据清洗数据构建数据集成数据格式化检验数据质量数据准备——数据准备任务(1)收集原始数据获取项目资源需求中所列出的数据。如果需要,这一步骤也包括数据装入。例如,如果你使用了某种数据理解工具,那么把数据装入这个工具就是必须的。这个工作往往会导致初步的数据准备工作。注意:如果你从多个数据源获取数据,那么还需要考虑数据集成工作。这一步产生的输出:原始数据收集报告。数据收集报告中应包括以下内容:数据源(内部数据库或外部提供者)拥有者负责维护此数据的人/组织DBA费用(如果需要购买)存储方式(如:Oracle数据库、MSAM文件等)表、字段、记录的数目字节数物理存储方式(CD-ROM、磁带、服务器等)安全需求使用限制隐私需求数据准备——数据准备任务(2)描述数据从总体和表面上描述所获得数据的属性并给出报告,包括:数据格式、数据量、一致性等,并检查是否能够满足相关要求。这一步产生的输出:数据描述报告。数据描述报告应包括以下内容:字段/列的数目;字段是空(缺)值的数目/百分比;字段的名字。对每个字段还包括:数据类型定义描述源计量单位所有不同值的个数值的列表值的范围空值的百分比收集信息(收集方式,收集地点,收集条件等)时间频度(每天、每周或每月)特别时间数据(如:每个周一或每个周三)主键/外键关系数据准备——数据准备任务(3)探测数据

数据探测任务是处理那些使用查询、可视化和报表技术就可以完成的数据挖掘问题。这些问题包括:关键属性的分布(如一个预测任务的目标属性)、属性对或少量属性之间的关系、简单的总计结果、重要子集的属性和简单的统计分析。这些分析可能直接达到了某个数据挖掘目标,也可能丰富或细化了数据描述和质量报告,或者作为将来的数据转换和其他数据准备工作的输入。这一步将产生的输出:数据探测报告。数据准备——数据准备任务(4)数据选择数据选择主要用于分析所收集到的数据,并决定选择数据和排除数据的原则和标准。数据选择标准包括:与数据挖掘目标的相关程度、质量和技术约束(例如,所能处理的数据量或数据类型)。选择的范围既包括数据表中的属性列也包括记录行。这与对数据进行采样和选择预测变量不同,这里只是粗略的把一些冗余或无关的数据去除,或者是由于资源、费用和数据使用的限制以及质量问题而必须做出的选择。这一步产生的输出:选择与排除数据的基本原则。数据准备——数据准备任务(5)数据清洗将数据质量提升到符合所选择的分析技术的需求。这可能涉及到选择数据中干净的子集、插入合适的缺省值或者某些更加深入的技术,如通过建模来估计缺失的数据。数据清洗要保证数据值的正确性和一致性,还要保证这些值是按同样的方法记录的同一件事情。存在各种各样的数据质量问题。数据字段中可能包含了不正确的值。比如,身份证号码字段被录入了年龄数据、男性怀孕、不合理的空值等等。对缺值的处理有着几种不同的策略:一种是把存在缺值的记录删除,这种方法可能会丢失大量的信息;另一种是为缺失的值计算一个替代值。比如,使用缺值所在字段的中间值、平均值和形式值等来替换;还有一种方法就是为这个缺值的字段用数据挖掘技术建立一个预测模型,然后按照这个模型的预测结果替换缺值。这一步产生的输出:数据清洗报告。数据准备——数据准备任务(6)数据构建这个任务包括建设性的数据准备工作,例如:导出属性的产生、已有属性的全新记录或变换了的值。导出属性是指那些从同一条记录的一个或几个已有属性构建得来的新属性。例如:面积=长度×宽度。生成记录指的是新记录的创造。例如:为那些过去从没有购买记录的客户生成记录,这是因为,虽然原始数据中不可能有这些记录,但是为了建模的需要,必须明确的表示特定顾客没有购买这一事实。这一步产生的输出:导出属性、生成记录。数据准备——数据准备任务(7)数据集成数据集成是指将来自不同表或记录

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论