数据挖掘模型介绍ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-03-25 格式：PPT 页数：79 大小：2.73MB 积分：25 举报 版权申诉

已阅读5页，还剩74页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘模型 2 数据挖掘概念与流程数据挖掘模型介绍决策树模型聚类模型关联模型回归模型时间序列模型主成分与因子模型神经网络模型目录 3 数据挖掘 DataMining 是通过分析每个数据从大量数据中寻找其规律的技术 3个步骤数据准备规律寻找和规律表示挖掘任务关联分析聚类分析分类分析异常分析特异群组分析和演变分析等由DaimlerChrysler SPSS和NCR三家机构共同发展起来的数据挖掘方法论 CRISP DM Cross IndustryStandardProcessforDataMining 跨行业数据挖掘标准流程注重数据挖掘技术的应用 CRISP DM过程模型从商业的角度给出对数据挖掘方法的理解目前数据挖掘系统的研制和开发大都遵循CRISP DM标准将典型的挖掘和模型的部署紧密结合数据挖掘 CRISP DM模型 4 数据挖掘 CRISP DM模型 CRISP DM模型过程的挖掘流程包括业务理解数据理解数据准备建立模型模型评价模型实施 CRISP DM数据挖掘流程 5 数据挖掘 DataMining 技术主要无监督和有监督两大类无监督数据挖掘不区别对待各个变量而只是考察变量间的关系有监督数据挖掘从数据中获得深度细致的信息根据一些变量建立模型来预测另一些变量有监督数据挖掘方法聚类分析因子分析主成分分析神经网络预测等无监督数据挖掘方法关联规则挖掘时序挖掘偏差分析等数据挖掘技术 6 找出一个类别的概念描述它代表了这类数据的整体信息即该类的内涵描述并用这种描述来构造模型一般用规则或决策树模式表示分类是利用训练数据集通过一定的算法模型而求得分类规则分类可被用于规则描述和预测目前比较常见的分类算法有决策树算法贝叶斯分类和支持向量机算法 SupportVectorMachine 等等分类算法决策树分类模型的工作过程图 BuildingTree 基本思想提取分类规则进行分类预测决策树进行分类步骤决策树生成算法分成两个步骤树的生成开始数据都在根节点递归的进行数据分片树的修剪去掉一些可能是噪音或者异常的数据决策树使用对未知数据进行分割按照决策树上采用的分割属性逐层往下直到一个叶子节点决策树算法基本算法贪心算法自上而下分而治之的方法开始时所有的数据都在根节点属性都是种类字段如果是连续的将其离散化所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量如 informationgain 信息增益停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割伪代码 BuildingTree ProcedureBuildTree S 用数据集S初始化根节点R用根结点R初始化队列QWhileQisnotEmptydo 取出队列Q中的第一个节点NifN不纯 Pure for每一个属性A估计该节点在A上的信息增益选出最佳的属性将N分裂为N1 N2 信息增益度度量任意样本分类的期望信息 I s1 s2 sm Pilog2 pi i 1 m 其中数据集为S m为S的分类数目 PiCi为某分类标号 Pi为任意样本属于Ci的概率 si为分类Ci上的样本数由A划分为子集的熵 E A s1j smj s I s1j smj A为属性具有V个不同的取值信息增益 Gain A I s1 s2 sm E A 训练集举例使用信息增益进行属性选择 ClassP buys computer yes ClassN buys computer no I p n I 9 5 0 940Computetheentropyforage HenceSimilarly 使用信息增益进行属性选择使用信息增益进行属性选择使用信息增益进行属性选择使用信息增益进行属性选择使用信息增益进行属性选择 DecisionTree 结果输出 age overcast student creditrating no yes fair excellent 30 40 no no yes yes yes 30 40 20 1决策树优点 1 可以生成可以理解的规则 2 计算量相对来说不是很大 3 可以处理连续和种类字段对数据没有特殊要求 4 决策树可以清晰的显示哪些字段比较重要缺点 1 对连续性的字段比较难预测 2 对有时间顺序的数据需要很多预处理的工作 3 当类别太多时错误可能就会增加的比较快 4 一般的算法分类的时候只是根据一个字段来分类 21 1决策树决策树法属于风险型决策方法不同于确定型决策方法二者适用的条件也不同应用决策树决策方法必须具备以下条件 1 具有决策者期望达到的明确目标 2 存在决策者可以选择的两个以上的可行备选方案 3 存在着决策者无法控制的两种以上的自然状态 4 不同行动方案在不同自然状态下的收益值或损失值简称损益值可以计算出来 5 决策者能估计出不同的自然状态发生概率 22 1决策树案例一家金融服务公司为客户提供房屋净值贷款该公司在过去已经拓展了数千净值贷款服务但是在这些申请贷款的客户中大约有20 的人拖欠贷款通过使用地理人口和金融变量该公司希望为该项目建立预测模型判断客户是否拖欠贷款 23 1决策树案例 SAMPSIO HMEQ数据集中的变量分析数据之后该公司选择了12个预测变量来建立模型判断贷款申请人是否拖欠回应变量目标变量标识房屋净值贷款申请人是否会拖欠贷款变量以及它们的模型角色度量水平描述在下表中已经显示 SAMPSIO HMEQ数据集中的变量 24 1决策树案例聚类分析无处不在挖掘有价值的客户并制定相应的促销策略如对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告比在大街上乱发传单命中率更高成本更低 2聚类分析聚类分析无处不在谁是银行信用卡的黄金客户利用储蓄额刷卡消费金额诚信度等变量对客户分类找出黄金客户这样银行可以制定更吸引的服务留住客户比如一定额度和期限的免息透资服务百盛的贵宾打折卡在他或她生日的时候送上一个小蛋糕 2聚类分析 27 2聚类分析聚类就是把数据按照相似性归纳成若干类别同一类中的数据彼此相似不同类中的数据相异聚类分析可以建立宏观的概念发现数据的分布模式以及可能的数据属性之间的相互关系目前常见的聚类算法有基于划分的算法基于层次的算法基于密度算法和基于网格的算法等等聚类对数据没有特殊要求离散的连续的数值型字符型不指定类别数针对小样本制定类别数针对大样本要注意变量之间的相关性相对独立数据矩阵用m个变量也称为属性来表现n个对象相异度矩阵存储n个对象两两之间的近似度通常用一个维的矩阵表示聚类分析原理介绍相似性Similar的度量统计学角度距离Q型聚类主要讨论主要用于对样本分类常用的距离有只适用于具有间隔尺度变量的聚类明考夫斯基距离包括绝对距离欧式距离切比雪夫距离兰氏距离马氏距离斜交空间距离相似系数R型聚类用于对变量分类可以用变量之间的相似系数的变形如1 rij定义距离聚类分析条件相似性Similar的度量统计学角度 Q型聚类主要用于对样本分类常用的距离有只适用于具有间隔尺度变量的聚类明考夫斯基距离包括绝对距离欧式距离切比雪夫距离兰氏距离马氏距离斜交空间距离R型聚类用于对变量分类可以用变量之间的相似系数的变形如1 rij定义距离 30 客户关系管理是一个以客户为中心保持企业与客户互动的过程销售客户是哪些客户层哪些客户需要这样的产品是否考虑客户生命周期是否建立以客户为导向的客户关系谁是公司最有价值的客户等等要回答以上问题综合各种数据从不同角度对客户进行分群分组划分从与公司有较大业务联系的客户交易额出发 2聚类分析举例说明说明与本公司交易额2003年为X1 2004年为X2 2005年为X3 预计将来交易额为X4 31 利用procfastclus语句来实现程序如下 2聚类分析举例说明 DATAglgz inputcompany X1X2X3X4 CARDS 118 2750 489 9978 74222 2260 7711 7094 70317 1645 0910 3272 56417 3848 458 9574 78520 4156 8611 4088 67615 8041 3410 1867 32718 6552 809 4480 89820 8459 9911 6192 44916 1749 188 2773 621015 4742 569 1767 201116 4150 339 2275 961217 6841 518 8768 061317 8652 0210 1079 981412 0626 668 0046 721521 9361 0411 8194 781614 3139 548 3962 241716 3336 947 4060 671819 7552 169 0280 931912 8034 929 2456 962022 5159 3110 6592 47 RUN PROCFASTCLUSmaxclusters 3data glgzlistouttree out1 varX1X2X3X4 IDcompany RUN 2聚类分析举例说明程序运行结果第一类价值最高的客户2家公司14 19第二类价值较高的客户有8家公司2 5 7 8 13 15 18 20第三类价值偏低的客户有10家 33 关联规则挖掘是描述两个或两个以上变量的取值之间存在某种规律性就称为关联数据关联是数据库中存在的一类重要的可被发现的知识关联分为简单关联时序关联和因果关联关联分析的目的是找出数据库中隐藏的关联网一般用支持度和可信度两个阈值来度量关联规则的相关性还不断引入兴趣度相关性等参数使得所挖掘的规则更符合需求 3 关联规则关联规则的挖掘就是在事务数据库D中找出具有用户给定的最小支持度minsup和最小置信度minconf的关联规则最小支持度minsup 用户规定的关联规则必须满足的最小支持度它表示了一组物品集在统计意义上的需满足的最低程度最小置信度minconf 用户规定的关联规则必须满足的最小置信度它反应了关联规则的最低可靠度 34 3 关联规则满足的条件 1 基于规则中处理的变量的类别关联规则可以分为布尔型和数值型例性别女职业秘书性别女 avg 收入 23002 基于规则中数据的抽象层次可以分为单层关联规则和多层关联规则例 IBM台式机 Sony打印机台式机 Sony打印机3 基于规则中涉及到的数据的维数关联规则可以分为单维的和多维的例啤酒尿布性别女职业秘书 35 3 关联规则 36 3 关联规则 37 3 关联规则 38 3 关联规则 39 3 关联规则 40 3 关联规则 41 3 关联规则 42 3 关联规则 43 假设I是项的集合给定一个交易数据库其中每个事务 Transaction t是I的非空子集即每一个交易都与一个唯一的标识符TID TransactionID 对应关联规则在D中的支持度 support 是D中事务同时包含X Y的百分比即概率置信度 confidence 是包含X的事务中同时又包含Y的百分比即条件概率关联规则是有趣的如果满足最小支持度阈值和最小置信度阈值这些阈值是根据挖掘需要人为设定 3 关联规则举例说明左表中是顾客购买记录的数据库D 包含6个事务项集I 网球拍网球运动鞋羽毛球考虑关联规则频繁二项集网球拍与网球事务1 2 3 4 6包含网球拍事务1 2 6同时包含网球拍和网球支持度 X Y D 0 5 置信度 X Y X 0 6 若给定最小支持度 0 5 最小置信度 0 6 认为购买网球拍和购买网球之间存在关联 44 问题客户时间产品即客户在什么时间点购买了什么产品如果客户购买了多个产品则有多条记录产品之间的关联性数据集 SASEM自带的数据集 SAMPSIO ASSOCS 3 关联规则举例说明 45 预测是利用历史数据找出变化规律建立模型并由此模型对未来数据的种类及特征进行预测预测关心的是精度和不确定性通常采用预测方差来度量预测的主要方法有统计学中的回归分析等等 4 预测 46 任何事物的变化都与其他事物是相互联系和相互影响的用于描述事物数量特征的变量之间自然也存在一定的关系变量之间的关系归纳起来可以分为两种类型即函数关系和统计关系函数关系当一个变量x取一定值时另一变量y可以按照确定的函数公式取一个确定的值记为y f x 则称y是x的函数也就时说y与x两变量之间存在函数关系统计关系衡量事物之间或者变量之间的线性相关强弱程度用适当的统计指标表示出来称为相关分析比较直观的如散点图但不精确统计线性相关关系度量回归模型 4 预测回归分析 47 回归模型条件 1 确实存在显著相关关系2 确实存在直线相关关系3 应根据最小平方法4 解释变量为非随机变量5 同方差各随机扰动项的方差相同6 无自相关各随机扰动项互不相关7 误差项与解释变量不相关8 随机扰动项均服从正态分布9 残差项符合正态分布被解释变量符合正态分布数据要求一般解释变量和被解释变量为连续性变量但对于离散型与定性变量有特殊处理方法 4 预测回归分析回归大类线性回归多元回归和非线性回归线性回归 Y X其中和是回归系数可以根据给定的数据点通过最小二乘法来求得多元回归 Y 1X1 2X2线性回归的扩展设计多个预测变量可以用最小二乘法求得上式中的 1和 2非线性回归 Y 1X1 2X22 3X33对不呈线性依赖的数据建模使用多项式回归建模方法然后进行变量变换将非线性模型转换为线性模型然后用最小二乘法求解 49 4 预测 logit分类预测模型在自变量X1 X2 Xn作用下某事件发生概率为P 则该事件不发生的概率为1 P P 1 P为发生概率和不发生概率之比记作优势 Odds 可知 P与Odds一一对应对Odds取对数得到一般公式表现形式概率计算公式 50 4 logit分类预测模型案例问题作为某商品类目公司的市场分析师你可能需要为二值目标变量 purchase 建立逻辑回归模型判断某个顾客是否会产生购买输入数据集存放在SAS安装文件的SAMPSIO DMEXA1中该数据集包含1966个顾客观测值信息它包含31个区间变量输入和18个分类变量输用于构建模型该逻辑回归模型产生的打分公式应用在新的数据集中就能产生购买的顾客名单 51 4 logit分类预测模型案例 52 5 时序模式时序模式是指通过时间序列搜索出的重复发生概率较高的模式与回归一样它也是用已知的数据预测未来的值但这些数据的区别是变量所处时间的不同时间序列分析是一种动态数据处理的统计方法该方法基于随机过程理论和数理统计学方法研究随机数据序列所遵从的统计规律随机性变化由许多不确定因素引起的序列变化它所使用的分析方法就是时间序列分析确定性变化分析趋势变化分析周期变化分析循环变化分析时间序列分析随机性变化分析AR MA ARMA模型协整分析 53 5 时序模式平稳模型线性模型 Yt b0 b1t t二次趋势模型 Yt b0 b1t b2t2 t 非平稳模型自回归模型AR p 时间序列平稳序列非平稳序列 54 6 主成分分析主成分分析是把多个指标化为少数几个指标的一种统计分析方法在多指标变量的研究中往往由于变量太多且彼此之间存在着一定的相关性因而使得所观测的数据在一定程度有信息的重叠主成分分析采取一种降维的方法找出几个综合因子来代表原来众多的变量使这些综合变量因子尽可能地反映原来变量的信息量而且彼此之间互不相关从而达到简化的目的主成分分析的一般目的是 1 变量的降维 2 主成分的解释注意主成分分析是变量降维的一种重要常用的方法简单的说该方法要应用得成功一是靠原始变量的合理选取二是靠运气主分量的几何解释如果从研究总体中抽取N个样品每个样品有两个指标设N个样品在二维空间中的分布大致为一个椭圆 x1 x2 6 主成分分析将坐标系正交旋转一个角度在椭圆长轴方向取坐标y1 在短轴方向取坐标y2 则旋转公式 y1 y2 N个点的坐标y1和y2的相关几乎为零二维平面上N个点的方差大部分都归结在y1轴上而y2轴上的方差较小 Y1和y2是原始变量x1和x2的综合变量 6 主成分分析如果N个样品中的每个样有p个指标x1 x2 xp 经过主成分分析将它们综合成m个综合变量即并且满足 6 主成分分析 58 6 因子分析因子分析 factoranalysis 是一种数据简化的技术它通过研究众多变量之间的内部依赖关系探求观测数据中的基本结构并用少数几个假想变量来表示其基本的数据结构这几个假想变量能够反映原来众多变量的主要信息原始的变量是可观测的显在变量而假想变量是不可观测的潜在变量称为因子例如在企业形象或品牌形象的研究中消费者可以通过一个有24个指标构成的评价体系评价百货商场的24个方面的优劣 59 但消费者主要关心的是三个方面即商店的环境商店的服务和商品的价格因子分析方法可以通过24个变量找出反映商店环境商店服务水平和商品价格的三个潜在的因子对商店进行综合评价而这三个公共因子可以表示为称是不可观测的潜在因子 24个变量共享这三个因子但是每个变量又有自己的个性不被包含的部分称为特殊因子 6 因子分析 6 主成分分析案例已知纽约上市的三只化学产业证券 AC DP UC 和两只石油产业证券 EX TE 100周的收益率调查资料各证券的收益率依次用X1 X2 X3 X4 X5表示且样本的平均收益率和相关矩阵R如下要求对证券收益率做主成分分析和因子分析并解释其意义 6 主成分分析案例 6 主成分分析案例 dataone type corr type corr input name x1x2x3x4x5 cards x11 x20 5771 x30 5090 5991 x40 3870 3890 4361 x50 4620 3220 4260 5231 run procprincomp run dataone type corr type corr input name x1x2x3x4x5 cards x11 x20 5771 x30 5090 5991 x40 3870 3890 4361 x50 4620 3220 4260 5231 run procfactorscreenfact 2scorerotate varimax varx1 x5 run 主成分分析结果因子分析结果 1 因子分析结果 3 67 注意 1 因子分析与回归分析不同因子分析中的因子是一个比较抽象的概念而回归因子有非常明确的实际意义 2 主成分分析分析与因子分析也有不同主成分分析仅仅是变量变换而因子分析需要构造因子模型主成分分析原始变量的线性组合表示新的综合变量即主成分因子分析潜在的假想变量和随机影响变量的线性组合表示原始变量 6 因子分析 68 神经网络 NeuralNetworks NN 是由大量的简单的处理单元称为神经元广泛地互相连接而形成的复杂网络系统它反映了人脑功能的许多基本特征是一个高度复杂的非线性动力学习系统神经网络具有大规模并行分布式存储和处理自组织自适应和自学能力特别适合处理需要同时考虑许多因素和条件的不精确和模糊的信息处理问题神经网络的发展与神经科学数理科学认知科学计算机科学人工智能信息科学控制论机器人学微电子学心理学光计算分子生物学等有关是一门新兴的边缘交叉学科 7 神经网络模型神经网络结构 69 神经网络的基础在于神经元神经元是以生物神经系统的神经细胞为基础的生物模型在人们对生物神经系统进行研究以探讨人工智能的机制时把神经元数学化从而产生了神经元数学模型大量的形式相同的神经元连结在起就组成了神经网络神经网络是一个高度非线性动力学系统虽然每个神经元的结构和功能都不复杂但是神经网络的动态行为则是十分复杂的因此用神经网络可以表达实际物理世界的各种现象神经网络模型是以神经元的数学模型为基础来描述的神经网络模型由网络拓扑节点特点和学习规则来表示神经网络对人们的巨大吸引力主要在下列几点 1 并行分布处理 2 高度鲁棒性和容错能力 3 分布存储及学习能力 4 能充分逼近复杂的非线性关系 7 神经网络模型 70 目前已有近40种神经网络模型有反传网络感知器自组织映射 Hopfield网络波耳兹曼机适应谐振理论等根据连接的拓扑结构神经网络模型可以分为 1 前向网络网络中各个神经元接受前一级的输入并输出到下一级网络中没有反馈可以用一个有向无环路图表示这种网络实现信号从输入空间到输出空间的变换它的信息处理能力来自于简单非线性函数的多次复合网络结构简单易于实现反传网络是一种典型的前向网络 2 反馈网络网络内神经元间有反馈可以用一个无向的完备图表示这种神经网络的信息处理是状态的变换可以用动力学系统理论处理系统的稳定性与联想记忆功能有密切关系

人人文库> 全部分类> 毕业设计 > 开题报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘模型介绍ppt课件.ppt

文档简介

温馨提示

最新文档

评论

数据挖掘模型介绍ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档