Fisher判别法距离判别法Bayes判别法逐步判别法ppt课件_第1页
Fisher判别法距离判别法Bayes判别法逐步判别法ppt课件_第2页
Fisher判别法距离判别法Bayes判别法逐步判别法ppt课件_第3页
Fisher判别法距离判别法Bayes判别法逐步判别法ppt课件_第4页
Fisher判别法距离判别法Bayes判别法逐步判别法ppt课件_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020/5/8,1,4.1判别分析的基本理论4.2距离判别4.3Bayes判别4.4Fisher判别4.5逐步判别4.6判别分析方法步骤及框图4.7判别分析的上机实现4.8判别分析应用的几个例子,第四章判别分析,2020/5/8,2,目录上页下页返回结束,第四章判别分析,回归模型普及性的基础在于用它去预测和解释度量(metric)变量。但是对于非度量(nonmetric)变量,多元回归不适合解决此类问题。本章介绍的判别分析来解决被解释变量是非度量变量的情形。判别分析在识别一个个体所属类别的情况下有着广泛的应用。,2020/5/8,3,目录上页下页返回结束,4.1判别分析的基本理论,判别分析的假设条件判别分析最基本的要求是,分组类型在两组以上;在第一阶段工作是每组案例的规模必须至少在一个以上。解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。,2020/5/8,4,目录上页下页返回结束,4.1判别分析的基本理论,判别分析的假设之一,是每一个判别变量(解释变量)不能是其他判别变量的线性组合。即不存在多重共线性问题。判别分析的假设之二,是各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。判别分析的假设之三,是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。当违背该假设时,计算的概率将非常不准确。,2020/5/8,6,4.2距离判别,目录上页下页返回结束,4.2.1两总体情况,2020/5/8,7,4.2距离判别,目录上页下页返回结束,2020/5/8,8,4.2距离判别,目录上页下页返回结束,2020/5/8,9,4.2距离判别,目录上页下页返回结束,2020/5/8,10,4.2距离判别,目录上页下页返回结束,2020/5/8,11,4.2距离判别,目录上页下页返回结束,4.2.2多总体情况1.协差阵相同。,2020/5/8,12,4.2距离判别,目录上页下页返回结束,2.协差阵不相同。,2020/5/8,13,4.2距离判别,目录上页下页返回结束,2020/5/8,14,4.2距离判别,目录上页下页返回结束,办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。,一、标准的Bayes判别,4.3贝叶斯判别法,二、考虑错判损失的Bayes判别分析,设有总体,具有概率密度函数。并且根据以往的统计分析,知道出现的概率为。,又D1,D2,Dk是R(p)的一个分划,判别法则为:当样品X落入Di时,则判,关键的问题是寻找D1,D2,Dk分划,这个分划应该使平均错判率最小。,【定义】(平均错判损失函数),用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。,C(j/i)表示相应错判所造成的损失。,则平均错判损失为:,使ECM最小的分划,是Bayes判别分析的解。,4.4Fisher线性判别法,Fisher判别的基本思想将m组n维的数据投影到某一个方向,使得投影后的组与组之间尽可能地分开。,平面上两类数据训练样本的散点图(两组数据样本在平面上存在一个合理的分界线L),x1,x2,L:c1x1+c2x2c=0,令:F(x1,x2)=c1x1+c2x2F(x1,x2):判别函数c:判别值,G1,G2,Fisher线性判别法,Discriminantanalysis,已知:数据属性有n个,每个数据点为n维向量X:,已知总体数据分为两类:G1和G2,总体G1有p个样本点,总体G2有q个样本点。,目标:求解在n维空间中总体G1和总体G2的最优分界平面。,定义线性判别函数为:,其中Ci(i=1,2,n)为常数(待定系数)。,若判别值为C,对于任何未知数据点X(x1,x2,xn),代入判别函数,依据F(x1,x2,xn)与C值的比较,可以判别点X属于哪一类。,1、确定待定系数Ci(i=1,2,n)2、确定判别值C,将类G1的p个点、类G2的q个点分别代入判别函数:,其中,,确定待定系数Ci,令:,A与G1和G2两类点的几何中心的距离相关。显然,判别函数F(x1,x2,xn)应该使A值越大越好。,令:,B与G1和G2两类点的相对于各自几何中心的离差相关。显然,判别函数F(x1,x2,xn)应该使B值越小越好。,构造函数I:,选择合适的待定系数Ci(i=1,2,n),使得函数I(C1,C2,Cn)达到极大值。,消去非零的因子,得到求解待定系数(C1,C2,Cn)的线性方程组:,确定判别值C,判别函数已知,不妨写成:,将G1的p个点、G2的q个点分别代入判别函数:,对G1、G2的(p+q)个点的判别函数值取总体的平均值:,显然,值是两类点的判别函数值的加权平均,处于两类判别函数平均值之间,也等价于两类点的总体几何中心的判别函数值。因此,将判别值C取为值:,Fisher线性判别的应用举例,x1,x2,Discriminantanalysis,4.5变量选择和逐步判别,变量的选择是判别分析中的一个重要的问题,变量选择是否恰当,是判别分析效果有列的关键。如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。而另一方面,如果判别变量个数太多,计算量必然大,回影响估计的精度。特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果。,中小企业的破产模型为了研究中小企业的破产模型,首先选定了X1总负债率(现金收益/总负债),X2收益性指标(纯收入/总财产),X3短期支付能力(流动资产/流动负债)和X4生产效率性指标(流动资产/纯销售额)4个经济指标,对17个破产企业为“1”和21个正常运行企业“2”进行了调查,得资料如下。如果这些指标是用来做判别分析和聚类分析的变量,他们之间没有显著性差异是不恰当的,所以检验所选择的指标在不同类型企业之间是否有显著的差异。,x1,x2,x3,x4均为判别变量,x1,x3为判别变量,DependentVariable:x1(对X1进行的检验)SumofSourceDFSquaresMeanSquareFValuePrFModel10.874667910.8746679116.900.0002Error361.863008400.05175023CorrectedTotal372.73767632X1在类间有显著性差异。,DependentVariable:x2(对X2进行的检验)SumofSourceDFSquaresMeanSquareFValuePrFModel10.083120770.083120771.950.1710Error361.533700280.04260279CorrectedTotal371.61682105X2在类间没有显著性差异。,DependentVariable:x3(对X3进行的检验)SumofSourceDFSquaresMeanSquareFValuePrFModel116.4695844316.4695844321.45FModel10.001126940.001126940.030.8643Error361.369780950.03804947CorrectedTotal371.37090789X4在类间没有显著性差异。,逐步判别法采用有进有出的算法,即每一步都进行检验。首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除。向前选入开始时模型中没有变量。每一步,Wilks的统计量最小者,进入模型。当不再有未被选入的变量小于选入的临界值时,向前选入过程停止。向后剔除开始时,所有变量都在模型中。每一步,在Wilks的统计量的准则下对模型中判别能力贡献最小的变量剔除。当所有余下的变量都达到留在模型中的标准时,向后剔除过程停止。逐步选择开始时如同向前选择一样,模型中没有变量,每一步都被检查。如果在Wilks的准则下统计量对模型的判别能力贡献最小的变量达不到留在模型中的标准,它就被剔除。否则,不在模型中对模型的判别能力贡献最大的变量被选入模型。当模型中的所有变量都达到留在模型中的标准而没有其他变量能达到进入模型的标准,逐步选择过程停止。,2020/5/8,43,4.6判别分析方法步骤及框图,目录上页下页返回结束,判别分析的成功应用需要考虑到几个要点。这些要点包括解释变量和被解释变量的选择、估计判别函数所需的样本量和为了验证目的对样本的分割。(一)解释变量和被解释变量的选择要应用判别分析,研究者必须首先指定解释变量与被解释变量。这里,解释变量为定量变量,而被解释变量为定性变量。,2020/5/8,44,4.6判别分析方法步骤及框图,目录上页下页返回结束,(二)样本容量判别分析对样本量与预测变量个数的比率很敏感。许多研究建议比率为每个预测变量20个观测。尽管这个比率在实际中难以保持,但研究者应注意,当样本量相对于解释变量个数在减少时,结果是不稳定的。,2020/5/8,45,4.6判别分析方法步骤及框图,目录上页下页返回结束,(三)样本的分割很多时候样本需要分割为两个子样本,一个用于估计判别函数,另一个用于验证。每个子样本都有适当的大小来支持结论是很重要的。,2020/5/8,46,4.6判别分析方法步骤及框图,目录上页下页返回结束,第3步:判别分析的假定推导判别函数的关键假定是解释变量的多元正态性和由被解释变量定义的各组的未知但相等的协方差结构。不满足多元正态性假定在估计判别方程时可能会出现问题。因此,如果可能的话,建议使用Logistic回归作为一种替代方法。,2020/5/8,47,4.6判别分析方法步骤及框图,目录上页下页返回结束,可能影响结果的是解释变量的多重共线性。当使用逐步判别时这种考虑尤为重要。研究者在解释判别方程时必须注意多重共线性的程度和它对哪些变量进入逐步解的影响。,2020/5/8,48,4.6判别分析方法框图,目录上页下页返回结束,2020/5/8,49,4.7判别分析的上机实现,目录上页下页返回结束,这里举两个例子,一个例子是分两组的情况,一个是分多组的情况。我们分别用SPSS软件中的Discriminant模块来实现判别分析。,2020/5/8,50,4.7判别分析的上机实现,目录上页下页返回结束,2020/5/8,51,4.7判别分析的上机实现,目录上页下页返回结束,(一)二元变量的判别分析计算,2020/5/8,52,4.7判别分析的上机实现,目录上页下页返回结束,2020/5/8,53,4.7判别分析的上机实现,目录上页下页返回结束,2020/5/8,54,4.7判别分析的上机实现,目录上页下页返回结束,2020/5/8,55,4.7判别分析的上机实现,目录上页下页返回结束,输出结果4.3分析的是典型判别函数。第1张表反映判别函数的特征值、解释方差的比例和典型相关系数。(注意我们仅选取了两个解释变量,所以判别函数解释了全部的方差)第2张表是对第一个判别函数的显著性检验。由WilksLambda检验,认为判别函数在0.01的显著性水平上是极显著的。,2020/5/8,56,4.7判别分析的上机实现,目录上页下页返回结束,输出结果4.4显示的是判别函数、判别载荷和各组的重心。,2020/5/8,57,4.7判别分析的上机实现,目录上页下页返回结束,第2张表是结构矩阵,即判别载荷。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论