




已阅读5页,还剩89页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,判别分析,距离判别贝叶斯判别逐步判别典型判别,.,2,例中小企业的破产模型为了研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:,1什么是判别分析,.,3,.,4,.,5,.,6,.,7,判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。,.,8,2距离判别,(一)马氏距离距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。,.,9,设是从期望=和方差阵=的总体G抽得的两个观测值,则称为X与Y之间的Mahalanobis距离,样本X和Gi类之间的马氏距离定义为X与Gi类重心间的距离:,.,10,(二)两个总体距离判别法,先考虑两个总体的情况,设有两个协差阵相同的p维正态总体和,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来指定判别规则,有:,1、方差相等,.,11,.,12,则前面的判别法则表示为,当和已知时,是一个已知的p维向量,W(y)是y的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。,.,13,例在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?,.,14,.,15,.,16,线性判别函数:,.,17,2、当总体的协方差已知,且不相等,.,18,当总体的方差未知时,应该用样本的协方差矩阵代替。步骤如下(假如两个总体):(1)分别计算各组的离差矩阵S1和S2;(2)计算(3)计算类的均值(4)计算(5)计算(6)生成判别函数,将检验样本代入,得分,判类。,.,19,随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为:设有个K总体,分别有均值向量i(i=1,2,k)和协方差阵i=,各总体出现的先验概率相等。又设Y是一个待判样品。则与的距离为(即判别函数),(三)多总体的距离判别法,上式中的第一项Y-1Y与i无关,则舍去,得一个等价的函数,.,20,将上式中提-2,得,则距离判别法的判别函数为:判别规则为,注:这与前面所提出的距离判别是等价的.,.,21,(四)对判别效果做出检验1、错判概率,由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。,.,22,.,23,2、交叉核实交叉核实法的思想是:为了判断第i个观测的判别正确与否,用删除第i个观测的样本数据集计算出判别函数,然后用此判别函数来判别第i个观测。对每一个观测都这样进行。交叉核实检查比较严格,能说明所选择判别方法的有效性。交叉核实可以检验所用方法是否稳定。交叉核实可以解决样本容量不大的情形,改变样本,来检验方法是否稳定的问题。,.,24,.,25,加权错判率:,设qi是第i类的先验概率,pi是第i类的错判概率,则加权错判率为,.,26,距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数未知和协方差时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。,.,27,办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。,3贝叶斯判别法,一、标准的Bayes判别,.,28,.,29,距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。,贝叶斯公式是一个我们熟知的公式,.,30,设有总体,具有概率密度函数。并且根据以往的统计分析,知道出现的概率为。即当样本发生时,求他属于某类的概率。由贝叶斯公式计算后验概率,有:,判别规则,则判给。在正态的假定下,为正态分布的密度函数。,.,31,则判给。,上式两边取对数并去掉与i无关的项,则等价的判别函数为:,下面讨论总体服从正态分布的情形,.,32,问题转化为若,则判。,当协方差阵相等,.,33,则判别函数退化为,令,问题转化为若,则判。,.,34,完全成为距离判别法。,令,有,问题转化为若,则判。,当先验概率相等,,.,35,二、考虑错判损失的Bayes判别分析,设有总体,具有概率密度函数。并且根据以往的统计分析,知道出现的概率为。,又D1,D2,Dk是R(p)的一个分划,判别法则为:当样品X落入Di时,则判,关键的问题是寻找D1,D2,Dk分划,这个分划应该使平均错判率最小。,.,36,【定义】(平均错判损失),用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。,C(j/i)表示相应错判所造成的损失。,则平均错判损失为:,使ECM最小的分划,是Bayes判别分析的解。,.,37,【定理】,若总体G1,G2,Gk的先验概率为且相应的密度函数为,损失为时,则划分的Bayes解为其中,.,38,含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失然后比较其大小,选取其中最小的,则判定样品属于该总体。,为了直观说明,作为例子,我们讨论k=2的情形。,.,39,.,40,由此可见,要使ECM最小,被积函数必须在D1是负数,则有分划,.,41,Bayes判别准则为:,.,42,特别,则判给。与标准Bayes判别等价,.,43,下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:x1:月收入x2:月生活费支出x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0”x4:目前工作的年限x5:前一个工作的年限x6:目前住所的年限x7:前一个住所的年限X8:信用程度,“5”的信用度最高,“1”的信用度最低。,.,44,.,45,.,46,4变量选择和逐步判别,变量的选择是判别分析中的一个重要的问题,变量选择是否恰当,是判别分析效果有列的关键。如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。而另一方面,如果判别变量个数太多,计算量必然大,回影响估计的精度。特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果。,.,47,中小企业的破产模型为了研究中小企业的破产模型,首先选定了X1总负债率(现金收益/总负债),X2收益性指标(纯收入/总财产),X3短期支付能力(流动资产/流动负债)和X4生产效率性指标(流动资产/纯销售额)4个经济指标,对17个破产企业为“1”和21个正常运行企业“2”进行了调查,得资料如下。如果这些指标是用来做判别分析和聚类分析的变量,他们之间没有显著性差异是不恰当的,所以检验所选择的指标在不同类型企业之间是否有显著的差异。,.,48,x1,x2,x3,x4均为判别变量,.,49,x1,x3为判别变量,.,50,DependentVariable:x1(对X1进行的检验)SumofSourceDFSquaresMeanSquareFValuePrFModel10.874667910.8746679116.900.0002Error361.863008400.05175023CorrectedTotal372.73767632X1在类间有显著性差异。,DependentVariable:x2(对X2进行的检验)SumofSourceDFSquaresMeanSquareFValuePrFModel10.083120770.083120771.950.1710Error361.533700280.04260279CorrectedTotal371.61682105X2在类间没有显著性差异。,.,51,DependentVariable:x3(对X3进行的检验)SumofSourceDFSquaresMeanSquareFValuePrFModel116.4695844316.4695844321.45FModel10.001126940.001126940.030.8643Error361.369780950.03804947CorrectedTotal371.37090789X4在类间没有显著性差异。,.,52,多元假设检验StatisticValueFValueNumDFDenDFPrFWilksLambda0.545616206.874330.0004PillaisTrace0.454383806.874330.0004Hotelling-LawleyTrace0.832790156.874330.0004RoysGreatestRoot0.832790156.874330.0004,PillaisTrace,.,53,设有n样品,分别来自k个类G1,G2,Gk其中ni个来自Gi,,(一)变量组间差异的显著检验,样品分别为:,即,p个指标对G1,G2,Gk无区别能力;,.,54,p个指标对G1,G2,Gk有区别能力。,当比值很小,类内的离差平方和在总离差平方和中所占比率小,则类间的离差平方和所占比重大。在原假设为真的条件下,服从维尔克斯分布。,.,55,当接受原假设;当p个指标对G1,G2,Gk有强的区别能力,拒绝原假设。,.,56,(二)附加信息的检验,在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。如果在某个判别分析问题中,将其中最主要的指标忽略了。判别效果一定不会好。但是在许多问题中,事先并不知道那些是主要的指标。因此筛选变量的问题就成了非常重要的了。从而产生了逐步判别法,而逐步判别法的基础是附加信息的检验。,.,57,.,58,逐步判别法采用有进有出的算法,即每一步都进行检验。首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除。向前选入开始时模型中没有变量。每一步,Wilks的统计量最小者,进入模型。当不再有未被选入的变量小于选入的临界值时,向前选入过程停止。向后剔除开始时,所有变量依赖于VAR语句中的变量都在模型中。每一步,在Wilks的统计量的准则下对模型中判别能力贡献最小的变量剔除。当所有余下的变量都达到留在模型中的标准时,向后剔除过程停止。逐步选择开始时如同向前选择一样,模型中没有变量,每一步都被检查。如果在Wilks的准则下统计量对模型的判别能力贡献最小的变量达不到留在模型中的标准,它就被剔除。否则,不在模型中对模型的判别能力贡献最大的变量被选入模型。当模型中的所有变量都达到留在模型中的标准而没有其他变量能达到进入模型的标准,逐步选择过程停止。,.,59,设有n样品,分别来自k个类G1,G2,Gk其中ni个来自Gi,,样品分别为:,即,p个指标对G1,G2,Gk无区别能力;,.,60,设判别函数中已经有q个变量,要检验某个变量xj对判别效果的贡献,或者说变量对判别是否有附加的信息。H0:xj判别分析没有附加的信息H1:xj对判别分析有附加的信息,.,61,将q+1个变量构成的叉积将矩阵分块,利用分块矩阵的行列式的性质有:,.,62,它是在给定了q个指标的条件下,的q+1个指标的附加信息量的度量,该统计量服从维尔克斯分布,.,63,该统计量服从F(k-1,n-p-k)分布,当F很大时,则拒绝原假设,第q+1个指标有附加信息;否则,接受原假设。,.,64,2、剔除变量对于判别函数中已有的q1个变量,是否有对判别能力贡献不显著的变量存在,则应该将其从判别函数中删除。H0:xk对判别分析贡献不显著,即应该剔除;H1:xk对判别分析贡献显著,即应该保留;,检验的统计量,.,65,步骤,第一步:通过计算单变量的统计量,逐步选择判别变量,统计量最小者首先进入模型。,.,66,第二步:分别计算未被选中的其它变量与选中变量x1的统计量,,统计量1i得值最小者与x1搭配进入模型。,.,67,第三步:类推假设已经有q1个变量进入了模型,要考虑较早选入模型得变量得重要性是否有较大得变化,应及时将其从模型中剔除。其原则与引入相同。统计量得值最小者或F最大者保留。,第四步:进行判别分析。,.,68,TheSTEPDISCProcedure(逐步判别过程)TheMethodforSelectingVariablesisSTEPWISEObservations38Variable(s)intheAnalysis4ClassLevels2Variable(s)willbeIncluded0SignificanceLeveltoEnter0.15SignificanceLeveltoStay0.15ClassLevelInformationVariableclassNameFrequencyWeightProportion1_11717.00000.4473682_22121.00000.552632,.,69,StepwiseSelection:Step1(第一步)StatisticsforEntry,DF=1,36VariableR-SquareFValuePrFTolerancex10.319516.900.00021.0000 x20.05141.950.17101.0000 x30.373421.45FWilksLambda0.62662821.45136Fx10.10704.190.0482x30.17777.560.0094Novariablescanberemoved.StatisticsforEntry,DF=1,34PartialVariableR-SquareFValuePrFTolerancex20.01960.680.41540.4120 x40.00570.200.66140.6119Novariablescanbeentered.(无变量能进入)Nofurtherstepsarepossible.(进一步是不可能的),.,72,LinearDiscriminantFunctionforclass线性判别函数Variable12Constant-2.45595-5.25152x32.180983.52968x1-4.55096-0.52018,.,73,NumberofObservationsandPercentClassifiedintoclassFromclass12Total11431782.3517.65100.0023182114.2985.71100.00Total17213844.7455.26100.00Priors0.447370.55263,ErrorCountEstimatesforclass12TotalRate0.17650.14290.1579Priors0.44740.5526,.,74,NumberofObservationsandPercentClassifiedintoclassFromclass12Total11431782.3517.65100.0024172119.0580.95100.00Total18203847.3752.63100.00Priors0.447370.55263ErrorCountEstimatesforclass12TotalRate0.17650.19050.1842Priors0.44740.5526,.,75,PosteriorProbabilityofMembershipinclassClassifiedObsintoclass12110.64820.3518210.76670.2333310.66050.3395410.80290.1971520.30650.6935620.27590.7241720.29840.7016820.07420.9258,.,76,将样本分成两部分,一部分用于确定判别函数,另一部分用于检查判别的效果。如果样本量很大,可将样本平均地或随机地分成两部分。,选择变量(1)和判别分析的目的密切相关(2)反映要判类变量的特征(3)在不同研究对象上的值有明显的差异,确定分析样本和验证样本,一、主要步骤,.,77,估计鉴别函数选择某种方法建立判别规则,有距离判别、贝叶斯判别和典型判别,计算错判比率和正确判定的比率。将判别函数用于验证样本,通过验证样本的错判比率和正确判定的比率来确定判别的效果。所谓错判,就是把原来是第一类的样本判给了第二类。对于正确判定的比率应该达到多少才能接受,并没有严格的规则。,检查判别的效果,用逐步判别法筛选变量在第一步所选的变量可能在类间无差异,应该将对判别分析无贡献的变量剔除,.,78,5典型判别法,一、两个总体的费歇(Fisher)判别法,X不能使总体单位尽可能分开的方向,u能使总体单位尽可能分开的方向,旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个,.,79,(一)费歇判别的基本思想,从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数。Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版旅游产业三方借款协议范本
- 2025年高速公路冲孔桩加固工程劳务合同
- 2025年度文化娱乐合伙人合同范本标准
- 2025年专用发电机组买卖及电力工程设计合同
- 2025年度范文定制化服务与版权保护介绍费合同
- 2025版通信器材智能电网设备供应合同
- 2025版石油化工产品营销代理及推广服务合同范本
- 2025年度房地产开发商短期借款合同范本
- 2025大理石石材进出口代理协议范本
- 2025年度网络安全防护软件升级变更协议书
- 2025年新钢铁安全员考试题库及答案
- 2025版电子购销合同模板
- 护理中医小讲课课件
- 2025年中煤电力有限公司招聘笔试参考题库含答案解析
- 动词教学课件
- 盐雾测试报告
- 外科学教案-腹外疝
- 寺院电路改造方案(3篇)
- 监理公司财务管理制度
- NBT 11551-2024 煤矿巷道TBM法施工及验收标准
- 生产环境条件管理制度
评论
0/150
提交评论