变量选择和逐步判别_第1页
变量选择和逐步判别_第2页
变量选择和逐步判别_第3页
变量选择和逐步判别_第4页
变量选择和逐步判别_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、5 变量选择和逐步判别变量选择和逐步判别 变量的选择是判别分析中的一个重要的问题,变量的选择是判别分析中的一个重要的问题,变量选择是否恰当,是判别分析效果有列的关键。变量选择是否恰当,是判别分析效果有列的关键。如果在某个判别问题中,将起最重要的变量忽略如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。而另一方了,相应的判别函数的效果一定不好。而另一方面,如果判别变量个数太多,计算量必然大,会面,如果判别变量个数太多,计算量必然大,会影响估计的精度。特别当引入了一些判别能力不影响估计的精度。特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果强的变量时,还会严

2、重地影响判别的效果。 中小企业的破产模型中小企业的破产模型 为了研究中小企业的破产模型,首先选定了为了研究中小企业的破产模型,首先选定了X1总负债总负债率(现金收益率(现金收益/总负债),总负债),X2收益性指标(纯收入收益性指标(纯收入/总财产总财产),),X3短期支付能力(流动资产短期支付能力(流动资产/流动负债)和流动负债)和X4生产效生产效率性指标(流动资产率性指标(流动资产/纯销售额)纯销售额)4个经济指标,对个经济指标,对17个破个破产企业为产企业为“1”和和21个正常运行企业个正常运行企业“2”进行了调查,得进行了调查,得资料如下。如果这些指标是用来做判别分析和聚类分析的资料如下

3、。如果这些指标是用来做判别分析和聚类分析的变量,他们之间没有显著性差异是不恰当的,所以检验所变量,他们之间没有显著性差异是不恰当的,所以检验所选择的指标在不同类型企业之间是否有显著的差异。选择的指标在不同类型企业之间是否有显著的差异。 Classification Resultsb,c152175162144888.211.8100.023.876.2100.050.050.0100.0152176152188.211.8100.028.671.4100.0破产企业为1,正常运行企业为212Ungrouped cases12Ungrouped cases1212Count%Count%Orig

4、inalCross-validateda12Predicted GroupMembershipTotalCross validation is done only for those cases in the analysis. In cross validation,each case is classified by the functions derived from all cases other than thatcase.a. 81.6% of original grouped cases correctly classified.b. 78.9% of cross-validat

5、ed grouped cases correctly classified.c. x1,x2,x3,x4均为判别变量Classification Resultsb,c152174172144888.211.8100.019.081.0100.050.050.0100.0152175162188.211.8100.023.876.2100.0破产企业为1,正常运行企业为212Ungrouped cases12Ungrouped cases1212Count%Count%OriginalCross-validateda12Predicted GroupMembershipTotalCross va

6、lidation is done only for those cases in the analysis. In cross validation,each case is classified by the functions derived from all cases other than thatcase.a. 84.2% of original grouped cases correctly classified.b. 81.6% of cross-validated grouped cases correctly classified.c. x1, x3为判别变量 Depende

7、nt Variable: x1 (对(对X1进行的检验)进行的检验) Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.87466791 0.87466791 16.90 0.0002 Error 36 1.86300840 0.05175023 Corrected Total 37 2.73767632 X1在类间有显著性差异。 Dependent Variable: x2 (对(对X2进行的检验)进行的检验) Sum of Source DF Squares Mean Square F Value Pr F Model

8、1 0.08312077 0.08312077 1.95 0.1710 Error 36 1.53370028 0.04260279 Corrected Total 37 1.61682105X2在类间没有显著性差异。 多元假设检验多元假设检验 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.54561620 6.87 4 33 0.0004 Pillais Trace 0.45438380 6.87 4 33 0.0004 Hotelling-Lawley Trace 0.83279015 6.87 4 33 0.0004

9、Roys Greatest Root 0.83279015 6.87 4 33 0.0004pipiiipiiBAIBAAWilks1111)1 (111piipiiipiisBTtrV1111)()1 (1)(Pillais Trace 设有n样品,分别来自 k个类G1,G2,Gk其中ni个来自Gi,(一)变量组间差异的显著检验(一)变量组间差异的显著检验).,(ipiNG 样品分别为:;,)1()1(11nXX;,)()(1knkkXXkH1:0即,p个指标对G1,G2,Gk无区别能力;不尽相同kH,1:1 p个指标对G1,G2,Gk有区别能力。|TABAA总离差平方和组内离差平方和当比值

10、很小,类内的离差平方和在总离差平方和中所占当比值很小,类内的离差平方和在总离差平方和中所占比率小,则类间的离差平方和所占比重大。在原假设为比率小,则类间的离差平方和所占比重大。在原假设为真的条件下,真的条件下, 服从维尔克斯分布服从维尔克斯分布 ) 1,(kknpp 即 p个指标对G1,G2,Gk有较强的区别能力。时,拒绝原假设。当(二)附加信息的检验 在回归分析中,变量的好坏直接影响回归的在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。如果在某效果。在判别分析中也有类似的问题。如果在某个判别分析问题中,将其中最主要的指标忽略了。个判别分析问题中,将其中最主要的指标忽略

11、了。判别效果一定不会好。但是在许多问题中,事先判别效果一定不会好。但是在许多问题中,事先并不知道那些是主要的指标。因此筛选变量的问并不知道那些是主要的指标。因此筛选变量的问题就成了非常重要的了。从而产生了逐步判别法,题就成了非常重要的了。从而产生了逐步判别法,而逐步判别法的基础是附加信息的检验。而逐步判别法的基础是附加信息的检验。向前法;向前法;向后法;向后法;逐步筛选法逐步筛选法 。 逐步判别法采用有进有出的算法,即每一步逐步判别法采用有进有出的算法,即每一步都进行检验。首先,将判别能力最强的变量引进判都进行检验。首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他别

12、函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除。能力不强了,则删除。 设判别函数中已经有设判别函数中已经有q q个变量,要检验某个变量个变量,要检验某个变量x xj j对对判别效果的贡献,或者说变量对判别是否有附加的信息。判别效果的贡献,或者说变量对判别是否有附加的信息。H H0 0: x: xj j判别分析没有附加的信息判别分析没有附加的信息H H1 1: x: xj j对判别分析有附加的信息对判别分析有附加的信息将将q+1个变量构成的离差矩阵分块个变量构成的离差矩阵分块1qAAAAA222

13、112111qBBBBB222112111qTTTTT22211211利用分块矩阵的行列式的性质有:利用分块矩阵的行列式的性质有:12111212211AAAAAA12111212211TTTTTT121112122121112122TTTTTAAAAATAq1111)1( ,2, 1121112122121112122TTTTAAAAqq, 1/ )1(记 它是在给定了它是在给定了q个指标的条件下,第个指标的条件下,第q+1个指标的个指标的附加信息量的度量,该统计量服从维尔克斯分布附加信息量的度量,该统计量服从维尔克斯分布) 1, 1 (, 1/ )1(kpknqq记qqqq,2, 1/ )

14、1(,2, 1)1( ,2, 1)1( ,2,1)1( ,2,1,2,1,2,1/ )1()1()(qqqqqkkpnFqqqqqqkkpnF,2, 1/ )1(,2, 1/ )1(,2, 1/ )1()1 () 1()( 该统计量服从该统计量服从F(k-1,n-p-k)分布,当分布,当F很大时,则很大时,则拒绝原假设,第拒绝原假设,第q+1个指标有附加信息个指标有附加信息,要引入该变量;要引入该变量;否则,接受原假设。否则,接受原假设。剔除变量剔除变量对于判别函数中已有的q1个变量 ,是否有对判别能力贡献不显著的变量存在,则应该将其从判别函数中删除。H0: xk对判别分析贡献不显著,即应该剔

15、除;H1: xk对判别分析贡献显著,即应该保留; 检验的统计量检验的统计量)1( ,),1(),1( , 2, 1/qkkk)1( ,),1(),1( ,2, 1/qkkkF步骤 第一步:通过计算单变量的统计量,逐步选择判别变量iiTAi统计量最小者首先进入模型。 第二步:分别计算未被选中的其它变量与选中变量x1的统计量,ii111TAi统计量1i得值最小者与x1搭配进入模型。 第三步:类推假设已经有q1个变量进入了模型,要考虑较早选入模型的变量的重要性是否有较大的变化,应及时将其从模型中剔除。其原则与引入相同。在所有检验不显著的变量中,将统计量得值最大者或F最小者先剔除。 第四步:进行判别分

16、析。 The STEPDISC Procedure(逐步判别过程) The Method for Selecting Variables is STEPWISE Observations 38 Variable(s) in the Analysis 4 Class Levels 2 Variable(s) will be Included 0 Significance Level to Enter 0.15 Significance Level to Stay 0.15 Class Level Information Variable class Name Frequency Weight P

17、roportion 1 _1 17 17.0000 0.447368 2 _2 21 21.0000 0.552632 Stepwise Selection: Step 1(第一步) Statistics for Entry, DF = 1, 36 Variable R-Square F Value Pr F Tolerance x1 0.3195 16.90 0.0002 1.0000 x2 0.0514 1.95 0.1710 1.0000 x3 0.3734 21.45 F Wilks Lambda 0.626628 21.45 1 36 .0001 Pillais Trace 0.37

18、3372 21.45 1 36 F x3 0.3734 21.45 F Tolerance x1 0.1070 4.19 0.0482 0.6638 x2 0.0094 0.33 0.5672 0.9379 x4 0.0172 0.61 0.4386 0.9546 Variable x1 will be entered.(X1进入)Stepwise Selection: Step 3(第三步) Statistics for Removal, DF = 1, 35 Partial Variable R-Square F Value Pr F x1 0.1070 4.19 0.0482 x3 0.

19、1777 7.56 0.0094 No variables can be removed. Statistics for Entry, DF = 1, 34 Partial Variable R-Square F Value Pr F Tolerance x2 0.0196 0.68 0.4154 0.4120 x4 0.0057 0.20 0.6614 0.6119 No variables can be entered.(无变量能进入) No further steps are possible. (进一步是不可能的) Linear Discriminant Function for class 线性判别函数 Variable 1 2 Constant -2.45595 -5.25152 x3 2.18098 3.52968 x1 -4.55096 -0.5201831118098. 255096. 445595. 2xxf31252968. 352018. 025152. 5xxf Number of Observations and Percent Classified into class From class 1 2 Total 1 14 3 17 82.35 17.65 100.00 2 3 18 21 14

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论