第11讲判别分析.ppt

上传人：j*** IP属地：河南上传时间：2020-10-10 格式：PPT 页数：165 大小：7.73MB 积分：20 举报 版权申诉

已阅读5页，还剩160页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、判别分析,第五章判别分析Discriminant Analysis,判别分析是多元数据分析的重要方法之一，本章主要讨论利用软件技术快速、有效地进行个案判别的方法和一般步骤。其中包括： 1判别分析的基本思想 2判别分析的常用方法 3SAS的判别分析过程调用 4判别分析的结果评述 5应用判别分析,第一节判别分析的基本内容,一、什么是判别分析？设有k个总体G1，G2，Gk，希望建立一个准则，对给定的任意一个样本x，依据这个准则就能判断它是来至哪个总体。应当要求这种准则在某种意义下是最优的，如：错判概率最小或错判损失最小等等。,判别分析举例：,例一：根据人均国民收入、人均消费水平、人均住房面积等

2、多种指标来判定一个国家的经济发展程度所属类型。例二：根据发掘出来的人类头盖骨的高、宽等特征来判断其是男性还是女性。例三：根据患胃炎的病人和健康人的一些化验指标，就可以从这些化验指标发现两类人的区别。把这种区别表示为一个判别公式，然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。,二、判别分析的种类,1、按判别的组数分有两组判别分析和多组判别分析 2、按区分不同总体所用的数学模型分有线性判别和非线性判别 3、按判别对所处理的变量方法不同有逐步判别和序贯判别。 4、按判别准则的不同有距离判别、费歇尔（Fisher）判别和贝叶斯（Bayes）判别。,第二节距离判别,一、两总体距离判别

3、设有两个总体G1和G2，x是一个P维样本，若能定义样本x到总体G1和G2的距离d2（x，G1）和d2（x，G2），则可用如下的规则进行判别：若样本x到总体G1的距离小于到总体G2的距离，则认为样本x属于总体G1，反之则认为样本x属于总体G2；若样本x到总体G1和G2的距离相等，则让它待判。这个准则的数学模型可描述为：,第一节距离判别,定理5.1 当总体G1和G2为正态总体且协差阵相等时，距离选用马氏距离，即,其中：1，2，1，2分别为总体G1和G2的均值和协差阵。,其线性模型为：,判别准则,第一节距离判别,第一节距离判别,设有G1和G2两个正态总体，x是一个P维样本,第一节距离判别的评

4、估,距离判别误判分析,第一节距离判别的评估,在实际应用中，当假定正态总体且协差阵相等时，均值与协方差阵要用估计值，即其中：1，2，1，2分别为总体G1和G2的均值和协差阵。其线性模型为：其中，,第一节距离判别,第一节距离判别,14个国家的出生时预期寿命和成人识字率,马氏(Mahalanobis)距离,距离判别,各样品到第一类和第二类的距离,原分类与判别归类,判别函数,原分类与判别归类,原分类与判别分类,第二节距离判别,二、两总体距离判别,这个准则的数学模型上已描述为：,三、多总体判别,计算样本x到每个总体的距离d2(xGi)i=1，2，k，然后比较这些距离，如x距离总体Gi的距

5、离最短，则判x属于总体Gi 。,三.多总体距离判别,某种植物三个品种的萼片长、宽和花斑长、宽测量值,合并协方差矩阵,齐性检验及类的可分性,三类的协方差矩阵的齐性检验 2=140.943050， = 20， P0.0001 三类间的马氏距离及均向量的假设检验,判别函数,判别分类,与原分类不一致的样品有：80，84和145号,四.判别效果的检验及各变量判别能力的检验,若检验被否定,则说明两总体可区分,所建立的准则有意义.,对于给定的检验水平,其否定域为,作检验统计量,两总体判别效果的检验,两总体判别效果的检验,现从各个正态总体中抽取的样本如下：,1.作均值检验：,容易证明：,定义维尔克斯(Wilk

6、s)统计量,记,多总体判别效果的检验(多元方差分析),定义维尔克斯(Wilks)统计量,对于给定的检验水平,其否定域为,多总体判别效果检验,多总体判别效果的检验,2.分别作均值检验：,判别效果的检验,各变量判别能力的检验,各变量判别能力的检验,距离判别例：某地区经勘探证明A盆地是一个钾盐矿区，B盆地是一个钠盐矿区，其他盐盆地是否含钾盐有待作出判断。今丛A、B两盆地各抽取5个盐泉样品；从其它盆地抽得8个盐泉样品，18个盐泉的特征数值见下表，试对后8个代判盐泉进行含钾性判别。,A盆地和B盆地看作两个不同的总体，并假定两总体协差阵相等。本例中变量个数m=4，两类总体各有5个训练样品，另有8个代判样

7、品。,距离判别案例与SAS,第一类 1 13.85 2.79 7.80 49.60 A 含钾 2 22.31 4.67 12.31 47.80 A 盐泉 3 28.82 4.63 16.18 62.15 A A 4 15.29 3.54 7.50 43.20 A 盆地 5 28.79 4.90 16.12 58.10 A,第二类 6 2.18 1.06 1.22 20.60 B 含钾 7 3.85 0.80 4.06 47.10 B 盐泉 8 11.40 0.00 3.50 0.00 B B 9 3.66 2.42 2.14 15.10 B 盆地 10 12.10 0.00 5.6

8、8 0.00 B,11 8.85 3.38 5.17 26.10 12 28.60 2.40 1.20 127.00 待 13 20.70 6.70 7.60 30.20 判 14 7.9 2.40 4.30 33.20 盐 15 3.19 3.20 1.43 9.90 泉 16 12.40 5.10 4.43 24.60 17 16.80 3.40 2.31 31.30 18 15.00 2.70 5.02 64.00,盐泉类别序号 KCl BrCl K/盐 K/Br 类编号（x1）（x2）（x3）（x4）类别号,距离判别案例与SAS,SAS程序如下：,Data a; Inp

9、ut x1-x4 group $; Cards; 13.85 2.79 7.80 49.60 A 22.31 4.67 12.31 47.80 A 28.82 4.63 16.18 62.15 A 15.29 3.54 7.50 43.20 A 28.79 4.90 16.12 58.10 A 2.18 1.06 1.22 20.60 B 3.85 0.80 4.06 47.10 B 11.40 0.00 3.50 0.00 B 3.66 2.42 2.14 15.10 B 12.10 0.00 5.68 0.00 B 8.85 3.38 5.17 26.10 . 28.60 2.40 1.2

10、0 127.00 . 20.70 6.70 7.60 30.20 . 7.9 2.40 4.30 33.20 . 3.19 3.20 1.43 9.90 . 12.40 5.10 4.43 24.60 . 16.80 3.40 2.31 31.30 . 15.00 2.70 5.02 64.00 ; proc discrim data=a simple anova manova pool=test wcov distance list posterr; class group; var x1-x4;run; .,;,以上SAS程序的proc discrim 首先生成SAS数据集a，然后调用di

11、scrim过程对含钾的和不含钾的A、B两类盆地的10个样品特征则量值用距离判别的方法，建立线性判别函数，并对已知类别的样品和待判样品进行判别归类。proc discrim语句中，选项wcov 要求输出各类的组内协差阵，选项distance要求输出各组间的距离，选项list要求输出按距离准则的判别结果。,SAS语句解释：,SAS输出结果如下：结果1.训练样本及分类水平的信息 The SAS System 14:58 Sunday, December 4, 2002 13 The DISCRIM Procedure Observations 10 DF Total 9 Variables 4 D

12、F Within Classes 8 Classes 2 DF Between Classes 1 Class Level Information Variable Prior group Name Frequency Weight Proportion Probability A A 5 5.0000 0.500000 0.500000 B B 5 5.0000 0.500000 0.500000,结果2.盆地A和盆地B的组内协差阵 The SAS System The DISCRIM Procedure Within-Class Covariance Matrices group = A,

13、 DF = 4 Variable x1 x2 x3 x4 x1 50.99562000 5.91576000 30.24664500 47.02695000 x2 5.91576000 0.81883000 3.42766000 3.98310000 x3 30.24664500 3.42766000 18.10782000 28.98807500 x4 47.02695000 3.98310000 28.98807500 60.23200000 - group = B, DF = 4 Variable x1 x2 x3 x4 x1 22.2563200 -3.5406600 6.140050

14、0 -67.0293500 x2 -3.5406600 0.9890800 -1.1224000 6.2953000 x3 6.1400500 -1.1224000 2.9880000 -6.5560000 x4 -67.0293500 6.2953000 -6.5560000 374.9030000 -,SAS输出结果如下：,Simple Statistics Total-Sample Standard Variable N Sum Mean Variance Deviation x1 10 142.25000 14.22500 96.51483 9.8242 x2 10 24.81000

15、2.48100 3.73754 1.9333 x3 10 76.51000 7.65100 30.21765 5.4971 x4 10 343.65000 34.36500 545.63558 23.3588 - group = A Standard Variable N Sum Mean Variance Deviation x1 5 109.06000 21.81200 50.99562 7.1411 x2 5 20.53000 4.10600 0.81883 0.9049 x3 5 59.91000 11.98200 18.10782 4.2553 x4 5 260.85000 52.1

16、7000 60.23200 7.7609 - group = B Standard Variable N Sum Mean Variance Deviation x1 5 33.19000 6.63800 22.25632 4.7177 x2 5 4.28000 0.85600 0.98908 0.9945 x3 5 16.60000 3.32000 2.98800 1.7286 x4 5 82.80000 16.56000 374.90300 19.3624 -,结果3.全体训练样本和两组训练样本的描述统计量,Pooled Covariance Matrix Information Natu

17、ral Log of the Covariance Determinant of the Matrix Rank Covariance Matrix 4 7.30425 The DISCRIM Procedure Pairwise Squared Distances Between Groups 2 _ _ -1 _ _ D (i|j) = (X - X ) COV (X - X ) i j i j Squared Distance to group From group A B A 0 37.02876 B 37.02876 0,结果4.组间距离,F Statistics, NDF=4, D

18、DF=5 for Squared Distance to group From group A B A 0 14.46436 B 14.46436 0 Prob Mahalanobis Distance for Squared Distance to group From group A B A 1.0000 0.0059 B 0.0059 1.0000,结果4.两总体均值差异的显著性检验H0: U1=U2,协方差是否相等的检验 The DISCRIM Procedure Test of Homogeneity of Within Covariance Matrices Notation: K

19、 = Number of Groups P = Number of Variables N = Total Number of Observations - Number of Groups N(i) = Number of Observations in the ith Group - 1 _ N(i)/2 | |Within SS Matrix(i)| V = - N/2 |Pooled SS Matrix| _ _ 2 | 1 1 | 2P + 3P - 1 RHO = 1.0 - | SUM - - - | - |_ N(i) N _| 6(P+1)(K-1) DF = .5(K-1)

20、P(P+1) _ _ | PN/2 | | N V | Under the null hypothesis: -2 RHO ln | - | | _ PN(i)/2 | |_ | N(i) _| is distributed approximately as Chi-Square(DF). Chi-Square DF Pr ChiSq 0.000000 10 1.0000,The DISCRIM Procedure Pairwise Generalized Squared Distances Between Groups 2 _ _ -1 _ _ D (i|j) = (X j- Xj ) CO

21、V (Xi - Xj ) Generalized Squared Distance to group From group A B A 0 37.02876 B 37.02876 0 Linear Discriminant Function _ -1 _ -1 _ Constant = -.5 Xj COV X j Coefficient Vector = COV Xj Linear Discriminant Function for group Variable A B Constant -42.24731 -5.16272 x1 7.67412 2.93107 x2 5.54881 1.3

22、5698 x3 -13.96307 -5.37383,x4 1.18131 0.45583,结果5.线性判别函数Yi（X）i=1、2,The SAS System The DISCRIM Procedure Classification Results for Calibration Data: WORK.A Resubstitution Results using Linear Discriminant Function Generalized Squared Distance Function 2 _ -1 _ D (X) = (X-X ) COV (X-X ) j j j Posteri

23、or Probability of Membership in Each group 2 2 Pr(j|X) = exp(-.5 D (X) / SUM exp(-.5 D (X) j k k Posterior Probability of Membership in group,结果6.有选项list要求列出的回判结果,Posterior Probability of Membership in group From Classified Obs group into group A B 1 A A 0.9999 0.0001 2 A A 1.0000 0.0000 3 A A 1.000

24、0 0.0000 4 A A 1.0000 0.0000 5 A A 1.0000 0.0000 6 B B 0.0000 1.0000 7 B B 0.0000 1.0000 8 B B 0.0000 1.0000 9 B B 0.0000 1.0000 10 B B 0.0000 1.0000 11 B * 0.0016 0.9984 12 A * 1.0000 0.0000 13 A * 1.0000 0.0000 14 B * 0.0830 0.9170 15 B * 0.0000 1.0000 16 A * 1.0000 0.0000 17 A * 1.0000 0.0000 18

25、A * 1.0000 0.0000 * Misclassified observation,结果6.有选项list要求列出的回判结果,结果7.回判结果的汇总判别距阵 The DISCRIM Procedure Classification Summary for Calibration Data: WORK.A Resubstitution Summary using Linear Discriminant Function Generalized Squared Distance Function 2 _ -1 _ D (X) = (X-X ) COV (X-X ) j j j Poster

26、ior Probability of Membership in Each group 2 2 Pr(j|X) = exp(-.5 D (X) / SUM exp(-.5 D (X) j k k Number of Observations and Percent Classified into group From group A B Total 预测植 5 3 8 62.50 37.50 100.00 原样本 A 5 0 5 100.00 0.00 100.00 B 0 5 5 0.00 100.00 100.00 Total 10 8 18 55.56 44.44 100.00 Prio

27、rs 0.5 0.5,Univariate Test Statistics(单变量检验) F Statistics, Num DF=1, Den DF=4 Total Pooled Between Standard Standard Standard R-Square Variable Deviation Deviation Deviation R-Square / (1-RSq) F Value Pr F x1 10.5802 7.2526 10.7904 0.6241 1.6602 6.64 0.0615 x2 2.2144 0.9200 2.6540 0.8619 6.2409 24.9

28、6 0.0075 x3 6.3788 3.7560 7.0004 0.7226 2.6052 10.42 0.0320 x4 28.5571 9.5519 35.1786 0.9105 10.1727 40.69 0.0031 每个变量对判别函数有影响 Average R-Square Unweighted 0.7797743 Weighted by Variance 0.869445 Multivariate Statistics and Exact F Statistics(多元方差分析) S=1 M=1 N=-0.5 Statistic Value F Value Num DF Den

29、DF Pr F Wilks Lambda 0.03257673 7.42 4 1 0.2678 Pillais Trace 0.96742327 7.42 4 1 0.2678 Hotelling-Lawley Trace 29.69675768 7.42 4 1 0.2678 Roys Greatest Root 29.69675768 7.42 4 1 0.2678 类别无显著性差异,结果8.判别能力检验,The SAS System The DISCRIM Procedure Classification Summary for Calibration Data: WORK.A Resu

30、bstitution Summary using Linear Discriminant Function Error Count Estimates for group A B Total Rate 0.0000 0.0000 0.0000 Priors 0.5000 0.5000,结果8.错判信息,第二节、Bayes判别法,（一）、先验概率,第二节、Bayes判别法,(二)、后验概率（条件概率）,第二节、Bayes判别法,第二节、Bayes判别法,第二节、Bayes判别法,例5.2已知三组的验前概率为,三组的密度函数为,三）判错概率、判错损失,注意到,由此错判是会造成的错判损失,。,判错概

31、率,三）判错概率、判错损失,由此造成的错判损失的度量表为,判错损失,BAYES期望损失要把先验概率考虑在内,第二节、Bayes判别法,，,(四)两总体的Bayes判别法,设有2个总体：,其先验概率为,定理5.2.1 对2个总体,使g(D)达最小的区域划分是对若令判别函数,，,，,(四)、两总体的Bayes判别,第二节、Bayes判别法,第二节、Bayes判别法,两正态总体的Bayes判别,两正态总体的Bayes判别,两正态总体的Bayes判别,两正态总体的Bayes判别,第二节 Bayes判别,第二节、Bayes判别法,第二节、Bayes判别法,（五）、广义平方距离,在马氏距离判别的基础上，进

32、一步考虑先验概率及各组内协方差阵的不同，定义样本X到总体 (t=1,2,k)的广义平方距离,或,为：,（六）、多个总体的Bayes准则的判别法,为Bayes判别的解,第二节、Bayes判别法,第二节、Bayes判别法,(七)、多个正态总体的BAYES判别法,第二节、Bayes判别法,第二节、Bayes判别法,第二节、多个总体的Bayes判别法,第二节、多个总体的Bayes判别法,第二节、多个总体的Bayes判别法,第二节、多个总体的Bayes判别法,多个总体的Bayes判别法案例,Bayes判别法案例SAS程序,Bayes判别法案例SAS程序,Bayes判别法案例SAS结果输出,Bayes判别

33、法案例SAS结果输出,Bayes判别法案例SAS结果输出,第三节费歇尔判别法,费歇尔判别方法是历史上最早提出的判别方法之一，也叫线性判别法费歇尔判别的思想是通过将多维数据投影到某个方向上，投影的原则是将类与类之间尽可能的分开，然后再选择合适的判别准则，将待判的样本进行分类判别。,Fisher判别,基本思想投影即把K类的P维数据投影(变换)到某一个方向，使得变换后的数据，同类别的点“尽可能聚在一起”，不同类别的点“尽可能分离”，以此达到分类的目的。,两类Fisher判别示意图,Y,X,L=b1X+b2Y,G1,G2,投影(变换),将原来P个变量综合成L个新变量,一、判别原理,设有q个总体

34、G1,G2,Gq,每类中含有样本数分别为n1,n2,nq,假定所建立的判别函数为,其中,表示p维空间的一个方向,如果按这个方向做一条直线，表示向量x在这条直线上投影坐标,本案例的线性模型的表达式,将各组样本均值投影到某条直线上，得到各组样本均值在该直线的投影坐标，投影坐标值距离越远越容易判断待判样本属于哪个组。,a,b,费歇尔方法就是要找一由p变量组成的线性函数，使得各组内点的函数值尽可能接近，而不同组间的函数值尽可能远,一、判别原理,一、判别原理,一、判别原理,一、判别原理,定理,设有个总体：,其均,值和协方差阵分别为及,任给一个样品 ,在下，使得,正是矩阵的最大特征值所对应的特

35、征,达到最大的线性判别函数中的系数,向量，其中,是所有元素都是的矩阵。,判别原理,判别方法1：对给定的样品，,计算,若存在使得,成立，则判定。,如果认为这种判别法还不很好的区分各个,总体，还可以由的前个特征值,所对应的特征向量,判别原理,建立个线性判别函数,这样,就相当于把原来的个指标压缩成个指标，,再用这个指标，根据欧氏距离的大小来规定,的范围，即对维空间作划分,其中,当样品时，则判定。,判别原理,建立个线性判别函数,这样,就相当于把原来的个指标压缩成个指标，,再用这个指标，根据欧氏距离的大小来规定,的范围，即对维空间作划分,其中,当样品时，则判

36、定。,判别原理,Fisher判别步骤,所对应的特征向量,一、判别原理,Fisher判别案例,Fisher判别案例,1、Fisher两类线性判别,对于待判样本X，计算,假定所建立的判别函数为,判别方法2：对给定的样品，,计算,若存在使得,成立，则判定。,判别原理,Fisher判别2步骤,Fisher判别案例,Fisher判别案例,Fisher判别案例,多总体Fisher判别,Fisher判别案例,Fisher判别案例,Fisher判别案例,四、判别效果的检验,检验统计量,对于给定的检验水平,其否定域为,Fisher判别案例,现从各个正态总体中抽取的样本如下：,作均值检验：,容易证明：,定

37、义维尔克斯(Wilks)统计量,从各个总体协方差阵相同,记,定义维尔克斯(Wilks)统计量,对于给定的检验水平,其否定域为,Fisher判别案例,对于给定的检验水平,五、误判概率,五、误判概率,证法2设有G1和G2两个正态总体，x是一个P维样本,五、误判概率,五、误判概率,五、误判概率,五、误判概率例,五、误判概率例,六、判别准则的评价,六、判别准则的评价,六、判别准则的评价,六、判别准则的评价,六、判别准则的评价,第三节费歇尔（Fisher）判别,一、费歇尔的两总体最优判别准则要使两组判别分明，两组判别函数值差异要大，每组内的判别函数值差异要小。即,假设预测因子有P个指标：xi（i=1

38、，2，p），有n组观察值（其中第一组有s组观察值，第二组有t组观察值，s+t=n），根据这些数据可在最优的判别准则下确定判别函数y0=c1x1+c2x2+cpxp和判距判别：,六、判别准则的评价,SAS的Discriminant过程,Discriminant过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数，并把各观测量的自变量值代入到判别函数中，根据判别函数对观测量所属类别进行判别。对比原始数据的分类和按判别函数所判内分类，给出错分概率。 Discriminant过程的大部分功能都可以通过对话框来指定，还有一些功能可以在Syntax夜中给予补充或修改。例如，指定各类的先验概率；

39、显示旋转方式和结构矩阵；限制提取的判别函数的数目；读取一个相关矩阵；分析后把相关矩阵写入文件；指定对参与分析的观测量进行回代分类，对没有参与分析的观测量进行预测分类等。,2. DISCRIM过程的语句说明 SAS/STAT的DISCRIM过程可以进行参数判别分析和非参数判别分析，其一般格式如下 PROC DISCRIM DATA=输入数据集选; CLASS 分类变量; VAR 判别用自变量集合;RUN;,SAS的Discriminant过程,其中，PROC DISCRIM语句的选项中“输入数据集”为训练数据的数据集，包括一个分类变量（在CLASS语句中说明）和用来建立判别公式的自变量集合（在

40、VAR语句中说明）。可以用 “TESTDATA=数据集”选项指定一个检验数据集，检验数据集必须包含与训练数据集相同的自变量集合，用训练数据集产生判别规则后将对检验数据集中的每一个观测给出分类值，如果这个检验数据集中有表示真实分类的变量可以在过程中用“TESTCLASS 分类变量”语句指定，这样可以检验判别的效果如何。,SAS的Discriminant过程,用“OUTSTAT=数据集”指定输出判别函数的数据集，后面可以再次用DISCRIM过程把这样输出的判别函数作为输入数据集（DATA=）读入并用它来判别检验数据（TESTDATA=）。用“OUT=数据集”指定存放训练样本及后验概率、交叉确认分类

41、的数据集。用“OUTD=数据集”指定训练样本及组密度估计数据集。用“TESTOUT=数据集”指定检验数据的后验概率及分类结果。用“TESTOUTD=数据集”输出检验数据及组密度估计。,SAS的Discriminant过程,PROC DISCRIM语句还有一些指定判别分析方法的选项。用METHOD=NORMAL或NPAR选择参数方法或非参数方法。用POOL=NO或TEST或YES表示不用合并协方差阵、通过检验决定是否使用合并协方差阵、用合并协方差阵。如果使用非参数方法，需要指定“R=核估计半径”选项来规定核估计方法或者指定“K=最近邻个数”来规定最近邻估计方法。,SAS的Discriminant

42、过程,PROC DISCRIM语句有一些规定显示结果的选项。用LISTERR显示训练样本错判的观测。用CROSLISTERR显示用交叉核实方法对训练样本判别错判的观测。用LIST对每一观测显示结果。用NOCLASSIFY取消对训练样本的分类检验。用CROSSLIST显示对训练样本的交叉核实的判别结果。用CROSSVALIDATE要求进行交叉核实。,SAS的Discriminant过程,当有用“TESTDATA=”指定的检验数据集时用TESTLIST 选项显示检验数据集的检验结果，当有TESTCLASS语句时用TESTLISTERR可以列出检验样本判错的观测，用POSTERR选项可以打印基于分类

43、结果的分类准则的后验概率错误率估计。用NOPRINT 选项可以取消结果的显示。,SAS的Discriminant过程,在DISCRIM过程中还可以使用PRIORS语句指定先验概率,的取法。“PRIORS EQUAL”指定等先验概率。“PRIORS PROPORTIONAL”指定先验概率与各类个数成正比。“PRIORS 概率值表”可以直接指定各组的先验概率值。,SAS的Discriminant过程,用卫星遥感可以分辨作物的种类。CROPS是训练数据集，其中包含了作物的实际种类（CROP）和四种遥感指标变量（X1-X4）。数据集中还把各X1-X4变量值作为一个字符型变量读入来作为行标识。,data

44、 crops; title 五种作物遥感数据的判别分析; input crop $ 1-10 x1-x4 xvalues $ 11-21; cards; CORN 16 27 31 33 CORN 15 23 30 30 CORN 16 27 27 26 CORN 18 20 25 23 CORN 15 15 31 32 CORN 15 32 32 15 CORN 12 15 16 73,SAS的Discriminant过程例,SOYBEANS 20 23 23 25 SOYBEANS 24 24 25 32 SOYBEANS 21 25 23 24 SOYBEANS 27 45 2412S

45、OYBEANS 12 13 15 42 SOYBEANS 22 32 31 43 COTTON 31 32 33 34 COTTON 29 24 26 28 COTTON 34 32 28 45 COTTON 26 25 23 24 COTTON 53 48 75 26 COTTON 34 35 25 78 SUGARBEETS22 23 25 42 SUGARBEETS25 25 24 26 SUGARBEETS34 25 16 52 SUGARBEETS54 23 21 54 SUGARBEETS25 43 32 15 SUGARBEETS26 54 2 54 CLOVER 12 45 3

46、2 54 CLOVER 24 58 25 34 CLOVER 87 54 61 21 CLOVER 51 31 31 16 CLOVER 96 48 54 62 CLOVER 31 31 11 11 CLOVER 56 13 13 71 CLOVER 32 13 27 32 CLOVER 36 26 54 32 CLOVER 53 08 06 54 CLOVER 32 32 62 16 ; run;,SAS的Discriminant过程例,用下列DISCRIM过程可以产生线性判别函数（METHOD=NORMAL规定使用参数方法，POOL=YES 选项规定使用合并协方差阵，这样产生的判别函数是线

47、性函数）。用OUTSTAT=选项指定了判别函数的输出数据集为CROPSTAT，这个数据集可以用来判别检验数据集。选项LIST要求列出每个观测的结果，CROSSVALIDATE要求交叉核实。“PRIORS PROPORTIONAL”即按各种类出现的比例计算各类的先验概率，ID语句指定列出各观测时以什么变量值作为标识。,SAS的Discriminant过程,proc discrim data=crops outstat=cropstat method=normal pool=yes list crossvalidate; class crop; priors proportional; id xv

48、alues; var x1-x4; title2 使用线性判别函数; run;,SAS的Discriminant过程,结果如下（节略） Discriminant Analysis 36 Observations 35 DF Total 4 Variables 31 DF Within Classes 5 Classes 4 DF Between Classes 上面是一些基本情况。,SAS的Discriminant过程例,Class Level Information Prior Probability CROP Frequency Weight Proportion CLOVER 11 11.0000 0.305556 0.305556 CORN 7 7.0000 0.194444 0.194444 COTT

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第11讲判别分析.ppt

文档简介

温馨提示

最新文档

评论

第11讲 判别分析.ppt

文档简介

温馨提示

最新文档

评论

相关文档

第11讲判别分析.ppt