统计软件SAS讲义判别分析_第1页
统计软件SAS讲义判别分析_第2页
统计软件SAS讲义判别分析_第3页
统计软件SAS讲义判别分析_第4页
统计软件SAS讲义判别分析_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二节 贝叶斯判别分析方法第一节 距离判别分析方法第十章 判别分析Chap. Discrimination Analysis第三节 逐步判别分析方法第十五章 判别分析Chap. Discrimination Analysis 判别分析是一种应用样本的数值特征来将样本划入已 知的若干个类别中的某一类的统计分析方法。 与聚类分析不同之处是: 聚类分析之前,我们对“所研究的事例(或样品)应如 何分类”、“某一个事例(或样品)属于那一类”等问 题是并不知晓的; 但在进行判别分析之前,必须有足够数量的样品(或 事例),并对它们归属于那一类有相当正确的认识。 判别分析的作用在于将某个样品归到正确的类别。

2、做法是:根据先前的分类资料建立一个判别函数,将 欲判定的样品值代入判别函数,当判别函数值小于或 大于某个值时,就将该样品归到相应的类别。第一节 距离判别分析方法Distance Discrimination Analysis 距离判别分析的基本思路: 在 T 2测验中计算的统计量是:T 2 n ( 0)S1( 0) 其中为 样本平均数向量,0为已知总体的平均数 向量, S 是样本方差协方差矩阵, 它是总体方差协 方差矩阵的估计值。 如果样本的大小为n1,于是判定这个样本是否来自已知总体的判定标准便变成为: ( x 0 )S1( x 0) 推广到一个样品与一个类别A间,马氏距离平方为:(x A

3、) S1(x A ) 按照这种 思路发展出距 离判断方法。第一节 距离判别分析方法Distance Discrimination Analysis 设有k个已知的类别(记为G1,G2,Gk),各类的 平均数分别为 1, 2, , k,方差协方差矩阵为1,2, , k。欲将某个样品x归入到这 k 类中的一类, 其判别函数为马氏距离,判别准则为xGj,当d (x,Gj)Min d (x,Gi ) 其中Min是对 i 1,2,k 类的距离求极小值; d (x,Gi )(x )i1(x )1/2。计算时用 作 i 的估计值,用 Si 作i的估计值。第一节 距离判别分析方法Distance Discri

4、mination Analysis 距离判别法的计算步骤:第一步、计算出 k 个类别的方差协方差矩阵的逆阵。第二步、计算出各训练样本到这 k 个类别的马氏距离, 比较这 k 个距离,把训练样本归到距离最短的类中。第三步、计算第二步中的错判率。如果错判率太大, 说明要么原来的分类不可靠,因而用它的信息计算 出来的判别结果也不会可靠;要么是尽管原来的分 类是对的,但用距离判别得不到精确的结果。这样,在使用下一步骤的判别结果时要特别小心。第四步、如果还有新的待判样本,计算各个新样本到 这 k 个类别的马氏距离,比较 k 个距离,把各个新样 本归到距离最短的类中。第二节 贝叶斯判别分析方法Bayes

5、Discrimination Analysis 贝叶斯判别分析的基本思路: 设有k个已知的类别(记为G1,G2,Gk),它们具 有概率分布函数 f1(x),f2(x),fk(x)。又设某一样 品x(x1,x2,xm)属于各个类别的概率分别为q1, q2,qk。如果将某种划分方式记为 R R1,R2,Rk, 于是判别规则为: xGi,当x落在R i (i 1,2,k) 按照这种 思路发展出距 离判断方法。第二节 贝叶斯判别分析方法Bayes Discrimination Analysis 贝叶斯判别分析的基本思路: 如果已知将原应属于Gi的样品误判为属于Gj所造成 的损失为 C ( j | i

6、), 造成这种误判的可能性为概率 P(j | i, R), 则按这种划分方式把原应属于Gi的样品 误判为属于其它类别的平均损失为 ri (R ) 其中C (i | i) 0,即不误判时损失为0。 g (R ) (i, j1, 2, , k) 因为样品x来自Gi的先验概率为qi,所以通过这 种划分方式进行判别的总平均损失为 贝叶斯判别法的 目的是寻找一种划分 方式 R 使总的平均损 失g (R )达到最小。第二节 贝叶斯判别分析方法Bayes Discrimination Analysis 统计学已证明:如果总体服从正态分布,并且各类 别的方差协方差矩阵为12k时, 可以推导出对于样品x的判别函

7、数为 yijx1(i j)(i j)1(i j)/2 其中i,j1, 2, k 且 i j。计算时以合并的样本方 差协方差矩阵S(Q1Q2Qk)/(nk)作为总体 的估计;n n1n2nk为全部训练样本的数 目;Q1,Q2,Qk为各类的类内离均差平方和。 判别准则为: xGi,当yijlog(qj/qi) ( j1, 2, k 且 i j ) 即如果所有 i j 的 yij 都大于log(qj/qi)时,应将该样 本归入第 i 类。第二节 贝叶斯判别分析方法Bayes Discrimination Analysis 贝叶斯判别法的计算步骤:第一步、计算训练样本数据中各类的平均数向量;第二步、计

8、算训练样本数据中各类的离均差平方和矩 阵; 第三步、将各类的离均差平方和矩阵相加得合并的离 均差平方和矩阵,用合并的离均差平方和矩阵除以 合并自由度 (nk) 得到方差协方差矩阵,并求出方 差协方差矩阵的逆阵; 第四步、求判别函数表达式。将所有训练样本回代进 去,判别归类,进行检验;第五步、如果有待判数据,将其代入,并判别归类。第三节 逐步判别分析方法Stepwise Discrimination Analysis 与多元回归分析相似,在进行判别分析时,并不是 变量越多越好。有些变量对于类别的划分有重要的 意义,但有些变量却对判别分类起了干扰的作用, 把它们引进到分析中,反而使分类之后的类内差

9、异 增大。因此,仿照逐步回归分析的思路,也开发了 一种逐步判别分析方法。第三节 逐步判别分析方法Stepwise Discrimination Analysis 逐步判别分析的基本思路: 设有k个已知的类别(记为G1,G2,Gk),它们分 别服从平均向量为 1, 2, , k,方差协方差矩阵为 的m元正态分布。现在从它们中抽出大小分别为n1, n2, , nk 的样本。如果要使判别有意义,那么1, 2, , k之间应该有显著的差异。这可以通过单向分类 多元方差分析来进行测验。 按此思路,可以在m个变量中,先引进可以使分类 结果的类间差异最显著的变量。又以此变量为基础, 引进第二个可以使分类结果

10、的类间差异更显著的变 量。再看看已有的变量中,是否可以剔除某个变量, 使利用剩余的变量进行判别的分类结果的类间差异 更为显著。如果有,便将它剔除。然后再考虑是否 可以再引进,再剔除,再引进,直至不能再剔除, 也不能再引进为止。 使用最终选定的变量,建立判别函数(通常采用贝 叶斯判别法的判别函数),按判别函数值的大小来 对训练样本和新样本进行判别归类。第三节 逐步判别分析方法Stepwise Discrimination Analysis 对变量进行剔除和引进的方法 以前给出了单向分类的方差分析的Wilks 统计量 |Qe| |Qw| |QhQe| |Qt| 其中分子是类内离均差平方和矩阵的行列

11、式,分母 是总离均差平方和矩阵的行列式。 本章中,我们改称Qe为Qw(w表示类内 within group), 而将分母部分改称Qt (t表示总的 total)。 使设含 p 个变量时的 Wilks 统计量为p,增加一个变 量 (xr) 后的 Wilks 统计量为 p+1,可以很容易在未作 出判别结果之前算出这两个的比值。利用这个比值, 可以进行测验。第三节 逐步判别分析方法Stepwise Discrimination Analysis 在含p1个变量的模型中,类内离均差平方和矩阵: Qw 使其中虚线左上部分便是只含 p 个变量的模型中的 类内离均差平方和矩阵Q ,而整个矩阵则是含p1 个变

12、量的模型中的类内离均差平方和矩阵Q 。 统计学已经证明:|Q |Q | wrr 。第三节 逐步判别分析方法Stepwise Discrimination Analysis 在含p1个变量的模型中,总的离均差平方和矩阵: Q t 使其中虚线左上部分便是只含 p 个变量的模型中的 总的离均差平方和矩阵Q ,而整个矩阵则是含p1 个变量的模型中的总的离均差平方和矩阵Q 。 统计学也已证明:|Q |Q | trr 。第三节 逐步判别分析方法Stepwise Discrimination Analysis 因此,比值 p |Q |Q | |Q | Q | p+1 | Q | |Q | |Q |Q | |

13、Q |Q | trr trr |Q |Q | wrr wrr 记wrr/trr 为Vr,即有:p+1pVr或 Vr p+1/ p 可见 Vr 是在原模型的基础上加进变量 xr 之后,的 增长率。我们称 Vr 为部分值或偏 值。 用 F 测验可以检验增长是否显著。第三节 逐步判别分析方法Stepwise Discrimination Analysis 为了对偏值进行统计测验,应先指定一个考察能 否将一个新变量引进模型的F值(称引进F限)和一个 考察能否将一个变量从模型中剔除的F值(称剔除F 限)。然后计算统计量 F 当 F 值大于引进 F 限时即可将变量引进模型; 当 F 值小于剔除 F 限时即

14、可将变量从模型剔除。 F 值的df1k 1,df2n pk。第三节 逐步判别分析方法Stepwise Discrimination Analysis 经刚才的 F 测验仅仅表明某个变量是否可以引进或 删除,但引进或删除后得到的新模型是否能使类间 差异显著地大于类内差异呢?还需进行测验。如果 差异显著,说明分类有效;否则,用该模型分类无 效。 “模型是否有效”可以用单向分类资料的多元方差分 析( F 测验)或 Bartlett 卡方测验进行检验。 F 测验:先利用关系p+1pVr算出新模型的, 计算转换的 F 值、df1、df2,将算得的F 值进行检验。 2测验:算出 2 n1(p+k)/2 l

15、n ,将它 与dfp( k1) 的 2 值比较。第三节 逐步判别分析方法Stepwise Discrimination Analysis 经过一次剔选后,模型中的变量不同了,因而离均 差平方和矩阵也改变了。如果记原来的矩阵为Qw和 阵Qt,经一步转换后的矩阵为 Qw 和Qt,那么,两 步中矩阵元素的转换公式为: 对于tij也有相应的关系。wij 当 ir,jr时当 ir,jr时当 ir,jr时当 ir,jr时 又以这两个矩阵为基础,进行下一步的剔选。 这样一步一步做下去,直到既没有变量可以剔除, 也没有变量可以引进为止。第三节 逐步判别分析方法Stepwise Discrimination Analysis 用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论