判别分析2008_第1页
判别分析2008_第2页
判别分析2008_第3页
判别分析2008_第4页
判别分析2008_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四节第四节 判别分析判别分析(Discriminant Analysis )一、判别分析概述1. 1. 判别分析的概念判别分析的概念 判别分析是判别样品所属类型的一种统计方法,是在已判别分析是判别样品所属类型的一种统计方法,是在已知研究对象分成若干类型知研究对象分成若干类型( (或组别或组别) )并已取得各种类型的一批并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。然后对未知类型的样品进行判别分类。 判别分析应用非常广泛:判别分析应用非常广泛: 在生产、科研和日常生活中经常需要

2、根据观测到的在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;标来判定一个国家的经济发展程度所属类型; 在市场预测中,根据以往调查所得的各种指标,判别在市场预测中,根据以往调查所得的各种指标,判别下季度产品是畅销、平常或滞销;下季度产品是畅销、平常或滞销; 在医疗诊断中,根据某人多种体检指标在医疗诊断中,根据某人多种体检指标( (如体温、血如体温、血压、白

3、血球等压、白血球等) )来判别此人是有病还是无病。来判别此人是有病还是无病。2 2判别分析与聚类分析判别分析与聚类分析判别分析兼有判别与分类的两种性质,但以判别为主。判别分析兼有判别与分类的两种性质,但以判别为主。判别分析判别分析与聚类分析不同之点在于:判别分析必须判别分析判别分析与聚类分析不同之点在于:判别分析必须事先己知分几类为前提;聚类分析则不必事先确定类型,而事先己知分几类为前提;聚类分析则不必事先确定类型,而类型的形成是聚类分析的结果。正因为如此,判别分析和聚类型的形成是聚类分析的结果。正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类类分析往往联合起来使用

4、,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。析建立判别式以对新样品进行判别。 3. 3. 地理研究中判别分析的作用地理研究中判别分析的作用对已分好的类型进行合理性检验;对已分好的类型进行合理性检验;判别某地地理类型的归属问题和确定区域界线判别某地地理类型的归属问题和确定区域界线( (两类判别可两类判别可以用于划分地理区的界线,这时,把界线两边视为不同的类以用于划分地理区的

5、界线,这时,把界线两边视为不同的类型;型;评价各要素特征值在判别分析中贡献率的大小。评价各要素特征值在判别分析中贡献率的大小。4. 4. 判别分析的类型判别分析的类型判别分析按判别的级数来区分,有两组判别分析和多组判别分判别分析按判别的级数来区分,有两组判别分析和多组判别分析;析;按区分不同总体的所用的数学模型来分,有线性判别和非线性按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,判别分析可以从不同角度提出问题,因此

6、有不同的判别准则,如马式距离最小准则、如马式距离最小准则、FisherFisher准则、平均损失最小准则、最小准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,平方准则、最大似然准则、最大概率准则等等,仅学习仅学习FisherFisher两类判别。两类判别。二、判别分析的基本原理二、判别分析的基本原理 1 1判别分析的基本准则判别分析的基本准则费歇费歇FisherFisher准则准则 贝叶斯贝叶斯BayesBayes准则准则 应用费歇准则进行判别分析时,要对原始地理数据经应用费歇准则进行判别分析时,要对原始地理数据经定方定方式进行线性组合,使其形成一个新变量,即判别函数:要

7、使式进行线性组合,使其形成一个新变量,即判别函数:要使判别函数值能充分地区分开地理类型,就需要使各类均值之判别函数值能充分地区分开地理类型,就需要使各类均值之间的差别最大间的差别最大( (即使不同类之间的差别最大即使不同类之间的差别最大) ),而使各类内部,而使各类内部的离差平方和为最小的离差平方和为最小( (即使同类间的差别最小即使同类间的差别最小) )换句话说,即换句话说,即要求类间要求类间( (或组间或组间) )均值差与类内均值差与类内( (或组内或组内) )方差之比最大方差之比最大,这,这样就能把地理类型区分得最清楚。样就能把地理类型区分得最清楚。贝叶斯准则是另一种思路的判别标准,而在

8、数学上也是使用贝叶斯准则是另一种思路的判别标准,而在数学上也是使用了另一种原理和计算过程。当应用贝叶斯准则进行判别分析了另一种原理和计算过程。当应用贝叶斯准则进行判别分析时要求把已知的地理数据分成几类时要求把已知的地理数据分成几类( (或几组或几组) )然后计算出然后计算出未知地理类型或区域归属于某一已知类型未知地理类型或区域归属于某一已知类型( (或组或组) )的概率值,的概率值,它归属于哪一类的概率值最大,就把它划归该类它归属于哪一类的概率值最大,就把它划归该类( (或组或组) );另;另外,还可计算出划归各已知类的错分损失,即错分哪一类的外,还可计算出划归各已知类的错分损失,即错分哪一类

9、的平均损失为最小,就把它判定为该类。平均损失为最小,就把它判定为该类。2 2两类费歇两类费歇(Fisher)(Fisher)判别分判别分析的基本原理析的基本原理1 1)判别分析的三个假设条件)判别分析的三个假设条件每一个判别变量不能是其他判别变量的线性组合。每一个判别变量不能是其他判别变量的线性组合。 各组协方差矩阵相等。各组协方差矩阵相等。 各判别变量之间具有多元正态分布即每个变量对于所有各判别变量之间具有多元正态分布即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。算显著性检验值和分组归属的

10、概率。 2 2)基本思想)基本思想 从两个总体中抽取具有从两个总体中抽取具有A A个指标的样品观测数据,借助个指标的样品观测数据,借助方差分析的思想构造一个判别函数或称判别式:,其中系数方差分析的思想构造一个判别函数或称判别式:,其中系数c1c1、c2c2、cpcp确定的原则是使两组间的区别最大、而使每确定的原则是使两组间的区别最大、而使每个组内部的离差最小有了判别式后,对于一个新的样品,个组内部的离差最小有了判别式后,对于一个新的样品,将它的将它的p p个指标值代入判别式中求出个指标值代入判别式中求出y y值、然后与判别临界值值、然后与判别临界值( (或称分界点后面给出或称分界点后面给出)

11、)进行比较,就可以判别它应属于哪一进行比较,就可以判别它应属于哪一个总体。个总体。 3)3)判别函数的导出判别函数的导出假设有两个总体假设有两个总体G1G1、G2G2、从第一个总体中抽取、从第一个总体中抽取n1n1个样品,从个样品,从第二个总体中抽取第二个总体中抽取n2n2个样品,每个样品观测个样品,每个样品观测p p个指标。个指标。假设新建立的判别式为 现将属于不同两总体的样品观测值代入判别式中,则得到对上边两式分别左右相加,再除以相应的样品个数 第一组样品的重心 第二组样品的重心2)2(ipp)2(i22)2(i11(2)i1)1(ipp)1(i22)1(i11(1)in,.2, 1ixc

12、.xcxcRn,.2, 1ixc.xcxcRP1k(2)kk)2(P1k(1)kk)1(xcRxcRpp2211xc.xcxcR 为了使判别函数能够很好地区别来自不同总体的样为了使判别函数能够很好地区别来自不同总体的样 品,自然希望:品,自然希望:第一,来自不同总体的两个平均值第一,来自不同总体的两个平均值 相差愈大愈好;相差愈大愈好;第二,对于来自第一个总体的第二,对于来自第一个总体的 要求它们的离差要求它们的离差平方和平方和 越小愈好同样也要求愈小愈好。越小愈好同样也要求愈小愈好。)2()1(RR1n1i2)(1)1 (i)RR(2n1i2)2()2(i)RR( 越大越好 12n1in1i

13、2)2()2(i2)1()1(i2)2()1()RR()RR()RR(I利用微积分求极值的必要条件可求出使 I 达到最大值的c1,c2,cp)2(p)1(pPpP2p21p1)2(2)1(22P2P222121)2(1)1(11P1P212111xxdpCLCLCLxxdCLCLCLxxdCLCLCL)x-x( )x-(x)x-x( )x-(xL(2)l(2)iln1i(2)k(2)ik(1)l(1)iln1i(1)k(1)ikkl21求出c1,c2,cp 后,进而算出有了判别函数之后,欲建立判别准则还要确定判别临界值(分界点)在两总体先验概率相等的假设下,一般常取加权平均值即:p1i(2)k

14、k)2(p1i(1)kk)1 (xcR,xcR 21)2(2)1(10nnRnRnR 如果R(1)R(2)因此,判别准则为当R大于R(0),则属于第一类;当R小于R(0),则属于第二类。 这是一种统计推断方法。任何统计推断都不可能保证完全正这是一种统计推断方法。任何统计推断都不可能保证完全正确,只能少犯错误。确,只能少犯错误。 如果把本来属于第一类的样品判成属于第二类,则称为第一如果把本来属于第一类的样品判成属于第二类,则称为第一类错误;反之,如果把本来不属于第一类的样品判成属于第类错误;反之,如果把本来不属于第一类的样品判成属于第一类,则称为第二类错误。一类,则称为第二类错误。 比如,比如,

15、G1G1和和G2G2两总体的频率分布曲线,判别临界值为两总体的频率分布曲线,判别临界值为R0R0,则犯第一类错误的概率为则犯第一类错误的概率为R0R0右边曲线下面的面积右边曲线下面的面积;犯第二;犯第二类错误的概率为类错误的概率为R0R0左边曲线下面的面积左边曲线下面的面积。当。当R0R0变动时,变动时,都随之变动。这说明两类错误是互相关联的,在实际工都随之变动。这说明两类错误是互相关联的,在实际工作中,我们应该考虑犯哪类错误的危害性大,来取作中,我们应该考虑犯哪类错误的危害性大,来取R0 R0 。 三、两类判别分析应用举例三、两类判别分析应用举例今从今从19951995年年世界各国人世界各国

16、人文发展指数文发展指数的排序中,的排序中,选取高发展选取高发展水平、中等水平、中等发展水平的发展水平的国家各五个国家各五个作为两组样作为两组样品,另选四品,另选四个国家作为个国家作为待判样品作待判样品作距离判别分距离判别分析。析。1. 1. 求出判别函数求出判别函数2.2.计算判别临界值和判别准则计算判别临界值和判别准则 两类判别函数均值和判别指标(临界值)两类判别函数均值和判别指标(临界值) R R(1 1)=12.1653 ;R=12.1653 ;R(2 2)=9.6291;=9.6291; R R(0 0)=10.8972 ;=10.8972 ; 因为因为R R(1 1)RR(2 2)因此,判别准则为当)因此,判别准则为当R R大于大于R R(0 0),则属于第一类;当),则属于第一类;当R R小于小于R R(0 0),则属于第),则属于第二类。二类。001092x3. 0001664x2. 0081341x1. 0R3对已知类别的样品判别归类对已知类别的样品判别归类上述回判结果表明:总的回代判对率为100% 。 4对判别效果作检验对判别效果作检验计算综合距离函数 其次,再利用公式计算F值=12.68 F0.05(3,5+5-3-1)=4.76221212121D*p1pnn)2nn)(nn(nnFp1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论