版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第六章判别分析第六章判别分析杨永国中国矿业大学资源与地球科学学院内容提要第一节 判别分析概述第二节 费歇准则下的两类线性判别模型第四节 逐步判别分析第五节 判别分析在地质上的应用第一节 判别分析概述主要内容: 一、判别分析的概念 二、判别函数 三、判别分析的类型 四、建立判别函数的准则一、判别分析的概念 在自然界中,经常遇到对研究对象进行分类的问题。分类包括两个方面的内容:其一,是研究对象存在着几种类型,即能分为多少类;其二,在研究对象类型数目已知的情况下,某一研究个体应该属于哪一类。后者,属于判别分析研究的范畴。 地质学中遇到的分类问题很多。例如,根据岩矿鉴定,分辨某一砂岩属于海相砂岩或陆
2、相砂岩;在油田开发中,根据钻井的点测或化验数据,判别是否遇到油层、水层或干层;在地球化学中,根据岩体的化验数据,分辨岩体是否是含矿岩体;在煤田勘探中,根据煤层煤质的数据,判别某一勘探区的某一煤层,属于相近勘探区同一煤系诸煤层的哪一层等。 一、判别分析的概念判别分析主要解决两个问题:1)根据什么指标来判别(分辨)已知的类型,即建立判别函数;2)对于可能来自已知类型的某些未知样品,如何判定它们归属已知类型中的哪一类。 判别分析就是借助于已知类型的若干变量,建立起一个或多个判别函数,从而决定未知对象归属问题的一种多元统计方法。二、判别函数 若有两类物体,在统计学上称为总体(或母体)。它们的分布状态均
3、可以利用p个变量,在p维空间中用两个椭球状点集表示出来。 设有A、B两个总体,从中抽取两组样品,每个样品有两个变量,现以变量为轴,将A、B两组样品在二维空间中表示出来(图6-1)。二、判别函数图6-1两个二元总体间的差别函数二、判别函数 由图可以看出,两类总体以任何一个变量为基础都不能将其明显地区分开。两类同一变量之间,总有些重叠部分。 如果能设法利用两个或多个变量的线性组合构成一个合适的综合判别指标,并使其能最大限度地缩小不易判别的重叠部分,从而提高正确判别的概率,则称变量的线性组合这个综合指标 为判别函数(图6-1中直线) pjjjppxcxcxcxcy12211二、判别函数二维空间中,在
4、两点集之间垂直于y轴且把两个点集分开的直线(图6-1中直线)称为判别直线。其直线方程为在多维情况下,判别直线将是一个平面(p=3)或(p-1)维超平面(p3),其方程如下:由此看出,判别分析的特点是能够大大缩减向量的维数,而不致损失很多信息。002211yxcxc002211yxcxcxcpp三、判别分析的类型1)根据母体(总体)个数 可分为两类(两组)判别分析和多类(多组)判别分析。 2)根据判别函数类型 可分为线性判别和非线性判别分析。 3)按判别方法 可分为判别分析、逐步判别和序贯判别分析等 四、建立判别函数的准则判别函数是在一定的规则下建立起来的。因此,判别函数的建立,就须依照一定的准
5、则。最常用的有以下准则: 1)费歇准则(主要适用于二类判别); 2)贝叶斯准则(适用于多类判别); 3)最小二乘法准则; 4)库巴克准则; 5)不稳定性准则等。第二节 费歇准则下的两类线性判别模型主要内容:一、费歇准则的基本含义二、两类线性判别函数的建立三、分界值计算和判别法则四判别函数的显著性检验及判别率五变量的选择六、两类判别应用举例与小结一、费歇准则的基本含义一、费歇准则的基本含义假定判别函数已经建立,显然每个样品的p个变量值代入式(6-4)中就可求得一个y值,则此值称为样品的判别计量(或判别值)。 n个样品有n个判别值,记为,1pjAijjAixcypjBijjBixcy1一、费歇准则
6、的基本含义每类样品判别值的平均值,称为类平均值,记为 pjAjjnipjAijjAniAiAAxcxcnynyAA111111BBnipjBjjpjBijjBniBiBBxcxcnyny111111一、费歇准则的基本含义如果A、B两母体客观上存在着差别,则它们的类平均值 与 也会有一定的差别。使两个母体分开的综合指标值(y0),称为两母体的分界线,或称临界值(图6-2)。图6-2判别计量分布图一、费歇准则的基本含义显然,判别分析要求找到的判别函数y=f(x1,x2,xp)使两类(组)间差别愈大愈好,即并使两类组内离差平方和(或组内变差)愈小愈好,即max|2BAyyGmin)()(1212BA
7、niBBiniAAiyyyyH一、费歇准则的基本含义将上述两个条件结合起来,要求建立判别函数 时,遵循使I值最大的原则是由费歇(1936)最早提出的,故称其为费歇准则。有时称费歇准则为“最大分离”准则。max)()()(12122BAniBBiniAAiBAyyyyyyHGIpjjjxcy1(6-10)二、两类线性判别函数的建立根据多元函数求极值的方法,诸 应满足下列方程组BAniBBiniAAiBApyyyyyyHGcccI1212221)()()(),(,jc01cI02cI03cI-(6-11) 二、两类线性判别函数的建立从式(6-11)中解出 的数值,判别函数即建立。pccc,,21二
8、、两类线性判别函数的建立二、两类线性判别函数的建立二、两类线性判别函数的建立 ABABBAbAniniBjBijBpBipAjAijApAippniniBjBijBBiAjAijAAiniBjBijBpBippBBiBBiniAjAijApAippAAiAAinipjbjbijbjbijjnipjAjAijAjAijjjxxxxxxxxcxxxxxxxxcxxxxcxxcxxcxxxxcxxcxxcxxxxcxxxxccH11111111112221111222111112112 )()(2 )()(2)()()(2)()()(2)()( 2)()( 2二、两类线性判别函数的建立令为第j个变量
9、的组内方差;令: 为第j、k个变量的组内协方差(j,k=1,2,p),则2)()(1212BAniBjBijniAjAijjjnnxxxxsBA2)()(11BAniBkBikBjBijniAkAikAjAijjknnxxxxxxxxsBA)(22211jppjjjscscsccH二、两类线性判别函数的建立二、两类线性判别函数的建立以上是一个P阶线性方程组。式中,b为常数,它是不依赖于j而变化的因子,对线性方程组只起到共同扩大b倍的作用,不影响方程组解的相对比例关系,因而对判别效果没有影响。故可令b=1,于是得到为所求的线性方程组。解上式,可得到线性判别函数:pjdscscscjjppjj,
10、2 , 12211ppxcxcxcy2211三、分界值计算和判别法则当判别函数求出后,可进一步求得类平均值 、 和分界值 式中, 、 分别为A类和B类中第j个变量的平均值(j=1,2,p)。分界值 的求法可分以下几种情况:AyBy0ypjAjjniAiAAxcynyA111pjBjjniBiBBxcynyB111AjxBjx0y三、分界值计算和判别法则1)当母体为正态母体,且 (标准差)已知时,则 (6-19)2)当样品个数 ,且 时,则 (6-20)3)当样品个数 差别较大,且 时,则 (6-21)由式(6-21)进一步导出BA、BAAABAyyyy)(0BAnn BA)(210BAyyyB
11、Ann 与BABABBAAnnynyny0pjjjxcy10三、分界值计算和判别法则式中, 为两个母体中第j个变量的总平均值。由式(6-19)、式(6-20)、式(6-21)等可以看出,当样本确定之后,y0为一固定值。因此,判别未知样品 可按以下法则进行:若未知样品代入判别函数得判别值y,且 ,当yy0时,则该样品属于B类;当y=y0时,未知样品可任意归属A或B类。 上述法则,可用样本空间的概念理解。 jx),(21pxxxX,AyBy四判别函数的显著性检验及判别率 根据p个变量所构成的判别函数,其判别是否有效?如果判别是有效的,其判别结果好坏程度如何?第一个问题是要解决判别函数对区分两个母体
12、是否显著;第二个问题则是以正确判别率来衡量判别好坏的程度。 四判别函数的显著性检验及判别率1.判别函数的显著性检验判别函数的显著性检验,可采用F-检验法和马氏距离检验法(即马哈拉诺比斯距离检验法)。1)F-检验 判别分析的前提是假设两组样品取自不同的母体。两个母体差异性是否显著,可从类平均值差异情况进行考查。在类平均值相等条件下,即检验假设 成立时,统计量 (6-26)服从F-分布。式中:BAyyH:0剩剩回回fSfSF 四判别函数的显著性检验及判别率221212)()()()(yynyynyyyySBBAAniBniABA回112回fBAniBBiniAAiyyyyS1212)()(剩2BA
13、nnf剩四判别函数的显著性检验及判别率2)马氏距离检验 检验两个母体间差异性是否显著,还可通过检验母体中诸变量的类平均之差是否足够大,即两类多元平均值在统计上是否存在显著差异。这种显著性检验,一般采用马氏距离( )为基础构成的统计量 (6-27)来进行。式中,马氏距离为 (6-28)), 2 , 1(pjxxdBjAjj2D2)2)()1(DpnnnnpnnnnFBABABABApjjjppdcdcdcdcD122112四判别函数的显著性检验及判别率四判别函数的显著性检验及判别率正确判别率判别函数经过检验为有效之后,再用已知样品的变量数据代入判别函数,求出每个已知样品的判别值,重新判别它的归类
14、。根据正确判别率(或错判率),来衡量判别效果的好坏程度。 正确判别率是指属于A类的样品,根据判别值仍判别为A类母体的样品所占的百分比。 五变量的选择 在判别分析中,如果选取变量太少,会由于信息量不足而导致判别效果较差;但选取变量太多,还会由于变量之间的相互干扰而降低判别效果。为了获得最佳判别函数,应设法在不影响判别效果前提下,挑选那些分辨母体能力较强的变量参加建立判别函数。五变量的选择五变量的选择五变量的选择应当指出,上述两种选择变量的方法,只考虑变量的独立影响。当变量不独立时,将用逐步判别分析方法来挑选变量。六、两类判别应用举例与小结福建省某煤田晚二叠世含煤建造一段和三段含可采煤层,为了进行
15、煤层对比,选用两类判别模型进行判别分析(据张守业,1981)。现通过典型实例,对两类判别分析工作方法与步骤小结如下:1资料收集根据研究目的,把三段和一段中煤层作为已知类型,并从三段煤层(A类)中取了13个煤样;从一段煤层(B类)中取了16个煤样;每个煤样测定灰分及灰成分共9个指标(变量)。即nA=13,nB=16,p=9。每一个样本数据xAij和xBij见表6-1。六、两类判别应用举例与小结六、两类判别应用举例与小结2挑选变量1)计算各变量类内平均值和类内离差平方和 由公式计算得表6-2结果。AniAijAAjnnx11BniBijBBjnnx11), 9, 2 , 1(j), 9, 2 ,
16、1()()(1221jxnxnwBAniBjBijniAjAijjj六、两类判别应用举例与小结六、两类判别应用举例与小结2)计算各变量的I值 由公式计算,得)9, 2 , 1()()()(12212,jxnxnxxIBAniBjBijniAjAijBjAjJ六、两类判别应用举例与小结3)选取变量 选取Ij=0.01的变量,即I1I5所代表的五个变量,参加建立判别函数,其余四个变量I值之和为0.0068,仅占总I值的0.68%,故可忽略不记。以后按选出的五个变量建立判别函数。3建立判别函数 1)计算选取的变量组内方差与协方差 由公式)2( )()(11BAniBkBikBjBijAkAikniA
17、jAijjknnxxxxxxxxsBA), 5, 2 , 1,(kj六、两类判别应用举例与小结计算得方差与协方差矩阵S,为六、两类判别应用举例与小结六、两类判别应用举例与小结4. 判别函数显著性检验1) 计算马氏距离 由公式 计算,得计算统计量 将D2值代入下式求出F值。给定=0.05,查F-分布表得临界值F0.05(5,23) =2.64。由于 F=22.34892.64=F0.05(5,23) 故认为判别函数用以分辨母体是显著的。pjjjdCD122893.187141. 05390. 16818. 15319. 02206. 08293. 52288. 04145. 41279.1339
18、86. 12D3489.22)2)()1(2DnnnndpnnnnFBABABABA六、两类判别应用举例与小结5判别归类1)计算类平均值和分界值, 类平均值和分界值分别由下式 计算,得 由于 y0,故判别值yy0的样品应归于A类,即 为第三个含煤段煤,否则,应为第一含煤段煤层。pjAjjAxcy1pjBjjBxcy1BABBAAnnynyny03540.19,1554.11,4446.290yyyBAAy六、两类判别应用举例与小结2)对已知样品进行判别验证,将已知29个样品的相应变量值代入判别函数,得判别值及判别归类,见表6-3。六、两类判别应用举例与小结3)对未知样品判别分类 有四个待判样品
19、,它们的原始变量数据、判别值、及判别归类列于表6-4中。 第四节 逐步判别分析主要内容:一、逐步判别分析的基本思想二、变量的判别能力及变量取舍的标准三、紧凑法求行列式值、逆矩阵和筛选变量四、逐步判别分析的计算步骤一、逐步判别分析的基本思想 在判别分析中,若表征母体的变量很多,且每个变量对母体的分辨能力不同,如果这些变量都拿来参加建立判别函数,不但计算工作量大,而且还可能由于变量的不独立性而会影响判别效果。因此,在建立判别函数之前,挑选那些对分辨母体能力较强的变量参加建立判别函数就显得十分必要。逐步判别是完成这一工作的最好方法。 一、逐步判别分析的基本思想 逐步判别分析和逐步回归的基本思想相似。
20、它们都是根据每一个变量在各类(组)判别式中所起的判别作用的重要性不同来挑选判别效果最好的变量(即分辨母体能力最强的变量)进入判别式,同时从判别式中剔除那些由于新变量的引入而失去判别作用的变量,使最后的判别式中,只保留对母体判别能力较强的变量。一、逐步判别分析的基本思想逐步判别分析的作法是:(1)首先从一个变量开始,比较各个变量的判别能力,把其中分辨母体能力最强的一个变量挑选出来,并检验其对母体分辨能力是否显著。如果显著,就将其引入判别函数。(2)再把未选入的每一个变量同已选入的变量结合在一起,比较每两个变量结合之后分辨母体的能力,从中选择分辨能力最大的变量,并检验其对母体分辨能力是否显著。如果
21、显著,再把这个变量选入判别式。一、逐步判别分析的基本思想(3)当第二个变量选入之后,考察第一次引入的哪个变量是否由于新变量的引入而判别能力下降。因此,需要检验第一个变量在第二个变量存在时的判别能力是否显著。如果不显著,则将其从判别式中剔除;否则,再考虑引进另一个变量。再把尚未选中的每一个变量与已选中的两个变量组合,计算每一个组合分辨母体的能力,并从其中选择一个分辨能力最大者,检验其对母体的判别能力是否显著,如果显著,再把这个变量引入判别式,如此反复进行,直至既没有变量再引入,又没有变量剔除为止。最后,利用选入的变量建立判别函数。一、逐步判别分析的基本思想 这种通过逐步计算变量的判别能力,并逐步
22、进行显著性检验,自动选择变量,最后获得最优判别函数的方法,称为逐步判别分析。其判别模型,仍是在贝叶斯准则下的多类线性判别模型。唯不同者,是引进了选择变量的技巧。二、变量的判别能力及变量取舍的标准1、变量的综合判别能力在讨论判别效果检验时,曾用威尔克斯(Wilks)统计量检验多个变量结合在一起对G个母体的分辨能力是否显著的问题。其中,U反映了多个变量的综合判别能力。假设收集了G类样品,第g类有ng个样品,当只有一个变量(x)时,其组内离差平方和矩阵和总离差平方和矩阵为一阶矩阵,只有一个元素,即|TWU GgniggigxxW112111)(二、变量的判别能力及变量取舍的标准GgnigigxxtT
23、112111)(|111TWU表示变量x的判别能力。二、变量的判别能力及变量取舍的标准当有两个变量(如x1,x2)时,其组内变差矩阵和总变差矩阵为二阶矩阵,即222112112W22222112112ttttTGgnigjgijgkgikkjgxxxx11)(GgniggigxxW112111)(k,j=1,2) 二、变量的判别能力及变量取舍的标准 反映了两个变量x1,x2组合在一起分辨母体的能力。 即U1,2值越小,则x1,x2的判别能力越强。 当有L个变量(如)时,其组内变差矩阵与总变矩阵为L阶矩阵,即|222, 1TWULLLLLLLLLW212222111211二、变量的判别能力及变量
24、取舍的标准LLLLLLLLLtttttttttT212222111211),2 , 1,()()(1111LjkxxxxtxxxxGgnijgijkgikkjGgnigjgijgkgikkjgg其中二、变量的判别能力及变量取舍的标准则反映出L个变量组合在一起分辨母体的能力。同样,U1,2,L值越小,其判别能力越强 |, 2, 1LLTWLU二、变量的判别能力及变量取舍的标准2、未选变量的判别能力及引进变量的标准1)未选变量的判别能力 假设变量 已经给定,然后再添加一个新变量 ,现讨论变量 的判别能力。 把(L+1)个变量分为两组;第一组是前L个已给定的变量;第二组仅有 ,那么L+1个变量的组内
25、变差矩阵为Lxxx,21)(Lrxrrxrx)1)(1()1(1)1(1)1(1)1(1)1(2)1(1)1(212222111211LLLLLLLLLLLLLLLLLW二、变量的判别能力及变量取舍的标准则:其中,W11是前L个变量的组内离差矩阵,为rrLWWWWW2112111LLLLLLLLW21222211121111二、变量的判别能力及变量取舍的标准二、变量的判别能力及变量取舍的标准二、变量的判别能力及变量取舍的标准2)引进变量的标准 假设已经计算了l步,并引入了某L个变量(包括:l=0;L=0),尚有 个变量尚未引入,现要确立第L+1步及再引入一个新变量 的标准。在给定 的条件下,每
26、一个未选入的变量 的判别能力均可由 给出。 mLLLxxx,21), 2, 1(mLLLrxrLxxx,21rx|)()()( |lrrlrrLrtU), 2, 1(mLLLr(6-82)二、变量的判别能力及变量取舍的标准其中,必有一个最小者,为说明变量的判别能力最强。用与 等价的F近似式进行显著性检验。当计算值 时,则认为 的判别能力显著,应该将它引入判别函数。式 (6-83)中统计量F,有时称为“引入F”,用它作 为引入变量的标准。 mLrLLrLrUU1)( |*)( |min*)( | LrU11*)( |*)( |), 1(GLGnUUFLrLrLGnG(6-83), 1(LGnGF
27、F*rx二、变量的判别能力及变量取舍的标准3、已选变量的判别能力及剔除变量的标准1)已选变量的判别能力 在逐步引入变量时,已经引入变量的判别能力可能会由于后来引入一个新的变量而下降。因此,每引入一个新变量之后,须对已经引入的其它变量的判别能力重新估价,对某个由于新变量引入而判别能力下降且判别效果不显著的变量 则应剔除到判别函数之外。二、变量的判别能力及变量取舍的标准假设已经计算了l步,并引入了包括在内的L个变量,现要确定第l+1步剔除变量 的标准。为了方便,假设xr是第l步引入的,即前l-1步引入了不包括在内的L-1个变量。因此,该问题就转化为在给定前L-1个变量的条件下,检验第l步引入的变量
28、xr的判别能力。由式(6-82)可知 (6-84)对于任意的r(r=1,2,L), 就表示已选入的变量xr的判别能力,显然, 值愈大,xr的判别能力 愈弱。)1()1()1( |lrrlrrLrtU)1( |LrU)1( |LrU二、变量的判别能力及变量取舍的标准2)剔除变量的标准 若对第l步引入的L个变量,计算其判别能力 (1rL)。其中,必有一个说明变量 判别能力最弱,运用与其等价的F统计量 (6-85)1( |LrUmax)1( |1*)1( |LrLrLrUU*rx1) 1(1*)1( |*)1( |)1(, 1(GLGnUUFLrLrLGnG二、变量的判别能力及变量取舍的标准 由上述
29、看出,在挑选变量过程中,每一步都要计算许多行列式的值;当无变量剔除又无新变量再引入时,根据最终选入判别式的变量建立判别函数时,还须计算协方差矩阵(S)的逆矩阵(S-1)。如果用一般方法,计算工作量很大。为了逐步求得行列式值及逆矩阵,可用紧凑方法。三、紧凑法求行列式值、逆矩阵和筛选变量 在线性代数中学过,行列式的值可用行初等变换求得;当一个矩阵有逆时,可将此矩阵右乘一个同阶单位矩阵,然后通过一系列行变换,使矩阵变为单位矩阵,原来单位矩阵位置上的变换矩阵就是该矩阵的逆矩阵。求行列式值与求逆矩阵的变换过程相同,将二者结合起来,称为“消去求行列式值和求逆”并行的紧凑法。由于方差与协方差矩阵S为 (W为
30、组内离差矩阵)(6-86) 则 (6-87) 因此在计算过程中,只须求出组内离差矩阵W 的逆矩阵。GnWS11)(WGnS三、紧凑法求行列式值、逆矩阵和筛选变量为方便,设变量个数p=3,即对三阶矩阵W、T消去求逆和其行列式值。如100010001333231232221131211wwwwwwwwwWE 三、紧凑法求行列式值、逆矩阵和筛选变量假设第一步消去第一列 把w11提到行列式外,然后行- w21 ;行- w31 得 简记为10001000111131111331331112313211211113212311122122111113111211wwwwwwwwwwwwwwwwwwwwww
31、wwww100010001)1(31)1(33)1(32)1(21)1(23)1(22)1(11)1(13)1(1211wwwwwwwwww三、紧凑法求行列式值、逆矩阵和筛选变量三、紧凑法求行列式值、逆矩阵和筛选变量三、紧凑法求行列式值、逆矩阵和筛选变量三、紧凑法求行列式值、逆矩阵和筛选变量为变量 彻底组内离差矩阵 的逆矩阵 )1()1(2)1(1)1(2)1(22)1(21)1(1)1(12)1(1111lrrlrlrlrlllrllLwwwwwwwwwWrlxxxx,21rrW三、紧凑法求行列式值、逆矩阵和筛选变量 2、筛选变量三、紧凑法求行列式值、逆矩阵和筛选变量三、紧凑法求行列式值、逆
32、矩阵和筛选变量2)剔除变量 由于已经引入判别式的变量,可能随着其后另一些变量的引入而失去原来的重要性,因而每当引入一个变量后,应考虑是否会从判别式中剔除某个变量。可以证明对W、T矩阵中第r列施加两次消去运算后,W、T矩阵中的元素和不消去第r列时的元素一样。为证明这一点,假设在进行了第l步消去运算之后,矩阵W中的元素为 ;在第l+1步消去第r列之后,矩阵W中的元素为 ;若在第l+2步,再对第r列进行一次消去运算,则第l+2步之后矩阵W中的元素 。)(lkjw)1( lkjw)()2(lkjlkjww三、紧凑法求行列式值、逆矩阵和筛选变量由此可知,第l+1步消去第r列,相当于把变量xr引入判别式;
33、第l+2步再对第r列进行一次消去运算,使矩阵元素回到第l+1步以前的情况,这等价于把已引入的变量xr被从判别式中剔除出去。因此,剔除变量的工作便可在消去过程中进行。 假设计算了第l步,并引进了包括 在内的L个变量(rL)。判别式中任一变量xr的判别能力,可视为在给定L-1个变量条件下已选变量xr的判别能力,并由下式计算,即 (r=1,2,L) (6-92) )1()1()1( |lrrlrrLrtwU三、紧凑法求行列式值、逆矩阵和筛选变量由式(6-88)及式(6-89)可知 (k=r,r=j) 则式(6-92)可变为 (r=1,2,L) (6-93)根据第l步消去运算后矩阵中的元素 和 ,计算
34、出每一个已选变量的判别能力,并从中挑选一个最大者为)()1(1lrrlkjww)()1(1lrrlkjtt)()()1( |lrrlrrLrwtU)(lrrw)(lrrtmax)1( |1*)1( |LrLrLrUU三、紧凑法求行列式值、逆矩阵和筛选变量将其代入式(6-85)中求得相应的 ,检验变量 分辨母体的能力是否显著。如果不显著,将其从判别式中剔除,即对W、T矩阵中第 列再作一次消去运算。 综上所述,紧凑法可将引入变量、剔除变量及求逆矩阵三者统一在一个计算过程中,大大简化了逐步判别分析的计算。)1(, 1(LGnGF*rx*r四、逐步判别分析的计算步骤设原始数据为 ,其中,其中g=1,2
35、,G (母体个数) i=1,2,ng (ng为第g个母体的样品个数) j=1,2,p (变量个数) (G类中样品的总个数)逐步判别分析的计算,可分以下三个阶段:gijxGggnn1四、逐步判别分析的计算步骤第一阶段:准备工作1)计算变量的类平均值和总平均值 按下式计算诸变量的类平均值和总平均值。 ),12, 2 , 1(11Ggpjxnxgnijgigjg), 2 , 1(111pjxnxGgnijgijg四、逐步判别分析的计算步骤2)计算组内离差矩阵(W)和总离差矩阵(T)按下述公式计算W、T中的元素值。GgjnijgikkgikjppkjGgjgnijgikgkgikjppkjxxxxtp
36、jktTxxxxwpjkwWgg1111)(), 2 , 1,()()(), 2 , 1,()(四、逐步判别分析的计算步骤第二阶段:逐步筛选变量设已计算了l步(包括l=0),判别函数中引入了某L个变量,则第l+1步的计算内容如下:1)计算全部变量的叛别能力 若xj是未选变量,则每个未选变量的判别能力为若xj是已选变量,则每个已选变量的判别能力为)()()( |ljjljjLjtwU)()()1( |ljjljjLjwtU四、逐步判别分析的计算步骤2)挑选变量及其显著性检验 根据判别能力分别在已选变量和未选变量中挑选。(1)从已选变量中剔除变量,在已选变量中寻找最大的 。假设 (jL,表示是已选
37、变量)进行F检验 若 ,则把xr从判别函数中剔除出去,然后计算Wilks统计量,并对矩阵进行变换。)1( |LjUmax)1( |)1( |LjLjLrUU1) 1(1)1|()1|(*2GLGnUUFLrLr)1(, 1*2LGnGFF四、逐步判别分析的计算步骤四、逐步判别分析的计算步骤四、逐步判别分析的计算步骤四、逐步判别分析的计算步骤第三阶段:判别分类假设共计算了l+1步,最终选入L个变量,然后进行以下工作:1)计算判别系数 根据最终获得的逆矩阵 计算判别系数,11LWGgxccGgLkjwxGnwGnxcLkjgjgogLkLklkjkglkjkgjg, 2 , 121, 2 , 1;
38、, 2 , 1,)()(111)1()1(四、逐步判别分析的计算步骤 2)检验L个变量的判别效果 根据UL对应的F近似式进行显著性检验。统计量其中) 1(111GLwUUFaLaL时当时当05) 1(105) 1(5) 1(4) 1(22222222GLGLGLGLa2112) 1(GLnkGLkaw四、逐步判别分析的计算步骤3)判别分类 如果对L个变量的综合判别效果检验是显著的,即可对任意个体(包括已知类型和未知归属的个体) ,逐个进行判别归类,并计算其属于该母体的后验概率。(1)将每一个体的相应变量值代入各母体的判别函数中,求得其判别值 若 则将个体x划归第g*个母体。),(21Lxxxx), 2 , 1(ln)(1GgxccqxyLjjjgogggGgggxyxy1*)(max)(四、逐步判别分析的计算步骤(2)根据判别值计算每一个个体属于各母体的后验概率,即 式中 第三阶段的计算工作,可在逐步计算中的每一步都 安排,视具体情况而定。), 2 , 1()|(1)()
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于云计算的自适应MES系统发展研究
- 剖宫产术后尿潴留的护理
- 育种记录制度
- 湖南省邵阳市双清区2026年中考三模数学试题附答案
- 2026中国邮政储蓄银行广东省分行春季校园招聘备考题库及参考答案详解【巩固】
- 2026江苏无锡广电物业管理有限公司招聘1人备考题库(夺冠系列)附答案详解
- 2026中煤财务有限责任公司招聘2人备考题库含答案详解(能力提升)
- 2026广西钦州市统计局面向社会招聘编外人员2人备考题库【考点精练】附答案详解
- 2026浙江事业单位统考温州市鹿城区招聘(选调)21人备考题库及参考答案详解一套
- 2026浙江金华市浦江县教育系统招聘教师20人备考题库附参考答案详解【研优卷】
- 矿井巷道维修安全技术措施
- 医院膳食配送服务方案
- 2023年河南测绘职业学院单招考试职业适应性测试试题及答案解析
- 抖音快手短视频创业项目融资商业计划书模板(完整版)
- 桥梁高墩翻模施工技术
- 园林绿化修剪合同范本
- 杭州师范大学2022年软件专业基础考研真题
- 工程开工报审表
- 《石油化工项目可行性研究投资估算编制办法》
- 2022上海金融信息产业发展报告
- 医院行风建设应知应会考核试题及答案
评论
0/150
提交评论