气象统计分析与预报方法:09_第三章-判别分析_第1页
气象统计分析与预报方法:09_第三章-判别分析_第2页
气象统计分析与预报方法:09_第三章-判别分析_第3页
气象统计分析与预报方法:09_第三章-判别分析_第4页
气象统计分析与预报方法:09_第三章-判别分析_第5页
已阅读5页,还剩114页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第三章 判别分析,Part I : 判别分析的介绍,1,Part III :多级判别,3,在气象预报中,为了使用需要,一些预报量常常分成若干级别或类别。 例如,把降水量的资料用经验或使用其他数学方法进行划分,使之变成不同的级别或类别,如:暴雨、大雨、中雨、小雨和无雨; 或者化为更为简单的两类:有雨和无雨。,聚类分析,然后根据预报量不同类别,选择一些前期因子,利用在不同类别的样本内,寻找因子与预报量的关系,建立针对不同类别的预报量的预报方程。 选择适当的判别规则,判别某个因子观测样品所属的类别,再来实现对预报量的预报。 这种方法就称为判别分析,也成为分辨法。,判别分析,1)丢失信息:考古学家

2、或人类学家需要知道在古代墓地发现的骨架的性别。当研究对象是活着的话,就不会存在问题,因为有充分多的活的材料。但在考古中的信息则是死的。 2)不能获得的信息:医院中的病历记载了病人的外表症状与体内疾病的关系。而体内疾病需要对病人实施手术,或在病人去世后的解剖中才能搞清楚。问题是,在没有某种强有力的手段的情况下,如何由外表症状来诊断体内的疾病呢?,什么情况下要进行判别分析?,3)预报问题:实践或经历告诉我们,能够用某时刻之前发生的一些现象来预测其后可能发生的某些现象。我们观察这些前兆变量,并希望预报与其有依赖关系的但尚未出现的现象。 4 ) 破坏性试验:当一种试验会导致被试验个体的破坏时,我们需要

3、一种不完全破坏其它个体就能够预言其特性的方法。,怎样进行判别分析?,已知:存在两个总体A和B. 给出一个随机样本,所有个体肯定来自总体A; 给出另一个随机样本,所有个体肯定来自总体B。 我们如何制定一个准则,使来源未知的其它个体能够分配到正确的总体中去? 且希望在某种最优的意义上做到这一点:例如错分尽可能少,或者如果有错分则要使其带来的代价最小。,本章主要介绍费歇判别原则下如何建立判别方程,对判别方程进行显著性检验,以及怎样利用判别方程作预报。 1 费歇判别准则 2 多级判别,1 Fisher 判别准则,假设要预报晴天/雨天,选择2个前期因子x1和x2。 x1是24h本站气压差, x2是温度露

4、点差。 根据经验, x1和x2当为大数值时,第二天常为晴天;反之则为雨天。为了综合x1和x2的作用,可以用一种简单的线性组合形式把x1和x2的作用综合起来,构成一个新的变量:,y 被称为线性判别函数(或方程), c1 、c2 为判别系数。,判别方程可看成三维空间中的一个平面方程。我们总可以找到一个平行于x1Ox2的平面y=yc,截(3.1)式的平面为两部分,使上半部的y值大于yc,下半部的y值小于yc。两个平面的交线投影到x1Ox2平面上的交线投影线就称为分辨线,或称为判别线。,显然, y 大可预报为晴天,反之预报为雨天。 这里需要找到一个差别值yc,在日常预报中,当前期因子值发生后,代入判别

5、方程,求得判别函数值y0, 若y0 yc 就报未来晴;y0 yc 就报未来雨。,几何图形,设选取晴类的样本容量为n1,雨类样本容量为n2,总样本的容量为n= n1 + n2 。 根据(3.1)式,用不同因子值可算出不同类别的判别函数值y1i(il,2,,n1)及y2i(i1,.,n2)。 我们希望构成上图中的空间平面,使得平面上晴天的判别函数值对应的点子比较集中,雨天类的点子亦比较集中,但是两类点子之间距离较远,从而使得y=yc平面容易地将两类点子区分开来。,判别分析的关键问题是如何找到合适的判别函数,即如何确定(3.1)式中判别系数c1 、c2的问题。,判别系数c1,c2的确定就是使 组间方

6、差与组内方差的比达到最大,衡量点子集中程度的量就是方差。 因此,类间方差与类内方差的比值为最大可作为判别方程建立的原则,这就是费歇判别准则。,y1,y2,上式中 和 为晴天和雨天的判别函数值的平均值 。 式中判别函数的平方和具有方差的意义。,判别系数的确定 当样本确定后,不同类别的因子值也已知,如果把式(31)代入(32)式,则 就是判别系数c1与c2的函数。据微积分学中求极值原则,有,上式称为求判别系数c1,c2的标准方程组。 Wkl为不同因子k与l在两类内离差交叉积和,不同类别平均值之差,判别时,可建立yyc 平面,取两类y值的重心,即 由(3.1)式,代入因子不同类的平均值,算出: 若

7、当y yc ,报1级;反之,y yc报2级。 yc 是一个阈值。,对于预报量分为二级(类)别时,类似地可建立p个因子的二级判别函数,其中xl,x2,xp为p个因子,c1,c2,cp为判别系数。求判别系数的标准方程组可类似(34)式写为,多因子二级判别,举例: 取第二章例2资料,把一月气温小于-4.5称为1级(冷),反之称为2级(暖)。 三个因子变量相应地分为两级样本,1级样本容量为14,2级样本容量为16,总样本容量为30,因子数为p=3。,判别方程的显著性检验 在下列假定条件下,可以对二级判别方程作出显著性检验: 每类(组)的观测值是随机选择的; 一个未知的样品来自两类中任一类的概率是相等的

8、; 在每一类(组)内变量是遵从正态分布的; 两类(组)组内的协方差阵是相等的; 用于判别方程的观测值没有一个是错分的(即判别方程的分辨线完全将两类点子区分开)。,对p个因子,也可以类似地检验它们来自的两类总体是否有显著差异,假设它们来自的两类总体无显著差异,即各因子在两类的数学期望相等,亦即 H0:E(dk)0 (k=1,2p),遵从分子自由度为p、分母自由度为(n1+n2p1)的 F 分布,式中 为马氏距离。,在天气预报中,更常用的是多类或多级的预报、例如降水量的预报可分为:暴雨、大雨、中雨、小雨和无雨等五级,2 多级判别,判别函数离差平方和的分解 假设根据需要,把预报量分为G类,取样本容量

9、为n的样本。对此样本,根据预报量的G类级别分为G组,每组样本容量分别n1,n2,n3,.nG. 选取p个因子x1,x2,xp。类似二级判别,由它们的线性组合构成一个判别函数,表示为,y=v1x1+ v2x2+.+ vpxp,v1, v2, vp 为判别系数。,为了建立多级判别的费史判别准则,我们首先考察判别函数离差平方和的分解情况,以便了解判别函数围绕平均值的变动情况和分组有何关系。 判别函数的总离差平方和,令:,表示组间判别函数的离差平方和,表示组内判别函数的离差平方和,则判别函数的总离差平方和为:,Syy=E+F,又有:,并令:,类似有:,于是有: T=B+W,P个因子总的离差交叉积阵,B

10、及W为P个因子组间及组内离差交叉积阵;,多级判别费歇准则 类似二级判别,为了确定判别系数,还是根据费歇准则,即要求各类判别函数的点子越密集越好 ,类与类的距离越远越好。即要求判别函数组内离差平方和越小越好,组间离差平方和越大越好。,根据极值原理,求判别函数系数的方程为:,(W-1B-I)v=0,即求 W-1B 矩阵的特征向量问题。,判别函数的性质,(i)判别函数的离差平方和与矩阵W-1B的特征值有关;,(ii)判别函数之间是互无相关的,决策规则,有了判别函数之后,要作出预报还需要有预报判据,在统计上称为决策规则常用的有两种决策规则:,(1)利用贝叶斯定理求后验概率分布,当前期因子已经出现时,预

11、报的问题是要确定预报量该判哪一类。 这时可以用已经出现的p个因子的样本代入判别函数中,进一步计算其值出现的条件下,第g类出现的概率,从g=1,2,G中选择出现最大概率的类别作为预报。这类概率称为后验概率。,(2)距离判别规则 判别时,把已知因子样品代入到s个判别方程中,得到s个判别函数值,把它看成s维空间中一个点,考察这点与各组重心的距离,距离哪一组重心近,就判这个样品来自该类。,后验概率根据贝叶斯公式计算,式中qg为预报值出现的g类先验概率,它可以用频率来估计,即qg=ng/n,或者1/G(SPSS里可以选择),多级判别计算步骤,(1)选择适当因子,并根据预报量类别确定不同类别的样本,计算各

12、组因子的平均值和总平均值; (2)计算总离差交叉积阵T,组内离差交叉积阵W及组间离差交叉积阵B; (3)求W-1B的特征值及特征向量,得V阵; (4)对判别函数进行显著性检验,以便确定选取多少个判别函数构成判别空间; (5)计算各样品点与各组重心距离并进行分类判别,判别分析的概念:是根据观测到的若干变量值,判断研究对象如何分类的方法。 要先建立判别函数 Y=a1x1+a2x2+.anxn,其中:Y为判别分数(判别值),x1 x2.xn为反映研究对象特征的变量,a1 a2.an为系数 SPSS对于分为p类的研究对象,建立q个线性判别函数。对于每个个体进行判别时,把观测量的各变量值代入判别函数,得

13、出判别分数,从而确定该个体属于哪一类,或计算属于各类的概率,从而判别该个体属于哪一类。还建立标准化和未标准化的典则判别函数。,步 骤 1 根据实际需要,构造预测量的定性数量特征序列; 2 选择若干前期因子,利用因子与预报量的关系,建立因子与预报量类别的关系表达式(须经过统计显著性检验); 3 选择适当的规则,判别某一次因子样品所属的类别,以实现对预报量类别的预报。,注释: 1)判别函数由因子的线性组合构成,它不是预报量。 2)判别函数只与预报量的类别有关,但这种关系不一定是线性的。,判别函数的显著性检验,进行检验式中|W|为矩阵W的行列式在因子固定的情况下因子总离差交叉积阵的行列式|T|的值是

14、不变的当组内离差交叉积阵行列式|W|小时, 的值就小同时组间离差交叉积阵的行列式就有可能较大这种情况表明,在因子中,各组内样品点比较集中,而组间的重心点之间距离较大,实际检验时,按判别函数的重要性逐个进行检验一开始检验头一个特征值所对应的判别函数如果检验的结果是显著的,然后再检验第二个特征值所对应的判别函数。 如果第二个判别函数检验的结果是显著的,再逐步检验下去。直到某一判别函数不显著为止。,SPSS建立判别函数的方法 全模型法:把用户指定的变量全部放入判别函数中:不管变量对判别函数是否起作用及作用的大小。当对反映研究对象特征的变量认识比较全面时可以选择此种方法。 向前选择法:是从判别模型中没

15、有变量开始,每一步把一个对判别模型的判断能力贡献大的变量引入模型。直到没有被引人模型的变量没有一个符合进入模型的条件(判据)时,变量的引入过程结束。当希望比较多的变量留在判别函数中时使用向前选择法。,向后选择法:与向前选择法完全相反。它是从把用户所有指定的变量建立一个全模型。每一步把一个对模型的判断能力贡献最小的变量剔除出模型,直到模型中的所有变量都符合留在模型中的判据时,剔除变量工作结束。在希望较少的变量留在判别函数中时使用。,逐步选择法:逐步判别法从模型中没有变量开始,每一步都要对模型进行检验。每一步都把模型外的对模型的判别能力贡献最大的变量加入到模型中的同时,也考虑把已经在模型中但又不符

16、合留在模型中的条件的变量剔除。这是因为新变量的引入有可能使原本已经在模型中的变量对模型的贡献变得不显著了。直到模型中的所有变量都符合引入模型的判据,模型外的变量都不符合进入模型的判据时,逐步选择变量的过程停止。逐步选择法更能比较好的选择变量。,典则判别分析: 典则判别分析建立典则变量代替原始数据文件中指定的自变量。典则变量是原始自变量的线性组合。用少量的典则变量代替原始的多个变量可以比较方便地描述各类之间的关系。 判别函数的性能: 判别分析得出的判别函数性能如何,可以通过回代的方法进行验证,得到错判率。,判别分析步骤及Discriminant过程的选择项,1 建立或读入数据文件 2 进入程序

17、3 选择分类变量及其范围 4 指定判别分析的自变量 5 运行,实例 三种鸢(yuan)尾花的花瓣、花萼的长、宽数据。共有每种50个观测量,共150个观测量的数据。,1 建立或读入数据文件 data13-05,2 进入程序,Analyze Classify Discriminant,鸢尾花数据(花瓣,花萼的长宽) 5个变量: 花瓣长(slen),花瓣宽(swid), 花萼长(plen), 花萼宽(pwid), 分类号(spno) 1:Setosa, 2:Versicolor, 3:Virginica),3 选择分类变量及其范围,StatisticsClassify Discriminant: V

18、ariables: independent (slen,swid,plen,pwid) Grouping(spno) Define range(min:1,max:3) Classify: prior probability(All group equal) use covariance matrix (Within-groups) Plots (Combined-groups, Separate-groups, Territorial map) Display (Summary table) Statistics: Descriptive (Means) Function Coefficie

19、nts (Fishers, Unstandardized) Matrix (Within-groups correlation, Within-groups covariance, Separate-groups covariance, Total covariance) Save: (Predicted group membership, Discriminant Scores, Probability of group membership),方法,鸢尾花基本数据信息,鸢尾花数据(联合类内相关阵和协方差阵),鸢尾花数据(总协方差阵),Analysis 1,Summary of Canoni

20、cal Discriminant Functions 典则判别函数,特征值汇总,组间平方和与组内平方和的比值,Eigenvalue:用于分析的前两个典则判别函数的特征值, 是组间平方和与组内平方和之比值. 最大特征值与组均值最大的向量对应, 第二大特征值对应着次大的组均值向量 Canonical correlation (典则相关系数):是组间平方和与总平方和之比的平方根.被平方的是由组间差异解释的变异总和的比.,检验统计量,假设:各组个变量的均值相等 Lambda 的取值范围为0-1,接近0表示组的均值不相同,接近1表示所有均值相同。 Sig. 是零假设被拒绝的概率。,Wilks Lambd

21、a统计量Chi-square是Lambda的卡方转换, 用于确定其显著性.,判别函数的性能:,可以通过回代的方法进行判别函数性能的验证。即 将各变量的观测值代入判别函数中,根据判别函数的值确定每个观测量属于哪一类。然后与原始数据中的分类结果进行比较,得到错判率。 错判率越小,说明判别函数的判别性能越好。,判别函数:,y1=-0.346X1-0.525X2+0.846X3+0.613X4 y2= 0.039X1+0.742X2-0.386X3+0.555X4,判别函数系数,标准化的典则判别函数系数(使用时必须用标准化的自变量),典则判别函数系数,类中心:,G1: Y1=-7.392 Y2=0.2

22、19 G2: Y1= 1.763 Y2=-0.737 G3: Y1=5.629 Y2= 0.518,这是类均值(重心)处的典则判别函数值,鸢尾花数据(用判别函数对观测量分类结果),先验概率,利用判别函数对观测量进行分类:,Discriminant过程导出的 Fisher 线性判别函数的个数与类别数目相同。 确定一个观测量属于哪一类,可以把该观测量的各变量值代入每个判别函数,哪个判别函数值大,该观测量就属于哪一类。,鸢尾花数据(预测分类结果小结),可以看出分错率,第三章 判别分析与聚类分析,在多元统计分析中,广泛使用一种统计应用方法,即根据表征某一事物或现象类型的随机变量的取值样本分布,将事物或

23、现象划分为若干类型。例如,在气候分析中,需将气候划分成若干类型,干旱气候,湿润气候,半干旱气候等,究竟划分几类?选择湿度、相对湿度、降水量、蒸发量等气候要素为指标,根据样品的相近程度,划分为若干种类型,这称为聚类分析;数量统计上,即分析众多的样本 划分确认来自几个不同的总体。,另外,气候分析中,类型分类已知,介于两者之间的某站,则需根据两种类型(总体)的特征和该站要素(样本)来判断该站的属类;在天气预报中,有时需要根据前期的样本观测值来判断哪种现象(晴,阴,雨)或现象等级(火险等级1、2.5)将出现,则称为判别分析,也称为统计分辨法。 判别分析与聚类分析均属数字分类。,3.1 费歇(Fishe

24、r)判别准则与分析,一、Fisher判别准则,判别分析是已知有两个或更多的总体(类型),并且获得每个总体中的若干样本,根据这些总体中的样本特征去建立一种判别规则,使我们能将某个新的个体归属正确的总体,而事先并不知道该个体来自哪个总体。,若需要判别的对象有两种可能的结局,则称为二级判别;有两种以上可能结局,则称为多级判别。二级判别又称简单判别。,设x为与天气状况有关的变量,而天气状况分为A与B两种状况(晴,阴雨),x的样本空间 由有利A的样本集合与有利B的样本集合组成。,越大时,判别效果越好,错判率越低。,作为判别指标,,而,取决于下列因素,1、指标x在两总体的期望值差异,越大,则,越大,以大概

25、率判别时,错判概率小,2、x的离散程度越小,x来自两不同总体的概率差 越大。,综上所述,离散程度小,期望值差异大,表明两总体样本重叠部分少,x出现时事件(类型)的出现概率差就大,以指标判别类型时,错判率自然小,即两总体最大分离的原则,这就是费歇判别准则: 希望用一个综合指标y,它在两总体中方差最小,而条件期望值差异最大。,单个气象要素指标效果往往不佳,可采用多个 的要素线性组合成一个综合指标:,称为Fisher判别函数,,称为判别系数。,利用历史资料,根据Fisher准则,推断判别系数。,以,为例,说明其几何意义,A、B两总体均存在较大重叠部分,若将样本投影到直线l上,则两总体重叠部分显著减少

26、。,y,x1,在两总体的样本空间寻找一个最佳投影方向,将样本在该方向投影后,两总体能够最大分离。,二、线性Fisher判别方程的建立 设有A出现条件下,X1xm的N1次观测值, B出现条件下, X1xm的N2次观测值,构造判别方程 按照Fisher准则,应有:,将,代入,B与标号k无关,在方程组中是一个常数比例因子,仅起到使方程组同倍比放大或缩小的作用,不影响Ck之间的相对比例,因而不影响判别效果,故可令B=1。此时方程组为:,求解方程组,解得判别系数,即可得FIsher判别函数:,建立判别函数后,可分别计算A、B出现时,判别函数 的平均值:,以它们的加权平均值,作为判别事件A或B 出现的临界值;,反之亦然。,三、判别临界值的确定,解得,四、判别效果的显著性检验,在多因子判别中,要选择若干分辨能力强的变量组成判别函数,判别分析的基础是假设两组样品取自不同的总体,如果两组多元变量在统计上差异不显著,判别就没有价值,因此判别效果显著性检验就是检验两总体的差异是否显著。,对于判别方程中的某个因子xk的显著性,可用t检验的方法检验它在两个总体中的平均值是否显著

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论