




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章判别分析与聚类分析,在多元统计分析中,广泛使用一种统计应用方法,即根据表征某一事物或现象类型的随机变量的取值样本分布,将事物或现象划分为若干类型。例如,在气候分析中,需将气候划分成若干类型,干旱气候,湿润气候,半干旱气候等,究竟划分几类?选择湿度、相对湿度、降水量、蒸发量等气候要素为指标,根据样品的相近程度,划分为若干种类型,这称为聚类分析;数量统计上,即分析众多的样本划分确认来自几个不同的总体。,另外,气候分析中,类型分类已知,介于两者之间的某站,则需根据两种类型(总体)的特征和该站要素(样本)来判断该站的属类;在天气预报中,有时需要根据前期的样本观测值来判断哪种现象(晴,阴,雨)或现象等级(火险等级1、2.5)将出现,则称为判别分析,也称为统计分辨法。判别分析与聚类分析均属数字分类。,3.1费歇(Fisher)判别准则与分析,一、Fisher判别准则,判别分析是已知有两个或更多的总体(类型),并且获得每个总体中的若干样本,根据这些总体中的样本特征去建立一种判别规则,使我们能将某个新的个体归属正确的总体,而事先并不知道该个体来自哪个总体。,若需要判别的对象有两种可能的结局,则称为二级判别;有两种以上可能结局,则称为多级判别。二级判别又称简单判别。,设x为与天气状况有关的变量,而天气状况分为A与B两种状况(晴,阴雨),x的样本空间由有利A的样本集合与有利B的样本集合组成。,越大时,判别效果越好,错判率越低。,作为判别指标,,而,取决于下列因素,1、指标x在两总体的期望值差异,越大,则,越大,判别时,错判概率越小,2、x的离散程度越小,x来自两不同总体的概率差越大。,综上所述,离散程度小,期望值差异大,表明两总体样本重叠部分少,x出现时事件(类型)的出现概率差就大,以指标判别类型时,错判率自然小,即两总体最大分离的原则,这就是费歇判别准则:希望用一个综合指标y,它在两总体中方差最小,而条件期望值差异最大。,影响因子是复杂的,单个气象要素指标效果不佳,可采用多个的要素线性组合成一个综合指标:,称为Fisher判别函数,,称为判别系数。,利用历史资料,根据Fisher准则,推断判别系数。,以,为例,说明其几何意义,1、2两总体均存在较大重叠部分,若将样本投影到直线l上,则两总体重叠部分显著减少,能相对最大分离。,在两总体的样本空间寻找一个最佳投影方向,将样本在该方向投影后,两总体能够最大分离。,二、线性Fisher判别方程的建立设有A出现条件下,X1xm的N1次观测值,B出现条件下,X1xm的N2次观测值,构造判别方程按照Fisher准则,应有:,将,代入,B与标号k无关,在方程组中是一个常数比例因子,仅起到使方程组同倍比放大或缩小的作用,不影响Ck之间的相对比例,因而不影响判别效果,故可令B=1。此时方程组为:,求解方程组,解得判别系数,即可得FIsher判别函数:,建立判别函数后,可分别计算A、B出现时,判别函数的平均值:,以它们的加权平均值,作为判别事件A或B出现的临界值;,反之亦然。,三、判别临界值的确定,3.1,解得,四、判别效果的显著性检验,在多因子判别中,要选择若干分辨能力强的变量组成判别函数,判别分析的基础是假设两组样品取自不同的总体,如果两组多元变量在统计上差异不显著,判别就没有价值,因此判别效果显著性检验就是检验判别因子在各两总体的差异是否显著。,对于判别方程中的单个因子xk的显著性,可用t检验的方法检验它在两个总体中的平均值是否显著。,遵从自由度为,的t分布。,2.对于m个因子的共同的分辨效果,则采用马哈拉诺比斯距离作为两总体差异的指标。,马氏距离,由,代入,遵从,例由表所列资料,根据Fisher准则建立判别函数并检验效果。,解:,3.2Bayes判别准则与分析,由m个变量,组成m维空间,用,表示,,来自K个总体,已知每个总体发生的先验概率(气候概率)分别为,各总体的概率密度分别为,设有K个不同的事件,有m个变量与事件发生有关。,Bayes判别的几何意义是在m维空间中对应各总体寻找一个划分:,若样本,落在,Bayes判别准则,即在选择划分,时,应使发生,错判的概率为最小。,错判率与什么有关?,下图简单地以2维空间的两个总体为例,A,O,设A、B两总体,有一个划分DA、DB,对任意样本,来自A而错判为B的条件概率,2)来自B而错判为A的条件概率,总的错判率,定理:当先验概率,给定后,,为:,,总体分布,Bayes判别的解,即对任一X,分别计算,,找出最小值,,并作出判断。,Bayes判别方法,即对某一给定样本X,分别计算,,,将使,的l作为X的划归类属。,Bayes判别对多组判别具有较高分辨率,但条件是要已知P和fi(x),而多维f(x)不易获得。,二、正态假设下的Bayes判别函数,Bayes判别函数,设有K个总体,遵从正态分布,且具有相同的协方差,为计算方便,令:,由协方差矩阵及逆矩阵的对称性,可知,略去与K无关的项,合并同类项,其中:,判别函数,三、利用马氏距离作多级判别,设m维变量的k个总体遵从正态分布,Bayes判别函数,若认为K个总体的先验概率均等,Pk=1/K,略去,的差别,要使判别函数达最大,必然要马氏距离最小,即如果,达到极小,即样本距离GK总体的均值中心的马氏距离最短,根据Bayes准则,将该样本划入该总体。,由样本估计参
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论