




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章第三章 判别分析与聚类分析判别分析与聚类分析 在多元统计分析中,广泛使用一种统计应用方法,即根据表征某一事物或现象类型的随机变量的取值样本分布,将事物或现象划分为若干类型。例如,在气候分析中,需将气候划分成若干类型,干旱气候,湿润气候,半干旱气候等,究竟划分几类?选择湿度、相对湿度、降水量、蒸发量等气候要素为指标,根据样品的相近程度,划分为若干种类型,这称为聚类分析;数量统计上,即分析众多的样本 划分确认来自几个不同的总体。 另外,气候分析中,类型分类已知,介另外,气候分析中,类型分类已知,介于两者之间的某站,则需根据两种类型(总于两者之间的某站,则需根据两种类型(总体)的特征和该站要素
2、(样本)来判断该站体)的特征和该站要素(样本)来判断该站的属类;在天气预报中,有时需要根据前期的属类;在天气预报中,有时需要根据前期的样本观测值来判断哪种现象(晴,阴,雨)的样本观测值来判断哪种现象(晴,阴,雨)或现象等级(火险等级或现象等级(火险等级1、2.5)将出现,则)将出现,则称为判别分析,也称为统计分辨法。称为判别分析,也称为统计分辨法。 判别分析与聚类分析均属数字分类。判别分析与聚类分析均属数字分类。3.1 费歇(费歇(Fisher)判别准则)判别准则与分析与分析一、一、Fisher判别准则判别准则 判别分析是已知有两个或更多的总体(类判别分析是已知有两个或更多的总体(类型),并且
3、获得每个总体中的若干样本,根据型),并且获得每个总体中的若干样本,根据这些总体中的样本特征去建立一种判别规则,这些总体中的样本特征去建立一种判别规则,使我们能将某个新的个体归属正确的总体,而使我们能将某个新的个体归属正确的总体,而事先并不知道该个体来自哪个总体。事先并不知道该个体来自哪个总体。 若需要判别的对象有两种可能的结局,则称为若需要判别的对象有两种可能的结局,则称为二级判别;有两种以上可能结局,则称为多级判别。二级判别;有两种以上可能结局,则称为多级判别。二级判别又称简单判别。二级判别又称简单判别。 设设x x为与天气状况有关的变量,而天气状况为与天气状况有关的变量,而天气状况分为分为
4、A A与与B B两种状况(晴,阴雨)两种状况(晴,阴雨),x,x的样本空间的样本空间由有利由有利A A的样本集合与有利的样本集合与有利B B的样本集合组成。的样本集合组成。 SBRARmm )()( )/()/(xBPxAP 越大时,判别效果越好,错判率越低。越大时,判别效果越好,错判率越低。作为判别指标,作为判别指标,)()()/()/()/()/()()()()()/()/()()()/()/()()/()()/(xfAPBxfAxfxBPxAPBPAPBPxfBxfxBPAPxfAxfxAPAdxPAxfdxxfxAP ,有有当当同同理理根根据据概概率率乘乘法法定定理理有有)/()/(B
5、xfAxf 而而取决于下列因素取决于下列因素BAmm )/()/(BxfAxf 1 1、指标、指标x x在两总体的期望值差异在两总体的期望值差异 越大,则越大,则越大,判别时,错判概率越小越大,判别时,错判概率越小2、x的离散程度越小,的离散程度越小,x来自两不同总体的概率差来自两不同总体的概率差 越大。越大。)/()/(BxfAxf 综上所述,离散程度小,期望值差异大,表明两总体样本重叠部分少,x出现时事件(类型)的出现概率差就大,以指标判别类型时,错判率自然小,即两总体最大分离的原则,这就是费歇判别准则: 希望用一个综合指标y,它在两总体中方差最小,而条件期望值差异最大。max)(minm
6、ax,)()()()( BxAxBABxAxBASSxxSSxx2 影响因子是复杂的,单个气象要素指标效果不佳影响因子是复杂的,单个气象要素指标效果不佳,可采用多个的要素线性组合成一个综合指标:,可采用多个的要素线性组合成一个综合指标: ppxcxcxcy 2211称为称为Fisher判别函数,判别函数,iC称为判别系数。称为判别系数。利用历史资料,根据利用历史资料,根据Fisher准则,推断判别系准则,推断判别系数。数。以以2211xcxcy 为例,说明其几何意义为例,说明其几何意义212112211xcccyxxcxcycc/ 1、2两总体均存在较大重叠部分,若将样本两总体均存在较大重叠部
7、分,若将样本投影到直线投影到直线l上,则两总体重叠部分显著减少,上,则两总体重叠部分显著减少,能相对最大分离。能相对最大分离。 在两总体的样本空间寻找一个最在两总体的样本空间寻找一个最佳投影方向,将样本在该方向投影佳投影方向,将样本在该方向投影后,两总体能够最大分离。后,两总体能够最大分离。二、线性二、线性Fisher判别方程的建立判别方程的建立设有设有A出现条件下,出现条件下,X1xm的的N1次观测值,次观测值, B出现条件下,出现条件下, X1xm的的N2次观测值次观测值构造判别方程构造判别方程按照按照Fisher准则,应有:准则,应有:mmxcxcy 11maxmax)()()( FEy
8、yyyyyNiBBiNiAAiBA2121122 kkkkkkcFcEFcFEcEFcmkc 10102,将BmmBBBmimBiBiAmmAAAmimAiAixcxcyxcxcyxcxcyxcxcy 11111111,代入代入mkddcdccExxddcdcxxcxxcyyEkmmkBkAkkmmBmAmmBABA121121121112 ,)()(,)()()()()()()()()()()()(kmmkBkBkiBmBmimBBiAkAkiAmAmimAAikBmBmimBNiBiNiAmAmimAAiwcwcxxxxcxxcxxxxcxxccFxxcxxcxxcxxcF11111111
9、2121112111222 kkmmkmmkkkBkBkilBliAkAkiAlAliklBdddcdcwcwccFcExxxxxxxxw )()()(11111由由其中其中 B与标号与标号k无关,在方程组中是一个常数比例因子,仅起到使方无关,在方程组中是一个常数比例因子,仅起到使方程组同倍比放大或缩小的作用,不影响程组同倍比放大或缩小的作用,不影响Ck之间的相对比例,因而不之间的相对比例,因而不影响判别效果,故可令影响判别效果,故可令B=1。此时方程组为:。此时方程组为:mmmmmmmmmmdcwcwcwdcwcwcwdcwcwcw 22112222212111212111 求解方程组,解得
10、判别系数,即可得求解方程组,解得判别系数,即可得FIsher判别函数:判别函数:mmxcxcy 11DCW 建立判别函数后,可分别计算建立判别函数后,可分别计算A A、B B出现时,判别函出现时,判别函数数的平均值:的平均值: BjjBAjjAxcyxcy以它们的加权平均值以它们的加权平均值2121NNyNyNyBAc 作为判别事件作为判别事件A A或或B B 出现的临界值;出现的临界值;出出现现的的判判断断作作出出时时则则当当若若A,cBAyyyy 反之亦然。反之亦然。三、判别临界值的确定三、判别临界值的确定3.1)()(BAwww111111 klw)()(BAwww121212 )()(
11、BAwww131313 )()(BAwww222222 )()(BAwww232323 )()(BAwww333333 100343395528631026001550028686859713960163125971333065321321321.ccccccccc解得解得078100498053320321. ccc四、判别效果的显著性检验四、判别效果的显著性检验 在多因子判别中,要选择若干分辨能力强在多因子判别中,要选择若干分辨能力强的变量组成判别函数,判别分析的基础是假的变量组成判别函数,判别分析的基础是假设两组样品取自不同的总体,如果两组多元设两组样品取自不同的总体,如果两组多元变量在
12、统计上差异不显著,判别就没有价值,变量在统计上差异不显著,判别就没有价值,因此判别效果显著性检验就是检验判别因子因此判别效果显著性检验就是检验判别因子在各两总体的差异是否显著。在各两总体的差异是否显著。22212121212121222102112kBkABkAkkBkABkAkkBkAsnsnxxnnnnnnnnnnsnsnxxtxxH )()()()(:则则 )(221 nn1.1.对于判别方程中的单个因子对于判别方程中的单个因子xkxk的显著性的显著性, ,可用可用t t检验检验的方法检验它在两个总体中的平均值是否显著。的方法检验它在两个总体中的平均值是否显著。遵从自由度为遵从自由度为的
13、的t t分布。分布。2.对于对于m 个因子的共同的分辨效果,则采用马哈拉诺个因子的共同的分辨效果,则采用马哈拉诺比斯距离作为两总体差异的指标。比斯距离作为两总体差异的指标。马氏距离马氏距离 BmBBAmAABABAmxxXxxXDSDXXSXXD11112)()(WnnSwnnxxxxxxxxnnsSklBlniBliBkBkiAlniAliAkAkikl)()()()()(2121212121211121 计计:协协方方差差矩矩阵阵的的无无偏偏估估mmmmmmmmmmdcwcwcwdcwcwcwdcwcwcw 22112222212111212111 BmAmBAmxxxxddD111由由
14、mccC1DSCnnDCSnnSnnWDCW1211 -21212S22 )(,)()(同同乘乘代代入入将将CnnDDSDDm)(22112 代入代入 mkkkmmcdnnccddnnCDnn121112121222)()()( mkkkmcdnnD12122)(221212121021101DmkkBkAkkDmnnmnnnnnnFmkDdEHmk )()(:则则设设 分分布布),(121 mnnmF遵从遵从例例 由表所列资料,根据由表所列资料,根据Fisher准则建立判别函数并准则建立判别函数并检验效果。检验效果。 解: 121237254432D3744X2532XBA,,122021
15、nn, 5683693691218W212121210183000430018300043012568369123691218xxycccccc.,. 解解出出显显著著拒拒绝绝原原假假设设,判判别别效效果果,.),(.)(.)(. FFFDmnnmnnnnnnFcdnnDmkkkm 33329252921136827120302050221212121212120210 )()(:dEdEH3.2 Bayes判别准则与分析判别准则与分析mxx 1 )( mxxX1由由m m个变量个变量组成组成m维空间,用维空间,用表示,表示, X kkGGGG 211GX即即,来自来自K K个总体个总体已知每
16、个总体发生的先验概率(气候概率)分别为已知每个总体发生的先验概率(气候概率)分别为,kPP 1各总体的概率密度分别为各总体的概率密度分别为)(),(XfXfk1设有设有K个不同的事件,有个不同的事件,有m个变量与事件发生有关。个变量与事件发生有关。Bayes判别的几何意义是在判别的几何意义是在m维空间中对应各总体寻找一个划分:维空间中对应各总体寻找一个划分:),( ,mkjikRDDDDDDD 2110tXititiGXDXD 则则判判定定即即中中,,若样本若样本落在落在BayesBayes判别准则,即在选择划分判别准则,即在选择划分kDD 1时,应使发生时,应使发生错判的概率为最小。错判的概
17、率为最小。错判率与什么有关?错判率与什么有关?下图简单地以下图简单地以2维空间的两个总体为例维空间的两个总体为例x1ABx2DADBAO设设A、B两总体,有一个划分两总体,有一个划分DA、DB,对任意样本,对任意样本1)1)来自来自A A而错判为而错判为B B的条件概率的条件概率 BDAdxxfABP)()/(2 2)来自)来自B B而错判为而错判为A A的条件概率的条件概率 ADBdxxfBAP)()/( 总的错判率 ABDBDABAdxxfBPdxxfAPBAPBPABPAPDDg)()()()()/()()/()(),( KijDiKiiKKijDiiDiKjiKjjjdxxfPDDgd
18、xxfGdxxfDDijPGGD)()()(:,)();/(:)111121D总总的的误误判判率率率率而而误误判判为为其其他他总总体体的的概概来来自自的的概概率率而而误误判判为为样样本本来来自自对对应应划划分分,对对个个总总体体, iP )(xfiKDD 1定理:当先验概率定理:当先验概率给定后,给定后,为:为:,总体分布,总体分布Bayes判别的解判别的解 KjiiiiKliijiiljllxfPhxfPhKjljxhxhxD111)()(,)()(:其中:其中: KjiiiijxfPh1)( jKjlhh 1minlGx 即对任一即对任一X X,分别计算,分别计算 ,找出最小值,并作出判断
19、,并作出判断 。max)(min)()()( xfPhxfPxfPxfPhjjjKjiiKijjiiiij11)(xfPjj jjKjlfPx 1max)( BayesBayes判别方法,即对一给定样本判别方法,即对一给定样本X X,分别计算,分别计算 ,将使的的l l作为作为X X的划归类属。的划归类属。 Bayes判别对多组判别具有较高分辨率,但条件是要已判别对多组判别具有较高分辨率,但条件是要已知知P和和fi(x),而多维而多维f(x)不易获得。不易获得。二、正态假设下的二、正态假设下的Bayes判别函数判别函数BayesBayes判别函数判别函数KkfPkkk1 设有设有K个总体,遵从
20、正态分布,且具有相同的协方差个总体,遵从正态分布,且具有相同的协方差)()(exp)(),(/kkmkkkXXfKkNG 122112121 mmmmmmmmmkkkmxxX 11111111111,为计算方便,令:为计算方便,令:kkkkmkkkkXXXXpKkfP 111122112121212121 /)(lnlnlnkkXX 11 由协方差矩阵及逆矩阵的对称性,可知由协方差矩阵及逆矩阵的对称性,可知略去与略去与K无关的项,合并同类项无关的项,合并同类项XPkkkkk1121 ln mkmkmkmkmjjmkjjjkjmmmmmkmkkxcxcxxccxxxxX 111111111111
21、111 其中:其中:kijkikjjijkmjmkjjkjkjmkkjjmkjjjkjkkc01111111111121212121 .)( )(kjkjtKknktkikitijijxxxxKns 111 如如其中参数由样本估计,其中参数由样本估计,mkmkkkkxcxccPy .ln110判别函数判别函数Kk.1 三、利用马氏距离作多级判别三、利用马氏距离作多级判别设设m m维变量的维变量的k k个总体遵从正态分布个总体遵从正态分布),(kkkNG BayesBayes判别函数判别函数)()()(lnlnln/kkkmkkkkXXpfP 12211212若认为若认为K个总体的先验概率均等,个总体的先验概率均等,Pk=1/K,略,略去去211/ln k的差别,要使判别函数达最大,必然要马氏距离最小的差
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 共享出行行业:2025年竞争格局演变与商业模式创新洞察
- 深入分析2025年废弃矿井资源再利用政策环境与发展机遇
- 2025年私募股权投资基金行业投资热点与退出策略行业竞争格局前瞻报告
- 2025年合租租房合同范本:租房合同标准版
- 主题五 迎春花市喜洋洋教学设计-2025-2026学年小学劳动广州版四年级下册-广州版
- 工程维修年底考核方案(3篇)
- 工程团队结构分析方案(3篇)
- 工程审计方案编制要求(3篇)
- 2025年新能源行业反垄断风险预警与技术储备策略报告
- 工程停电计划方案模板(3篇)
- 2025年中国物流集团国际物流事业部招聘面试经验及模拟题集
- 乡镇安全培训课件
- 2025年航空业面试者必看航空公司招聘笔试预测试题及答案
- 2025年全国企业员工全面质量管理知识竞赛题及参考答案
- 2025年秋季开学典礼诗歌朗诵稿:纪念抗战胜利八十周年
- 2025秋仁爱科普版(2024)七年级上册英语教学计划
- 《非物质文化遗产概论(第三版)》全套教学课件
- 2025年信息安全应急演练记录
- 社区医院创建汇报课件
- 轴对称及其性质第1课时课件2025-2026学年人教版数学+八年级上册
- 2025年新疆投资发展集团有限责任公司人员招聘笔试备考题库及答案详解(新)
评论
0/150
提交评论