




免费预览已结束,剩余24页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
判别分析(Discriminant Analysis)一、概述:判别问题又称识别问题,或者归类问题。 判别分析是由Pearson于1921年提出,1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。 根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间,可根据不同情况分别采用以上方法。类别(有的称之为总体,但应与population的区别)的含义具有相同属性或者特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标呢?同一类别的个体之间距离小,不同总体的样本之间距离大。距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距绝对距离马氏距离:(Manhattan distance)设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为,协方差阵为的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为,类似地可以定义个体X与总体(类别)A的距离为明考斯基距离(Minkowski distance): 明科夫斯基距离 欧几里德距离(欧氏距离)二、Fisher两类判别一、训练样本的测量值A类训练样本编号12均数B类训练样本编号12均数二、建立判别函数(Discriminant Analysis Function)为:其中:、和为判别系数(Discriminant Coefficient)可解如下方程组得判别系数。各类的离差阵分别以、表示类内离差阵为、之和三、Y值的判别界值将、代入判别函数,得到相应的,将、代入判别函数,得到相应的,两类的判别界值为:当两类的样本含量相差较多时应加权,用下式计算判别界值将每个个体的、代入判别函数计算,根据判别界值判别归类。四、对判别函数检验为训练样本中两类和在一起的离差阵(注意与的区别)计算Wilks统计量 , ,五、回代 观察判别函数的判别效果举例 设要建立一个判别函数来判别医院的工作情况,公认的A类医院11所,B类医院9所。X1 :床位使用率X2 :治愈率X3 :诊断指数判别指标如下两表:A类医院编号X1X2X3Y 1 98.8285.4993.187.9839 2 85.3779.1099.657.9879 3 86.6480.6496.947.9391 4 73.0886.8298.708.1008 5 78.7380.4497.617.8836 6103.4480.4093.757.8807 7 91.9980.7793.937.8161 8 87.5082.5094.107.3665 9 81.8288.4597.908.180210 73.1682.9492.127.659211 86.1983.5593.307.8919均数89.337382.827394.70737.8781B类医院编号X1X2X3Y 172.4878.1282.387.0300 258.8186.2073.466.7616 372.4884.8774.096.8505 490.5682.0777.157.0413 573.7366.6393.987.2244 672.7987.5977.157.0550 774.2793.9185.546.7346 893.6285.8979.807.3152 978.6977.0186.797.2522均数76.381179.143381.14897.0331合计均数81.85781.17088.6061计算各类中的变量值均数2计算各类的离差阵及两类的离差阵之和3=86.3376-76.3811=9.9562=82.8273-79.1433=3.6840=94.7073-81.1489=13.55844解此方程组得=0.007440=0.032412=0.048055判别函数为5求=7.8781=7.0331=7.4556=7.49786检验=0.192944 =22.3085 、 为相应矩阵的行列式的值7回代(internal validation)判别效果原分类判别函数的判别归类ABA101B 00A正确率= 90.9%B正确率= 100%总正确率(符合率)= 91%A误判率=B误判率=总误判率= 5%符合率的高低取决于所选判别指标的特异性以及训练样本中各个体分类的可靠性。组内回代 组外回代 剔除回代Bayes多类判别注意总体、样品的概念Bayes多类判别是要建立g个判别函数 将每个个体代入每个函数式求得、,对于具体某个个体,哪个Y值最大,就将其判为哪类。Cj 为判别系数过程Bayes多类判别分析的过程1计算判别系数(1)计算各组每个各变量的均数 (2)计算各组的离差阵和类内离差阵=(3)求的逆矩阵A1类的判别系数计算:其余各类的判别系数以同样的方法求得,并可对每个个体的所属类判定求出后验概率(或称事后概率posterior probability,与之对应的是先验概率或事前概率prior probability),这与后面的逐步判别分析中的计算方法一样,这里不做介绍。2假设检验(略放在逐步之后?还是先讲)3判别函数的判别效果观察举例 用Bayes多类判别分析法对前面Fisher 二类判别分析的例子。1原始数据及基本计算(略)1计算类内离差阵数据和其逆矩阵其逆矩阵为 =-692.3312的A类的判别函数为其中逐步判别分析 (Stepwise Discriminant Analysis)从个可能有判别能力的变量中筛选出对判别分类有统计学意义的()个变量,建立判别函数 式中、为各类的先验概率1准备工作(1)计算各类各指标的均数,计算各指标的总均数(2)计算类内离差阵 ,记为 (此为初始阵) 计算总离差阵 ,记为 (3)确定检验水准(或与之相对应的F值)2逐步筛选变量(前进法、后退法、逐步法)筛选变量过程中(无论是引入一个变量还是剔出一个变量),每一步都要对上一步所得的矩阵作消去变换。设现在进行到(g+1)步,上一步(g步)曾得到两个矩阵(,),本步要引入(或剔除)变量,和要按下式以(r,r)为主元作消去变换。每一步中哪个变量的判别能力强?看Wilks 检验方法:是否要剔除?, ,是否要剔除?, ,(略)Bayes多类判别(续)1检验判别函数的判别能力2计算判别系数,建立判别函数应加入先验概率3判别函数对任意两类之间的判别能力Wilks 反映G类之间总的判别能力,任意两类(如E类和F类)间用Mahalanobis D2反映(公式略)对马氏距离的检验用,4判别分类对于某个体,代判别函数,分别计算、,其中最大,则判为该个体数类,必要时还可计算出后验概率:5回代 观察判别函数的判别效果聚类分析(Cluster Analysis)常用的系统聚类、逐步聚类和模糊聚类法1根据相似系数和距离聚类其中相似系数有(1)相关系数(2)列联系数(3)点相关系数常用的距离包括:(1)绝对距离缺点:各变量量纲不同,数量级不同,不能直接向加(可先行标准化后消除上述缺点)个体a、b的距离(也称L1距离)为(标化后)(2)平方距离(也称L2距离)为(标化后)2系统聚类法常用,可用于对个体的聚类,也可用于对指标的聚类以个体间聚类的基本思想:首先定义样品间的距离(L1或L2),以d表示,并定以类间的距离(最大距离法、最小距离法、平均距离法),以D表示。然后开始聚类,开始一个个体一类,n个个体,则有n类。将距离近的两类合并成新的一类,重新计算新类与其他类之间的距离。将距离近的两类合并成新的一类,再重新计算新类与其他类之间的距离。 这样每次聚类之后,减少一类,直至最后所有个体都合成一类。最后将整个聚类过程汇成聚类图,参照图进行分析,以便确定分几类为宜。举例 设有12个个体,各测了3个指标编号指标X1X2X315710271 533214465 2566 9677 7781 48207 99198121074 41145131265 71计算各类(个体间)的距离12类(个体)之间的L1距离(dij)即Dij1 2132 311143 411 8184 5 31012 85 6 5 816 8 46 715 216 812107 8162327231515238 917262426181826 591011 416 4 8 6 421241011 615 513 711172219131112 6 713 5 3 3 91821 5812d12=| 5-7 |+| 7-1 |+| 10-5 |=13d39=| 3-19 |+| 2-8 |+| 14-12 |=24a2与a7距离(2)最近,将其合并,并命名为G13。重新计算其他10类与G13之间的距离,它们与G13间的距离按最小距离法定义,因此D1,13= minD1,2,D1,7 = min 13,15 =13D3,13 = minD3,2,D3,7 = min14,16 =1411类(个体)之间的L1距离G1 G311G3 G41118G4 G5 312 8G5 G6 516 8 4G6 G81627231515G8 G91724261818 5G9G101116 4 8 62124G10G11 6 513 711221913G11G12 613 5 3 31821 5 8G12G131314 810 82326 415 7G13三个3,任意选定其中两类合并,如G1与G5和并-G14G3 G418G4 G616 8G6 G8272315G8 G9242618 5G9G1016 4 62124G10G11 51311221913G11G1213 5 31821 5 8G12G1314 8 82326 415 7G13G1411 8 41517 8 6 310G14有两个3 ,合并起中之一对,G6和G12-G15G3 G418G4 G82723G8 G92426 5G9G1016 42124G10G11 513221913G11G1314 82326 415G13G1411 81517 8 610G14G1513 51518 5 8 7 3G15合并G14与G15-G16G3 G418G4 G82723G8 G92426 5G9G1016 42124G10G11 513221913G11G1314 82326 415G13G1611 51517 5 67G16合并G4与 G10-G17G3 G827G8 G924 5G9G11 52219G11G1314232615G13G16111517 6 7G16G1716212413 45G17合并G13、 G17-G18G3 G827G8 G924 5G9G11 52219G11G16111517 6G16G1814212413 5G18并G3、G11-G19G8 G9 5G9G161517G16G182124 5G18G192219 613G19并G8与G9 -G20G16G18 5G18G19 613G19G20152119G20并G16与G18 -G21G19G2019G20G21 615G21并G19与G21 -G22G21G2215G22并G20与G22-合为一类于是只有G20 ,G22他们之间的距离为15,最后合并为一类可归纳为下表:步数合并的类别距离新类名类内个体1G2,G72G13a2,a72G1,G53G14a1,a53G6,G123G15a6,a124G14,G153G16a1,a5,a6,a125G4,G104G17a4,a106G13,G174G18a2,a4,a7,a107G3,G115G19a3,a118G8,G95G20a8,a99G16,G185G21a1,a2,a4,a5,a6,a7,a10,a1210G19,G216G22a1,a2,a3,a4,a5,a6,a7,a10,a11,a1211G20,G2215G23全部2 7 4 10 1 5 6 12 3 11 8 9 聚类方法不同,得各类的结果也不同对指标的聚类也有最大相似系数和最小相似系数法例 牙槽弓的形态特征需用22个指标才能全面描述,现测量609副牙槽弓的形态指标,得结果如下:609副牙弓形态指标的测量值编号指 标X1X2X22132.541.031.0234.040.537.5334.541.034.060925.033.034.0均数31.539.333.0标准差 3.5 3.5 4.0指标间的相关系数(*0.01)128223688734527289453350678456414140352667384244413280783642464534638489333945463952738891023313942403554708410114420130500271916160911124647403115242525261846121340474437212123242723338713142825211812684830200529242114154240413727394039392428575950151641414137263135363724275764389116175362625437283031302514738222576017185262635640242830312616768419565979181940424643323546515341205056257982625419203942454335364348524223535927788355626920219072564124413633312169534331434348493940212236363431228971524124262320804433262334353722步数合并的类别相关系数新类名 115,160.9123 21,210.9024 33,40.8925 46,220.8926 58,90.8827 612,130.8728 723,190.7929 817,180.7930 97,270.73311028,300.73321124,20.72331229,200.69341326,140.68351425,50.67361531,100.54371632,340.50381733,380.39391836,370.32401935,390.20412041,110.14422140,420.0043逐步聚类应用系统聚类法聚类时,每一步聚类都需计算各类之间的距离,如果对609个人的牙弓作个体间的聚类,计算每两个个体间距离,需185136次!每一步只能合并一类,须经608次,这样计算量很大,作出聚类图时也十分复杂,不便与分析。逐步聚类法可以较好的克服上述缺点。一、原理和步骤 先按某种原则选出一些凝聚点,把每个凝聚点作为聚类的核心。其余个体按就近的原则向各凝聚点凝聚(即归为一类),这样得到初始分类方案。然后对此方案不断修改,直至分类比较合理,不能再修改时为止选凝聚点初始分类分类是否合理?修改方案否最终方案二、选凝聚点 凝聚点应是有代表性的点,以这些凝聚点为基础进行初始分类。可以人为地选择,也可根据某种标准定。常用的方法有:1经验选择。对医院分类时,分别找三所有代表性优、良、差的医院为凝聚点。2人为地把个体按某种标准分为若干类,计算每类的均数,以此为凝聚点。先按优、良、差把医院分三类,分别计算其均数。3密度法 较客观。限定一个d(不宜太大,也不宜太小),以每个个体为中心,以d为半径(想象成一个圆或球),半径内的个体数即为密度。每个个体的密度求出后,以密度大的个体为第 个凝聚点。再考虑密度次大的个体,如它与第 个凝聚点的距离2d,则了作为第 个凝聚点,否则不能作为第个凝聚点。之后再考虑下一个密度次大的个体,如它与第 、 个凝聚点的距离都2d,则可成为 凝聚点。这样一直下去,直至所有的个体都考察一遍,此时选定了若干个凝聚点。三、初始分类。四、逐步修改分类方案,直至无可修改的为止实验部分cluster 过程fastclus 过程varclus 过程tree 过程DISCRIM 过程常用语句及选择项PROC DISCRIM ; CLASS variable ; BY variables ; FREQ variable ; ID variable ; PRIORS probabilities ; VAR variables ; PROC DISCRIM 语句的选择项Data=数据集名 指定调用数据集Simple 打印所有变量的描述性统计量Threshold= P 为分类指定可接受的最小后验概率 0 P 1distance 输出各组间的距离List 列出所有个体的判别的类别listerr 列出判错的个体out=数据集名 指出输出的数据集(包括原始值、后验概率、判别分类)outstat=数据集名 将判别统计量的结果输出到SAS数据集中priors proportional 以训练样本中各类别的比例为先验概率(默认为各类的先验概率相等)先验概率之和须等于1 举例1 分组变量为group,其值分别为A、B、C和D,写作:priors A=.3 B=.25 C=.25 D=.2 举例2 分组变量为group,其值分别为1、2、3、4和5,写作:priors 1=.3 2=.2 3=.2 4=.15 5=.15CLASS variable ; 定义分类的变量BY variables ; 按BY语句中指明的变量分别作判别分析 (在作判别分析分析前先对数据集排序)ID variable ; 定义标识变量,而非观测值号VAR variables ; 指明用于判别的变量data a;input y1-y4 g;y3=0-y3;cards;108.0 9.5 2.875 1.500 164.8 6.5 3.750 -1.000 1-42.0 2.5 5.750 0.000 1-18.0 3.5 5.350 -25.000 121.3 7.5 4.625 -1.250 130.0 7.0 4.500 2.500 167.2 8.0 3.500 -2.000 13.6 8.5 4.250 22.550 242.0 10.0 3.500 0.000 2-48.0 7.5 5.375 -25.000 224.0 9.0 4.300 3.250 233.6 10.0 3.000 8.750 2-21.6 6.5 3.750 6.250 243.2 12.5 4.625 -2.750 344.4 9.5 2.875 0.125 3-50.4 10.5 4.750 -2.500 3-24.0 4.0 5.500 5.000 325.2 13.0 3.250 0.150 3-60.0 11.0 5.000 -10.000 3108.0 9.5 2.875 1.500 164.8 6.5 3.750 -1.000 1-42.0 2.5 5.750 0.000 1-18.0 3.5 5.350 -25.000 121.3 7.5 4.625 -1.250 130.0 7.0 4.500 2.500 167.2 8.0 3.500 -2.000 13.6 8.5 4.250 22.550 242.0 10.0 3.500 0.000 2-48.0 7.5 5.375 -25.000 224.0 9.0 4.300 3.250 233.6 10.0 3.000 8.750 2-21.6 6.5 3.750 6.250 243.2 12.5 4.625 -2.750 344.4 9.5 2.875 0.125 3-50.4 10.5 4.750 -2.500 3-24.0 4.0 5.500 5.000 325.2 13.0 3.250 0.150 3-60.0 11.0 5.000 -10.000 3;proc discrimsimple distance list out=b pool=yes; class g; run;逐步判别分析PROC STEPDISC ; CLASS variable ; BY variables ; FREQ variable ; VAR variables ; PROC STEPDISC Method=stepwise | forward | backwardsle=p sls=p data a; input x1-x4 g; cards;108.0 9.5 -2.875 1.500 164.8 6.5 -3.750 -1.000 1-42.0 2.5 -5.750 0.000 1-18.0 3.5 -5.350 -25.000 121.3 7.5 -4.625 -1.250 130.0 7.0 -4.500 2.500 167.2 8.0 -3.500 -2.000 13.6 8.5 -4.250 22.550 242.0 10.0 -3.500 0.000 2-48.0 7.5 -5.375 -25.000 224.0 9.0 -4.300 3.250 233.6 10.0 -3.000 8.750 2-21.6 6.5 -3.750 6.250 243.2 12.5 -4.625 -2.750 344.4 9.5 -2.875 0.125 3-50.4 10.5 -4.750 -2.500 3-24.0 4.0 -5.500 5.000 325.2 13.0 -3.250 0.150 3-60.0 11.0 -5.000 -10.000 3;proc stepdisc method=stepwise sle=0.15 sls=0.15;class g;run;逐步判别分析PROC FASTCLUS MAXCLUSTERS=n | RADIUS=t ; VAR variables ; ID variable ; FREQ variable ; WEIGHT variable ; BY variables ; PROC FASTCLUS MAXCLUSTERS=n | RADIUS=t ; Data =数据集名Seed=数据集名 指定初始凝聚点(省略时,默认为从Data =数据集名中产生)radius =数值 指定 d “半径”maxc=数值 允许分类的最大类数 maxiter=数值 指定反复计算凝聚点的最大迭代次数converge=数值 指定当任一凝聚点改变时的最大距离=初始凝聚点点间的距离与该值的乘积停止迭代。默认值为0.02。list distance 列出每个个体距离所属类凝聚点的距离out=clusc drift ;data a; input x1-x3; cards;0.13 0.02 0.34 0.36 0.02 0.33 0.15 0.06 0.37 0.15 0.02 0.34 0.25 0.03 0.35 0.32 0.03 0.33 0.15 0.05 0.59 0.14 0.04 1.00 0.24 0.04 0.77 0.10 0.02 0.80 0.16 0.04 1.24 0.15 0.04 0.92 0.05 0.04 0.36 0.69 0.12 0.74 0.42 0.06 0.89 0.52 0.09 0.54 0.31 0.06 0.46 0.26 0.08 0.51 0.38 0.07 0.56 ;proc fastclus maxc=3 maxiter=9 radius=0.25 converge=0 list distance out=clusc drift ;run;对个体的聚类分析PROC CLUSTER METHOD = name ; BY variables ; COPY variables ; FREQ variable ; ID variable ; RMSSTD variable ; VAR variables ; PROC CLUSTER MET
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 细胞分化与癌变衰老机制研究
- 小儿热性惊厥讲解
- 心脏结构图讲解
- 设施葡萄种植技术
- 学生特色发展汇报
- 社区协商案例汇报
- 小龙虾养殖技术
- 素描第一课讲解
- 医院火灾应急预案
- 2026届云南省昭通市化学高一第一学期期中检测模拟试题含解析
- 2025年颁布的《政务数据共享条例》解读学习培训课件
- 外耳道冲洗技术课件
- 2025年风险管理师资格考试试题及答案
- 军区医院保密管理制度
- 异地恢复造林合同范本
- DB32/T+5124.5-2025+临床护理技术规范+第5部分:成人危重症患者有创机械通气气道湿化
- 香港借壳上市协议书
- 2025年医疗企业税收政策对企业数字化转型策略研究
- 三级高频词汇必背
- 2024北森真题题库
- 2025年ECMO试题及答案
评论
0/150
提交评论