多元统计分析教案_第1页
多元统计分析教案_第2页
多元统计分析教案_第3页
多元统计分析教案_第4页
多元统计分析教案_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、课时编号多元统计分析(1-2)课目名称绪论和基本知识授课时间2005.9授课班级数学03(1-2班)统计03(1-2班)教学目的通过本章的教学应使学生充了解多元正态分布,多元数据的多兀统计分析课程有一个概括的认识。特征以及图表示法。重点与难点多兀统计分析的概念及它能解决哪些类型的实际问题。多兀正态分布的定义,多元数据的特征以及图表示法。课堂教学设计米用课堂讲授与学生自学相结合的教学方法,使学生掌握多兀统计分析的概念,多元统计分析的起源和发展,并举例说明多元统计分析能解决的实际问题。讲解多元正态分布的定义,多元数据的特征以及图表示法。使学生了解多元统计分析课程的主要教学内容和教学安排,以及作业、

2、考试的内容及方式。参考书目1、于秀林、任雪松,多兀统计分析,中国统计出版社,19992、王学民,应用多元分析,上海财经大学出版社,1999教案实施效果追记第一章绪论一、多元统计分析的概念多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。利用多元分析中不同的方法还可以对研究对象进行分类和简化。多元分析是实现做定量分析的有效工具。二、多元分析的起源和发展1.1928年,Wishart发表多元正态总体样本协差阵的精确分布,是多元统计分析的开端;2.20世纪30年代多元分析在理论上得到迅速发展;3.20世

3、纪40年代应用于心理、教育、生物等方面;但由于计算量太大,其发展受到影响;4.50年代中期,由于电子计算机的出现和发展,使多元分析方法得到广泛应用;5.60年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大;6.多元统计分析在我国发展较晚,70年代初在我国才受到各个领域的极大关注,应用日益广泛。三、多元分析能解决的实际问题多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。四、多元分析课程讲授的主要内容本课程重点介绍多元分析中常用的六种方法:聚类分析判别分析主成分分析因子分析对应分

4、析典型相关分析我们这门课重点在于应用,参考课本中的公式推导为次要内容,大致了解即可,对每一种分析方法我们要清楚掌握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用SAS与SPSS软件实现上述过程,对所研究的问题能做出合理推断和科学评价。五、作业、考试内容及方式平时作业类型:上机操作,论文;期末考试:3000字左右的课程论文;上机处理题;考试范围涵盖所讲的各种方法以及相关的英文帮助信息。【思考题】1、什么是多元统计分析?2、多元统计分析能解决哪些类型的实际问题?第二章基本知识一、多元正态分布的定义如同一元统计分析中一元正态分布的重要地位一样,多元正态分布在多元统计分析分析中占

5、有重要的地位,因为多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。在实用中遇到的随机向量常常是服从正态分析或近似正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。多元正态分布是一元正态分布的推广,多元分析中的很多统计方法,大都假定数据来自多元正态总体,但要判断已有的一批数据是否来自多元正态总体,并不是一件容易的事。可是反过来要肯定数据不是来自多元正态总体,我们可对各个分量做正态检验,如果各个分量不服从一元正态分布,我们可以断定这批数据不服从多元正态分布。二、多元分析处理的数据特征1 .多元样本中

6、的每个样品,P个指标值往往是有相关关系的,但不同样品之间是相互独立的。2 .多元分析处理的多元样本观测数据一般是横截面数据,即在同一时间横截面上的数据,它不考虑时间因素,即这些数据不是按时间顺序排列的。三、多元数据图表示法图形有助于对所研究数据的直观了解,如果能把一些多元数据直接显示在平面图上,便可从图形一目了然地看出多元数据之间的关系,当只有一、二维数据时,可以使用通常的直角坐标系在平面上点图。当只有三维数据时,虽然可以在三维坐标系里点图,但已经很不方便;当维数大于3时,用通常的方法已经不能点图。在许多实际问题中,多元数据的维数都大于3,如何在平面上来表示多元数据成为备受关注的问题。多元数据

7、的图表示法分为两类:1 .使高维空间的点与平面上的某种图形对应,这种图形能反映高维数据的某些特点或数据间的某些关系,如本章介绍的轮廓图、雷达图、调和曲线图、星座图等;2 .在尽可能多的保留原数据信息的原则下进行降维,若能使数据维数降至2或1,则可在平面上点图,如主成分法、因子分析法等。【思考题】1、什么是多元正态分布?2、多元统计分析分析的数据有何特征?3、多员数据的图表示法有哪几类?课时编号多元统计分析(3-8)课目名称聚类分析授课时间2005.9授课班级数学03(1-2班)统计03(1-2班)教学目的通过本章的教学应使学生了解聚类分析的原理和作用,了解聚类分析中常用的距离和相似系数以及它们

8、各自的特点及适用范围。掌握系统聚类法,能够应用系统聚类法解决实际数据分析问题。重系统聚类法的原理和作用;一点与难系统聚类法的微机实现;用系统聚类法如何解决实际数据分析问题。点课以讲授和多媒体演示为主,讲授以下内容:一、聚类分析的原理和作用;堂二、聚类分析中常用的距离和相似系数;计教三、系统聚类法的原理和作用;四、系统聚类法的微机实现(SAS和SPSS;学五、用多媒体演示如何用系统聚类法解决实际数据分析问题。设1、于秀林、任雪松,多兀统计分析,中国统计出版社,19992、王学民,应用多兀分析,上海财经大学出版社,19993、卫海英,SPSS10.0forWindows在经济管理中的应用,中国统计

9、出版社,2001於士书曰4、卢纹岱,SPSSforWindows统计分析,电子工业出版社,2001经/勺IJ1=15、谭浩强,SAS/PC统计分析软件实用技术,国防工业出版社,19966、胡良平,WindowsSAS6.12&8.0实用统计分析教程,军事医学科学出版社,20017、SAS系统使用手册(8.2版本)8、SPSS系统使用手册(11.5版本)教案实施效果追记第三章聚类分析第一节什么是聚类分析一、聚类分析的概念聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。其中类指相似元素的集合。二、聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似

10、性,根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。第二节距离与相似系数聚类分析的目的是将研究对象进行分类。它是在事先不知类别的情况下对数据进行分类的分析方法。分类的依据有两类:距离与相似系数。常用的距离有以下几种:1、明考夫斯基距离2、绝对距离3、欧氏距离4、切比雪夫距离5、马氏距离6、兰氏距离常用的相似系数有以下几种:1、夹角余弦2、相关系数聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等;根据分类对象不同

11、又分为对样品聚类(又称Q型聚类分析)以及对变量进行聚类(又称R型聚类分析)。对前者聚类多用距离,而后者聚类时多用相似系数。第三节系统聚类法一、系统聚类法的基本思路首先,将n个样品看成n类,定义各样品之间的距离(此时其亦为类间距离);其次,按照某种原则将最接近的两类合并为一个新类,于是得到n-1类,定义并计算各类间距离,然后再从中找出最接近的两类合并成一个新类,重复以上步骤,直到全部样品合并成一类为止,将上述合并过程画成聚类谱系图,据此图可将全部样品分类。二、八种系统聚类方法正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。类与类之间用不同的方法定义距离,就产生了不同的系

12、统聚类方法,系统聚类方法包括最短距离法、最长距离法、类平均法、重心法、WARD法等八种不同的方法,但这些方法聚类的步骤是完全一样的。当采用欧氏距离时,八种并类方法可归结为统一的递推公式。三、谱系图及利用谱系图进行分类根据谱系图确定分类个数的准则:并提出了一些Bemirmen于1972年提出了应根据研究的目的来确定适当的分类方法,根据谱系图来分析的准则。准则A各类重心之间的距离必须很大;准则B:确定的类中,各类所包含的元素都不要太多;准则C:类的个数必须符合实用目的;准则D若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。应该指出,关于类的个数如何确定的问题,至今还没有一个合适的标

13、准,也就是说对任何观测数据都没有唯一正确的分类方法。第四节聚类分析的微机实现一、系统聚类分析在SPSS中的实现在SPSS主菜单中选择AnalyzeClassifyfHierarchicalCluster,可实现系统聚类分析。二、系统聚类分析在SAS中的实现在SAS/ASSIST模块中没有现成的菜单操作,须通过编程来实现聚类分析。SAS/STAT模块中的Cluster过程可实现系统聚类分析,可调用Tree过程生成聚类谱系图。1 .CLUSTER±程的一般格式为:PROCCLUSTERDATA=A数据集METHO咪类方法选项;VAR聚类用变量;COPY复制变量;RUN;其中的VAR语句指

14、定用来聚类的变量。COPY语句把指定的变量复制到OUTTREE=的数据集中。PROCCLUSTER语句的主要选项有:(1) METHOD=选项,这是必须指定的,此选项决定我们要用的聚类方法,主要由类间距离定义决定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法还要额外指定密度估计方法(K=、R=或HYBRID)。(2) DATA=输入数据集,可以是原始观测数据集,也可以是距离矩阵数据集。(3) OUTTREE=输出数据集,把

15、绘制谱系聚类树的信息输出到一个数据集,可以用TREE过程调用此数据集绘图树形图并实际分类。(4) STANDARD选项,把变量标准化为均值为0,标准差为1。(5) PSEUDO选项和CCC选项。PSEUDO选项要求计算伪F和伪工统计量,CCC选项要求计算由、半偏岳和CCC统计量。其中CCC统计量也是一种考察聚类效果的统计量,CCC较大的聚类水平是较好的。2 .TREE过程用法TREB±程可以把CLUSTERS程产生的OUTTREE数据集作为输入数据集,画出谱系聚类的树形图,并按照用户指定的聚类水平(类数)产生分类结果数据集。其一般格式如下:NCLUSTER啖数选项;PROCTREED

16、ATA数据集OUT=俞出数据集COPY复制变量;RUN;其中COPY句把输入数据集中的变量复制到输出数据集(实际上这些变量也必须在CLUSTERS程中用COPY句复制到OUTTREE数据集)。PROCTREE语句的重要选项有:(1) DATA=数据集,指定从CLUSTER过程生成的OUTTREE=数据集作为输入数据集。(2) OUT=数据集,指定包含最后分类结果(每一个观测属于哪一类,用一个CLUSTER变量区分)的输出数据集。(3) NCLUSTERS=选项,由用户指定最后把样本观测分为多少个类(即聚类水平)。(4) HORIZONTAL,画树形图时沿水平方向画,即绘制水平方向的树形图,系统

17、默认绘制垂直方向的树形图。3 .例题我们以多元统计分析中一个经典的数据作为例子,这是Fisher分析过的莺尾花数据,有三种不同莺尾花(SetosahVersicolor、Virginica),种类信息存入了变量SPECIES,并对每一种测量了50棵植株的花瓣长(PETALLEN)、花瓣宽(PETALWID)、花萼长(SEPALLEN)、花萼宽(SEPALWID)。这个数据已知分类,并不属于聚类分析的研究范围。这里我们为了示例,假装不知道样本的分类情况(既不知道类数也不知道每一个观测属于的类别),用SAS去进行聚类分析,如果得到的类数和分类结果符合真实的植物分类,我们就可以知道聚类分析产生了好的

18、结果。这里我们假定数据已输入SASUSER.IRIS中(见系统帮助菜单的“SamplePrograms|SAS/STAT|DocumentationExample3fromProcCluster")。为了进行谱系聚类并产生帮助确定类数的统计量,编写如下程序:procclusterdata=sasuser.irismethod=wardouttree=otreepseudoccc;varpetallenpetalwidsepallensepalwid;copyspecies;run;可以显示如下的聚类过程(节略):TPseudoPseudoiNCL-ClustersJoined-FRE

19、QSPRSQRSQERSQCCCFt*2e149OB16OB7620.0000001.0000.148OB2OB5820.0000071.0000.1854.1.T147OB96OB1072!0.0000071.0000.1400.1.T146OB89OB1132!0.0000071.0000.1253.1.T145OB65OB1262!0.0000071.0000.1182.9.T25CL50OB5770.0006340.98240.9733356.446291.05.624CL78CL6270.0007420.98170.9722546.430293.59.823CL68CL3890.00

20、08050.98090.9711016.404296.06.922CL30OB13760.0008960.98000.9698686.352298.35.121CL70CL3340.0009760.97900.9685456.290300.73.220CL36OB25100.0010870.97790.9671196.206302.99.819CL40CL22190.0011410.97680.9655796.146306.17.718CL25CL39100.0012490.97550.9639066.082309.56.217CL29CL45160.0013510.97420.9620816

21、.026313.58.216CL34CL32150.0014620.97270.9600795.984318.49.015CL24CL28150.0016410.97110.9578715.929323.79.814CL21CL5370.0018730.96920.9554185.850329.25.113CL18CL48150.0022710.96690.9526705.690333.88.912CL16CL23240.0022740.96470.9495414.632342.49.611CL14CL43120.0025000.96220.9458864.675353.35.810CL26C

22、L20220.0026940.95950.9415474.811368.112.99CL27CL17310.0030600.95640.9362965.018386.617.88CL35CL15230.0030950.95330.9297915.443414.113.87CL10CL47260.0058110.94750.9214965.426430.119.16CL8CL13380.0060420.94140.9105145.806463.116.35CL9CL19500.0105320.93090.8952325.817488.543.24CL12CL11360.0172450.91370

23、.8723313.987515.141.03CL6CL7640.0300510.88360.8266644.329558.157.22CL4CL31000.1110260.77260.6968713.833502.8115.61CL5CL21500.7725950.00000.0000000.000.502.8伪F图形CCCffl形伪产图形半偏R2图形输出结果列出了把150个观测每次合并两类,共合并149次的过程。NCL列指定了聚类水平G(即这一步存在的单独的类数)。“-ClustersJoined-"为两列,指明这一步合并了哪两个类。其中OBcxx表示原始观测,而CLxxx表示在某

24、一个聚类水平上产生的类。比如,NCL为149时合并的是OB16和OB76即16号观测和76号观测合并;NCL为1(最后一次合并)合并的是CL5和CL2,即类水平为5时得到的类和类水平为2时得到的类合并,CL5又是由CL9和CL19合并得到的,CL2是由CL4和CL3合并得到的,等等。FRE荣示这次合并得到的类中有多少个观测。SPRS提半偏长,RSQ穴,ERSQ是在均匀零假设下的R?的近似期望值,CC8CCC计量,PseudoF为伪F统计量,Pseudot*2为伪!统计量,NormRMSDist是正规化的两类兀素间距离的均方根,Tie指示距离最小的候选类对是否有多对。因为我们假装不知道数据的实际

25、分类情况,所以我们必须找到一个合理的分类个数。为此,考察CCC伪F、伪户和半偏凡2统计量。我们打开assist模块,调入上面产生的OTRE嗽据集,绘制各统计量的图形。因为类水平太大时的信息没有多少用处,所以我们用WHER踣句对OTRE瞰据集取其类水平不超过30的观测。各统计量的图形显示:CC磔计量建议取5类或3类(局部最大值),伪F建议3类(局部最大值),伪工建议3类(局部最大值处是不应合并的,即局部最大值处的类数加1),半偏岳建议3类。由这些指标看,比较一致的是3类,其次是5类。为了看为什么不能明显地分为三类,我们对四个变量求主分量,画出前两个主分量的散点图。可以看出Setosa(红色)与其

26、它两类分得很开,而Versicolor(绿色)与Virginica(蓝色)则不易分开。因为我们知道要分成3类,所以我们用如下的TREEM程绘制树形图并产生分类结果数据集:proctreedata=otreehorizontalnclusters=3out=oclust;copyspecies;run;树形图因为观测过多所以显得杂乱。从图中也可以看出,分为两类可以分得很开,而分成三类时距离则不够远。这个TREEi±程用NCLUSTERS=3定了分成3个类,结果数据集OCLUS用有一个CLUSTE变量代表生成的分类。我们把这个数据集调入ASSIST模块中用不同颜色代表SPECIES(实际

27、种类),用不同符号代表不同聚类过程分类,作前两个主分量散点图。可以看出,Virsicolor和Virginica两类互相都有分错为对方的。为了统计分类结果,可以用ASSIST模块FREQ±程作表,得到如下结果:SPECIES(Species)CLUSTERFrequency|1|2|3|TotalSetosa|0|0|50|50Versicolor|49|1|0|50Virginica|15|35|0|50Total643650150可见Virginica被分错的较多。第五节聚类分析的相关文章分析从中国期刊网上检索与聚类分析有关的文章。登陆河北经贸大学的主页,点击“图书馆”,点击“中

28、国期刊网”,下载并安装CAJ浏览器;在“检索词”栏目里输入“聚类分析”,在“检索项”栏选择“关键词”,然后点击“跨库检索”,用聚类分析方法写的文章被检索出来,我们可以打开看到文章的全文。推荐文章:1 .朱品,用统计分析方法对区域经济状况进行分类比较研究,鞍山师范学院学报,1999.92 .更应存,我国各地农民家庭消费结构分析,数理统计与管理,1995.1补充内容:SAS程序简单运行样例:假设我们有一个班学生的数学成绩和语文成绩,数学满分为100,语文满分为120,希望计算学生的平均分数(按百分制)并按此排名,可以在程序窗口输入此程序:title'95级1班学生成绩排名;datac950

29、1;inputname$1-10sex$mathChinese;avg=math*0.5+chinese/120*100*0.5;cards;李明男9298张红艺女89106王思明男8690张聪男98109刘颍女80110;run;procprint;run;procsortdata=c9501;bydescendingavg;run;procprint;run;要运行此程序,只要用鼠标单击工具栏的提交图标Al,或用Locals菜单的Submit命令。运行后,运行记录窗口出现如下内容:50title'95级1班学生成绩排名;51datac9501;52inputname$1-10sex

30、$mathchinese;53avg=math*0.5+chinese/120*100*0.5;54cards;NOTE:ThedatasetWORK.C9501has5observationsand5variables.NOTE:TheDATAstatementused0.11seconds.60 ;61 run;62 procprint;run;NOTE:ThePROCEDUREPRINTused0.0seconds.63 procsortdata=c9501;64 bydescendingavg;65 run;NOTE:ThedatasetWORK.C9501has5observatio

31、nsand5variables.NOTE:ThePROCEDURESORTused0.05seconds.66 procprint;run;NOTE:ThePROCEDUREPRINTused0.0seconds.其中记录了每段程序的运行情况、所用时间、生成数据保存情况。如果有错误还会用红色指示错误。比如,最后的procprint后面的分号如果丢失,记录窗口显示如下错误:67 procprintrun;181ERROR181-322:Procedurenamemisspelled.错误说明为过程名错拼,但实际上是丢了分号导致但实际上是丢了分号导致print和run连成了一个词。在程序窗口用“L

32、ocals|Recalltext”菜单或按F4功能键可以调回程序修改。正确运行后输出窗口出现如下结果:95级1班学生成绩排名OBSNAMESEXMATHCHINESEAVG1李明男929886.83332张红艺女8910688.66673王思明男869080.50004张聪男9810994.41675刘颍女8011085.833395级1班学生成绩排名OBSNAMESEXMATHCHINESEAVG1张聪男9810994.41672张红艺女8910688.66673李明男929886.83334刘颍女8011085.83335王思明男869080.5000这里有两页输出,第一页是输入数据后用口

33、是输入数据后用PROCPRINT显示的数据集,第二页为按平均分排名后的结果。从上面的例子程序可以看出SAS程序的一些特点。SAS程序由语句组成,语句用分号结束。SAS程序中大小写一般不区分(字符串中要区分大小写)。SAS程序中的空格、空行一般可以任意放置,这样我们可以安排适当的缩进格式使得源程序结构清楚易读。SAS程序由两种“步”构成,一种叫数据步(datastep),一种叫过程步(procstep),分别以DATA语句和PRO前句开始。SAS程序以DATA语句开始,输入或处理有关的数据集(SAS的数据文件),让系统读有关数据。DATA语句的部分叫数据步。然后是PROC语句,指出进行那种数据分

34、析。PROC语句的部分叫过程步,利用系统提供的过程(SAS提供的数据分析子程序)进行分析。数据步和过程步由若干个语句组成,一般以RUN语句结束。【思考题】1、简述系统聚类法的基本思路。2、写出样品间相关系数公式。3、常用的距离及相似系数有哪些?它们各有什么特点?4、利用谱系图分类应注意哪些问题?5、在SAS和SPSS中如何实现系统聚类分析?课时编号多元统计分析(9-14)课目名称判别分析授课时间2005.10授课班级数学03(1-2班)统计03(1-2班)教学目的通过本章的教学应使学生了解判别分析的基本思想和几种常用判别分析方法,能够用这些方法分析解决实际问题。重点与难点判别分析的基本思想;几

35、种常用判别分析方法的微机实现;用判别分析方法分析解决实际问题。课以讲授和多媒体演示为主,讲授以下内容:一、判别分析的基本思路和作用;堂二、判别分析与聚类分析的关系;计教学三、几种常用判别分析方法(距离判别法费歇判别法、贝叶斯判别法、逐步判别法)的基本思想、判别准则及在SAS和SPSS中的实现;设四、多媒体演示如何用判别分析方法分析解决实际问题。1、于秀林、任雪松,多兀统计分析,中国统计出版社,19992、王学民,应用多元分析,上海财经大学出版社,19993、卫海英,SPSS10.0forWindows在经济管理中的应用,中国统计出版社,2001参考书目4、卢纹岱,SPSSforWindows统

36、计分析,电子工业出版社,2001多勺1J口5、谭浩强,SAS/PC统计分析软件实用技术,国防工业出版社,19966、胡良平,WindowsSAS6.12&8.0实用统计分析教程,军事医学科学出版社,20017、SAS系统使用手册(8.2版本)8、SPSS系统使用手册(11.5版本)教案实施效果追记第四章判别分析第一节什么是判别分析一、判别分析的基本思想判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意义

37、上是最优的,如错判概率最小或错判损失最小等。其前提是总体均值有显著差异,否则错分率大,判别分析无意义。二、判别分析与聚类分析的关系区别:判别分析是在研究对象分类已知的情况下,根据样本数据推导出一个或一组判别函数,同时指定一种判别准则,用于确定待判样品的所属类别,使错判率最小。聚类分析预先不知道分类,它要解决的问题,正是对给定的未知分类的样品进行分类,它是一种纯统计技术,只要有多指标存在,就能根据各观测的变量值近似程度排序,只是描述性的统计,而判别分析能对未知分类观测判别分类,带有预测性质。联系:两者都是研究分类问题,两种方法往往联合起来使用。样品聚类是进行判别分析之前的必要工作,根据样品聚类的

38、结果进行判别分析。第二节距离判别法一、距离判别法的基本思想如果事先已有m类的先验知识,将每一类视为一个总体,计算各样品与各总体之间的距离,将各样品分别归入与其距离最近的类。二、两总体距离判别设有两个总体Gi、G2,X为一样品,定义X到两总体的距离分别为d(X,G1)和d(X,G2),判别准则为:判别准则的直观表述即样品离哪个总体最近,则判该样品属于哪个总体。与上述准则等价的想法,就是算出样品到各总体间距离的差,根据差值来判断样品的归属。三、两总体距离判别的几何意义四、多总体距离判别分为协方差阵相同和协方差阵不同两种情况,它们的判别函数有差异,而判别准则无差异。第三节费歇判别法一、费歇判别法的基

39、本思想从两类总体中抽取具有p个指标的样品的观测数据,借助于方差分析的思想构造一个判别函数,即y=c1X1+C2X2+CpXp,其中系数ci,C2,,cp的确定原则是使两组间的区别达到最大,而使两组内部的离差达到最小。二、判别函数费歇准则下的线性判别函数y(x)=cx的解应为方程|B一入E|=0的最大特征根入1对应的特征向量C1。三、判别准则对于待判样品,将样品的P个变量值代入判别函数中求出K个判别分Y值,比较结果大小,将样品分入最大判别值对应的组中去。第四节贝叶斯判别法一、贝叶斯判别法的基本思想贝叶斯判别法是源于贝叶斯统计思想的一种判别分析法。这种方法先假定对研究对象已有一定的认识,这种认识以

40、先验概率来描述,然后取得一个样本,用样本来修正已有的认识,得到后验概率分布,利用后验概率分布进行统计推断。二、判别规则1、后验概率最大2、错判的平均损失最小第五节逐步判别法从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献大的变量加入到模型中去,同时也检验在模型中是否存在由于新变量的引入而对判别贡献不太显著的变量,如果有,将其从模型中删除,直到模型中的所有变量都符合引入模型的条件,而模型外的变量都不符合引入模型的条件为止,整个过程结束。整个筛选过程实质就是作假设检验,通过检验引入显著性变量,剔除不显著变量。反映在输出结果上,通常可以用F值的大小作为变量引入模型的标准,即

41、一个变量是否能进入模型主要取决于协方差分析的F检验的显著水平。逐步判别过程本身并不建立判别函数,筛选出重要变量后,可用前面所讲的方法建立判别函数和判别准则,对新样品进行判别归类。第六节判别分析的微机实现一、判别分析在SPSS中的实现在SPSS主菜单中选择AnalyzefClassifyfDiscriminant,可实现判别分析。二、判别分析在SAS中的实现在SAS/ASSIST模块中没有现成的菜单操作,须通过编程来实现判别分析。SAS/STAT模块中实现判别分析的过程有:Discrim,实现最基本的判别分析;Candisc,将判别分析与典型相关分析相结合;Stepdisc,逐步判别分析,是一个

42、变量的筛选过程。1.SAS/STAT的DISCRIM过程一般格式如下:PROCDISCRIMDATA=入数据集选项;CLASS分类变量;VAR判别用自变量集合;RUN;其中,PROCDISCRIM吾句的选项中“输入数据集”为训练数据的数据集,包括一个分类变量(在CLAS邮句中说明)和用来建立判别公式的自变量集合(在VAR语句中说明)。可以用“TESTDAT儆据集”选项指定一个检验数据集,检验数据集必须包含与训练数据集相同的自变量集合,用训练数据集产生判别准则后将对检验数据集中的每一个观测给出分类值,如果这个检验数据集中有表示真实分类的变量可以在过程中用“TESTCLAS分类变量”语句指定,这样

43、可以检验判别的效果如何。用“OUTSTA蹴据集”指定输出判别函数的数据集,后面可以再次用DISCRIM过程把输出的判别函数作为输入数据集(DATA=读入并用它来判另【J检验数据集(TESTDATA节。用“OUT数据集”指定存放训练样本及后验概率、交叉确认分类的数据集。用“OUTD=据集”指定训练样本及组密度估计数据集。用“TESTOU联据集”指定检验数据的后验概率及分类结果。用“TESTOUTD=g集”输出检验数据及组密度估计。PROCDISCRIM悟句还有一些指定判别分析方法的选项。用METHOD=NORMALNPAR选择参数方法或非参数方法。用POOL=NO<TESMYES表示不用合

44、并协方差阵、通过检验决定是否使用合并协方差阵、用合并协方差阵。如果使用非参数方法,需要指定“R=核估计半径”选项来规定核估计方法或者指定“K=M近邻个数”来规定最近邻估计方法。PROCDISCRIM悟句有一些规定显示结果的选项。用LISTERR显示训练样本错判的观测。用CROSSLISTERRL示用刀切法对训练样本判别错判的观测。用LIST对每一观测显示结果。用NOCLASSIFYt消对训练样本的分类检验。用CROSSLIST1示对训练样本的刀切法的判别结果。用CROSSVALIDATE求进行交叉核实。当有用“TESTDATA=指定的检验数据集时用TESTLIST选项显示检验数据集的检验结果,

45、当有TESTCLASS句时用TESTLISTERRT以列J出检验样本判错的观测,用POSTER逃项可以打印基于分类结果的分类准则的后验概率错误率估计。用NOPRINT选项可以取消结果的显示。在DISCRIM过程中还可以使用PRIORS句指定先验概率2的取法。“PRIORSEQUAL指定先验概率相等。“PRIORSPROPORTIONA凿定先验概率与各类个数成正比。“PRIORS既率值表”可以直接指定各组的先验概率值。2.例题其中包含了作物的实际种类用卫星遥感可以分辨作物的种类。CROP医训练数据集(CROP和四种遥感指标变量(X1-X4)。datacrops;title'五种作物遥感数

46、据的判别分析inputcrop$x1-x4;cards;CORN16273133CORN15233030CORN16272726CORN18202523CORN15153132CORN15323215CORN12151673SOYBEANS SOYBEANS SOYBEANS SOYBEANS SOYBEANS SOYBEANS COTTONCOTTON COTTON COTTONCOTTON COTTONSUGARBEETS SUGARBEETS SUGARBEETS SUGARBEETS SUGARBEETS SUGARBEETS CLOVER CLOVERCLOVER CLOVER20

47、23 23 2524 24 25 3221 25 23 2427 45 24 1212 13 15 4222 32 31 4331 32 33 3429 24 26 2834 32 28 4526 25 23 2453 48 75 2634 35 25 7822 23 25 4225 25 24 2634 25 16 5254 23 21 5425 43 32 1526 54 2 54CLOVERCLOVERCLOVER12 45 32 5424 58 25 3487 54 61 2151 31 31 1696 48 54 6231 31 11 1156 13 13 71CLOVER32132

48、732CLOVER36265432CLOVER53080654CLOVER32326216;run;用下列DISCRIM过程可以产生线性判别函数(METHOD=NORMA定使用参数方法,POOL=YES项规定使用合并协方差阵,这样产生的判别函数是线性函数,为系统的默认值)。用OUTSTA谓项指定了判别函数的输出数据集为CROPSTAT这个数据集可以用来判别检验数据集。选项LIST要求列出每个观测的结果,CROSSVALIDATE求交叉核实。“PRIORSPROPORTIONAL按各种类出现的比例计算各类的先验概率。procdiscrimdata=cropsoutstat=cropstatmet

49、hod=normalpool=yeslistcrossvalidate;classcrop;priorsproportional;varx1-x4;run;结果如下(节略):DiscriminantAnalysis36Observations35DFTotal4 Variables31DFWithinClasses5 Classes4DFBetweenClasses上面是一些数据信息基本情况oClassLevelInformationPriorCROPFrequencyWeightProportionProbabilityCLOVER1111.00000.3055560.305556CORN7

50、7.00000.1944440.194444COTTON66.00000.1666670.166667SOYBEANS66.00000.1666670.166667SUGARBEETS66.00000.1666670.166667以上为各组的基本情况,并列出了先验概率值。因为指定了“PRIORSPROPORTION”AL所以各组的先验概率按实际数据中各组比例计算。DiscriminantAnalysisPairwiseGeneralizedSquaredDistancesBetweenGroups2_-1_D(i|j)=(Xi-Xj)'COV(Xi-Xj)-2lnPRIORj上面为各组

51、均值间广义距离平方的公式,即以(元)=伉一凡卜7伉周)2111%_-1_-1_Constant=-.5X'jCOVXj+lnPRIORjCoefficientVector=COVXj上面即线性判别函数的公式,给出了到第j类的线性判别函数的常数项和各自变量的系数的公式。下面具体给出了各类的线性判别函数的各常数项及系数值。CROPCLOVERCORNCOTTONSOYBEANSSUGARBEETCONSTANT-10.98457-7.72070-11.46537-7.28260-9.80179X10.08907-0.041800.024620.00003690.04245X20.17379

52、0.119700.175960.158960.20988X30.118990.165110.158800.106220.06540X40.156370.167680.183620.141330.16408比如,CLOVER(苜蓿)类的线性判别函数就可以用-10.98457+0.08907*X1+0.17379*X2+0.11899*X3+0.15637*X4来计算。下面为判别分析对训练数据集(CalibrationData)用线性判别函数的判别结果,先给出了广义平方距离函数的公式DiscriminantAnalysisClassificationResultsforCalibrationDat

53、a:WORK.CROPSResubstitutionResultsusingLinearDiscriminantFunctionGeneralizedSquaredDistanceFunction:2-1Dj(X)=(X-Xj)'COV(X-Xj)-2lnPRIORj然后是每个观测属于各类的后验概率的公式:PosteriorProbabilityofMembershipineachCROP:Pr(j|X)=exp(-.5D2j(X)/SUMkexp(-.5D2k(X)下面就是每个观测的判别情况,包括原来属于哪一类(FromCROP,分入了哪一类ClassifiedintoCROP),以及属于各类的后验概率值。有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论