




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
判别分析方法通常要给出一个判别指标(判别函数),同时还要指定一种判别规未知总体的样品x离哪个总体的距离最近,就判断它属于哪个总体。2.多总体情况则x€Gh.为了方便使用,需要寻找尽量简单的判别函数,其中在准则下的线性判别函数就是只利用总体的一、二阶矩就可求得的判别卅且(r=维3=2)向量的Fche「线性判别函数**G2三、贝叶斯判别法Ml当抽取了一个未知总体的样品X,要判断它属于哪个总体,可用著名的贝叶斯公式|PC/I对二中⑷f=l若或者计算按先验概率加权的误判平均损失:初初|再比较这m个误判平均损失的hi(x),…hm(x)的大小,选取其中最小的,就在实际问题中,错判的损失可以给出定性分析,但很难用数值来表示,但应错判概率广义平方距离判别法在正态总体的假定下,按贝叶斯判别的思想,在错判造成的损失认为相等的情况下得到的判别函数,其实就是马氏距离判别法在考虑先验概率及协方差阵是否所有变量中,有的变量对区分k个总体的判别能力可能很强,有算,还可能因为变量间的相关性引起计算上的困难(病态或退化等)及计算精度的降低。另一方面由于一些对区分k个总体的判别能力很小间没有显著差异时,说明相应的变量Xi对判别分类不起作用,应该剔除。变量判别能力的度量通常采用删去该变量后考察判别能力的变化,即考察该验。若否定Ho,表示变量Xi对区分k个总体的判别能力是显著的(在显著水平a下)。否则,变量Xi对区分k个总体的判别能力不能提供附加信息,这个变量应仅保留判别能力显著的变量的方法,就是逐步判别法。1)逐步筛选变量:根据各变量对区分k个总体的判别能力的大小来筛选向后剔除或逐步筛选的方法来选择区分k个总体的最佳变量子集。(2)判别归类:对已选出变量子集,使用前文的某种判别方法对样品进行判WEIGHT变量;METHOD二BACKWARD/FORWARD/STEPWISE——指定筛选方SLE/SLENTRY=p――指定向“向前选入法”的显著水平(默认SLS/SLSTAY=p――指定向“后退剔除法”的显著水平(默认DISCRIM过程根据一个分类变量和若干数值变量的数据计算出各种判别函数(判别准则),根据这个判别函数,再将该批数据或其他数若假设每个组内样本的分布为多元正态分布,基于多元正态分布理论的参数法数方法(核密度法和K最邻近法),来估计类别的密度从而实现分类的功能。PROCDISCRIMdata=^l|练数据集>;TESTCLASS变量;TESTFREQ变量;VAR变量列表;WEIGHT变量;outstat二数据集名--生成数据集,包含各种统计量(均值,标out/outcross=B据集名---生成(/交叉)数据集,包括来自训练数据集的所有数据,后验概率和每个观测通过重替换被分入的类(当canonical选项);outd二数据集名生成一个包含来自训练数据集的所有数据和注:前面命令若加test前缀,则输出testdata数据集生成的相关数据method=normal/npar—■指定生成分类准则的方法,默认为normal表pool=no/test/yes确定平方距离的度量,是以合并协方差阵还是组内协方差阵为基础,默认pool=yes米用合并协方差阵得出线性判别函数;当pool=no时,采用单个组内协方差阵得出二次判别函数;当methodBartlett修正,当不加可选项short时,线性判别函数会直接给出,而二次型判slpool=p——指定齐性检验的显著水平(默认p=0.1,只用于pool=testthreshold二p—指定分类中可以接受的最小后验概率p值,默认p=0,若某观察样品归于某组的最大后验概率值小于该p值,则将该样品归入其它outd二数据集名生成一个包含来自训练数据集的所有数据和p1+p2+p3=1.该过程步计算平方马氏距离并做单变量与多变量的单向方差分析并且计算包括典型系数和典型变量得分的输出数据集。定若干组带有几个定量变量的观察,典型判别分析得出与组有最大可能多重相最大的多重相关叫做第一典型相关。线性组合的系数称为典型系数或典型第一典型变量无关的线性组合得到。以此类推。CANDISC过程得出的典型变量,如同主成分概括全变差一样来概括类间典型变量间不相关,但典型系数并不正交。因此,典型变量并不代表原始变验总体中该相关及更小的典型相关为零的假设。采用F近似值比一般2的近似值能给出更好的小样本结果。每一类内变量应该具有近似的多元正态分布,为了概率水平有效,方差矩阵应该是共同的。第一典型相关大于等于组与任何一个原始变量间的多重相关。该过程产生一个包含每一典型变量得分的输出数据集。可以利用print过程列出这些值,还可行以用plot过程作出典型变量对的散点图以助于直观地解释组的不同。另一个输出数据集包含由factor过程利用旋转算法得到的WEIGHT变量;out二数据集名——生成包含原始数据和典型变量得分的数据集;outstat二数据集名-生成一个包含各种统计量的数据集;singular=p——指定判别全样本相关阵和合并类内协方差阵奇异的标准pcorr/pcov/psscp—并类内相关矩阵(基于合并类内协方差的tcorr/tcov/tsscp全样本相关矩阵、协方差矩阵、修正SSCP矩wcorr/wcov/wsscp——每一类水平的类内相关矩阵、协方差矩阵、anova----检验总体中每一变量类均值相等的假设的单变量统计量;distanee—溪均值间的平方马氏(Mahalanobis)距离;short—打印典型相关表和多元检验统析的例子。数据(C:\MyRawData\Iris.txt)是对3种鸢尾花:刚毛鸢尾花容量为50的样本,测量其花萼长(sepallen)x1、花萼宽(sepalwid)x2、花瓣长(petallen)x3、花瓣宽(petalwid)x4,单位为文件(F)徧辑(匚)格弍(O)査看(V)帮嗽H)inputsepallensepalwidpetallenpetalwidspecies@@;shortsle=0.3sls=0.05;JJ 运行结果及说明:DiscriminantAnalysisofFisher(1936)IrisDataObs12356In9scpn11sn1wi(1pots1widspecies2Setoea15VirginiesISVersicolor9STEPDISC过程选择变诵的右法为STEPH1SE总杆本大小分类水平150分祈中的变晶输入雙号的显著性水平保留变量的显署性水平40读取的观测数11便用的规测数1160分类水平佶怠spec1es权爭SetosaVersicolorVttraiuolorVirgirncaDiscriminantAnalysisofFisher(1936S1EPDISC过桿逐步琏择汇J&步己输入F債Pr>ry>ml:>ckiIfliNbdo步己输入F債Pr>ry>ml:>ckiIfliNbdoASCCi1l)1Pel.oilLenglfiIn血0.94141130.16<00010.058S2828<.0001047O0S5SS<.00012sepnlwidlSe^psilWidthin耐.0.3700*3.04<.0001(ioa昭m<00010.55966394<.o»133petalwidP&iHlIUidthinvnu0.32293457<0001(1O249T&M<.00010<00014斗RepaIlemSepalLer>Ktliin廨0.06154.J20.0103tt?3SK3<.0001□.595S4MI<.0001petalwid、sepallen,并且没有变量被剔除出来。说明最有效的判别函数是由这四但是,第一个进入的petallen变量却已经能很好区分类别信息。它0.47068586.将它与四个变量全部用于判别分析时的平均平方典型相关值特别注意,用前三个变量时的平均平方典型相关值0.59495691与用全部如果用一个变量作为指标建立判别函数式,我们应该首先使用变量petallen。总样本大小150总自由度149/3分类间自由度2读取的观测数150使用的观测数160speciesSetosaVersico1orVirg>nica分类水平信宝Virginico蠶DiscriminantAnalysisofFisher(1936)IrisDataDISCRIM过稈MuitivuriatoStatisticalMethodsp262.变「诙单变量检診统计量差差■f未加权0.9413717按方差加权0.9413/17使用以下项的車新替换汇总:二次判别函数从speciosSotosaVersicolorVirginicaSetosa00Versico1or04Virginis03合计"spocics-的岀错数估计SotosaVorsioolorVirginica总计便用以下项的交叉验证结果:二次判别函数成员的后輸槪率叩wi歸规测Vorsico1orVirginiesVirRinica**误分类的观测分入的观测数和百分比从iesSuLosaVitginica合计Setosa0Versicolor03合计Virgini合计00.00100.00斗斗8.00100.0094.TO10Q.00«SpecieEff的岀错数估计pool二test时,表示要先经过原假设Ho:3组的方差齐性,检验若满足齐性则拒绝接受H。.所以将用各类内部的协方差矩阵计算类间的平方距离,并建立判别函petallen具有显著区别3组总体的能力(与前面的逐步判别分析的结果应该是一立起来的二次判别函数,再用来判别每一个样品的理论归属,最后得到与实际归属0.0467=95.33%。同时还给出了按实际分类与理论分类吻合与否的交叉表,主对角线上的50、46、47为两种分类一致的记录数利用二次判别函数还导出互相证实的结果。所谓互相证实,就是在共有N个样品中,每次留下一个样品作为新样品,由N—1个样品都留下来一次作为新样品来判别其归属。这样有利于减小用全部数据建立的判别函数再对全部数据进行回代判别所产生的偏差。误判率=0.0467,正好等于用全部数据建立起来的二次判别函数的误判率,但要注意这两者的误判率常常是不相等析118号样品:其原来实际归属为Versicolor类,理论误判为Virginica类,是由于分别按二次判别函数计算出来的这个样品归属3类的事后概率得到的,归属于Setosa的事后概率为0.0000,归属于Versicolor概率值中最大者所对应的样品类为理论归类结果。总样本入小150总自由度119变量3分类内自由度117分类3分类间自由庫2读取的观期数I50使用的观测数I50分类水平信愿兀验概率频数权堇比例分类内协方臣蚱阵V.飄fipociofiSetOSHVersinolorVirgjni3333LBt9SI5,152773乱3方曲于卡方11在01水平处将在幵别鬲数中使用分类到species的广义平方和离从speciesSetosaVersicolorVirginicaSctosaVersicolorVirgiriicaDiscriminantAnalysisofFisher(1936)IrisDataDISCRIM过稈MultivnriateStatisticsandFA卩proximationsS=240471.5统计星分子自由度分母自由度Wi1ksvLambda6Pi1lai*sFrace6Hote11ing-LawleyTrace30.43518421733.026Roy*sGroatostRoot3注:Roy最大根的F统计罕是上限-注Wilk^k绍县蜡确値.使用以下项的重新替换结果:二次判别函数成员的后矜槪率species观测589♦♦♦♦♦误分类的观测分入"species'的观测数和百分比Vfirsicdor合计00Q1Virgiriioa01合计^species11的出错数怙计aO2ou(k0333Ohsspecies¥ir/>irtiuuTYPFNAMFpetal1onpptnllensepaIwid_LINL/H_petallensepaIwid_C0NST_8epaIwid__CONST_d 0.纠sepa1wid在由“outstat=数据集名”选项规定的输出数据集中,其中_type_为quad的输setosa=-68.60+4.41petalle*2.00petalwid+2.16sepalwid-0.19petallen2+0.10petallenxpetan><sepalwid-0.52petalwid2+0.03petalwid冶epalwid-0.04sepalwid2用同样的方法求得versicolor和virginica值,比较三者谁最大例2用例1中的训练数据集和判别函数,对新数据集discrimdata=testout=plotpJJnoclassifycrosslisterrJ运行结果及说明:DiscriminantAnalysisofFisher(1936)IrisDataUsingNormaIDensityEstimateswithEqualVarianceDISCRIM过程分类3分类间自由度2读収的观测数150便用的观测数150分类水平信息speciasSufosciVirginica壹量名称频数权車5050.000050bO.0000概率便用以下项的交叉輪证结果:贱11判别西数成员的恰壽槪率jspgicsAspaoiASSetosaVersicolorVirginicaVersion1orVirginiGB*0.00000.18630.S117VirRinicaVersico1or*n00000.95530.0447VirgiriicaV«rsico1or+U(KXXJ0.522B0.4775VinicaVorsicolor*0.00000.522B0.4775VirRinicnVersiGO1or*0.(KXX)0.VirRinicaVorsico1or*□cooo0.69300.3070VirgiriicHVersiculor+U(KXXJ0.B2250.4775VorsiaolorV*r(?inica*0(XXX)0.49910.5009Versioo1orVi"ini歸*0.(KXX)0.49310.Versico1orVir^inica+□00000.32590.6741*钱分类的观测分入的观测数和百分比speciesVersicolor合计Setosa0uVerRico1orUVirfiinica斗合计ion.wj3Z0U100.0(]^spucios"的岀措数诂计SntosaVarsioolnrViinica总计调用了四次判别分析discrim过程。前二个过程假设组内服从多元正态分布,是参数分析方法(method二normal)。第一个过程假设三个类的方差相等(pool二yes),第二个过程假设三个类的方差不相等(pool二no)。后二个过程采用非参数分析方法(method=npar),在正态核估计密度中分别考虑带宽相等(pool二yes)和带宽不等(pool=no)的两种情况。对新数据集中的记录进行分类后,每一条记录的分类标上面是第一个过程的输出结果,其它过程输出结果也是类似的 J运行结果及说明:要求检验总体中每一个变量类均值相等的假设。CANDISC过稈总样本大小150总自由度149变量斗分类内自由度147分类3分类间自由度2读取的观测数150使用的观测数150分类水平信息5050.00000.33333350LO.OOOO0.3333335050.00000.333333Versicolor55Virginica1098106.31265概率>到species的平方耳氏距离从speciesSe紅—差合并"J标准—sopa1IonScpnlLengthinins.7.9506sepaIwidSepalWidthinurn.4.35873.39690.400849.16<.0001peta1lenPetalLengthinma.4.303320.9070potcIwidPetalWidthinnm.Multivariate统计量9sTrace_LawIeyTraceStatisticsandF偵F偵分子自由度8884分母自由度Pr>F288<.0001290<.0001203.4<.00010.72243580.8689444典即相关相关特征值差偵比例累积"ttF分子自由度分母自由虔Pr>F1098482109845080002468096987232191931906520.4711970.4614450.0637340.2220270.28540.00881.00000.7779733713.79总计典邢结构83标签Can1Can?sepa11ensopaIwidpota11onpetsIwid待征lnv(E)*H=CanRsa/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 鹊桥关爱活动策划方案
- 河南公考试题及答案
- 焊工车间考试题及答案
- 国企财务考试题及答案
- 光纤产品考试题及答案
- 古筝乐理考试题及答案
- 公会培训考试题及答案
- 幼儿园教学教案设计:安全用绳子
- 钢材销售考试题及答案
- 釜山方言考试题及答案
- 传热学全套PPT完整教学课件
- 部编版六年级道德与法治上册第5课《国家机构有哪些》优秀课件
- 瑞美检验医生工作站操作手册
- 欧美电影文化(上海工程技术大学)【智慧树知到】网课章节答案
- 双人心肺复苏
- 全过程工程咨询服务大纲
- T-GDPA 3-2021 奥利司他胶囊质量标准
- GB/T 31586.2-2015防护涂料体系对钢结构的防腐蚀保护涂层附着力/内聚力(破坏强度)的评定和验收准则第2部分:划格试验和划叉试验
- GB 21258-2007常规燃煤发电机组单位产品能源消耗限额
- GA/T 1499-2018卷帘门安全性要求
- 2型糖尿病的综合管理课件
评论
0/150
提交评论