应用多元统计分析课后题答案_第1页
应用多元统计分析课后题答案_第2页
应用多元统计分析课后题答案_第3页
应用多元统计分析课后题答案_第4页
应用多元统计分析课后题答案_第5页
已阅读5页,还剩63页未读 继续免费阅读

应用多元统计分析课后题答案.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况, 12 (,) p XXXX的 联合分布密度函数是一个 p 维的函数,而边际分布讨论是 12 (,) p XXXX的子向量的 概率分布,其概率密度函数的维数小于 p。 2.2 设二维随机向量 12 ()XX服从二元正态分布,写出其联合分布。 解:设 12 ()XX的均值向量为 12 ,协方差矩阵为 2 112 2 212 ,则其联 合分布密度函数为 1/2 1 2 22 112112 22 212212 11 ( )exp()() 22 f xxx。 2.3 已知随机向量 12

2、()XX的联合密度函数为 1212 12 22 2()()()()2()() ( ,) () () dc xaba xcxa xc f x x badc 其中 1 axb, 2 cxd。求 (1)随机变量 1 X和 2 X的边缘密度函数、均值和方差; (2)随机变量 1 X和 2 X的协方差和相关系数; (3)判断 1 X和 2 X是否相互独立。 (1)解:随机变量 1 X和 2 X的边缘密度函数、均值和方差; 1 1212 1 22 2()()()()2()() () () () d x c dc xaba xcxa xc fxdx badc 12212 2 2222 2()()2()()2

3、()() () ()() () d d c c dc xa xba xcxa xc dx badcbadc 121 2222 0 2()()2()2() () ()() () d d c c dc xa xba txa t dt badcbadc 22 121 2222 0 2()()()2() 1 () ()() () d cd c dc xa xba txa t badcbadcba 所以 由于 1 X服从均匀分布,则均值为 2 ba ,方差为 2 12 ba 。 同理, 由于 2 X服从均匀分布 2 1 2 1 , () 0 x xc d fxdc 其它 , 则均值为 2 dc , 方差

4、为 2 12 dc 。 (2)解:随机变量 1 X和 2 X的协方差和相关系数; 12 cov( ,)x x 1212 1212 22 2()()()()2()() 22() () db ca dc xaba xcxa xcabdc xxdx dx badc ()() 36 cd ba 12 12 cov( ,)1 3 xx x x (3)解:判断 1 X和 2 X是否相互独立。 1 X和 2 X由于 12 1212 ( ,)( )() xx f x xfxfx,所以不独立。 2.4 设 12 (,) p XXXX服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相 互独立的随机变量。 解:

5、 因为 12 (,) p XXXX的密度函数为 1/2 1 1 11 ( ,.,)exp()() 22 p p f xx x x 又由于 2 1 2 2 2 p 222 12p 2 1 2 1 2 2 1 1 1 p 则 1 ( ,.,) p f xx 2 1 1/2 2 2221 2 12 2 1 1 11 exp()() 22 1 p p p x x 2 22 1 2311 12 222 12 () ()()1111 exp. 2222 p pp p p x xx 2 1 2 1 ()1 exp(). () 22 p ii p i i i x f xf x 则其分量是相互独立。 2.5由

6、于 多 元 正 态 分 布 的 数 学 期 望 向 量 和 均 方 差 矩 阵 的 极 大 似 然 分 别 为 1 n i i n XX 1 ()() n ii i n XX XX 35650.00 12.33 17325.00 152.50 X 201588000.0038900.0083722500.00-736800.00 38900.0013.06716710.00-35.80 83722500.0016710.0036573750.00-199875.00 -736800.00-35.800-199875.0016695.10 注:利用注:利用 1 1 pn n 1XX, S 1 (

7、) nnn n 1 1X IX 其中其中 10 01 n I 在 SPSS 中求样本均值向量的操作步骤如下: 1. 选择菜单项 AnalyzeDescriptiveStatisticsDescriptives, 打开 Descriptives 对话框。 将待估计的四个变量移入右边的 Variables 列表框中,如图 2.1。 图 2.1 Descriptives 对话框 2. 单击 Options 按钮,打开 Options 子对话框。在对话 框中选择 Mean 复选框,即计算样本均值向量,如图 2.2 所示。单击 Continue 按 钮返回主对话框。 图 2.2Options 子对话框

8、3. 单击 OK 按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表 2.1,即 样本均值向量为(35.3333,12.3333,17.1667,1.5250E2) 。 表 2.1 样本均值向量 在 SPSS 中计算样本协差阵的步骤如下: 1. 选择菜单项 AnalyzeCorrelateBivariate,打开 Bivariate Correlations 对话框。将三个变量移入右边的 Variables 列表框中,如图 2.3。 图 2.3BivariateCorrelations 对话框 2. 单击 Options 按钮,打开 Options 子对话框。选择 Cross-produ

9、ct deviations and covariances 复选框,即计算样本离差阵和样本协差 阵,如图 2.4。单击 Continue 按钮,返回主对话框。 图 2.4Options 子对话框 3. 单击 OK 按钮,执行操作。则在结果输出窗口中给 出相关分析表,见表 2.2。表中 Covariance 给出样本协差阵。 (另外,Pearson Correlation 为皮尔逊相关系数矩阵, Sum of Squares and Cross-products 为样本离 差阵。 ) 2.6 渐近无偏性、有效性和一致性; 2.7 设总体服从正态分布,( ,) p NX ,有样本 12 ,., n

10、 X XX。由于X是相互独立的正 态分布随机向量之和,所以X也服从正态分布。又 111 ( ) nnn ii iii EEnEnn XXX 22 111 11 ( ) nnn ii iii DDnD nnn XXX 所以( ,) p NX 。 2.8 方法 1: 1 1 ()() 1 n ii i n XX XX 1 1 1 n ii i n n X X XX 1 1 ( )() 1 n ii i EEn n X XXX 1 1 1 n ii i EnE n X XXX 1 11 (1) 11 n i nn nnn 。 方法 2: 1 () n ii i SX -X)(X -X 1 ( n i

11、i i X -X)X -X) 11 ()()2()()() nn iii ii n X - X -X - X-X)(XX 1 ()()2 ()() n ii i nn X - X -X)(XX)(X 1 ()()() n ii i n X - X -X)(X 1 1 ()()()() 11 n ii i EEn nn S X - X -X)(X 1 1 ()()() 1 n ii i EnE n X - X -X)(X。 故 1n S 为的无偏估计。 2.9.设 (1)(2)( )n X ,X,.,X是从多元正态分布( ,) p NX 抽出的一个简单随机样本, 试求S 的分布。 证明: 设 *

12、 * ()* 111 ij nnn 为一正交矩阵,即 I。 令 12n12n = ( ) = XXX, (1,2,3,4,),in i X由于独立同正态分布 且 为正交矩阵 所以 12 () n 独立同正态分布。且有 1 1 n ni in , 1 1 ()() n ni i EEn n ,()Var n Z。 1 ()()(1,2,3,1) n aajj j EEran 1 1 n aj j n n r 1 0 n aj nj i nr r 1 ()() n aajj j VarVarr 22 11 nn ajjaj jj r Varr 所以 121n 独立同(0,)N分布。 又因为 1 (

13、)() n jj i SXX XX 1 n jj j n X X XX 因为 11 11 nn iinn ii nnnn nn XXXXZ Z 又因为 n n n j jj X X X XXXXX 2 1 21 1 1 2 12n n X X XXX X 1 2 12n n Z Z ZZZ Z 所以原式 nn n j jjnn n j jj ZZZZZZXX 11 1122 . nn nn Z ZZ ZZ Z - 故 1 1 n jj j S,由于 121 , n Z ZZ 独立同正态分布(0,) p N,所以 1 1 (1, ) n jjp j Wn S 2.10.设() ii X np是来

14、自(,) pii N 的简单随机样本,1,2,3,ik, (1)已知 2 . k 1 且 2 . k 1 ,求和的估计。 (2)已知 2 . k 1 求 2 ,., k1 和的估计。 解: (1) 11 12 1 . a n k a i ai k nnn xx, 11 12 . a n k aa ii ai k nnn xxxx (2) 1 ln (,) k L 2 11 1 ln ()exp 2 a n k n paa iaia ai 2 -1 (x - ) (x - ) 11 11 ln ()ln()ln 222 a n k aa iaia ai n Lpn2 -1 ,(x - ) (x

15、- ) 2 11 11 ln ( ,)1 ()()0 22 a n k aa iaia ai Ln XX 1 1 ln (,) ()0(1,2,., ) j n j ijj i j L jk X 解之,得 1 1 j n jjij i j n xx, 11 12 . j n k jj ji k nnn ijij xxxx 第三章 3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。 其基本思想和步骤均可归纳为: 答: 第一,提出待检验的假设和 H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临值,从而得到否定域; 第四,根据样本

16、观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出 决策(拒绝或接受) 。 均值向量的检验: 统计量 拒绝域 在单一变量中 当 2 已知 0 ()X zn /2 | zz 当 2 未知 0 ()X tn S /2 | |(1)ttn ( 22 1 1 () 1 n i i SXX n 作为 2 的估计量) 一个正态总体 00 H: 协差阵已知 212 000 ()() ( )Tnp XX 22 0 T 协差阵未知 2 (1)1 ( ,) (1) np TF p np np 2 (1) np TF np ( 21 00 (1)()()Tnnn XSX) 两个正态总体 012 H: 有

17、共同已知协差阵 212 0 ()() ( ) n m Tp nm XY XY 22 0 T 有共同未知协差阵 2 (2)1 ( ,1) (2) nmp FTF p nmp nmp FF (其中 21 (2)()() n mn m Tnm nmnm XYSXY) 协差阵不等mn -1 () ( ,) np n FF p np p Z S Z FF 协差阵不等mn 1 () ( ,) np n FF p np p - Z S Z FF 多个正态总体 k H 210: 单因素方差 (1) (1,) () SSA k FF knk SSE nk FF 多因素方差 ( ,1)p nk k EE TAE

18、协差阵的检验 检验 0 0p HI: /2 /21 exp 2 np ne tr n SS 00p HI: /2 /2 * 1 exp 2 np ne tr n SS 检验 12k 012k H: 统计量 /2/2 /2/2 11 i i kk nn pnnp kii ii nn SS 3.2 试述多元统计中霍特林分布和威尔克斯 分布分别与一元统计中 t 分布和 F 分布的关 系。 答: (1)霍特林分布是 t 分布对于多元变量的推广。 2 221 2 () () () () n X tn XSX S 而若设(,) p NX,( ,) p WnS且X与S 相互独立,pn,则称统计量的分布为非中

19、心霍特林 T2分布。 若( ,) p NX0 ,( ,) p WnS且X与S相 互 独 立 , 令 21 Tn X S X, 则 2 1 ( ,1) np TF p np np 。 (2)威尔克斯 分布在实际应用中经常把 统计量化为 2 T统计量进而化为F统计量, 利用F统计量来解决多元统计分析中有关检验问题。 与F统计量的关系 p 1 n 2 n F统计量及分别 任意 任意 1 11 1 1 1 1( ,1) ( ,1) ( ,1) npp n F p np pp n 任意 任意 2 1 1 1 1 1( ,2) (2 ,2() ( ,2) p nnp Fpnp pp n 1 任意 任意 1

20、12 21 212 1(1,) (,) (1,) nn n F n n nn n 2 任意 任意 12 1 21 2 12 1(2,)1 (2,2(1) (2,) n nn Fnn nn n 3.3 试述威尔克斯统计量在多元方差分析中的重要意义。 答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。 012k H: 1ij Hij:至少存在使 用似然比原则构成的检验统计量为 ( ,1)p nk k EE TAE 给定检验水 平,查 Wilks 分布表,确定临界值,然后作出统计判断。 第四章 4.1 简述欧几里得距离与马氏距离的区别和联系。 答: 设 p 维欧几里得空间中的两点 X X=和

21、 Y Y=。 则欧几里得距 离为。欧几里得距离的局限有在多元数据分析中,其度量不合理。会受到 实际问题中量纲的影响。 设 X,YX,Y 是来自均值向量为,协方差为的总体 G 中的 p 维样本。则马氏距离为 D(X,Y)=。当即单位阵时, D(X,Y)=即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离 的推广。 4.2 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某 种最优性质,能把属于不同类别的样本点尽可能地区别开来。设 R1,R2,Rk 是 p 维空 间 R p 的 k 个子集,如果它们互不

22、相交,且它们的和集为,则称为的一个 划分。判别分析问题实质上就是在某种意义上,以最优的性质对 p 维空间构造一个“划 分” ,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答: 距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。 其基本思想都 是分别计算样本与各个总体的距离(马氏距离) ,将距离近的判别为一类。 两个总体的距离判别问题 设有协方差矩阵相等的两个总体G G1 1和G G2 2,其均值分别是 1 1和 2 2,对于一个新的样品X X, 要判断它来自哪个总体。计算新样品X X到两个总体的马氏距离D D 2 2( (X,GX,G1 1)和D D

23、 2 2( (X,GX,G2 2) ,) , 则 X X ,D 2(X X,G G 1 1)D 2(X X,G G 2 2) X X ,D 2(X X,G 1) D 2(X X,G G 2 2, 具体分析, 22 12 ( ,)( ,)DGDGXX 11 1122 111111 111222 111 211122 ()()()() 2(2) 2() XXXX X XX X XX X 11 211212 1 12 12 2()()() 2() 2 2()2 () X X X X 记( )()WX X 则判别规则为 X X ,W(X) X X ,W(X)0 多个总体的判别问题。 设有k个总体 k

24、GGG, 21 ,其均值和协方差矩阵分别是 k , 21 和 k , 21 , 且 k 21 。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属 于哪个总体。 具体分析, 21 ( ,)()()DG XXX 111 1 2 2()C X X X X XI X 取 I 1 , 1 2 1 C,k, 2 , 1。 。 可以取线性判别函数为 ( )WC XI X, , k, 2 , 1 相应的判别规则为 i GX 若 1 ( )max() i k WC XI X 4.4 简述贝叶斯判别法的基本思想和方法。 基本思想:设 k 个总体 k GGG, 21 ,其各自的分布密度函数)(,),(),(

25、21 xxx k fff,假设 k 个总体各自出现的概率分别为 k qqq, 21 ,0 i q,1 1 k i i q。设将本来属于 i G总体的样品 错判到总体 j G时造成的损失为)|(ijC,kji, 2 , 1,。 。 设k个总体 k GGG, 21 相应的p维样本空间为 ),( 21k RRRR。 在规则R下,将属于 i G的样品错判为 j G的概率为 xx dfRijP j R i )(),|( jikji, 2 , 1, 则这种判别规则下样品错判后所造成的平均损失为 k j RijPijCRir 1 ),|()|()|( ki, 2 , 1 则用规则R来进行判别所造成的总平均损

26、失为 k i i RirqRg 1 ),()( k i k j i RijPijCq 11 ),|()|( 贝叶斯判别法则,就是要选择一种划分 k RRR, 21 ,使总平均损失)(Rg达到极小。 基本方法: k i k j i RijPijCqRg 11 ),|()|()( xx dfijCq k i k j R ii j 11 )()|( k j R k i ii j dfijCq 11 )()|(xx 令 1 ( | )( )( ) k iij i qC j i fh xx,则 k j R j j dhRg 1 )()(xx 若有另一划分),( * 2 * 1 * k RRRR, k j

27、 R j j dhRg 1 * * )()(xx 则在两种划分下的总平均损失之差为 k i k j RR ji ji dhhRgRg 11 * * )()()()(xxx 因为在 i R上上)()(xx ji hh对一切 j 成立,故上式小于或等于零,是贝叶斯判别的解。 从而得到的划分 ),( 21k RRRR 为 1 |( )min( ) iij j k Rhh xxx ki, 2 , 1 4.5 简述费希尔判别法的基本思想和方法。 答:基本思想:从k个总体中抽取具有 p 个指标的样品观测数据,借助方差分析的思想构 造一个线性判别函数 1122 ( ) pp Uu Xu Xu XXu X 系

28、数),( 21 p uuuu可使得总体之间区别最大,而使每个总体内部的离差最小。将新样 品的 p 个指标值代入线性判别函数式中求出 ()UX 值, 然后根据判别一定的规则, 就可以判 别新的样品属于哪个总体。 4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。 答: 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的 两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 当 k=2 时,若则费希尔判别与距离判别等价。当判别变量服从正态分布时, 二者与贝叶斯判别也等价。 当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判 别、

29、贝叶斯判别不同。 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X X , W(X) X X ,W(X)lnd 距离判别的判别规则是 X X ,W(X) X X ,W(X)0 二者的区别在于阈值点。当 21 qq ,) 1|2()2|1 (CC时, 1d , 0lnd 。二者完全 相同。 4.7 设 有 两 个 二 元 总 体和 , 从 中 分 别 抽 取 样 本 计 算 得 到 , 假设,试用距离判别法建立判别函数和判 别规则。 样品 X X=(6,0) 应属于哪个总体? 解:= ,= , = 即样品 X X 属于总体 4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞

30、销,三种平销。下表是这十种品 牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。 销售情况 产品序号 销售价格 口味评分 信任度评分 畅销 1 2.2 5 8 2 2.5 6 7 3 3.0 3 9 4 3.2 8 6 平销 5 2.8 7 6 6 3.5 8 7 7 4.8 9 8 滞销 8 1.7 3 4 9 2.2 4 2 10 2.7 4 3 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。 现有一新品牌的饮料在该超市试销, 其销售价格为 3.0, 顾客对其口味的评分平均为 8,信任评分平均为 5,试预测该饮料的销售情况。 解:增加 group 变量,

31、令畅销、平销、滞销分别为 group1、2、3;销售价格为 X1,口味评 分为 X2,信任度评分为 X3,用 spss 解题的步骤如下: 1. 在 SPSS 窗口中选择 AnalyzeClassifyDiscriminate,调出判别分析主界面, 将左边的变量列表中的“group”变量选入分组变量中,将 X1、X2、X3变量选入自 变量中,并选择 Enterindependentstogether 单选按钮,即使用所有自变量进行判 别分析。 2. 点击 DefineRange 按钮, 定义分组变量的取值范围。 本例中分类变量的范围为 1 到 3,所以在最小值和最大值中分别输入 1 和 3。单击

32、 Continue 按钮,返回主界 面。如图 4.1 图 4.1 判别分析主界面 3. 单击 Statistics按钮,指定输出的描述统计量和判别函数系数。选中 Function Coefficients 栏中的 Fishers:给出 Bayes 判别函数的系数。 (注意:这个选项不是 要给出 Fisher 判别函数的系数。这个复选框的名字之所以为 Fishers,是因为按判 别函数值最大的一组进行归类这种思想是由 Fisher 提出来的。这里极易混淆,请 读者注意辨别。 )如图 4.2。单击 Continue 按钮,返回主界面。 图 4.2 statistics 子对话框 4. 单击 Cla

33、ssify按钮,弹出 classification 子对话框,选中 Display 选项栏中的 Summarytable 复选框, 即要求输出错判矩阵, 以便实现题中对原样本进行回判的 要求。如图 4.3。 图 4.3classification 对话框 5. 返回判别分析主界面,单击 OK 按钮,运行判别分析过程。 1) 根据判别分析的结果建立 Bayes 判别函数: Bayes 判别函数的系数见表 4.1。表中每一列表示样本判入相应类的 Bayes 判别函数系数。由 此可建立判别函数如下: Group1: 3761.162297.121689.11843.811XXXY Group2: 3

34、086.172361.131707.10536.942XXXY Group3: 3447. 62960. 41194. 2449.173XXXY 将各样品的自变量值代入上述三个 Bayes 判别函数,得到三个函数值。比较这三个函数值, 哪个函数值比较大就可以判断该样品判入哪一类。 Classification Function Coefficients group 1 2 3 x1 -11.689-10.707-2.194 x2 12.29713.3614.960 x3 16.76117.0866.447 (Constant) -81.843-94.536-17.449 Fishers lin

35、ear discriminant functions 表4.1 Bayes判别函数系数 根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被 正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在3种平销饮料中,有2种被 正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整 体的正确率为80.0%。 Classification Resultsa group Predicted Group Membership Total 1 2 3 Original Count 1 3104 2 1203 3 0033 % 1 75.0

36、25.0.0100.0 2 33.366.7.0100.0 3 .0.0100.0100.0 a. 80.0% of original grouped cases correctly classified. 表4.2 错判矩阵 2) 该新饮料的0 . 31X,82 X,53 X,将这3个自变量代入上一小题得到的Bayes 判别函数,2Y的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重 复上述的判别过程, 并在classification子对话框中同时要求输出casewiseresults, 运行判 别过程,得到相同的结果。 4.9 银行的贷款部门需要判别每个客户的信用好坏(是否未

37、履行还贷责任) ,以决定是否给 予贷款。可以根据贷款申请人的年龄( 1 X) 、受教育程度( 2 X) 、现在所从事工作的年数 ( 3 X) 、未变更住址的年数( 4 X) 、收入( 5 X) 、负债收入比例( 6 X) 、信用卡债务( 7 X) 、 其它债务( 8 X)等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据, 根据样本资料分别用距离判别法、Bayes 判别法和 Fisher 判别法建立判别函数和判别规则。 某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58) ,对其进行信用好坏 的判别。 目前信用 好坏 客户 序号 1 X 2 X 3 X

38、4 X 5 X 6 X 7 X 8 X 已履行还 贷责任 1 23 1 7 2 31 6.60 0.34 1.71 2 34 1 17 3 59 8.00 1.81 2.91 3 42 2 7 23 41 4.60 0.94 .94 4 39 1 19 5 48 13.101.93 4.36 5 35 1 9 1 34 5.00 0.40 1.30 未履行还 贷责任 6 37 1 1 3 24 15.101.80 1.82 7 29 1 13 1 42 7.40 1.46 1.65 8 32 2 11 6 75 23.307.76 9.72 9 28 2 2 3 23 6.40 0.19 1.

39、29 10 26 1 4 3 27 10.502.47 .36 解:令已履行还贷责任为 group0,未履行还贷责任为 group1。令(53,1,9,18,50,11.20, 2.02,3.58)客户序号为 11,group 未知。用 spss 解题步骤如下: 1. 在 SPSS 窗口中选择 AnalyzeClassifyDiscriminate, 调出判别分析主界面, 将左边 的变量列表中的“group”变量选入分组变量中,将61XX 变量选入自变量中, 并选择 Enterindependentstogether 单选按钮,即使用所有自变量进行判别分析。 2. 点击 DefineRange

40、 按钮,定义分组变量的取值范围。本例中分类变量的范围为 0 到 1,所以在最小值和最大值中分别输入 0 和 1。单击 Continue 按钮,返回主界面。 3. 单击 Statistics按钮,指定输出的描述统计量和判别函数系数。选中 Function Coefficients 栏中的 Fishers 和 Unstandardized。单击 Continue 按钮,返回主界面。 4. 单击 Classify按钮,定义判别分组参数和选择输出结果。选择 Display 栏中的 Casewise results,以输出一个判别结果表。其余的均保留系统默认选项。单击 Continue 按钮。 5. 返

41、回判别分析主界面,单击 OK 按钮,运行判别分析过程。 1) 用费希尔判别法建立判别函数和判别规则: 未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分, 所 以该系数使用起来比标准化的系数要方便一些。具体见表 4.3 。 表 4.3 未标准化的典型判别函数系数 由此表可知, Fisher 判别函数为: 8383. 27792. 06710. 05024. 04357. 03173. 02687. 6132. 0794.10XXXXXXXXY 用Y计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知 分类,如若与 group0 的重心距离较近则属于 gr

42、oup0,反之亦然。各类重心在空间中的 坐标位置如表 4.4 所示。 表 4.4 各类重心处的费希尔判别函数值 用 bayes 判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且 误判造成的损失也相等,所以距离判别法与 bayes 判别完全一致。 如表 4.5 所示, group 栏中的每一列表示样品判入相应列的 Bayes 判别函数系数。 由此可 得,各类的 Bayes 判别函数如下: 8504.377994.106723.135969. 24943. 43033. 12070.941340. 0693.1180XXXXXXXXG 8116.497133. 76182.17

43、5086. 34681. 63874. 12660.1261184. 0296.1711XXXXXXXXG 表 4.5 Bayes 判别函数系数 将各样品的自变量值代入上述两个 Bayes 判别函数,得到两个函数值。比较这两个函数值, 哪个函数值比较大就可以判断该样品该判入哪一类。 2) 在判别结果的 CasewiseStastics 表中容易查到该客户属于 group0,信用好。 4.10 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的 化验:血清铜蛋白 1 X、蓝色反应 2 X、尿吲哚乙酸 3 X和中性硫化物 4 X,数据见 下表。试用距离判别法建立判别函数,并

44、根据此判别函数对原样本进行回判。 类别病人序号 1 X 2 X 3 X 4 X 胃癌患者 12281342011 22451341040 32001671227 417015078 51001672014 胃炎患者 萎缩性 6225125714 7130100612 815011776 91201331026 10160100510 非胃炎患者 11185115519 1217012564 13165142531510011772 解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为 group1、group2、group3,由于此题 中假设各类出现的先验概率相等且误判造

45、成的损失也相等, 所以距离判别法与 bayes 判别完 全一致。用 spss 的解题步骤如下: 1.在 SPSS 窗口中选择 AnalyzeClassifyDiscriminate, 调出判别分析主界面, 将左边的变量 列表中的“group”变量选入分组变量中,将 X1、X2、X3、X4变量选入自变量中,并选择 Enter independentstogether 单选按钮,即使用所有自变量进行判别分析。 2.点击 DefineRange 按钮,定义分组变量的取值范围。本例中分类变量的范围为 1 到 3,所 以在最小值和最大值中分别输入 1 和 3。单击 Continue 按钮,返回主界面。

46、3.单击 Statistics按钮,指定输出的描述统计量和判别函数系数。选中 FunctionCoefficients 栏中的 Fishers:给出 Bayes 判别函数的系数。 4.单击 Classify按钮,弹出 classification 子对话框,选中 Display 选项栏中的 Summarytable 复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。 5.返回判别分析主界面,单击 OK 按钮,运行判别分析过程。 根据判别分析的结果建立 Bayes 判别函数: Bayes 判别函数的系数见表 4.6。表中每一列表示样本判入相应类的 Bayes 判别函数系数。由 此可

47、建立判别函数如下: Group1: 4073. 03778. 02753. 01164. 0212.791XXXXY Group2: 4012. 03317. 02595. 01130. 0721.462XXXXY Group3: 4059. 03100. 02637. 01130. 0598.493XXXXY 将各样品的自变量值代入上述三个 Bayes 判别函数,得到三个函数值。比较这三个函数值, 哪个函数值比较大就可以判断该样品判入哪一类。 表 4.6 Bayes 判别函数系数 根据此判别函数对样本进行回判,结果如表4.7。从中可以看出在5个胃癌患者中,有4个被 正确地判定,有1个被错误地

48、判定为非胃炎患者,正确率为80%。在5个萎缩性胃炎患者中, 有4个被正确判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个非胃炎患者中, 有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。整体的正确率为80.0%。 表 4.7 错判矩阵 第五章 5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有 n 个样本,对每 个样本测得 p 项指标(变量)的数据,已知每个样本属于 k 个类别(或总体)中的某一类, 通过找出一个最优的划分, 使得不同类别的样本尽可能地区别开, 并判别该样本属于哪个总 体。聚类分析是分析如何对样品(或变量)进行

49、量化分类的问题。在聚类之前,我们并不知 道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别 分析是在已知有多少类及是什么类的情况下进行分类, 而聚类分析是在不知道类的情况下进 行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类, 过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构 造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把 n 个样本看作 p 维空间的 n 个点。点之间的

50、距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离: 1/ 1 ( )() p q q ijikjk k dqXX q 取不同值,分为 (1)绝对距离( 1q ) 1 (1) p ijikjk k dXX (2)欧氏距离( 2q ) 2 1/2 1 (2)() p ijikjk k dXX (3)切比雪夫距离(q ) 1 ( )max ijikjk kp dXX (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 21 ()()() ijijij dM XXXX 1 1 ( ) p ikjk ij k ikjk XX d

51、L pXX 将变量看作 p 维空间的向量,一般用 (一)夹角余弦 (二)相关系数 5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原 则? 答: 设 dij表示样品 Xi与 Xj之间距离,用 Dij表示类 Gi与与 Gj之间的距离。 (1). 最短距离法 , min ikjr krij XGXG Dd min, kpkq DD (2)最长距离法 , max ipjq pqij XGXG Dd , max ikjr krij XGXG Dd max, kpkq DD (3)中间距离法 其中 (4)重心法 2 () () pqpqpq DXXXX )( 1 qqpp

52、r r XnXn n X 2222 2 pqpq krkpkqpq rrr nnn n DDDD nnn 1 22 11 cos ()() p ikjk k ij pp ikjk kk X X XX 1 22 11 ()() ()() p ikijkj k ij pp ikijkj kk XXXX r XXXX ij GXGX ij dD jjii , min 2222 2 1 2 1 pqkqkpkr DDDD (5)类平均法 22 1 ipjj pqij XGXG pq Dd n n 22 1 ikjr krij XGXG kr Dd n n 22pq kpkq rr nn DD nn (6)可变类平均法 其中 是可变的且 1 (7)可变法 2222 1 () 2 krkpkqpq DDDD 其中 是可变的且 1 (8)离差平方和法 1 () () t n tittitt t SXXXX 2222kpkq k krkpkqpq rkrkrk nnnn n DDDD nnnnnn 通常选择距离公式应注意遵循以下的基本原则:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论