应用多元统计分析课后答案_朱建平版_第1页
应用多元统计分析课后答案_朱建平版_第2页
应用多元统计分析课后答案_朱建平版_第3页
应用多元统计分析课后答案_朱建平版_第4页
应用多元统计分析课后答案_朱建平版_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况 , X (X1,X2, Xp) 的联合分布密 度函数是一个 p 维的函数 ,而边际分布讨论是 X (X1,X2, Xp) 的子向量的概率分布 ,其概率密度 函数的维数小于 p2.2 设二维随机向量(X1 X2 ) 服从二元正态分布 , 写出其联合分布 。解 : 设 (X1X2) 的均值向量为 1 2 ,协方差矩阵为211222,则其联合分布密度函数为f ( x)21 12221 21/2exp ( x )2212211222(x ) 。2.3 已知随机向量 (X1 X2) 的联合密度函数为

2、f (x1,x2)2(d c)(x1 a) (b a)(x2 c) 2(x1 a)(x2 c)22(b a)2(d c)2其中 a x1 b , c x2 d 。求(1) 随机变量 X1和 X 2的边缘密度函数 、均值和方差 ;(2) 随机变量 X1和 X 2的协方差和相关系数 ;(3) 判断 X1和 X2 是否相互独立 。(1)解:随机变量 X1和 X 2的边缘密度函数 、均值和方差 ;f x1 (x1)d cd2(d c)(x1 a) (b a)(x2 c) 2(x1 a)(x2 c)22(b a)2(d c)2dx2(d c)(x1 a)x2(b a)2(d c)2d 2(b a)(x2

3、 c) 2(x1 a)(x2 c) dxc (b a)2(d c)222(d c)(x1 a)x2(b a)2 (d c)22(d c)(x1 a)x222 (b a)2 (d c)2所以dc0dc2(b a)t 2(x1 a)t(b a)2(d c)2(b a)t 2 2(x1 a)t222(b a)2(d c)2dcdt1ba由于 X1 服从均匀分布 ,则均值为b a ,方差为2ba12专业 word 可编辑2 为 d c 12同理,由于 X2服从均匀分布 fx (x2)d1 c0x1 c,d ,则均值为其它dc2,方差2)解:随机变量 X1和 X2 的协方差和相关系数 ;cov( x1,

4、 x2 )d b a b x1 x2c a 12 2d c 2(d c)(x1 a) (b a)(x2 c) 2(x1 a)(x2 c)222 (b a)2 (d c)2dx1dx2(c d)(b a)36cov( x1, x2) 1x1 x233)解:判断 X1和 X2 是否相互独立X1和 X2 由于 f (x1,x2) fx1(x1) fx2(x2),所以不独立2.4 设 X (X1,X2, X p) 服从正态分布 ,已知其协方差矩阵 为对角阵 ,证明其分量是相互独立的 随机变量 。解: 因为 X (X1,X2, X p) 的密度函数为f (x1,., xp )1/2 1 1 exp 2(

5、x ) 1(x )又由于 22专业 word 可编辑1则 f ( x1 ,., xp )p1212122p2 2p11 2 p expexpi 1 i 2111(x ) 121211222( x )12p1/2exp221 (x1 1) 1 (x2 3)2 122 22(xp2 2pp)222(xii )2i if ( x1). f (xp) 则其分量是相互独立 。2 i22.6 渐近无偏性 、有效性和一致性 ;2.7 设总体服从正态分布 , X Np(,),有样本 X1,X2,.,Xn。由于 X 是相互独立的正态分布随机向量之和 , 所以 X 也服从正态分布 。又E(X ) Ei 1 Xi

6、ni 1E Xinni1所以 X Np(, )n1 n1 nD(X) DX i n12 D Xi12i 1n i 1n i 1n1 n 1 n2.8 方法 1: ?1(Xi X)( Xi X) 1 Xi Xi nXXn 1 i 1 n 1 i 11 n 1 nE(?)E( XiX i nXX ) E XiXi nE XXn 1 i 1 n 1 i 11 n1 n (n 1) 。n 1 i 1nn 1专业 word 可编辑nn方法 2:S(X i - X)(X i-X) Xi - (X ) Xi - (X )i 1 i 1nn(Xi-)(Xi-) 2 (Xi -)(X - ) n(X )(X X

7、) i 1 i 1n(Xi-)(Xi -i1) 2n( X )(X ) n( X )(X )n(Xi-)(Xi -) n(X )(X ) i1E( S ) 1 E(Xi -)(Xi -) n(X )(X )n 1 n 1 i 11n E(Xi - )(Xi - ) nE X( )(X ) n 1 i 1计。故 S 为 的 无 偏 估 n12.9.设X (1) , X (2) ,., X (n)是从多元正态分布 X Np (,)抽出的一个简单随机样本试求 S 的分布。证明: 设 * * ( ij )为一正交矩阵 ,即 I1令 = ( 1 2n) = X1 X2Xn ,由于 X i(i 1,2,3

8、, 4, n)独立同正态分布 ,且为正交矩阵所以 ( 1 2n )独立同正态分布 。且有n1ni , E(n) 1E(i)n, Var (Z n) ni1nE(a) E( rajj)(a 1,2,3, ,n 1)j1nnj11raj nnn rajrnj0i1专业 word 可编辑nVar(a) Var( raj j )j1nnrajVar j raj j 1 j1n所以1 2n 1独立同 N (0, )分布。又因为 S(Xj X)(Xj X)i1nX j X j nXX j1n又因为 X jX jX1j1nZn1XX1X2XnZ1Z2Z1 Z 2Zn2Znnn所以原式X jX j ZnZnZ

9、jZj ZnZn Z1Z1 Z2Z2 . ZnZn -nnj1 j 1n1故Sj j,由于 Z1,Z2, , Zn 1独立同正态分布 N p (0, ) ,所以j1n1S j j Wp(n 1, ) j12.10.设 Xi(ni p)是来自 N p (i , i )的简单随机样本 ,i 1,2,3, ,k ,1) 已知 1 2 . k 且 1 2 . k , 求 和 的估计2)已知 1 2 . k 求 1 , 2 ,., k 和 的估计解:1)k naxia,nk a 1 i 1k naxia x xia x专业 word 可编辑?a1i1n1 n2(2)ln L(1, ,k ,) ln (2

10、 )p n 2 exp 12(xia - a ) -1(xia -a)2 a 1 i 1 i a i aln L(, )1 n 1 k na a -1 a12 pnln(2 ) n2ln 12 a 1 i 1(xia -a) -1(xia-a)ln L(, )11k na a a 1211 (Xiaa )(Xiaa)1 02a1i1ln L(j , )jnj (Xij j ) 0(j 1,2,.,k ) 解之 ,得i1k njxij xj xij x j? j 1 i 1n1 n2 . nk第三章3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤 其基本思想和步骤均可归纳为

11、:第一,提出待检验的假设和 H1;第二,给出检验的统计量及其服从的分布第三 ,给定检验水平 ,查统计量的分布表 ,确定相应的临界 值,从而得到否定域 ;第四 ,根据样本观测值计算出统计量的值 或接受 )。均值向量的检验 :,看是否落入否定域中 , 以便对待判假设做出决策 (拒绝统计量 均值向量的检验 : 在单一变量中当 2 已知z (X0) n当 2 未知t (X0 ) nS拒绝域|z| z /2|t| t /2(n 1)S21(Xi X)2 作为n 1 i 122 的估计量 )一个正态总体 H 0: 0协差阵 已知T02 n(X 0) 1(X 0) 2(p)T022协差阵 未知(n 1) p

12、 1T2(n 1)p T F(p,n p)n p T 2 (n 1)pT专业 word 可编辑T2 (n 1) n(X 0)S 1 n(X 0)两个正态总体 H 0:1 2有共同已知协差阵T02 n m(X Y)1(X Y ) 2 p( ) nmT02 2有共同未知协差阵(n(nm m2) 2)pp 1T2 F(p,n m p 1)(n m 2) pFF协差阵不等 n mX Y ) S其中 T 2 (n m 2)1 nnmm(X Y) )F (n p)nZ S-1Z F(p,n p) pFF协差阵不等 n m F (n p)nZS-1Z F(p,n p) pFF多个正态总体 H 0: 1 2

13、k单因素方差多因素方差SSA(k 1)F F(k 1,n k)SSE (n k)E E (p,n k,k 1)T A EFF协差阵的检验检验 0H0: I p1exp 21trS Snp/2n/2 enH 0: 0 I p1 n/2 exp21trS* S*np/2 e n检验 1 2k H 0: 1 2kk统计量 k nnp/2Sii1ni /2ni /2Skn/2pni /2ni ii1专业 word 可编辑3.2试述多元统计中霍特林分布和威尔克斯 分布分别与一元统计中 t 分布和 F 分布的关系 。答:!) 霍特林 分布是 t 分布对于多元变量的推广t2n(X ) n(X)(S2) 1(

14、X)而若设 X Np(,),SWp(n,)且X与SS2相互独立 , n p ,则称统计量的分布为非中心霍特林 T2分布 。21若 X Np(0,) , SWp(n,) 且 X 与 S 相 互 独 立 , 令 T2 nXS1X , 则n p 1 2T2 F (p ,n p 1)。 np2)威尔克斯 分布在实际应用中经常把统计量化为 T 2统计量进而化为 F统计量,利用F 统计量来解决多元统计分析中有关检验问题与 F 统计量的关系pn1n2F 统计量及分别任意任意1n1 p 1 1( p, n1,1)1 1 F(p,n1 p 1) p( p, n1,1)任意任意2n1 p 1(p,n1,2)1 1

15、 F (2 p, 2( n1 p) p(p,n1,2)1任意任意n1 1(1,n1, n2 ) F(n ,n) F(n2,n1)n2(1,n1,n2)2任意任意n1 1 1(2,n1,n2) F(2n ,2(n 1) F(2n2,2(n1 1) n2(2,n1,n2)3.3 试述威尔克斯统计量在多元方差分析中的重要意义 。 答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量H0: 1 2kH1:至少存在 i j 使 i j用似然比原则构成的检验统计量为AE (p,n k,k 1) 给定检验水平 ,查Wilks 分布表 ,确定临界值 , 然后作出统计判断 。 第四章4.1 简述欧几里得距离

16、与马氏距离的区别和联系 答: 设 p 维欧几里得空间 中的两点 X= 和 Y= 。则欧几里得距离为专业 word 可编辑。欧几里得距离的局限有 在多元数据分析中 ,其度量不合理 。 会受到实际问题中量纲的影响 。设 X,Y 是 来 自 均 值 向 量 为 , 协 方 差 为 的 总 体 G 中 的 p 维 样 本 。 则 马 氏 距 离 为D(X,Y)= 。 当 即 单 位 阵 时 ,D(X,Y)= = 即欧几里得距离因此 ,在一定程度上 ,欧几里得距离是马氏距离的特殊情况 ,马氏距离是欧几里得距离的推广 。4.2 试述判别分析的实质 。答: 判别分析就是希望利用已经测得的变量数据 ,找出一种

17、判别函数 ,使得这一函数具有某种最优性质 , 能把属于不同类别的样本点尽可能地区别开来。设 R1,R2,Rk 是 p 维空间 R p 的 k 个子集 ,如果它们互不相交 , 且它们的和集为为 的一个划分判别分析问题实质上就是在某种意义上 ,以最优的性质对 p 维空间 构造一个 “划分 ”,这个 “划分”就构成了一个判别规则 。4.3 简述距离判别法的基本思想和方法 。答: 距离判别问题分为 两个总体的距离判别问题和 多个总体的判别问题 。 其基本思想都是分别计算样 本与各个总体的距离 (马氏距离 ), 将距离近的判别为一类 。 两个总体的距离判别问题设有协方差矩阵 相等的两个总体 G1和 G2

18、,其均值分别是 1 和 2,对于一个新的样品 X,要判断它来自 哪个总体 。计算新样品 X到两个总体的马氏距离 D2(X,G1)和 D2( X,G2),则X,D2( X,G1) D2( X, G2)X, D2(X,G1) D2(X,G2,具体分析 ,22D2(X,G1) D 2(X ,G2)(X 1) 1(X 1) (X 2) 1(X 2)X 1X 2X 11 111 (X 1X 2X 12 2 12 )2 X (2 1) 1 1 2 22X (2 1) (1 2) (1 2)2 X 1 2 2 ( 1 2)2(X ) 2( X )记 W( X ) (X )则判别规则为X, W(X)专业 wo

19、rd 可编辑X, W(X)0 多个总体的判别问题 。设有 k个总体 G1,G2, ,G k ,其均值和协方差矩阵分别是1,2, ,k 和 1,2, ,k,且1 2k 。 计算样本到每个总体的马氏距离, 到哪个总体的距离最小就属于哪个总体。具体分析,D2(X,G ) (X ) 1(X )X 1X 21X 1X 1X 2( I X C )1 1 1取 I , C , 1,2, ,k 。可以取线性判别函数为 W (X) I X C , 1,2, ,k相应的判别规则为 X Gi 若 Wi (X) max(I X C )4.4 简述贝叶斯判别法的基本思想和方法 。基本思想 :设k个总体 G1,G2, ,

20、G k ,其各自的分布密度函数 f1(x), f2(x), , fk(x),假设 k个总体各k自出现的概率分别为 q1,q2, ,qk,qi 0, qi 1 。设将本来属于 Gi 总体的样品错判到总体 Gj 时 i1造成的损失为 C(j |i),i,j 1,2, ,k 。设k个总体 G1,G2, ,Gk相应的 p维样本空间为 R (R1,R2, ,Rk )。在规则 R 下,将属于 Gi 的样品错判为 G j 的概率为P(j |i,R) R fi(x)dxi,j 1,2, ,k i j则这种判别规则下样品错判后所造成的平均损失为kr(i|R) C(j|i)P(j |i,R) i 1,2, ,kj

21、1k k k则用规则 R来进行判别所造成的总平均损失为 g(R)qir(i,R)qi C(j|i)P(j |i,R)i1 i 1 j1贝叶斯判别法则 ,就是要选择一种划分 R1,R2, ,Rk ,使总平均损失 g( R)达到极小 。k k k k基本方法: g(R)qi C(j|i)P(j|i,R) qi C(j|i)R fi(x)dxi1 j 1 i 1 j 1Rj专业 word 可编辑R( qiC(j|i)fi(x)dx 令qiC(j|i)fi(x) hj(x),则 g(R) Rhj(x)dxj 1 Rj i 1 i 1 j 1 Rjk若有另一划分 R* (R1*,R2*, ,Rk*),

22、g(R*)R*hj(x)dxj 1 R jkk则在两种划分下的总平均损失之差为 g(R) g(R* )*hi(x) hj(x)dxi1 j1 Ri R*j i j因为在 Ri上hi(x) hj ( x)对一切 j 成立,故上式小于或等于零 ,是贝叶斯判别的解 。R (R ,R , ,R ) Ri x|hi(x) minhj (x)i 1,2, ,k从而得到的划分 R (R1,R2, ,Rk) 为 i i 1 j k j i 1,2, ,k4.5 简述费希尔判别法的基本思想和方法 。答:基本思想 :从 k 个总体中抽取具有 p 个指标的样品观测数据 ,借助方差分析的思想构造一个线性判 别函数U

23、(X) u1X1 u2X2upXp u X系数 u (u1, u2 , ,up) 可使得总体之间区别最大 ,而使每个总体内部的离差最小 。将新样品的 p 个 指标值代入线性判别函数式中求出 U ( X ) 值,然后根据判别一定的规则 ,就可以判别新的样品属于哪个 总体 。4.6 试析距离判别法 、贝叶斯判别法和费希尔判别法的异同 。答: 费希尔判别与距离判别对判别变量的分布类型无要求 。二者只是要求有各类母体的两阶矩存在 。 而贝叶斯判别必须知道判别变量的分布类型 。 因此前两者相对来说较为简单 。 当 k=2 时, 若 则费希尔判别与距离判别等价 。 当判别变量服从正态分布时 ,二者与贝叶

24、斯判别也等价 。 当 时, 费希尔判别用 作为共同协差阵 , 实际看成等协差阵 ,此与距离判别 、贝叶斯 判别不同 。 距离判别可以看为贝叶斯判别的特殊情形 。贝叶斯判别的判别规则是 X, W(X)X, W(X)lnd距离判别的判别规则是X, W(X)X, W(X)0二者的区别在于阈值点 。当q1 q2,C(1|2) C(2|1)时,d 1,ln d 0 。二者完全相同 。4.7 设 有 两 个 二 元 总 体 和 , 从 中 分 别 抽 取 样 本 计 算 得 到专业 word 可编辑, 假设 ,试用距离判别法建立判别函数和判别规则。 样品 X= (6,0)应属于哪个总体 ?解: = , =

25、 , = =即样品 X 属于总体第五章5.1 判别分析和聚类分析有何区别 ?,而聚类分析答: 即根据一定的判别准则 ,判定一个样本归属于哪一类 。 具体而言 ,设有 n 个样本 ,对每个样本测得 p 项指标(变量)的数据,已知每个样本属于 k 个类别(或总体)中的某一类 ,通过找出一个最优的划分 , 使得不同类别的样本尽可能地区别开 ,并判别该样本属于哪个总体 。聚类分析是分析如何对样品 ( 或变 量) 进行量化分类的问题 。 在聚类之前 ,我们并不知道总体 ,而是通过一次次的聚类 ,使相近的样品 ( 或 变量 )聚合形成总体 。通俗来讲 ,判别分析是在已知有多少类及是什么类的情况下进行分类

26、是在不知道类的情况下进行分类 。5.2 试述系统聚类的基本思想 。过程一直进行?p 维空间的 n答:系统聚类的基本思想是 : 距离相近的样品 (或变量 )先聚成类 , 距离相远的后聚成类 , 下去,每个样品 (或变量 )总能聚到合适的类中 。5.3 对样品和变量进行聚类分析时 , 所构造的统计量分别是什么 ?简要说明为什么这样构造 答: 对样品进行聚类分析时 ,用距离来测定样品之间的相似程度 。因为我们把 n 个样本看作 个点 。点之间的距离即可代表样品间的相似度 。常用的距离为一 )闵可夫斯基距离 :dij (q) (Xik Xjkk1q )1/qq 取不同值 , 分为1)绝对距离 ( q

27、1 )pdij(1)X ik Xk1jk2)欧氏距离 ( q 2 )dij (2) (Xik X jkk12)1/23)切比雪夫距离 ( q),dij ( ) max Xik X jk专业 word 可1编辑pdij (L) 1Xik X jk p k 1 Xik Xjk二)马氏距离三)兰氏距离21di2j (M ) (Xi X j) 1(Xi Xj)对变量的相似性 , 我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量 。将变量看作 p 维空间的向量 ,一般用(一)夹角余弦cos ijpXik Xjkk1pp (Xik2 )(Xj2k )k1k1二)相关系数rijp(Xikk1p

28、p(Xik Xi )(X jk X j )k 1 k 1Xi)(X jk X j)5.4 答:1)在进行系统聚类时 ,不同类间距离计算方法有何区别 ? 选择距离公式应遵循哪些原则 ? 设dij表示样品 Xi与Xj之间距离,用Dij表示类 Gi与Gj之间的距离 。. 最短距离法DijDkrminXi Gi,X j Gj min Xi Gk ,X j Grdijdij min Dkp,Dkq2)最长距离法DpqXi Gmp,aXxj GqdijmaxXi Gk,X j Grdijmax Dkp, Dkq3)中间距离法Dk1 2Dkr2 DkpqD 2pq其中4)重心法 D2pq(XXq) (X p

29、 Xq)1X r(np X pnrnqXq)Dk2rnqnpnqn2 Dp2qnrD2pq1di2jnpnq Xi Gp X j Gj专业 word 可编辑2 1 2 np 2 nq 2 DkrdijDkpDkqnk nr Xi Gk X j Grnrnr6)可变类平均法2nknp 2nknq 2nk 2D 2k pD2 k qD2kD2kr kp kq pqnr nknr nknr nkDk2r (1 )(np Dk2p nq Dk2q) D2pq其中是可变的且 nr1nr(7)可变法Dk2r122 (DkpDk2q)2D2pq其中 是可变的且 1nt(8)离差平方和法St(Xit Xt)

30、(Xit Xt)t1通常选择距离公式应注意遵循以下的基本原则 :(1 )要考虑所选择的距离公式在实际应用中有明确的意义。 如欧氏距离就有非常明确的空间距离概念马氏距离有消除量纲影响的作用 。(2 )要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理 ,则通常就可采用欧氏距离 。(3 )要考虑研究对象的特点和计算量的大小。 样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折 。实际中 ,聚类分析前不妨试探性地多选择几个距 离公式分别进行聚类 , 然后对聚类分析的结果进行对比分析 ,以确定最合适的距

31、离测度方法 。5.5 试述 K 均值法与系统聚类法的异同 。答:相同 :K均值法和系统聚类法一样 ,都是以距离的远近亲疏为标准进行聚类的 。 不同:系统聚类对不同的类数产生一系列的聚类结果,而 K均值法只能产生指定类数的聚类结果 。具体类数的确定 ,离不开实践经验的积累 ; 有时也可以借助系统聚类法以一部分样品为对象进行聚类, 其结果作为 K 均值法确定类数的参考 。5.6 试述 K 均值法与系统聚类有何区别 ?试述有序聚类法的基本思想 。答:K 均值法的基本思想是将每一个样品分配给最近中心 (均值)的类中 。系统聚类对不同的类数产生一 系列的聚类结果 , 而 K 均值法只能产生指定类数的聚类

32、结果 。具体类数的确定 ,有时也可以借助系统聚 类法以一部分样品为对象进行聚类 ,其结果作为 K 均值法确定类数的参考 。有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用 X(1),X(2), ,X(n) 表示 n个有序的样品,则每一类必须是这样的形式,即 X(i),X(i 1), ,X(j) ,其中 1 i n,且 j n,简记为Gi i,i 1, , j 。在同一类中的样品是次序相邻的 。一般的步骤是 (1)计算直径 D(i,j)。(2) 计算最小分类损失函数 Lp(l,k) 。(3)确定分类个数 k。( 4)最优分类 。专业 word 可编辑5.7 检测某类产品的重量 , 抽了

33、六个样品 , 每个样品只测了一个指标 ,分别为 1, 2, 3,6,9,11.试 用最短距离法 ,重心法进行聚类分析 。(1) 用最短距离法进行聚类分析 。采用绝对值距离 , 计算样品间距离阵0102105430876301098520由上表易知 中最小元素是 于是将 , , 聚为一类 , 记为03 06 3 08 5 2 0中最小元素是=2于是将 , 聚为一类 ,记为计算样本距离阵专业 word 可编辑中最小元素是中最小元素是于是将 ,聚为一类 , 记为计算样品间平方距离阵2)用重心法进行聚类分析0104102516906449369010081642540易知中最小元素是于是将 , , 聚

34、为一类 , 记为计算距离阵计算距离阵专业 word 可编辑016 04990812540注:计算方法,其他以此类推 。中最小元素是 =4 于是将 , 聚为一类 ,记为计算样本距离阵01606416 0中最小元素是 于是将 , 聚为一类 ,记为第六章6.1 试述主成分分析的基本思想 。,人们希望能,再考虑第二答: 我们处理的问题多是多指标变量问题 , 由于多个变量之间往往存在着一定程度的相关性 通过线性组合的方式从这些指标中尽可能快的提取信息 。当第一个组合不能提取更多信息时专业 word 可编辑个线性组合 。 继续这个过程 ,直到提取的信息与原指标差不多时为止 。这就是主成分分析的基本思想 。

35、6.2 主成分分析的作用体现在何处 ?答: 一般说来 ,在主成分分析适用的场合 , 用较少的主成分就可以得到较多的信息量 。以各个主成分为分 量,就得到一个更低维的随机向量 ;主成分分析的作用就是在降低数据 “维数 ”的同时又保留了原数据的大 部分信息 。6.3 简述主成分分析中累积贡献率的具体含义 。答:主成分分析把 p个原始变量 X1,X2, ,Xp 的总方差 tr() 分解成了 p个相互独立的 变量p, 所以一般不会使用所有 p个主成这里我们称 kkY1,Y2, ,Yp的方差之和 k 1 k 。主成分分析的目的是减少变量的个数分的 ,忽略一些带有较小方差的主成分将不会给总方差带来太大的影

36、响第k 个主成分 Yk 的贡献率 。第一主成分的贡献率最大 ,这表明 Y1 T1X 综合原始变量 X1,X2, ,Xp的能力最强 ,而 Y2,Y3, ,Yp的综合能力依次递减m若只取 m( p) 个主成分 , 则称 m k k1为主成分 Y1, ,Ym 的累计贡献率 ,累计贡献率表明 Y1, ,Ym 综合 X1,X2, ,Xp 的能力 。通常取m ,使得累计贡献率达到一个较高的百分数 (如 85以上)6.4 在主成分分析中 “原变量方差之和等于新的变量的方差之和 ”是否正确 ? 说明理由 答: 这个说法是正确的 。即原变量方差之和等于新的变量的方差之和从协方差矩阵 出发的 , 其结果6.5 试

37、述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别 答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的 受变量单位的影响 。主成分倾向于多归纳方差大的变量的信息 , 对于方差小的变量就可能体现得不够 , 也 存在 “大数吃小数 ”的问题 。实际表明 ,这种差异有时很大 。我们认为 ,如果各指标之间的数量级相差悬 殊,特别是各指标有不同的物理量纲的话 ,较为合理的做法是使用 R 代替 。对于研究经济问题所涉及的 变量单位大都不统一 ,采用 R 代替 后,可以看作是用标准化的数据做分析 ,这样使得主成分有现实经济意义 ,不仅便于剖析实际问题 ,又可以避免突出数值大的变量6.6

38、已知 X=() 的协差阵为试进行主成分分析 。=0解:计算得 ,专业 word 可编辑当时同理 ,计算得, 时,易知 相互正交单位化向量得 ,,综上所述 ,第一主成分为第二主成分为第三主成分为6.7 设 X=()的协方差阵 (p 为0p1证明 : 为最大特征根 ,其对应的主成分为专业 word 可编辑证明:=,,为最大特征根当 时 ,所以,第七章7.1 试述因子分析与主成分分析的联系与区别 。答:因子分析与主成分分析的联系是 : 两种分析方法都是一种降维 、简化数据的技术 。 两种分析的求 解过程是类似的 , 都是从一个协方差阵出发 ,利用特征值 、 特征向量求解 。因子分析可以说是主成分分析

39、 的姐妹篇 ,将主成分分析向前推进一步便导致因子分析 。 因子分析也可以说成是主成分分析的逆问题 。如 果说主成分分析是将原指标综合 、归纳 ,那么因子分析可以说是将原指标给予分解 、演绎 。因子分析与主成分分析的主要区别是 :主成分分析本质上是一种线性变换 , 将原始坐标变换到变异程 度大的方向上为止 ,突出数据变异的方向 , 归纳重要信息 。 而因子分析是从显在变量去提炼潜在因子的过 程。此外 ,主成分分析不需要构造分析模型而因子分析要构造因子模型 。7.2 因子分析主要可应用于哪些方面 ?答: 因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法 。目前因子分析

40、在心理学 、社会学 、经济学等学科中都有重要的应用 。具体来说 , 因子分析可以用于分类 。如用考 试分数将学生的学习状况予以分类 ;用空气中各种成分的比例对空气的优劣予以分类等等 因子分析可以 用于探索潜在因素 。即是探索未能观察的或不能观测的的潜在因素是什么 ,起的作用如何等 。 对我们进一 步研究与探讨指示方向 。在社会调查分析中十分常用 。 因子分析的另一个作用是用于时空分解 。如研究专业 word 可编辑 几个不同地点的不同日期的气象状况 , 就用因子分析将时间因素引起的变化和空间因素引起的变化分离开 来从而判断各自的影响和变化规律 。7.3 简述因子模型 中载荷矩阵 A 的统计意义

41、 。答:对于因子模型Xi ai1F1 ai2F2aij FjaimFm i i 1,2, ,pa11 a12a1m因子载荷阵为 A a21 a22a2m (A1,A2, ,Am)A(A1,A2, ,Am)ap1 ap2apmXi 与 Fj 的协方差为 :mCov( X i ,Fj ) Cov(aik Fki,Fj )k1m= Cov( aikFk,Fj) Cov( i,Fj)k1= aij若对 Xi作标准化处理 ,= aij ,因此 aij 一方面表示 Xi对Fj的依赖程度 ;另一方面也反映了变量Xi 对公共因子 Fj 的相对重要性 。m变量共同度 hi2ai2ji 1,2, ,pj1D(Xi

42、) ai1D(F1) ai2D(F2)aimD(Fm) D( i ) hii 说明变量 Xi 的方差由两部2分组成 :第一部分为共同度 hi2 ,它描述了全部公共因子对变量 Xi 的总方差所作的贡献 , 反映了公共因子对变量 Xi 的影响程度 。第二部分为特殊因子 i 对变量 Xi 的方差的贡献 ,通常称为个性方差 。p而公共因子 Fj 对 X 的贡献 g2jai2jj 1,2, ,mi1表示同一公共因子 Fj 对各变量所提供的方差贡献之总和 ,它是衡量每一个公共因子相对重要性的一个尺度。7.4 在进行因子分析时 ,为什么要进行因子旋转 ? 最大方差因子旋转的基本思路是什么 ?答: 因子分析的

43、目标之一就是要对所提取的抽象因子的实际含义进行合理解释 。但有时直接根据特征根 、 特征向量求得的因子载荷阵难以看出公共因子的含义。 这种因子模型反而是不利于突出主要矛盾和矛盾的专业 word 可编辑主要方面的 , 也很难对因子的实际背景进行合理的解释 。 这时需要通过因子旋转的方法 , 使每个变量仅在 一个公共因子上有较大的载荷 , 而在其余的公共因子上的载荷比较小 。最大方差旋转法是一种正交旋转的方法 , 其基本思路为 :* * * p 其中令 A* A (ai*j )p m,dijai*j /hi dj 1dij2pi1A* 的第 j 列元素平方的相对方差可定义为1 p 2 2 Vj (

44、dij2 d j)2pi1 V V1 V2Vm最大方差旋转法就是选择正交矩阵 ,使得矩阵 A*所有m 个列元素平方的相对方差之和达到最大 。7.5 试分析因子分析模型与线性回归模型的区别与联系 。答 :因子分析模型是一种通过显在变量测评潜在变量, 通过具体指标测评抽象因子的统计分析方法的模型 。而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系 , 用函数关系式表达出来 。因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。 即Xi ai1F1 ai2F2aimFm i ,( i 1,2, , p) 该模型可用矩阵表示为 :X AF 而回归分析模型中多元线性回归方

45、程模型为 : 其中 是常数 项, 是偏回归系数 , 是残差因子模型满足1) m p;(2) Cov(F,) 0 ,即公共因子与特殊因子是不相关的13) DF D(F)0124) D D()0Im ,即各个公共因子不相关且方差为 1; m10,即各个特殊因子不相关 , 方差不要求相等2p而回归分析模型满足 (1)正态性 : 随机误差 (即残差 )e 服从均值为 0,方差为 的正态分布 ;(2)等方差:对于所有的自变量 x,残差 e的条件方差为 ,且 为常数;( 3)独立性 :在给定自变 量x的条件下,残差e的条件期望值为 0(本假设又称零均值假设 );( 4)无自相关性 :各随机误差项 e 互不相关 。两种模型的联系在于都是线性的 。因子分析的过程就是一种线性变换 。7.6 设某客观现象可用 X=() 来描述 , 在因子分析时 , 从约相关阵出发计算出特征值为专业 word 可编辑由于,所以找前两个特征值所对应的公共因子即可 , 又知 对应的正则化特征向量分别为 (0.707,-0.316,0.632) 及(0, 0.899 , 0.4470 ),要求:(1)计算因子载荷矩阵 A ,并建立因子模型 。( 2)计算共同度。(3)计算第一公

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论