应用多元统计分析课后答案(2)_第1页
应用多元统计分析课后答案(2)_第2页
应用多元统计分析课后答案(2)_第3页
应用多元统计分析课后答案(2)_第4页
应用多元统计分析课后答案(2)_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2.1. 试叙述多元联合分布和边际分布之间的关系解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X (X1, X2,L Xp) 的联合分布密度函数是一个 p 维的函数,而边际分布讨论是 X (X1, X2,L X p)的子向量的概率分布,其概率密度函数的维数小于 p 。2.2 设二维随机向量( X 1 X 2 ) 服从二元正态分布,写出其联合分布。解:设 ( X1X 2) 的均值向量为2 ,协方差矩阵为2112122 ,则其联合分布密2度函数为1/21f (x)22.3 已知随机向量(X1211222expX 2 ) 的联合密度函数为f (x1, x2)2(d12(xc)(x1 a)

2、 (b a)( x2 c)22(b a)2 (d c)2)2112222(x1 a)( x2(x ) 。c)其中 a x1 b , c x2 d 。求1) 随机变量 X1 和 X2 的边缘密度函数、均值和方差;2) 随机变量 X1 和 X2 的协方差和相关系数;3) 判断 X1 和 X2 是否相互独立。1)解:随机变量 X1 和 X 2 的边缘密度函数、均值和方差;f x1 ( x1)d 2(d c)( x1 ca) (b a)( x2 c) 2(x1 a)( x2 c)22(b a)2 (d c)2dxd2(d c)( x1 a)x2d 2(b a)( x2 c) 2( x1 a)( x2

3、c)(b a)2 (d c)2(b a)2 (d c)2dx2d2(d c)( x1 a)x222(b a)2 (d c)2 c0d c2(b a)t2 2(x1 2a)tdt0 (b a)2(d c) 22(d c)( x1 a)x222(b a)2 (d c)2所以dc22(b a)2 (d c)2022(b a)t 2 2(x1 a)t21ba由于 X1 服从均匀分布,则均值为b a ,方差为12同理,由于X 2服从均匀分布 fx (x2)d0x1c, d ,则均值为 d c ,方差 其它 2dc为122)解:随机变量X1 和 X2 的协方差和相关系数;cov( x1, x2 )dbc

4、ax1x2d c 2( d c)( x1a)(ba)( x2 c) 2(x1 a)( x2 c)dx1dx2(b a)2 (d c)2(c d )(ba)36cov( x1, x2)x1 x23)解:判断 X1 和 X2 是否相互独立。X1和X2由于 f (x1,x2) fx1(x1) fx2(x2),所以不独立。2.4 设 X (X1,X2,L Xp) 服从正态分布, 已知其协方差矩阵 为对角阵, 证明其分量是相互独立的随 机变量。解: 因为 X (X1,X2,L Xp) 的密度函数为f (x1,., xp)p1 1/22 exp112 (x ) (x )212又由于 2O2p 12 22L

5、2 p1则 f ( x1 ,., xp )22L1/2exp12(x) 1(x )exp1 (x11)2211 (x223)21 (xpp1i 1 i 2 exp(xi2ii)222.6 渐近无偏性、有效性和一致性;p)22pf ( x1). f (xp ) 则其分量是相互独立。2.7 设总体服从正态分布, X Np(, ) ,有样本 X 1, X2 ,., X n 。由于 X是相互独立的正态分布随机向量之和,所以X 也服从正态分布。又E(X)Xi ni1nEi1Xii1D(X)X i n n12Xi所以 X N p (, ) 。2.8方法n1(XiX)(XiX)n1Xi Xi nXX1E(

6、?)1nn11E(XiXinXX )n1nE XiX i nE XX i1i1n11(nn11)。方法 2: S(Xi -X)(X i-i1X)i1Xi - (X)X i -( X )ni(Xi1- )(Xi - )n2 (X i1i -)(X - )n(X)(XX)n(Xi1i - )( X i - )2n(X)(X )n(X)(X)n(Xi1i - )( X i - )n(X)(X )S1nE ( )E (Xi -)(X i -) n( X )(X)n1n1 i 11nSn1E(Xi -)(Xi -) nE( X )(X)。 故为 的无偏估计。i1n1nn2.9. 设 X (1) , X

7、(2) ,., X (n) 是从多元正态分布 X N p(, ) 抽出的一个简单随机样本,试求 S 的分布证明: 设 *L* L * ( ij ) 为一正交矩阵,即 I1n L令 = ( 1 2 Ln) = X1 X2 LXn ,由于 X i (i 1,2,3, 4,L n)独立同正态分布 , 且为正交矩阵所以 ( 1 2 Ln )独立同正态分布 。且有n1i , E(n)1E(i)n, Var (Z n ) 。n i 1 n i 1nE (a) E( rajj )(a 1,2,3, L ,n 1)j1nnnj11raj nn raj rnji1nVar(a) Var ( raj j ) j1

8、ra2jVar j ra2j j 1 j 1 n所以 1 2 L n 1独立同 N (0, )分布。又因为 S (X j X)(Xj X) i1nX jX j nXXj1因为 nXXn n 1ninXi1n1ninXi1ZnZnX1X1nX2X2又因为XjXjX1X2XnX1X 2 LXn 2j1nMXnXnZ1Z2Z1Z2LZn 2nMZnnn所以原式X jX jZ nZnZj Zj ZnZnZ1Z1Z 2Z2 . Z nZn - n nj 1 j 1n1故Sj j ,由于 Z1,Z2,L , Zn 1独立同正态分布 N p (0, ) ,所以j1n1S j j Wp(n 1, ) j12.

9、10. 设 Xi(ni p)是来自 Np(i,i) 的简单随机样本, i 1,2,3, L ,k,1 )已知 1 2 . k 且 1 2 . k ,求 和 的估计2)已知 1 2 . k 求1, 2,., k和 的估计kna解:(1) ?n1 n2axi ,nk a 1 i 1k naaaxi x xixa1i1n1 n2 . nkp n 2 1 k na a -1 a(2) ln L(1,L ,k,) ln (2 )p exp(xia - a ) -1(xia - a )2a1i1ln L(, )1 n 1 k na a -1 aln L(, )112anai1(Xiaa)(Xia12 a)

10、 10ln L(j ,)jnj1(Xijj ) 0(j 1,2,.,k ) 解之,得i1njxjnj ixij1?k njxij x j xij x j j1i1n1 n2 . nk第三章3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。 其基本思想和步骤均可归纳为:第一,提出待检验的假设 和 H1 ;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界 值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或 接受)。均值向量的检验:统计量 拒绝域 均值向量的检验: 在单一变量中当

11、 2 已知 z (X 0) n |z| z /22当 2 未知(X|t| t /2(n 1)S21(Xi X)2 作为 2的估计量)n 1 i 1一个正态总体 H 0: 0协差阵 已知2 1 2T02 n(X 0) 1(X 0) 2(p)T02协差阵 未知(n 1) p 1T2 F(p,n p)(n 1)pn p T 2(n 1)pT2 (n 1) n(X 0)S 1 n(X 0)2 pnln(2 ) 2ln 2 a 1 i 1(xi -a) (xi -a)两个正态总体 H 0:1 2有共同已知协差阵T02n m (X Y) 1(XY) 2(p) T02 2nm有共同未知协差阵F(n m 2)

12、 p 1T 2 F(p,n mp 1) FF(n m 2)p2 n m 1 n m其中 T2 (n m 2) (X Y) S 1 (X Y) ) n m n m协差阵不等 n m F (n p)nZ S-1Z F(p,n p) F F p(n p)n -1协差阵不等 n m FZ S-1Z F(p,n p) F Fp多个正态总体 H 0: 1(p,n k,k 1)单因素方差 F SSSSEA(nk 1k) F(k 1,n k) F F多因素方差协差阵的检验检验 0H0:H 0: 0Ipexp1 n/212trS Sn/2e nnp/21*n/2np/2 eexptrS*S*2n2 L检验 1

13、2 Lk H 0: 1统计量 kknp/2nki1pni /2 ni i3.2 试述多元统计中霍特林 分布和威尔克斯 分布分别与一元统计中 t 分布和 F 分布的关系答:(!)霍特林 分布是 t 分布对于多元变量的推广。n(X)2S2n(X21)(S2) 1(X)而若设 X Np(,) ,SWp(n,)且X 与S相互独立, n p,则称统计量的分布为非中心霍特林 T2 分布。21若 X Np(0,) , SWp(n,) 且 X 与 S 相 互 独 立 , 令 T2 nX S 1X , 则n p 1T 2npF(p,np 1)(2)威尔克斯 分布在实际应用中经常把 统计量化为 T2统计量进而化为

14、 F 统计量,利用 F 统计 量来解决多元统计分析中有关检验问题。pn1n2F 统计量及分别任意任意1n1 p 1 1( p, n1,1)1 1 F(p,n1 p 1) p( p, n1,1)任意任意2n1 p 1(p,n1,2)n1 p 1 F (2 p, 2( n1 p) p(p,n1,2)1任意任意n1 1 (1,n1, n2 ) F(n ,n ) F(n2,n1) n2(1,n1,n2)2任意任意n1 1 1(2,n1,n2) F(2n ,2(n 1) F(2n2,2(n1 1) n2(2,n1,n2)与 F 统计量的关系3.3 试述威尔克斯统计量在多元方差分析中的重要意义。 答:威尔

15、克斯统计量在多元方差分析中是用于检验均值的统计量。H0:1 2 L kH 1:至少存在 i j 使 i j用似然比原则构成的检验统计量为E (p,n k,k 1) 给定检验水平 AE,查Wilks 分布表,确定临界值,然后作出统计判断。 第四章4.1 简述欧几里得距离与马氏距离的区别和联系。答: 设 p 维欧几里得空间 中的两点 X= 和 Y= 。则欧几里得距离为。 欧几里得距离的局限有在多元数据分析中,其度量不合理。会受到实际问题中量纲的影响。设 X,Y 是 来 自 均 值 向 量 为 , 协 方 差 为 的 总 体 G 中 的 p 维 样 本 。 则 马 氏 距 离 为D(X,Y)= 。当

16、 即单位阵时, D(X,Y)= = 即欧几里得距离。因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。4.2 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质, 能把属于不同类别的样本点尽可能地区别开来。设R1,R2 , Rk 是 p 维空间 R p 的 k 个子集,如果它们互不相交,且它们的和集为 ,则称 为 的一个划分。判别分析问题实质上就是在某 种意义上,以最优的性质对 p 维空间 构造一个“划分” ,这个“划分”就构成了一个判别规则。4.3 简述距离判别法的基本思想和方法。 答:距离判别问

17、题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样 本与各个总体的距离(马氏距离) ,将距离近的判别为一类。 两个总体的距离判别问题设有协方差矩阵 相等的两个总体 G1和 G2,其均值分别是 1和 2,对于一个新的样品 X,要判断它来 自哪个总体。计算新样品 X 到两个总体的马氏距离 D2( X,G1)和 D2(X,G2),则X,D2(X,G1) D2(X,G2 )X,D2(X,G1 ) D2(X,G2,具体分析,22D2(X,G1) D 2(X,G2)(X 1) 1(X 1) (X 2) 1(X 2)X 1X 2X 11 111 (X 1X 2X 12 2 12)1

18、1 12X ( 2 1) 1 1 2 22X 1(2 1) (1 2) (1 2)2X1221 ( 1 2)2(X) 2(X )记W(X)(X)则判别规则为X , W(X)X, W(X)0多个总体的判别问题。设有 k 个总体 G1,G2,Gk ,其均值和协方差矩阵分别是1, 2,k 和 1,2, ,k ,1 2k。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。2具体分析, D2 (X,G )1(X ) 1(X)1X 1X1X 1X12 X 12(I X C )1取I 1 ,C1 121,2,k 。可以取线性判别函数为W (X) I XC,1,2, ,k相应的判别规则为 XG

19、i 若 Wi (X)1maxk(I XC)4.4 简述贝叶斯判别法的基本思想和方法。基本思想:设 k 个总体 G1,G2 , ,Gk,其各自的分布密度函数f1(x), f2(x), , fk(x),假设 k个总体k 各自出现的概率分别为 q1,q2, ,qk ,qi 0, qii11 。设将本来属于 Gi 总体的样品错判到总体 Gj 时造成的损失为 C( j |i),i, j 1,2, ,k设 k 个总体 G1,G2, ,Gk相应的 p 维样本空间为 R (R1,R2,Rk ) 。在规则 R 下,将属于 Gi 的样品错判为 G j 的概率为P(j |i,R) R fi(x)dx i,j 1,2

20、, ,k i j Rj则这种判别规则下样品错判后所造成的平均损失为kr(i|R) C(j |i)P( j |i,R) i 1,2, ,kj1k则用规则 R来进行判别所造成的总平均损失为 g(R)qir(i,R)i1kkqiC(j|i)P(j |i,R)i 1 j 1贝叶斯判别法则,就是要选择一种划分R1,R2, ,Rk ,使总平均损失 g(R) 达到极小。k k k k基本方法: g(R)qi C(j |i)P(j |i,R) qi C(j|i) R fi(x)dxi 1 j 1 i 1 j 1 Rjk k k kj 1 Rj (i 1qiC(j |i)fi(x)dx 令 i 1qiC(j|i

21、)fi(x) hj(x),则 g(R) j 1 Rj hj(x)dxx|hi(x) 1mjinkhj(x)i 1,2, ,kk若有另一划分 R (R1 ,R2, ,Rk) , g(R )j1R* hj(x)dx则在两种划分下的总平均损失之差为 g(R) g(R* )kkR R*hi (x) hj (x)dx i 1 j 1 Ri Rj因为在 Ri 上 hi(x) hj(x) 对一切 j 成立,故上式小于或等于零,是贝叶斯判别的解从而得到的划分 R (R1,R2, ,Rk ) 为 i4.5 简述费希尔判别法的基本思想和方法。答:基本思想:从 k 个总体中抽取具有 p 个指标的样品观测数据,借助方

22、差分析的思想构造一个线性判别函数U (X) u1X1 u2X2 L upXp u X系数 u (u1, u2 , ,up) 可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的 p 个 指标值代入线性判别函数式中求出 U (X ) 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总 体。4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答: 费希尔判别与距离判别对判别变量的分布类型无要求。 二者只是要求有各类母体的两阶矩存在。 而 贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 当 k=2 时,若 则费希尔判别与距离判别等价。当判别变量服从正态分布时

23、,二者与贝叶 斯判别也等价。 当 时,费希尔判别用 作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判 别不同。 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X, W(X)X, W(X)lnd距离判别的判别规则是X, W(X)X, W(X)0二者的区别在于阈值点。当 q1 q2,C(1|2) C(2|1)时, d 1, ln d 0 。二者完全相同。4.7 设 有 两 个 二 元 总 体 和 , 从 中 分 别 抽 取 样 本 计 算 得 到, 假设 ,试用距离判别法建立判别函数和判别规则。样品 X=(6,0 )应属于哪个总体?解: = , = , = =即样品 X 属

24、于总体第五章5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有 n 个样本,对每个样本测得 p 项指标(变量)的数据,已知每个样本属于 k 个类别(或总体)中的某一类,通过找出一个最优的划分, 使得不同类别的样本尽可能地区别开, 并判别该样本属于哪个总体。 聚类分析是分析如何对样品 (或变量) 进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量) 聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不 知道类的情况下进行分类。5.2 试述系统聚类的基本思想。 答

25、:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行 下去,每个样品(或变量)总能聚到合适的类中。5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把 n 个样本看作 p 维空间的 n 个点。点之间的距离即可代表样品间的相似度。常用的距离为X jk1/qp一)闵可夫斯基距离: dij (q) (Xikk1q 取不同值,分为p1)绝对距离( q 1 ),dij (1)Xik X jkk1X jk1/2pdij (2) (Xikk13 )切比雪夫距离( q

26、),dij ( )max Xik X jk二)马氏距离dij(L)三)兰氏距离21di2j (M ) (Xi X j) 1(Xi X j)对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作 p 维空间的向量,一般用(一)夹角余弦cosijpXik Xjk k1 ppXik2 )(Xj2k )1k1二)相关系数rijp(Xikk1p(Xikk1Xi)(X jk X j)pXi)2 (X jk X j)2k15.4答:(1)在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则? 设 d ij 表示样品 . 最短距离法DijXi与 Xj

27、之间距离,用 D ij表示类 Gi与 Gj之间的距离。2)DkrXimin Xi Gi,X j min Gk ,X j GrdGj dijdij min Dkp,Dkq最长距离法DpqXimaxGp ,X j GdijDkrmaxkrXi Gk,X jGrdijmax Dkp, Dkq3)中间距离法21 2Dk2r21 Dk2pDk2qD2pq其中4 )重心法 D2pq(XpXq)(XpXq)1Xr(npX p nqXq)nr25 )类平均法 Dpq6)可变类平均法nq Dk2qnrnpnq D22 Dpqnpnq XGp X jdi2j ij GjDk2rn ndi2jnknr Xi Gk

28、X j Grnp Dk2p kp nrnq2q Dk2qnrDk2r (1 )(np Dk2pnrnq Dk2q) D2pq其中 是可变的且 1(7)可变法Dk2r1 2 (Dk2pDk2q)2Dpq其中是可变的且 18)离差平方和法Stnt(Xit t1Xt) (XitXt)2nk np 2 nk nq 2nk2DkrDkpDkqDpqnr nknr nknr nk通常选择距离公式应注意遵循以下的基本原则:(1 )要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。 马氏距离有消除量纲影响的作用。(2 )要综合考虑对样本观测数据的预处理和将要采用的聚类分析方

29、法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3 )要考虑研究对象的特点和计算量的大小。 样品间距离公式的选择是一个比较复杂且带有一定主观性的 问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离 公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。5.5 试述 K 均值法与系统聚类法的异同。答:相同: K 均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。 不同:系统聚类对不同的类数产生一系列的聚类结果,而K 均值法只能产生指定类数的聚类结果。具体类数的确定, 离不开实践经验的积累;

30、 有时也可以借助系统聚类法以一部分样品为对象进行聚类, 其结果作为 K 均值法确定类数的参考。5.6 试述 K 均值法与系统聚类有何区别?试述有序聚类法的基本思想。答: K 均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一 系列的聚类结果,而 K 均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚 类法以一部分样品为对象进行聚类,其结果作为 K 均值法确定类数的参考。有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用X(1),X(2), ,X(n)表示 n个有序的样品,则每一类必须是这样的形式,即X(i),X(i 1), ,X(

31、j),其中 1 i n,且 j n,简记为Gi i,i 1, , j 。在同一类中的样品是次序相邻的。一般的步骤是(1)计算直径 D(i,j )。(2)计算最小分类损失函数 Lp(l,k) 。 (3)确定分类个数 k。(4)最优分类。5.7 检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为1 ,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。(1)用最短距离法进行聚类分析。采用绝对值距离,计算样品间距离阵0102105430876301098520由上表易知 中最小元素是 于是将 , , 聚为一类,记为计算距离阵03063 085 2 0中最小元素是 =2 于是将

32、 , 聚为一类,记为计算样本距离阵中最小元素是 于是将 , 聚为一类,记为计算样品间平方距离阵0104102516906449369010081642540易知中最小元素是于是将 , , 聚为一类,记为计算距离阵1649 9 081 25 4 0注:计算方法,其他以此类推。中最小元素是 =4 于是将 , 聚为一类,记为计算样本距离阵01606416 0中最小元素是 于是将 , 聚为一类,记为答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能 通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二 个线性组合。继续这

33、个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。6.2 主成分分析的作用体现在何处? 答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分 量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的 大部分信息。6.3 简述主成分分析中累积贡献率的具体含义。答:主成分分析把 p个原始变量 X1,X2,L ,Xp 的总方差 tr() 分解成了 p个相互独立的变量pkY1, Y2 ,L ,Yp的方差之和 k 1 k 。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,忽略一些带有较小

34、方差的主成分将不会给总方差带来太大的影响。 这里我们称 k k k 为第 k k1个主成分 Yk 的贡献率。第一主成分的贡献率最大,这表明 Y1 T1X 综合原始变量 X1,X2,L ,Xp 的能力 mp最强,而 Y2,Y3,L ,Yp的综合能力依次递减。若只取 m( p) 个主成分,则称 m k k 为主 k 1 k 1成分Y1,L ,Ym的累计贡献率,累计贡献率表明 Y1,L ,Ym综合 X1,X2,L , X p的能力。通常取 m ,使得 累计贡献率达到一个较高的百分数(如 85 以上)。6.4 在主成分分析中“原变量方差之和等于新的变量的方差之和”是否正确? 说明理由。 答:这个说法是

35、正确的。即原变量方差之和等于新的变量的方差之和6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别出发的,其结果答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵 受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬 殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用 R 代替。对于研究经济问题所涉及的 变量单位大都不统一,采用 R 代替后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析

36、实际问题,又可以避免突出数值大的变量。6.6 已知 X=()解:的协差阵为试进行主成分分析计算得 ,时综上所述第一主成分为第三主成分为0p1证明的协方差阵 (p 为同理,计算得为最大特征根,其对应的主成分为6.7 设 X=(单位化向量得,易知 相互正交,,为最大特征根当 时, ,所以,第七章7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:两种分析方法都是一种降维、简化数据的技术。两种分析的求 解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析 的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分

37、分析的逆问题。如 果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。因子分析与主成分分析的主要区别是: 主成分分析本质上是一种线性变换, 将原始坐标变换到变异程度 大的方向上为止, 突出数据变异的方向, 归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。 此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子 分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,因子分析可以用于分类。如用考 试分数将学生的学习状

38、况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等因子分析可以 用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一 步研究与探讨指示方向。在社会调查分析中十分常用。因子分析的另一个作用是用于时空分解。如研究 几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开 来从而判断各自的影响和变化规律。7.3 简述因子模型 中载荷矩阵 A 的统计意义。答:对于因子模型Xiaij Fj Lii 1,2,L ,pa11a12La1ma21a22La2m因子载荷阵为 A L21LLL(A1,A2,L ,Am )ap1ap

39、2Lapmai1F1ai2F2 LXi对变量 Xi 的影响程度。第二部分为特殊因子i 对变量 Xi 的方差的贡献,通常称为个性方差。Xi 与 Fj 的协方差为:mCov( X i ,Fj ) Cov( aik Fk i,Fj ) k1m=Cov( aik Fk ,Fj ) Cov( i ,Fj ) k1= aij若对 Xi 作标准化处理,= aij ,因此 aij 一方面表示 Xi 对 Fj 的依赖程度; 另一方面也反映了变量Fj 对公共因子 j 的相对重要性。m22变量共同度 hi分组成:第一部分为共同度 hi2 ,它描述了全部公共因子对变量 Xi 的总方差所作的贡献,反映了公共因子ai2j

40、i 1,2,L ,pj12 2 2 2 2D(Xi) ai21D(F1) ai22D(F2) L ai2m D ( Fm ) D( i) hi2i2 说明变量 Xi 的方差由两部p而公共因子 Fj 对 X 的贡献 g2jai2jj 1,2,L ,mi1表示同一公共因子 Fj 对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。7.4 在进行因子分析时,为什么要进行因子旋转?最大方差因子旋转的基本思路是什么? 答:因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。但有时直接根据特征根、 特征向量求得的因子载荷阵难以看出公共因子的含义。这种因子模型反而是不利

41、于突出主要矛盾和矛盾的 主要方面的,也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法,使每个变量仅在 一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。最大方差旋转法是一种正交旋转的方法,其基本思路为:* * * 1 p 其中令 AA (aij ) p m,dij aij /hi djdij2pi1A* 的第 j 列元素平方的相对方差可定义为 Vj 1 (dij2 d j)2 pi1最大方差旋转法就是选择正交矩阵 ,使得矩阵 A* 所有 m 个列元素平方的相对方差之和达到最大。7.5 试分析因子分析模型与线性回归模型的区别与联系。 答:因子分析模型是一种通过显在变量

42、测评潜在变量,通过具体指标测评抽象因子的统计分析方法的 模型。而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系 , 用函数关系式表达出来因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。即Xiai1F1 ai2F2 LaimFmi ,( i 1,2,L ,p ) 该模型可用矩阵表示为: X AF 而其中 是常数项,回归分析模型中多元线性回归方程模型为:是偏回归系数, 是残差。因子模型满足:1)mp;(2)1Cov(F,0) 0 ,即公共因子与特殊因子是不相关的;3)DFD(F)1OIm ,即各个公共因子不相关且方差为 1; m0121204)DD()2O,即各

43、个特殊因子不相关,方差不要求相等。02p而回归分析模型满足( 1)正态性:随机误差(即残差) e 服从均值为 0,方差为 的正态分布;( 2) 等方差:对于所有的自变量 x,残差 e 的条件方差为 ,且 为常数;(3 )独立性:在给定自变量 x 的 条件下,残差 e的条件期望值为 0(本假设又称零均值假设) ;(4)无自相关性: 各随机误差项 e互不相关两种模型的联系在于都是线性的。因子分析的过程就是一种线性变换。7.6 设某客观现象可用 X=()来描述, 在因子分析时,从约相关阵出发计算出特征值为由于, 所以找前两个特征值所对应的公共因子即可,又知 对应的正则化特征向量分别为 (0.707,-0.316,0.632)及0 , 0.899 ,0.4470 ),要求:(1)计算因子载荷矩阵 A ,并建立因子模型。 (2)计算共同度(3 )计算第一公因子对 X 的“贡献”。解:(1)根据题意, A=建立因子模型为, ,(2 ), ,(3 )因为是从约相关阵计算的特征值,所以公共因子对X 的“贡献”为 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论