应用多元分析期末复习练习题_第1页
应用多元分析期末复习练习题_第2页
应用多元分析期末复习练习题_第3页
应用多元分析期末复习练习题_第4页
应用多元分析期末复习练习题_第5页
免费预览已结束,剩余15页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元复习1、多元统计分析是运用数理统计方法来解决多指标问题的理论和方法。2、多元分析研究的是多个随机变量及相关关系的统计总体。3、如果A与B是两个PXP维的方阵,则AB与BA有完全相同的特征值。4、随机向量X的协方差矩阵一定是非负定矩阵。5、若A为P阶对称矩阵,则存在正交矩阵T与对角矩阵A,则三者的关系有A=TA丁。6、设x是多元向量,服从正太分布即Xa为P维常熟向量,则其线性型aX服从一元正态分布,即a'xN(ary,7、方差相同的两个随机变量的差与和是不相关关系。8、协方差和相关系数是变量间离散程度的一种变量,并不能刻画变量间可能存在的关联程度的关系。9、变量的类型按尺度划分为间隔

2、变量、有序变量、名义变量类型。10、公共因子方差与特殊因子方差之和为1。11、聚类分析是建立一种分析方法,它将一批样品或变量按照它们在性质上的亲疏关系进行科学的分类。12、聚类分析是分析如何对样品或变量进行量化分析,通常分为Q型聚类和R型聚类。13、聚类分析中Q型聚类是对样品进行聚类,R型聚类是对变量进行聚类。14、进行判别分析时,通常指定一种判别规则用来判定新样品的归属,常见的判别准则有:费希尔判别准则、贝叶斯判别准则。15、费希尔判别法就是要找P个变量组成的线性判别函数I使得各组内点的离差尽可能接近,而不同组间的点尽可能疏远。16、当X次则作一行工便口)服从卡方分布,即G-研产正阳炉。17

3、、威尔克斯统计量表达式:A=喝。叶川18、霍特林统计量表达式:T2=冗(手一阿)5y(x-城。19、两个变量间的平方马氏距离:工,y=(x-y:)T-(x-y);总体的马氏距离:d=ge=(k。20、方差相等的两个随机变量的关系:匕3(工二+工,如一工J二021、几个变量间服从正态分布,各自独立,样品的均值向量服从正态分布。22、从代数观点看主成分是P个原始相关变量的线性组合。23、变量共同度是指因子载荷矩阵中的第i行元素的平方和|。24、因子分析是指把每个原始变量分为两部分因素,一部分是公共因子,另一部分是特殊因子。1、判别分析的目标。答:判别分析的目标有两个:一是根据已知所属组的样本给出判

4、别函数,并制定判别规则,再依此判断(或预测)每一新样品应归属的组别。另一是用图形法或代数法描述各组样品之间的差异性,尽可能地分离开各组。2、费希尔判别的基本思想、目的、主要方法有哪些?答:费希尔判别的基本思想是投影(或降维),用几个费希尔判别函数或典型变量来代替P个原始变量,以达到降维的目的。并根据这r个判别函数对样品的归属作出判别或将各组分离。各个判别函数都具有单位方差,且彼此不相关。判别函数的方向并不正交,而作图时仍将它们画成直角坐标系,从直观的几何图上进行判别,区别各组,这是费希尔判别的重要应用。为作图时的需要,通常取判别函数个数r=2或3。3、聚类分析与判别分析的区别与联系。答:判别分

5、析和聚类分析都是研究事物分类(或组)的基本方法,但它们却有着不同的分类目的,彼此之间既有本质的区别又有一定的联系。它们的本质区别在于:在于判别分析中,组的数目是已知的,我们将样品分配给事先已定义好的组(或类)之一;而聚类分析中,无论是类的数目还是类的本身在事先都是未知的。它们的联系在于:如果组不是已有的,则对组的事先了解和形成有时可以通过聚类分析探索得到;还有,聚类分析的效果往往也可以通过由前两个(或三个)费希尔判别函数得分产生的散点图(或旋转图)从直觉上进行评估。4、主成分的应用分类。答:主成分的应用可分为两类:(1)在一些应用中,这些主成分本身就是分析的目标,此时需要给(用来降维的)前几个

6、只成分一个符合实际背景和意义的解释,以明白其大致的含义。(2)在更多的另一些应用中,主成分只是要达到目标的一个中间结果(或步骤),而非目标本身。5、主成分与原始变量间的关系。答(1)主成分保留了原始变量绝大多数信息。(2)主成分的个数远远少于原始变量的数目。(3)各个主成分之间互不相关。(4)每个主成分都是原始变量的线性组合。6、因子分析与主成分分析的区别与联系。答:(1)主成分涉及的只是一般的变量变换,它不能作为一个模型来描述,本质上几乎不需要任何假定;而因子分析需要构造一个因子模型,并伴随有几个关键性的假定。(2)主成分是原始变量的线性组合;而在因子分析中,原始变量是因子的线性组合,但因子

7、却一般不能表示为原始变量的线性组合。(3)在主成分分析中,强调的是用少数几个主成分解释总方差;而因子分析中,强调的是用少数几个因子去描述协方差或相关关系。(4)主成分的解释是唯一的(除非含有相同的特征值或特征向量为相反符号);而因子的解可以有很多,表现的比较灵活(主要体现在因子旋转上)。这种灵活性使得变量在降维后更易得到解释,这是因子分析比主成分分析更广泛应用的一个重要原因。(5)主成分不会因其提取个数的改变而变化,但因子分析往往会随模型中因子个数的不同而变化。1、正交因子模型的不受单位的影响。一、.一、一*.证明:将x的单位做变化,通常是作一变换x=cx,这里的c=dia(gci,C2,.C

8、p),Ci>0,i=1,2,.p.于是*.一一.x=c-cAfc;._*-*令N=cN,A=cA,a=cw,则有:*.*_*x-Af;这个模型能满足假定式的假定,即:中)=0*E(名)=0V(f)=I-*_*V(6)=Dcov(f,;)=cov(f,;)c=0一、*.*9*9其中D=diag(二1,二2,*2、*222,,.Op),ai=qDi,i=1,2,.p。因此,单位变换后新的模型仍为正交因子模型。2、正交因子模型的因子载荷是不唯一的。证明:设T为任意mxm正交矩阵,令A=AT,f=Tf,则模型x=N+Af+&能表示为x=R+Af+君。.*.因为:E(f)=TE(f)=0_

9、*._.V(f)=TV(f)T=TT=I_*.CoVf,a)=曰f,名)=TE(f,葭)=0'E(f)=0E(a)=0所以仍满足条件:V(f)=I222、V(;)=D=diag(二1,二2,.:p)cov(f,;)=E(f,;)=0-_-_-_.-_._._.从工=V(Af)+V(s)=AVf)A+V(&=AA+D或x=N+Af+名都可以看出工也F-*可以分解为三=AAD显然,因子载荷矩阵A不是唯一的。3、性质(7)设XNp(N,工),工>0,则(xN)5(xN)x2(P)。证明:令y=工,xN),于是yNp(0,1)所以丫1。2,丫3.yp独立同分布于n(0,1)所以由

10、卡方分布的定义知:12222,、(x-口)二(x-)=yy=yi».Np*(P)X=(兀1,兀2,兀3)'有密度2-2”试证x1x2,x3两两独立但不,1_.、cf(XiX2,X3)一(11一sinx1sinx2sinx3),0<x1x2,x3<8二3一一0,其他互相独立。qQqQ证明:3(x1)=f(x1x2,x3)dx2dx3二二二二,同理:f2(x2)f(x1,x2)3sinx1sinx2sinx3dx2dx31.tsin8二3x12sin10f3M)二MX-"x2dx237Tsinx3dx31-sinx1sinx2sin2二2二318二32x3)

11、dx32sinx1sinx2sinx3dx3同理:f(X1,X3)=从而f(X1,X2)=3(X12(X2),f(X1,X3)=3(X13(X3),f(X2,X3)=f2(X2)f3(X3),f(X1,X2,X3);f1(X1)f2(X2)f3(X3)所以X1,X2,x3两两独立但不互相独立。5、设P维随机向量X的向量和协方差矩阵分别为科和汇,求证:(1) E(xx)-1(2) E(xAx)=Etr(xxA)l-tr(三A)A一.2.11(3)假设N=N1,工=仃I和A=I市-试禾ij用(2)的结果证明E(xAx)/cr2=tr(A)=p一1。证明:(1)工=V(x)=E(x-k)(x-N)=

12、E(xx-x1-x)=E(xx)-所以:E(xx)-1(2)E(xAx)=Etr(xAx)1=Etr(xxA)1=trE(xxA)1=trE(xx)A】=tr(二-)Al-tr(三A)tr(A)=tr(三A)JAJ(3)由(2)知E(xAx)=tr(ZA)+NA,A-1(I=2(1111112(P.所以:E(xAx)2CJ-2tr(三A)_tr(-TA)=tr(A)=tr(I1=tr(I)一gtr(11)=_1._1_P-tr(11)-P-P-P-1PP6、性质(3)设XNP(出工),y=cx+h其中c为rxp维常数矩阵,b为r维常数向量则yNr(N+b,c工c)。证明:X任意aeRr,ay=

13、aCx+ab,因为x是多元正态变量,而a'cx是x的一个线性函数从而由性质(2)的必要性知:aCx是一元正态变量,所以ay是一元正态变量;再由性质(2)的充分性知:y是一个r元正态变量,又由于E(y)=cE(x)+b=cN+bV(y)=cV(x)c=c三c因而:yNr(R十b,cic')7、设XNP(kI),a为P维常数向量,则ax-N(aV,aHa)。证明:因为XNp(此工),a为P维常数向量,令y=ay,则有:E(y)=E(ax)=aE(x)=aV(y)=aV(x)a=a三a所以:axN(aU,aZa)8、设X4(N,工),这里x=仙工32P":2'则从2

14、Jl口仃1仃2仃2/x1-x2=(11)x服从一兀正态分布。证明:E(X1-X2)=(1,一1)1=匕一也<h2J1仃2丫1"人-1220102-2:二1二21,22_-、即乂1X2NX-2,;1二2-2r-2)300、9、设XN3(出工),其中工05-1则X2和X3不独立,X1和(X2,X3)独立。0-11<J证明:因为V(X2,X3)00,所以乂2和乂3不独立;因为VX1,(X2,X3)=0,所以X1和(X2,X3)独立。0要求用最短距离法进行聚类,并画出聚类树形图。20340一c,-11、已知初始距离D(dlj)4黑4=一11gX1X2120721810310544

15、55432、设抽取5个样品,每个样品观察2个指标:X1:您每月大约喝多少啤酒;X2:您对“饮酒是人生的快乐这句话的看法如何?观察数据如表所示:请用最短距离法进行聚类,并画出聚类树形图。超-1%:设由GN=i4q-£U8->)ado=口2-2。广,/-2讨6k”jGf7»药+(,。-7)1肚土各4t-伶-7月土二10.2.cl/4/6,i2,oti4二W皆二氏£,丸4工,G,G>%4小Ga犯。S2衿o国卜J2中旬&oG5、为破6次囱JiG=0("夕,二m;c:Jg4G/6/§&4/061b&120必修药环0G.

16、U忘的'3丁二加冷)d,3,G65rG,Gg(。7Ilfs;oG。团擀3»及7g=>yunf令G67(0S*0V,心"43M=心图>,ck)r=6、32dj二2把6%合并为G6J.J45&广/&/2Jm=13、把q-Gz/#为彳7也卜产3.除"37|他G60脸为G®为、以力二产g)寺邑掰,日8泰繇为6f7q1一,1G3或辰弋_、k"03、例6.3.1设有五个样品,每个只测量了一个指标,分别是1、2、6、8、11,使用最短距离法将它们分类。解:记G=1,G2=2,G3=6,G4=8,Gs=11,样品间采用绝对值

17、距离。D(0)G1G2G3G4G5G10G210G3540G47620G5109530D(i)G6G3G4G5Gs0G340G4620G59530其中G6=GiUG2d(2)G6G7G5G60G740G5930其中G7=QUG4D(3)G6G8G60G840其中G6=GiUG24、为了研究辽宁省等5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分省份x1X2X3X4X5X6X7X8辽宁7.9039.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.3019.2514.592.7514.87河南9.4227.938.208.1416.17

18、9.421.559.76甘肃9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.81最短距离法树形图解:辽宁,G*浙江,G3T河南,G甘肃),G青海采用欧氏距离:=(7,9-7,68)2+(39.77-5037)2+(8.49-1135)-+(12.94-%3.3户+(19.27-19.25尸+(11.05-14.59)耳(2.04-2,75)H13.29-14.87月。3=11.67/3=13,80114=13.12%产12.80rf23=24.634乂=24.0622354J34=2.235=3.

19、51rf45=2.2112345211.670313.8024.630河南与甘肃的距离最近,先将二者(3和4)合为一类q=Ga,GJ413,1224,06220012.8023.543.512.210一d6i=&3朋=mind3/i4=13.12%=仙)2-皿43小=24066D,=l.25河南、甘甫与青海并为一新类Gt=G6,Gs=Gi9G4,GRd6S=d(3,4)5=miii心心=2.216125013.12024.0611.6702.2112.8023.540”d7i=d(3,451=mindi3,di4,di5=128°由2=%,42=miud23,d24,d25=

20、23.54712Z>3=7012.800G8=G1,G?223.5411.670rf78=mintZ71,tZ72=12.8078Z)4=70812.80河南3甘肃4青海5辽宁1浙江25、例1对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量得样本数据如表1所示。根据以往资料该地区城市2岁男婴的这三个指标的均值由=(90,58,16),现欲在多元正态性假定下检验该地区农村男婴是否与城市男婴有相同的均值。这是假设检验问题:H。:户如Hi:出表1某地区农村男婴的体格测量数据编号身高(cm)胸围(cm)上半臂围(cm)17860.616.527658.112.539263.214.54

21、8159.014.058160.815.568459.514.0解:'82.07X=60.2,X%=“511S1=23.13848-8.0、2.2,S1.54.3107-14.62108.946431.600=8.040、0.500-14.621059.7900-37.37608.0400.500、3.1721.3101.3101.900,8.9464'-37.376035.5936,T2=nX咕S,Xi=670.0741=420.445查表得Fo.o1(3,3)=29.5,于是35丁F*13,3=147.5故在显著性水平“=0.01下,拒绝原假设Ho,即认为农村与城市的2周岁

22、男婴上述三个指标的均值有显著差异(p=0.002)。1-206、例7.2.1设x=(xi,X2,X3)的协方差矩阵为2=-250<002其特征值为:4=5.83,力=2.00,为=0.17相应的特征向量为:00.383、0'0.924、-0.924,t2=0,t3=0.38310.000,©000,若只取一个主成分,则贡献率为:5.83/(5.83+2.00+0.17)=0.72875=72.875%yi及(丫1,丫2)对每个原始变量的贡献率:i洛pS四)Ph.110.9250.8550.0000.855.一-0.9980.9960.0000.9963nnanEJ-JK

23、_=0.0004.n-t-r"?r-i1.000J1-J*1上LOGO"riTii.f可见,yi对第三个变量的贡献率为零,这是因为X3与Xi和X2都不相关,在yi中未包含一点有关X3的信息,这时仅取一个主成分就显得不够了,故应再取y2,此时累计贡献率为(5.83+2.00)/8=97.875%(yi,y2)对每个变量Xi的贡献率分别为Pi,2=85.5%,p2u,2=99.6%,21,2=100%都比较tWj°,16230'、7、例7.2.2设x=(Xi,X2,X3)的协方差矩阵为2=214304100,经计算,2的特征值及特征向量为:入1=109.793,加=6.469,2=0.7380.3050.944t10.0410.120。951)<-0.308

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论