




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多元复习1、多元统计分析是运用 数理统计方法来解决 多指标问题的理论和方法。2、多元分析研究的是多个随机变量及相关关系的统计总体。3、如果 A 与 B 是两个 PX P 维的方阵,贝 U AB 与 BA 有完全相同的特征值。4、随机向量 X 的协方差矩阵一定是非负定矩阵。5、若 A为 P阶对称矩阵,则存在正交矩阵 T与对角矩阵人,则三者的关系有 A=TA T6、设 x是多元向量,服从正太分布即 X? 叽農&漏,a为 P维常熟向量,则其线性型 a 服从一元正态分布, 即 ax? 打赢 。7、方差相同的两个随机变量的差与和是 不相关关系。8、协方差和相关系数是变量间 离散程度的一种变量,并不能刻画
2、变量间可能存在的 关联程度的关系。9、变量的类型按尺度划分为 间隔变量、有序变量、名义变量类型。10 、 公共因子方差与特殊因子方差之和为1。11 、 聚类分析是建立一种分析方法,它将一批样品或变量按照它们在性质上的亲疏关系进行科学的分类。12、 聚类分析是分析如何对样品或变量进行量化分析,通常分为Q 型聚类和 R型聚类。13、 聚类分析中 Q 型聚类是对 样品进行聚类, R 型聚类是对 变量进行聚类。14 、 进行判别分析时,通常指定一种判别规则用来判定新样品的归属,常见的判别准则有:费希尔判别准贝, 贝叶斯判别准则。15 、 费希尔判别法就是要找P 个变量组成的 线性判别函数 使得各组内点
3、的 离差尽可能接近,而不同组间的 点尽可能疏远。秆代茂 - 陆】込 716、 当 X? 澧紺:直,则加 卡斜囂选二門 服从卡方分布,即 :玄=产心 二)? 逊17、威尔克斯统计量表达式18 、 霍特林统计量表达式:19、 两个变量间的平方马氏距离 :沪伕,叭匸弊一疔旷汽更疥 ; 总体的马氏距离:上:一 1 上一 A 0-1: o20、方差相等的两个随机变量的关系21 、几个变量间服从正态分布,各自独立,样品的均值向量服从正态分布。22 、 从代数观点看主成分是 P 个原始相关变量的线性组合 。23、 变量共同度是指因子载荷矩阵中的第 i 行元素的平方和。24 、 因子分析是指把每个原始变量分为
4、两部分因素,一部分是公共因子,另一部分是 特殊因子。1、判别分析的目标。答:判别分析的目标有两个: 一是根据已知所属组的样本给出判别函数, 并制定判别规则,再依此判断(或 预测)每一新样品应归属的组别。另一是用图形法或代数法描述各组样品之间的差异性,尽可能地分 离开各组。2、费希尔判别的基本思想、目的、主要方法有哪些? 答:费希尔判别的基本思想是投影(或降维) ,用几个费希尔判别函数或典型变量来代替 P 个原始变量,以 达到降维的目的。并根据这 r 个判别函数对样品的归属作出判别或将各组分离。 各个判别函数都具有单 位方差,且彼此不相关。判别函数的方向并不正交,而作图时仍将它们画成直角坐标系,
5、从直观的几何图上进行判别,区别各组,这是费希尔判别的重要应用。为作图时的需要,通常取判别函数个数 r=2 或 3 。3、聚类分析与判别分析的区别与联系。 答:判别分析和聚类分析都是研究事物分类(或组)的基本方法,但它们却有着不同的分类目的,彼此之 间既有本质 的区别又有一定的联系。它们的本质区别在于: 在于判别分析中,组的数目是已知的 ,我们将样品分配给事先已定义好的组 (或 类)之一;而聚类分析中,无论是类的数目还是类的本身在事先都是未知的。它们的联系在于:如果组不是已有的,则对组的事先了解和形成有时可以通过聚类分析探索得到;还 有,聚类分 析的效果往往也可以通过由前两个(或三个)费希尔判别
6、函数得分产生的散点图(或旋转 图)从直觉上进行评 估。4、主成分的应用分类。答:主成分的应用可分为两类:(1)在一些应用中,这些主成分本身就是分析的目标,此时需要给(用来降维的)前几个只成分一个符合实际背景和意义的解释,以明白其大致的含义。(2)在更多的另一些应用中,主成分只是要达到目标的一个中间结果(或步骤) ,而非目标本身。5、主成分与原始变量间的关系。答( 1)主成分保留了原始变量绝大多数信息。( 2) 主成分的个数远远少于原始变量的数目。( 3) 各个主成分之间互不相关。4)每个主成分都是原始变量的线性组合。6、因子分析与主成分分析的区别与联系答:( 1)主成分涉及的只是一般的变量变换
7、,它不能作为一个模型来描述,本质上几乎不需要任何假定;而因子分析需要构造一个因子模型,并伴随有几个关键性的假定。2)主成分是原始变量的线性组合;而在因子分析中,原始变量是因子的线性组合,但因子却一般不能表示为原始变量的线性组合。3)在主成分分析中,强调的是用少数几个主成分解释总方差;而因子分析中,强调的是用少数几个因子去描述协方差或相关关系。4)主成分的解释是唯一的 (除非含有相同的特征值或特征向量为相反符号) ;而因子的解可以有很多, 表现 的比较灵活(主要体现在因子旋转上) 。这种灵活性使得变量在降维后更易得到解释,这是因 子分析比主成 分分析更广泛应用的一个重要原因。5)主成分不会因其提
8、取个数的改变而变化,但因子分析往往会随模型中因子个数的不同而变化。1、正交因子模型的不受单位的影响。证明:将 x 的单位做变化,通常是作一变换 x* cx ,这里的c diag ( c1 , c 2 , cp ), ci0,i1,2, p ,于是令 * c , A* cA ,x c cAf cxAf这个模型能满足假定式的假定,即:E(f ) 0E( * *) 0V( f ) IV( * )* * D*cov(f , )cov(f , )c0* o * o*2 *222其中 D*diag( 1*2, 2* 2p ), ici i , 1=1,2, c ,则有:因此,单位变换后新的模型仍为正交因子
9、模型2、正交因子模型的因子载荷是不唯一的。 证明:设 T 为任意 mxm 正交矩阵,令 A* T f ,则模型 x AT, fAf,能表示为XA* f *。因为 :E(f ) *TE(f )0* V(f )TV(f)T TT ICoVf *,)E(f*,)TE(f ,)0E(f)0E )0所以仍满足条件 :V(f )I22V()Ddiag (12, . p)cov(f ,)E(f ,) 0从V(Af )V()AV(f )A V()AA D 或 xA*f *可以分解为AA D显然,因子载荷矩阵 A 不是唯一的。都可以看出 也3、性质 (7)设 X ? Np( , ),0,则(X )1(x)? x
10、2(p)。1证明:令 y T(x ) ,于是 y? N p(0,1)所以 yi,y2,y3?yp独立同分布于 N( O, 1)所以由卡方分布的定义知:1 2 2 2 2(x ) (X ) yy yi y?- y ? x (p)1(1(1 , 2, 3)有密度函数f (xzx)sin x1 sin x2 sin x3), 00,其他X1X2, X32试证 x1,x2, x3 两两独立但不互相独立。证明: fi(xjf( Xi,X2, X3)dx2dx318 3s1i n.严血 38 3x1 sin x2 sinX3dx ?dx321 3. 12 0. sin x1 sin0x2dx2sin x3
11、dx3同理 :f 2(X2),f3(X3)2f (x1,.X2)f(X1,X2, X3)dx3sin X1 sinx? sinX3)dx31 2 .8 3 0 sin X1sin X2 sin X3dx3同理: f(X1,X3)2 , f (X2, X3)从而 f(X1,X2)f 1(X1) f2(X2) ,f (X1, X3)f1(X1)f 3(X3),f(X2,X3)f2(X2)f 3(X3),f (X1JX 2, X3) f 1(Xjf2(X2)f 3(X3)所以 X1,X2, x3 两两独立但不互相独立。5、设 P 维随机向量 X 的向量和协方差矩阵分别为卩和刀,求证(1) E(xx
12、)1(1(2) E(x Ax)Etr (xx A)tr( A)(3) 假设111 ,2I 和 A IP试禾 U 用 ( 2 )的结果证明E(xAx). 2 tr( A)p 1证明:(1)V (x)E(x)(x )E( xx xE(xx )所以: E(xx )(2) E(xAx)Etr (xAx )Etr (xx A)tr E( xx A)tr ()A tr ( A)tr (A)tr(3)由(2)知 E(x Ax)tr ( A)所以:111(巨)12(1 111112(PE(x Ax)2tr( A)tr ( 2IA)2 2tr (A)tr (Itr E (xx )A( A)*)tr (I )占
13、tr (11)P -tr (1 1) P 丄 P P 1 Pb, c c )。证明:对任意 a Rr , ayacxa b , 因为 x 是多元正态变量,而acx 是 x 的一个线性函数6、性质( 3)设X? NP( , ) ,y=c x+b,其中 c为r x p 维常数矩阵, b为r维常数向量则 y? N r(从而由性质 ( 2) 的必要性知:acx 是一元正态变量 , 所以 ay 是一元正态变量; 再由性质 (2) 的充分性知:y 是一个 r 元正态变量,又由于 E(y) cE(x) b c bV(y) cV(x)c因而: y? N r(b,c c )7、设 X? NP( ,),a为 P维
14、常数向量,则 a x? N(a , a a)。证明:因为 X?NP(), a 为 P 维常数向量 ,令 y a y , 则有 :E(y)E(ax) aE(x)V(y)a V(x)a所以: a x? N(a ,a a)8、设 X? N2( ,) ,这里x1 x21212x1 x2 (1, 1)x 服从一元正态分布。证明 : E(X1X2)(1, 1)2V( XiX2)(1,1) 111 2 1 22 1 1 1 2 1 222即 XiX2? N 12, 12 222 1 2)3 009、设 X? N3(,),其中0 51 则 X 2 和 X 3 不独 立,X2,X3)独立。0 112和证明:因为
15、 V( x2, x3)0,所以x X3不独立;因为 V X1, (X2, X3)0, 所以x2, x3) 独立。1、已知初始距离 D (dij ) 4 401 011 2 05 3 4 0要求用最短距离法进行聚类,并画出聚类树形 图。X1X212072181031054455432、设抽取 5 个样品,每个样品观察 2 个指标:x1 : 您每月大约喝多少啤酒;x2 : 您对“饮酒是人生的快乐这句话的看法如何观察数据如表所示:请用最短距离法进行聚类,并画出聚类树形图。2?JS-sQG7TF-TQaUr一 csc6o-MGrrJ0; Q 5 .二 0e 岩 玉 、 、 H o6Qf0/BO TyJ
16、H- .64卩4OL58.-FIrsF2p十 T bX A t HO M 4$ 4勻、炉却蛋曲3、例 6.3.1 设有五个样品,每个只测量了一个指标,分别是1、2、6、8、11, 使用最短距离法将它们分类。解:记 G=1 , G2=2 , G3=6 , G4=8 , G5=11 ,样品间采用绝对值距离。D(o)G1G2G3G4G5G10G210G3540G47620G5109530G6G3G4G5G60G340G4620G59530其中 G6= G1U G2D(2)G6G7G5G60G740G5930其中 G7= G3U G4D(3)G6G8G60G840其中 G6= G 1U G2G 严1G
17、 计G 产创 GTG9G 产 - G8G 产11 ! . 扌01 234D最短距离法树形图4、为了研究辽宁省等 5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分省份X1X2X3X4X5X6X7X8辽宁7.9039.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.3019.2514.592.7514.87河南9.4227.938.208.1416.179.421.559.76甘肃9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.81解:(?
18、尸辽宁。尸浙江河南采用欧氏距离:G 円甘弗, GH 青海rfu =1(7.9-7.68+39-77-5037)2+8.49-1135)(12,94-13J)Z4(19.27-125):+(11.05-14-59)2+(2.04-2.75):-H13.2914.87)205=11.67al3-13.80 tf|4-13J2 tf t5-L2.80 血*一 24.63 鸟厂 2上 06 (/:523.54 鸟斗 =2*2 褂羽=3? 51 rf 45=2,211S.80 24.6312,80 23.5411.67 0612 24.0602.20 Q3.51 2.2L河南与甘肃的距离最近 . 先将一
19、番 d 和心合为一类 G6=G GJ6 D&= 1r013.12 0河南. 甘肃与青海并为一新类G T=G S? GJ=G )? G49 GSd6i=%i )l=miudi3 ij=13 ? 12“62之 (3/)2=mind23 d65= 24=24.06 3,)5=miud35045=2 ? 211252302M25=23 ?G3=GyG224.06 11.67 02.21 12.80 23.54 0,7i=d (3,s=miiiWi30i44i5=12 ? 8Od72=d (3A5)2=min54D3=712.8023.5411.67 0lltf 78=mintf 71,tf 72=12
20、.808*1D尸78 12.8 0河南青海辽宁浙江5、例 1 对某地区农村的 6 名 2 周岁男婴的身高、胸围、上半臂围进行测量得样本数据如表1 所示。根据以往资料该地区城市 2 岁男婴的这三个指标的均值=(90,58,16) ,现欲在多元正态性假定下检验该地区农村男婴是否与城市男婴有相同的均值。这是假设检验问题:Ho:尸叽 Hi:表 1 某地区农村男婴的体格测量数据编号身高 (cm)胸围 (cm)上半臂围 (cm)17860.616.527658.112.539263.214.548159.014.058160.815.568459.514.0解:82.08.031.6008.040 0.5
21、00X 60.2 , X比2.2 , S8.0403.仃 2 1.31014.51.54.31070.50014.62101.310 1.9008.946411S 123.1384814.62108.946459.790037.376037.376035.5936T2 n X心 S 1X 心6 70.0741420.445查表得 F.01( 3,3)=29.5 ,于是2 3 5T2133F 0.01 ,147.5故在显著性水平 a=0.01 下,拒绝原假设 Ho, 即认为农村与城市的2 周岁男婴上述三个指标的均值有显著差异 ( p=0.002) 。6、例 7.2.1 设 x=(x i,x 2,
22、x3 )的协方差矩阵为00其特征值为:7=5.83 , 7=2.00 ,7=0.17相应的特征向量为0.38300.924ti 0.924 , t 20 ,t30.3830.00010.000若只取一个主成分,则贡献率为:5.83/(5.83+2.00+0.17)=0.72875=72.875%yi及(yi,y2) 对每个原始变量的贡献率:i Aa10.9250.8550.0000.8552-C.9980.9960.0000.9963n non E J . * . : 0.000 T _ - L1.0001.000可见, yi对第三个变量的贡献率为零,这是因为X3r与Ixi和 x2 都不相关,
23、在 yi中未包含一点有关 x3 的信息,这时仅取一个主成分就显得不够了,故应再取y2,此时累计贡献率为99.6%, 3gl,2 I00%(5.83+2.00)/8=97.875% (yi, y2)对每个变量 xi的贡献率分别为igl,2 85.5% , 2g1,2较咼。I6 2 30入 1=109.793,冶 6.469 , 73=0.7380.9440.1270.120 , t 30.9920.3080.00230 4 I00i =0.305x i+0.041 X 2+0.951 X 37、例 7.2.2 设 x=(x i,x2,X 3)的协方差矩阵为艺 2 I 4经计算,工的特征值及特征向量为:0.305 ti 0.041 , t20.951相应的主成分分别为: yX2y2=0.944x i+0.120x 2- 0.308x 3 y3=-0.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国编织松紧带行业投资前景及策略咨询研究报告
- 劳务型成本费用管理制度
- 七年级上册班级管理制度
- 子公司法律合规管理制度
- iso文件仓库管理制度
- 危化品管理培训管理制度
- 区域工作流动化管理制度
- 科技馆展区展品管理制度
- 公司图书角开放管理制度
- 早上培训新人管理制度
- 新生儿肺动脉高压的护理查房课件
- 美的集团职位分析与职位说明书研讨会
- 《矿用防爆车辆电动自动转向系统技术要求》
- 代收房租协议书范文
- 声学设计施工方案
- 学校直饮水设备采购投标方案(技术标)
- 高速铁路的电磁干扰及其防护措施
- 迪庆藏族自治州发电有限责任公司新乐水电站环境影响后评价报告书
- 《中药学》课件-中药思政元素案例
- 高压水除磷系统在柳钢热轧生产线上的使用和创新
- 医院保洁服务投标方案(完整技术标)
评论
0/150
提交评论