




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元复习1、多元统计分析是运用数理统计方法来解决多指标问题的理论和方法。2、多元分析研究的是多个随机变量及相关关系的统计总体。3、如果A与B是两个PP维的方阵,则AB与BA有完全相同的特征值。4、随机向量X的协方差矩阵一定是非负定矩阵。5、若A为P阶对称矩阵,则存在正交矩阵T与对角矩阵,则三者的关系有A=TT。6、设x是多元向量,服从正太分布即XNP,,a为P维常熟向量,则其线性型ax服从一元正态分布,即axNa,aa。7、方差相同的两个随机变量的差与和是不相关关系。8、协方差和相关系数是变量间离散程度的一种变量,并不能刻画变量间可能存在的关联程度的关系。9、变量的类型按尺度划分为间隔变量、有序变量、 名义变量类型。10、公共因子方差与特殊因子方差之和为1。11、聚类分析是建立一种分析方法,它将一批样品或变量按照它们在性质上的亲疏关系进行科学的分类。12、聚类分析是分析如何对样品或变量进行量化分析,通常分为Q型聚类和R型聚类。13、聚类分析中Q型聚类是对样品进行聚类,R型聚类是对变量进行聚类。14、进行判别分析时,通常指定一种判别规则用来判定新样品的归属,常见的判别准则有:费希尔判别准则、贝叶斯判别准则。15、费希尔判别法就是要找P个变量组成的线性判别函数使得各组内点的离差尽可能接近,而不同组间的点尽可能疏远。16、当XNP,,则 x-T-1(x- )服从卡方分布,即 x-T-1(x- ) x2(P)。17、威尔克斯统计量表达式:=EE+H。18、霍特林统计量表达式:T2=n(x-0)S-1(x-0) 。19、两个变量间的平方马氏距离:d2(x,y)=(x-y)-1(x-y) ;总体的马氏距离:d2(x,)=(x-)-1(x-) 。20、方差相等的两个随机变量的关系:covx1+x2,x1-x2=0 。21、几个变量间服从正态分布,各自独立,样品的均值向量服从正态分布。22、从代数观点看主成分是P个原始相关变量的线性组合。23、变量共同度是指因子载荷矩阵中的第i行元素的平方和。24、因子分析是指把每个原始变量分为两部分因素,一部分是公共因子,另一部分是特殊因子。1、判别分析的目标。答:判别分析的目标有两个:一是根据已知所属组的样本给出判别函数,并制定判别规则,再依此判断(或预测)每一新样品应归属的组别。另一是用图形法或代数法描述各组样品之间的差异性,尽可能地分离开各组。2、费希尔判别的基本思想、目的、主要方法有哪些?答:费希尔判别的基本思想是投影(或降维),用几个费希尔判别函数或典型变量来代替P个原始变量,以达到降维的目的。并根据这r个判别函数对样品的归属作出判别或将各组分离。各个判别函数都具有单位方差,且彼此不相关。判别函数的方向并不正交,而作图时仍将它们画成直角坐标系,从直观的几何图上进行判别,区别各组,这是费希尔判别的重要应用。为作图时的需要,通常取判别函数个数r=2或3。3、聚类分析与判别分析的区别与联系。答:判别分析和聚类分析都是研究事物分类(或组)的基本方法,但它们却有着不同的分类目的,彼此之间既有本质的区别又有一定的联系。 它们的本质区别在于:在于判别分析中,组的数目是已知的 ,我们将样品分配给事先已定义好的组(或类)之一;而聚类分析中,无论是类的数目还是类的本身在事先都是未知的。 它们的联系在于:如果组不是已有的,则对组的事先了解和形成有时可以通过聚类分析探索得到;还有,聚类分析的效果往往也可以通过由前两个(或三个)费希尔判别函数得分产生的散点图(或旋转图)从直觉上进行评估。4、主成分的应用分类。答:主成分的应用可分为两类:(1)在一些应用中,这些主成分本身就是分析的目标,此时需要给(用来降维的)前几个只成分一个符合实际背景和意义的解释,以明白其大致的含义。(2)在更多的另一些应用中,主成分只是要达到目标的一个中间结果(或步骤),而非目标本身。5、主成分与原始变量间的关系。答(1)主成分保留了原始变量绝大多数信息。 (2)主成分的个数远远少于原始变量的数目。 (3)各个主成分之间互不相关。 (4)每个主成分都是原始变量的线性组合。6、因子分析与主成分分析的区别与联系。答:(1)主成分涉及的只是一般的变量变换,它不能作为一个模型来描述,本质上几乎不需要任何假定;而因子分析需要构造一个因子模型,并伴随有几个关键性的假定。 (2)主成分是原始变量的线性组合;而在因子分析中,原始变量是因子的线性组合,但因子却一般不能表示为原始变量的线性组合。 (3)在主成分分析中,强调的是用少数几个主成分解释总方差;而因子分析中,强调的是用少数几个因子去描述协方差或相关关系。 (4)主成分的解释是唯一的(除非含有相同的特征值或特征向量为相反符号);而因子的解可以有很多,表现的比较灵活(主要体现在因子旋转上)。这种灵活性使得变量在降维后更易得到解释,这是因子分析比主成分分析更广泛应用的一个重要原因。 (5)主成分不会因其提取个数的改变而变化,但因子分析往往会随模型中因子个数的不同而变化。1、正交因子模型的不受单位的影响。证明:将x的单位做变化,通常是作一变换,这里的 ,于是 令,则有:这个模型能满足假定式的假定,即:其中,i=1,2,.p。因此,单位变换后新的模型仍为正交因子模型。2、正交因子模型的因子载荷是不唯一的。证明:设T为任意mxm正交矩阵,令则模型能表示为。 因为: 所以仍满足条件:从或都可以看出也可以分解为显然,因子载荷矩阵A不是唯一的。3、性质(7)设X则。证明:令,于是 所以独立同分布于N(0,1)所以由卡方分布的定义知:4、设随机变量有密度函数试证两两独立但不互相独立。证明: = = =同理:, 同理:,从而,所以两两独立但不互相独立。5、设P维随机向量X的向量和协方差矩阵分别为和,求证:(1)(2)(3)假设,和试利用(2)的结果证明。证明:(1) 所以: (2) (3)由(2)知, 所以:6、性质(3)设X,y=c x+b,其中c为r x p维常数矩阵,b为r维常数向量则。证明:对任意,因为x是多元正态变量,而是x的一个线性函数从而由性质(2)的必要性知:是一元正态变量,所以是一元正态变量;再由性质(2)的充分性知:y是一个r元正态变量,又由于 因而:7、设X,a为P维常数向量,则。证明:因为X,a为P维常数向量,令,则有: 所以:8、设X,这里,则 服从一元正态分布。证明: 即9、设X,其中则不独立,独立。证明:因为,所以不独立; 因为,所以 独立。1、 已知初始距离要求用最短距离法进行聚类,并画出聚类树形图。X1X212072181031054455432、 设抽取5个样品,每个样品观察2个指标:您每月大约喝多少啤酒;:您对“饮酒是人生的快乐这句话的看法如何?观察数据如表所示:请用最短距离法进行聚类,并画出聚类树形图。3、 例6.3.1设有五个样品,每个只测量了一个指标,分别是1、2、6、8、11,使用最短距离法将它们分类。解:记G1=1,G2=2,G3=6,G4=8,G5=11,样品间采用绝对值距离。 D(0)G1G2G3G4G5G10G210G3540G47620G5109530 D(1)G6G3G4G5G60G340G4620G59530其中G6= G1G2 D(2)G6G7G5G60G740G5930其中G7= G3G4D(3)G6G8G60G840其中G6= G1G2最短距离法树形图4、为了研究辽宁省等5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.648.49 11.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.10 8.392.042.751.551.821.9613.2914.879.7611.3510.81解:5、例1 对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量得样本数据如表1所示。根据以往资料该地区城市2岁男婴的这三个指标的均值0=(90,58,16),现欲在多元正态性假定下检验该地区农村男婴是否与城市男婴有相同的均值。这是假设检验问题: H0:=0,H1:0表1 某地区农村男婴的体格测量数据编 号身高(cm)胸围(cm)上半臂围(cm)17860.616.527658.112.539263.214.548159.014.058160.815.568459.514.0解:查表得F0.01(3,3)=29.5,于是 故在显著性水平=0.01下,拒绝原假设H0,即认为农村与城市的2周岁男婴上述三个指标的均值有显著差异(p=0.002)。6、例7.2.1 设x=(x1,x2,x3)的协方差矩阵为其特征值为: 1=5.83,2=2.00,3=0.17 相应的特征向量为: 若只取一个主成分,则贡献率为:5.83/(5.83+2.00+0.17)=0.72875=72.875%y1及(y1,y2)对每个原始变量的贡献率:可见,y1对第三个变量的贡献率为零,这是因为x3与x1和x2都不相关,在y1中未包含一点有关x3的信息,这时仅取一个主成分就显得不够了,故应再取y2,此时累计贡献率为(5.83+2.00)/8=97.875%(y1,y2)对每个变量xi的贡献率分别为 , 都比较高。7、例7.2.2 设x=(x1,x2,x3)的协方差矩阵为经计算,的特征值及特征向量为:1=109.793,2=6.469,3=0.738 相应的主成分分别为:y1=0.305x1+0.041x2+0.951x3y2=0.944x1+0.120x20.308x3 y3=0.127x1+0.992x20.002x3 可见,方差大的原始变量x3在很大程度上控制了第一主成分y1,方差小的原始变量x2几乎完全控制了第三主成分y3,方差介于中间的x1则基本控制了第二主成分y2。y1的贡献率为:这么高的贡献率首先归因于x3的方差比x1和x2的方差大得多,其次是x1,x2,x3相互之间存在着一定的相关性。y3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年合肥肥西县桃花初级中学教师招聘考试试题(含答案)
- 法院考试面试题及答案
- 湘西中考试题及答案
- 2025年灌南县教育系统招聘教师考试笔试试题(含答案)
- 校保卫处消防知识培训课件
- 急救技能知识模拟试题库及答案
- 饭店服务与管理试题库含答案
- 医院突发事件应急处理培训考核试题及答案
- 急救药品考试题(含答案)
- 放射医学技术(士、师)考试题库含答案
- 流水走账协议合同
- 博士组合物80问
- 陪玩协议书6篇
- TAGFA 0012-2024 绿色食品 茶叶种植技术规范
- 模块化建筑运输与安装行业跨境出海战略研究报告
- 2025年光伏发电安装合同模板
- 家长外出务工委托亲戚照顾孩子全托合同协议书
- 华为SDBE领先模型:闭环战略管理的全面解析-2024-12-组织管理
- GB/T 11263-2024热轧H型钢和剖分T型钢
- 老年病的特点及诊疗要点
- 电解次氯酸钠消毒设备技术方案
评论
0/150
提交评论