多元统计分析期末考试考点_第1页
多元统计分析期末考试考点_第2页
多元统计分析期末考试考点_第3页
多元统计分析期末考试考点_第4页
多元统计分析期末考试考点_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

二名词解释

1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理

论和方法,是一元统计学的推广

2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的•种多元统计分析方

法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。

使类内对象的同质性最大化和类间对象的异质性最大化

3、随机变量:是指变最的值无法预先确定仅以一定的可能性(概率)取值的最。它是由于随

机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向

量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。

4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表

总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩

到不包含未知量的样本函数中,这个函数称为统计量

三、计算题

口2>

1、设X=(工1,叼,,3)~%(小£),其中"=(1。—=—44-1

、2一14)

试判断5+2向与广[西)是否独立?

解:

1

00

0

T。-6一16、

蜘】,外的联合分布为乂(1-61620)

-3-162040,

故不独立.

2、对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量,

得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的

均值从=(905匕16)。现欲在多元正态性的假定下检验该地区农村男婴是

否与城市男婴有相司的均值.

r82.0>,4.3107-14.62108.9464

其中万=60.2,(5切一】=(115.6924)7-14.62103.172-37.3760

[145J8.9464-37376035.5936

但=0.01,%°]G2)=992瓦m。,3)=29.5,稣0]。,4)=16.7)

答:

2、假设检验问题:H,。:N=No,区:"h"o

'-8.0、

经计算可得:又一出=2.2,

、-1司

'4.3107-14.62108.9464

S」=(23.13848)」-14.62103.172-37.3760

8.9464-37.376035.5936

构造检验统计量:『=状又一RJS-I(又一火)

=6x70,0741=420,445

由题目己知综0i(3,3)=29.5,由是

^i=^y^o.oi(3,3)=147.5

所以在显著性水平a=0.01下,拒绝原设当

即认为农村和城市的2周岁男婴上述三个

指标的均值有显著性差异

1pp3

4、设尤=(应,%,工3,匕)]~凶4(02),协方差阵£=p1fP,0<p<l

PP1P

VPPP1j

(1)试从Z出发求X的第一总体主成分;

⑵试问当P取多大时才能使第一主成分的贡献率达95%以匕

答:

A-l-P-P

-P-p-P

4⑴由0得特征根为A=1+3p,

-PA.—1-P

-P-Pa—i

得&所对应的单位特征向量为e111

故得第一主成分2=:工1+;工2,工3+;*4

(2)第一个主成分的贡献率为

--------i--------=i95%

4+&+4+A------4

095x4-1

得p之=0.933

3

题型三解答题

1、简述多元统计分析中协差阵检验的步骤

答:

第一,提出待检验的假设和HI;

第二,给出检验的统计量及其服从的分布;

第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;

第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策

(拒绝或接受)。

2、简述一下聚类分析的思想

答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品

或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指

标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕.

3、多元统计分析的内容和方法

答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,

使研究问题得到简化但损失的信息又不太多。(1)主成分分析•(2)因子分析(3)对应分析

2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析•:根据分析样本的各研

究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计

方法。

4、系统聚类法基本原理和步骤

答:

1)先计算n个样本两两间的距离

2)构造n个类,每个类只包含一个样本

3)合并距离最近的两类为一新类

4)计算新类与当前各类的距离

5)类的个数是否等于1,如果不等于回到3在做

6)画出聚类图

7)决定分类个数和类

5、聚类分析的类型有:

答:

(1)对样本分类,称为Q型聚类分析

(2)对变量分类,称为R型聚类分析#Q型聚类是对样本进行聚类,它使具有相似性特征

的样本聚集在一起,使差异性大的样本分离开-来。#R型聚类是对变量进行聚类,它使具有

相似性的变量聚集在•起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性

的变星参与其他分析,实现减少变单个数,达到变星降维的目的。

6、简述欧氏距离与马氏距离的区别和联系。

4.1蔺述欧氏距离与马氏距离的区别和联系.

/

答:设P维空间RP中的两点X=(X1,X2-XP)和Y=YPY2-Yp'•则欧氏距离为

"(%-*尸。欧氏距离的局限有①在多元数据分析中,其度量不合理.②会受到实际问题

中量纲的影响.

设X,Y是采目均值向量为口,协方差为n的总体G中的p维样本,则马氏距离为

D(X,Y)=X-Y/Z-X-Y。当2T=1即单位阵时,D(X,Y)=X-Y'X-Y=3(X「

Y=3(*一Yi)制3欧氏距离.

因此,在一定程度上,演氏距离是马氏距离的特殊情况,马氏距落是欧氏距离的推广.

7、试述系统聚类的基本思想。

答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,

过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

8对样品和变量进行聚类分析时所构造的统计量分别是什么?简要说明为什么这样构

造?

答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作

P维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为

(-)明氏距离:%g)=(Z\xik-尤声『产

q取不同值,分为,

(1)绝对距离(q-i)&/D=£,诋-X/1

£-1

(2)欧氏£自离(2)产

k-1

(3)切比雪夫距离(9=8)%.(0O)=m^ax囚徒-X扶|

10.

(二)马氏距离"〃(')=户1**+*

厂*-1»〃

(三)兰氏距离d;(M)=(X,-X/)'E-i(X,-X/)

对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量.

将变量看作P维空间的向里,一般用

(-)夹角余花

cos%1I

x:)(Z

1I

(-)相关系数,

士(匕,一反

•一<•

^7国,一尼,工(Y八一支,)2

9、在进行系统聚类时,选择距离公式应遵循哪些原则?

答:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的

空间距离概念。马氏距离有消除量纲影响的作用。

(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析

之前已经对变显作了标准化处埋,则通常就可采用欧氏距离。

(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带

有•定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论