多元统计分析期末复习_第1页
多元统计分析期末复习_第2页
多元统计分析期末复习_第3页
多元统计分析期末复习_第4页
多元统计分析期末复习_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CHAPTER1绪论

1.多元统计分析:如果说一元统计分析是研究一个随机变量统计规律的学科,

那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规

律性的一门统计学科。

2.多元统计分析应用:

对我国三十个省市自治区社会情况进行分析,选取人口密度、人均月收入、

人均月消费、物价水平、居住面积为指标。样品为一个省市自治区的五个指

标的观测值,指标为人口密度、人均月收入、人均月消费、物价水平、居住

面积。

3.多元统计分析主要内容:

1)简化数据结构(降维问题:主成分分析、因子分析)

2)分类与判别(归类问题)(分类:聚类分析;判别:判别分析)

3)变量间相互关系(多重多元回归分析)

4)多维数据的统计判断

5)多元统计分析的理论基础

CHAPTER2多元正态分布

1.正态分布与多元正态分布pl5~16

1)一元正态分布的概率密度函数为

f(x)=启exp®(爹)呵,-8<X<+8

函数图形为钟形曲线(略)

2)多元正态分布

若P维随即向量X=(X”…,XQ'的密度函数为:

1r1

f(x)=..------------exp--(x-n)zl;A(-l)(x-u)

其中,x=(xl,…xp”,u时随机变量X的p维均值向量,2是X的p阶协

差阵(是正定阵以保证£7存在),则称X服从p元正态分布,也称X为p

维正态随机向量,简记为X〜Np(u,£)°p=l时,即为一元正态分布。

2.多元正态分布的参数估计

多元正态分布中均值向量口和协差阵£通常是未知的,需由样本来估计,用

最大似然估计法给出其估计量。

3.多元样本及例子(变量、样品分别是什么)

1)多元分析研究的总体是多元总体,从多元总体中随机抽取n个个体X⑴X⑵…

x(n),若X⑴X⑵…相互独立且总体同分布,则X⑴X⑵…称为该总体的一个

多元随机样本,简涿为简单样本。每个X(“)=(XM,X必…,X”)'称为一个样品,

其中Xaj为第a个样品对第j个指标的观测值,显然每个样品都是p维向量,

将n个样品对p项指标进行观测,将全部观测结果用一个n*p阶矩阵X表示。

其中n行代表n个样品,p列代表p项指标。

—一—一---♦

将全部观测结果用一个〃:Xp际矩阵X袤示「

M嘴』。X”Xi?…X/--

■西柏林x=X”x2i…x2>

=*

J::•

.x“X立…X”X;.).

由于每个样品Xg>=【X“,Xw,X”)'对P'、指标的观测值是不能事先

确定的,所以把每个样品?%看成随机.址典上一个随机矩阵,称X

为观测矩阵殁华统料咆

副施*矩阵,多元分析的很

务方法都是金语客神手段J人观而矩德出发去提J

仅有关信,t

2)样本举例:北工大2013级本科生身体健康状况。变量为:身高、体重、

肺活量;样品为:北工大2013级某一本科生的身高、体重、肺活量观测值。

4.多元样本的数字特征(老师只细讲了1)和3)):

设X(l),…,X(n)为1元总体的样本,其中X(a)=(Xal,…,Xap)',a=l,2,…n,则

1)样本均值向量定义为

X2▲.XQ)=(复—,…,X.

n

a=1一、r_

2)样本离差阵定义为:

S29(X⑹_及)(Xs)_*)'=(""x»

PXPC=1-

3)样本协差阵定义为:

,

v^—s=—y;(X(a)-X)(X(a)-X)=Gij\xp

axpnn

4)样本相关阵定义为:

5.u(总体均值向量)和E(总体协差阵)的估计量分别为:u尖二X拔,£尖=(l/n)S,

即总体均值向量的最大似然估计是样本均值向量,总体协差阵的最大似然估

计是样本协差阵。

它们有如下性质:(1)样本均值向量是总体的无偏估计,而样本协差阵不是

总体的无偏估计;(2)样本均值向量和协差阵分别是总体的有效估计;13)

样本均值向量和样本协差阵【S/n或S/n-1】分别是总体的一致估计(相合估

计)

CHAPTER3假设检验(无明确具体考的内容)

1.步骤:

1)提出待检验的假设H0和H1

2)给出检验的统计量及它服从的分布

3)给定检验水平a,查统计量的分布表,确定临界值从而得到否定域

4)根据样本观测值计算出统计量的值,看是否落入否定域中,以便判别假设检验作出

决策(拒绝或接受)。

2.内容:事先提出一个关于总体未知分布中参数的一个统计假设,然后完全根据样本提供

的信息为依据,以检验统计量作为工具,对事先提出的假设进行检验,最后作出一个关

于提出的假设是否可接受的统计判断。

理论依据:就是“小概率事件的一次不可能性原理,即认为,概率很小的随机事件在

一次试验(抽样)当中是不可能发生的。若小概率事件没有发生,认为这是合乎情理的,

与原假设没有发生矛盾。若小概率事件竟然发生了,就认为是不可思议的事情,是不正

常的,这时就应怀疑当初提出的假设的正确性。

CHAPTER4多元数据图表示方法

轮廓图分析(自己编的〉:

1)标题、横纵轴、单位

2)极值、趋势

3)比较异同(某几条线较高/低且相似)

以书中为例:由轮廓图可以看出,肉禽及制品和文娱用品及服务,北京上海远远高于陕西甘

肃;而医疗保健方面,四个城市消费均较低且相似。总体来说,北京上海的居民生活消费支

出水平较高且相似,但健康意识不够强,陕西甘肃生活消费较低且相似。

CHAPTER5聚类分析

1.变量类型与实例:变量有的是定量的,有的是定性的,因此将变量的类型按以下三种尺

度划分:

1)间隔尺度:变量用实数表示,如长度、重量、压力、速度等等。

2)有生尺度:变量度量时没有明确的数量表示,而是划分•些等级,等级之间有次序关系,

如上、中、下三等,而没有数量表示。

3)名义尺度:变量度量时,既没有数量表示,也没有次序关系,而用不同状态来表示,如

性别有男女:三原色有红黄蓝等。

2.点与点之间的距离

1)公式

明氏距离:dij(q)=(2"IXia-XjaN)1四

q=l时,dij(q)=£Zi|XiQ-X/a|,为绝对距离

212

q=2时,dij(q)=(S^=1IXia-XjaI)/,为欧氏距离

q=8时,dij(q')=max(1<a<p)IXia-XjaI,为切比雪夫距离

马氏距离:

设E表示指标的协差阵,即:E=(Oij)p*p,其中

CHAPTER6判别分析

1.判别分析与聚类分析的异同(简答题)

聚类分析是研究(样品或变量)分类问题的一个多元统计方法(类指相似元素的集合)。

判别分析是判别样品所属类型的一种统计方法。

聚类分析和判别分析都是用来对样品进行分类,即分析每一个样品归属于哪一类。但是,

判别分析是先已知某些样品的分类结果,然后总结出判别规则,是一种有指导的学习。即:

判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批己知样品的观

测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行归类判别。

聚类分析则是有了一批给定的样品,而要划分的类型事先并不知道,甚至连分成几类也

不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观

测相差较多,这是一种无指导的学习。

正因为如此,判别分析和聚类分析往往联合起来使用。当总体分类不清楚时,可先用聚

类分析对原来的一批样品进行分类,然后再用判别分析建立判别式,从而对新样品进行判别。

判别分析的目的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的规

则应用到未知分类的样品去分类。

【例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现

两类人的区别,把这种区别表示为一个判别公式,然后对怀疑患胃炎的人根据其化验指标用

这个判别公式进行诊断。】

CHAPTER7主成分分析

CHAPTER8因子分析

1.概念:

主成分分析:主成分分析是将多个指标化的少数几个综合指标的一种统计方法。

因子分析:因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样

品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同■&

字还可以对变量进行分类,它也属于多元分析中处理降维的一种统计方法。

2.主成分与因子分析的联系和异同(实验指导书P90)

区别:(1)两种方法的实质不同。主成分分析仅仅是一种数据变化,不假定数据矩阵有何种

结构形式,而因子分析假定数据矩阵有特定的模型,且其中的因子满足特定的条件,当这些

条件不满足时,因子分析就有可能是虚假的。

(2)两种方法的侧重点不同。主成分分析重点在于从变量到主成分的变换上,而因子分析

的重点在于从公因子和特殊因子到变量的变换上。并且主成分的变换是可逆的,而因子分析

则不要求。

(3)两者的应用范围也有所不同。主成分分析主要应用在综合评价和指标筛选上,而因子

分析除了这两个应用外,还可以用于对样品或变量的分类。

联系:(1)二者都是属于多元分析中处理降维的统计方法。

(2)二者都是从变量(或样品)的相关矩阵出发,找出能够控制所有变量(或样品)的少

数儿个随即变量去描述很多变量之间的相关关系。

(3)因子分析是主成分分析的推广,而主成分分析是因子分析的特殊情形。当因子分析中

的特殊因子u的影响微不足道直至可以忽略时,如果F口各个分量均是正交的,就可以转化

为主成分分析。因此当因子模型成立,且特殊因子方差贡献很小时,可以期待主成分分析与

因子分析会给出相同的结果。

(4)当特殊因子的方差贡献较大时,因子分析会将公共因子与特殊因子严格区别开来,而

主成分分析则将这些因子(包括公因子与特殊因子)不加区别的混在一起被保留或被舍弃。

3.如果给出载荷矩阵(A矩阵),首先要会判断出,矩阵中元素是a.,其意义是什么?

会计算公因子,方差贡献,变量共同度,及其统计意义

1)aij,即因子载荷

定义:第i个变量在第j个公共因子上的负荷

几何意义:如果把变量Xi看成m维因子空间中的一个向量,则如表示X,在坐标轴F;上的

投影。

2)因子载荷

=4/FR十a"",d--------FahrF)Fi+…十6。),+

=4/(因为各因子不相关,所以相关系数为0)_____________

统计意义:第i个变量与第j个公共因子的相关系数,即表示Xi依赖Fj的份量

3)变量共同度

定义.

所谓变量X.的共同度定义为因子载荷阵A中第i行元素的

平方和,即

统计意义:全部公共因子对变量Xi的总方差所作的贡献

(由竽丁:诺瓦着....................:

:1=尼+/•

:此式说明变量x,的方差由两部分组成:第一部分为共同度用,它:

:刻划全部公共因子对变量X,的总方差所作的贡献,肥越接近1.\

:说明该变量的几乎全部原始信息都被所选取的公共因子说明了,:

:如肥=0・97则说明X的97%的信息被m个公共因子说明了.•也:

:就是说由原蛤变量空间转为因子空间转化的性质越好,保留原来:

:信息量多,因此屁是X,方差的重要组成部分。当后七0时,说明:

:公共因子对X影响很小,主要由特殊因子《来描述,第二部分"■

:是特定变量所产生的方差,称为特殊因子方差仅与变量X,本身的:

:变化有关,它是使X的方差为1的补充值.;

4)公因子F的方差贡献

;将因子载荷蛹中各列元素的平加1记为.i

:p:

:S’=…沙=

■向:

为公共因子Fj对x的贡礼M•表示同一公共因子“对\

四翅飕供的方差贡献温和,它是街量公共因子相对重要性:

:指标。=

4.因子分析模型,分解为公共因子和特殊因子两部分

Xi=aiFi十ai2p2十…十ainF•十£i(i=L…,p)

用这m个不可观测的、相互独立的、公共因子R,…,Fm(也称为潜因子)和一个特殊因子

J来描述原始可测变量(科目)X.,X。

1数学模型(正交因子模型)

R型因子分析数学模型

X]=1+5艮++aXmFm+

X?=auFl+a22Ft+・••++et

X,=

用矩阵表示I:

X=A尸

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论