多元统计分析的重点和内容和方法_第1页
多元统计分析的重点和内容和方法_第2页
多元统计分析的重点和内容和方法_第3页
多元统计分析的重点和内容和方法_第4页
多元统计分析的重点和内容和方法_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、、什么是多元统计分析 多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推 广。多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科 。二、多元统计分析的内容和方法1、简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量, 使研究问题得到简化但损失的信息又不 太多。( 1 )主成分分析( 2 )因子分析( 3 )对应分析等2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。

2、例 5:根据信息基础设施的发展状况,对世界20 个国家和地区进行分类。考察指标有 6 个:1、X1:每千居民拥有固定电话数目2、X2:每千人拥有移动电话数目3、X3:高峰时期每三分钟国际电话的成本4、X4:每千人拥有电脑的数目5、X5:每千人中电脑使用率6、X6:每千人中开通互联网的人数3、变量间的相互联系 一是:分析一个或几个变量的变化是否依赖另一些变量的变化。 (回归分析) 二是:两组变量间的相互关系(典型相关分析)4、多元数据的统计推断参数估计点估计区间估计统u 检验计参数t 检验推F 检验断假设相关与回归检验卡方检验非参秩和检验秩相关检验1、假设检验的基本原理小概率事件原理小概率思想是

3、指小概率事件( P0.01 或 P2 或 10或 d0,即差值的总体均数不为“ 0”,检验水平为 B. 计算统计量进行配对设计 t检验时 t 值为差值均数与 0之差的绝对值除以差值标准误的商, 其中差值标准误为差值标准差 除以样本含量算术平方根的商。C. 确定概率,作出判断以自由度 v(对子数减 1)查 t 界值表,若 P= ,则还不能拒绝 H0。例 4 :要比较 50 个人在减肥前和减肥后的重量。这样就有了两个样本,每个都有50 个数目。这里不能用前面的独立样本均值差的检验;这是因为两个样本并不独立。每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令减肥前的重量均值 为

4、 1 ,而减肥后的均值为 2 ;这样所要进行的检验为:H0: 1 2H1: 1 大于 2一、方差分析的基本思想1、定义方差分析又称变异数分析或 F 检验, 其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。2、了解方差分析中几个重要概念:(1)观测因素或称为观测变量 如:考察农作物产量的影响因素。农作物产量就是观测变量。(2)控制因素或称控制变量进行试验 (实验 )时,我们称可控制的试验条件为因素(Factor),因素变化的各个等级为水平 (Level) 。影响农作物产量的因素,如品种、施肥量、土壤等。如果在试验中只有一个因素在变化 , 其他可控制的条

5、件不变 ,称它为单因素试验 ;若试验中变化的因素有两个或两个以上,则称为双因素或多因素试验。方差分析就是从观测变量的方差入手,研究诸多控制变量(因素)中哪些变量是对观测变量有显著影 响的变量3、方差分析的基本原理,假定N各(总体r 方, 差2相)等。现从设有 r 个总体,各总体分别服从 N( 1, 2 ) N( 2, 2) 各总体随机抽取样本。透过各总体的样本数据推断 r 个总体的均值是否相等?H0 : 1 2 rH 1 :至少有一组数据的平均值与其它组的平均值有显著性差异。 分析的思路:用离差平方和( SS)描述所有样本总的变异情况,将总变异分为两个来源:( 1)组内变动( within g

6、roups ),代表本组内各样本与该组平均值的离散程度,即水平内部(组内)方差( 2)组间变动( between groups),代表各组平均值关于总平均值的离散程度。即水平之间(组间)方差 即: SS总=SS组间 +SS组内从而构造统计量:F 统计量,将其与给定显著性水平、消除各组样本数不同的影响 - 离差平方和除以自由度(即均方差)SS组间 (r 1)SS组内 (n-r)方差分析的基本思想就是通过组内方差与组间方差的比值构造的 自由度下的 F 值相对比,判定各组均数间的差异有无统计学意义。零假设否定域:F F r 1, n r ( )例 2 SIM 手机高、中、低三种收入水平被调查者的用户

7、满意度是否有显著性差异 即:研究被调查者的收入水平是否会影响其对 SIM 手机的满意程度。SPSS 处理: Analyze Compare Mean One-Way ANOV A 多元方差分析(操作参见书例2.1,第 36 页):SPSS 选项: Analyze General Linear Model Multivariate 可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量1 和 2 相等与否 , 得到:F=8.8622 ,P=0.0008。拒绝该年级男女生身体发育指标的总体均数向量相等的假设,从而可认为该校男 女生身体发育状况不同。4、方差分析

8、的应用条件1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。(2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用方差分 析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态 或接近正态后再进行方差分析。(3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差 不齐则不适用方差分析。依据涉及的分析变量多少分为:一元方差分析、多元方差分析 依据对分析变量的影响因素的数量分为:单因素方差分析、多因素方差分析一、什么是聚类分析?聚类分析 (P54)是根据 “物以类聚 ”的道理

9、,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。聚类分析的目的 (P54) 使类内对象的同质性最大化和类间对象的异质性最大化。二、聚类分析的基本思想:是根据一批样品的多个观测指标, 具体地找出一些能够度量样品或指标之间相似程度的统计量, 然后利用统 计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指 标)聚合完毕 .相似样本或指标的集合称为类。1、聚类分析的类型有: 对样本分类,称为 Q 型聚类分析 对变量分类,称为 R 型聚类分析Q 型聚类是对样本进行聚类,它使具有相

10、似性特征的样本聚集在一起,使差异性大的样本分离开来。R 型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变 量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。2、聚类分析的方法:系统聚类(层次聚类) 非系统聚类(非层次聚类)系统聚类法包括:凝聚方式聚类、分解方式聚类非系统聚类法包括:模糊聚类法、 K 均值法快速聚类法)等等常用距离:1)、明考夫斯基距离 (Minkowski distance)明氏距离有三种特殊形式:dij(k 1| xikxjk|g)g( 1a)、绝对距离( Block 距离) :当 q=1 时1b)欧氏距

11、离 (Euclidean distance):当 q=2 时d ijk11c)切比雪夫距离 :当pd ij 2(xikk1q时xjk)212xikx jkdij ( ) 1mkapxxik xj当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:xijxijx ji 1,2, , nj 1, 2, , ps jj其中 x j1nni1为x第ij j 个变量的样本均值;sjj1nn 1 i 1( x ij为第 j 个变量的样本方差。xj)24)马氏距离21dij2 (xi xj) 1(xi xj )di

12、j (xi xj ) 1(xi xj )1/2纲克服指标间相缺点: 协方差关性的影响矩阵难以确定马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独 立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加 权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程 度,为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。1、类的定义 相似样本或指标的集合称为类。 (数学表达见 63-64 页定义 3.1-3.4 )2、类的特征描述

13、:设类 G 这一集合有x1 x2xmm为 G内的样本数。其特征:1)均值(或称为重心)xG1 x ii12)协方差矩阵(3) G 的直径msG( xixG )( x ixG )i11G n 1sGmaxi , j Gdij2 2 2 2 2 2 2d12=(7.9-7.68) 2+(39.77-50.37) 2+(8.49-11.35) 2+(12.94-13.3) 2+(19.27-19.25) 2+(11.05-14.59) 2+(2.04-2.75) 2+(13.29-14.87)d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54

14、 d34=2.2 d35=3.5112345D1= 10河南与甘肃的距离最近,211.670先将二者( 3和 4)合为313.8024.630一类 G6=G2 , G4413.1224.062.200512.8023.543.512.21020.5=11.67d45=2.21判别分析根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。如何判断(判断依据)? 利用已知类别的样本信息求判别函数,根据判别函数对未知样本所属类别进行判别 判别分析的特点(基本思想)、是根据已掌握的、历史上若干样本的 p 个指标数据及所属类别的信息,总结出该事物分类的规律性, 建立判别公式和判别准

15、则。2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。 判别分析的目的:识别一个个体所属类别3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判 别分析构建判别式对新样本进行判别。此外判别分析变量情况:被解释变量为属性变量; 解释变量是定量变量。判别分析类型及方法(1)按判别的组数来分,有两组判别分析和多组判别分析(2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别(3)按判别对所处理的变量方法不同有逐步判别、序贯判别。(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则距离判别 基本思想即:首先根据已知分类的数据,分别

16、计算各类的重心即各组(类)的均值,判别的准则是对任给样 品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个 类。一)两个总体的距离判别法1、方差相等先考虑两个总体的情况,设有两个协差阵是来自哪一个总体,一个最直观的想法是计算y G1 ,1y G2 , 待判, d 2( y,G2) d 2 (y, G1)相同的 p 维正态总体,对给定的样本 Y ,判别一个样本 Y 到底Y 到两个总体的距离。故我们用马氏距离来给定判别规则,有:如d2 y,G1d 2 y,G2 ,如d 2 y,G2d 2 y,G1如d2(y,G1) d2( y,G2)(y2)(y2 ) (y1)(y 1)y 1y 2y 1

17、2 2 1 2 (y 1y 2y 1 1 1 1 1) 2 y ( 1 2 2 )1( 1 2 )令 1 2 21( 12) (a1,a2, ,ap)2、当总体的协方差已知,且不相等y G1, 如 d 2 y, G1 d 2 y, G 2 ,y G 2, 如 d 2 y, G 2 d 2 y, G122d待(判y,, G2 ) d如(yd,G2 1()y , G 1 ) d 2( y,G 2)(y2) 2 (y贝叶2斯) (B(ayyes)判1)别 1-(-y (考1)计算题 )贝叶斯判别法是通过计算被判样本 x 属于 k 个总体的条件概率 P(n/x),n=1,2 .k比. 较 k 个概率的

18、大 小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。一、最大后验概率准则例 7:设有 G1 , G2 和 G3 三个类,欲判别某样本 x0 属于哪一类已知f3 ( xq01) 02.045, q2 现利0.用6后5,验q概3率准0则.3计0算, f 1x( x0 )属于0各.1组0的后验概率f 2:( x0 ) 0.63P(G1 x0)q1 f1(x0)3qi fi (x0)i10.05 0.100.05 0.10 0.65 0.63 0.30 2.40.0051.13450.004P(G2 x0)3q2 f2(x0)0.65 0.632 0 3 0.05 0.

19、10 0.65 0.63 0.30 2.4 qi fi (x0)i10.40951.13450.361P(G3 x0)q3 f3(x0)3qi fi (x0)i10.30 2.40.05 0.10 0.65 0.63 0.30 2.40.721.13450.635贝叶斯公式 :P(B | A) P(A|Bi )P(Bi)所谓 Fisher 判别法,就是用投i 影的方法将 k个P不同(总A体在| Bp 维)空间P上(的B点尽可)能分散,同一总体内的 各样本点尽可能的集中。 用方差分析的思想则可构P建一(个A较好|区B分各i )个总P体(的B线性i判)别法 ( 只 作了解 )例:设先验概率、误判损

20、失及概率密度如下:判别为G1G2G3真G1C(1/1)=0C(2/1)=20C(3/1)=80实G2C(1/2)=400C(2/2)= 0C(3/2)=200组G3C(1/3)=100C(2/3)=500C(3/3)=0先验概率P1=0.55P2=0.15P3=0.30概率密度f1=0.46f2=1.5F3=0.70试用贝叶斯判别法将样本 x0 判到 G1、 G2、 G3 中的一个。考虑与不考虑误判损失的结果如何?1、考虑误判损失:误判到 G1 的平均损失为ECM1 0.55*0.46*0+0.15*1.5*400+0.30*0.70*100 误判到 G2 的平均损失为ECM2 0.55*0.

21、46*20+0.15*1.5*0+0.30*0.70*50 误判到 G3 的平均损失为ECM3 0.55*0.46*80+0.15*1.5*200+0.30*0.70*0 其中 ECM2 最小,故将 x0 判别到 G2。2、不考虑误判损失:将 x0 判别到 G1 的条件概率为:P( G1/x0) =(0.55*0.46)/(0.55*0.46+0.15*1.5+0.30*0.70)=将 x0 判别到 G2 的条件概率为:P( G2/x0) =(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)=将 x0 判别到 G3 的条件概率为:P( G3/x0) =(0.30

22、*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)=其中 P( G1/x0) 取值最大,故将 x0 判别到 G1。主成分分析的重点1、掌握什么是主成分分析?2、理解主成分分析的基本思想和几何意义?3、理解主成分求解方法:协方差矩阵与相关系数矩阵的差异?4、掌握运用 SPSS或 SAS 软件求解主成分5、对软件输出结果进行正确分析主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。第二主成主成分: 由原始指标综合形成的几个新指标。 依据主成分所含信息量的大小成为第一主成分, 分等等。主成分分析得到的主成分与原始变量之间的关系:1、主成分保留了原始变量绝大

23、多数信息。 2、主成分的个数大大少于原始变量的数目。3、各个主成分之间互不相关。4、每个主成分都是原始变量的线性组合。u12i u22iu2pi 1j ,i,j 1, 2, ,p满足如下的条件:1、每个主成分的系数平方和为1。即2、主成分之间相互独立,即无重叠的信息。即 Cov( Fi,Fj) 0,i3、主成分的方差依次递减,重要性依次递减,即Var(F1) Var(F2)Var(Fp )F1、 F2 .Fp 分别称为原变量的第一、第二 .第p 个主成分。根据旋转变换的公式:y1 x1cosx2 sincossinx1y2x1sinx2 cossin cos x2UxU 为旋转变换矩阵,它是正

24、交矩阵,即有U U 1, U U I旋转变换的目的: 为了使得 n个样品点在 Fl 轴方向上的离散程度最大,即 Fl的方差最大。总体主成分的求解及其性质矩阵知识回顾:( 1 )特征根与特征向量A、若对任意的 k阶方阵 C,有数字 与向量 满足: ,则称 为C的特征根, 为 C的相应于 的 特征向量。B、同时,方阵 C 的特征根 是 k 阶方程C 的根I。 02 )任一 k 阶方阵 C 的特征根kj tr (C ) 矩阵 C 对角线上的元素之和 j1(3 )任一 k 阶的实对称矩阵 C 的性质:A 、实对称矩阵 C 的非零特征根的数目 C 的秩B、k 阶的实对称矩阵存在 k 个实特征根C、实对称矩阵的不同特征根的特征向量是正交的D 、若是j 实对称矩阵 C 的单位特征向量,则jj C jj若矩阵 ,是由特征向量 所构成的,则有: j10Cj C j0k因子分析的重点1、什么是因子分析?2、理解因子分析的基本思想3、因子分析的数学模型以及模型中公共因子、因子载荷变量共同度的统计意义4、因子旋转的意义5、结合 SPSS 软件进行案例分析1、什么是因子分析?因子分析是主成分分析的推广, 也是利用降维的思想, 由研究原始变量相关矩阵或协方差矩阵的内部依赖 关系出发,把一些具有错综复杂

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论