多元统计分析的重点和内容和方法_第1页
多元统计分析的重点和内容和方法_第2页
多元统计分析的重点和内容和方法_第3页
多元统计分析的重点和内容和方法_第4页
多元统计分析的重点和内容和方法_第5页
免费预览已结束,剩余8页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、、什么是多元统计分析多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。、多元统计分析的内容和方法1、简化数据结构(降维问题)将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等2、分类与判别(归类问题)对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。例5:根据信息基础设施的发展

2、状况,对世界20个国家和地区进行分类。考察指标有6个:1X1:每千居民拥有固定电话数目2、X2:每千人拥有移动电话数目3、X3:高峰时期每三分钟国际电话的成本4、X4:每千人拥有电脑的数目5、X5:每千人中电脑使用率6、X6:每千人中开通互联网的人数3、变量间的相互联系一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析)二是:两组变量间的相互关系(典型相关分析)4、多元数据的统计推断点估计参数估计区间估计统u检验计参数t检验推F检验断假设相关与回归检验卡方检验非参秩和检验秩相关检验矢口监车女声基为三或方恭杨、KT土幺乏回矢巨I祚办:Cr号矢巨总年白勺1、假设检验的基本原理小概率

3、事件原理小概率思想是指小概率事件(P0.01或Pu1q狎W=zu1_B、总体方差未知2-22Hor、rTFHi屈体力差仃已知念4日X-入统计里z=CTnn总体力差仃2未知统计量t=X0snn在显著水平0(下拒绝Ho,若白儿I,可以1LW里里上N月肺样邑umIirm;本是否服同胆得Ht1a(n-1)2ni30zu1也tt1.a(n-1)me一zi-Jt三t1_a(n1)42)个总上其总体均值的检表引总体:匀数是否荏等。其检验过程与上述两种0J的是推断两个是假设的表达和I样本t公,不同的计用样本方差子2替总体方差仃2这种检验叫t检验.Du*=4.m3t检睑也没有大的差别,只M=D5QQH0:m=u

4、2,即两样本来自的总体均数相等H1:m1m2或(110或皿0,即差值的总体均数不为“0”,检验水平为aB.计算统计量进行配又设计t检验时t值为差值均数与0之差的绝对值除以差值标准误的商,其中差值标准误为差值标准差除以样本含量算术平方根的商。C.确定概率,作出判断以自由度v(对子数减1)查t界值表,若P=a,则还不能拒绝H0O例4:要比较50个人在减肥前和减肥后的重量。这样就有了两个样本,每个都有50个数目。这里不能用前面的独立样本均值差的检验;这是因为两个样本并不独立。每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令减肥前的重量均值为u1,而减肥后的均值为n2;这样所要

5、进行的检验为:H0:u1=u2H1:11大于22一、方差分析的基本思想1、定义方差分析又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。2、了解方差分析中几个重要概念:(1)观测因素或称为观测变量如:考察农作物产量的影响因素。农作物产量就是观测变量。(2)控制因素或称控制变量进行t验(实验)时,我们称可控制的试验条件为因素(Factor),因素变化的各个等级为水平(Level)。影响农作物产量的因素,如品种、施肥量、土壤等。如果在试验中只有一个因素在变化,其他可控制的条件不变,称它为单因素试验;若试验中变化的因素有两个或两个以上

6、,则称为双因素或多因素试验。方差分析就是从观测变量的方差入手,研究诸多控制变量(因素)中哪些变量是对观测变量有显著影响的变量3、方差分析的基本原理设有r个总体,各总体分别服从N(出22)NN2,。2),假汨华隼衣措)等。现从各总体随机抽取样本。透过各总体的样本数据推断r个总体的均值是否相等?H-1-10-12rH1:至少有一组数据的平均值与其它组的平均值有显著性差异。分析的思路:用离差平方和(SS)描述所有样本总的变异情况,将总变异分为两个来源:(1)组内变动(withingroups),代表本组内各样本与该组平均值的离散程度,即水平内部(组内)方差(2)组间变动(betweengroups)

7、,代表各组平均值关于总平均值的离散程度。即水平之间(组间)方差即:SS总=SS组间+SS组内消除各组样本数不同的影响-离差平方和除以自由度(即均方差)。从而构造统计量:SS且间(r一1)SS且内(n-r)方差分析的基本思想就是通过组内方差与组间方差的比值构造的F统计量,将其与给定显著性水平、自由度下的F值相对比,判定各组均数间的差异有无统计学意义。零假设否定域:FF(:)r-1,n-r()例2SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异即:研究被调查者的收入水平是否会影响其对SIM手机的满意程度。SPSS处理:AnalyzeCompareMeanOne-WayANOVA

8、多元方差分析(操作参见书例2.1,第36页):SPSS选项:AnalyzeGeneralLinearModelMultivariate可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量1和u2相等与否,得到:F=8.8622,P=0.0008。拒绝该年级男女生身体发育指标的总体均数向量相等的假设,从而可认为该校男女生身体发育状况不同。4、方差分析的应用条件(1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。(2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方

9、根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。(3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差不齐则不适用方差分析。依据涉及的分析变量多少分为:一元方差分析、多元方差分析依据对分析变量的影响因素的数量分为:单因素方差分析、多因素方差分析一、什么是聚类分析?聚类分析(P54)是根据物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。聚类分析的目的(P54)使类内对象的同质性最大化和类间对象的异质性最大化。二、聚类分析的基本思想:是

10、根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕.相似样本或指标的集合称为类。1、聚类分析的类型有:对样本分类,称为Q型聚类分析对变量分类,称为R型聚类分析Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。2、聚类分析的方法:系统聚类(

11、层次聚类)非系统聚类(非层次聚类)系统聚类法包括:凝聚方式聚类、分解方式聚类非系统聚类法包括:模糊聚类法、K-均值法(快速聚类法)等等常用距离:(1)、明考夫斯基距离(Minkowskidistance)1d二(二|xXjk|g)*k1明氏距离有三种特殊形式:pd(1)=xx(1a)、绝对距离(Block距离):当q=1时Mijik人jk一,一一、.,一,k=1(1b)欧氏距离(Euclideandistance):当q=2时-P12dj(2)=产(Xik-Xjk)2-k=1-(1c)切比雪夫距离:当仁时北Iq如何避免明氏距高的块点:(3)兰氏距离当耳a(U=LZ典/=1Zd时:20Q6-12

12、-9|适用于变量之间互不相关的丽(4)马氏距离d:二(Xixj三”(XiXj)dij二(XiXj);(XiXj)1/2dj(厂maxx-k-Xjk1-kMp当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:*i=1,2,nn1XnXij一xjXij发”j个变量的样本均值;i=1j=1,2,pn1(Xijzn-1i=1为复j个变量的样本方差。Xj)2Sjj加服量纲的影响,克服指标间相缺点:协方差矩阵难以确定马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独

13、立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。1、类的定义相似样本或指标的集合称为类。(数学表达见63-64页定义3.1-3.4)2、类的特征描述:设类G这一集合有Xl,X2Xmm为G内的样本数。其特征:(1)均值(或称为重心)Xgmzi=1Xi(2)协方差矩阵(3)G的直径m_Sg=(X(Xi-Xg)(Xi-Xg)i=1=maXdi,j二Gdi2=(7.

14、9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.2112345D1=10河南与甘肃的距离最近,211.670先将二者(3和4)合为313.8024.630一类G6=G2,G4)413.1224.062.200512.8023.543.512.210判别分析根据已

15、知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。如何判断(判断依据)?利用已知类别的样本信息求判别函数,根据判别函数对未知样本所属类别进行判别判别分析的特点(基本思想)1、是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。判别分析的目的:识别一个个体所属类别3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况:被解释变量为属性变量;解释变量是定量变

16、量。判别分析类型及方法(1)按判别的组数来分,有两组判别分析和多组判别分析(2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别(3)按判别对所处理的变量方法不同有逐步判别、序贯判别。(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则距离判别基本思想即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。(一)两个总体的距离判别法1、方差相等先考虑两个总体的情况,设有两个协差阵工相同的p维正态总体,对给定的样本Y,判别一个样本丫到底是来自哪一个总体,一个最直观的想法是计算yG,!一yG2,,寺

17、判,d2(y,G2)-d2(y,Gi)丫到两个总体的距离。故我们用马氏距离来给定判别规则,有:如d2(y,Gi)d2(y,G2),如d2y,G2d2y,G如d2(y,Gi)=d2(ye)=(y-2)v(y-2)(y-)1y-1)=y=y2y”22三12(11)1=2y一(122)三一1(R+Na=I令二2.-22、当总体的协方差已知,且不相等(yz1y2y三一1、1r“J1一2)1(11wa电)ywG1,如d2(y,G1)d2(y,G2ywG2,如d2(y,G2)d2(y,G1)22d3,G2)-d如yd(5)y,G1)=d2(y,G2).4,=(y-匕)工2(y贝恤曲yes帆游1-(二(%)

18、十算题)贝叶斯判别法是通过计算被判样本x属于k个总体的条件概率P(n/x),n=1,2.k匕较k个概率的大小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。一、最大后验概率准则设有k个总体/eg依且总体G,的概率密度为工r样本x来自G,的先验概率为=尢满足三9+%+?=1.利用贝叶戴理论,x属于Gj的后验概率(即当样本x已知时,它属于Gj的概率为:二-P(GJx)=1/工)-1=1.2k一Z9式)r-1最大后验概率判别准则:xe5:若尸(G/1)=max尸(GJQ例7:设有G1,G2和G3三个类,欲判别某样本x0属于哪一类.已知f3(x1)=0.少q2助0的品属M

19、30rfqy富2咻后验概f2(xo)=。63P(G1.x0)3qifl(Xo):qif(xo)i1-0.0040.050.100.005P(G2x)=3。2f-qifi(x0)i10.650.630.050.100.650.630.302.40.40951.1345=0.361吟x)q3f3(x0)3、qifi(x0)iW0.302.40.050.100.650.630.302.40.721.1345=0.635贝叶斯公式:所谓一心心P(A|Bi)P(BJ各样本点尽可能的集中。娄27用5只维甲由/邮可能分散,用方差分析的思想则可周1AjEBiAPABiJ别法同一总体内的(只0.050.100.

20、650.630.302.4-1.1345作了解)例:设先验概率、误判损失及概率密度如下:G1判别为G2G3真G1C(1/1)=0C(2/1)=20C(3/1)=80实G2C(1/2)=400C(2/2)=0C(3/2)=200组G3C(1/3)=100C(2/3)=500C(3/3)=0先验概率P1=0.55P2=0.15P3=0.30概率密度f1=0.46f2=1.5F3=0.70试用贝叶斯判另IJ法将样本x0判到G1、G2、G3中的一个。考虑与不考虑误判损失的结果如何?1、考虑误判损失:误判到G1的平均损失为ECM1=0.55*0.46*0+0.15*1.5*400+0.30*0.70*1

21、00=误判到G2的平均损失为ECM2=0.55*0.46*20+0.15*1.5*0+0.30*0.70*50=误判到G3的平均损失为ECM3=0.55*0.46*80+0.15*1.5*200+0.30*0.70*0=其中ECM2最小,故将x0判别到G2o2、不考虑误判损失:将x0判别到G1的条件概率为:P(G1/X0)=(0.55*0.46)/(0.55*0.46+0.15*1.5+0.30*0.70)=将X0判别到G2的条件概率为:P(G2/X0)=(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)=将X0判别到G3的条件概率为:P(G3/X0)=(0.3

22、0*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)=其中P(G1/X0)取值最大,故将X0判别到G1o主成分分析的重点1、掌握什么是主成分分析?2、理解主成分分析的基本思想和几何意义?3、理解主成分求解方法:协方差矩阵与相关系数矩阵的差异?4、掌握运用SPSS或SAS软件求解主成分5、对软件输出结果进行正确分析主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。主成分分析得到的主成分与原始变量之间的关系:1、主成分保留了原始变量绝大多数信息。2、主成分的

23、个数大大少于原始变量的数目。3、各个主成分之间互不相关。4、每个主成分都是原始变量的线性组合。满足如下的条件:2.2.2.1、每个主成分的系数平方和为1。即U1iU2iUpi12、主成分之间相互独立,即无重叠的信息。即Cov(Fi,Fj)=0,i#j,i,j=1,2,p3、主成分的方差依次递减,重要性依次递减,即Var(F)Var(F2)-Var(Fp)F1、F2.Fp分别称为原变量的第一、第二.第p个主成分。根据旋转变换的公式:1y=x1cosO+x2sin8y2=x1sin日+x2cos日Zy1ccosesinezx1、y2J_sinecosJlxJ=UxU为旋转变换矩阵,它是正交矩阵,即

24、有UU1,UUI旋转变换的目的:为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。总体主成分的求解及其性质矩阵知识回顾:(1)特征根与特征向量A、若对任意的k阶方阵C,有数字与向量九满足:上,则称送当C的特征根,然C的相应于的特征向量。B、同时,方阵C的特征根是k/阶方程C由的=0(2)任一k阶方阵C的特征根kZj=tr(C)=矩阵C对角线上的元素之和j(3)任一k阶的实对称矩阵C的性质:A、实对称矩阵C的非零特征根的数目=C的秩B、k阶的实对称矩阵存在k个实特征根C、实对称矩阵的不同特征根的特征向量是正交的D、若咨实对称矩阵C的单位特征向量,则上10I,0k若矩阵,是由特征向量所檄成的,则有:,jCjJj因子分析的重点1、什么是因子分析?2、理解因子分析的基本思想3、因子分析的数学模型以及模型中公共因子、因子载荷变量共同度的统计意义4、因子旋转的意义5、结合SPSS软件进行案例分析1、什么是因子分析?因子分析是主成分分析的推广,也是利用降维的思想,由研究

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论