多元统计分析的重点和内容和方法.doc_第1页
多元统计分析的重点和内容和方法.doc_第2页
多元统计分析的重点和内容和方法.doc_第3页
多元统计分析的重点和内容和方法.doc_第4页
多元统计分析的重点和内容和方法.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、什么是多元统计分析v 多元统计分析是运用数理统计的方法来研究多变量多指标)问题的理论和方法,是一元统计学的推广。v 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。二、多元统计分析的内容和方法v 1、简化数据结构降维问题)将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。 1)主成分分析 2)因子分析 3)对应分析等v 2、分类与判别归类问题)对所考察的变量按相似程度进行分类。 1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。 2)判别分析:判别样本应属何种类型的统计方法。例5:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。 考察指标有6个: 1、X1:每千居民拥有固定电话数目 2、X2:每千人拥有移动电话数目 3、X3:高峰时期每三分钟国际电话的成本 4、X4:每千人拥有电脑的数目 5、X5:每千人中电脑使用率 6、X6:每千人中开通互联网的人数v 3、变量间的相互联系一是:分析一个或几个变量的变化是否依赖另一些变量的变化。回归分析) 二是:两组变量间的相互关系典型相关分析)v 4、多元数据的统计推断 点估计 参数估计 区间估计 统 u检验 计 参数 t检验 推 F检验 断 假设 相关与回归 检验 卡方检验 非参 秩和检验 秩相关检验v 1、假设检验的基本原理 小概率事件原理v 小概率思想是指小概率事件P0.01或P,再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之,则认为假设成立。 b5E2RGbCAPv 2、假设检验的步骤 1)提出一个原假设和备择假设 v 例如:要对妇女的平均身高进行检验,可以先假设妇女身高的均值等于 160 cmu=160cm )。这种原假设也称为零假设 null hypothesis ),记为 H 0 。 p1EanqFDPw2.1 均值向量的检验v 1、正态总体均值检验的类型 v 根据样本对其总体均值大小进行检验 One-Sample T Test )如妇女身高的检验。v 根据来自两个总体的独立样本对其总体均值的检验 Indepent Two-Sample T Test )DXDiTa9E3d 如两个班平均成绩的检验。 v 配对样本的检验 Pair-Sample T Test ) 如减肥效果的检验。 v 多个总体均值的检验v A、总体方差已知用u检验,检验的拒绝域为 即 v B、总体方差未知 用样本方差 代替总体方差 ,这种检验叫t检验.首先,可以画出这些重量的直方图下图)v 判断样本是否服从正态分布2或12,即两样本来自的总体均数不相等,检验水准为0.05。v 计算t统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误。v 相应的假设检验问题为:H0:1=2 H1: 1大于2 v 1 为第一组的总体均值,而2 为第二组的总体均值。 v 用 SPSS 处理数据: Spss 选项:AnalyzeCompare Means Independent-Samples T Test5PCzVD7HxAv 3、配对样本的检验 paired samples ) 0或d查t界值表,若P=,则还不能拒绝H0。v 例4:要比较50个人在减肥前和减肥后的重量。这样就有了两个样本,每个都有50个数目。v 这里不能用前面的独立样本均值差的检验;这是因为两个样本并不独立。v 每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令减肥前的重量均值为 1 ,而减肥后的均值为2 ;这样所要进行的检验为:dvzfvkwMI1 H0: 12 H1: 1大于2一、方差分析的基本思想1、定义方差分析又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。rqyn14ZNXIv 2、了解方差分析中几个重要概念:v 1)观测因素或称为观测变量 如:考察农作物产量的影响因素。农作物产量就是观测变量。v 时,我们称可控制的实验条件为因素(Factor,因素变化的各个等级为水平(Level。EmxvxOtOco 影响农作物产量的因素,如品种、施肥量、土壤等。如果在实验中只有一个因素在变化,其他可控制的条件不变,称它为单因素实验。 若实验中变化的因素有两个或两个以上,则称为双因素或多因素实验 。 v 方差分析就是从观测变量的方差入手,研究诸多控制变量因素)中哪些变量是对观测变量有显著影响的变量v 3、方差分析的基本原理 设有r个总体,各总体分别服从 ,假定各总体方差相等。现从各总体随机抽取样本。透过各总体的样本数据推断r个总体的均值是否相等?SixE2yXPq5:至少有一组数据的平均值与其它组的平均值有显著性差异。 v 分析的思路:用离差平方和SS)描述所有样本总的变异情况,将总变异分为两个来源: 1)组内变动within groups),代表本组内各样本与该组平均值的离散程度,即水平内部组内)方差6ewMyirQFL 2)组间变动between groups),代表各组平均值关于总平均值的离散程度。即水平之间组间)方差kavU42VRUs即:SS总=SS组间+SS组内v 消除各组样本数不同的影响-离差平方和除以自由度即均方差)。从而构造统计量:v 方差分析的基本思想就是通过组内方差与组间方差的比值构造的F统计量,将其与给定显著性水平、自由度下的F值相对比,判定各组均数间的差异有无统计学意义。y6v3ALoS89v 零假设否定域:v 例2 SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异即:研究被调查者的收入水平是否会影响其对SIM手机的满意程度。v SPSS处理:Analyze Compare Mean One-Way ANOVA v 多元方差分析操作参见书例2.1,第36页):v SPSS 选项: Analyze General Linear Model MultivariateM2ub6vSTnP 可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量1和2相等与否, 得到:0YujCfmUCw F=8.8622,P=0.0008。拒绝该年级男女生身体发育指标的总体均数向量相等的假设,从而可认为该校男女生身体发育状况不同。eUts8ZQVRdv 4、方差分析的应用条件 1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。 2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。sQsAEJkW5Tv 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 v 聚类分析的目的(P54 使类内对象的同质性最大化和类间对象的异质性最大化。v 二、聚类分析的基本思想:是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品或指标)聚合完毕. TIrRGchYzgv 相似样本或指标的集合称为类。v 1、聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。 R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。7EqZcWLZNXv 2、聚类分析的方法: 系统聚类层次聚类) 非系统聚类非层次聚类)v 系统聚类法包括:凝聚方式聚类、分解方式聚类v 非系统聚类法包括:模糊聚类法、K均值法快速聚类法)等等v 常用距离: 明氏距离有三种特殊形式: 1a)、绝对距离Block距离):当q=1时欧氏距离(Euclidean distance:当q=2时 切比雪夫距离:当 时v 当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:lzq7IGf02E 其中 为第j个变量的样本均值;为第j个变量的样本方差。v 4)马氏距离克服量纲的影响 克服指标间相关性的影响缺点:协方差矩阵难以确定马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。zvpgeqJ1hkv 1、类的定义 相似样本或指标的集合称为类。 数学表达见63-64页定义3.1-3.4)v 2、类的特征描述: 设类G这一集合有 m为G内的样本数。其特征: 1)均值或称为重心) G的直径d12=(7.9-7.682+(39.77-50.372+(8.49-11.352+(12.94-13.32+(19.27-19.252+(11.05-14.592+(2.04-2.752+(13.29-14.8720.5=11.67NrpoJac3v1d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.211nowfTG4KI 1 2 3 4 5D1= 1 0河南与甘肃的距离最近, 2 11.67 0先将二者3和4)合为 3 13.80 24.63 0 一类 G6=G2,G4fjnFLDa5Zo 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0v 判别分析根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。 如何判断判断依据)? 利用已知类别的样本信息求判别函数,根据判别函数对未知样本所属类别进行判别 判别分析的特点基本思想) 、是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。tfnNhnE6e5 2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。v 判别分析的目的:识别一个个体所属类别3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况:HbmVN777sL 被解释变量为属性变量; 解释变量是定量变量。判别分析类型及方法 1)按判别的组数来分,有两组判别分析和多组判别分析 2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别 3)按判别对所处理的变量方法不同有逐步判别、序贯判别。 4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则距离判别基本思想即:首先根据已知分类的数据,分别计算各类的重心即各组类)的均值,判别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。V7l4jRB8Hs判别 -(考计算题o 贝叶斯判别法是通过计算被判样本x属于k个总体的条件概率P,n=1,2.k. 比较k个概率的大小,将样本判归为来自出现概率最大的总体AVktR43bpw例:设先验概率、误判损失及概率密度如下:试用贝叶斯判别法将样本x0判到G1、G2、G3中的一个。考虑与不考虑误判损失的结果如何?1、考虑误判损失:误判到G1的平均损失为ECM10.55*0.46*0+0.15*1.5*400+0.30*0.70*100误判到G2的平均损失为ECM20.55*0.46*20+0.15*1.5*0+0.30*0.70*50误判到G3的平均损失为ECM30.55*0.46*80+0.15*1.5*200+0.30*0.70*0其中ECM2最小,故将x0判别到G2。2、不考虑误判损失: 将x0判别到G1的条件概率为: P =(0.55*0.46/(0.55*0.46+0.15*1.5+0.30*0.70=ORjBnOwcEd 将x0判别到G2的条件概率为: P =(0.15*1.5/(0.55*0.46+0.15*1.5+0.30*0.70=2MiJTy0dTT 将x0判别到G3的条件概率为: P =(0.30*0.70/(0.55*0.46+0.15*1.5+0.30*0.70=gIiSpiue7A 其中P 取值最大,故将x0判别到G1。主成分分析的重点v 1、掌握什么是主成分分析?v 2、理解主成分分析的基本思想和几何意义?v 3、理解主成分求解方法:协方差矩阵与相关系数矩阵的差异?v 4、掌握运用SPSS或SAS软件求解主成分v 5、对软件输出结果进行正确分析v 主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。v 主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。v 主成分分析得到的主成分与原始变量之间的关系: 1、主成分保留了原始变量绝大多数信息。 2、主成分的个数大大少于原始变量的数目。 3、各个主成分之间互不相关。 4、每个主成分都是原始变量的线性组合。v 满足如下的条件: 1、每个主成分的系数平方和为1。即 2、主成分之间相互独立,即无重叠的信息。即 3、主成分的方差依次递减,重要性依次递减,即F1、F2.Fp分别称为原变量的第一、第二.第p个主成分。根据旋转变换的公式:旋转变换的目的:为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。总体主成分的求解及其性质v 矩阵知识回顾:1)特征根与特征向量A、若对任意的k阶方阵C,有数字 与向量 满足: ,则称 为C的特征根, 为C的相应于 的特征向量。uEh0U1YfmhB、同时,方阵C的特征根 是k阶方程 的根。2)任一k阶方阵C的特征根 的性质:3)任一k阶的实对称矩阵C的性质:A、实对称矩阵C的非零特征根的数目C的秩B、k阶的实对称矩阵存在k个实特征根C、实对称矩阵的不同特征根的特征向量是正交的D、若 是实对称矩阵C的单位特征向量,则若矩阵 ,是由特征向量 所构成的,则有:因子分析的重点v 1、什么是因子分析?v 2、理解因子分析的基本思想v 3、因子分析的数学模型以及模型中公共因子、因子载荷变量共同度的统计意义v 4、因子旋转的意义 v 5、结合SPSS软件进行案例分析1、什么是因子分析? 因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论