(完整word版)常用统计方法.doc_第1页
(完整word版)常用统计方法.doc_第2页
(完整word版)常用统计方法.doc_第3页
(完整word版)常用统计方法.doc_第4页
(完整word版)常用统计方法.doc_第5页
免费预览已结束,剩余12页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析主成分分析(principalcomponentanalysis)将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是

2、两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K. 皮尔森对非随机变量引入的,尔后H. 霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。( 1 )主成分分析的原理及基本思想。原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。基本思想:主成分分析是设法将原来众多具有一定相关性(比如P 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来

3、 P 个指标作线性组合,作为新的综合指标。最经典的做法就是用F1 (选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1) 越大,表示F1 包含的信息越多。因此在所有的线性组合中选取的F1 应该是方差最大的,故称F1 为第一主成分。如果第一主成分不足以代表原来P 个指标的信息,再考虑选取F2 即选第二个线性组合,为了有效地反映原来信息,F1 已有的信息就不需要再出现再F2 中,用数学语言表达就是要求Cov(F1,F2)=0 ,则称F2 为第二主成分,依此类推可以构造出第三、第四,第 P 个主成分。(2)步骤Fp=a1mZX1+a2mZX2+ +apmZXp其中a1i,a2i,a

4、pi(i=1,m)为X 的协方差阵的特征值多对应的特征向量, ZX1,ZX2,ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响注:本文指的数据标准化是指Z 标准化 。A=(aij)pm=(a1,a2,am,), Rai=iai , R为相关系数矩阵,i、ai是相应的特征值和单位特征向量, 1 2 p。0进行主成分分析主要步骤如下:1. 指标数据标准化( SPSS 软件自动执行);2. 指标之间的相关性判定;3. 确定主成分个数m ;4. 主成分 Fi 表达式;5. 主成分 Fi 命

5、名;回归分析回归分析 ( regressionanalysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和 非线性回归分析。如果在回归分析中,只包括一个自变量 和一个 因变量 ,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。方差齐性线性关系效应累加变量无测量误差变量服从多元正态分布观察独立模型完整(没有包含不该进入的变量、

6、也没有漏掉应该进入的变量)误差项独立且服从(0,1 )正态分布。现实数据常常不能完全符合上述假定。因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。研究一个或多个随机变量Y1, Y2, Yi 与另一些变量X1 、 X2 , Xk之间的关系的统计方法。又称多重回归分析。通常称Y1 ,Y2 , ,Yi 为因变量,X1 、X2 , Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y a bX ,这里X 是自变量,Y 是因变量,是随机误差,通常假定随

7、机误差的均值 为 0,方差 为 2( 2 大于 0 )2与 X 的值无关。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的情形,差有k 个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函数 ,其中函数形式已知,但含一些未知参数 ;另一部分是由于其他未被考虑的因素和随机性 的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性 函数时,称为非线性回归分析模型。当自变量的个数大于1 时称为多元回归,当因变量个数大于 1 时称为多重回归。回归分析的主要内容为:从一组数据出发确定某些变量之间的定量关系

8、式,即建立 数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。对这些关系式的可信程度进行检验。在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计 软件包 使各种回归方法计算十分方便。 编辑本段回归分析的应用相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学

9、模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量 ”和 “用户满意度 ”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y ;质量为自变量,记为 X 。根据图8 3 的散点图,可以建立下面的线

10、性关系:Y=A+BX+式中:A 和B 为待定参数,A 为回归直线的截距;B 为回归直线的斜率,表示X变化一个单位时,Y 的平均变化情况;为依赖于用户满意度的随机误差项。在 SPSS软件里可以很容易地实现线性回归,回归方程如下:y=0.857+0.836x回归直线在y 轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;或者说质量每提高1 分对用户满意度的贡献是0.836分。740)this.width=740上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的统计学书籍。此

11、外,在 SPSS的结果输出里,还可以汇报R2 ,F 检验值和 T 检验值。 R2 又称为方程的确定性系数(coefficient ofdetermination),表示方程中变量X对Y的解释程度。R2 取值在0 到 1之间,越接近1 ,表明方程中X 对 Y 的解释能力越强。通常将 R2乘以 100 来表示回归方程解释Y 变化的百分比。F 检验是通过方差分析表输出的,通过显著性水平(significantlevel)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05 以下,均有意义。当F 检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就

12、需要通过 T 检验来验证回归系数的显著性。同样地,T 检验可以通过显著性水平或查表来确定。在上面所示的例子中,各参数的意义如表8 2 所示。表 8 2线性回归方程检验指标显著性水平意义“质量”解释了R89 的 “用户满0.89意度 ”的变化程度F276.82回归方程的线性0.001关系显著T16.64回归方程的系数0.001显著示例SIM 手机用户满意度与相关变量线性回归分析我们以SIM手机的用户满意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用。从实践意义讲上,手机的用户满意度应该与产品的质量、价格和形象有关,因此我们以“用户满意度”为因变量, “质量 ”“形象、 ”和 “价格

13、”为自变量,作线性回归分析。利用SPSS软件的回归分析,得到回归方程如下:用户满意度0.008 形象 0.645 质量 0.221 价格对于SIM 手机来说,质量对其用户满意度的贡献比较大,质量每提高1 分,用户满意度将提高0.645分;其次是价格,用户对价格的评价每提高1 分,其满意度将提高 0.221分;而形象对产品用户满意度的贡献相对较小,形象每提高1 分,用户满意度仅提高0.008分。方程各检验指标及含义如下:指标显著性水平意义“质量 ”和 “形象 ”解释了89 的R20.89“用户满意度”的变化程度F248.53回归方程的线性0.001关系显著T(形象)0.001.000“形象 ”变

14、量对回归方程几乎没有贡献T(质量)13.93“质量 ”对回归方0.001程有很大贡献T(价格)5.00“价格 ”对回归方0.001程有很大贡献从方程的检验指标来看,“形象 ”对整个回归方程的贡献不大,应予以删除。所以重新做 “用户满意度”与 “质量 、”“价格 ”的回归方程如下:用户满意度0.645 质量 0.221 价格对于SIM 手机来说,质量对其用户满意度的贡献比较大,质量每提高1 分,用户满意度将提高0.645分;用户对价格的评价每提高1 分,其满意度将提高0.221分(在本示例中,因为“形象 ”对方程几乎没有贡献,所以得到的方程与前面的回归方程系数差不多) 。方程各检验指标及含义如下

15、:指标显著性水平意义“质量 ”和 “形象 ”解释了89 的R0.89“用户满意度”的变化程度F374.69回归方程的线性0.001关系显著T(质量)15.15“质量 ”对回归方0.001程有很大贡献T(价格)5.06“价格 ”对回归方0.001程有很大贡献判别分析 编辑本段1、定义判别分析 又称 “分辨法 ”, 是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。 编辑本段2、分类根据判别中的组数,可以分为

16、两组判别分析和多组判别分析;根据判别函数的形式,可以分为线性判别和非线性判别;根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;根据判别标准不同,可以分为距离判别、Fisher判别、 Bayes判别法等 编辑本段3、应用在气候分类、农业区划、土地类型划分中有着广泛的应用。在市场调研中,一般根据事先确定的因变量(例如产品的主要用户、普通用户和非用户、自有房屋或租赁、电视观众和非电视观众)找出相应处理的区别特性。在判别分析中,因变量为类别数据,有多少类别就有多少类别处理组;自变量通常为可度量数据。通过判别分析,可以建立能够最大限度的区分因变量类别的函数,考查自变量的组间差异是否显著,判断

17、那些自变量对组间差异贡献最大,评估分类的程度,根据自变量的值将样本归类。系统聚类分析是一门多元统计分类法,根据多种地学要素对地理实体进行划分类别的方法。对不同的要素划分类别往往反映不同目标的等级序列,如土地分等定级、水土流失强度分级等。系统聚类的步骤一般是首先根据一批地理数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的站点(或样品)首先聚合为一类,而把另一些相似程度较小的站点(或样品)聚合为另一类,直到所有的站点(或样品)都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。其相似程度由距离或者相似系数定义。

18、进行类别合并的准则是使得类间差异最大,而类内差异最小。特点:事先无须知道分类对象的分类结构,而只需要一批地理数据;然后选好分类统计量,并按一定的方法步骤进行计算;最后便能自然地、客观地得到一张完整的分类系统图。相关分析目录 隐藏 相关分析定义相关分析的分类相关分析与回归分析的关系复相关 编辑本段相关分析定义相关分析(correlationanalysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。相关关系是一种非确定性的关系,例如,以X 和 Y 分别记一个人的身高和体重,或分别记每公顷施肥量与每

19、公顷小麦产量,则X 与 Y 显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。 编辑本段相关分析的分类1 、线性相关分析:研究两个变量间线性关系的程度。用相关系数r 来描述。-正相关:如果x,y变化的方向一致,如身高与体重的关系,r0 ;一般地,|r|0.95存在显著性相关; |r| 0.高8度相关; 0.5 |r|0.8 中度相关; 0.3 |r|0.5 低度相关;|r|0.3关系极弱,认为不相关负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r0 ;无线性相关:r=0 。如果变量Y 与X 间是函数关系,则r=1或r=-1;如果变量Y 与X 间是统计关

20、系,则 -1r 样本均数排序- 计算 q 值 - 查 q 界值表判断结果。2 、多个实验组与一个对照组均数间两两比较多个实验组与一个对照组均数间两两比较,若目的是减小第II 类错误,最好选用最小显著差法(LSD法);若目的是减小第I 类错误,最好选用新复极差法,前者查t界值表,后者查q 界值表。 编辑本段 方差分析的基本思想基本思想:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。下面我们用一个简单的例子来说明方差分析的基本思想:如某克山病区测得11 例克山病患者和13 名健康人的血磷值(mmol/L )如下:患者: 0.841.051.201.201.

21、391.531.671.801.872.072.11健康人: 0.540.640.640.750.760.811.161.201.341.351.481.561.87问该地克山病患者与健康人的血磷值是否不同?从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和( SS )描述其围绕总均数的变异情况,则总变异有以下两个来源:组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;组间变异,即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。而且: SS 总 =SS 组间 +SS 组内v 总 =v 组间 +v 组内如果用均方(即自由度v 去除离均差平方和的商)代替离

22、均差平方和以消除各组样本数不同的影响,则方差分析就是用组内均方去除组间均方的商(即F值)与1相比较, 若 F 值接近1,则说明各组均数间的差异没有统计学意义,若 F 值远大于1 ,则说明各组均数间的差异有统计学意义。实际应用中检验假设成立条件下F 值大于特定值的概率可通过查阅F 界值表(方差分析用)获得。 编辑本段 方差分析的分类及举例一、单因素方差分析(一)单因素方差分析概念理解步骤是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,

23、研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地区、学历。单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值得变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。(二)单因素方差分析原理总结容

24、易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。(三)单因素方差分析基本步骤? 1 、提出原假设: H0 无差异; H1 有显著差异? 2、选择检验统计量:方差分析采用的检验统计量是F 统计量,即 F 值检验。? 3、计算检验统计量的观测值和概率P 值:该步骤的目的就是计算检验统计

25、量的观测值和相应的概率P 值。? 4 、给定显著性水平,并作出决策(四)单因素方差分析的进一步分析在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验。1 、方差齐性检验是对控制变量不同水平下各观测变量总体方差是否相等进行检验。前面提到, 控制变量不同各水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足这个前提要求,就不能认为各总体分布相同。因此,有必要对方差是否齐性进行检验。SPSS单因素方差分析中,方差齐性检验采用了方差同质性(homogeneityofvariance )

26、检验方法,其原假设是:各水平下观测变量总体的方差无显著差异。2 、多重比较检验单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量产生了显著影响,进一步还应确定控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显区别于其他水平,哪个水平的作用是不显著的,等等。例如,如果确定了不同施肥量对农作物的产量有显著影响,那么还需要了解10公斤、 20 公斤、 30 公斤肥料对农作物产量的影响幅度是否有差异,其中哪种施肥量水平对提高农作物产量的作用不明显,哪种施肥量水平最有利于提高产量等。掌握了这些重要的信息就能够帮助人们制定合理的施肥方案,实现低

27、投入高产出。多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。 由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤。介绍几种常用检验统计量的构造方法( 1)LSD 方法LSD 方法称为最小显著性差异(LeastSignificantDifference)法。最小显著性差异法的字画就体现了其检验敏感性高的特点,即水平间的均值只要存在一定程度的微小差异就可能被检验出来。正是如此,它利用全部观测变量值,而非仅使用某两组的数据。LSD 方法适用于各总体方差相等的情况,但它并没有对犯一类错误的概率问题加以有效控制。( 2 ) S-N-K方法S-N-K方法是一种

28、有效划分相似性子集的方法。该方法适合于各水平观测值个数相等的情况,3 、其他检验( 1 )先验对比检验在多重比较检验中,如果发现某些水平与另外一些水平的均值差距显著,如有五个水平,其中x1 、 x2 、 x3 与 x4 、 x5 的均值有显著差异,就可以进一步分析比较这两组总的均值是否存在显著差异,即1/3(x1+x2+x3)与 1/2(x4+x5)是否有显著差异。这种事先指定各均值的系数,再对其线性组合进行检验的分析方法称为先验对比检验。通过先验对比检验能够更精确地掌握各水平间或各相似性子集间均值的差异程度。( 2 )趋势检验当控制变量为定序变量时,趋势检验能够分析随着控制变量水平的变化,观

29、测变量值变化的总体趋势是怎样的,是呈现线性变化趋势,还是呈二次、三次等多项式变化。通过趋势检验,能够帮助人们从另一个角度把握控制变量不同水平对观测变量总体作用的程度。二、多因素方差分析(一)多因素方差分析基本思想多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。例如:分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量作为观测变量,品种和施肥量作

30、为控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。(二)多因素方差分析的其他功能1 、均值检验在 SPSS 中,利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较,实现方式有两种,即多重比较检验和对比检验。多重比较检验的方法与单因素方差分析类似。 对比检验采用的是单样本 t 检验的方法,它将控制变量不同水平下的观测变量值看做来自不同总体的样本, 并依次检验这些总体的均值是否与某个指定的检验值存在显著差异。 其中,检验值可以指定为以下几种:观测变量的均值(De

31、viation) ;第一水平或最后一个水平上观测变量的均值(前一水平上观测变量的均值(Difference) ;后一水平上观测变量的均值(Helmert )。Simple) ;2 、控制变量交互作用的图形分析控制变量的交互作用可以通过图形直观分析。(三)多因素方差分析的进一步分析在上述案例中,已经对广告形式、地区对销售额的影响进行了多因素方差分析,建立了饱和模型。由分析可知:广告形式与地区的交互作用不显著,先进一步尝试非饱和模型,并进行均值比较分析、交互作用图形分析。1 、建立非饱和模型2 、均值比较分析3 、控制变量交互作用的图形分析三、协方差分析(一)协方差分析基本思想通过上述的分析可以看到,不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响。例如,在研究农作物产量问题时,如果仅考察不同施肥量、品种对农作物产量的影响,不考虑不同地块等因素而进行方差分析,显然是不全面的。因为事实上有些地块可能有利于农

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论