多元统计分析笔记附实例(共16页)_第1页
多元统计分析笔记附实例(共16页)_第2页
多元统计分析笔记附实例(共16页)_第3页
多元统计分析笔记附实例(共16页)_第4页
多元统计分析笔记附实例(共16页)_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析(fnx),因子分析,对应分析 可以用来简化数据结构又不会损失(snsh)太多信息聚类分析和判别分析是对所考察的变量按相似程度(chngd)进行分类。回归分析 用来判断一些变量的变化是不是依赖于另外一些变量的变化,如果是,建立变量之间的定量关系式,并用于预测典型相关分析 用来分析两组变量之间的相互关系多元数据的统计推断 参数估计 假设检验参数估计: 用样本值估计总体X中的某些参数。点估计:区间估计:数学期望的置信区间分为方差已知和方差未知 置信区间:估计参数的取值范围 假设检验:对总体的分布律或分布参数作某种假设, 根据抽样得到的值,俩判断假设是否成立。假设检验分为参数检验和非参数检

2、验。 参数检验是在总体分布类型已经知道情况下进行的,其目的是对总体的参数及其有关性质做出明确判断。 非参数检验 这是总体分布类型未知的情况下进行的检验相关系数是用来描述两个变量间的线性相关程度的。 简单线性相关系数:Pearson 标准化: (1)min-max标准化 对原始数据进行线性变换 适用于最大值和最小值已 知 目的是把所有制映射到 0,1 区间。(2)Z-zcore 标准化 适用于最大值和最小值未知,或者超出取值范围的离群数据的值。12. 聚类分析:分析-分类系统聚类-检验聚类分析显著性: HYPERLINK /article/e8cdb32b7a2daf37052bade5.htm

3、l /article/e8cdb32b7a2daf37052bade5.html用SPSS做相关分析的应用示例【例】表1是某市从1978年至1992年社会商品零售总额、居民收入和全市总人口统计数字表,试分析它们之间是否存在线性关系。表1某市统计表时序年份零售总额(百万元)居民收入(百万元)全市总人口(万人)1197866.52 65.11 78.04 2197973.85 66.15 80.94 3198078.88 68.97 82.96 4198186.18 77.66 85.05 5198299.54 89.12 86.80 61983107.94 93.51 88.58 7198411

4、0.66 92.07 89.94 81985109.04 91.42 91.05 91986111.39 87.88 92.06 101987115.30 87.56 92.99 111988132.43 106.08 94.20 121989174.19 155.36 95.10 131990207.61 184.82 95.80 141991229.37 193.98 96.57 151992251.24 233.43 97.69 第一步:建立(jinl)数据文件。定义(dngy)变量:序号为Number,假设(jish)年份用y表示,零售总额用r表示,居民收入用i表示,全市总人口用p表示

5、,输入数据,如下截图示:第二步:进行数据分析。在数据文件管理窗口(chungku)中,点击Analyze,展开(zhn ki)下拉菜单,再点击Correlate中的Bivariate项,进入(jnr)Bivariate Correlations对话框,请童鞋们看下图:在左边的这个东东为源变量列框,右边的Variables框为待分析的变量列框,就是这个东东: 再看下边的Correlation Coefficients选项,也就是分析方法选择项,就是这个东东。主对话框中有三种(sn zhn)相关系数可供选择,分别对应于三种分析方法:Pearson:皮尔逊相关,计算连续变量或是等间距测度(c du)

6、的变量间的相关分析;Kendall:肯德尔相关(xinggun),计算等级变量间的秩相关;Spearman:斯皮尔曼相关,计算斯皮尔曼秩相关。(童鞋们要注意以下选择:对于非等间距测度的连续变量,因为分布不明,可以使用等级相关分析,也可以使用Pearson相关分析;对于完全等级的离散变量,必须使用等级相关分析相关性,当数据资料不服从双变量正态分布或总体分布型未知,或原始数据是用等级表示时,宜用Spearman或Kendall相关分析。)(2) 再往看下边的Test of Significance选项,东东:级选择显著性检验类型,他们兄弟俩的区别是:Two-tailed:双尾检验,如果事先不知道相

7、关方向(正相关还是负相关)则可以选择此项;One-tailed:单尾检验,如果事先知道相关方向可以选择此项。反正你也不晓得,你就选双尾好了。(3)继续往下看,这个东东,Flag Significant Correlations:表明显著水平,如果选择此项,输出结果中在相关系数值值右上方是用“*”表示显著水平为5%;用“*”表示其显著水平为1%。在本例中,在源变量列框中,选中“零售总额r”,“居民收入i”和“总人口p,点击右边键头这个按钮,使之进入Variables框中。就变成了这个样子了:分析方法选择(xunz)Pearson项,双尾检验(jinyn)。再点击(din j)最右边的“Optio

8、ns”按钮,进入Options对话框,看下边这个图:在对话框中,有两项选择项。(1)Statistics:统计量选择项在该栏中有两个有关统计量的选择项,只有在主对话框中选择了Pearson相关分析方法时才可以选择这两个选择项,如果选择了这些项,在输出结果中就会得到样本的相应的统计量数值。它们是:Means and standard deviations:均值与标准差;Cross-product deviations and covariances:叉积离差阵和协方差阵。(2)missing values:缺失(qu sh)值的处理(chl)方法选择项,在该栏中有两个(lin )关于缺失值的处理

9、方法选择项:Exclude cases pairwise:仅剔除正在参与计算的两个变量值是缺失值的观测量。这样在多元相关分析中或多对两两分析中,有可能相关系数矩阵中的相关系数是根据不同数量的观测量计算出来的,系统默认为此项;Exclude cases listwise:剔除在主对话框中Variables矩形阵中列出的变量带有缺失值的所有观测量。这样计算出来的相关系数矩阵,每个相关系数都是一句相同数量的观测量计算出来的。在这个例中,我们选择均值与标准差(Means and standard deviations)和叉积离差阵和协方差阵(Cross-product deviations and c

10、ovariances)两项,缺失值的处理用默认项。这个样子:点击“Continue”按钮,返回上一级对话框。再点击“OK”按钮即可,得到的结果看下边两个表:上表(shn bio)是该市从1978年到1992年的社会零售总额、居民收入和总人口水平(shupng)的平均数分别为130.2760、112.8747和89.8513,它们(t men)分别的标准差为57.97819、52.69135和6.00592,15是它的样本数。再看这个表,显示了它们之间的Pearson相关系数,1%的显著水平的双尾检验概率值,叉积离差阵和协方差阵。从表中可以看出,社会零售总额与居民收入之间的相关系数为0.991,

11、双尾检验的概率值为0,小于1%,即相关程度是显著的,叉积离差值为42403.443,协方差为3028.817,;社会零售总额与总人口的相关系数为0.850,双尾检验的概率值为0,小于1%,即相关程度也是显著的,叉积离差值为4141.919,协方差为295.851;居民收入与总人口的相关系数为0.790,双尾检验的概率值为0,小于1%,即相关程度是显著的,叉积离差值为3498.399,协方差为249.886。因此可以说,该市从1978年到1992年社会零售总额、居民收入和总人口两两之间有着明显的线性关系。后边这个矩阵很重要的一个表了,主要解释他们之间有木有存在我们当初想要的相关关系,童鞋们可以用

12、一些数据实验一下下。另外,数据录入的时候在大家都还不是很熟悉情况下最好先定义变量,打开(d ki)的时候看左下角的那两个工资表,就是这个两个东东,你点击(din j)这个,出来(ch li)这个这个就是需要你进行定义的一些选项,如name、type、width是关于它的名称,数值类型、宽度等等这些,你可以根据需要进行定义,还有decimals小数点label变量名标签等等。像例题当然,如果你已经很熟悉了,而且有些变量又都是系统已经默认的,那你直接在工作表状态下输入也可以,但是需要你已经很熟悉的前提下,知道个分别代表啥子。好了,童鞋们可以自己找一些数据来试试,多鼓捣几下就会了。另外,如果你的毕业

13、论文中学会有用到这样的分析软件来做论文的话,我相信你都会得高分,I promise!如何用spss进行正态性检验 (属于非参数检验) HYPERLINK /article/e52e36158345ae40c60c51a5.html /article/e52e36158345ae40c60c51a5.html12. 主成分分析一、主成分(chng fn)分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法(fngf)。从数学角度来看,这是一种降维处理(chl)技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间

14、的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 二、主成分分析的计算步骤1、计算相关系数矩阵rij(i,j=1,2,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为2、计算特征值与特征向量解特征方程 ,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ; 分别求出对应于特征值 的特征向量 ,要求 =1,即其中 表示向量 的第j个分量。3、计算主成分贡献率及累计贡献率贡献率:累计(li j)贡献率:一般(ybn)取累计贡献率达85%-95%的特征值, 所对应(duyng)的第1、第2、第m(

15、mp)个主成分。 4、计算主成分载荷5、各主成分得分三、主成分分析法在SPSS中的操作1、指标数据选取、收集与录入(表1)2、Analyze Data Reduction Factor Analysis,弹出Factor Analysis 对话框:3、把指标(zhbio)数据选入Variables 框,Descriptives: Correlation Matrix(相关系数矩阵(j zhn)) 框组中选中Coefficients(系数(xsh)),然后点击Continue, 返回Factor Analysis 对话框,单击OK。注意:SPSS 在调用Factor Analyze 过程进行分析

16、时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。从表3 可知(k zh)GDP 与工业(gngy)增加值, 第三产业增加值、固定资产(gdngzchn)投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系, 与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强, 证明他们存在信息上的重叠。主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。特征值在某种程度上可以被看成是表示

17、主成分影响力度大小的指标, 如果特征值小于1, 说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大, 因此一般可以用特征值大于1作为纳入标准。通过表4( 方差分解主成分提取分析) 可知, 提取2个主成分, 即m=2, 从表5( 初始因子载荷矩阵) 可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷, 说明第一主成分基本反映了这些指标的信息; 人均GDP 和农业增加值指标在第二主成分上有较高载荷, 说明第二主成分基本反映了人均 GDP 和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全

18、部指标的信息, 所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到, 因为“Component Matrix”是指初始因子载荷矩阵, 每一个载荷量表示主成分与对应变量的相关系数。用表5( 主成分载荷(zi h)矩阵) 中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数(xsh)。将初始因子载荷矩阵中的两列数据输入( 可用复制粘贴的方法(fngf) 到数据编辑窗口( 为变量B1、B2) , 然后利用“TransformCompute Variable”, 在Compute Variable对话框中输入“A1=B1/SQR(7.22

19、)”注: 第二主成分SQR后的括号中填1.235, 即可得到特征向量A1(见表6)。同理, 可得到特征向量A2。将得到的特征向量与标准化后的数据相乘, 然后就可以得出主成分表达式注: 因本例只是为了说明如何在SPSS 进行主成分分析, 故在此不对提取的主成分进行命名, 有兴趣的读者可自行命名。标准化:通过(tnggu)AnalyzeDescriptive StatisticsDescriptives 对话框来实现(shxin): 弹出Descriptives 对话框后, 把X1X10 选入Variables 框, 在Save standardized values as variables 前

20、的方框(fn kun)打上钩, 点击“OK”, 经标准化的数据会自动填入数据窗口中, 并以Z开头命名。以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型, 即用第一主成分F1 中每个指标所对应的系数乘上第一主成分F1 所对应的贡献率再除以所提取两个主成分的两个贡献率之和, 然后加上第二主成分F2 中每个指标所对应的系数乘上第二主成分F2 所对应的贡献率再除以所提取两个主成分的两个贡献率之和, 即可得到综合得分模型:根据主成分综合模型即可计算综合主成分值, 并对其按综合主成分值进行排序, 即可对各地区进行综合评价比较, 结果见表8。具体检验还需进一步探讨(tnto)与学习13 SPSS单样本(yngbn)T检验(jinyn) (参数检验)含义:检验某变量的总体均值与指定的值是否存在显著性差异例如:检验某人的数学成绩的平均成绩是否为70分。要求:样本来自的总体要服从正态分布14 SPSS两独立样本T检验 (参数检验)含义:根据两独立样本的数据,对两总体均值是否有显著性差异进行推断。例如:男生和女生的高数成绩有显著性差异么要求:两样本服从正态分布 两样本相互

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论