利用SPSS进行相关分析(第八章)_第1页
利用SPSS进行相关分析(第八章)_第2页
利用SPSS进行相关分析(第八章)_第3页
利用SPSS进行相关分析(第八章)_第4页
利用SPSS进行相关分析(第八章)_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

利用SPSS进行相关分析(Correlations)一、

相关分析概述1.1统计关系与函数关系客观事物之间的关系大致可分为两大类关系:(1)函数关系:当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。(2)统计关系:两事物之间的一种非一一对应的关系,即当一个变量x取一定值时,另一变量y无法依确定的函数取唯一确定的值。1.2线性相关和非线性相关统计关系可再进一步分为:(1)线性相关:当一个变量的值发生变化时,另外的一个变量也发生大致相同的变化。在直角坐标系中,如现象观察值的分布大致在一条直线上,则现象之间的相关关系为线性相关或直线相关(Linearcorrelation)。(2)非线性相关:如果一个变量发生变动,另外的变量也随之变动,但是,其观察值分布近似的在一条曲线上,则变量之间的相关关系为非线性相关或曲线相关(Curvilinearcorrelation)1.3正线性相关与负线性相关线性相关可以分为:(1)正线性相关:两个变量线性的相随变动方向相同。(2)负线性相关:两个变量线性的相随变动方向相反。1.4相关分析与回归分析如果仅仅研究变量之间的相互关系的密切程度和变化趋势,并用适当的统计指标描述。这就是相关分析。如果要把变量间相互关系用函数表达出来,用一个或多个变量的取值来估计另一个变量的取值,这就是回归分析。绘制散点图和计算相关系数是相关分析最常用的工具,它们的相互结合能够达到较为理想的分析效果。二、绘制散点图2.1散点图的特点散点图:是将数据以点的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及它们的强弱程度和方向。在实际分析中,散点图经常表现出某些特定的形式。如绝大多数的数据类似于“橄榄球”的形状,或集中形成一根“棒状”,而剩余的少数数据点则零散地分布在四周。通常“橄榄球”和“棒状”代表了数据对的主要结构和特征,可以利用曲线将这种主要结构的轮廓描绘出来,是数据的主要特征更突出。r=1r=0.7~0.8r=0r=0r=-0.7~-0.8r=-1完全正相关正相关无相关完全负相关负相关无相关2.2散点图应用举例例8-3为了分析影响生猪养殖的原因,我们选取以下代表生猪生产的主要指标:Y1肉猪出栏头数(万头)、Y2生猪年底存栏头数(万头)、Y3猪肉产量(万吨)、Y4出口活猪数量(万头)。对生猪生产有影响的指标有:X1猪(毛重)生产价格指数(1977年为100)、X2粮食产量(万吨)、X3粮食零售价格指数(1977=100)、X4农村居民人均纯收入(元)、X5乡村总人口数(万人)、X6全国人均猪肉消费量(斤)。利用SPSS绘制散点图【图形(Graps)】【旧对话框)】【散点/点状(Scatter)】

简单散点图①表示一对变量间统计关系的散点图,点击定义。②将纵轴变量选入【Y轴】,③将横轴变量选入【X轴】,④将分组变量选入【设置标记】:用该变量分组,并在一张图上用不同颜色绘制若干个散点图。⑤将标记变量选入【标注个案】:将标记变量的各变量值标记在散点图相应点的旁边。三、计算相关系数3.1相关系数的特点利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤:

1.计算样本相关系数r①相关系数r的取值在-1~+1之间

②r>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关系

③r=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表示两变量不相关

④|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较弱2.对样本来自的两总体是否存在显著的线性关系进行推断由于存在随机抽样和样本数量较少等原因,通常样本相关系数不能直接用来说明样本来自的总体是否具有显著的线性相关性,而需要通过假设检验的方式对样本来自的总体是否存在显著的线性相关关系进行统计推断。基本步骤是:(1)提出原假设,即两总体无显著的线性关系。(2)选择检验统计量,即不同的相关系数。(3)计算检验统计量的观测值和对应的概率值。(4)决策:两总体之间有或者没有线性相关关系。3.2相关系数的种类

对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson简单相关系数、Spearman等级相关系数和Kendall相关系数等。

1.Pearson简单相关系数(适用于两个变量都是数值型的数据)

Pearson简单相关系数的检验统计量为:2.Spearman等级相关系数①Spearman等级相关系数用来度量定序变量间的线性相关关系,②设计思想与Pearson简单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据,而是利用数据的秩,用两变量的秩代替代入Pearson简单相关系数计算公式③于是其中的和的取值范围被限制在1和n之间,且可被简化为:①如果两变量的正相关性较强,它们秩的变化具有同步性,于是的值较小,r趋向于1;②如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是的值较大,r趋向于0;③小样本下,在零假设成立时,Spearman等级相关系数服从Spearman分布;④在大样本下,Spearman等级相关系数的检验统计量为Z统计量,定义为Z统计量近似服从标准正态分布。

3.Kendall相关系数(1)用非参数检验方法度量定序变量间的线性相关关系(2)利用变量秩数据计算一致对数目和非一致对数目。①当两个变量具有较强的正相关关系,则一致对数目较大,非一致对数目较小,②当两个变量具有较强的负相关关系,则一致对数目较小,非一致对数目较大,③当两个变量相关性较弱,则一致对数目和非一致对数目大致相等,Kendall相关系数在小样本下,Kendall相关系数服从Kendall分布;在大样本下,Kendall相关系数的检验统计量为Z统计量,定义为:

Z统计量近似服从标准正态分布。3.3计算相关系数的应用举例

对于例8-3,为了研究X组变量与Y组变量之间的相关关系,先采用计算相关系数的方法。由于这两组变量为定距变量,故采用Pearson相关系数。

【分析(Analyze)】【相关(correlate)】【两变量(bivariate)】因p=0.000<a(0.01)故拒绝原假设,即拒绝零相关因相关系数为0.906,意味着两者存在较强的相关性。X1猪(毛重)生产价格指数Y1肉猪出栏头数(万头)四、偏相关分析4.1偏相关分析和偏相关系数(1)简单相关系数研究两变量间线性相关性,若还存在其他因素影响,其往往夸大变量间的相关性,不是两变量间线性相关强弱的真实体现。例如,研究商品的需求量、价格和消费者收入之间的线性关系时,需求量和价格的相关关系实际还包含了消费者收入对价格和商品需求量的影响。此时,单纯利用简单相关系数来评价变量间的相关性是不准确的,需要在剔除其他相关因素影响的条件下计算变量间的相关,偏相关的意义就在于此。

(3)偏相关分析也称净相关分析,它在控制其他变量线性影响的条件下分析两变量间的线性关系,所采用的工具是偏相关系数。(4)控制变量个数为1时,偏相关系数称一阶偏相关;当控制两个变量时,偏相关系数称为二阶偏相关;当控制变量的个数为0时,偏相关系数称为零阶偏相关,也就是简单相关系数。偏相关系数的分析步骤(1)计算样本的偏相关系数假设有三个变量y、x1和x2,在分析x1和y之间的净相关时,需控制x2的线性作用,则x1和y之间的一阶偏相关定义为:偏相关系数的取值范围及大小含义与相关系数相同。

(2)对样本来自的两总体是否存在显著的净相关进行推断,检验统计量为:

其中,r为偏相关系数,n为样本数,q为阶数。t统计量服从自由度为n-q-2的t分布。4.2偏相关分析的应用举例

对于例8-3,我们选Y组变量作为控制变量,对X组的变量作偏相关分析。

【分析(analyze)】【相关(correlate)】【偏相关(partial)】Y1肉猪出栏头数(万头)Y2生猪年底存栏头数(万头)Y3猪肉产量(万吨)Y4出口活猪数量(万头)对生猪生产有影响的指标有:X1猪(毛重)生产价格指数(1977年为100)X2粮食产量(万吨)X3粮食零售价格指数(1977=100)X4农村居民人均纯收入(元)X5乡村总人口数(万人)X6全国人均猪肉消费量(斤)。例8-1(补充)现测量15名受试者的身体形态以及健康情况指标,如8.1表。第一组是身体形态变量,有年龄、体重、胸围和日抽烟量;第二组是健康状况变量,有脉搏、收缩压和舒张压。试求测量身体形态以及健康状况这两组变量之间的关系。表8.1两组身体素质的典型变量五、典型相关分析(一)操作步骤在SPSS中没有提供典型相关分析的专门菜单项,要想利用SPSS实现典型相关分析,必须在语句窗口中调用SPSS的Canonicalcorrelation.sps宏。具体方法如下:

1.按“文件—>新建—>语法”(File→New→Syntax)的顺序新建一个语句窗口。在语句窗口中输入下面的语句:

INCLUDE'SPSS所在路径\Canonicalcorrelation.sps'. CANCORRSET1=x1x2x3x4/ SET2=y1y2y3/.进行典型相关的变量名称必须是英文名称,否则不能再“语法”(syntax)中进行读取因此我们需要首先找到宏程序canonicalcorrelation.sps的路径.在SPSS20中的路径为:'C:\ProgramFiles\IBM\SPSS\Statistics\20\Samples\English\Canonicalcorrelation.sps'

2.建立或打开数据集。3.然后点击“运行”(RUN)—>“全部”(all)

将输出如下结果。(二)主要运行结果解释1.CorrelationsforSet-1、CorrelationsforSet-2、CorrelationsBetweenSet-1andSet-2(分别给出两组变量内部以及两组变量之间的相关系数矩阵)CorrelationsforSet-1x1x2x3x4x11.0000.7697.5811.1022x2.76971.0000.8171-.1230x3.5811.81711.0000-.1758x4.1022-.1230-.17581.0000CorrelationsforSet-2y1y2y3y11.0000.8185.8614y2.81851.0000.5878y3.8614.58781.0000CorrelationsBetweenSet-1andSet-2y1y2y3x1.7582.8619.5401x2.8572.7134.7171x3.8864.5681.8684x4.0687.2956.0147表8.2相关矩阵2.CanonicalCorrelations(给出典型相关系数)从表8.3中可以看出第一典型相关系数达到0.954,第二典型相关系数为0.800,第三典型相关系数为0.222。CanonicalCorrelations1.9542.8003.222表8.3典型相关系数3.Testthatremainingcorrelationsarezero(给出典型相关的显著性检验)表8.4中从左至右分别为Wilks的统计量、卡方统计量、自由度和伴随概率。从表中可以看出,在0.05的显著性水平下,三对典型变量中只有第一对典型相关是显著的。表8.4典型相关系数的显著性检验Testthatremainingcorrelationsarezero:Wilk'sChi-SQDFSig.1.03034.92712.000.0002.34210.7306.000.0973.951.5052.000.777RawCanonicalCoefficientsforSet-1

123x1-.026-.125.022x2-.021-.010-.173x3-.059.078.092x4-.073-.089.267RawCanonicalCoefficientsforSet-2

123y1-.141.156-.464y2-.002-.192.129y3-.025.057.317表8.5典型变量未标准化系数StandardizedCanonicalCoefficientsforSet-1

123x1-.213-1.022.179x2-.169-.082-1.373x3-.713.9391.102x4-.193-.237.707StandardizedCanonicalCoefficientsforSet-2

123y1-.840.928-2.757y2-.019-1.5781.061y3-.165.3792.110表8.6典型变量标准化系数由于Y1(脉搏)的系数-0.84绝对值最大,说明健康状况的典型变量主要由脉搏所决定。同时,由于两个典型变量中抽烟量和脉搏的系数是同号的(都为负),反映抽烟量和脉搏的正相关,即日抽烟越多则每分钟的脉搏跳动次数也越多。抽烟对身体健康有害,这和客观事实是相符的。6.典型载荷与交叉典型载荷CanonicalLoadingsforSet-1

123x1-.777-.564-.165x2-.892-.072-.422x3-.941.320-.040x4-.069-.496.700CrossLoadingsforSet-1

123x1-.742-.451-.037x2-.851-.058-.094x3-.898.256-.009x4-.066-.397.155表8.7典型载荷与交叉典型载荷6.典型载荷与交叉典型载荷CanonicalLoadingsforSet-2

123y1-.997-.036-.071y2-.803-.595.044y3-.899.252.359CrossLoadingsforSet-2

123y1-.951-.029-.016y2-.766-.476.010y3-.858.201.0807.RedundancyAnalysis(分别给出两组典型变量的冗余分析)表8.8中给出的四组数据分别是身体形态变量被自身的典型变量解释的方差比例、身体形态变量被健康状况的典型变量解释的方差比例、健康状况变量被自身的典型变量解释的方差比例和健康状况变量被身体形态的典型变量解释的方差比例。表8.8典型变量的冗余分析RedundancyAnalysis:ProportionofVarianceofSet-1ExplainedbyItsOwnCan.Var.PropVarCV1-1.572CV1-2.168CV1-3.174ProportionofVarianceofSet-1ExplainedbyOppositeCan.Var.PropVarCV2-1.521CV2-2.107CV2-3.009ProportionofVarianceofSet-2ExplainedbyItsOwnCan.Var.PropVarCV2-1.815CV2-2.139CV2-3.045ProportionofVarianceofSet-2ExplainedbyOppositeCan.Var.PropVarCV1-1.743CV1-2.089CV1-3.002表8.8典型变量的冗余分析例8-3为了分析影响生猪养殖的原因,我们选取以下代表生猪生产的主要指标:Y1肉猪出栏头数(万头)、Y2生猪年底存栏头数(万头)、Y3猪肉产量(万吨)、Y4出口活猪数量(万头)。对生猪生产有影响的指标有:X1猪(毛重)生产价格指数(1977年为100)、X2粮食产量(万吨)、X3粮食零售价格指数(1977=100)、X4农村居民人均纯收入(元)、X5乡村总人口数(万人)、X6全国人均猪肉消费量(斤)。第一步

建立数据集INCLUDE'C:\ProgramFiles\IBM\SPSS\Statistics\20\Samples\English\Canonicalcorrelation.sps'.CANCORRSET1=x1x2x3x4x5x6/ SET2=y1y2y3y4/.第二步按“文件—>新建—>语法”(File→New→Syntax)的顺序新建一个语句窗口。在语句窗口中输入下面的语句第三步

然后点击“运行”(RUN)—>“全部”(all)

将输出如下结果。CorrelationsforSet-1x1x2x3x4x5x6x11.0000.8805.9633.8756-.0982.5379x2.88051.0000.8613.7915.0300.6921x3.9633.86131.0000.9390-.2639.5256x4.8756.7915.93901.0000-.5262.6036x5-.0982.0300-.2639-.52621.0000-.1327x6.5379.6921.5256.6036-.13271.0000CorrelationsforSet-2y1y2y3y4y11.0000.9516.9982-.7665y2.95161.0000.9580-.6202y3.9982.95801.0000-.7369y4-.7665-.6202-.73691.0000

对应教材输出结果8-8CorrelationsBetweenSet-1andSet-2y1y2y3y4x1.9065.9057.9156-.6423x2.8588.8642.8780-.4928x3.9478.8972.9466-.7745x4.9511.8545.9409-.8579x5-.3192-.1170-.2748.6768x6.6887.6599.7011-.2556CanonicalCorrelations1.9882.9163.7624.244对应教材输出结果8-8Testthatremainingcorrelationsarezero:Wilk'sChi-SQDFSig.1.002152.54124.000.0002.06364.93715.000.0003.39421.8798.000.0054.9401.4443.000.695对应教材输出结果8-8StandardizedCanonicalCoefficientsforSet-1

1234x1-.562.897.4771.507x2-.288.203.289-2.747x3.372-1.5062.845.829x41.562.622-5.335.009x5.546.903-1.960.619x6.111.2351.598.600RawCanonicalCoefficientsforSet-1

1234x1-.003.004.002.007x2.000.000.000.000x3.001-.006.011.003x4.001.001-.005.000x5.000.000-.001.000x6.023.048.326.123对应教材输出结果8-9StandardizedCanonicalCoefficientsforSet-2

1234y1-.501-9.88420.04314.339y2-.139.809-2.3343.028y31.5239.562-15.983-16.803y4-.142.5252.386.494RawCanonicalCoefficientsforSet-2

1234y1.000-.001.001.001y2.000.000.000.001y3.001.008-.013-.013y4-.003.012.053.011对应教材输出结果8-9CanonicalLoadingsforSet-1

1234x1.917.207-.147.156x2.868.377-.016-.265x3.964.002-.098.075x4.972-.180-.020-.031x5-.343.860-.154.085x6.676.322.590-.131CrossLoadingsforSet-1

1234x1.906.190-.112.038x2.857.346-.012-.065x3.953.002-.075.018x4.960-.165-.016-.008x5-.339.788-.117.021x6.668.295.450-.032对应教材输出结果8-10CanonicalLoadingsforSet-2

1234y1.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论