7.社会科学数据处理软件应用6.doc_第1页
7.社会科学数据处理软件应用6.doc_第2页
7.社会科学数据处理软件应用6.doc_第3页
7.社会科学数据处理软件应用6.doc_第4页
7.社会科学数据处理软件应用6.doc_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 六 章 相关6.1 概述所谓相关是指变量间相互发生的关联,如果只是分析两组数据间的相关,简称为单相关。如果是分析多组数据间的相关,则称之为复相关。要了解简单相关,通常有两种方式,一个是绘制数据散点图(即Excel的XY图),另一个是计算简单相关系数(表示相关程度大小及正负的数据)。在Excel中,计算简单相关系数,可直接使用CORREL()函数,其语法为:CORREL(ARRAY1,ARRAY2),或CORREL(区域1,区域2)本函数用以计算两组数字区域的简单相关系数,两组数字区域的数据点必须相同。简单相关系数的计算公式为:相关系数只是一个介于1到1之间的数字:,其情况可有下列3种: =0无关0正相关数据分析(D)” (得先安装“加载宏”的“分析工具库”),还可计算出多组数据间的相关系数,组成一个相关系数表。例子:现有有关汽车钣金、省油与价格的满意度数据见下图,用“工具(T)数据分析(D)”来计算相关系数表。步骤为:1执行“工具(T)数据分析(D)”。2选“相关系数”,然后单击“确定”按钮。3在“输入区域”位置,设定两组数据的区域(本例为A3:C17)。4将“分组方式”安排为“逐列(C)”。5勾选“标志在第一行(L)”(因各组数据均含标题的字符串标志)。6设定输出区域,本例安排在工作表的E3位置。7单击“确定”按钮结束,即可获得多组数据的相关系数表。(因为对称矩阵,所以显示一半即可):钣金省油价格钣金1省油-0.9391价格-0.91480.83491结果解释:显示“钣金与省油”及“钣金与价格”的满意度间均呈高度负相关,对钣金越满意对其省油与价格将越不满意。钣金好的车身重量大,当然较不省油,且其售价一般也比较高。另外“省油与价格”的满意度之间则呈高度正相关,因省油的车一般价位比较低的缘故。由于相关系数会受样本数大小影响。在求得前面的相关系数后,我们都会有一种困惑,到底多大的相关系数才可以说两变量之间存在显著相关?6.2.3 总相关系数的检验(小样本) 1.用检验如果总体为正态分布,且总平均值(、)与总方差(、)均为已知,在样本数n30并且总相关系数,的检验是以自由度n-2的,分布进行的,其虚拟假设与对立假设为: (无关) (相关)在求得样本的相关系数(r)后,如果:需要放弃虚拟假设,如果: 则需要接受虚拟假设。公式中, 所使用的t值是使用自由度n-2的t分布求得的(双尾)。例子:现有成绩和出勤率的数据,在a=0.05、n=11、,求得相关系数为0.4848,计算=0.6021r=0.4848中,需要接受总相关系数为。的虚拟假设,也就是成绩与出勤率之间无关。如右图。2. 用t检验另一种检验方式为: (无关) (相关)在求得样本的相关系数(r)及样本数后,用:计算t值,然后查“t方分布的临界值”自由度n-2的值。当:,即放弃虚拟假设。例子:现有成绩和出勤率的数据,在a=0.05、n=11、,求得相关系数为0.4848,计算t=1.66,在a=0.05、n=11、时查“t方分布的临界值”自由度n-2的值,然后得到2.262(也可直接用=TINV(双尾概率,自由度)求得,即E5的=TINV(E4,E3)结果解释:由于t=1.66a=0.05,判断出无法放弃虚拟假设,如上图。6.2.4 总相关系数的检验(大样本)如果总体为正态分布,在样本数n30,总相关系数夕的检验是用标准正态分布进行时,其虚拟假设与对立假设为: (无关) (相关)在求得样本的相关系数(r)后,若:,需要否定虚拟假设,若:,则无法否定虚拟假设。可以直接用NORMSINV()函数求得,见右图例子:现有消费者对数码相机“与电脑配合执行的软件”与“操控性(稳定性、速度等)”两属性的注重程度,在a=0.05、值为196。把n=98、r=O651代入公式计算得: 所以,需要否定总相关系数为0的虚拟假设,也就是数码相机的“与电脑配合执行的软件”与“操控性(稳定性、速度等)”两属性的注重程度间存在显著相关。如右图 6.3 spss求相关在研究中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程:Bivariate过程;Partial过程;Distances过程6.3.1 Bivariate过程Bivariate过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的95%以上。下面的讲述也以该过程为主。6.3.1.1 界面说明【Variables框】用于选入需要进行相关分析的变量,至少需要选入两个。【Correlation Coefficients复选框组】用于选择需要计算的相关分析指标,有: Pearson复选框 选择进行积距相关分析,即最常用的参数相关分析 Kendalls tau-b复选框 计算Kendalls等级相关系数 Spearman复选框 计算Spearman相关系数,即最常用的非参数相关分析(秩相关)【Test of Significance单选框组】用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。【Flag significant correlations】用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P0.05的系数值旁会标记一个星号,P0.01的则标记两个星号。【Options钮】弹出Options对话框,选择需要计算的描述统计量和统计分析: Statistics复选框组 可选的描述统计量。它们是:Means and standard deviations每个变量的均数和标准差 Cross-product deviations and covariances各对变量的交叉积和以及协方差阵Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。6.3.1.2分析实例例子:请计算SPSS自带的样本数据judges.sav中意大利(judge1)和韩国法官(judge2)得分的相关性。解:由于judge1和judge2的数据分布不太好,这里同时计算Pearson相关系数和Spearman相关系数。操作如下:这种做法严格说来是有问题的,我这样做主要是想偷懒。 1.Variables框:选入judge1、judge2 2.Pearson复选框:选中 3.Spearman复选框:选中 4.单击OK钮结果解释:输出结果如下所示:Correlations在上面的结果中,变量间两两的相关系数是用方阵的形式给出的。每一行和每一列的两个变量对应的格子中就是这两个变量相关分析结果结果,共分为三列,分别是相关系数、P值和样本数。由于这里只分析了两个变量,因此给出的是2*2的方阵。由上表可见judge1、judge2自身的相关系数均为1(of course),而judge1和judge2的相关系数为0.91,P0.001,有非常显著的统计学意义。如果需要得到具体的P值。请进入表格的编辑模式,双击P值所在的单元格,就可以看到精确的P值大小。上表的标题内容翻译如下:ItalySouth KoreaItalyPearson积距相关系数P值(双侧)样本数1.000.300.910.000300SouthKoreaPearson积距相关系数P值(双侧)样本数.910.0003001.000.300Nonparametric Correlations此处的表格内容和上面Pearson相关系数的结果非常相似,只是表格左侧注明为Spearman等级相关。可见judge1和judge2的等级相关系数为0.92,P0.001,有非常显著的统计学意义。6.3.2 Partial过程Partial过程 如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。6.3.2.1界面说明【Variables框】用于选入需要进行偏相关分析的变量,至少需要选入两个。【Controlling for框】用于选择需要在偏相关分析时进行控制的协变量,如果不选入,则进行的就是普通的相关分析。【Test of Significance单选框组】意义同前,用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。【Display actual significince level复选框】用于确定是否在结果中给出确切的P值,一般选中。【Options钮】弹出Options对话框,选择需要计算的描述统计量和统计分析: Statistics复选框组 可选的描述统计量。它们是:Means and standard deviations每个变量的均数和标准差 Zero-order correlations给出包括协变量在内所有变量的相关方阵Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。6.3.2.2结果解释偏相关分析的结果和普通相关分析几乎完全相同,非常容易看懂,比如说我们要在排除变量judge3的影响后计算变量judge1和judge2的相关性(只是举个例子而已,这样是没有实际依据的),则结果如下:Partial Corr- - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - -Controlling for. JUDGE3 JUDGE1 JUDGE2JUDGE1 1.0000 .5632 ( 0) ( 297) P= . P= .000JUDGE2 .5632 1.0000 ( 297) ( 0) P= .000 P= .(Coefficient / (D.F.) / 2-tailed Significance) . is printed if a coefficient cannot be computed这些结果一目了然,不用再解释了吧,可见当控制了变量judge3的影响后,judge1和judge2的相关系数值大大降低,但仍然具有统计学意义。请注意,友好的统计软件界面是会骗人的:偏相关分析和协方差分析一样,里面蕴涵的统计学知识要远比你用统计软件进行操作时感觉到的内容复杂的多,这些分析都具有严格的适用条件,在进行分析之前需要对数据是否满足条件进行考察。因此进行这些分析前一定要参考有关书籍,并慎重行事。6.3.3 Distances过程Distances过程 调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。Distances过程是专门进行距离相关分析用的,由于该方法大多数人用的非常少,里面又涉及到太深的统计原理,这里我只对界面做一解释,就不再深入下去了。如要用到,请参考有关的多元统计专业书。【Variables框】用于选入需要进行距离相关分析的变量,至少需要选入两个。【Label cases by框】选择一个变量用于给各个记录加上标签,可以不选。【Compute Distances单选框组】其中有两个选择,Between cases表示作变量内部观察值之间的距离相关分析,Between variables表示作变量之间的距离相关分析。【Measure单选框组】用于选择分析时采用的距离类型:Dissimilarities为不相似性测距,Similarities为相似性测距。【Measure钮】和前面的Measure单选框组配合使用,单击后弹出Distance:Dissimilarity Measure对话框,用户可根据数据特征选用测距方法:选择Dissimilarities时各种数据类型可用的测距方法有:1、计量资料 Euclidean distance:以两变量差值平方和的平方根为距离; Squared Euclidean distance:以两变量差值平方和为距离; Chebychev:以两变量绝对差值的最大值为距离; Block:以两变量绝对差值之和为距离; Minkowski:以两变量绝对差值p次幂之和的p次根为距离; Customized:以两变量绝对差值p次幂之和的r次根为距离。2、计数资料 Chi-square measure:2值测距; Phi-square measure:2值测距,即将2测距值除合计频数的平方根。3、二分类变量 Euclidean distance:二分差平方和的平方根,最小为0,最大无限; Squared Euclidean distance:二分差平方和,最小为0,最大无限; Size difference:最小距离为0,最大无限; Pattern difference:从0至1的无级测距; Variance:以方差为距,最小为0,最大无限; Lance and Williams:Bray-Curtis非等距系数,界于0至1之间。选择Similarities时各种数据类型可用的测距方法有:1、计量资料 Pearson correlation:以Pearson相关系数为距离; Cosine:以变量矢量的余弦值为距离,界于-1至+1之间。2、二分类变量 Russell and Rao:以二分点乘积为配对系数; Simple matching:以配对数与总对数的比例为配对系数; Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重; Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重; Rogers and Tanimoto:Rogers and Tanimoto配对系数,分母为配对数,分子为非配对数,非配对数给予加倍的权重; Sokal and Sneath 1:Sokal and Sneath 型配对系数,分母为配对数,分子为非配对数,配对数给予加倍的权重; Sokal and Sneath 2:Sokal and Sneath 型配对系数,分子与分母均为非配对数,但

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论