SPSS相关分析案例讲解_第1页
SPSS相关分析案例讲解_第2页
SPSS相关分析案例讲解_第3页
SPSS相关分析案例讲解_第4页
SPSS相关分析案例讲解_第5页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、两个变量的相关分析:BiVariate1 相关系数的含义相关分析是研究变量间密切程度的一种常用统计方法。相关系数是描述相关关系强弱程度和方向的统计量,通常用r表示。 相关系数的取值范围在-1和+1之间,即:-1 r 1。 计算结果,若r为正,则表明两变量为正相关;若 r为负,则表明两变量为负相关。 相关系数r的数值越接近于1 (- 1或+1),表示相关系数越强;越接近于0,表示相关系数 越弱。如果r=1或-1,则表示两个现象完全直线性相关。 如果=0,则表示两个现象完全不相关(不 是直线相关)。 r 0.3 ,称为微弱相关、0.3 r 0.5 ,称为低度相关、0.5 r 0.8 ,称为显着

2、(中度) 相关、0.8 Irl 1 ,称为高度相关 r值很小,说明X与Y之间没有线性相关关系,但并不意味着 X与Y之间没有其它关系,如 很强的非线性关系。 直线相关系数一般只适用与测定变量间的线性相关关系,若要衡量非线性相关时,一般应采 用相关指数RO2. 常用的简单相关系数(1) 皮尔逊(PearSOn )相关系数皮尔逊相关系数亦称积矩相关系数,1890年由英国统计学家卡尔?皮尔逊提出。定距变量之 间的相关关系测量常用PearSOn系数法。计算公式如下:n(Xi X)(yi y)r J1(1)(nn(Xi x)2 (yi y)2.i 1i 1(1) 式是样本的相关系数。计算皮尔逊相关系数的数

3、据要求:变量都是服从正态分布,相互 独立的连续数据;两个变量在散点图上有线性相关趋势;样本容量n 30 O(2) 斯皮尔曼(SPearman )等级相关系数SPearman相关系数又称秩相关系数,是用来测度两个定序数据之间的线性相关程度的指标。当两组变量值以等级次序表示时,可以用斯皮尔曼等级相关系数反映变量间的关系密切程度。 它是根据数据的秩而不是原始数据来计算相关系数的,其计算过程包括:对连续数据的排秩、对离散数据的排序,利用每对数据等级的差额及差额平方,通过公式计算得到相关系数。其计算公式为:6 d2n n21(2)式中,g为等级相关系数;d为每对数据等级之差;n为样本容量斯皮尔曼等级相关

4、对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、 样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。(3)肯德尔(Kendall)等级相关系数肯德尔(Kendall)等级相关系数是在考虑了结点(秩次相同)的条件下,测度两组定序数据 或等级数据线性相关程度的指标。它利用排序数据的秩,通过计算不一致数据对在总数据对中的比 例,来反映变量间的线性关系的。其计算公式如下:(3)(3)式中,r是肯德尔等级相关系数;i是不一致数据对数;n为样本容量。计算肯德尔等级相关系数的数据要求与计算斯皮尔曼等

5、级相关系数的数据要求相同。3. 相关系数的显着性检验通常,我们用样本相关系数r作为总体相关系数P的估计值,而r仅说明样本数据的X与Y的 相关程度。有时候,由于样本数据太少或其它偶然因素,使得样本相关系数r值很大,而总体的X与Y并不存在真正的线性关系。因而有必要通过样本资料来对 X与Y之间是否存在真正的线性相 关进行检验,1即检验总体相关系数P是否为零(即原假设是:总体中两个变量间的相关系数为0)。SPSS勺相关分析过程给出了该假设成立的概率(输出结果中的Sig.)。样本简单相关系数的检验方法为:当原假设H 0 :0,n 50 时,检验统计量为:r Jn 1 Z : n 2l(4)1 r当原假设

6、H 0 :0,n 50 时,检验统计量为:r、n 2 t dfn 2(5)1 r 2式中,r为简单相关系数;n为观测值个数(或样本容量)4.背景材料设有10个厂家,序号为1, 2, 10,各厂的投入成本记为X ,所得产出记为y。各厂家的 投入和产出如表7-18-1所示,根据这些数据,可以认为投入和产出之间存在相关性吗?表110个厂家的投入产出单位:万元厂家12345678910投入20402030101020202030产出306040603040405030705.操作步骤5-1绘制散点图的步骤(1) 选择菜单命令“ GraPhs""LegacyDiaIogs ” &qu

7、ot;ScatterDot ”,打开 SCatter/Dot 对 话框,如图1所示。图1选择散点图窗口(2) 选择散点图类型。SPSS提供了五种类型的散点图。(3) 根据所选择的散点图类型,单击“ Define ”按钮设置散点图。不同类型的散点图的设置 略有差别。 简单散点图(SimPIeSCatter )简单散点图的设置窗口如图2所示。图2简单散点图的设置窗口从对话框左侧的变量列表中指定某个变量为散点图的纵坐标和横坐标,分别选入Y-AXiS和X-AXiS框中。这两项是必选项。可以把作为分组的变量指定到 SetMarkerSby框中,根据该变量取值的不同对同一个散点图中 的各点标以不同的颜色(

8、或形状)。该项可以省略。把标记变量指定到LabeICaSeSby框中,表示将标记变量的各变量值标记在散点图的旁边。该 项可以省略。从左侧变量列表框中选择变量到 Panelby框中作为分类变量,可以使该变量作为行(ROWS或 列(ColumnS将数据分成不同的组,便于比较。该项可以省略。选择USeChartSPeCifiCatiOnsFrom选项,可以选择散点图的文件模板,单击“ File ”可以选择指定的文件。单击“Title ”按钮可以对散点图的标题进行设置,单击“ OPtions ”按钮可以对缺失值以及是 否显示数据的标注进行设置。 重叠散点图(OVerlaySCatter )重叠散点图能

9、同时生成多对相关变量间统计关系的散点图,首先根据分类变量的不同取值对原7-18-3 所示'。始数据进行分类,然后对各分类数据做简单散点图。重叠散点图的设置窗口如图图3重叠散点图的设置窗口从左侧框中选择一对变量进入 PairS框中,其中前一个为图的纵坐标变量(Y-VariabIe ),后 一个作为图的横轴变量(X-VariabIe ),可以通过点击按钮进行横纵轴变量的调换。其他设置与同简单散点图都相同。 矩阵散点图(MatriXSCatter )矩阵散点图以方形矩阵的形式在多个坐标轴上分别显示多对变量间的统计关系。矩阵散点图的关键是弄清各矩阵单元中的横纵变量。矩阵散点图的设置窗口如图4所

10、示。图4矩阵散点图的设置窗口把参与绘图的若干变量指定到 MatriXVariableS 框中。选择变量的先后顺序决定了矩阵对角线 上变量的排列顺序。其他设置也与简单散点图相同。 三维散点图(3-DScatter)三维散点图生成三个相关变量的三维散点图,由三个坐标轴对应变量的数据决定,它以立体图的形式展现三对变量间的统计关系。设置窗口如图5所示。图5三维散点图设置窗口从左侧的变量列表中指定三个变量分别选入Y-AXiS、X-AXiS、Z-AXiS框中。其他设置均与简单散点图相同。 单点散点图(SamPIeDOt)单点散点图生成单个变量的散点图,显示数值型变量的每一个观测值,这些值都堆积在X轴附近,

11、由于没有指定Y轴,所以数据点的Y坐标没有特殊的含义。设置窗口如图 6所示。图6单点散点图设置窗口从左侧变量列表中选择一个变量选入 X-AXiSVariabIe 框中。其他设置与简单散点图相同。5-2计算简单相关系数的操作步骤通过散点图可以初步判断变量是否具有线性趋势。对具有线性趋势的变量计算相应的简单相关 系数的步骤如下:(1) 选择菜单命令“ Analyze ” “ Correlate ” “ BiVariate ”,打开两变量相关分析的对 话框,如图7所示。图7两变量相关分析窗口(2) 选入需要进行相关分析的变量进入VariabIeS框,至少需要选入两个,如选入“投入”、“产出”变量。(3

12、) 在CorrelationCoeficients复选框中选择需要计算的相关系数。主要有:PearSOn复选框:选择进行积距相关分析,即最常用的参数相关分析;Kendall'stau-b复选框:计算Kendall's等级相关系数;SPearmarl复选框:计算SPearman相关系数,即最常用的非参数相关分析(秩相关)。(4) TeStOfSignificance单选框用于确定是进行相关系数的单侧(One-tailed )或双侧(Two-tailed )检验,系统默认双侧检验。(5) Flagsig nifican tcorrelatio ns用于确定是否在结果中用星号标记有统

13、计学意义的相关系数,一般选中。此时P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号。(6)单击OPtiOns按钮,弹出OPtiOns对话框,选择需要计算的描述统计量和统计分析,如 图8所示。图8两变量相关分析的OPtiOnS子对话框在StatiStiCS 复选框中定义各变量输出的描述统计量。 Meansandstandarddeviations 选项表 示每个变量的样本均值和标准差;CrOSS-PrOdUCtdeViatiO nsa ndcovaria nces选项表示各对变量的离差平方和、样本方差、两变量的叉积离差以及协方差阵。 叉积离差为PearSOn相关系数

14、公式中的 分子部分;协方差为叉积离差/ ( n-1)0在MiSSingValues单选框中定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量 有缺失值才去除该记录(EXCIUdeCaSeSPairWiSe ),或只要该记录中进行相关分析的变量有缺失值 (无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除 (EXCIUdeSCaSeSIiStWiSe )。(7)单击“ OK按钮完成设置,提交运行。6 结果解析根据背景资料,利用表1中的数据,建立SPSS数据文件,分别将变量投入、产出选入VariabIeS 框中,并在 OPtiOns 子对话框选中 Meansandstandar

15、ddeviations 选项和 CrOSS-PrOdUCtdeViatiOnSandcovariances选项,其他选择默认。结果如表 2、表 3所示。6-1表2为描述统计量,表3为相关分析结果。从表3中可以看出皮尔逊相关系数为 0.759, 即投入与产出的相关系数为0.759 ,双侧检验的P值为0.011 ,明显小于0.05 ,拒绝二者不相关的 原假设。因此,我们可以得出结论:可以认为投入与产出之间存在正相关,当投入增加时,产出也 会相应增加。表2描述统计量DeSCriPtiVeStatiStiCSMeanStd.DeviationN投入22.009.18910产岀45.0014.33710

16、表3简单相关系数分析结果Correlations投入产岀投入PearSOnCorrelatio1.759*nSig.(2-tailed).011SUmOfSqUareSand760.00900.00CrOSS-PrOdUCtS00COVarianCe84.444100.000N1010产岀PearSOnCorrelatio.759*1nSig.(2-tailed).011SUmOfSqUareSand900.001850.0CrOSS-PrOdUCtS000COVarianCe100.00205.5506N1010*.Correlationissignificantatthe0.05level

17、(2-t ailed).6-2调用BiVariate 过程命令时允许同时输入两个变量或两个以上变量,但系统输出的是变量间两两相关的相关系数。二、偏相关分析:PartiaI1 .偏相关分析的含义在实际问题中,两变量的相关关系往往还要受到其他因素的影响,这些影响有时候会使相关分 析的结果变得不那么可靠。因此,引入了偏相关分析的方法。偏相关分析,也称净相关分析,是指 在研究两个变量之间的线性相关关系时,将与这两个变量有联系的其他变量控制不变的统计方法。 根据控制变量的个数,偏相关分析分为零阶偏相关分析、一阶偏相关分析、二阶偏相关分析等等。 其中,零阶偏相关分析是指没有控制变量的相关分析,即一般的相关

18、分析。一阶偏相关分析是指有 一个控制变量的相关分析,二阶偏相关分析是指有两个控制变量的偏相关分析,其他高阶偏相关分析以此类推。2.偏相关系数进行偏相关分析时要用到偏相关系数。偏相关系数是在多元相关分析中说明当某个自变量在其他自变量固定不变时,分别同因变量线性相关程度的指标。偏相关系数的取值范围亦在-1+1之间, 其计算公式分别为:当有一个控制变量为X2时,变量XI和y之间的一阶偏相关系数为:ryxi?x2(6)ryxiry2J12(1 成)(1 r;2)3 对偏相关系数的检验方法(控制)了一个或几个变量后进行的,在偏相关分析中,由于两个变量之间的相关系数是在固定考虑到这种因素及抽样误差的影响,

19、其检验统计量为:式中,r是特定的偏相关系数;n为观测值个数;k为控制变量个数;n k 2为自由度4.背景材料某汽车制造商从某月中随机抽出 10天的电力消耗量、温度、日产量等有关资料,数据如表4所示。结合多年管理经验,对电力消耗量、温度、日产量的关系做出相关分析。表4某汽车制造商的电力消耗量、温度、日产量等数据表电力消耗(千瓦)温度(华氏)日产量1283120117911013851289751011487105108110812841101177107148511211841195.操作步骤5-1选择菜单命令“ Analyze ” “Correlate ” “Partial ”,打开偏相关分析

20、的对话框,如 图9所示。图9偏相关分析窗口5-2选入需要进行偏相关分析的变量进入VariabIeS框中,至少需要选入两个。5-3选择需要在偏相关分析时进行控制的协变量进入COntrollingfor框中,如果不选入,则进行的就是普通的相关分析。5-4在TeStOfSignificance单选框中确定是进行相关系数的单侧( One-tailed )或双侧(TWO-tailed )检验,一般选双侧检验。5-5DiSPIayaCtuaISig nifica ncelevel复选框用于表示在结果中给出确切的P值,一般选中。5- 6单击OPtiOns按钮,弹出OPtiOns对话框,选择需要计算的描述统计

21、量和统计分析。如图 10所示。图10偏相关分析的OPtiOns子对话框(1) StatiStiCS复选框用于定义可选的描述统计量。其中,Meansandstandarddeviations 表示每个变量的样本均值和标准差;Zero-ordercorrelatio ns表示输出包括控制变量在内所有变量的相关矩阵。(2) MiSSingValues单选框用于定义分析中对缺失值的处理方法,可以是具体分析用到的两个 变量有缺失值才去除该记录(EXCIUdeCaSeSPairWiSe ),或只要该记录中进行相关分析的变量有缺 失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除 (EXC

22、IUdeSCaSeSIiStWiSe)。系统默认为前者,以充分利用数据。6 结果解析这里我们选择电力消耗、温度作为待分析变量,把日产量作为控制变量,在OPtions子对话框中选中Meansandstandarddeviations 选项,其他选择系统默认。具体分析结果见表4、表5所示。6- 1表5偏相关系数表中的结果表明,在控制了日产量变量后,电力消耗与温度之间的偏相关 系数为0.815,概率P值为0.007<0.05 ,从而表明两者之间有高度的相关关系。表4偏相关分析描述统计量 DeSCriPtiVeStatiStiCSStd.DeviMeanationN电力消耗11.701.63610温度82.003.88710日产112.0曰8.08310里0表5偏相关系数表Correlations电力ControIVariabIes消耗 温度日产电力消Correlation1.000.815量耗SignifiCanCe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论