第七章SPSS的相关分析_第1页
第七章SPSS的相关分析_第2页
第七章SPSS的相关分析_第3页
第七章SPSS的相关分析_第4页
第七章SPSS的相关分析_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章第七章 相关分析与检验相关分析与检验 主要内容主要内容 n方差分析回顾 n相关分析的概念 n列联分析 n简单相关分析 n偏相关分析 方差分析回顾 n概念:方差分析是从因变量的方差入手,研究诸概念:方差分析是从因变量的方差入手,研究诸 多自变量中哪些变量是对因变量有显著影响的变多自变量中哪些变量是对因变量有显著影响的变 量,对因变量有显著影响的各个自变量其不同水量,对因变量有显著影响的各个自变量其不同水 平以及各水平的交互搭配是如何影响因变量的。平以及各水平的交互搭配是如何影响因变量的。 n方差分析认为因变量的变化受两类因素的影响:方差分析认为因变量的变化受两类因素的影响: 第一,自变量不

2、同水平所产生的影响;第一,自变量不同水平所产生的影响; 第二,随机变量所产生的影响。这里的随机变量指第二,随机变量所产生的影响。这里的随机变量指 那些人为很难控制的因素,主要指试验过程中的那些人为很难控制的因素,主要指试验过程中的 抽样误差。抽样误差。 单因素方差分析 n当一个变量为定类变量,另一变量为定距当一个变量为定类变量,另一变量为定距 变量时,两变量间是否有关,通常以分组变量时,两变量间是否有关,通常以分组 平均数比较的方法来考察。即按照定类变平均数比较的方法来考察。即按照定类变 量的不同取值来分组,看每个分组的定距量的不同取值来分组,看每个分组的定距 变量的平均数是否有差异。不同组间

3、的平变量的平均数是否有差异。不同组间的平 均数差异越小,两个变量间的关系越弱;均数差异越小,两个变量间的关系越弱; 相反,平均数差异越大,变量间关系越强。相反,平均数差异越大,变量间关系越强。 单因素方差分析的基本步骤 n提出原假设:自变量不同水平下因变量各提出原假设:自变量不同水平下因变量各 总体的均值无显著差异。总体的均值无显著差异。 n选择检验统计量:选择检验统计量:F统计量。统计量。 n计算检验统计量的观测值和概率计算检验统计量的观测值和概率P值。值。 n给出显著性水平,并作出决策。给出显著性水平,并作出决策。 一、相关关系的概念 n(一)函数关系:指的是两事物间的一种 一一对应的关系

4、,即当变量x取一定值时, 另一变量y可以依确定的函数取唯一确定的 值。 例如:商品的销售额与销售量之间的关系, 在单价确定时,给出销售量可以唯一的确 定销售额。 n(二)相关关系:两事物间非一一对应的 关系,即当变量x取一定值时,另一变量y 无法依确定的函数取唯一确定的值。 n例如:家庭收入和支出、子女身高和父母 身高之间的关系。这些事物之间存在一定 的关系,但这些关系不能像函数关系那样 用一个数学函数式描述。 相关分析内容 n相关分析是分析客观事物之间关系的数量 分析方法,是统计分析方法中最重要的内 容之一。 n主要内容:对变量间的相关关系进行分析, 包括简单相关分析和偏相关分析 相关分析之

5、一有关与无关 v寻找变量间的关系是科学研究的首要目寻找变量间的关系是科学研究的首要目 的。变量间的关系最简单的划分即的。变量间的关系最简单的划分即: :有关有关 与无关。与无关。 v在统计学上,我们通常这样判断变量之在统计学上,我们通常这样判断变量之 间是否有关:如果一个变量的取值发生间是否有关:如果一个变量的取值发生 变化,另外一个变量的取值也相应发生变化,另外一个变量的取值也相应发生 变化,则这两个变量有关。如果一个变变化,则这两个变量有关。如果一个变 量的变化不引起另一个变量的变化则二量的变化不引起另一个变量的变化则二 者无关。者无关。 1 通通过过考考试试 2 未未通通过过考考试试 1

6、 男男性 性 40% 60% 2 女女性 性 40% 60% 总总计计 40% 60% 性别与四级英语考试通过率的相关统计性别与四级英语考试通过率的相关统计 表述:统计结果显示,当性别取值不同时,通过率变量表述:统计结果显示,当性别取值不同时,通过率变量 的取值并未发生变化,因此性别与考试通过率无关。的取值并未发生变化,因此性别与考试通过率无关。 自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上无差异,两变量无关。 自变量的不同取值在因变量上有差异,两变量有关。自变量的不同取值在因变量上有差异,两变量有关。 每每月月工工资资平平均均 数数 N 1 男男性性 752.40

7、 452 2 女女性性 601.97 409 总总计计 680.95 861 统计结果显示,当性别取值不同时,收入变量统计结果显示,当性别取值不同时,收入变量 的取值发生了变化,因此性别与月收入有关。的取值发生了变化,因此性别与月收入有关。 自变量自变量 因变量因变量 变量关系的统计类型变量关系的统计类型 相关分析之二关系强度 n变量关系强度的含义变量关系强度的含义:指两个变量相关程度指两个变量相关程度 的高低。统计学中是以准实验的思想来分的高低。统计学中是以准实验的思想来分 析变量相关的。通常从以下的角度分析:析变量相关的。通常从以下的角度分析: A)两变量是否相互独立。)两变量是否相互独立

8、。 B)两变量是否有共变趋势。)两变量是否有共变趋势。 C)一变量的变化多大程度上能由另一变量)一变量的变化多大程度上能由另一变量 的变化来解释。的变化来解释。 变量关系强度测量的主要指标变量关系强度测量的主要指标 相关分析之三关系性质 n直线相关与曲线相关直线相关与曲线相关 n正相关与负相关正相关与负相关 n完全相关、不相关、不完全相关完全相关、不相关、不完全相关 二、列联相关二、列联相关 n(一)列联分析的基本原理(一)列联分析的基本原理 n自变量发生变化,因变量取值是否也自变量发生变化,因变量取值是否也 发生变化。发生变化。 n比较边缘百分比和条件百分比的差别。比较边缘百分比和条件百分比

9、的差别。 n卡方测量用来考察两变量是否独立卡方测量用来考察两变量是否独立(无关无关)。 其原理是根据这一概率定理:若两变量无其原理是根据这一概率定理:若两变量无 关,则两变量中联合事件发生的概率应等关,则两变量中联合事件发生的概率应等 于各自独立发生的概率乘积于各自独立发生的概率乘积 jiij PPP . n在列联表中,这一定理就具体转化为:在列联表中,这一定理就具体转化为:若若 两变量无关,则两变量中条件概率应等于两变量无关,则两变量中条件概率应等于 各自边缘的概率乘积。反之,则两变量有各自边缘的概率乘积。反之,则两变量有 关,或称两变量不独立。关,或称两变量不独立。 由此可见,由此可见,期

10、望值(独立模型)与观察值期望值(独立模型)与观察值 的差距越大,说明两变量越不独立,也就的差距越大,说明两变量越不独立,也就 越有相关。越有相关。因此,卡方的表达式如下:因此,卡方的表达式如下: 卡方的取值在卡方的取值在0之间。卡方值越大,关之间。卡方值越大,关 联性越强。在联性越强。在SPSS中,有中,有Pearson X2和和 相似比卡方相似比卡方(Likelihood Ratio X2 )两种。)两种。 ji ij ijij E EO X 2 2 )( 的改进标准化系数的改进标准化系数: 为使为使 值有一固定的区间,便于比较,采值有一固定的区间,便于比较,采 用了以下几个修正:用了以下几

11、个修正: 2 X 2 X A、系数(系数(Phi):): (01),适用于,适用于22表。表。 B、 列联系数(列联系数(Contingency Coefficient):): (01),适用任意表。,适用任意表。 C、 Cramer V系数:系数:(01),适用任意表。,适用任意表。 D、系数系数(Lambda): (01),适用任意表。,适用任意表。 E、 Goodman & Kruskal-tau系数系数: (01),适用,适用 任意表。任意表。 (二)列联表分析的功能(二)列联表分析的功能 v根据收集到的样本数据编制交叉列联表根据收集到的样本数据编制交叉列联表; v在交叉列联表的基础上

12、,对两两变量间在交叉列联表的基础上,对两两变量间 是否存在一定的相关性进行分析。是否存在一定的相关性进行分析。 列联表的格式列联表的格式 性别 * 文化程度 Crosstabulation 71163202194630 11.3%25.9%32.1%30.8%100.0% 39.2%53.1%51.4%52.4%50.4% 5.7%13.0%16.1%15.5%50.4% 110144191176621 17.7%23.2%30.8%28.3%100.0% 60.8%46.9%48.6%47.6%49.6% 8.8%11.5%15.3%14.1%49.6% 1813073933701251 1

13、4.5%24.5%31.4%29.6%100.0% 100.0%100.0%100.0%100.0%100.0% 14.5%24.5%31.4%29.6%100.0% Count % within 性别 % within 文化程度 % of Total Count % within 性别 % within 文化程度 % of Total Count % within 性别 % within 文化程度 % of Total 男 女 Total 高小以下初中 高中中专或 中技大专以上 文化程度 Total (三)列联表分析过程(三)列联表分析过程 列联表分析步骤:列联表分析步骤: 按按Analyz

14、eDescriptive Statistics Crosstabs 顺序打开顺序打开 Crosstabs 主对话框。主对话框。 Crosstabs 对话对话框框 Table Format 对话框对话框 决定各行的决定各行的 排列顺序:排列顺序: 升序升序 降序降序 (四)例(四)例1 为了探讨吸烟与慢性支气管炎有无关系,为了探讨吸烟与慢性支气管炎有无关系, 调查了调查了339人,情况如下:人,情况如下: 吸烟和慢性支气管炎调查表吸烟和慢性支气管炎调查表 患慢性支气管炎患慢性支气管炎 未患慢性支气管炎未患慢性支气管炎 吸烟吸烟43162 不吸烟不吸烟13121 p录入数据录入数据“Crossta

15、b.sav” 。变量。变量h为频次;变量为频次;变量x为为 是否吸烟:是否吸烟:1为吸烟,为吸烟,2为不吸烟;变量为不吸烟;变量n为是否患病:为是否患病: 1为患病,为患病,2为不患病。为不患病。 p选择变量选择变量h进行加权。进行加权。 p按按Analyze-Descriptive Statistics-Crootabs 顺序打顺序打 开开 Crootabs 主对话框。将主对话框。将x变量变量 选入选入Row框作为行变框作为行变 量,将量,将n变量变量 选入选入Column 框作为列变量。框作为列变量。 p打开打开Statistics对话框,选中对话框,选中Chi-squareConting

16、ency coefficient和和Phi and CramersV复选框,单击复选框,单击 Continue返回。返回。 p单击单击Cell按钮,打开按钮,打开Cell display对话框,选中对话框,选中 observed和和Expected 复选框,单击复选框,单击Continue返回;单返回;单 击击OK。 1.操作步骤操作步骤 统计摘要表,列出观测量有效值个数、缺失值统计摘要表,列出观测量有效值个数、缺失值 个数和总的个数。个数和总的个数。 2.输出结果及分析输出结果及分析 C Ca as se e P Pr ro oc ce es ss si in ng g S Su um mm

17、 ma ar ry y 339100.0%0.0%339100.0%是否吸烟 * 是否患病 NPercentNPercentNPercent ValidMissingTotal Cases 吸烟与患病统计摘要表吸烟与患病统计摘要表 是是 否否 吸吸 烟烟 * * 是是 否否 患患 病病 C Cr ro os ss st ta ab bu ul la at ti io on n 43162205 33.9171.1205.0 13121134 22.1111.9134.0 56283339 56.0283.0339.0 Count Expected Count Count Expected Co

18、unt Count Expected Count 吸烟 不吸烟 是否 吸烟 Total 患病不患病 是否患病 Total 吸烟与患病列联表吸烟与患病列联表 C Ch hi i- -S Sq qu ua ar re e T Te es st ts s 7.469b1.006 6.6741.010 7.9251.005 .007.004 7.4471.006 339 Pearson Chi-Square Continuity Correction a Likelihood Ratio Fishers Exact Test Linear-by-Linear Association N of Vali

19、d Cases Valuedf Asymp. Sig. (2-sided) Exact Sig. (2-sided) Exact Sig. (1-sided) Computed only for a 2x2 tablea. 0 cells (.0%) have expected count less than 5. The minimum expected count is 22.14. b. 卡方检验卡方检验 S Sy ym mm me et tr ri ic c M Me ea as su ur re es s .148.006 .148.006 .147.006 339 Phi Cram

20、ers V Contingency Coefficient Nominal by Nominal N of Valid Cases ValueApprox. Sig. Not assuming the null hypothesis.a. Using the asymptotic standard error assuming the null hypothesis. b. 对称性检验表对称性检验表 例例2:利用住房状况问卷调查数据,分利用住房状况问卷调查数据,分 析本市户口和外地户口家庭对析本市户口和外地户口家庭对“未来未来 三年是否打算买房三年是否打算买房”是否持相同态度。是否持相同态度。

21、 n首先,在所调查的2880个样本中有113个样 本因缺失值而被剔除,2712户为本市户口, 168户为外地户口,分别占样本总量的 94.2%和5.8%,可见,本市户口占多数; 未来三年不打算买房、打算买房的样本量 分别为2161和719,各占总样本的75%和 25%,不打算买房的占较大比例。 n其次,对不同户口进行分析。在本市户口中未来 三年不打算买房和打算买房的样本量分别为2052 和660,各占总样本的75.7%和24.3%,不打算买 房的仍占较大比例,但打算买房的低于总体比例 的25%;在外地户口中,未来三年不打算买房和 打算买房的样本量分别为109和59,各占总样本 的64.9%和3

22、5.1%,未来三年不打算买房的仍占 较大比例,但打算买房的比例高于总体比例25%。 n最后,对不同看法进行分析。如果显著性 水平设为0.05,则概率值小于0.05,拒绝原 假设,认为本市户口和外地户口对未来三 年是否打算买房的看法是不一致的。 三、三、相关分析相关分析(Correlate) (一)简介 n相关分析用于描述两个变量间联系的密切程度,相关分析用于描述两个变量间联系的密切程度, 其特点是变量不分主次,被置于同等的地位。检其特点是变量不分主次,被置于同等的地位。检 验的假设为相关系数为验的假设为相关系数为0。可选择是单尾检验还。可选择是单尾检验还 是双尾检验。是双尾检验。 n在在Ana

23、lyze的下拉菜单的下拉菜单Correlate命令项中有三个命令项中有三个 相关分析功能子命令相关分析功能子命令Bivariate过程、过程、Partial过程、过程、 Distances过程,分别对应着相关分析、偏相关过程,分别对应着相关分析、偏相关 分析和相似性测度的三个分析和相似性测度的三个spss过程。过程。 (二)相关分析类型(二)相关分析类型 nBivariate(双变量)过程用于进行两个或多(双变量)过程用于进行两个或多 个变量间的相关分析,如为多个变量,给出个变量间的相关分析,如为多个变量,给出 两两相关的分析结果。两两相关的分析结果。 nPartial(偏相关)过程,当进行相

24、关分析的(偏相关)过程,当进行相关分析的 两个变量的取值都受到其他变量的影响时,两个变量的取值都受到其他变量的影响时, 就可以利用偏相关分析对其他变量进行控制,就可以利用偏相关分析对其他变量进行控制, 输出控制其他变量影响后的相关系数。输出控制其他变量影响后的相关系数。 nDistances过程用于对同一变量各观察单位间过程用于对同一变量各观察单位间 的数值或各个不同变量间进行相似性或不相的数值或各个不同变量间进行相似性或不相 似性分析,一般不单独使用,而作为因子分似性分析,一般不单独使用,而作为因子分 析等的预分析。析等的预分析。 (三)(三)双变量双变量相关分析相关分析 n在进行相关分析时

25、,散点图是重要的工具,在进行相关分析时,散点图是重要的工具, 分析前应先做散点图,以初步确定两个变分析前应先做散点图,以初步确定两个变 量间是否存在相关趋势,该趋势是否为直量间是否存在相关趋势,该趋势是否为直 线趋势,以及数据中是否存在异常点。否线趋势,以及数据中是否存在异常点。否 则可能的出错误结论。则可能的出错误结论。 nBivariate相关分析的步骤:相关分析的步骤:输入数据后,依输入数据后,依 次单击次单击AnalyzeCorrelateBivariate, 打开打开Bivariate Correlations对话框对话框 例1:利用住房状况问卷调查数据,分析家 庭收入与打算购买的住

26、房面积之间存在怎 样的统计关系。 解题思路 n第一步:绘制散点图 n第二步:计算相关系数 散点图类型 n简单散点图:表示一对变量间统计关系的散点图。 n重叠散点图:表示多对变量间统计关系的散点图。 n矩阵散点图:以矩阵形式分别显示多对变量间的 统计关系。 n三维散点图:以立体图的形式展现三对变量间的 统计关系。 计算相关系数 n一、相关系数的特点 虽然散点图能够直观地展现变量之间的 统计关系,但是并不精确。 相关系数以数值的方式精确地反映了两 个变量间线性相关的强弱程度。 线性关系的分析步骤 n第一,计算样本相关系数r。相关系数r的取值在- 1+1之间,r0表示两变量存在正的线性相关; r0.

27、8表示两变量之间有较强的线性 相关关系; rt0.05(n-k-2)时,时,p0.05拒绝原假拒绝原假 设设 零假设:总体中两个变量间的偏相关系数为零假设:总体中两个变量间的偏相关系数为0 偏相关分析的主对话框偏相关分析的主对话框 analyze analyze correlate correlate partialpartial 返回 偏相关的选择项对话框偏相关的选择项对话框 返回 零阶相关矩阵, 即pearsom相关 矩阵 偏相关分析应用举例 n对于以上的住房状况案例,已经分析了家 庭收入与计划购房面积之间的相关性。直 观感觉这种相关性会受到家庭常住人口数 的影响。为此可将家庭常住人口数作

28、为控 制变量,对家庭收入与计划购房面积作偏 相关分析。 n距离分析是对观测量之间或变量之间相似或不相 似程度的一种测度,是计算一对变量之间或一对 观测量之间的广义的距离。相似性(Similarity) 反映了研究对象之间的亲疏程度亲疏程度。这些相似性或 距离测度可以用于因子分析、聚类分析等分析过 程。 (五)距离分析(五)距离分析 距离分析的主对话框图距离分析的主对话框图 analyzeanalyze correlate correlate distance distance 返回 标识变量要求是 字符型变量 不相似性距离测度选择项对话框不相似性距离测度选择项对话框 返回 相似性测度选择项对话

29、框相似性测度选择项对话框 返回 距离分析实例距离分析实例 data08-03 观测量间的欧氏距离观测量间的欧氏距离 Proximity Matrix .4901.49010.79012.99016.29017.99019.29014.79010.2907.990.990 .4901.00010.30012.50015.80017.50018.80014.3009.8007.500.500 1.4901.0009.30011.50014.80016.50017.80013.3008.8006.500.500 10.79010.3009.3002.2005.5007.2008.5004.000.5002.8009.800 12.99012.50011.5002.2003.3005.0006.3001.8002.7005.00012.000 16.29015.80014.8005.5003.3001.7003.0001.5006.0008.30015.300 17.99017.50016.5007.2005.0001.7001.3003.2007.70010.00017.000 19.29018.80017.8008.5006.3003.0001.3004.5009.00011.30018.300 14.79014.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论