第七章SPSS的相关分析

上传人：5*** IP属地：湖北上传时间：2021-08-04 格式：PPT 页数：73 大小：2.30MB 积分：30 举报 版权申诉

已阅读5页，还剩68页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第七章第七章相关分析与检验相关分析与检验主要内容主要内容 n方差分析回顾 n相关分析的概念 n列联分析 n简单相关分析 n偏相关分析方差分析回顾 n概念：方差分析是从因变量的方差入手，研究诸概念：方差分析是从因变量的方差入手，研究诸多自变量中哪些变量是对因变量有显著影响的变多自变量中哪些变量是对因变量有显著影响的变量，对因变量有显著影响的各个自变量其不同水量，对因变量有显著影响的各个自变量其不同水平以及各水平的交互搭配是如何影响因变量的。平以及各水平的交互搭配是如何影响因变量的。 n方差分析认为因变量的变化受两类因素的影响：方差分析认为因变量的变化受两类因素的影响：第一，自变量不

2、同水平所产生的影响；第一，自变量不同水平所产生的影响；第二，随机变量所产生的影响。这里的随机变量指第二，随机变量所产生的影响。这里的随机变量指那些人为很难控制的因素，主要指试验过程中的那些人为很难控制的因素，主要指试验过程中的抽样误差。抽样误差。单因素方差分析 n当一个变量为定类变量，另一变量为定距当一个变量为定类变量，另一变量为定距变量时，两变量间是否有关，通常以分组变量时，两变量间是否有关，通常以分组平均数比较的方法来考察。即按照定类变平均数比较的方法来考察。即按照定类变量的不同取值来分组，看每个分组的定距量的不同取值来分组，看每个分组的定距变量的平均数是否有差异。不同组间

3、的平变量的平均数是否有差异。不同组间的平均数差异越小，两个变量间的关系越弱；均数差异越小，两个变量间的关系越弱；相反，平均数差异越大，变量间关系越强。相反，平均数差异越大，变量间关系越强。单因素方差分析的基本步骤 n提出原假设：自变量不同水平下因变量各提出原假设：自变量不同水平下因变量各总体的均值无显著差异。总体的均值无显著差异。 n选择检验统计量：选择检验统计量：F统计量。统计量。 n计算检验统计量的观测值和概率计算检验统计量的观测值和概率P值。值。 n给出显著性水平，并作出决策。给出显著性水平，并作出决策。一、相关关系的概念 n（一）函数关系：指的是两事物间的一种一一对应的关系

4、，即当变量x取一定值时，另一变量y可以依确定的函数取唯一确定的值。例如:商品的销售额与销售量之间的关系，在单价确定时，给出销售量可以唯一的确定销售额。 n（二）相关关系：两事物间非一一对应的关系，即当变量x取一定值时，另一变量y 无法依确定的函数取唯一确定的值。 n例如：家庭收入和支出、子女身高和父母身高之间的关系。这些事物之间存在一定的关系，但这些关系不能像函数关系那样用一个数学函数式描述。相关分析内容 n相关分析是分析客观事物之间关系的数量分析方法，是统计分析方法中最重要的内容之一。 n主要内容：对变量间的相关关系进行分析，包括简单相关分析和偏相关分析相关分析之

5、一有关与无关 v寻找变量间的关系是科学研究的首要目寻找变量间的关系是科学研究的首要目的。变量间的关系最简单的划分即的。变量间的关系最简单的划分即: :有关有关与无关。与无关。 v在统计学上，我们通常这样判断变量之在统计学上，我们通常这样判断变量之间是否有关：如果一个变量的取值发生间是否有关：如果一个变量的取值发生变化，另外一个变量的取值也相应发生变化，另外一个变量的取值也相应发生变化，则这两个变量有关。如果一个变变化，则这两个变量有关。如果一个变量的变化不引起另一个变量的变化则二量的变化不引起另一个变量的变化则二者无关。者无关。 1 通通过过考考试试 2 未未通通过过考考试试 1

6、男男性性 40% 60% 2 女女性性 40% 60% 总总计计 40% 60% 性别与四级英语考试通过率的相关统计性别与四级英语考试通过率的相关统计表述：统计结果显示，当性别取值不同时，通过率变量表述：统计结果显示，当性别取值不同时，通过率变量的取值并未发生变化，因此性别与考试通过率无关。的取值并未发生变化，因此性别与考试通过率无关。自变量的不同取值在因变量上无差异，两变量无关。自变量的不同取值在因变量上无差异，两变量无关。自变量的不同取值在因变量上有差异，两变量有关。自变量的不同取值在因变量上有差异，两变量有关。每每月月工工资资平平均均数数 N 1 男男性性 752.40

7、 452 2 女女性性 601.97 409 总总计计 680.95 861 统计结果显示，当性别取值不同时，收入变量统计结果显示，当性别取值不同时，收入变量的取值发生了变化，因此性别与月收入有关。的取值发生了变化，因此性别与月收入有关。自变量自变量因变量因变量变量关系的统计类型变量关系的统计类型相关分析之二关系强度 n变量关系强度的含义变量关系强度的含义:指两个变量相关程度指两个变量相关程度的高低。统计学中是以准实验的思想来分的高低。统计学中是以准实验的思想来分析变量相关的。通常从以下的角度分析：析变量相关的。通常从以下的角度分析： A）两变量是否相互独立。）两变量是否相互独立

8、。 B）两变量是否有共变趋势。）两变量是否有共变趋势。 C）一变量的变化多大程度上能由另一变量）一变量的变化多大程度上能由另一变量的变化来解释。的变化来解释。变量关系强度测量的主要指标变量关系强度测量的主要指标相关分析之三关系性质 n直线相关与曲线相关直线相关与曲线相关 n正相关与负相关正相关与负相关 n完全相关、不相关、不完全相关完全相关、不相关、不完全相关二、列联相关二、列联相关 n（一）列联分析的基本原理（一）列联分析的基本原理 n自变量发生变化，因变量取值是否也自变量发生变化，因变量取值是否也发生变化。发生变化。 n比较边缘百分比和条件百分比的差别。比较边缘百分比和条件百分比

9、的差别。 n卡方测量用来考察两变量是否独立卡方测量用来考察两变量是否独立(无关无关)。其原理是根据这一概率定理：若两变量无其原理是根据这一概率定理：若两变量无关，则两变量中联合事件发生的概率应等关，则两变量中联合事件发生的概率应等于各自独立发生的概率乘积于各自独立发生的概率乘积 jiij PPP . n在列联表中，这一定理就具体转化为：在列联表中，这一定理就具体转化为：若若两变量无关，则两变量中条件概率应等于两变量无关，则两变量中条件概率应等于各自边缘的概率乘积。反之，则两变量有各自边缘的概率乘积。反之，则两变量有关，或称两变量不独立。关，或称两变量不独立。由此可见，由此可见，期

10、望值（独立模型）与观察值期望值（独立模型）与观察值的差距越大，说明两变量越不独立，也就的差距越大，说明两变量越不独立，也就越有相关。越有相关。因此，卡方的表达式如下：因此，卡方的表达式如下：卡方的取值在卡方的取值在0之间。卡方值越大，关之间。卡方值越大，关联性越强。在联性越强。在SPSS中，有中，有Pearson X2和和相似比卡方相似比卡方（Likelihood Ratio X2 ）两种。）两种。 ji ij ijij E EO X 2 2 )( 的改进标准化系数的改进标准化系数：为使为使值有一固定的区间，便于比较，采值有一固定的区间，便于比较，采用了以下几个修正：用了以下几

11、个修正： 2 X 2 X A、系数（系数（Phi）：）： (01)，适用于，适用于22表。表。 B、列联系数（列联系数（Contingency Coefficient）：）： (01)，适用任意表。，适用任意表。 C、 Cramer V系数：系数：(01)，适用任意表。，适用任意表。 D、系数系数(Lambda)： (01)，适用任意表。，适用任意表。 E、 Goodman & Kruskal-tau系数系数: (01)，适用，适用任意表。任意表。（二）列联表分析的功能（二）列联表分析的功能 v根据收集到的样本数据编制交叉列联表根据收集到的样本数据编制交叉列联表； v在交叉列联表的基础上

12、，对两两变量间在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。是否存在一定的相关性进行分析。列联表的格式列联表的格式性别 * 文化程度 Crosstabulation 71163202194630 11.3%25.9%32.1%30.8%100.0% 39.2%53.1%51.4%52.4%50.4% 5.7%13.0%16.1%15.5%50.4% 110144191176621 17.7%23.2%30.8%28.3%100.0% 60.8%46.9%48.6%47.6%49.6% 8.8%11.5%15.3%14.1%49.6% 1813073933701251 1

13、4.5%24.5%31.4%29.6%100.0% 100.0%100.0%100.0%100.0%100.0% 14.5%24.5%31.4%29.6%100.0% Count % within 性别 % within 文化程度 % of Total Count % within 性别 % within 文化程度 % of Total Count % within 性别 % within 文化程度 % of Total 男女 Total 高小以下初中高中中专或中技大专以上文化程度 Total （三）列联表分析过程（三）列联表分析过程列联表分析步骤：列联表分析步骤：按按Analyz

14、eDescriptive Statistics Crosstabs 顺序打开顺序打开 Crosstabs 主对话框。主对话框。 Crosstabs 对话对话框框 Table Format 对话框对话框决定各行的决定各行的排列顺序：排列顺序：升序升序降序降序（四）例（四）例1 为了探讨吸烟与慢性支气管炎有无关系，为了探讨吸烟与慢性支气管炎有无关系，调查了调查了339人，情况如下：人，情况如下：吸烟和慢性支气管炎调查表吸烟和慢性支气管炎调查表患慢性支气管炎患慢性支气管炎未患慢性支气管炎未患慢性支气管炎吸烟吸烟43162 不吸烟不吸烟13121 p录入数据录入数据“Crossta

15、b.sav” 。变量。变量h为频次；变量为频次；变量x为为是否吸烟：是否吸烟：1为吸烟，为吸烟，2为不吸烟；变量为不吸烟；变量n为是否患病：为是否患病： 1为患病，为患病，2为不患病。为不患病。 p选择变量选择变量h进行加权。进行加权。 p按按Analyze-Descriptive Statistics-Crootabs 顺序打顺序打开开 Crootabs 主对话框。将主对话框。将x变量变量选入选入Row框作为行变框作为行变量，将量，将n变量变量选入选入Column 框作为列变量。框作为列变量。 p打开打开Statistics对话框，选中对话框，选中Chi-squareConting

16、ency coefficient和和Phi and CramersV复选框，单击复选框，单击 Continue返回。返回。 p单击单击Cell按钮，打开按钮，打开Cell display对话框，选中对话框，选中 observed和和Expected 复选框，单击复选框，单击Continue返回；单返回；单击击OK。 1.操作步骤操作步骤统计摘要表，列出观测量有效值个数、缺失值统计摘要表，列出观测量有效值个数、缺失值个数和总的个数。个数和总的个数。 2.输出结果及分析输出结果及分析 C Ca as se e P Pr ro oc ce es ss si in ng g S Su um mm

17、 ma ar ry y 339100.0%0.0%339100.0%是否吸烟 * 是否患病 NPercentNPercentNPercent ValidMissingTotal Cases 吸烟与患病统计摘要表吸烟与患病统计摘要表是是否否吸吸烟烟 * * 是是否否患患病病 C Cr ro os ss st ta ab bu ul la at ti io on n 43162205 33.9171.1205.0 13121134 22.1111.9134.0 56283339 56.0283.0339.0 Count Expected Count Count Expected Co

18、unt Count Expected Count 吸烟不吸烟是否吸烟 Total 患病不患病是否患病 Total 吸烟与患病列联表吸烟与患病列联表 C Ch hi i- -S Sq qu ua ar re e T Te es st ts s 7.469b1.006 6.6741.010 7.9251.005 .007.004 7.4471.006 339 Pearson Chi-Square Continuity Correction a Likelihood Ratio Fishers Exact Test Linear-by-Linear Association N of Vali

19、d Cases Valuedf Asymp. Sig. (2-sided) Exact Sig. (2-sided) Exact Sig. (1-sided) Computed only for a 2x2 tablea. 0 cells (.0%) have expected count less than 5. The minimum expected count is 22.14. b. 卡方检验卡方检验 S Sy ym mm me et tr ri ic c M Me ea as su ur re es s .148.006 .148.006 .147.006 339 Phi Cram

20、ers V Contingency Coefficient Nominal by Nominal N of Valid Cases ValueApprox. Sig. Not assuming the null hypothesis.a. Using the asymptotic standard error assuming the null hypothesis. b. 对称性检验表对称性检验表例例2:利用住房状况问卷调查数据，分利用住房状况问卷调查数据，分析本市户口和外地户口家庭对析本市户口和外地户口家庭对“未来未来三年是否打算买房三年是否打算买房”是否持相同态度。是否持相同态度。

21、 n首先，在所调查的2880个样本中有113个样本因缺失值而被剔除，2712户为本市户口， 168户为外地户口，分别占样本总量的 94.2%和5.8%，可见，本市户口占多数；未来三年不打算买房、打算买房的样本量分别为2161和719，各占总样本的75%和 25%，不打算买房的占较大比例。 n其次，对不同户口进行分析。在本市户口中未来三年不打算买房和打算买房的样本量分别为2052 和660，各占总样本的75.7%和24.3%，不打算买房的仍占较大比例，但打算买房的低于总体比例的25%；在外地户口中，未来三年不打算买房和打算买房的样本量分别为109和59，各占总样本的64.9%和3

22、5.1%，未来三年不打算买房的仍占较大比例，但打算买房的比例高于总体比例25%。 n最后，对不同看法进行分析。如果显著性水平设为0.05，则概率值小于0.05，拒绝原假设，认为本市户口和外地户口对未来三年是否打算买房的看法是不一致的。三、三、相关分析相关分析（Correlate）（一）简介 n相关分析用于描述两个变量间联系的密切程度，相关分析用于描述两个变量间联系的密切程度，其特点是变量不分主次，被置于同等的地位。检其特点是变量不分主次，被置于同等的地位。检验的假设为相关系数为验的假设为相关系数为0。可选择是单尾检验还。可选择是单尾检验还是双尾检验。是双尾检验。 n在在Ana

23、lyze的下拉菜单的下拉菜单Correlate命令项中有三个命令项中有三个相关分析功能子命令相关分析功能子命令Bivariate过程、过程、Partial过程、过程、 Distances过程，分别对应着相关分析、偏相关过程，分别对应着相关分析、偏相关分析和相似性测度的三个分析和相似性测度的三个spss过程。过程。（二）相关分析类型（二）相关分析类型 nBivariate（双变量）过程用于进行两个或多（双变量）过程用于进行两个或多个变量间的相关分析，如为多个变量，给出个变量间的相关分析，如为多个变量，给出两两相关的分析结果。两两相关的分析结果。 nPartial（偏相关）过程，当进行相

24、关分析的（偏相关）过程，当进行相关分析的两个变量的取值都受到其他变量的影响时，两个变量的取值都受到其他变量的影响时，就可以利用偏相关分析对其他变量进行控制，就可以利用偏相关分析对其他变量进行控制，输出控制其他变量影响后的相关系数。输出控制其他变量影响后的相关系数。 nDistances过程用于对同一变量各观察单位间过程用于对同一变量各观察单位间的数值或各个不同变量间进行相似性或不相的数值或各个不同变量间进行相似性或不相似性分析，一般不单独使用，而作为因子分似性分析，一般不单独使用，而作为因子分析等的预分析。析等的预分析。（三）（三）双变量双变量相关分析相关分析 n在进行相关分析时

25、，散点图是重要的工具，在进行相关分析时，散点图是重要的工具，分析前应先做散点图，以初步确定两个变分析前应先做散点图，以初步确定两个变量间是否存在相关趋势，该趋势是否为直量间是否存在相关趋势，该趋势是否为直线趋势，以及数据中是否存在异常点。否线趋势，以及数据中是否存在异常点。否则可能的出错误结论。则可能的出错误结论。 nBivariate相关分析的步骤：相关分析的步骤：输入数据后，依输入数据后，依次单击次单击AnalyzeCorrelateBivariate，打开打开Bivariate Correlations对话框对话框例1:利用住房状况问卷调查数据，分析家庭收入与打算购买的住

26、房面积之间存在怎样的统计关系。解题思路 n第一步:绘制散点图 n第二步：计算相关系数散点图类型 n简单散点图：表示一对变量间统计关系的散点图。 n重叠散点图：表示多对变量间统计关系的散点图。 n矩阵散点图：以矩阵形式分别显示多对变量间的统计关系。 n三维散点图：以立体图的形式展现三对变量间的统计关系。计算相关系数 n一、相关系数的特点虽然散点图能够直观地展现变量之间的统计关系，但是并不精确。相关系数以数值的方式精确地反映了两个变量间线性相关的强弱程度。线性关系的分析步骤 n第一，计算样本相关系数r。相关系数r的取值在- 1+1之间，r0表示两变量存在正的线性相关； r0.

27、8表示两变量之间有较强的线性相关关系； rt0.05(n-k-2)时，时，p0.05拒绝原假拒绝原假设设零假设：总体中两个变量间的偏相关系数为零假设：总体中两个变量间的偏相关系数为0 偏相关分析的主对话框偏相关分析的主对话框 analyze analyze correlate correlate partialpartial 返回偏相关的选择项对话框偏相关的选择项对话框返回零阶相关矩阵，即pearsom相关矩阵偏相关分析应用举例 n对于以上的住房状况案例，已经分析了家庭收入与计划购房面积之间的相关性。直观感觉这种相关性会受到家庭常住人口数的影响。为此可将家庭常住人口数作

28、为控制变量，对家庭收入与计划购房面积作偏相关分析。 n距离分析是对观测量之间或变量之间相似或不相似程度的一种测度，是计算一对变量之间或一对观测量之间的广义的距离。相似性（Similarity）反映了研究对象之间的亲疏程度亲疏程度。这些相似性或距离测度可以用于因子分析、聚类分析等分析过程。（五）距离分析（五）距离分析距离分析的主对话框图距离分析的主对话框图 analyzeanalyze correlate correlate distance distance 返回标识变量要求是字符型变量不相似性距离测度选择项对话框不相似性距离测度选择项对话框返回相似性测度选择项对话

29、框相似性测度选择项对话框返回距离分析实例距离分析实例 data08-03 观测量间的欧氏距离观测量间的欧氏距离 Proximity Matrix .4901.49010.79012.99016.29017.99019.29014.79010.2907.990.990 .4901.00010.30012.50015.80017.50018.80014.3009.8007.500.500 1.4901.0009.30011.50014.80016.50017.80013.3008.8006.500.500 10.79010.3009.3002.2005.5007.2008.5004.000.5002.8009.800 12.99012.50011.5002.2003.3005.0006.3001.8002.7005.00012.000 16.29015.80014.8005.5003.3001.7003.0001.5006.0008.30015.300 17.99017.50016.5007.2005.0001.7001.3003.2007.70010.00017.000 19.29018.80017.8008.5006.3003.0001.3004.5009.00011.30018.300 14.79014.

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第七章SPSS的相关分析

文档简介

温馨提示

最新文档

评论

第七章SPSS的相关分析

文档简介

温馨提示

最新文档

评论

相关文档