




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SPSS相关分析与回归分析,本章内容,8.1 相关分析和回归分析概述 8.2 相关分析 8.3 偏相关分析 8.4 线性回归分析 8.5 曲线估计,8.1 相关分析和回归分析概述,客观事物之间的关系大致可归纳为两大类,即 函数关系:指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的关系。 相关关系(统计关系):指两事物之间的一种非一一对应的关系,例如家庭收入和支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。 相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。,双变量关系强度测量的主要指标,8.2 相关分析,相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。 8.2.1 散点图 它将数据以点的的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。,示例:corr.sav,8.2.2 相关系数 利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤: 第一,计算样本相关系数r; 相关系数r的取值在-1+1之间 R0表示两变量存在正的线性相关关系;r0.8表示两变量有较强的线性关系; |r|0.3表示两变量之间的线性关系较弱 第二,对样本来自的两总体是否存在显著的线性关系进行推断。,对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson简单相关系数、Spearman等级相关系数和Kendall 相关系数等。 8.2.2.1 Pearson简单相关系数(适用于两个变量都是数值型的数据) Pearson简单相关系数的检验统计量为:,8.2.2.2 Spearman等级相关系数,Spearman等级相关系数用来度量定序变量间的线性相关关系,设计思想与Pearson简单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据 ,而是利用数据的秩,用两变量的秩 代替 代入Pearson简单相关系数计算公式中,于是其中的 和 的取值范围被限制在1和n之间,且可被简化为:,如果两变量的正相关性较强,它们秩的变化具有同步性,于是 的值较小,r趋向于1; 如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是 的值较大,r趋向于0; 在小样本下,在零假设成立时, Spearman等级相关系数服从Spearman分布;在大样本下, Spearman等级相关系数的检验统计量为Z统计量,定义为: Z统计量近似服从标准正态分布。,8.2.3 计算相关系数的基本操作,相关分析用于描述两个变量间关系的密切程度,其特点是变量不分主次,被置于同等的地位。 在Analyze的下拉菜单Correlate命令项中有三个相关分析功能子命令Bivariate过程、Partial过程、 Distances过程,分别对应着相关分析、偏相关分析和相似性测度(距离)的三个spss过程。 Bivariate过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。 Partial过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数。 Distances过程用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,而作为聚类分析和因子分析等的预分析。,Bivariate相关分析步骤,(1)选择菜单AnalyzeCorrelateBivariate,出现窗口:,(2)把参加计算相关系数的变量选到Variables框。 (3)在Correlation Coefficents框中选择计算哪种相关系数。 (4)在Test of Significance框中选择输出相关系数检验的双边(Two-Tailed)概率p值或单边(One-Tailed)概率p值。 (5)选中Flag significance correlation选项表示分析结果中除显示统计检验的概率p值外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。 (6)在Option按钮中的Statistics选项中,选中Cross-product deviations and covariances表示输出两变量的离差平方和协方差。,8.2.4 相关分析应用举例 例1 为研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响,收集1999年31个省市自治区部分高校有关社科研究方面的数据,研究立项课题数(当年)与投入的具有高级职称的人年数(当年)、发表的论文数(上年)之间是否具有较强的线性关系。 对该问题的研究可以采用相关分析的方法,首先可绘制矩阵散点图;其次可以计算Pearson简单相关系数。,例2:学生两科课程的名次排列,要求求其等级相关系数,检验其显著性,data10-03.sav,高校科研研究.sav,8.3 偏相关分析,8.3.1 偏相关分析和偏相关系数 上节中的相关系数是研究两变量间线性相关性的,若还存在其他因素影响,就相关系数本身来讲,它未必是两变量间线性相关强弱的真实体现,往往有夸大的趋势。 例如,在研究商品的需求量和价格、消费者收入之间的线性关系时,需求量和价格之间的相关关系实际还包含了消费者收入对价格和商品需求量的影响。在这种情况下,单纯利用相关系数来评价变量间的相关性显然是不准确的,而需要在剔除其他相关因素影响的条件下计算变量间的相关。偏相关的意义就在于此。,偏相关分析也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性关系,所采用的工具是偏相关系数。 控制变量个数为1时,偏相关系数称一阶偏相关;当控制两个变量时,偏相关系数称为二阶偏相关;当控制变量的个数为0时,偏相关系数称为零阶偏相关,也就是简单相关系数。,利用偏相关系数进行分析的步骤,第一,计算样本的偏相关系数 假设有三个变量y、x1和x2,在分析x1和y之间的净相关时,当控制了x2的线性作用后,x1和y之间的一阶偏相关定义为: 偏相关系数的取值范围及大小含义与相关系数相同。,第二,对样本来自的两总体是否存在显著的净相关进行推断 检验统计量为: 其中,r为偏相关系数,n为样本数,q为阶数。T统计量服从n-q-2个自由度的t分布。,8.3.2 偏相关分析的基本操作,1.选择菜单AnalyzeCorrelatePartial,2.把参与分析的变量选择到Variables框中。 3.选择一个或多个控制变量到Controlling for框中。 4.在Test of Significance框中选择输出偏相关检验的双尾概率p值或单尾概率p值。 5.在Option按钮中的Statistics选项中,选中Zero-order Correlations表示输出零阶偏相关系数。 至此,SPSS将自动进行偏相关分析和统计检验,并将结果显示到输出窗口。,8.3.3 偏相关分析的应用举例,上节中研究高校立项课题总数影响因素的相关分析中发现,发现立项课题数与论文数之间有较强正线性相关关系,但应看到这种关系中可能掺入了投入高级职称的人年数的影响,因此,为研究立项课题总数和发表论文数之间的净相关系数,可以将投入高级职称的人年数加以控制,进行偏相关分析。,高校科研研究.sav,回归分析概述,(一)回归分析理解 (1)“回归”的含义 galton研究研究父亲身高和儿子身高的关系时的独特发现. (2)回归线的获得方式一:局部平均 回归曲线上的点给出了相应于每一个x(父亲)值的y(儿子)平均数的估计 (3)回归线的获得方式二:拟和函数 使数据拟和于某条曲线; 通过若干参数描述该曲线; 利用已知数据在一定的统计准则下找出参数的估计值(得到回归曲线的近似);,8.4 线性回归分析,回归分析概述,(二)回归分析的基本步骤 (1)确定自变量和因变量(父亲身高关于儿子身高的回归与儿子身高关于父亲身高的回归是不同的). (2)从样本数据出发确定变量之间的数学关系式,并对回归方程的各个参数进行估计. (3)对回归方程进行各种统计检验. (4)利用回归方程进行预测.,线性回归分析概述,(三)参数估计的准则 目标:回归线上的观察值与预测值之间的距离总和达到最小 最小二乘法(利用最小二乘法拟和的回归直线与样本数据点在垂直方向上的偏离程度最低),一元线性回归分析,(一)一元回归方程: y=0+1x 0为常数项;1为y对x回归系数,即:x每变动一个单位所引起的y的平均变动 (二)一元回归分析的步骤 利用样本数据建立回归方程 回归方程的拟和优度检验 回归方程的显著性检验(t检验和F检验) 残差分析 预测,一元线性回归方程的检验,(一)拟和优度检验: (1)目的: 检验样本观察点聚集在回归直线周围的密集程度,评价回归方程对样本数据点的拟和程度。 (2)思路: 因为: 因变量取值的变化受两个因素的影响 自变量不同取值的影响 其他因素的影响 于是: 因变量总变差=自变量引起的+其他因素引起的 即: 因变量总变差=回归方程可解释的+不可解释的 可证明:因变量总离差平方和=回归平方和+剩余平方和,一元线性回归方程的检验,(一)拟和优度检验: (3)统计量:判定系数 R2=SSR/SST=1-SSE/SST. R2体现了回归方程所能解释的因变量变差的比例;1-R2则体现了因变量总变差中,回归方程所无法解释的比例。 R2越接近于1,则说明回归平方和占了因变量总变差平方和的绝大部分比例,因变量的变差主要由自变量的不同取值造成,回归方程对样本数据点拟合得好 在一元回归中R2=r2; 因此,从这个意义上讲,判定系数能够比较好地反映回归直线对样本数据的代表程度和线性相关性。,一元线性回归方程的检验,(二)回归方程的显著性检验:F检验 (1)目的:检验自变量与因变量之间的线性关系是否显著,是否可用线性模型来表示. (2)H0: =0 即:回归系数与0无显著差异 (3)利用F检验,构造F统计量: F=平均的回归平方和/平均的剩余平方和F(1,n-1-1) 如果F值较大,则说明自变量造成的因变量的线性变动远大于随机因素对因变量的影响,自变量于因变量之间的线性关系较显著 (4)计算F统计量的值和相伴概率p (5)判断 p=a:拒绝H0,即:回归系数与0有显著差异,自变量与因变量之间存在显著的线性关系。反之,不能拒绝H0,一元线性回归方程的检验,(三)回归系数的显著性检验:t检验 (1)目的:检验自变量对因变量的线性影响是否显著. (2)H0:=0 即:回归系数与0无显著差异 (3)利用t检验,构造t统计量: 其中:Sy是回归方程标准误差(Standard Error)的估计值,由均方误差开方后得到,反映了回归方程无法解释样本数据点的程度或偏离样本数据点的程度 如果回归系数的标准误差较小,必然得到一个相对较大的t值,表明该自变量x解释因变量线性变化的能力较强 (4)计算t统计量的值和相伴概率p (5)判断,一元线性回归方程的检验,(四)t检验与F检验的关系 一元回归中,F检验与t检验一致,即: F=t2,两种检验可以相互替代 (六)F统计量和R2值的关系 如果回归方程的拟合优度高,F统计量就越显著。F统计量越显著,回归方程的拟合优度就会越高。,一元线性回归分析操作,(一)基本操作步骤 (1)菜单选项: Analyze-regression-linear (2)选择一个变量为因变量进入dependent框 (3)选择一个变量为自变量进入independent框 (4)enter:所选变量全部进入回归方程(默认方法) (5)对样本进行筛选(selection variable) 利用满足一定条件的样本数据进行回归分析 (6)指定作图时各数据点的标志变量(case labels),一元线性回归分析操作,(二) statistics选项 (1)基本统计量输出 Estimates:默认.显示回归系数相关统计量. confidence intervals:每个非标准化的回归系数95%的置信区间. Descriptive:各变量均值、标准差和相关系数单侧检验概率. Model fit:默认.判定系数、估计标准误差、方差分析表、容忍度 (2)Residual框中的残差分析 Durbin-waston:D-W值 casewise diagnostic:异常值(奇异值)检测 (输出预测值及残差和标准化残差),一元线性回归分析操作,(三)plot选项:图形分析. Standardize residual plots:绘制残差序列直方图和累计概率图,检测残差的正态性 绘制指定序列的散点图,检测残差的随机性、异方差性 ZPRED:标准化预测值 ZRESID:标准化残差 SRESID:学生化残差 produce all partial plot:绘制因变量和所有自变量之间的散点图,线性回归方程的残差分析,(一)残差序列的正态性检验: 绘制标准化残差的直方图或累计概率图 (二)残差序列的随机性检验 绘制残差和预测值的散点图,应随机分布在经过零的一条直线上下,线性回归方程的残差分析,(三)残差序列独立性检验: 残差序列是否存在后期值与前期值相关的现象,利用D.W(Durbin-Watson)检验 d-w=0:残差序列存在完全正自相关;d-w=4:残差序列存在完全负自相关;0d-w2:残差序列存在某种程度的正自相关;2d-w4:残差序列存在某种程度的负自相关;d-w=2:残差序列不存在自相关. 残差序列不存在自相关,可以认为回归方程基本概括了因变量的变化;否则,认为可能一些与因变量相关的因素没有引入回归方程或回归模型不合适或滞后性周期性的影响.,线性回归方程的预测,(一)点估计 y0 (二)区间估计,x0为xi的均值时,预测区间最小,精度最高.x0越远离均值,预测区间越大,精度越低.,回归分析检验策略,例 萨尔金德爱上统计学P176,Chapter 15 Data Set 1.sav,8.4.5 应用举例,例 以高校科研研究数据为例,建立回归方程研究 1、课题总数受论文数的影响 2、以课题总数为被解释变量,解释变量为投入人年数(X2)、受投入高级职称的人年数(X3)、投入科研事业费(X4)、专著数(X6)、论文数(X7)、获奖数(X8)。 (1)解释变量采用强制进入策略(Enter),并做多重共线性检测。 (2)解释变量采用向后筛选策略让SPSS自动完成解释变量的选择。 (3)解释变量采用逐步筛选策略让SPSS自动完成解释变量的选择。,8.5 曲线估计,8.5.1 曲线估计概述 变量间的相关关系中,并不总是表现出线性关系,非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系,但可通过变量变换为线性关系,并最终可通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。,常见的本质线性模型有: 1、二次曲线(Quadratic),方程为 ,变量变换后的方程为 2、复合曲线(Compound),方程为 ,变量变换后的方程为 3、增长曲线(Growth),方程为 ,变量变换后的方程为,4、对数曲线(Logarithmic),方程为 ,变量变换后的线性方程为 5、三次曲线(Cubic),方程为 ,变量变换后的方程为 6、S曲线(S),方程为 ,变量变换后的方程为 7、指数曲线(Exponential),方程为 ,变量变换后的线性方程为,8、逆函数(Inverse),方程为 变量变换后的方程为 9、幂函数(Power),方程为 变量变换后的方程为 10、逻辑函数(Logistic),方程为 变量变换后的线性方程为,SPSS曲线估计中,首先,在不能明确究竟哪种模型更接近样本数据时,可在多种可选择的模型中选择几种模型;然后SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率p值、判定系数R2等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。另外,SPSS曲线估计还可以以时间为解释变量实现时间序列的简单回归分析和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 昭通学院《微生物生态学》2023-2024学年第二学期期末试卷
- 佛山科学技术学院《普通昆虫学》2023-2024学年第二学期期末试卷
- 云南师范大学《结构力学A(二)》2023-2024学年第二学期期末试卷
- 湖北恩施学院《艺术实践(2)》2023-2024学年第二学期期末试卷
- 菏泽家政职业学院《西方文论Ⅰ》2023-2024学年第二学期期末试卷
- 武昌首义学院《食品安全与质量控制学》2023-2024学年第二学期期末试卷
- 江西环境工程职业学院《中华传统文化经典选读》2023-2024学年第二学期期末试卷
- 东营科技职业学院《流体特效》2023-2024学年第二学期期末试卷
- 南京邮电大学通达学院《食品掺伪检验》2023-2024学年第二学期期末试卷
- 浙江农林大学《国画山水》2023-2024学年第二学期期末试卷
- 2024年北京化学工业集团有限责任公司招聘笔试参考题库附带答案详解
- 项目工程实体质量(路基、路面工程)检查表
- 图文高中英语语法if条件句If - Clauses
- 中国网民权益保护调查报告
- 2022年四川省成考(专升本)经济学考试真题含解析
- 大模型在航空航天领域的应用:智能探索宇宙的无限可能
- 《直流电源》课件
- 《中医药健康知识讲座》课件
- 解决多模穴流动不平衡问题之流道翻转技术
- 民俗文化的产业化发展
- 抖音新号怎么养号
评论
0/150
提交评论