




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.,第七章 相关分析和线性回归分析,.,一、相关分析和回归分析概述,相关分析和回归分析都是分析客观事物之间关系的数量分析方法。 客观事物之间的关系大致可以归纳为2类: 函数关系:两事物之间一一对应的关系。 统计关系:两事物之间的一种非一一对应的关系。统计关系可再进一步分为线性相关和非线性相关 正相关:两个变量线性的相随变动方向相同。 负相关:两个变量线性的相随变动方向相反。,.,事物之间的函数关系比较容易分析和测度,而统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强,有的关系弱,程度各异。相关分析和回归分析正是以不同的方式测度事物间统计关系的非常有效的工具。,.,二、相关分析,通
2、过图形和数值两种方式,能够有效地揭示事物之间统计关系的强弱程度。 散点图:将数据以点的形式画在直角平面上。(直观) 相关系数,.,.,(二)散点图,含义 简单散点图:生成一对相关变量的散点图 重叠散点图:生成多对相关变量的散点图 矩阵散点图:同时生成多对相关变量的矩阵散点图 三维散点图:生产成三个变量之间的三维散点图,.,散点图的基本操作,简单散点图 重叠散点图 矩阵散点图 三维散点图,.,练习,高校科研研究.sav: 绘制课题总数与论文数的简单散点图,并分析它们之间的线性关系。 绘制课题总数、投入科研经费以及论文数的矩阵散点图,并分析它们之间的线性关系。,.,相关系数,虽然散点图能够直观的展
3、现变量之间的统计关系,但并不精确。相关系数以数值的方式精确的反映了两个变量间线性相关的强弱程度,利用相关系数进行变量间线性关系的分析通常需要完成以下两大步骤。 计算样本相关系数r。(不同类型的变量应采用不同的相关系数指标,但他们的取值范围和含义都是相同的。) 对样本来自的两总体是否存在显著的线性关系进行推断。,.,相关系数r,相关系数r的取值在-1+1之间。 r0表示两变量存在正的线性相关关系;r0.8表示两变量之间具有较强的线性关系; r40) 6、必须是连续变量,.,多元回归方程中的自变量选择,1、强行进入法(enter),即一般所称的复回归分析法。强迫所有变量有顺序地进入回归方程。在研究
4、设计中,如果研究者事先建立假设,决定变量的重要性层次,则应使用enter法比较合适。此法又称“层次式进入法”(hierarchical enter)。,.,2、后退法(Backward),将已纳入方程的变量按对因变量的贡献大小由小到大依次剔除,每剔除一个自变量,即重新检验每一自变量对因变量的贡献。 3、前进法(Forward),对已纳入方程的变量不考察其显著性,直到方程外变量均达不到入选标准。 4、强制剔除法(Remove)与后退法相同,只是筛选的是Block,.,5、逐步回归法( Stepwise ),运用很广,报告中出现的几率最高。结合了前进法和后退法的优点。第一,模型中先不包含任何预测变
5、量,与因变量相关最高者首先进入回归方程;第二,控制回归方程中的变量后,根据每个预测变量与因变量的偏相关的高低来决定进入方程的顺序;第三,已进入方程的自变量,每引入一个自变量,就对方程中的每一自变量进行显著性检验,若发现不显著,就剔除;每剔除一个自变量有也对留在方程中的自变量再进行显著性检验,再不显著,又剔除,直至没有自变量引入,也没有自变量剔除为止。,.,在选择回归的方法时,注意专业上的要求要先于统计学检验的准则。 Hower(1987)建议:(1)应优先使用enter或stepwise。(2)使用enter时,可根据研究计划时的相关理论,决定变量投入的顺序。,.,回归方程的统计检验,通过样本
6、数据建立回归方程后一般不能立即用于对实际问题的分析和预测,通常要进行各种统计检验,包括回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验、残差分析等。,.,回归方程的拟合优度检验,检验样本数据点聚集在回归线周围的密集程度,从而评价回归方程对样本数据的代表程度。 认为y各观测值的之间的差异主要由两个方面的原因造成:一是解释变量x取值的不同造成的;二是由于其他随机因素造成的。 SST=SSA+SSE(回归平方和剩余平方和) 若SSA所占的比例远大于SSE所占的比例,那么回归方程的拟合优度会比较高。,.,拟合优度检验采用R2统计量,该统计量称为判定系数或决定系数,它是SSA/SST
7、反映因变量的全部变异中能够通过回归关系被自变量解释的比例,即检验回归的效果如何。 如果自变量的个数很多,有时要以调整后的决定系数代替原先的决定系数。因为增加新的自变量会使决定系数增大,这种决定系数会有高人为控制的机制在内,此时用调整后的决定系数更好。,.,回归方程的显著性检验,线性回归方程能够较好地反映被解释变量和解释变量之间统计关系的前提应是,被解释变量和解释变量之间确实存在显著的线性关系。回归方程的显著性检验正是要检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当。 基本出发点与拟合优度检验非常相似。 检验采用F统计量。,.,回归系数的显著性检验,主
8、要目的是研究回归方程中的每个解释变量与被解释变量之间是否存在显著的线性关系,也就是研究解释变量能够有效地解释被解释变量的线性变化,他们能够保留在线性回归方程中。 是围绕回归系数估计值的抽样分布展开的,由此构造服从某种理论分布的检验统计量,并进行检验。,.,t统计量:在一元线性回归分析中,回归方程显著性检验和回归系数显著性检验的作用是相同的,两者可以相互代替,同时回归方程显著性检验中Ft2。 但在多元线性回归中的这两种检验通常不能互相替代。,.,残差分析,所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距。 残差分析是回归方程检验中的重要组成部分,其出发点是,如果回归方程能较好地反映被
9、解释变量的特征和变化规律,那么残差序列中应不包含明显的规律行和趋势性。 残差分析的主要任务可大致归纳为,分析残差是否服从均值为0的正态分布、分析残差是否为等方差的正态分布、分析残差序列是否独立、借助残差探测样本中的异常值等。 图形分析和数值分析是残差分析的有效工具。,.,如何看回归结果?,哪些自变量(我们选定)进入了回归方程 对回归方程进行检验,看方程是否有意义 看回归效果, R2,.,回归分析的三个重要指标,方差分析:F检验用于检验回归模型与数据的拟合程度。若F值显著,表明预测变量与指标变量之间存在很强的线性关系,也可以说回归方程显著。 回归系数的显著性检验:若b显著,则表明预测变量与指标变
10、量之间存在强线性相关。 R2:解释回归平方和在总平方和中所占的比率,即解释回归的效果。,.,练习,利用线性回归分析研究高等院校人文社会科学研究中立项课题数是否受高级职称投入人年数、投入科研事业经费、专著数的影响。 分析母亲对情感温暖的理解是否受到过度干涉、拒绝否认和惩罚严厉的影响。,.,虚拟变量,若某个自变量是分类变量,则须将分类变量转化为二进制虚拟变量(dummy variable),每个虚拟变量只代表2级(0,1),即某一属性出现时,虚拟变量取值为1,否则为0。设虚拟变量时,以一种取值作为对比水平(基础水平),若原自变量有几个水平,就应使用n-1个虚拟变量,实则虚拟变量代表的是同一变量的不
11、同取值。,.,如性别变量有男或女两类,可将两个类别分别以两个0/1二值变量的形式重新编码。设置变量X1表示是否男,取1表示男,取0表示不是男。再设置变量X2表示是否女,取1表示是女,取0表示不是女。 产生的回归方程中各虚拟变量回归系数的含义是,相对参照类,各个类对解释变量平均贡献的差,进而可进一步研究各类别间对被解释变量的平均贡献差异。,.,Collinearity diagnostics (共线性诊断),复共线问题(共线性,collinearity问题):由于自变量间的相关太高,造成回归分析之情境困扰。如果自变量间有共线性问题,表示一个预测变量是其他自变量的线性组合。若有严重的共线性存在,则
12、模型的参数就不能完全被估计出来。,.,自变量间是否有共线性问题,可以由以下数据判断:,(1)VIF=5,存在复共线。所以在回归分析中,最好先做个相关分析,以探讨变量间的相关情形,如果某些变量间的相关系数太高,可考虑挑选一个较重要的变量投入回归分析。 (2)容忍度tolerance=1-R2 ,其中R2是此自变量与其他自变量间的多元相关系数的平方。容忍度界于0和1之间,如果一个自变量的容忍度太小,表示此变量与其他自变量间有共线性问题;其值若接近0,表示此变量几乎就是其他变量的线性组合。,.,(3)条件指针(condition index,CI),CI 越大,越有共线性问题。Eigenvalue
13、condition index(k)若k2=100表示存在复共线,若k2=1000,表示存在严重的复共线。 关于复共线问题,也有说法,即认为若torrence降至0.5以下,而VIF 上升到2.0以上,就应检查自变量是否为自相关。,.,上机练习,母亲的受教育程度和职业状况与母亲的情感温暖的理解有什么关系?请根据相关分析的进行分析。 年均可支配收入和年人均消费支出是否对教育支出有影响?请用回归分析的结果建立关于教育支出的回归模型。,.,五、路径分析,路径分析又称“结构方程模型”(structural equation models,SEM)或“同时方程检验模型”(simultaneous equ
14、ation models),因为它同时让所有预测变量进入回归模型 。,.,路径分析的基本步骤,1、根据相关理论与文献资料,建立一个可以检验的初始模型,并绘出一个没有路径系数的路径图(path diagram)。 路径图中的因果关系用箭头表示,箭头指向的是“果”(因变量),箭头起始处是“因”(自变量)。对多重回归分析来说,箭头所指的变量为回归方程的因变量,箭头起始处为回归方程的预测变量。 在设计因果关系时,要有相应的理论背景。因果模型结构的初始图中通常包括直接效果和间接效果。在直接效果中如果路径系数达到显著,表示两个变量间有直接因果关系存在;在间接效果中如果路径系数达到显著,表示两个变量间有间接
15、的因果关系存在。间接效果的影响路径是多元的,并不是每个中间变量的影响都会达到显著。,.,2、选用适当的回归模型(通常用enter法),来估计路径系数并检验其是否显著。在路径分析中,选用的分析方法是多重回归分析,而“路径系数”就是回归方程中的“标准化偏回归系数”。复回归中让所有预测变量同时进入回归方程,再由每个变量的t值的大小与机率值检验beta值的影响是否显著。,.,3、评估理论模型,可删除不显著的路径系数,重新计算新模型的路径系数。在删除部分影响路径后,会成为一种“约束模型”(restrict model),由于预测变量数的改变,路径系数也会跟着改变,因而要重新进行复回归分析。,.,验证研究
16、路径图,数学焦虑,数学态度,数学成绩,数学投入动机,.,此研究图,要进行三个复回归, (1)因变量为数学成绩,预测变量为数学焦虑、数学态度、数学投入动 (2)目标变量为数学学习态度,预测变量为数学焦虑、数学学习投入动机 (3)目标变量为数学学习投入动机,预测变量为数学焦虑。,.,练习,母亲情感温暖的理解,过度干涉,心理健康,拒绝否认,.,曲线估计,变量间相关关系的分析中,变量之间的关系并不总是表现出线性关系,非线性关系也是极为常见的,通过绘制散点图的方式可粗略考察这种非线性关系。对于非线性关系通常无法直接通过线性回归来分析,无法直接建立线性模型, 变量之间的非线性可以划分为本质线性关系和本质非
17、线性关系。,.,所谓本质线性关系是指变量关系形式上虽然是呈非线性关系(如,二次曲线),但可通过变换化为线性关系,并可最终通过线性回归分析建立线性模型。 本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法通过变量变换化为线性关系,最终无法通过线性回归分析建立线性模型,曲线估计要解决的就是本质线性关系问题。,.,步骤,选择模型 SPSS自动生成参数估计,并输出回归方程显著性检验的F值、p值、判定系数等统计量 以判定系数为主要依据选择最优模型,并进行预测分析。,.,曲线估计(Curve Estimation),对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合(l
18、iner)、二次拟合(Quadratic)、三次拟合(Cubic)等。采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述(看修正Adjusted R2 -1),.,操作,可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量之间的相关关系,为曲线拟合中的模型选择提供依据。,.,练习,年人均收入和教育支出.sav:分析居民家庭教育支出和消费性支出之间的关系,.,二项Logistic回归,利用多元回归方法分析变量之间的关系或进行预测时的一个基本要求是,被解释变量应是连续定距变量。如课题数、教育支出 实际应用中这种要求未必能够得到较好的满足。例如,要分析消费群体的特征对小车消费的影响中,职业
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2020-2025年期货从业资格之期货基础知识综合练习试卷B卷附答案
- 吃饭有讲究教学课件
- 2020-2025年期货从业资格之期货基础知识押题练习试题A卷含答案
- 【长春】2025年吉林长春大学公开招聘博士高层次人才84人(1号)笔试历年典型考题及考点剖析附带答案详解
- 夜雨寄北教学课件
- 小学劳动面塑教学课件
- 六数上扇形教学课件
- 小学生科普知识教学课件
- 2025年证券从业之证券市场基本法律法规题库含答案
- 2025年新初三英语人教新版尖子生专题复习《阅读理解》
- 2025反洗钱知识竞赛题库(含答案)
- 2025年日历表全年(打印版)完整清新每月一张
- 高校毕业证编号编制规则
- 上海交通大学学生生存手册
- 最新基孔肯雅热防控培训课件
- 管道工技师理论知识题库及答案(完整版)
- 试生产方案确认表(各单位会签)
- 软件产品(项目)客户满意度调查表格
- 建筑垃圾处置方案(精选6篇)
- 极致物业管理系统-客户关系管理
- 餐厨垃圾综合处理项目特许经营权招标文件
评论
0/150
提交评论