第10章事物间的因果关系回归分析_第1页
第10章事物间的因果关系回归分析_第2页
第10章事物间的因果关系回归分析_第3页
第10章事物间的因果关系回归分析_第4页
第10章事物间的因果关系回归分析_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第10章10.1回归分析概述10.2 一元线性回归10.3 多元线性回归10.4 引入虚拟变量进行回归3u为确定变量之间的联系,用一些变量的变化说明另一个变量的变化,并进一步对另一个变量的取值进行预测,这就是回归分析。u回归分析研究的是变量之间的相互关系,但这种关系不仅是相关关系,而且是因果关系。因此回归分析要明确区分因变量与自变量。如年龄对收入的影响。u因变量(因变量(dependent variable):要说明其变化的、对其进行:要说明其变化的、对其进行预测的变量。预测的变量。u自变量自变量 (independent variable):用以说明或预测因变量的:用以说明或预测因变量的变量

2、变量01122kkybb xb xb xe回归模型一元回归非线性线性多元回归非线性线性6u两个定距变量的回归是用函数y= f(x)来分析的。我们最常用的是一元回归方程y=a+bx。u其中x为自变量,y为因变量,a为截距,b为回归系数。u常量:a为x等于零时,y的平均估计量。u回归部分:它刻画因变量y的取值中,由因变量y与自变量x的线性关系所决定的部分,即可以直接由x估计的部分。b为回归系数,也是回归线的斜率。u残差:估计值和每一个实测值之间的差称为残差。残差表示因变量y除了自变量x以外的其他所有未进入模型或未知但可能与y有关的随机和非随机因素共同引起的变异,即不能由x估计的部分。n最小二乘原理

3、即残差的平方和最小。最小二乘原理即残差的平方和最小。u第一步:考察因变量的正态性。例:根据数据“儿童.sav”,建立回归模型,考察儿童对电视的接触时间与儿童的知识量之间是否有因果关系。u第二步:考察因变量与自变量的线性关系。添加回归趋势添加回归趋势线的方法:线的方法:双击图形,进双击图形,进入图表编辑入图表编辑窗口下的窗口下的ElementsFit Line at Total选中选中Linearu第三步:进行回归分析。因变量因变量自变量自变量Pearson相相关系数关系数回归方程的确定系回归方程的确定系数数R2 :表示自变量:表示自变量能解释因变量变化能解释因变量变化的的46.8%。进入模型的

4、自变量进入模型的自变量u确定系数确定系数R2是测定回归是测定回归直线拟合优度的重要指标。直线拟合优度的重要指标。u总变差(总变差(TSS)是)是估估计计 时所产生的误差平时所产生的误差平方和方和u回归变差(回归变差(RSS)是)是 和之间产生的变差平方和之间产生的变差平方和。和。u剩余变差是和之剩余变差是和之间产生的变差平方和。间产生的变差平方和。 yy2()TSSyyyy2()RSSyyyy2()ESSyyTSS=RSS+ESS21RSSESSRTSSTSS对回归模型的显著性检验回归平方和回归平方和RSS残差平方和残差平方和ESS如果如果p值小于值小于0.05,说,说明明R2在统计上是显著的

5、,在统计上是显著的,即有足够的把握认为总即有足够的把握认为总体的回归斜率不为体的回归斜率不为0。通常只关心回归方程的斜率在统计上是不是显著的,而不关心截距的值以及它的显通常只关心回归方程的斜率在统计上是不是显著的,而不关心截距的值以及它的显著性水平。主要因为:著性水平。主要因为:u斜率斜率b不仅表达了线性关系的方向,也表达了线性关系的强度,这也是对解释因不仅表达了线性关系的方向,也表达了线性关系的强度,这也是对解释因变量最有用的信息。截距变量最有用的信息。截距a对解释因变量对解释因变量y的变化起不到任何作用。的变化起不到任何作用。u从实际应用的角度来说,截距是在从实际应用的角度来说,截距是在x

6、0时时y的取值,这是一种特殊的情况,一般的取值,这是一种特殊的情况,一般不加以考虑。不加以考虑。u截距截距a只表示直线在坐标平面中的起点,如果把所有回归系数都进行标准化,这只表示直线在坐标平面中的起点,如果把所有回归系数都进行标准化,这时直线是过原点的,即截距为时直线是过原点的,即截距为0。所以,通常不关心截距所以,通常不关心截距a的值是否显著。即使不显著,也保留在方程中。的值是否显著。即使不显著,也保留在方程中。回归系数如果如果p值小于值小于0.05,说明该自变,说明该自变量的回归系数在统计上是显著的,量的回归系数在统计上是显著的,即有足够的把握认为即有足够的把握认为b不为不为0。常数项即常

7、数项即a自变量的回自变量的回归系数即归系数即b建立回归方程:建立回归方程:y=1.935+0.021x其中其中y表示儿童的知识量评分表示儿童的知识量评分x表示儿童接触电视的时间。表示儿童接触电视的时间。15u将一元线性回归进行推广,引入多个自变量,以利用更多的信息来解释因变量的变化,即可得多元线性回归方程01122kkybb xb xb xeub0 ,b1,b2 ,bk是参数,称为偏回归系数ubi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均平均变动值ue是被称为误差项的随机变量,说明了包含在y里面但不能被k个自变量的线性关系所解释的变异性u y 是x1,,x2 , ,xk 的

8、线性函数加上误差项e 例:某面向年轻人制作肖像的公司计划在国内开设几家分店,收集了目前已设分店的销售数据(y,万元)以及分店所在城市的16岁以下人数(X1,万人)、人均可支配收入(X2,万元)数据见“销售收入.sav”,试建立多元线性回归模型。u第一步:考察因变量与自变量的线性关系从散点图矩阵可从散点图矩阵可以看出,销售收以看出,销售收入与年轻人人数、入与年轻人人数、人均可支配收入人均可支配收入呈线性关系。呈线性关系。u第二步:考察因变量的正态性在因变量的正态在因变量的正态性不理想的情况性不理想的情况下,回归方程可下,回归方程可以体现因变量与以体现因变量与自变量的因果关自变量的因果关系,不能用

9、于预系,不能用于预测因变量。测因变量。u第三步:根据设想建立回归方程: y=b0+b1x1+b2x2u进行多元回归,回归线性选入回归方程选入回归方程中的自变量中的自变量选入回归方程选入回归方程中的因变量中的因变量本例采用强制纳本例采用强制纳入回归模型的方入回归模型的方法。法。多元回归常使用调整的确定多元回归常使用调整的确定系数系数R2 :此时:此时说明说明x1和和x2两两个自变量能共同个自变量能共同解释解释90.7%的因变量的变化。的因变量的变化。对回归模型的显著性检验如果如果p值小于值小于0.05,说明说明至少至少一个自变量的回归系数不为一个自变量的回归系数不为0,所建立的回归模型有统计意所

10、建立的回归模型有统计意义。义。回归系数如果如果p值小于值小于0.05,说明,说明该自变量的回归系数在统该自变量的回归系数在统计上是显著的,即有足够计上是显著的,即有足够的把握认为的把握认为b不为不为0。自变量自变量的回归的回归系数系数建立回归方程:建立回归方程:y=-6.886+1.455x1+0.009x2标准化回归系数标准化回归系数表明年轻人人数表明年轻人人数对销售收入的影对销售收入的影响更大。响更大。u强制回归法:所有自变量强制纳入回归模型u向前回归法:将自变量按顺序选入回归模型。首先选入的是与因变量有最大相关性的自变量,同时必须满足选入条件,然后再考虑下一个自变量。u向后回归法:与向前

11、法相反。首先将所有变量纳入模型,然后按顺序移除,最先移除的是与因变量相关性最小的自变量,直至方程中没有满足移除条件的变量。u逐步回归法:将向前回归与向后回归结合起来。每向模型引入一个新变量,均要考察原来在模型中的自变量是否还有统计意义,是否可以被剔除。较合理。u移除法:建立回归模型前设立条件,根据条件删除自变量。25u以上所列回归分析,其因变量和自变量都为定距变量或定比变量,即数量型的变量;u而在社会科学的研究中,会大量地涉及到名义型的变量即定类变量。如性别、职业、学历等;u对于定类变量,可以引入虚拟变量来进行回归分析。n虚拟变量都是虚拟变量都是0、1变量,变量,1代表属于该类别,即代表属于该

12、类别,即“是是”;0代代表不属于该类别,即表不属于该类别,即“否否”。n0、1变量的均值含义为属于该类别的样本占总样本的比例,变量的均值含义为属于该类别的样本占总样本的比例,因此可以进行回归。因此可以进行回归。u当定类变量有k个类型时,需设置k-1个虚拟变量。u剩下的1个为参照类。u当k-1个虚拟变量都取值为0时,该样本就属于参照类。例:将数据“社团.sav”中的sex、grade转换为虚拟变量。原变量编码值代表的类别虚拟变量的赋值sex=1男(参照类)sex=2女xusex=1,else=0grade=1本科新生(参照类)grade=2其他高年级本科生xugrade1=1,else=0gra

13、de=3硕士研究生xugrade2=1,else=0grade=4博士研究生xugrade3=1,else=0u用recode命令建立新的虚拟变量。转换后,增加了转换后,增加了4个虚拟变量个虚拟变量以参加社团活动的时间为因变量,以新建的四个虚拟变量为自变量,进行回归分析。设想的回归方程为:time=b0+b1 xusex+b2 xugrade1+b3 xugrade2+b4 xugrade3四个虚拟变四个虚拟变量全部纳入量全部纳入回归方程回归方程调整的确定系数调整的确定系数R2:四个虚拟变量共同四个虚拟变量共同解释了解释了93.9%的因的因变量变化。变量变化。对回归模型的显著性检验说明:对回归

14、模型的显著性检验说明:回归方程的参数在总总体水平上回归方程的参数在总总体水平上是显著的,即有足够的把握认为是显著的,即有足够的把握认为总体的回归斜率不为总体的回归斜率不为0。建立回归方程:建立回归方程:Time=23.87-1.63xusex-1.96xugrade1-17.35xugrade2-18.77xugrade3自变量的回归系数自变量的回归系数p值小于值小于0.05,说明该自变量的,说明该自变量的回归系数在统计上是显著的,回归系数在统计上是显著的,即有足够的把握认为即有足够的把握认为b不为不为0。E Ex xc cl lu ud de ed d V Va ar ri ia ab bl

15、 le es sd d-.387a-6.780.000-.476.980.326a5.193.000.383.894-.814a-35.731.000-.944.869-.086b-3.790.000-.290.814-.084b-3.392.001-.262.683-.088c-3.686.000-.284.682是否为女生是否为高年级本科生是否为硕士研究生是否为女生是否为高年级本科生是否为高年级本科生Model123Beta IntSig.PartialCorrelationToleranceCollinearityStatisticsPredictors in the Model: (C

16、onstant), 是否为博士研究生a. Predictors in the Model: (Constant), 是否为博士研究生, 是否为硕士研究生b. Predictors in the Model: (Constant), 是否为博士研究生, 是否为硕士研究生, 是否为女生c. Dependent Variable: 参与社团活动的时间d. 所有自变量的所有自变量的p值均小于值均小于0.05,因此没有剔除自变,因此没有剔除自变量,全部纳入回归方程。量,全部纳入回归方程。回归方程的含义:回归方程的含义:Time=23.87-1.63xusex-1.96xugrade1-17.35xugrade2-18.77xugrade3u就性别而言,男生是参照类就性别而言,男生是参照类女生比男生每周参加社团活动的时间少女生比男生每周参加社团活动的时间少1.63小时;小时;u就年级而言,大一新生是参照类就年级而言

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论