一元线性回归模型_第1页
一元线性回归模型_第2页
一元线性回归模型_第3页
一元线性回归模型_第4页
一元线性回归模型_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、。1、第3章单变量线性回归模型(教材第2章和第3章)、第3章单变量线性回归模型、3.1回归的含义、3.2随机干扰项的来源、3.3参数的最小二乘估计、3.4参数估计的性质、3.5显著性检验、3.6拟合优度、3.7预测学习要领、回归模型的含义、参数及其性质的OLS估计、显著性检验、3.1回归的含义、回归分析用于研究一个变量(称为解释变量或因变量)与另一个变量或变量之间的关系Y代表解释变量,X代表解释变量;当有多个解释变量时,它们由X1、X2、X3等表示。例如,商品需求与商品价格、消费者收入和其他竞争性商品价格之间的关系。此外,了解学生家庭收入和数学成绩之间的关系也很重要。3.1回归的含义,3.1回

2、归的含义,总体回归函数(PRF)根据上面的数据做散点图,3.1回归的含义,总体回归函数(PRF)在上面的图中,圆圈点称为条件均值;连接条件平均值的线称为总体回归线。总回归线表示Y的平均值与每个X之间的变化关系。上图中的近似线性总回归线可以表示为:代表给定X值对应的Y的平均值;称为参数,也称为回归系数;它被称为截距和斜率。斜率系数衡量x每单位变化的y(条件)平均值的变化率。例如:含义?3.1回归的含义,样本回归函数(SRF)在实践中往往得不到整个人口的数据,如何估计人口回归函数?如何找到参数B1和B2?通常,我们只有一个样本。我们的任务是根据样本信息估计总体回归函数。怎么做?3.1回归的含义,样

3、本回归函数(SRF)表2-2,2-3数据从表2-1中随机选取。3.1回归的意义,样本回归函数(SRF)通过分散点得到两条“拟合”样本回归线的样本数据。3.1回归的含义,样本回归函数可以用样本回归函数来表示样本的回归线:其中,总体条件均值的估计量;并非所有的样本数据都准确地落在样本回归线上,因此建立了随机样本回归函数:其中,是的,估计量被称为残差。表示y的实际值和样本的回归估计值之间的差异。3.1回归的含义,样本回归函数(SRF)回归分析:根据样本回归函数估计总体回归函数。3.1回归的含义,“线性”回归的特殊含义有“线性”的两种解释:变量线性和参数线性。可变线性:例如,先前的总体(或样本)回归函

4、数;下列函数不是可变线性的:参数线性:参数B1和B2仅以一阶平方的形式出现。下面的模型是参数非线性的:这本书着重于参数线性模型。从现在开始,线性回归指的是参数的线性回归,而解释变量不一定是线性的。3.2随机扰动的来源,总体回归函数显示给定家庭收入的美国学生的平均数学分数。然而,对于某个学生来说,他的数学成绩可能会偏离平均水平。可以这样解释,个人数学成绩等于这个组的平均值加上或减去某个值。用数学公式表示如下:其中,表示随机扰动项,简称扰动项。扰动项是一个随机变量,通常用概率分布来描述。,3.2随机扰动项的来源,对于回归模型来说叫做解释变量,也叫做因变量或因变量叫做解释变量,也叫做自变量叫做参数叫

5、做随机扰动项,3.2随机扰动项的来源,如何解释上面的公式?可以说,在给定的家庭收入水平下,I学生的数学分数可以表示为两部分的总和:首先,它是该收入水平下的平均数学分数。这部分称为系统或确定性部分。第二,它被称为非系统或随机成本,由收入以外的因素决定。这时,它被称为随机总体回归函数。3.2随机扰动项的来源,3.2随机扰动项的来源,属性1:扰动项代表不包括在模型变量中的影响。如个人健康状况、居住区域等。自然2:反映了人类行为固有的随机性。即使模型包含了决定数学分数的所有变量,它固有的随机性也是不可避免的,这是任何努力都无法解释的。属性3:它也表示测量误差,例如,收入数据可能不等于实际值。属性4:“

6、奥卡姆剃刀原理”意味着描述应该尽可能简单。只要不遗漏重要信息,影响Y的次要因素就可以归类为随机扰动项。3.3参数的最小二乘估计,参数估计:普通最小二乘(OLS)根据样本回归函数估计人口回归函数。需要回答两个问题:如何估计PRF?如何验证估计的PRF是真实PRF的“好”估计?让我们先回答第一个问题。在回归分析中,最广泛使用的方法是普通最小二乘(OLS)、3.3参数最小二乘估计、参数估计:普通最小二乘(OLS)最小二乘原理:由于PRF不能直接观测,所以用SRF来估计它,所以最好的估计方法是使残差尽可能小。3.3参数的最小二乘估计,参数估计:普通最小二乘(OLS)普通最小二乘是选择最小化残差平方和(

7、RSS)的参数。即3.3参数的最小二乘估计,参数估计:如何通过普通最小二乘(OLS)确定值?根据微积分,当对的一阶偏导数为0时,q达到最小值。即3.3参数的最小二乘估计,参数估计:在普通最小二乘(OLS)之上的联立方程被称为正态方程。为了解决这个问题,我们必须注意:即小写字母代表变量和它们的平均值之间的偏差。上面给出的估计量称为ols估计量。3.3参数的最小二乘估计,参数估计:一些重要的性质OLS)OLS估计通过OLS方法获得的样本的回归线通过样本均值点,即残差的均值总是0。对于残差和解释变量的乘积之和,取值为零,即残差和(估计值)的乘积之和,取值为零,即3.3参数的最小二乘估计,例如,数学标

8、准差分数,和3.3参数的最小二乘估计,例如,数学标准差分数可以根据下式得到回归结果: 3.3参数的最小二乘估计,示例:数学s.a.t .分数可以根据公式得到回归结果:对估计结果的解释:斜率系数0.0013表示在其他条件下,家庭年收入每增加1美元,平均数学s.a.t .分数增加0.0013,截距432.4138表示当家庭年收入为0时,平均数学分数约为432.4138。 (这种解释没有经济意义)截距的最佳解释是,它代表回归模型中所有省略变量对Y的平均影响。3.3参数的最小二乘估计,例:教育年限和平均小时工资预期平均工资随教育年限的增加而增加回归结果:3.3参数的最小二乘估计,例:股票价格和利率经济

9、理论表明,股票价格和利率之间存在反向关系。,3.3参数的最小二乘估计,示例:股票价格和利率之间的关系似乎不是线性的(即不是直线)。因此,假设实际关系如下:回归结果是:作为比较,线性回归结果是:提出了一个重要问题:哪个模型更好?如何判断?模型选择中使用哪些测试?稍后我们将逐一回答。3.4参数估计的性质,经典线性回归模型的假设(CLRM)我们回答了问题“如何估计PRF”。接下来,我们将回答“如何判断它是否是对真实PRF的良好估计”的问题。只有假设随机扰动项U的产生过程,才能确定随机扰动项是否很好地适应随机扰动项。OLS估计量的推导与随机扰动项的产生过程无关。然而,当假设检验是根据随机干扰项进行的时

10、,必须对随机干扰项的产生做一些特殊的假设,否则就不能进行假设检验。以下讨论仍然基于一维线性回归模型。3.4参数估计的性质,经典线性回归模型的假设(CLRM) 1。回归模型是参数化的,但不一定是线性变量。回归模型有以下形式(可以扩展到多个解释变量):假设2。解释变量与随机扰动项无关。如果x是非随机的,这个假设就自动得到满足;即使x是随机的,如果样本量足够大,也不会对分析产生严重影响。3.4参数估计的性质,经典线性回归模型的假设(CLRM) 3。假设扰动项的平均值为零。即3.4参数估计的性质,经典线性回归模型的假设(CLRM) 4。同态性,即3.4参数估计的性质,经典线性回归模型的假设(CLRM)

11、 5。无自相关,即两个扰动项之间没有相关性:3.4参数估计的性质,经典线性回归模型(CLRM)的假设6。回归模型设置正确,即模型中没有设置偏差或规格误差。为什么你需要以上六个假设?这些假设现实吗?如果不满足这些假设,会发生什么?你如何知道所有这些假设是否都得到满足?这些重要问题暂时没有答案。事实上,教科书的“第二部分”都是关于“假设不满足会发生什么”。3.4参数估计的性质,OLS估计量的方差和标准差在上述假设下,可以计算出估计量的方差和标准差。OLS估计量是随机变量,因为它们的值随样本而变化。这些估计量的抽样可变性通常由估计量的方差或标准差来衡量。OLS估计量的方差和标准差:如何估计?3.4参

12、数估计的性质,OLS估计量的方差和标准差是根据下列公式估计的:(n-2)称为自由度。一维线性回归模型有两个参数。当计算这两个未知参数时,失去了两个自由度。因此,虽然有n个观察值,但自由度只有(n-2)。顺便说一下,它被称为回归的标准偏差。3.4参数估计的性质,OLS估计量的方差和标准差:数学科学技术(错误教科书)的一个例子,3.4参数估计的性质,估计结果报告估计的数学SAT函数如下(括号中的标准差):OLS估计量的性质可以概括为高斯-马尔可夫理论:如果满足经典线性回归模型的基本假设,OLS估计量在所有线性估计中具有最小方差,即OLS估计量是最优线性无偏估计量(BLUE)。详见教科书PP46。3

13、.5、显著性检验中,OLS估计量的抽样分布或概率分布知道如何计算OLS估计量,其标准差仍然不够,必须找出抽样分布才能进行假设检验。为了推导抽样分布,增加另一个假设。假设7。在总体回归函数中,扰动项遵循平均值为0、方差为的正态分布。也就是说,为什么会做出这样的假设?3.5显著性检验,OLS估计量的抽样分布或概率分布可以被证明,是线性f中心极限定理:随着样本量的增加,独立同分布随机变量构造的统计量近似服从正态分布。3.5显著性检验,OLS估计量的抽样分布或概率分布,3.5显著性检验,假设检验假设家庭年收入对学生的数学成绩没有影响。数值结果表明:因此,零假设不成立?我们不能只看数值结果,由于样本的变

14、化,抽样波动会导致不同的数值结果,这需要假设检验。怎么做?如前所述,当我们知道估计量的抽样分布时,假设检验就不成问题了。讨论了以下两种方法:(1)置信区间法(2)显著性检验法和3.5显著性检验法。假设检验可以使用上述公式进行假设检验吗?有什么问题吗?问题是真相不明!可以用来估计它的,有:3.5显著性检验,假设检验:置信区间法在数学科学技术的情况下,有10个观测值,所以自由度是(10-2)=8。假设显著性水平或犯第一类错误(放弃真理)的概率为5%,存在显著性检验,即3.5,假设检验:置信区间方法排序或由上述公式给出的95%置信区间:重复上述过程,100个这样的区间中的95个将包括真理。替代时,区

15、间不包括0,所以零假设被拒绝:家庭年收入对数学没有影响的标准差,3.5显著性检验,假设检验:置信区间法图(教科书误差)0.000740.00187,3.5显著性检验,假设检验:置信区间法根据上述过程,也可以得到截距95%的置信区间:如果,则明显拒绝零假设,因为上述95%的置信区间不包括0。如果是这样,这个假设不能被拒绝,因为95%的置信区间包括这个值。3.5、显著性检验、假设检验:显著性检验方法的核心思想是根据从样本数据中获得的检验统计值来决定是否接受或拒绝零假设。如前所述,如果顺序(其中)是给定值(例如),则可以容易地从样本数据中获得计算的T值作为测试统计量,其服从具有自由度(n-2)的T分

16、布。相应的检验过程称为t检验。3.5、显著性检验、假设检验:显著性检验方法在具体的t检验中(1)为线性回归模型(二元模型),自由度为(n-2)。(2)常用显著水平为1%、5%或10%。为了避免选择显著性水平的任意性,通常会找到P值(确切的显著性水平)。如果计算的P值足够小,则拒绝零假设。(3)可以使用单边或双边测试。3.5显著性检验,假设检验:显著性检验方法首先考察双尾检验假设。当自由度为8时,如果t的计算(双侧)临界值超过临界值,则拒绝零假设。3.5显著性检验,假设检验:显著性检验本例t=5.4354,拒绝零假设。伴随的概率p约为0.0006,这表明如果零假设被拒绝,出错的概率仅为6/10000。3.5、显著性检验、假设检验:显著性检验方法看单尾检验(one-tailedtest),因为预期家庭收入对数学成绩的影响是正的,所以假设(alternative假设是单边的)。这时,犯第一类错误的概率不是均匀分布在T分布的两边,而是集中在一边。向左还是向右?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论