




已阅读5页,还剩49页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
线性回归的基本思想: 双变量模型,第二章,2.1 回归的含义,回归一词最先由F.加尔顿(Francis Galton)引入 , 在一篇著名的论文中,加尔顿指出,虽然有一个趋势,父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高。,K皮尔逊(Karl Pearson)证实了加尔顿的普遍回归定律 皮尔逊收集过一些家庭群体的1千多名成员的身高记录。他发现,对于一个父亲高的群体,儿辈的平均身高低于他们父辈的身高,而对于一个父亲矮的群体,儿辈的平均身高则高于其父辈的身高。这样就把高的和矮的儿辈一同“回归”到所有男子的平均身高。用加尔顿的话说,这是“回归到中等”。,2.1 回归的含义,(1)确定性关系或函数关系:研究的是确定现象非随机变量间的关系。 (2)统计依赖或相关关系:研究的是非确定现象随机变量间的关系。,2.1 回归的含义,对变量间统计依赖关系的考察主要是通过相关分析(correlation analysis)和回归分析(regression analysis)来完成的:,例如: 函数关系:,统计依赖关系/统计相关关系:,2.1 回归的含义,不线性相关并不意味着不相关; 有相关关系并不意味着一定有因果关系; 回归分析/相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。 相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。,注意:,2.1 回归的含义,回归的现代解释,回归分析是关于研究一个叫做应变量(被解释变量)的变量对另一个或多个叫做自变量(解释变量)的变量的依赖关系,其用意在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。 统一符号: Y代表被解释变量(应变量或因变量) X代表解释变量(自变量),2.1 回归的含义,几个简单的例子阐述回归的基本思想,1.加尔顿的兴趣在于发现为什么人口身高分布有一种稳定性。但从现代的观点考虑,我们并不关心这种解释。我们关心的,却是给定父辈身高的情形下找出儿辈平均身高的变化。,2.1 回归的含义,2. 经济学家也许想研究个人消费支出对税后或可支配实际个人收入的依赖关系。这种分析会有助于估计边际消费倾向(MPC),就是实际收入每美元价值的变化所引起的消费支出的平均变化。,2.1 回归的含义,3.一位劳工经济学家也许要研究货币工资变化率对失业率的关系。横坐标为失业率,纵坐标为货币工资变化率建立著名的菲利普斯曲线。这样的分析能使劳工经济学家预测在给定某个失业率下货币工资的平均变化。,2.1 回归的含义,4.由货币经济学中得知,其他条件不变,通货膨胀率越愈高,人们愿意以货币形式保存的收入比例愈低,对这种关系作一数量分析,将使货币经济学家能够对各种通货膨胀率预测人们愿意以货币形式保存的收入比例。,2.1 回归的含义,5.农业经济学家想研究作物(比方说小麦)收成对气温、降雨量、阳光量和施肥量的依赖关系。这种依赖性分析能使他对给定的解释变量的信息预测或预报作物的平均收成。,2.1 回归的含义,回归分析的基本思想技巧,就是在研究这种变量之间的依从关系的基础上,分析一个叫做应变量的变量,对另一个或多个叫做解释变量的变化的统计依赖性,这种分析的目的,是要在解释变量已知或固定值的基础上,估计和预测应变量的均值。,2.1 回归的含义,回归并不意味着存在因果关系!,自变量并不意味是原因 应变量也并不见得是结果 自变量与应变量的关系的判定或推断必须经过实践检验的相关理论,2.1 回归的含义,2.1 回归的含义,回归分析的目的: 根据自变量的取值,估计应变量的均值。 检验(建立在经济理论基础之上的)假设。 根据样本外自变量的取值,预测应变量的均值。 可同时进行上述各项分析。,2.2 总体归函数(PRF):假想一例,图2-1 家庭年收入与数学S.A.T分数,2.2 总体归函数(PRF):假想一例,(1)由于不确定因素的影响,对同一收入水平X,不同学生的成绩不完全相同; (2)但由于调查的完备性,给定收入水平X的分数Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的, 如: P(Y=460|X=5000)=1/5。,因此,给定收入X的值Xi,可得分数Y的条件均值(conditional mean)或条件期望(conditional expectation): E(Y|X=Xi),分析:,2.2 总体归函数(PRF):假想一例,描出散点图发现:随着收入的增加,成绩“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。,总体回归直线可用函数(PRF) 表示,和 为未知然而固定的参数,称为回归系数;也分别称为截距和斜率系数。方程本身则称线性总体回归函数。,(2-1),2.2 总体归函数(PRF):假想一例,2.2 总体归函数(PRF):假想一例,由于变量间关系的随机性,回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。严格说,回归分析是条件回归分析(conditional regression annlysis),2.2 总体归函数(PRF):假想一例,在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线(population regression line),或更一般地称为总体回归曲线(population regression curve)。相应的函数: 称为(双变量)总体回归函数(population regression function, PRF)。,称i为观察值Yi围绕它的期望值E(Y|Xi)的离差(deviation),是一个不可观测的随机变量,又称为随机干扰项(stochastic disturbance)或随机误差项(stochastic error)。,记,随机扰动项,总体回归函数说明在给定的家庭年收入水平Xi下,学生平均数学成绩水平。 但对某一个别的家庭,其孩子数学成绩可能与该平均水平有偏差。,2.3 总体回归函数的统计或随机设定,例2.1中,个别学生的数学成绩为:,(2-2)式称为随机(stochastic)或统计总体回归函数(statistical PRF)。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。,(1)该收入水平下所有家庭孩子的平均数学成绩为E(Y|Xi),称为系统性(systematic)或确定性(deterministic)部分。 (2)其他随机或非确定性(nonsystematic)部分i。,即,给定收入水平Xi ,个别家庭孩子的数学成绩可表示为两部分之和:,(2-2),2.3 总体回归函数的统计或随机设定,2.3 总体回归函数的统计或随机设定,2.4 随机误差项的性质,1误差项代表了未纳入模型变量的影响。 2即使模型中包括了决定数学分数的所有变量,其内在随机性也不可避免,这是做任何努力都无法解释的。 3 还代表了度量误差。 4“奥卡姆剃刀原则”即描述应该尽可能简单,只要不遗漏重要的信息。,问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?,总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。,(2-1),2.5 样本回归函数,2.5 样本回归函数,2.5 样本回归函数,样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线(sample regression lines,SRL)。,记样本回归线的函数形式:,称为样本回归函数(sample regression function,SRF)。,(2-3),2.5 样本回归函数,样本回归函数的随机形式/样本回归模型:,同样地,样本回归函数也有如下的随机形式:,由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型(sample regression model)。,(2-4),2.5 样本回归函数,残差项,注意:,(2-5),2.5 样本回归函数,2.5 样本回归函数,2.5 样本回归函数,(2-6),(2-7),回归分析的主要目的是要通过样本回归函数(模型)SRF尽可能准确地估计总体回归函数(模型)PRF。 估计方法有多种,其种最广泛使用的是普通最小二乘法(ordinary least squares, OLS)。 为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。,2.5 样本回归函数,2.6 “线性”回归的特殊含义,变量线性:线性的第一种、也是最“本质”的含义是应变量的条件均值是自变量的线性函数。 参数线性:线性的第二种解释是应变量的条件均值是参数的线性函数,而变量之间并不一定是线性的。,2.6 “线性”回归的特殊含义,我们研究“线性”回归一词是指对参数为线性的一种回归(即参数只以它的1次方出现);对解释变量X则可以是或不是线性的,2.7 从双变量回归到多元线性回归,(2-11),(2-12),2.8 参数估计:普通最小二乘法,在回归分析中,使用最广泛、最有效、最流行的方法:普通最小二乘法。 选择B1、B2的估计量b1、b2,使得全部观察值的残差平方和 (RSS) 最小。,参数的普通最小二乘估计(OLS),给定一组样本观测值(Xi, Yi)(i=1,2,n)要求样本回归函数尽可能好地拟合这组值。 普通最小二乘法(Ordinary least squares, OLS)给出的判断标准是:残差是Y的真实值与估计值之差,普通最小二乘法就是使得残差平方和(residual sum of squares,RSS)最小。,(2-13),2.8 参数估计:普通最小二乘法,2.8 参数估计:普通最小二乘法,(2-15),(2-14),其中,n为样本容量,这些联立方程称为 (最小二乘的)正规方程(normal equation),2.8 参数估计:普通最小二乘法,(2-16),(2-17),注意离差:,解方程组,可以得到OLS估计量:,2.8 参数估计:普通最小二乘法,普通最小二乘估计量的一些重要性质,1.用OLS法得出的样本回归线经过样本均值点,即: 2.残差的均值 ( )总为0。 3.对残差与解释变量的积求和,其值为零;即这两个变量不相关。 (2-19) 这条性质也可用来检查最小二乘法计算结果。 4.对残差与 (估计的 )的积求和,其值为0;即 为0(见习题2.25)。,(2-18),2.9 综合应用,对数学S.A.T分数回归结果的解释,对数学S.A.T分数回归结果的解释,(2-20),2.10 一些例子,例2.1 受教育年限与平均小时工资,(2-21),例2.2 奥肯定律,=失业率的变化(百分数) =实际产出的增长率(百分数,用实际GDP度量) 2.5= 美国长期产出增长率。,(2-22),例2.3 股票价格与利率,(2-24),(2-25),(2-23),例2.3 股票价格与利率,例2.4 美国中等房价与抵押贷款利率(1980-2007),(2-26),其中,Y-中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字智慧方案零碳园区初步规划方案
- 数字智慧方案基于预测控制的微某著名企业能量管理研究
- 仪表工试题复习测试卷
- 湖南省新高考教研-长郡二十校联盟2025届高三第一次预热演练-生物试题
- 2025年工程法规考生复习策略及试题
- 主治医师考试试题及答案
- 2025年财务管理持续改进试题及答案
- 肺癌试题及答案
- 灯笼性格测试题及答案
- 存储公司面试题及答案
- 毫针操作基本技术
- 高中家长会 共筑梦想,携手未来课件-高二下学期期末家长会
- 通用电子嘉宾礼薄
- 钢筋混凝土独立基础施工方案
- GA 576-2018防尾随联动互锁安全门通用技术条件
- 4.2依法履行义务 说课课件(共19张PPT)
- 抽样方法(课堂PPT)
- 智利地质矿产资源概况
- 酒店值班经理工作日志模板
- JJG 961-2017 医用诊断螺旋计算机断层摄影装置(CT)X射线辐射源
- 全国庙会时间表
评论
0/150
提交评论