




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
回归分析的基本概念 学习目的 理解回归分析的性质和双变量回归分析的一些基本概念 第三章回归分析的基本概念 第一节回归分析释义 第二节经济变量之间的关系 第三节符号术语数据 第四节总体回归函数 第五节随机干扰项 第六节 线性 一词的含义 第七节样本回归函数 回归 的历史溯源 回归 一词最先由弗朗西斯 高尔顿 FrancisGalton 提出 高尔顿发现一个趋势 父母高 儿女也高 父母矮 儿女也矮 但给定父母的身高 儿女辈的平均身高却趋向于或者 回归 到全体人口的平均身高 换言之 尽管父母都异常高或异常矮 但儿女的身高却有走向人口平均身高的趋势 换句话说 尽管父母都异常矮或异常高 但儿女的身高却有走向人口总体平均身高的趋势 普遍回归定律 lawofuniversalregression 一 概述 第一节回归分析释义 高尔顿的朋友卡尔 皮尔逊 KarlPearson 证实了他的观点 它收集了1000名成员的身高记录发现 对于一个父亲高的群体 儿辈的平均身高低于父辈的身高 而对于一个父亲矮的群体 儿辈的平均身高则高于其父亲的身高 用高尔顿的话说 这是 回归到中等 regressiontomediocrity 回归的定义 回归分析是关于研究一个叫做因变量的变量对另一个或多个叫做解释变量的变量的依赖关系 其用意在于通过后者 在重复抽样中 的已知或设定值 去估计和 或 预测前者的 总体 均值 例高尔顿的普遍回归定律 现代的观点关心的是给定父辈身高的情形下找出儿辈平均身高的变化 即 一旦知道父辈的身高 怎样预测儿辈的平均身高 考虑如下散点图 scatterdiagram 对应于任一给定的父亲身高 都有儿子身高的一个分布范围 父亲身高增加 儿子的平均身高也增加 回归线 勾画一条通过这些散点图的直线 以表明儿子的平均身高是怎样随父亲的身高增加而增加 这条线叫做回归线 regressionline 如下图是不同年龄处测度的男孩身高的总体分布 身高随着年龄增加而增加 通过给定年龄平均身高画一条线 例菲利普斯曲线 下图给出了历史数据所表现的散点图 图中的曲线是把货币工资变化率同失业率联系起来的菲利普斯曲线 Phillipscurve 之一例 该散点图可预测在给定的某个失业率下货币工资的平均变化 例通货膨胀率 由货币经济学中得知 其他条件不变 通货膨胀率 越高 人们愿意以货币形式保存的收入比例k越低 如下图 可预测在各种通货膨胀率下人们愿意以货币形式保存的收入比例 经济学家想研究个人消费支出对可支配个人收入的依赖关系 这种分析有助于估计边际消费倾向 MPC 也就是实际收入每元价值的变化所引起的消费支出的平均变化 一位能设定价格或产出的垄断商 想知道产品需求对价格变化的实际反应 通过定价实验能估计出产品需求的价格弹性 priceelasticity 即产品需求对价格变化的灵敏程度 从而有助于确定最有利可图的价格 其他例子 其他例子 公司的销售部主任想知道人们对公司产品的需求与广告费开支的关系 这种研究在很大程度上有助于计算出相对于广告费支出的需求弹性 即广告费预算每变化百分之一时需求变化的百分比 有助于制定 最优 广告费预算 农业经济学家想研究作物 如小麦 收成对气温 降雨量 阳光量和施肥量的依赖关系 这种依赖关系分析能使他对给定的解释变量进行信息预测或预报作物的平均收成 计量经济研究是对经济变量之间关系的研究 针对某一具体经济问题展开研究时 首先需要考察的就是相关经济变量之间有没有关系 有什么样的关系 确定的函数关系 不确定的相关关系 经济变量之间的关系 第二节经济变量之间的关系 函数关系 指某一经济变量可直接表示为其他经济变量的确定的函数 函数表达式中没有未知参数 1 某一商品的销售收入Y与单价P 销售数量Q之间的关系Y PQ2 某一农作物的产量Q与单位面积产量q 种植面积S之间的关系Q qS 例如 相关关系 指不同经济变量的变化趋势之间存在某种不确定的联系 某一或某几个经济变量的取值确定后 对应的另一经济变量的取值虽不能唯一确定 但按某种规律有一定的取值范围 居民消费C与可支配收入Y之间的关系 可支配收入的取值确定后 消费的取值虽不能唯一确定 但有一定的取值范围 0 C Y 遵循边际消费倾向递减的规律 居民消费C与可支配收入Y之间的关系可表示为C Y 为待估参数 例如 相关关系的表达式一般表示为含有未知参数的函数形式 需要进行参数估计 第三节符号术语数据 因变量 Dependentvariable 解释变量 Explanatoryvariable 被解释变量 Explainedvariable 自变量 Independentvariable 预测子 Predicted 预测元 Predictor 回归子 Regressand 回归元 Regressor 响应 Response 刺激变量 Stimulus 内生 Endogenous 外生 Exogenous 结果 outcome 共变 Convariate 被控变量 Controlledvariable 控制变量 Controlvariable 如果我们研究一个变量对一个解释变量的依从关系 如消费支出对实际收入的依赖 则称这种研究为简单 simple 或双变量回归分析 two variableregressionanalysis 如果我们研究一个变量对多个解释变量的依赖性 如农作物收成依赖降雨 气温 阳光和施肥一例 则称它为复回归分析 multipleregressionanalysis 换句话说 在双变量回归中只有一个解释变量 在复回归中则有多于一个解释变量 符号 字母Y一律指因变量 而一律指解释变量 Xk代表第k个解释变量 Xki指对变量Xk的第i次观测值 N或T指总体中的观测值的总个数 n或t指样本中观测值总个数 惯例 将下标i用于横截面数据 cross sectionaldata 即在一个时间点上收集的数据 将小标t用于时间序列数据 timeseriesdata 即在一段时间点上收集的数据 数据 1 时间序列数据 2 横截面数据 3 面板数据 1 时间序列数据 特点 可以在有规则的时间间隔收集Example 每日 股票价格 每周 联邦储备委员会提供的货币供给数字 每月 失业率 消费者价格指数CPI 每季 如GNP 每年 政府预算 每5年 制造业普查资料 每10年 人口普查资料 有些数据每季和每年都有公布 如GDP和消费者支出数据 极短时间的数据也可以搜集 如股票价格数据 可以得到连续数据 实时牌价 1 时间序列数据 一个时间序列是对一个变量在不同时间取值的一组观测结果 平稳的时间序列数据如果一个时间序列的均值和方差不随时间而系统的变化 那它就是平稳的 随时间推移 M1货币供给稳定上升 不是平稳的 1 时间序列数据 2 横截面数据 对一个或多个变量在同一时间点上收集的数据 Example 1990年和1991年美国50个州的劳工会蛋产量和蛋价格 对每一年份50个州的数据构成一个横截面数据样本 下表中有两个横截面数据样本 3 面板数据 在面板数据中兼有时间序列和横截面数据的成分 1973 1985年每个国家的通货膨胀率构成一个时间序列 而对某一年说 7个国家的通货膨胀率又构成一个横截面 数据来源 互联网 e g 国家统计局 Bloomberg Wind咨询 实验数据 e g 评价肥胖对血压的影响时 研究者要在人们饮食 烟酒习惯都不变的情况下收集数据 数据的准确性 大部分社会科学数据是非实验性质的 存在观测误差 问卷型调查中 非应答问题十分严重 获取数据的抽样方法可能变化很大 要比较不同样本得来的结果通常很困难 通常获得宏观数据 如GDP 就业 通货膨胀 失业 无法告知个人或微观单位的情况 由于保密性质 某些数据只能加总形式公布 如企业普查 不允许公布任何厂家的生产 人员雇佣 能源消耗 研究与开发费用 要研究厂际差异是困难的 变量的测量尺度 比率尺度 ratioscale 对于一个变量X 取其两个值X和X 比率X X和距离 X X 都是有意义的量 大多数经济变量都属于这一类 问今年的GDP与去年的GDP相差多少是有意义的 区间尺度 intervalscale 两个时期之间的距离 如2000 1995 是有意义的 但两个时期的比率 2000 1995 是无意义的 序数尺度 ordinalscale 只存在自然顺序 如考试分数 A B C 无法相减或相除 如无差异曲线 indifferencecurves 每条更高的无差异曲线标志着更高的效用水平 但不能量化到底高多少 名义尺度 nominalscale 不具备比率尺度的任何特征 如性别 男 女 婚姻状况 已婚 未婚 离婚 分居 适合于比率尺度的计量方法不适合于名义尺度 1 总体回归曲线 第四节总体回归函数 例3 1 表中数据指的是一个假想的经济社会中 构成总体的60个家庭及其周收入 X 和周消费支出 Y 的数量 这60个家庭被分成10个收入组 从80美元到260美元 各组中每个家庭的月支出都列在表中 因此 我们就有10个固定的X值和与每个X相对应的Y值 可以说 有10个Y的子总体 每个收入组的周消费支出都有相当大的变化 尽管如此 看平均值 周消费支出随着收入的上升而上升 条件期望值 conditionalexpectedvalues 给定X值下Y的期望值 取决于条件变量X的给定值 注意区分条件期望和无条件期望 1 问 一个家庭周消费支出的期望值是多少 答 如果我们将总体中所有60个家庭的消费支出加总除以60 得到121 20 7272 60 美元 这就是周消费支出的无条件均值或无条件期望值 得到该数字并不关心各个家庭的收入水平 2 问 一个月收入为140美元的家庭的周消费支出的期望值是多少 答 101美元 条件均值 因此 对收入水平的了解能使我们更好的预测消费支出的均值 这可能正是回归分析的本质 总体回归线 populationregressionline PRL 几何意义上 总体回归曲线就是解释变量取给定值时因变量的条件均值或期望值的轨迹 图中的黑圆点表示了不同X值下Y的条件均值 将这些均值连起来 就得到所谓的总体回归线或称为总体回归曲线 如下图 现实中 一个总体可能有许多个家庭 图中对于每个X 收入水平 都有周消费支出Y值的一个总体 假定这些Y值均匀分布在其条件均值左右 并且回归线穿过这些条件均值 条件均值 2 总体回归函数 从上图中我们清楚的看出 每个条件均值是的一个函数 用符号表示 该方程称为条件期望函数 conditionalexpectationfunction 或总体回归函数 populationregressionfunction PRF 它说明了Y的均值或平均对应值是怎样随X而变化的 采取什么函数形式 比如假定消费支出与收入有线性关系 假定PRF是的线性函数 其中 1和 2为未知但固定的参数 称为回归系数 regressioncoefficients 该方程称为线性总体回归函数或简称线性总体回归 这里所说的线性回归模型 linearregressionmodel 和通常意义下的线性函数不同 线性 回归指参数是线性的 即参数都只以它的1次方出现 解释变量X可以是线性的 也可以不是线性的 例如 第二个式子代表了非线性回归模型 nonlinearregressionmodel 第五节 线性 一词的含义 都是线性回归模型 都不是线性回归模型 习题如下模型是线性回归模型吗 为什么是或为什么不是 对于参数线性 解释变量非线性的回归模型 只要稍作变换 就可化为线性回归模型的一般形式 例如 模型 3 线性回归模型的普遍性 例如 著名的Cobb Dauglas生产函数表现为幂函数形式 著名的菲利普斯曲线 Phillipscurves 表现为双曲线形式 对于其他复杂的函数形式 可通过级数展开化为线性形式 泰勒级数 余项 令 余项 原模型可化为 习题考虑如下非随机模型 即不含随机误差项的模型 它们是线性回归模型吗 若不是 可能通过适当的代数变换使之转化成线性模型吗 第六节随机误差项 个别家庭的消费支出水平不一定随收入水平增加而增加 个别家庭的消费支出与给定收入水平之间有什么关系 给定收入水平X的个别家庭的消费支出聚集在收入为X的所有家庭的平均消费支出的周围 即围绕着它的条件均值 因此 个别的Y围绕它的期望值的离差 deviation 表示为 其中离差ui是一个不可观测的可正可负的随机变量 称为随机干扰 stochasticdisturbance 或随机误差 stochasticerror 1 代表相同收入水平的所有家庭的平均消费支出 这一成分称之为系统性或确定性成分 2 ui为随机或非系统性成分 现在假定它是所有可能影响Y 但又未能包括到回归模型中来的被忽略变量的替代变量 随机误差项一般用希腊字母或表示 假定对Xi是线性的 则例如给定X 80 对方程两边取期望值 方程中取的是给定的X值为条件的条件期望 因为故因此 假定回归线通过Y的条件均值 就意味着ui的条件均值 以给定的Xi为条件 为零 条件均值 总体回归线 解释变量取给定值时因变量的条件均值或期望值的轨迹 存在意义 第一 理论的模糊性 即使有决定Y的行为的理论 也常常是不完全的 我们可以肯定每周收入X影响每周消费支出Y 还有其他影响Y的变量吗 第二 数据的欠缺 例如 在原理上 除收入外 家庭财富亦可作消费支出的解释变量 但不幸的是 一般得不到家庭财富的信息 第三 核心变量与周边变量 假定除收入外 家庭的孩子数 性别 宗教 教育 地区也会影响消费支出 合起来影响非常小 当做随机变量来看 第四 人类行为的内在随机性 第五 糟糕的替代变量 弗里德曼的消费函数理论将永久消费看做永久收入的函数 实际上我们用可观测的当前消费和当前收入 存在测量误差 第六 简单性原则 保持尽可能简单的回归模型 第七 错误的函数形式 Or 第七节样本回归函数 注意 这张表是代表一个总体 但大多数实际情况 我们仅有对应于某些固定X的Y值的一个样本 所以要面对抽样问题 目标 在样本信息的基础上估计总体回归函数PRF 从总体中抽取一个随机样本如下 表2 4中的每个Y都是从表2 1的总体中对应于同一Xi的同组Y值随机抽取的 问 我们能通过表2 4的样本预测总体回归函数PRF吗 基于第二个样本的回归线 基于第一个样本的回归线 第一个样本 第二个样本 SRF是根据第一个样本表2 4画的 SRF是根据第二个样本表2 5画的 图2 4中的回归线称为样本回归线 sampleregressionlines 两条回归线中的哪一条代表 真实 的总体回归线呢 如果事先不知道总体 则无法确定哪一条是总体回归线 姑且假定它们都代表总体回归线 但因为抽样波动 它们最多是真实总体回归的一个逼近 一般的说 从N个不同的样本会得到N个不同的样本回归线 并且这些样本回归线不大可能是一样的 若将家庭周收入X与消费支出Y的总体回归函数设定为一元线性回归函数的形式 同样的我们写出一个样本回归函数 其中的估计量的估计量的估计量 注意 一个估计量 又称样本统计量 是指一个规则或方法 它告诉人们怎样用手中样本所提供的信息去估计总体参数 由估计量算出的具体数值 称为估计值 引入样本回归函数中的代表各种随机因素影响的随机变量 称为样本残差项 回归残差项或样本剩余项 回归剩余项 简称残差项或剩余项 residual 通常用表示 概念上 类似于随机干扰项 可以把它当成的估计量 把残差项引进到SRF中来和把随机干扰项引入到PRF同样道理 对于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美容服务租赁合同范本
- 电气代维合同范本
- 产品销售合同范本格式2篇
- 厂房生活保障合同范本
- 兄弟房子转让合同范本
- 2025年卫生政策与管理知识测评试题及答案
- 知识竞赛题目及答案excel版
- 生物科技产业创新发展新趋势研究
- 2025年辅助判读题库及答案
- 2025年石油天然气开采行业安全生产考试题库及答案
- 2025年中国船舶集团校园招聘面试模拟题及答案
- 2025房屋租赁托管合同示范文本
- (2025年标准)股东合伙协议及分红协议书
- 污水处理厂设备安装施工方案
- 巴西白糖联营协议合同范本
- 2025年事业单位工勤技能-甘肃-甘肃护理员一级(高级技师)历年参考题库含答案解析(5卷)
- 通信技术的现状与发展
- 水稻全程机械化栽培技术
- 北京师大附中市级名校2026届中考适应性考试语文试题含解析
- 2025年秋季学期初中学校全面工作安排(含各周重点工作安排)
- 2025年山西省教师职称考试(理论知识)复习题及答案(新课标)-山西教师
评论
0/150
提交评论