第二章-简单线性回归.ppt

上传人：1*** IP属地：浙江上传时间：2020-04-17 格式：PPT 页数：114 大小：939.51KB 积分：20 举报 版权申诉

已阅读5页，还剩109页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

何谓简单线性回归模型只有两个变量的线性回归模型称为简单线性回归模型也叫做双变量模型或者一元线性回归模型模型形式为第一节回归分析和回归方程本节主要介绍 1 1经济变量之间的关系 1 2相关关系分类度量 1 3回归分析概念回归线回归函数1 4总体回归函数1 5随机扰动项1 6样本回归函数 1 1经济变量之间的关系确定的函数关系 y f x 不确定性的统计关系相关关系y f x u u为随机变量没有关系变量间的函数关系和相关关系在一定条件下可以互相转化 1 2相关关系 1 2 1分类只有两个变量简单相关三个及三个以上多重相关复相关线性相关非线性相关正相关负相关不相关正相关我国人均消费函数 Y为我国人均消费X为我国人均国民收入相关系数 0 98 200 400 600 800 1000 1200 0 500 1000 1500 2000 2500 Y X 负相关 Y与X的相关系数 0 92 20 30 40 50 60 70 80 0 10 20 30 40 Y X 不相关不排除存在曲线相关相关系数为 4 24E 18 Y X 1 2 2线性相关程度的度量线性相关系数总体相关系数样本相关系数使用相关系数要注意简单线性相关包含了其他变量的影响 X Y都是随机变量相关系数只说明其线性相关程度不说明其非线性关系也不反映他们之间的因果关系样本相关系数是总体相关系数的样本估计量相关系数具有对称性即相关系数取值区间 1 1 1 3回归分析和相关分析 1 3 1回归分析是对一个应变量对若干解释变量依存关系的研究其目的是由固定的解释变量去估计和预测应变量的平均值等 1 3 2回归函数回归线应变量Y的条件期望随着解释变量X的变化而有规律地变化把这种变化关系用函数表示出来就是回归函数回归函数在坐标系中用图形表示出来就是回归线它表示了应变量和解释变量之间的平均关系回归线图示注意一般地在重复抽样中解释变量被假定为固定的所以回归分析中解释变量一般当作非随机变量处理由于变量间关系的随机性回归分析关心的是根据解释变量的已知或给定值考察被解释变量的总体均值即当解释变量取某个确定值时与之统计相关的被解释变量所有可能出现的对应值的平均值例2 1 一个假想的社区有100户家庭组成要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系即如果知道了家庭的月收入能否预测该社区家庭的平均月消费支出水平 1 4总体回归函数为达到此目的将该100户家庭划分为组内收入差不多的10组以分析每一收入组的家庭消费支出 1 由于不确定因素的影响对同一收入水平X 不同家庭的消费支出不完全相同 2 但由于调查的完备性给定收入水平X的消费支出Y的分布是确定的即以X的给定值为条件的Y的条件分布 Conditionaldistribution 是已知的如 P Y 561 X 800 1 4 因此给定收入X的值Xi 可得消费支出Y的条件均值 conditionalmean 或条件期望 conditionalexpectation E Y X Xi 该例中 E Y X 800 561 分析描出散点图发现随着收入的增加消费平均地说也在增加且Y的条件均值均落在一根正斜率的直线上这条直线称为总体回归线概念在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线 populationregressionline 或更一般地称为总体回归曲线 populationregressioncurve 称为双变量总体回归函数 populationregressionfunction PRF 相应的函数回归函数 PRF 说明被解释变量Y的平均状态总体条件期望随解释变量X变化的规律含义函数形式可以是线性或非线性的例2 1中将居民消费支出看成是其可支配收入的线性函数时为一线性函数其中 0 1是未知参数称为回归系数 regressioncoefficients 1 4 2总体回归函数的表现形式条件均值形式如随机设定形式对于一定的 Y的各个个别值分布在的周围其差令为则对上例有也即 1 5随机扰动项 1 引入随机扰动项的目的2 随机扰动项代表模型中省略了的所有次要因素的综合作用3 根据中心极限定理随机扰动项服从正态分布4 通常模型由随机方程组成5 随机扰动项产生的原因为什么要引入随机扰动项模型中引入反映不确定因素影响的随机扰动项的目的在于使模型更符合客观经济活动实际干扰项是从模型中省略下来而又集体地影响着Y地全部变量地替代物简单线性需求函数不可能包罗万象地引入全部影响变量我们以最简单的线性需求函数为例进行分析 Qd b0 b1X1理论分析和实践经验表明某种商品需求量不仅趋近于价格而且趋近于替代商品的价格X2 消费者收入X3和消费者偏好X4等等将所有对需求量有影响的个变量引入方程 Qd b0 b1X1 b2X2 b3X3 b4X4 bkXk即使如此也还可能有其他次要因素影响需求量譬如社会风尚心理变化甚至天气等等总之不可能巨细无遗地全部都引入次要因素的综合效应是不能忽视的未引入的这些随机变量有的可以度量有些不可以度量在实际观测中有时发生影响有时又不发生影响记为随机变量Zi i 1 2 m 从个别意义上这些次要因素可能是不重要的但所有这些的综合效应是不能忽视的否则模型将与实际不符于是将它们也引入模型必须另外寻找解决问题的思路全部变量引入显然是不必要的计量经济学将这些或者次要或者偶然的或者不可测度的变量用一个随机扰动项来概括需求函数这是一个随机方程是随机变量Zj的线性组合也是一个随机变量它代表所有未列入模型的那些次要因素的综合影响由中心极限定理服从正态分布进一步分析相当于诸随机变量Zj的均值因此由中心极限定理无论Zj原来的分布形式如何只要它们相互独立 m足够大就会有趋于正态分布而且正态分布简单易用且数理统计学中研究的成果很多可以借鉴随机扰动项产生的原因 1 人类行为和客观现象的随机性引入的根本原因乃是经济活动是人类参与的而人类行为的内在随机性决定了不可能像科学实验那样精确此外还有社会环境和自然环境的随机性 2 模型省略了变量被省略的变量包含在随机扰动项中核心变量与周边变量 3 测量与归并误差测量误差致使观察值不等于实际值汇总也存在误差 4 数学模型形式设定造成的误差比如由于认识不足或者简化将非线性设定成线性模型 5 数据的欠缺 6 糟糕的替代变量 7 理论的含糊性随机扰动项产生的原因 1 6样本回归函数 SRF 问题能从一次抽样中获得总体的近似的信息吗如果可以如何从抽样中获得总体的近似信息问能否从该样本估计总体回归函数PRF 回答能例2 2 在例2 1的总体中有如下一个样本总体的信息往往无法掌握现实的情况只能是在一次观测中得到总体的一个样本核样本的散点图 scatterdiagram 样本散点图近似于一条直线画一条直线以尽好地拟合该散点图由于样本取自总体可以该线近似地代表总体回归线该线称为样本回归线 sampleregressionlines 记样本回归线的函数形式为称为样本回归函数 sampleregressionfunction SRF 这里将样本回归线看成总体回归线的近似替代则注意样本回归函数的随机形式样本回归模型同样地样本回归函数也有如下的随机形式由于方程中引入了随机项成为计量经济模型因此也称为样本回归模型 sampleregressionmodel 回归分析的主要目的根据样本回归函数SRF 估计总体回归函数PRF 注意这里PRF可能永远无法知道即根据估计 1 6 2对样本回归函数的说明每次抽样都能够获得一个样本就可以拟合一条样本回归线所以样本回归线随抽样波动而变化可以有多条样本回归线不是总体回归线只是未知总体回归线的近似 1 6 3残差定义那么有对上例有回归分析的思路样本样本回归函数的参数一定方法得出总体回归函数的参数近似看成是 SRF1 PRF2 观察参数的对应估计关系第二节简单线性回归模型的最小二乘估计 OLS 本节主要介绍 2 1简单线性回归模型的基本假定2 2普通最小二乘法 OLS 2 3OLS回归线的性质2 4最小二乘估计的统计性质 2 1简单线性回归的基本假定 2 1 1为什么要做基本假定参数估计量是随机变量只有在一定的假设条件下所作出的估计才具较好的统计性质只有对随机扰动项的分布作出假定才能确定所估计参数的分布的性质也才可能进行假设检验和区间估计 2 1 2假定的两个方面 1 关于变量和模型的基本假定是非随机的或者虽然是随机的但是与是不相关的无测量误差变量和函数形式设定正确假定的两个方面 2 关于随机扰动项也称高斯假定古典假定假定1零均值假定2同方差假定3无自相关假定4随机扰动项与不相关即假定5服从正态分布即注意正态性假定 5 不影响对参数的点估计所以可不列入基本假定且根据中心极限定理当样本容量无穷大时的分布趋近于正态分布但此假定对确定所估计参数的分布性质是需要的 2 1 3Y的分布性质由于所以的分布性质就决定了的分布性质对的一些假定可以等价地表示为对的假定零均值同方差无自相关正态性 2 2普通最小二乘法 OLS 基本思想数学过程估计结果 2 2 1最小二乘法的基本思想纵向距离是Y的实际值与拟合值之差称为拟合误差或残差差异大拟合不好差异小拟合好残差可正可负为克服加总时正负相消将其平方后相加得残差平方和最好直线就是使误差平方和最小的直线于是求最好拟合直线问题转换为求残差平方和最小可以运用求极值的原理求解三种距离返回数学形式 2 2 2最小二乘法的数学过程详见课本 2 2 3OLS估计结果的离差形式离差形式 OLS估计结果的离差形式样本回归函数的离差形式 2 2 4几个有用的结果可以用到以后计算证明过程中 2 3OLS回归线的性质 1 回归线过样本均值点2 残差和为零3 Y的真实值和拟合值有共同均值4 残差与自变量不相关5 残差与拟合值不相关 2 3 1回归线过样本均值由知即样本均值点满足回归线方程 2 3 2残差和为零由OLS数学过程直接可得且易推出残差的平均数也等于零 2 3 3Y的真实值和拟合值有共同的均值性质4 5 2 3 4残差与自变量不相关 Residualsareunrelatedwithindependentvariable 2 3 5估计残差与拟合值不相关 Residualsareunrelatedwithfittedvalueof 样本回归直线性质总结残差和 0 2 4最小二乘估计量的性质当模型参数估计出后需考虑参数估计值的精度即是否能代表总体参数的真值或者说需考察参数估计量的统计性质一个用于考察总体的估计量可从如下几个方面考察其优劣性 1 线性性即它是否是另一随机变量的线性函数 2 无偏性即它的均值或期望值是否等于总体的真实值 3 有效性即它是否在所有线性无偏估计量中具有最小方差 4 渐近无偏性即样本容量趋于无穷大时是否它的均值序列趋于总体真值 5 一致性即样本容量趋于无穷大时它是否依概率收敛于总体的真值 6 渐近有效性即样本容量趋于无穷大时是否它在所有的一致估计量中具有最小的渐近方差这三个准则也称作估计量的小样本性质拥有这类性质的估计量称为最佳线性无偏估计量 bestlinerunbiasedestimator BLUE 当不满足小样本性质时需进一步考察估计量的大样本或渐近性质 2 4 1线性最小二乘估计量是关于Yi的线性函数注意同2 2 4 2 4 2无偏性由2 2 4 知 2 4 3有效性证明太繁杂略以下只给出其方差 2 4 4参数的分布残差方差的估计由上知扰动项的方差通过样本估计为其中 n为样本容量 OLS参数估计量的有效性指的是在一切线性无偏估计量中 OLS参数估计量的方差最小 3 最大似然法最大似然法 MaximumLikelihood ML 也称最大或然法是不同于最小二乘法的另一种参数估计方法是从最大或然原理出发发展起来的其它估计方法的基础基本原理当从模型总体随机抽取n组样本观测值后最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大 ML必须已知随机项的分布 3 1 估计步骤 Yi的分布 Yi的概率函数 Y的所有样本观测值的联合概率似然函数对数似然函数对数似然函数极大化的一阶条件结构参数的ML估计量 3 2 讨论在满足一系列基本假设的情况下模型结构参数的最大似然估计量与普通最小二乘估计量是相同的但是分布参数的估计结果不同第四节回归系数的区间估计和假设检验本节主要介绍简单线性回归系数的分布及其标准化回归系数的区间估计回归系数的假设检验扰动项方差的区间估计 4 1回归系数的标准化 4 2回归系数的区间估计区间估计区间估计的概念步骤应用 1 已知扰动项方差对进行区间估计2 扰动项方差未知对进行区间估计大样本下小样本下 4 2 1区间估计的概念所谓区间估计就是以一定的可靠性给出被估计参数的一个可能的取值范围具体作法是找出两个统计量 1 x1 xn 与 2 x1 xn 使P 1 2 1 1 2 称为置信区间 1 称为置信系数置信度称为冒险率测不准的概率或者显著水平一般取5 或1 对区间估计的形象比喻我们经常说某甲的成绩大概80分左右可以看成一个区间估计某甲的成绩为被估计的参数 P 1 2 大概的准确程度 1 如 P 75 85 95 1 5 4 2 2区间估计的步骤 1 找一个含有该参数的统计量要求该统计量分布已知含待估参数除了待估参数外其余为已知量 2 构造一个概率为的事件 3 通过该事件解出该参数的区间估计 4 2 3已知扰动项方差对的区间估计 4 2 4未知扰动项方差对的区间估计 1 大样本下可以用代替有所以仍按已知方差作区间估计只不过把区间估计中的随机扰动的方差换成其估计值 2 小样本下区间估计统计量选择小结 4 2 5扰动项方差的区间估计对扰动项的区间估计使用的统计量为其余步骤相同 4 3回归系数的假设检验基本概念假设检验原假设备择假设置信水平假设检验的步骤应用的假设检验方差已知方差未知方差的假设检验 4 3 1假设检验的概念定义称对任何一个随机变量未知的分布类型或参数的假设为统计假设简称假设检验该假设是否正确称为假设检验在统计假设如H0 p 0 5 称为原假设 H1 p0 5 称为备择假设是假设检验中小概率事件发生的概率也称为置信水平 4 3 2假设检验的步骤 Step1 分析问题提出原假设和备择假设 Step2 选择和计算统计量U 在原假设成立时 U的分布已知含有要检验的参数各个参数应该都是已知的可求的 Step3 构造小概率事件 Step4 判断小概率事件是否发生 Step5 下结论若小概率事件发生拒绝原假设H0 选择备择假设H1 否则原假设成立假设检验的具体操作步骤已知方差检验为例 1 提出零假设H0 H1 3 确定显著水平如 0 05 查表得相应的临界值 24 判断和下结论若 U 2 拒绝H0 若 U 2 接受H0 判断区域图示 5 依据结论作出经济学上的解释 4 3 3假设检验中统计量的选择 4 3 4回归系数假设检验及意义回归系数的假设检验往往是检验检验的意义检验该系数是否显著进而检验对应的解释变量是否对应变量有解释作用第五节拟合优度的度量本节主要内容 4 1总变差总平方和的分解4 2可决系数4 3可决系数和相关系数的关系4 4自由度的分解问题的提出由最小二乘法所得直线确实能够对这些点之间的关系加以反映吗对这些点之间的关系或趋势反映到了何种程度于是必须经过某种检验或者找出一个指标在一定可靠程度下根据指标值的大小对拟合的优度进行评价 5 1总离差 1 总平方和回归平方和残差平方和2 总平方和的分解 5 1 1总平方和总变差回归平方和残差平方和的定义 TSS度量Y自身的差异程度 ESS度量因变量Y的拟合值自身的差异程度是总变差中由模型解释了的变差 RSS度量实际值与拟合值之间的差异程度是总变差中没有得到解释的变差 5 1 2平方和分解 TSS ESS RSS 平方和分解的意义 TSS ESS RSS被解释变量Y总的变动差异解释变量X引起的变动差异除X以外的因素引起的变动差异如果X引起的变动在Y的总变动中占很大比例那么X可以很好地解释了Y 否则 X不能很好地解释Y 5 2可决系数或称判定系数目的企图构造一个不含单位可以相互进行比较而且能直观判断拟合优劣的指标可决系数的定义指标含义可决系数越大自变量对因变量的解释程度越高自变量引起的变动占总变动的百分比高观察点在回归直线附近越密集可决系数续可决系数只是说明列入模型的所有解释变量对应变量的联合的影响程度不说明模型中单个解释变量的影响程度可决系数取值范围 0 1 对时间序列数据可决系数达到0 9以上是很平常的但是对截面数据而言能够有0 5就不错了可决系数达到多少为宜没有一个统一的明确界限值若建模的目的是预测应变量值一般需考虑有较高的可决系数若建模的目的是结构分析就不能只追求高的可决系数而是要得到总体回归系数的可信任的估计量可决系数高并不一定每个回归系数都可信任 5 3可决系数和相关系数的联系数值上可决系数等于应变量与解释变量之间简单相关系数的平方可决系数和相关系数的区别 5 4自由度的分解 1 什么是自由度 2 对应于平方和分解的自由度的分解自由度是指变量可以自由取值得个数例如我们要测量学生的身高X 随机抽取10名学生如果没有任何限制则X可以自由取值10个值自由度为10 但是如果我们限定10各同学的平均身高那么随机抽取9名后最后一名的身高则不能随意取值了此时自由度减少一个为10 1 9 这也是为什么我们在统计学里说修正的样本方差除以n 1 为总体方差的无偏估计量 4 4 1什么是自由度模型中样本值可以自由变动的个数称为自由度自由度样本个数样本数据受约束条件方程的个数例如样本数据个数为n 它们受k个方程的约束系数矩阵秩为k 那么自由度df n k 在计量经济学中对于一个包含k个解释变量的回归方程而言待估计的参数个数为k 1 包括常数项在我们根据最小残差平方和求偏导的过程中会得到 k 1 个方程构成的方程组这k 1个方程实际上构成了对残差的k 1个限制条件所以凡是涉及到残差构成的统计量自由度就会减少k 1个例如显著性检验中的t检验和f检验的自由度等例 TSS RSS ESS的自由度 4 4 2对应于平方和分解的自由度

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第二章-简单线性回归.ppt

文档简介

温馨提示

最新文档

评论

第二章-简单线性回归.ppt

文档简介

温馨提示

最新文档

评论

相关文档