




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章最小二乘法(一),一元线性回归,2,问题的提出必要性,通过协方差或相关系数证实变量之间存在关系,仅仅只是知道变量之间线性相关的性质正(负)相关和相关程度的大小。既然它们之间存在线性关系,接下来必须探求它们之间关系的表现形式是什么?最好用数学表达式将这种关系尽可能准确、严谨的表示出来y=a+bx+u把它们之间的内在联系挖掘出来。也就是直线中的截距a=?;直线的斜率b=?消费=基本生存+边际消费倾向X可支配收入+随机扰动项,3,解决问题的思路可能性,寻找变量之间直线关系的方法多多。于是,再接下来则是从众多方法中,寻找一种优良的方法,运用方法去求出线性模型y=a+bx+u中的截距a=?;直线的斜率b=?正是是本章介绍的最小二乘法。根据该方法所得,即表现变量之间线性关系的直线有些什么特性?所得直线可靠吗?怎样衡量所得直线的可靠性?最后才是如何运用所得规律变量的线性关系?,4,最小二乘法产生的历史,最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)达尔文的表弟所创。早年,道尔顿致力于化学和遗传学领域的研究。他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。,5,最小二乘法的地位与作用,现在回归分析法已远非道尔顿的本意已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。后来,回归分析法从其方法的数学原理误差平方和最小(平方乃二乘也)出发,改称为最小二乘法。,6,父亲们的身高与儿子们的身高之间关系的研究,1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式下图是根据1078个家庭的调查所作的散点图(略图),8,“回归”一词的由来,从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”见1889年F.Gallton的论文普用回归定律。后人将此种方法普遍用于寻找变量之间的规律,9,最小二乘法的思路,1为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值,才不至于以点概面(作到全面)。2Y与X之间是否是直线关系(协方差或相关系数)?若是,将用一条直线描述它们之间的关系。3在Y与X的散点图上画出直线的方法很多。任务?找出一条能够最好地描述Y与X(代表所有点)之间的直线。4什么是最好?找出判断“最好”的原则。最好指的是找一条直线使得这些点到该直线的纵向距离的和(平方和)最小。,10,三种距离,11,距离是度量实际值与拟合值是否相符的有效手段,点到直线的距离点到直线的垂直线的长度。横向距离点沿(平行)X轴方向到直线的距离。纵向距离点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。这个差数以后称为误差残差(剩余)。,12,最小二乘法的数学原理,纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。,13,数学推证过程,14,关于所得直线方程的结论,结论之一:由(5)式,得即拟合直线过y和x的平均数点。结论之二:由(2)式,得残差与自变量x的乘积和等于0,即两者不相关。,15,第一节拟合直线的性质,1估计残差和为零2Y的真实值和拟合值有共同的均值3估计残差与自变量不相关4估计残差与拟合值不相关,16,1估计残差和为零(ResidualsSumtozero),由(1)式直接得此结论无须再证明。并推出残差的平均数也等于零。,17,2Y的真实值和拟合值有共同的均值(Theactualandfittedvaluesofyihavethesamemean),18,3估计残差与自变量不相关(Residualsareunrelatedwithindependentvariable),19,4估计残差与拟合值不相关(Residualsareunrelatedwithfittedvalueofyi),20,关于回归直线性质的总结,21,第二节拟合优度的评价,22,问题的提出,由最小二乘法所得直线究竟能够对这些点之间的关系加以反映吗?对这些点之间的关系或趋势反映到了何种程度?于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。分四个问题进行讨论:平方和分解、方差分析、拟合优度、拟合优度与简单相关系数的关系。,23,一、平方和与自由度的分解,1、总平方和、回归平方和、残差平方和的定义2、平方和的分解3、自由度的分解,24,1、总平方和、回归平方和、残差平方和的定义,TSS度量Y自身的差异程度,RSS度量因变量Y的拟合值自身的差异程度,ESS度量实际值与拟合值之间的差异程度。,25,2、平方和的分解,26,平方和分解的意义,TSS=RSS+ESS被解释变量Y总的变动(差异)=解释变量X引起的变动(差异)+除X以外的因素引起的变动(差异)如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。,27,3、自由度的分解,总自由度dfT=n-1回归自由度dfR=1(自变量的个数,k元为k)残差自由度dfE=n-2自由度分解dfT=dfR+dfE,28,平方和分解图,29,为什么回归平方和是由X引起的变动,30,二、方差分析,模型:y=a+bx+u=LS估计:y=a+bxH0:b=0HA:b0,31,关于F检验,零假设H0:b=0备择HA:b0H0:b=0RSS中的X不起作用,RSS变动无异于随机变动=分子方差与分母方差是一回事=F=1如果F显著地大于1,甚至FF=小概率事件发生了,根据小概率原理,小概率事件在一次试验中是不可能发生的,于是H0不成立。就不能认为X没有作用。则直线是有意义的。可靠性=1-,32,三、拟合优度(或称判定系数、决定系数),目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣。拟合优度的定义:意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。取值范围:0-1,33,拟合优度与F统计量之间的联系,F显著=拟合优度必然显著,34,四、拟合优度等于实际值与拟合值之间简单相关系数的平方,35,第三节复习与提高,y=a+bx+uxn+1yn+1xnynx2y2x1y1,根据已知样本采用LS得一拟合直线,拟合直线性质:残差和=0残差与自变量无关拟合值与残差值无关两个平均数均值相等,R20,TSSRSSESSR2,R21,用直线反映总体,Good?,no,Yes,36,案例分析一:教科书LX1P82,教学目的:1掌握依据已有序列生成新的序列2掌握模型函数形式设定对估计结果的影响3掌握估计参数的性质,37,案例分析二:LX1HXQ50我国人均消费函数研究,教学目的:1掌握最小二乘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业种植技术知识试题及答案
- 电厂技术部长面试题及答案
- 辅警教育培训课件
- 农业银行2025白银市秋招笔试性格测试题专练及答案
- 交通银行2025西安市秋招笔试价值观测评题专练及答案
- 2025年3D打印技术的快速成型技术
- 2025年3D打印的建筑技术
- 交通银行2025秋招笔试综合模拟题库及答案山西地区
- 交通银行2025内江市秋招笔试综合模拟题库及答案
- 中国银行2025通辽市笔试行测高频题及答案
- 医美注射类知识培训课件
- 高速公路文明施工文物保护保证体系及保证措施
- 监理部总控制计划
- 软件可行性报告范文
- 压裂泵往复密封动态磨损机理及失效自愈控制技术研究
- 消除三病反歧视培训
- 脑转移瘤的治疗进展
- 脚手架工安全技术交底(完整版)
- 接触网运行与检修 课件全套 薛艳红 第1-9章 电气化铁道概述-高速铁路接触网精测精修
- 2024-2030年中国抗衰老产品和服务行业市场发展趋势与前景展望战略研究报告
- 酒店实美学 课件全套 杨卉 第1-13章 酒店美学概述-酒店服务之美
评论
0/150
提交评论