版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、8.2.2 一元线性回归模型参数的最小二乘法估计复习回顾1.一元线性回归模型2.一元线性回归模型与函数模型的区别Y称为因变量或响应变量,x称为自变量或解释变量,e是Y与bx+a之间的随机误差a称为截距参数,b称为斜率参数. 在一元线性回归模型中,表达式Y=bx+a+e刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计. 由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近. 探究!利用前面的散点图找出一条直线,使各散点在整体上与此
2、直线尽可能接近. 有的同学可能会想,可以采用测量的方法,先画出一条直线,测量出各点到直线的距离,然后移动直线,到达一个使距离的和最小的位置 . 测量出此时的斜率和截距,就得到一条直线 有的同学可能会想,可以在散点图中选则这样的两点画一条直线,使得直线两侧点的个数基本相同,把这条直线作为所求直线如图所示. 还有的同学会想,在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距如图.同学们不妨去实践一下,看看这些方法是不是真的可行. 上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径. 先进一步明确我们面临的任务: 从成
3、对样本数据出发,用数学的方法刻画“从整体上看, 各散点与直线最接近”. 通常,我们会想到利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度. 我们设满足一元线性回归模型的两个变量的n对样本数据为(x1 , y1),(x2 , y2),(xn , yn),由yi=bxi+a+ei (i=1,2,n),得|yi(bxi+a)|=|ei|.由yi=bxi+a+ei (i=1,2,n),得|yi(bxi+a)|=|ei|. 显然|ei|越小,表示点(xi,yi)与点(xi,bxi+a)的“距离”越小,即样本数据点离直线y=bx+
4、a的竖直距离越小,如图所示.特别地,当ei=0时,表示点(xi,yi)在这条直线上.来刻画各样本观测数据与直线y=bx+a的“整体接近程度”. 因此可以用这n个竖直距离之和 在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和刻画 “整体接近程度”. 在上式中, xi,yi (i=1,2,n)是已知的成对样本数据,所以Q由a和b所决定,即它是a和b的函数.这个和当然越小越好. 所以我们取使Q达到最小的a和b值, 作为截距a和斜率b的估计值.Q越小越好. 下面利用成对样本数据求使Q取最小值的a和b. 上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值
5、为时, Q达到最小.综上,当a, b的取值为 我们将 称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法相应的经验回归直线如图所示. 显然不一定,因为还有其他影响儿子身高的因素,父亲的身高不能完全决定儿子的身高. 不过, 我们可以作出推测, 当父亲的身高为176cm时, 儿子身高一般在177cm左右. 实际上,如果把这所学校父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值. 分析模型可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,
6、例如 矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如 根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲身高一样?你怎么看这个判断? 例如,对于前表中的第6个观测,父亲身高为172cm,其儿子身高的观测值为y6=176cm,预测值类似地,可以得到其他残差,如下表所示 残差是随机误差的估计结果,通过对残差的分析可判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.编号父亲身高/cm儿子身高观测值/cm儿子身高预测值/cm残差/cm1174176174.9431.0572170176171.5874.413
7、3173170174.1044.1044169170170.7480.7485182185181.6553.3456172176173.2562.7357180178179.9771.9778172174173.2560.7359168170169.9090.09110166168168.2310.23111182178181.6553.65512173172174.1042.10413164165166.5531.55314180182179.9772.023 为了使数更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如下图所示. 观察残差表可以看到,残差有正有负,残差的绝对值
8、最大是4.413. 观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边 , 说明残差比较符合一元线性回归模型的假设 ,是均值为0, 方差为2的随机变量的观测值. 可见,通过观察残差图可以直观判断模型是否满足一元线性回归模的假设. 一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析 . 借助残差分析还可以对模型进行改进 , 使我们能根据改进模型作出更符合实际的预测与决策. 思考? 观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定? 根据一元线性回归模型中对随机误差的假定,残差应是均值为0,方差为2的随机变量的观测值. 图(1)显示残差与观测时间有线性关系 , 应将时间变量纳入模型; 图(2)显示残差与观测
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三分一工作制度
- 发展赏工作制度
- 三项工作制度
- 华教育工作制度
- 不定点工作制度
- 刘亦菲工作制度
- 创全工作制度
- 2026 年中职给排水(水质检测)试题及答案
- 安全生产月海报
- 电梯施工安全培训
- 人教部编版五年级语文下册《清贫》教学课件
- 2026年消防工作计划及重点整治工作
- 2025年提前招生社会工作笔试题及答案
- 中国精神分裂症等防治指南2025版
- 生产计划与控制培训课件
- 2025广东深圳市优才人力资源有限公司招聘聘员8人(派遣至龙城街道)备考题库附答案
- 2025年智能制造工厂自动化升级项目可行性研究报告
- 医院人事科日常工作规范及操作流程
- 国家基层糖尿病防治指南(2025年)学习与解读
- 2025年六盘水辅警协警招聘考试真题及答案详解(名校卷)
- 2025年江苏省事业单位招聘考试综合类专业能力测试试卷计算机类
评论
0/150
提交评论