版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.2.1一元线性回归模型8.2一元线性回归模型及其应用收集数据整理数据分析数据统计推断研究统计问题的一般流程:简单随机抽样分层抽样频数分布表频率分布直方图茎叶图散点图......众数中位数平均数方差标准差用样本估计总体???单一数据成对数据单一数据线性相关系数r......成对数据离散型随机变量......连续型随机变量(正态分布)复习回顾问题1:生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表1所示.编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182课堂探究…172…父亲身高…176174…儿子身高儿子身高不是父亲身高的函数思考1:根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182课堂探究思考1:根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182…170…儿子身高…173169…父亲身高父亲身高不是儿子身高的函数课堂探究.......
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,将表格中的成对样本数据表示为散点图,如下图所示:课堂探究思考2:经过刚才的分析,你觉得儿子身高与父亲身高的关系是怎样的?儿子身高与父亲身高不是函数关系,而是相关关系.追问:儿子身高与父亲身高的关系是正相关还是负相关?是线性相关还是曲线相关?
随着父亲身高的增加,儿子身高呈增加的趋势,所以是正相关.优先考虑线性相关.儿子身高与父亲身高呈正线性相关关系课堂探究思考3:能否进一步验证刚才的结论?
样本相关系数为:
表明儿子身高和父亲身高正线性相关,且相关程度较高.课堂探究≈0.886思考4:除父亲身高外,还有哪些因素影响儿子的身高?随机误差e母亲身高生活环境饮食习惯体育锻炼
……追问:如何理解随机误差e对儿子身高的影响?假设没有随机误差,则儿子身高x只受父亲身高Y影响,则事实上,相关系数,故也可以记作课堂探究思考5:随机误差e有哪些特征?随机误差e是一个随机变量
①可取正或取负②有些无法测量③不可事先设定课堂探究因为误差是随机的,即取各种正负误差的可能性一样,所以它们均值的理想状态应该为0.
追问1:为什么要假设E(e)=0,而不假设其为某个不为0的常数?课堂探究思考6:你能否考虑到上述随机因素的作用,用类似于函数的表达式,表达儿子身高与父亲身高的关系吗?我们称(1)式为Y关于x的一元线性回归模型.如果用x表示父亲身高,Y表示儿子身高,e表示随机误差.假定随机误差的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数.
函数模型与回归模型有什么区别?课堂探究为什么用大写的
Y,小写的
x?追问1:你能结合父亲与儿子身高的实例,说明回归模型(1)的意义?
追问2:对于父亲身高为xi的某一名男大学生,他的身高yi一定是bxi+a吗?课堂探究课本107页
在一元线性回归模型(1)中,参数b的含义是什么?解:参数b的含义可以解释为解释变量x对响应变量Y的均值的影响,变量x每增加1个单位,响应变量Y的均值将增加b个单位.
例如,教科书中父亲身高为175cm的儿子身高的均值比父亲身高为174cm的儿子身高的均值高出0.839cm.注意:因为响应变量Y最终取值,除了受变量x的影响,还要受随机误差e的影响,所以不能解释成解释变量x每增加一个单位,响应变量Y增加b个单位.牛刀小试(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差e的原因.产生随机误差e的原因有:追问3:你能结合具体实例解释产生模型(1)中随机误差项的原因吗?课堂探究8.2.2一元线性回归模型参数的最小二乘估计问题1:为了研究两个变量之间的相关关系,我们建立了一元线性回归模型表达式
刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,我们能否通过样本数据估计参数a和b?参数a和b刻画了变量Y与变量x的线性关系,因此通过样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
与函数模型不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数.课堂探究思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?思路1:先画出一条直线,测量出各点到直线的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就得到一条直线.160165170175180185儿子身高/cm父亲身高/cm190185180175170165160课堂探究思路2:可以在散点图中选两点画一条直线,使得直线两侧点的个数基本相同,把这条直线作为所求直线.160165170175180185儿子身高/cm父亲身高/cm190185180175170165160思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?课堂探究思路3:在散点图中多取几对点,确定出几条直线,再分别求出这些直线的斜率、截距的平均数作为所求直线的斜率和截距.160165170175180185儿子身高/cm父亲身高/cm190185180175170165160思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?课堂探究160165170175180185儿子身高/cm父亲身高/cm190185180175170165160设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,
(xn,yn).设表示点到直线的距离,表示点到直线的竖直距离,表示直线的倾斜角,则,所以思路1可以用中的距离可以用竖直距离替换.
由,得.显然越小,表示点
与点的“距离”越小,即样本数据点离直线的竖直距离越小.因此可以用这n个竖直距离之和来刻画各样本观测数据与直线的“整体接近程度”.
课堂探究求a,b的值,使Q(a,b)最小随机误差平方和:课堂探究思考2:如何求a,b的值,使
最小?记课堂探究注意到所以当取最小值时,取最小值0,即.此时课堂探究上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为综上,当a,b的取值为
时,Q达到最小.课堂探究易得:(1)经验回归直线必过样本中心;(2)与相关系数r符号相同.我们将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法,求得的,叫做b,a的最小二乘估计.课堂探究1、一元线性回归模型和经验回归方程有什么区别和联系?一元线性回归模型:含有未知参数和模型假设.经验回归方程:由样本数据估计出来的,依赖于样本数据.概念辨析问题2:利用上节课的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y关于父亲身高x的经验回归方程.利用公式(2)可以计算出b=0.839,a=28.957,得到儿子身高Y关于父亲身高x的经验回归方程为160165170175180185儿子身高/cm父亲身高/cm190185180175170165160相应的经验回归直线如下图所示:课堂探究追问1:当x=176时,,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右.如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值.
课堂探究追问2:根据经验回归方程
中斜率的具体含义,高个子的父亲一定生高个子的儿子吗?同样,矮个子的父亲一定生矮个子的儿子吗?
根据经验回归方程
中斜率0.839可以解释为父亲身高每增加1cm,其儿子的身高平均增加0.839cm.分析模型可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如x=185(cm),则矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如x=170(cm),则英国著名统计学家高尔顿把这种后代的身高像中间值靠近的趋势称为“回归现象”.后来,人们把由一个或多个变量的变化去推测另一个变量的变化的方法称为回归分析.课堂探究2、要正确理解经验回归方程的适用范围.总体是否发生变化时间是否发生变化取值范围是否变化预测的是子总体的均值,而且还可能有偏差概念辨析对于响应变量Y,通过观测得到的数据为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差,即.残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.概念新知思考:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗?
残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据或体重估计值等,这样作出的图形称为残差图.课堂探究
从上面的残差图可以看出,残差有正有负,残差点比较均匀地分布在横轴的两边,可以判断样本数据基本满足一元线性回归模型对于随机误差的假设.所以,通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设,从而判断回归模型拟合的有效性.
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如下图所示:课堂探究(1)(2)(3)追问:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?(4)图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;图(3)说明残差的方差不是一个常数,随观测时间变大而变大图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.课堂探究
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.2.残差的平方和越小越好;3.原始数据中的可疑数据往往是残差绝对值过大的数据;4.对数据刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内.1.残差等于观测值减预测值残差的性质:课堂探究x1234y1345例已知变量x,y有如下对应数据:(1)作出散点图;(2)用最小二乘法求关于x,y的经验回归方程.解:(1)散点图如下:典例精讲∴所求经验回归方程为解:(2)x1234y1345典例精讲求经验回归方程的步骤:总结提升
例1
经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高,由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(如下表),试根据这些数据建立树高关于胸径的经验回归方程.编号123456789101112胸径/cm18.120.122.224.426.028.329.632.433.735.738.340.2树高/cm18.819.221.021.022.122.122.422.623.024.323.924.7解:以胸径为横坐标、树高为纵坐标作散点图如图示.
散点大致分布在一条从左下角到右上角的直线附近,表明两个变量正线性相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.典例精讲用d表示胸径,h表示树高,根据最小二乘法,计算可得经验回归方程为编号123456789101112胸径/cm18.120.122.224.426.028.329.632.433.735.738.340.2树高/cm18.819.221.021.022.122.122.422.623.024.323.924.7相应的经验回归直线如图(1)所示.(1)
例1
经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高,由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(如下表),试根据这些数据建立树高关于胸径的经验回归方程.典例精讲编号胸径/cm树高观测值/m树高预测值/m残差/m118.118.819.4-0.6220.119.219.9-0.7322.221.020.40.6424.421.020.90.1526.022.121.30.8628.322.121.90.2729.622.422.20.2832.422.622.9-0.3933.723.023.2-0.21035.724.323.70.61138.323.924.4-0.51240.224.724.9-0.2计算残差:典例精讲以胸径为横坐标,残差为纵坐标,作残差图,如图(2)所示.作残差图:观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.00.51.0-0.5-1.0152025303540残差/m胸径/cm••••••••••••••45(2)典例精讲建立回归模型的步骤总结提升问题人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.951.画散点图:课堂探究由散点图可知,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.根据最小二乘法,由表中数据可得经验回归方程为2.求经验回归方程:将经验回归方程叠加到散点图,如图(3)所示.由图形可知,第一点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.(3)课堂探究
用ti表示编号为i的年份数据,用yi表示编号为i的纪录数据,则经验回归方程①和②的残差计算公式分别为两个经验回归方程的残差(精确到0.001)如下表所示.观察各项残差的绝对值,发现经验回归方程②远远小于①,即经验回归方程②的拟合效果要远远好于①.编号12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022课堂探究3.修改模型:对模型进行修改,以使其更好地反映散点的分布特征.仔细观察图形,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征.注意到100m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线的周围.其中c1和c2为未知参数,且c2<0.用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中c1,c2是待定参数.现在问题转化为如何利用成对数据估计参数c1和c2.课堂探究
为了利用一元线性回归模型估计参数c1和c2,我们引进一个中间变量x,令x=ln(t-1895).通过x=ln(t-1895),将年份变量数据进行变换,得到新的成对数据(精确到0.01),如下表所示.编号12345678x0.002.833.263.563.714.114.174.29Y/s11.8010.6010.4010.3010.2010.1010.009.95作出上表的散点图:由散点图可知,现在散点的分布呈现出很强的线性相关特征,故可以一元线性回归模型建立经验回归方程.课堂探究根据最小二乘法,可得新的经验回归方程为再在散点图中画出(*)式所对应的经验回归直线,如图(4)所示.(4)图(4)表明,经验回归方程(*)对于改进后的成对数据具有非常好的拟合精度.将图(4)与图(3)进行对比,可以发现x和Y之间的线性相关程度比原始样本数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中医诊断学实训课中医思维训练方法
- 2026年远程项目风险预警信号识别
- 2026年双减背景下学科类培训机构转型路径
- 2026年预制菜体验店创业投资计划
- 2026年实验室信息管理员岗位职责与技能
- 鱼骨图在供应链管理中的实施协议
- 2026年餐厨垃圾无害化处理及生物质天然气项目
- 2026年亲子沟通艺术与冲突化解
- 2026年幼儿园呕吐腹泻幼儿家庭护理
- 2026年水电设备更新改造市场机会
- 2026年广西真龙彩印包装有限公司笔试题及答案
- 河南资本集团笔试题库
- 2026湖北神农架林区公安局招聘辅警22人笔试备考试题及答案解析
- 2026菏泽特殊教育职业学校公开招聘人员(2人)考试模拟试题及答案解析
- 全国数据资源调查报告(2025年)
- 2026年ESG(可持续发展)考试题及答案
- 2026年防治碘缺乏病日宣传课件
- 身骑白马 SSA 三声部合唱谱
- 2026年高级社会工作师押题宝典题库及1套完整答案详解
- 2026年辅警转正考试时事政治试题及答案
- 2025年中国医学科学院基础医学研究所高等学校应届毕业生招聘工作人员6人笔试历年典型考题及考点剖析附带答案详解
评论
0/150
提交评论