人教A版高中数学选择性必修第三册 一元线性回归模型参数的最小二乘估计 课件_第1页
人教A版高中数学选择性必修第三册 一元线性回归模型参数的最小二乘估计 课件_第2页
人教A版高中数学选择性必修第三册 一元线性回归模型参数的最小二乘估计 课件_第3页
人教A版高中数学选择性必修第三册 一元线性回归模型参数的最小二乘估计 课件_第4页
人教A版高中数学选择性必修第三册 一元线性回归模型参数的最小二乘估计 课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

L通过用数学方法刻画散点与直线接近的程度,体会一元线性回归模型参数的最小二乘估计原理,能推导参数估计公式;2.通过对残差和残差图的分析,能用残差判断一元线性回归模型的有效性.3.核心素养:直观想象、数据分析、数学运算.1.一元线性回归模型\八~、2Y称为因变量或响应变量x称为自变量或解释变量e是Y与bx+a之间的随机误差•a称为截距参数b称为斜率参数2元线性回归模型与函数模型的区别□顾旧知[E(e)=O,Q(e)=/.二探究新知二探究新知1.问题L为了研究两个变量之间的相关关系,我们建立了一元线性回归模型表达式!二版2刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,我们能否通过样本数据估计参数a和b?与函数不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数.参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条宣虫最接近.2问题2问题2.我们怎样寻找一条〃最好〃的直线,使得表示成对样本数据的这些散点在整体上与这条直线?从成对样本数据出发,用数学的方法刻画利用点到直线疙bx+a的〃距离"来刻画散点与该直线的接近程度,然后用所有〃距离"之和刻画所有样本观测数据与该直线的接近程度.我们设我们设满足一元线性回归模型的两个变量的n对样本数据为(xizYi)z(x2,y2),…,(Xn,yn)儿子身高/cm由其+&+与(,=1,2,3,•••,〃),得y广(Zzx,+。)=乌.显然乌越小,表示点3,y)与点(改,g+a)的距离越小,即样本数据点离直线y二bx+a的竖直距离越小,如上图特别地,当&=0时,表示点(改,乂)在这条直线上.因此可用£|y厂(妊+。)|来刻画各样本观测数据与直线y=bx+a的整体接近程度.££|乂•—(妩+口)|残差平方和:Q(a,b)=Z[必-㈣+“)]2求a,b的值,使Q(a,b)最小记工=£改,"〃,=in,=1」一一言X)77(4T七七七—螳u—一一—HI'(-2Kg13Ha==H『—m」一一言X)77(4T七七七—螳u—一一—HI'(-2Kg13Ha==H『—ml/)^lHgfTIII+II+TI()xaI学『胃—■◎?/g')+J。5qI辰如尽<JG+<HI—IIMlT〈u一wX(I)|><4|-'^57)&Iw=7JIn0HQ(々,Z?)=£[(y—y)一+n[{y-bx)-af当Q(o,Z?)取最小时,n[(y-bx)-af取最小值0,即a-y-bx此时,O(m)=2皿—y)一雄•一舟-x)2-2力£(光f)(乂-y)+Z(N-y)2上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为n (X,.-x)(y.py)b=心n£(X,-X)2♦n♦n3.最小二乘法<£(改—x)2S,x:—nx—我们将y=bx+a称为匕关于x的经验归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法.-经验回顾直线必经过(x,y)方与,符号相同-y)N"j=0.839x+28.9571).当x=176时,尸177,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右.2).根据经验回归方程2).根据经验回归方程y=0.839x+28.957中斜率的具体含义,高个子的父亲一定生高个子的儿子吗?同样,矮个子的父亲一定生矮个子的儿子吗?根据经验回归方程y=0.839x+28.957中斜率0.839可以解释为父亲身高每增加1cm,其儿子的身高平均增加0.839cm.由模型可以发现,高个子父亲A55.判断模型拟合的效果:残差分析⑴残差的定义一元线性回归模型y=for+Q+e,对于响应变量匕通过观测得到的数据y称为观测值,通过经验回归方程得到的宁称为预报值,观测值减去预报值称为残差即2=y我们可以通过残差21,&,...,2“来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.)665531799”-)665531799”-____残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身局数据或体重估计值等,这样作出的图形称为残差图.从上面的残差图可以看出,残差有正有负,残差点比较均匀地分布在横轴的两边,可以判断样本数据基本满足一元线性回归模型对于随机误差的假设.所以,通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设,从而判断回归模型拟合的有效性.----------------f—.___■-----------------•乂歹间/cm•♦号123456789父亲身高cm69686.问题3:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗?413-4104—074833452735-197707350091—0231-3655p2KM-15532023儿子身高晚烈依cm!71587170748173265168.231残差cm儿子身高预测值/cm__5432io5432io"mL一一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.根据根据一元线性回归模型中对随机误差的假定,残差应是均值为0,方差为的随机变量的观测值.图Q)显示残差与观测时间有线性关系,应将时间变量纳入模型;图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;图(3)说明残差的方差不是一个常数,随观测时间变大而变大图⑷的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.所以,只有图(4)满足一元线性回归模型对随机误差的假设LL残差等于观测值减预测值;2.残差的平方和越小越好;3.原始数据中的可疑数据往往是残差绝对值过大的数据;4.对数据刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内.44.已知变量x,Y之间具有线性相关关系,其散点图如图所示,则其经验回归方程可能为(B)A.y=lA.y=l.5x+2J.0••••X观察残差表和残差图,观察残差表和残差图,可以看到残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.以胸径为横坐标,残差为纵坐标,作残差图,得到下图.年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图在左图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.用Y用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为:=-0.02033743^+49.76913031将经验回归直线叠加到散点图,得到下图::从图中可以看到,■经验回归方程较好地刻画了散点的变化趋丁,势,请再仔细观察图',■.形,你能看出其中存在的问题吗?第一个世界纪录所对应第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的皿,中间时间段的散点都在经验回归直线的序这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.你能对模型进行修改,你能对模型进行修改,以使其更好地反映散点的分希特征吗?仔细观察右图,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征注意到100m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=f(t)=Ci+C2ln(t-1895)的周围,其中Ci、为未知参数/且C2<0.yy=f(t)=c1+c2ln(t-1895)这是一个非线性经验回归函数,如何利用成对数据估计参数%c2令x=ln(t-1895),则Y=c2x+c1对数据进行变化可得下表:编号12345678年份/t18961912192119301936195619601968X0.00工.83土3.26少3.563.71Jl.ll4.174.29iu^c/s11.8010.6010.4010.3010.2010.1010.009.95.11.5--11.0—-得到散点图如下:y2=-0.4264398%+11.8012653]0.5-5~~5~;-10.0-%.--由表中的数据得到经验回归方程为:o12o1234Q5,------------------1--5上图表明,经验回归方程对于成对数据具有非上图表明,经验回归方程对于成对数据具有非常好的拟合精度.将x=ln(t-1895)代入:y2=-0.4264398x+11.8012653y2=-0.42643981n(Z-1895)+11.8012653将经验回归直线叠加到散点图,得到下图:y2=-0.4264398x+l1.8012653对对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?%=-0.4264398a:+11.8012653@=-0.4264398ln(r-1895)+11.8012653②.(1)直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).我们发现,散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.88282Q]=£(&)qO.669,Q2=£(血)«0.004Q2明显小于Q,说明非线性回归方程的拟合效果要优于线性回归方程. (2).残差分析:残差平方和越小,模型拟合效果越好.%=-0.4264398%+11.8012653①力=—0.4264398In。—1895)+11.8012653②(3.)利用决定系数R(3.)利用决定系数R2刻画回归效果.力=-0.42643981+11.8012653①%=-0.4264398ln(-1895)+11.8012653②)=1_残差平方和一5、2一总偏差平方和o①和②的R2分别为0.7325和0.9983R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.显然&R2Q,R2越接近1,则线性回归刻画的效果越好.在一元线性回归模型中R2”2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.在使用经验回归方程进行预测时在使用经验回归方程进行预测时,需注意以下问题L回归方程只适用于我们所研究的样本的总体;2.我们所建立的回归方程一般都有时间性;3.样本采集的范围会影响回归方程的适用范围;4.不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可耶值的平均值.66.建立线性回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量.(2)画出解释变量与响应变量的散点图,观察它们之间的关系(如是否存在线性关系等).⑶由经验确定回归方程的类型.(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.(5)得出结果后需进行线性回归分析.①残差平方和越小,模型的拟合效果越好.②决定系数R2取值越大,说明模型的拟合效果越好.注意:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.6_6__6_6_经计算得:Z(xE(y-y)=557,Zs-x)2=84,£(y,-y)2=3930,i=lZ=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论