31回归分析的基本思想及其初步应用123PPT教学课件_第1页
31回归分析的基本思想及其初步应用123PPT教学课件_第2页
31回归分析的基本思想及其初步应用123PPT教学课件_第3页
31回归分析的基本思想及其初步应用123PPT教学课件_第4页
31回归分析的基本思想及其初步应用123PPT教学课件_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、l 假设某地区从2003年到2012年的人均GDP(单位:美元)数据如表:l 能否根据提供的数据建立一个合适的模型,预报2014年(或2015年)的人均GDP是多少?年份年份人均人均GDPGDP2003200312001200200420041510151020052005187018702006200622102210200720072570257020082008300030002009200936703670201020104500450020112011543054302012201261006100第1页/共44页1.通过对实际问题的分析,了解回归分析的必要性 与回归分析的一般步骤;

2、了解线性回归模型与函 数模型的区别.(重点)2.尝试作散点图,求回归直线方程. (重点)3.能用所学的知识对实际问题进行回归分析,体会 回归分析的实际价值与基本思想;了解判断回归模型拟合好坏的方法相关指数和残差分析. (重点、难点)第2页/共44页探究点探究点1 1 回归分析的基本思想回归分析的基本思想 我我们们知知道道 , , 函函数数关关系系是是一一种种确确定定性性关关系系, ,而而相相关关关关系系是是一一种种非非确确定定性性关关系系. .回回归归分分析析(regression analysis)(regression analysis)是是对对具具有有相相关关关关系系的的两两个个变变量量

3、进进行行统统计计分分析析的的一一种种常常用用方方法法. .在在之之前前的的学学习习中中, ,我我们们对对两两个个具具有有线线性性相相关关关关系系的的变变量量利利用用回回归归分分析析的的方方法法进进行行了了研研究究 , ,其其步步骤骤为为画画散散点点图图, ,求求回回归归直直线线方方程程 , ,并并用用回回归归直直线线方方程程进进行行预预报报. .第3页/共44页 1122nnx ,y , x ,y, x ,y, 对于一组具有线性相关关系的数据我们知道其回归直线y =bx+a的斜率和截距的最小二乘估计分别为 1,121niiniiixxyyxxb aybx,2nniii 1i 111xx ,yy

4、 . x,ynn.?其中称为样本点的中心你能推导出这两个计算公式吗第4页/共44页n2iii 1,abQ,yx,. 从已经学过的知识我们知道 截距 和斜率 分别是使取最小值时的值 niiixyxyxyQ12,由于n2iiiii 12yxyx2 yxyxyxyx nn2iiiii 1i 12yxyx2yxyxyxn yx, 第5页/共44页xyxyxyniii1niiixyxyxy1nniii 1i 1yxyxn yx yxnyn xn yx0, 212,xynxyxyQniii所以注意到注意到第6页/共44页nn22iiii 1i 1n22ii 1xx2xxyyyyn yx 2niin22i

5、1in2i 1ii 1xxyyn yxxxxx .121221niiniiniiiyyxxyyxx第7页/共44页在上式中,后两项和,无关,而前两项为非负数,因此要使Q取得最小值,当且仅当前两项的值均为0,即取.,121xyxxyyxxniiniii.这正是我们所要推导的公式 下面我们通过案例,进一步学习回归分析的基本思想及其应用.第8页/共44页3 1例例1 1从从某某大大学学中中随随机机选选取取8 8名名女女大大学学生生, ,其其身身高高和和体体重重数数据据如如表表所所示示. .-5943616454505748kg/170155165175170157165165cm/87654321体

6、重体重身高身高编号编号求求根根据据女女大大学学生生的的身身高高预预报报体体重重的的回回归归方方程程, ,并并预预报报一一名名身身高高为为172 cm172 cm的的女女大大学学生生的的体体重重. .由由于于问问题题中中要要求求根根据据身身高高预预报报体体重重, ,因因此此选选取取身身高高为为自自变变量量 x, x,体体重重为为因因变变量量 y. y.作作散散点点图图( (图图3.13.1解解:-1):-1):3 1表表 -第9页/共44页图3.1 - 1.1 - 1从从图图3.1-13.1-1中中可可以以看看出出, ,样样本本点点呈呈条条状状分分布布, ,身身高高和和体体重重有有比比较较好好的

7、的线线性性相相关关关关系系, ,因因此此可可以以用用回回归归直直线线y = bx+ay = bx+a来来近近似似刻刻画画它它们们之之间间的的关关系系. .身高身高/cm/cm体重体重/kg/kg12b0.849a85.712. y0.84985.712. x 根据探究中的公式()和( ),可以得到,于是得到回归方程第10页/共44页 b = 0.849 b = 0.849是是回回归归直直线线的的斜斜率率的的估估计计值值, ,说说明明身身高高x x每每增增加加1 1个个单单位位, ,体体重重y y就就增增加加0.8490.849个个单单位位, ,这这表表明明体体重重与与身身高高具具有有正正的的线

8、线性性相相关关关关系系. .为身身高高172 cm172 cm的的女女大大学学生生的的体体重重一一定定是是60.316 kg60.316 kg吗吗? ?如如果果不不是是, ,你你能能解解释释一一下下思思考考:原原因因吗吗? ? 所所以以, ,对对身身高高为为172 cm172 cm的的女女大大学学生生, , 由由回回归归方方程程可可以以预预报报其其体体重重为为 y = 0.849 172-85.712 = 60.316 y = 0.849 172-85.712 = 60.316(kgkg). .第11页/共44页在 显显然然, ,身身高高为为172 cm172 cm的的女女大大学学生生的的体体

9、重重不不一一定定是是60.316 kg60.316 kg,但但一一般般可可以以认认为为她她的的体体重重60.316 kg60.316 kg左左右右. .图图3.1-23.1-2中中的的样样本本点点和和回回归归直直线线的的相相互互位位置置说说明明了了这这一一点点. .体重体重/kg/kg第12页/共44页 从从散散点点图图中中还还看看到到,样样本本点点散散布布在在某某一一条条直直线线的的附附近近, ,而而不不是是在在一一条条直直线线上上,所所以以不不能能用用一一次次函函数数 y = bx+a y = bx+a来来描描述述它它们们之之间间的的关关系系. .这这时时我我们们把把身身高高和和体体重重的

10、的关关系系用用下下面面的的线线性性回回归归模模型型 y = bx+a+e y = bx+a+e(3 3) ,来表示2 2这这里里a a和和b b为为模模型型的的未未知知参参数数,e,e是是y y与与bx + abx + a之之间间的的误误差差. .通通常常e e为为随随机机变变量量, ,称称为为随随机机误误差差, ,它它的的均均值值E e= 0,E e= 0,方方差差D e=D e= 0. 0.这这样样线线性性回回归归模模型型的的完完整整表表达达式式为为 : :第13页/共44页 2ybxae,E e0,D e. (4 4) 预报随机误差是引起的精度越高预报真实值用越小的方差随机误差中在线性回

11、归模型.,4 2yabxe yy,. 值 与真实值 之间存在误差的原因之一 其大小 取决于随机误差的方差 ,12ab,ab, yy. 另一方面由于公式和中 和 为截距和斜率的估计值 它们与真实值和之间也存在误差 这种误差是引起预报值 与真实值 之间存在误差的另一个原因第14页/共44页产产生生随随机机误误差差项项e e的的原原思思考考: :因因是是什什么么? ? 实实际际上上, ,一一个个人人的的体体重重值值除除了了受受身身高高的的影影响响外外, ,还还受受其其他他许许多多因因素素的的影影响响. .例例如如饮饮食食习习惯惯、是是否否喜喜欢欢运运动动、度度量量误误差差等等. .另另外外, ,我我

12、们们选选用用的的线线性性模模型型往往往往只只是是一一种种近近似似的的模模型型. .所所有有这这些些因因素素都都会会导导致致随随机机误误差差e e的的产产生生. .第15页/共44页,ey,?x在在线线性性回回归归模模型型中中 是是用用b +ab +a预预报报真真实实值值 的的随随机机误误差差 它它是是一一个个不不可可观观测测的的量量 那那么么应应该该怎怎样样研研究究随随机机误误差差 如如何何衡衡量量探探预预报报的的精精度度究究 ybxa 在在实实际际应应用用中中,我我们们用用回回归归方方程程 ybxa.ey(bxa),eyye.中中的的 估估计计(4 4)中中的的由由于于随随机机误误差差所所以

13、以是是 的的估估计计量量 1122nniiix ,y, x ,y, x ,y,eybxa,i1,2,n.对对于于样样本本点点而而言言 相相应应它它们们的的随随机机误误差差为为第16页/共44页其其估估计计值值为为iiiiiiiieyyybxa,i1,2,n, ex ,y. ,称称为为相相应应于于点点(的的残残 ) 差差第17页/共44页思考:如何发现数据中的错误?如何衡量模型的拟思考:如何发现数据中的错误?如何衡量模型的拟合效果?合效果? 可以通过残差发现原始数据中的可疑数据,判可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果断所建立模型的拟合效果. . 表表3-23-2列出了女

14、大学生列出了女大学生身高和体重的原始数据以及相应的残差数据身高和体重的原始数据以及相应的残差数据. .382.0883.2627.6137.1618.4419.2627.2373.6e 5943616454505748kg/170155165175170157165165cm/87654321残差残差体重体重身高身高编号编号表3-2第18页/共44页3.1-3我我们们可可以以利利用用图图形形来来分分析析残残差差特特性性 作作图图时时纵纵坐坐标标为为残残差差 横横坐坐标标可可以以选选为为样样本本编编号号 或或身身高高数数据据或或体体重重估估计计值值等等 这这样样作作出出的的图图形形称称为为残残差

15、差图图 图图是是以以样样本本编编号号为为横横坐坐标标的的残残差差图图 .,.第19页/共44页 从图从图3.1-33.1-3中可以看出,第中可以看出,第1 1个样本点和第个样本点和第6 6个样本个样本点的残差比较大,需要确认在采集这两个样本点的过程点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误中是否有人为的错误. .如果数据采集有错误,就予以纠如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因采集没有错误,则需要寻找其他的原因. .另外,残差点另外,残差点比较均匀地落

16、在水平的带状区域中,说明选用的模型比比较均匀地落在水平的带状区域中,说明选用的模型比较合适较合适. .这样的带状区域的宽度越窄,说明模型拟合精这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高度越高,回归方程的预报精度越高. .第20页/共44页2n2ii2i 1n2ii 1,R,yy:R1.yy另另外外 我我们们还还可可以以用用相相关关指指数数来来刻刻画画回回归归的的效效果果其其计计算算公公式式是是 222,R,., R.R1,. 显显然然取取值值越越大大 意意味味着着残残差差平平方方和和越越小小 也也就就是是说说模模型型的的拟拟合合效效果果越越好好在在线线性性回回归归模

17、模型型中中表表示示解解释释变变量量对对于于预预报报变变量量变变化化的的贡贡献献率率越越 接接近近于于表表示示回回归归的的效效果果越越好好第21页/共44页2 22 22 2 在在例例1 1中中,R,R 0.64,0.64,表表明明 女女大大学学生生的的身身高高解解释释了了64%64%的的体体重重变变化化 , ,或或者者说说 女女大大学学生生的的体体重重差差异异有有64%64%是是由由身身高高引引起起的的 .R.R 是是常常用用的的选选择择模模型型的的指指标标之之一一,在在实实际际应应用用中中应应该该尽尽量量选选择择R R 大大的的回回归归模模型型. .“”“”用用身身高高预预报报体体重重时时

18、需需要要注注意意下下列列问问题题,:1.1.回回归归方方程程只只适适用用于于我我们们所所研研究究的的样样本本的的总总体体. .例例如如, ,不不能能用用女女大大学学生生的的身身高高和和体体重重之之间间的的回回归归方方程程, ,描描述述女女运运动动员员的的身身高高和和体体重重之之间间的的关关系系. .同同样样, ,不不能能用用生生长长在在南南方方多多雨雨地地区区的的树树木木的的高高与与直直径径之之间间的的回回归归方方程程, ,描描述述北北方方干干旱旱地地区区的的树树木木的的高高与与直直径径之之间间的的关关系系. .第22页/共44页2.2.我我们们所所建建立立的的回回归归方方程程一一般般都都有有

19、时时间间性性. .例例如如, ,不不能能用用2020世世纪纪8080年年代代的的身身高高、体体重重数数据据所所建建立立的的回回归归方方程程来来描描述述现现在在的的身身高高和和体体重重之之间间的的关关系系. .3.3.样样本本取取值值的的范范围围会会影影响响回回归归方方程程的的适适用用范范围围. .例例如如, ,我我们们的的回回归归方方程程是是由由女女大大学学生生身身高高和和体体重重的的数数据据建建立立的的, ,那那么么用用它它来来描描述述一一个个人人幼幼儿儿时时期期的的身身高高和和体体重重之之间间的的关关系系就就不不恰恰当当.(.(在在例例1 1的的回回归归方方程程中中, ,解解释释变变量量x

20、 x的的样样本本的的取取值值范范围围为为155155175,175,而而用用这这个个方方程程计计算算x =70 x =70时时的的y y值值, ,显显然然不不合合适适.).)第23页/共44页4.,.不不能能期期望望回回归归方方程程得得到到的的预预报报值值就就是是预预报报变变量量的的精精确确值值事事实实上上 它它是是预预报报变变量量的的可可能能取取值值的的平平均均值值一一般般地地, ,建建立立回回归归模模型型的的基基本本步步骤骤为为: :(1 1) 确确定定研研究究对对象象, , 明明确确哪哪个个变变量量是是解解释释变变量量, ,哪哪个个变变量量是是预预报报变变量量(2 2) 画画出出解解释释

21、变变量量和和预预报报变变量量的的散散点点图图, ,观观察察它它们们之之间间的的关关系系(如如是是否否存存在在线线性性关关系系等等)第24页/共44页(4 4) 按按一一定定规规则则( ( 如如最最小小二二乘乘法法) )估估计计回回归归方方程程中中的的参参数数(5 5) 得得出出结结果果后后分分析析残残差差图图是是否否有有异异常常( (如如个个别别数数据据对对应应残残差差过过大大, ,残残差差呈呈现现不不随随机机的的规规律律性性等等),),若若存存在在异异常常, ,则则检检查查数数据据是是否否有有误误, ,或或模模型型是是否否合合适适等等. .(3 3) 由由经经验验确确定定回回归归方方程程的的

22、类类型型( (如如我我们们观观察察到到数数据据呈呈线线性性关关系系, ,则则选选用用线线性性回回归归方方程程)第25页/共44页探究点探究点2 2 回归分析的初步应用回归分析的初步应用测关于例例2 2一一只只红红铃铃虫虫的的产产卵卵数数y y和和温温度度x x有有关关. .现现收收集集了了7 7组组观观数数据据列列于于表表3-33-3中中, ,试试建建立立yxyx的的回回归归方方程程. .根根 据 据 收 收 集 集 的 的 据 据 作 作 散 散 ( (3.1-4)3.1-4):. .解解数数 点点 图图 x / 21 23 25 2729 3235y/7112124 66 115 325温

23、度产卵数个表表3-33-3第26页/共44页在图3.1-4中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,不能直接利用线性回归模型来刻画两个变量之间的关系. 图3.14温度/产卵数产卵数/ /个个第27页/共44页2c x112 ,yc e,cc.根据已有的函数知识 可以发现样本点分布在某一条指数函数曲线的周围 其中 和 是待定参数1212 ,cc .,zln y, zbxa(alnc ,bc ).,yx.现在 问题变为如何估计待定参数 和我们可以通过对数变换把指数关系变为线性关系 令则变换后样本点应该分布在直线的周围这样 就可以利用线性回归模型来建立 关于的非线性回归方程

24、 了当回归方程不是形如y=bx+a(a,bR)时,称之为非线性回归方 程.第28页/共44页由表3 - 3的数据可以得到变换后的样本数据表3 - 4,图3.1 - 5给出了表3 - 4中数据的散点图.从图3.1 - 5中可以看出, 变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.784.5745.4190.4178.3045.3398.2946.1z35322927252321x表343.15图x xz z第29页/共44页4 z0.272x3.849.由表3中的数据得到线性回归方程 10.272x 3.849 ye. 5234342 ,-4yc xc,cc. ,tx ,yt

25、,yx.另一方面 可以认为图3.1 中样本点集中在某二次曲线的附近 其中和为待定参数 因此可以对温度变量做变换 即令然后建立 与 之间的线性回归方程 从而得到 与 之间的非线性回归方程因此红铃虫的产卵数关于温度的非线性回归方程为第30页/共44页 表3 - 5是红铃虫的产卵数和对应的温度的平方,图3.1 - 6是相应的散点图.325115662421117y12251024841729625529441t表35.1 6图3t ty y第31页/共44页234 .1 6,yt,yc xcyx.从图3中可以看出 与 的散点图并不分布在一条直线的周围因此不宜用线性回归方程来拟合它 即不宜用二次函数来

26、拟合 与 之间的关系这个结论还可以通过残差分析得到 ,. yx,yx. 35yt为比较两个不同模型的残差 需要建立两个相应的回归方程 前面已经建立了 关于 的指数回归方程 下面建立 关于 的二次回归方程 用线性回归模型拟合表中的数据,得到 关于 的线性回归方程 222 y0.367t202.543,yx y0.367x202.543.6即关于的二次回归方程为第32页/共44页 i 56.x3 31i 1,56可以通过残差来比较两个回归方程和的拟合效果用 表示表中第 行第列的数据 则回归方程和的残差计算公式分别为 i110.272x3.849iiiieyyye,i 1,2,7; 222iiiii

27、eyyy0.367x202.543,i1,2,7. 12x212325272932 35y711212466115 325 e0.5570.101 1.8758.9509.230 13.381 34.675 e47.69619.4005.83241.00040.10458.265 77.96836表第33页/共44页 222 ,. ,. R. R. 656R0.980.8056 .在一般情况下比较两个模型的残差比较困难 原因是在某些样本点上一个模型的残差的绝对值比另一个模型的小 而另一些样本点的情况则相反 这时可以用来比较两个模型的拟合效果越大,模型的拟合效果越好 由表3容易算出模型和的分别约

28、为和,因此模型的拟合效果好于模型 表36给出了原始数据及相应的两个回归方程的残差. 从表中的数据可以看出模型 5 的残差的绝对值显然比模型 6 的残差的绝对值小,因此模型 5 的拟合效果比模型 6 的拟合效果好.第34页/共44页1. 有下列说法:在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.用相关指数R2来刻画回归的效果, R2值越大,说明模型的拟合效果越好.比较两个模型的拟合效果,可以比较相关系数的大小,相关系数越大的模型,拟合效果越好.其中正确命题的个数是()A.0B.1C.2D.3C第35页/共44页2.2.一位母亲记录了儿子一位母亲记录了儿子3 39 9岁

29、的身高,由此建立的身岁的身高,由此建立的身高与年龄的回归模型为高与年龄的回归模型为y=7.19x+73.93y=7.19x+73.93,用这个模型预用这个模型预测这个孩子测这个孩子1010岁时的身高,则正确的叙述是(岁时的身高,则正确的叙述是( ) A.A.身高一定是身高一定是145.83 cm B.145.83 cm B.身高在身高在145.83 cm145.83 cm以上以上 C.C.身高在身高在145.83 cm145.83 cm以下以下 D.D.身高在身高在145.83 cm145.83 cm左右左右D 第36页/共44页3.3. 在研究身高和体重的关系时,求得相关指数在研究身高和体重的关系时,求得相关指数 _ _,可以叙述为,可以叙述为“身高解释了身高解释了64%64%的的体重变化,而随机误差贡献了剩余的体重变化,而随机误差贡献了剩余的36%”,36%”,所以身所以身高对体重的效应比随机误差的效应大得多高对体重的效应比随机误差的效应大得多. .2R64. 0第37页/共44页4.4.以下是某地搜集到的新房屋的销售价格y y和房屋的面积x x的数据:房屋面积房屋面积 11011090908080100100120120销售价格销售价格(万元)(万元)333331312828343439392(m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论