21知识讲解回归分析的基本思想及其初步应用文、理_第1页
21知识讲解回归分析的基本思想及其初步应用文、理_第2页
21知识讲解回归分析的基本思想及其初步应用文、理_第3页
21知识讲解回归分析的基本思想及其初步应用文、理_第4页
21知识讲解回归分析的基本思想及其初步应用文、理_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。2. 能作出散点图,能求其回归直线方程。3. 会用所学的知识对简单的实际问题进行回归分析。【要点梳理】 要点一、变量间的相关关系1. 变量与变量间的两种关系:(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S与半径r之间的关系S=n r2为函数关系.(2) 相关关系:这是一种非确定性关系当一个变量取值一定时,另一个变量的取值带有一定的随 机性,这两个变量之间的关系叫做相关关系。例如人的身高不能确定体重,但一般来说“身高者,体重也

2、 重”我们说身高与体重这两个变量具有相关关系.2. 相关关系的分类:(1) 在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量;(2) 两个变量均为随机变量,如某学生的语文成绩与化学成绩.3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图它直观地描述了两个变量之间 有没有相关关系这是我们判断的一种依据.4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫 做回归分析。要点二、线性回归方程:1 .回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这

3、条直线叫作回归直线。2 回归直线方程? bX对于一组具有线性相关关系的数据(x1, yj , (x2, y2) , , (xn, yn),其回归直线? 依 ?的截距和斜率的最小二乘法估计公式分别为:n_(Xi x)(yi y) _b?七,召y be(为 x)2i 1其中x表示数据Xi(i=1 , 2,,n)的均值,y表示数据 屮(i=1, 2,,n)的均值,xy表示数据Xiyi (i=1 , 2,,n)的均值.a、$的意义是:以a为基数,x每增加一个单位,y相应地平均变化$个单位.要点诠释:回归系数n_(Xi x)(yi y) i 1n(Xii 1,也可以表示为nXiyi nxyi 1,这样更

4、便于实际计算。Xix)2n2xi 1-2 nxXn);1 n yin i 1-(yi y2nyn)。(x, y)称为样本中心点,回归直线?bx必经过样本中心点(x, y)。回归直线方程? a bx中的b表示1计算 x(x, x2 LnXn) , y -(Y1 y2 LnYn),nxyin2X1X2y2L Xnyn , X2X12X2LX增加1个单位时?的变化量,而召表示?不随X的变化而变化的量。3求回归直线方程的一般步骤: 作出散点图由样本点是否呈条状分布来判断两个量是否具有线性相关关系,若存在线性相关关系, 进行第二步。 求回归系数b、召nXi yi nx y利用公式i?求出b,2_2Xin

5、xi 1再由自y bX求出b的值; 写出回归直线方程; 利用回归直线方程 b a bX预报在x取某一个值时y的估计值。要点诠释:一般地,我们可以利用回归直线方程进行预测,但这里所得到的值是预报值,而不是精确值,它带有 很大的随机性,可能对于某一次的实际值而言会有很大的出入,这是因为:(1)回归直线的截距 a和斜率b都是通过样本估计出来的,存在随机误差,这种误差可以导致预测x的预报值b能够与实际值y很接近。结果的偏差。(2)即使截距和斜率的估计没有误差,也不可能保证对应于我们不能保证点(x , y)落在回归直线上,甚至不能保证它落在回归直线的附近,事实上,y x? ,这里 是随机变量,预报值 y

6、与实际值y的接近程度由随机变量决定。尽管我们利用回归直线方程所得到的值仅是一个预报值,它具有随机性,但它是我们根据统计规律所 得到的结论,因而结论正确的概率很大。故我们可以放心地利用回归直线方程进行预测。要点三、相关性检验(1) 相关系数r的定义对于变量x与y随机抽取到的n对数据(,yj,(x2,y2), ,(xn,yn),称(x x)(yiy)i 1ni 1(xx)2(yii 1y)22 n 2 nx )( (y2i 1-2ny )为x与y的样本相关系数。(2) 相关系数r的作用样本相关系数r用于衡量两个变量之间是否具有线性相关关系,描述线性相关关系的强弱: |r | 1|r |越接近1,表

7、明两个变量之间的线性相关程度越强;|r|越接近0,表明两个变量之间的线性相关程度越弱。 当r > 0时,表明两个变量正相关,即x增加,y随之相应地增加,若 x减少,y随之相应地减少.当rv 0时,表明两个变量负相关,即x增加,y随之相应地减少;若 x减少,y随之相应地增加.若r=0 ,则称x与y不相关。 当|r | 0.75,认为x与y之间具有很强的线性相关关系。 当| r |大于ro.os时,表明有95%勺把握认为x与y之间具有线性相关关系,这时求回归直线方程有必要也有意义,当|r| r0.05时,寻找回归直线方程就没有意义。(3) 利用相关系数r检验的一般步骤:法一: 作统计假设:x

8、与y不具有线性相关关系。 根据样本相关系数计算公式算出r的值。 比较|r |与0.75的大小关系,得出统计结论。如果|r | 0.75,认为x与y之间具有很强的线性相关关系。法二: 作统计假设:x与y不具有线性相关关系。 根据样本相关系数计算公式算出r的值。 根据小概率0.05与n-2在相关性检验的临界值表中查出r的一个临界值r0.05 (n未数据的对数) 比较|r |与ro.05,作统计推断,如果|r | 6。5,表明有95%勺把握认为x与y之间具有线性相关关系。如果| r | ro.05,我们没有理由拒绝原来的假设,即不认为x与y之间具有线性相关关系。这时寻找回归直线方程是毫无意义的。要点

9、四、线性回归分析与非线性回归分析1线性回归分析对于回归分析问题,在解题时应首先利用散点图或相关性检验判断x与y是否具有线性相关关系,如果线性相关,才能求解后面的问题否则求线性回归方程没有实际意义,它不能反映变量x与y,之间的变化规律只有在 x与y之间具有相关关系时,求线性回归方程才有实际意义.相关性检验的依据:主要利用检验统计量nxy xySXSyXN nxyr 卜 n_ n_J (Xi X)2 (y y)2.i 1i 1(其中化简式容易记也好用)求出检验统计量的样本相关系数,再利用r的性质确定x和y是否具有线性相关关系,r具有的性质为:|r| < 1且|r|越接近于1,线性相关程度越强

10、;|r|越接近于0,线性相 关程度越弱.2.线性回归分析的一般步骤(1) 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2) 判断两变量是否具有线性相关关系 作散点图由样本点是否呈条状分布来判断两个量是否具有线性相关关系。 求相关系数r当| r | 0.75,认为x与y之间具有很强的线性相关关系。(3) 若两变量存在线性相关关系,设所求的线性回归方程为? 孜 £,求回归系数I?、?。(4) 写出回归直线方程;(5) 利用回归直线方程 ? a bx预报在x取某一个值时y的估计值。3 非线性回归分析(1) 对于非线性回归分析问题,如果给出了经验公式可直接利用换元,使新元与y

11、具有线性相关关系,进一步求出,对新元的线性回归方程,换回x即可得y对x的回归曲线方程.(2) 非线性回归问题有时并不给出经验公式,这时按以下步骤求回归方程: 画出已知数据的散点图,看是否是线性回归分析问题,如果不是,把它与必修数学中学过的函数(幕 函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,采用适当的变量置换,把非线性回归分析问题化为线性回归分析问题. 作相关性检验,即判断寻找线性回归方程是否有意义. 当寻找线性回归方程有意义时,计算系数$, $,得到线性回归方程. 代回x得y对x的回归曲线方程.【典型例题】【高清课堂:回归分析的基本思想及其初步应用407591

12、例题1】类型一、禾U用散点图判断两个变量的线性相关性例1 在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y与腐蚀时间x的一组数据如下表所示.x/秒510152030405060y /微米610111316171923(1) 画出散点图.(2) 根据散点图,你能得出什么结论?【思路点拨】利用散点图,直观地归结出相关关系的两个变量所具备的特点.【解析】(1)如图所示散点图.2010; * *b jL>i.ik.10 20 30 44 50 60 x(2)结论:设x与y是具有相关关系的两个变量,且相应于n组观测值的n个点大致分布在一条直线附近,其中整体上与这 n个点最接近的一条直线最能代表x与y

13、之间的关系.【总结升华】 解决此类问题,最直观也最直接的方法就是画散点图。如果散点图中的点分布在一条直线附近,那 么就可判断两个变量之间具有近似的线性相关关系。可进一步对它进行回归分析。 解决本题的关键是正确建立坐标系,合理地选取单位长度准确地描出所有点,然后观察散点图中的 点呈现在一条直线附近即说明二者具有线性相关关系。解决此类题目,由于有时数据较大,在建立平面直 角坐标系时,若单位长度确定不合适,往往容易造成描点的困难。因此必须选择适当的单位长度。举一反三:【变式1】给出x与y的数据如下:x24568y3040605070画出散点图,并由图判断 x、y之间是否具有线性相关关系。【答案】散点

14、图如图所示:RO70«60«504030«20L0Ji J|*012 3 4 5 6 7 8从图中可以看出,各点散布在一条直线附近,即可认为x与y具有线性相关关系。【变式2】 如图所示的5组数据中,去掉 点,剩下的4组数据的线性相关系数最大.T*£(1042)*D(3t10)Z(2,4)o:【答案】D,由本图的直观性可得。【变式3】如下表所示,某地区一段时间内观察到的大于或等于某震级x的地震个数为 N,试画出散点图,并由图判断x、N之间是否具有线性相关关系。震级33.23.43.63.844.24.44.64.85.0地震数283812038014795

15、10695764155023842269819191356973震级5.25.45.65.866.26.46.66.87地震数74660443527420614898574125【答案】由表中数据得散点图如下:从散点图中可以看出,震级x与大于该震级的地震次数N之间不呈线性相关关系,随着x的减少,所考察的地震数N近似地以指数形式增长.类型二、运用样本相关系数r检验线性相关关系例2.下表是随机抽取的8对母女的身高数据,试根据这些数据探讨 y与x之间的关系.母亲身咼x/cm154157158159160161162163女儿身高y/cm155156159162161164165166【思路点拨】相对

16、于用散点图检验相关性,利用相关系数r,检验两个变量之间的线性相关关系的强弱更 为准确。【解析】所给数据的散点图如图所示:由图可以看出,这些点在一条直线附近,因为X154157 L1638159.25,y 155 156 L 1668 161,822222Xii 18(x)154L1638159.2559.5,82 yi8( y)21552L166281612116,i 115215415615816C162164:8 8 L 163 166 8 159冈58顽115401551515 L1631613561668 18591259.25511680 80 ,i 1 i 1所以r80.59.5

17、1160.963由检验水平0.05及n 26,在附录2中查得r0.050.707 ,因为0.963 0.707,所以可以认为x与y之间具有较强的线性相关关系.【总结升华】(1) 讨论x与y之间的线性相关关系,一般称之为相关性检验。一般地,相关性检验是讨论线性回归模型的第一步。当|r| 0.75时,可以认为两个变量有很强的线性相关关系,此时,建立线性回归模型是有意义的,其他情况下,建立线性回归模型意义就不大了,基本上没有什么价值。(2) 相关系数r的计算公式:nXi y nx yn_n_X2 n(X)2yi2 n G)2i 1i 1n(Xii 1n_(Xi x)2i 1ix)( yiy)(yi

18、y)21(3) 利用相关系数r检验两个变量之间的线性相关关系的强弱的步骤:运用公式求出相关系数 r;比较I r I与0.75的大小关系,得出统计结论。如果 I r I 0.75,认为x与y之间具有很强的线性相关关系。举一反三:【变式1】给出x与y的数据如下:x24568y3040605070判断x与y的线性相关性。【答案】相关性检验:_5x 5, y 50,xi yi 5xy 130,i 12Xi5(x)252 220, y 5(y)1000,i 1所以rXiyii 15xy5(x)252yi5(y)2130.20 10000.919 。因为|r | 0.9190.75,所以x与y之间有很强的

19、线性相关关系。【变式2】10名学生,要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中随机抽取 分析他们入学的数学成绩和高一年级期末数学考试成绩如下表:学生编号12345678910入学成绩x63674588817152995876高一期末成绩y65785282928973985675计算入学成绩x 与亍咼期末成绩y的相关系数;【答案】(1)因为11x63 67 L 7670,Y65 78 L 75101010_ 102Lxy(Xii 1x)(yiY) 1894,Lxx(Xi 1x)2474,102Lyy(Yii 1y)2056 1076,(xx)(yy)因此求得相关系数为

20、i 1结果说明这两组数据的相关程度是比较高的。类型三、求线性回归方程例3.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:房屋面积M11511080135105精售价格万元24. 321. 618. 429. 222(1) 画出数据对应的散点图;(2) 求线性回归方程,并在散点图中加上回归直线;【思路点拨】本题考查如何求回归直线的方程,可先把有关数据用散点图表示出来,若这些点大致分布在 通过散点图中心的一条直线附近,说明这两个变量线性相关,从而可利用我们学过的最小二乘估计思想及 计算公式求得线性回归直线方程。【解析】(1)数据对应的散点图如图所示:1 XX2(Xi x) 1570,i

21、 1(2) XXi109_5_y 23.2,1 Xy(Xi X)(yi y) 308i 10.1962 x 1.8166设所求回归直线方程为y bx a,则b1 xy1 XX3080.19621570308a ybx23.21091.81661570故所求回归直线方程为 y【总结升华】如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模。举一反三:【变式1】下面是两个变量的一组数据。X12345678y1491625364964求x与y两个变量之间的回归直线方程。【答案】根据表中的数据,可以计算出有关数据,列成下表。序号Xiyi2 XiXiyi11111224483399274

22、4161664552525125663636216774949343886464512刀36204204129688204 ,Xiyi 1296。i 1y 1 20425.5,81 364.58所以有8xy所以bXiyii 1-2X 8xi 11296 8 4.5 25.5204 8 4.52b?X 25.5 94.515 。于是回归直线方程为 ?15 9x。【高清课堂:回归分析的基本思想及其初步应用407591例题1】【变式2】从某大学中随机选取 8名女大学生,其身高和体重数据如下表所示:打de【答 案】 所给 数据 的散 点图 如 图:编号12345678身高/cm165165157170

23、175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重计算器得;芥-85712,2 7呂49 V故线性回归方程当工=172时!J; = 0.849x172-35.712=60.316(%).j = 0 349x-35.712<类型四、线性回归分析及应用例4.近几年来,随着我国经济的发展,汽车已进入普通百姓家中根据某汽车协会资料统计,国产某种型 号家庭轿车的使用年限 x (年)和所支出的维修费用y (千元),如下表:使用年限/年23456维修费用/千兀2.23.85.56.57.0(1)

24、求出相关系数r,并根据所求的r判断两个变量之间的线性相关关系的强弱;(2) 试求出回归直线方程,若某家庭购得此型号的汽车,请你为他们估计一下使用年限为10年时, 维修费用是多少?【思路点拨】通过求出相关系数 r,从而判断出是否具有相关关系;再求回归方程,从而进行回归预测.【解析】(1)根据公式,求得r疋0.9792 > 0.878,故两个变量之间有较强的线性相关关系.(2)设所求的回归方程为y扱a.则5_Xi y 5xy_$ 弋1.23 , $ y $X 0.08,5 2yXi 5xi 1即所求的回归直线方程为$ 1.23x 0.08 .当x=10时,代入回归直线方程得 $=12.38,

25、所以传计使用年限为10年时,维修费用是 1.238万元.【总结升华】求x与y的回归直线方程,应首先判断x与y是否具有线性相关关系,如果直接求x与y的回归直线方程,它就没有任何实际价值,也就不能准确反映变量x与y之间的变化规律.举一反三:x (吨)与相应的生产【变式1】下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量能耗y (吨标准煤)的几组对照数据。x3456y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y? b?x ?;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤。试根据(2)求出的线性回归方程,预测

26、生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3X 2.5+4 X 3+5X 4+6X 4.5=66.5 )【答案】(1 )由题设所给数据,可得散点图如图所示:f妙吨标准煤04(2)计算得4i186,x4.5,y2.5 3 4 4.53.5,466.5 ,已知xi yii 1所以,由最小二乘法确定的回归方程的系数为0.7 ,4_紬 4xy I-2 /一 1 86 4 4.5xi 4x66.5 4 4.5 3.5? y bx 3.5 0.7 4.50.35 。因此,所求的线性回归方程为y? 0.7x 0.35。(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降

27、低的生产能耗为 90 - (0.7 X 100+0.35)=19.65 (吨标准煤)【变式2】 测得某地10对父子身高(单位:英寸)如下:父亲身60626465666768707274高(X)儿子身高(y)63.665.26665.566.967.167.468.370.170如果x与y之间具有线性相关关系,求线性回归方程如果父亲的身高为78英寸,试估计儿子的身高.10244842.4,Xi2 44794,i 1【答案】解法一:先将两个变量的有关数据在表中计算出来,如下表所示:序号Xiyi2Xi2yiXiyi16063.636004044.96381626265.238444251.04404

28、2.43646640964356422446565.542254290.254257.556666.943564475.614415.466767.144894502.414495.776867.446244542.764583.287068.349004664.89478197270.151844914.015047.21074705476490051806686709344842.4由表中数据可计算,x 668 66.8,勺 6701 67.01,紗1010i 110i 12 yi44941.93,代入公式$10Xiyii 1"702Xii 110xy1

29、0x244842.4 10 66.8 67.0144794 10 66.820.4646 所以171.6$ y b$X 67.01 0.4646 66.835.975 因而所求得线性回归方程为:$ 0.4646X 35.975 当x=78时,$ 0.4646 78 35.975 72.2138 72.2 所以当父亲的身高为 78英寸时,估计儿子的身高 约为72.2英寸.【变式3】已知某地每单位面积菜地年平均使用氮肥量x ( kg)与每单位面积蔬菜年平均产量y (t )之间的关系有如下数据:年份19851986198719881989199019911992x/ kg70748078859290

30、95y/15.16.06.87.89.010.210.012.0年份1993199419951996199719981999x/ kg92108115123130138145y/111.511.011.812.212.512.813.0(1 )求x与y之间的相关系数,并检验是否线性相关;(2)若线性相关,求蔬菜产量y与使用氮肥量x之间的回归直线方程,并估计每单位面积施肥 150 kg时,每单位面积蔬菜的年平均产量.【答案】(1)使用样本相关系数计算公式来完成.(2)先作统计假设,由小概率0.05与n 2在附表中查得相关系数临界值r 0.05,若r > 0.05贝V线性相关,否则不线性相关

31、.列出下表,并用科学计算器进行相关计算:i12345678Xi7074807885929095yi5.16.06.87.89.010.210.012.0Xiyi357444544608.4765938.49001140i9101112131415Xi92108115123130138145yi11.511.011.812.212.512.813.0Xiyi1058118813571500.616251766.4188515_ _xyi 15x y(1)ri 1yll5y2i 115 2 2 xi 15xi 116076.8 15 101 10.11 760.15.(161125 15 1012

32、)(1628.55 15 10.112)879.45由小概率0.05与n 2=13在附表中查得r0.05=0.514 ,|r| > r0.05 x 与 y 线性相关.回归直线方程为多 =0093 7x+0646 3 .15_ _Xi y 15x y16076.8 15 101 10.1120.0937 ,22161125 15 101xi 15xi 1a y $x 10.11 0.0937 101 0.6463.回归直线方程为 $0.0937x 0.6463.当每单位面积施肥150 kg时,每单位面积蔬菜的年平均产量为0.0937 X 150+0.6463=14.7013 14.7(t)

33、.类型五、 非线性回归的转化例5.在一化学反应过程中某化学物质的反应速度y g/min与一种催化剂的量 x g有关,现收集了8组数据列于表中,试建立 y与x之间的回归方程.催化剂量x/ gi5i82i2427303336化学物质反应速度y/( g/min)6830277020565350【思路点拨】 两个变量不一定是线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法将非线性关系转化为线性回归模型.【解析】 根据收集的数据作散点图:J400350A300250200150100-50* a * -一 42 15 18 21 24 27 30 33 36 39x/g根据样本点

34、分布情况,可选用两种曲线模型来拟合.(1)可认为样本点集中在某二次曲线y=Cix2+C2的附近.令t=x2,则变换后样本点应该分布在直线,y=bt+a (b=ci, a=C2)的周围.由题意得变换后的t与y的样本数据表如下:t22532444157672990010891296y6830277020565350作y与x的散点图.375 .300 225 *15Q 2X5 373 525 67J S23 975 1 125 I 275 1 425由y与t的散点图可观察到样本数据点并不分布在一条直线的周围,因此不宜用线性回归方程$a来拟合,即不宜用二次曲线y=cix2+c2来拟合y与x之间的关系.(2)根据x与y的散点图也可以认为样本点集中在某一条指数型函数曲线yCieC2x的周围.令 z In y,贝y z C2x In g ,即变换后样本点应该分布在直线z=bx+a (a=lnci, b=C2)的周围,由y与x数据表可得z与x的数据表x1518212427303336z1.7922.0793.4013.2964.2485.3234.1745.858作出z与x的散点图.40 x30g6斗20101520由散点图可观察到大致在一条直线上,所以可用线性回归方程来拟合它.由z与x的数据表,得到线性回归方程,$=0.1812x 0.8485 ,所以非

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论