人教版高中数学选修(1-2)1.1.3回归分析基本思想及其初步应用第三课时_第1页
人教版高中数学选修(1-2)1.1.3回归分析基本思想及其初步应用第三课时_第2页
人教版高中数学选修(1-2)1.1.3回归分析基本思想及其初步应用第三课时_第3页
人教版高中数学选修(1-2)1.1.3回归分析基本思想及其初步应用第三课时_第4页
人教版高中数学选修(1-2)1.1.3回归分析基本思想及其初步应用第三课时_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

选修1-2

1.1.3回归分析基本思想及其初步应用第三课时(谷杨华)

一、教学目标

1.核心素养:

通过学习回归分析的基本思想及其初步应用,初步形成基本的数据分析能力.

2.学习目标

(1)1.1.3.1温习线性回归模型,.理解建立回归模型的基本步骤.

(2)1.1.3.2通过非线性回归分析,能将非线性回归模型转化为线性回归模型.

(3)1.1.3.3通过非线性回归分析,判断几种不同模型的拟合程度.

3.学习重点

通过非线性回归分析,能将非线性回归模型转化为线性回归模型.

4.学习难点

通过非线性回归分析,判断几种不同模型的拟合程度

二、教学设计

(一)课前设计

1.预习任务

任务1

阅读教材P6—P8,思考在回归分析中,建立回归模型的基本步骤是什么?

任务2

当两个变量不呈线性相关关系时,如何建立回归模型?

2.预习自测

1.有下列数据:

X123

y35.9912.01

下列四个函数中,模拟效果最好的为()

A.y=3x2'T

B.y=log,x

C.y=3x

D.y=x2

解:

2.已知回归方程$=2x+l,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平

方和是()

A.0.01

B.0.02

C.0.03

D.0.04

解:C

(二)课堂设计

1.知识回顾

____

AAAA—>)工七毛一〃》,Aa

(1)线性回归方程:y=bx+a,其中.i------——=号......-,a=y-bx

£(西-幻2一〃1

/=1i=l

(2)线性回归模型:产法+a+e其中。和人为模型的未知参数,e称为随机误差.

(3)数据点和它在回归直线上相应位置的差异是随机误差的效应,称

6=y-y:(i=l,2,3,…,n)为残差.由%=.玉+a,得已=y(.-hx,.-a(z=1,2,3,…,〃).

t(x-UA

(4)相关系指数:甯=1-号....—

E(y,--y)2

i=\

(5)R2是刻画回归效果的量,除了表示回归模型的拟合效果,也表示解释变量和预报变量

的线性相关关系(在线性回归模型中).R2越大,说明残差平方和越小,模型的拟合效果越好,

在线性回归模型中,f越接近于1,回归的效果越好(因为心越接近于1,表示解释变量和

预报变量的线性相关性越强)

2.问题探究

问题探究一建立回归模型的基本步骤是什么?

•活动一归纳提升,总结一般方法

例1某城区为研究城镇居民月家庭人均生活费支出和月人均收入的相关关系,随机抽

取10户进行调查,其结果如下:

月人均收入X/元3003904205205707007608008501080

月人均生活费y/元255324335360450520580600630750

试预测人均月收入为1100元和人均月收入为1200元的两个家庭的月人均生活费.

【知识点:线性回归,线性相关关系】

详解:作出散点分布图如图,由图可知,月人均生活费与人均收入之间具有线性相关关系.

__101010

通过计算可知x=639,>=480.4,=4610300,2=2540526,Z%y=3417560,

i=li=li=\

10___

aa_

所以。=鼻--------------®0.6599.a=y-bx^58.751,

22

fxy-10x

/=1

所以回归直线方程为y=0.6599x+58.751.

计算相关系数得『0.993136,故月人均收入与月人均生活费之间具有显著相关关系.

作残差图如图,由图可知,残差点比较均匀地落在水平的带状区域中,说明选用的模型

比较合适.

t

30

20

10

O

—10

-20

-30

-40

-50

计算相关指数得R?=0.9863,说明城镇居民的月人均生活费的差异有98.63%是由月人均

收入引起的.

由以上分析可知,我们可以利用回归方程R0.6599X+58.751.来作为月生活费的预报值.

将x=1100代入回归方程得>=784.59元;将x=1200代入回归方程得y=850.58元.

故预测月人均收入分别为1100元和1200元的两家庭的月人均生活费分别为784.59元和

850.58元.

点拨:建立回归模型的基本步骤

(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.

(2)画出解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系等).

(3)由经验确定回归方程的类型(如果我们观察到诗句呈线性关系,则选用线性回归方程).

(4)按一定的规则(如最小二乘法)估计回归方程中的参数.

(5)得出结论后分析残差图是否有异常(如个别数据对应的残差绝对值过大,残差呈现不随

机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.

问题探究二若两变量为非线性相关关系,如何建立回归模型?|重点、难点知识C

•活动一整合旧知,发现新问题

当两个变量呈线性相关关系时,我们通过模拟线性回归模型,用回归分析的基本思想对

两个变量进行研究.若当有些变量间的关系并不是线性相关,怎样确定回归模型?

例2一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建

立y与x之间的回归方程.

编号1234567

温度x/℃21232527293235

产卵数y/个711212466115325

【知识点:线性回归,线性相关关系】

详解:根据收集数据,作散点图:

产卵数y/个产卵致。溜朦的关系

•活动二观察发现,寻找新模型

样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,即不能直接用线

性回归方程来建立两个变量之间的关系.怎样确定回归模型?

首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量

不呈现线性相关关系,不能直接利用回归方程来建立两个变量之间的关系,根据已有的函数

知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型.

根据已有的函数知识,从散点图中可以看到样本点分布在某一条指数函数曲的

周围.

•活动三非线性转化为线性问题

如果两个变量呈现非线性相关关系,怎样求出回归方程?

可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归

方程,再得到所求两个变量的回归方程.

现在,我们通过对数变换把指数关系变为线性关系,即

对〉='d/两边取自然对数

c

Iny=In{c}e-'=Inq+Ine—=Inq+c2xIne=Inq+c2Inegr

令z=lny,建立z与x之间的线性回归方程z=Inc1+C2%

令。=In卬b=c2,EPz=a+bx

分析X与Z之间的关系,通过画散点图(如下图),可知X与Z之间是存在着线性回归关

系,可以用最小二乘法求出线性回归方程2=4+如

由表1的数据可以得到变换后的样本数据表

X21232527293235

Zz1.9462.3983.0453.1784.1904.7455.784

列表计算出各个量

编号1234567合计

温度x/℃21232527293235192

产卵数W个711212466115325569

z=lny1.9462.3983.0453.1784.1904.7455.78425.285

Xi2441529625729841102412255414

XiZi40.955.276.185.8121.5151.8202.4733.7

5=27.4291=3.612

,?n

J>:=5414%=733.71

1=1/=l

-rixz

733.7-7x27.43x3.61

b=i=\=0.272

n2

25414-7x27.43

项-nx—2

Zi=l

2=2一九元=-3.843

2=0.272x-3.843

因为z=lny,所以ln$=0.272x-3.843,KPy=e^-^\

问题探究三能否用其它模型来拟合上述问题?如何判断各种的模型的拟合效果?

•活动一二次曲线模型

样本点还可以看作是分布在二次函数曲线y=c/2+(:2的周围.

令f=/,建立y与,之间的线性回归方程y=c}t+c2

令6=《,a=c2,BPy=a+bt.

分析y与,之间的关系,通过画散点图(如下图),

可看到y与/的散点图并不分布在一条直线的周围,即不宜用线性回归方程来拟合它,

即不宜用二次曲线y=eV+C2来拟合y与x之间的关系,这个结论还可以用残差分析得到.

•活动二对比提升

为比较两个不同模型的残差,需建立相应的回归模型,用线性回归模型拟合回归方程

y=a+bt

1234567•

MMx/℃21232527293235192

产■小/个711212466115325569

t=X2441529625729841102412255414

194481279841390625531441707281104857615006254652870

hyi30875819131251749655506117760398125610918

T=773.429~=81.286

nn

汇t-=4662870汇jyt=610918

i二1i1

£XjZj—nxz

b=闿---------------=0.367a=z-bx=-202.543

Ef

,=i

所以y=0.367f-202.543

因为/=V,即y关于N的二次回归方程为y=0.367/_202.543.

•活动三残差分析

指数回归模型与二次回归模型中哪个能更好地刻画红铃虫的产卵数y与温度x的关系?通

过什么数据说明?

一般在参数个数一定的条件下,相关指数越大或残差平方和越小说明模型拟合得越好.计

算每个模型的相关指数,并进行模型的比较.

指数函数模型的相关指数

编号1234567合计

温度"C21232527293235192

产卵数)/个711212466115325569

y关于x的指数回归方程尸%=27.4295=’81286

y,-6.511.219.233.157.1129.2292.1548.374

K-7-74.3-70.3-60.3-57.3-15.333.7243.70

0.5-0.21.8-9.18.9-14.232.920.6257

(…)'5518.44940.13634.43281.7233.71136.759396.778141.4

0.270.033.1083.7079.01200.321084.261450.68

U-^)2=1450.68E(y,--y)2=78141.4

i=li=\i=l

E(x-x)2

R2=1--------------=0.98

tb-y)2

/=!

二次函数模型的相关指数

编号1234567合计

温度xFC21232527293235192

产卵物/个711212466115325569

y关于1•的二次回归方程上=0.367--202.54X=27.429厂=81.286

无-40.7-8.426.865.0106.1173.3247.0569.158

-74.3-70.3-60.3-57.3-15.333.7243.70

4=匕-九47.719.4-5.8-41.0-40.1-58.378.0-0.158

(%7)'5518.44940.13634.43281.7233.71136.759396.778141.4

<=(?-y),2274.62376.2434.051681.251608.573395.166078.5415448.4

2

£媛=£9-九)2=15448.43zlx>-7)=78141.4

1-12=1?=1

R2=1---------=0.802

Z8-7)2

I-l

从相关指数的计算结果来看,指数函数模型的正比二次函数模型的A?更接近于1,所以

指数函数模型的回归效果好.

再从残差图看:

指数回归模型残差图二次回归模型残差图

从图中可看出指数函数模型的残差点比较均匀地落在水平的带状域中,所以指数函数模

型拟合精度较二次函数模型的高.

点拨:归纳判断模型拟合效果的方法:

(1)可以通过变换后的散点图观察两个新变量之间是否存在线性回归方程;

(2)通过残差分析比较两种模型的拟合效果.一般情况下,比较两个模型的残差比较困难(某

些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故

通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟

合的效果越好.

3.课堂总结

【知识梳理】

(1)建立回归模型的基本步骤

①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.

②画出解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系等).

③由经验确定回归方程的类型(如果我们观察到诗句呈线性关系,则选用线性回归方程).

④按一定的规则(如最小二乘法)估计回归方程中的参数.

⑤得出结论后分析残差图是否有异常(如个别数据对应的残差绝对值过大,残差呈现不

随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.

(2)归纳判断模型拟合效果的方法:

①可以通过变换后的散点图观察两个新变量之间是否存在线性回归方程;

②通过残差分析比较两种模型的拟合效果.一般情况下,比较两个模型的残差比较困难

(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相

反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的

模型,拟合的效果越好.

【重难点突破】

(1)如果两个变量不呈现线性相关关系,常见的两个变量间的关系还有指数函数关系、

二次函数关系.

(2)两个变量间的非线性关系可以通过对解释变量的变换(对数变换、平方变换等)转化

为另外两个变量的线性关系.

(3)比较不同模型的拟合效果,可以通过残差平方和的大小,相关指数的大小来判断.

4.随堂检测

1.变量x,y的散点图如图所示,那么x,y之间的样本相关系数r最接近的值为()

Ox

A.1

B.-0.5

C.0

D.0.5

答案:C

解析:【知识点:线性回归,线性相关关系】

2.某学校开展研究性学习活动,某同学获得一组实验数据如下表:

X1.99345.16.12

y1.54.047.51218.01

对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是()

A.y=2x2

B.y=b

C.y=log2X

D.y=1(x2-1)

【知识点:线性回归,线性相关关系】

解:D

A

4.已知方程y=0.85x—82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位

A

是cm,y的单位是kg,那么针对某个体(160,53)的残差是()

A.-0.29

B.0.29

C.-0.58

D.3

【知识点:线性回归,线性相关关系】

解:A

5.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=。的周

围,令z=lny,求得线性回归方程为z=0.25x-2.58,则该模型的回归方程为.

【知识点:线性回归,线性相关关系】

解:y=e025T8z=0.25x—2.58,z=lny,...y=e025Az58

(三)课后作业

基础型自主突破

1.两个变量有线性相关关系且残差的平方和等于0,则()

A.样本点都在回归直线上

B.样本点都集中在回归直线附近

C.样本点比较分散

D.不存在规律

【知识点:线性回归,线性相关关系】

解:A

2.散点图在回归分析中的作用是()

A.查找个体个数

B.比较个体数据大小关系

C.探究个体分类

D.粗略判断变量是否相关

【知识点:线性回归,线性相关关系】

解:D

3.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150

次试验,并且利用线性回归方法,求得回归直线分别为人和/2.已知两个人在试验中发现对变量x

的观测数据的平均值都是s,对变量),的观测数据的平均值都是那么下列说法正确的是().

All和/2有交点(s,f)

B./)与/2相交,但交点不一定是区。

C.A与h必定平行

D./1与/2必定重合

【知识点:线性回归,线性相关关系】

解:A都过样本中心点(s,f),但斜率不确定.

4.甲、乙、丙、丁四位同学各自对A,B两变量做回归分析,分别得到散点图与残差平方和

£(%-少)2如下表

/=1

甲乙丙T

B,\B

J:,**I.

散点图・・•・,:

01A0A0AO\A

残差平

115106124103

方和

哪位同学的实验结果体现拟合A,8两变量关系的模型拟合精度高?()

A.甲

B.乙

C.丙

D.T

【知识点:线性回归,线性相关关系】

解:D

5.在研究气温和热茶销售杯数的关系时,若求得相关指数R2之,表明“气温解释了85%

的热茶销售杯数变化”或者说“热茶销售杯数差异有85%是由气温引起的”.

【知识点:线性回归,线性相关关系】

解:0.85

能力型师生共研

6.若一函数模型为丁=0?+区+以。=0),为将y转化为关于/的线性回归方程,则需作的变

换,=()

A.x2

B.(x+a)2

C.(x+g)2

2a

D.以上都不对

【知识点:线性回归,线性相关关系】

答案:C

解析:丁关于,的线性回归方程,实际上就是y关于/的一次函数,又因为

2

,b、24ac-b

y=a(x+——)+------

2a4a

7.某学生在高三学年最近九次考试中的数学成绩加下表:

第X考试123456789

数学成绩y(分)121119130106131123110124116

设回归直线方程产区+a,则点(a,b)在直线x+5y-10=0的()

A.左上方

B.左下方

C.右上方

D.右下方

【知识点:线性回归,线性相关关系】

解:C

8.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,收集

数据如下:

加工零件X(个)1020304050

加工时间y(分钟)6469758290

经检验,这组样本数据具有线性相关关系,那么对于加工零件的个数X与加工时间y这两个

变量,下列判断正确的是()

A.成正相关,其回归直线经过点(30,75)

B.成正相关,其回归直线经过点(30,76)

C.成负相关,其回归直线经过点(30,76)

D.成负相关,其回归直线经过点(30,75)

【知识点:线性回归,线性相关关系】

解:B

探究型多维突破

9.下表提供了甲产品的产量x(吨)与利润y(万元)的几组对照数据.

X3456

y2.5344.5

(1)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程9=^+3;

(2)计算相关指数后的值,并判断线性模型拟合的效果.

£(%-X)(K-y)£

参考公式:6-------=——=号-----,a=y-bx,R2=1-与-----

S(七一X),Xxi2~nx'S(x->,)2

i=]i=li=l

【知识点:线性回归方程的算法;,回归方程的应用】

(1)1=4.5,亍=3.5

—2.

/.nx-y=4x4.5x3.5=63,nx=4x4.5~=81,

"n

=7.5+12+20+27=66.5,=9+16+25+36=86

f=lf=l

n

13厂雇“66.5-63_o7

••u———u./Aa-y-bx=3.5-0.7x4.5=0.35

<2-286-81

~nx

i=l

,y关于x的线性回归方程9=0.7x+0.35

(2)—5)2=(2.5—3.5尸+(3—3.5尸+(4—3.5)2(4.5—35)2=25

i=l

f(y_%了=(2.5-2.45)2+(3-3.15『+(4-3.85)2(4.5-4.55)2=0.05

1=1

£日一订005

,代=1一号--------=1一吧=0.98I.线性模型拟合的效果较好

V(一、22.5

1=1

10.某公司采用众筹的方式募集资金,开发一种创新科技产品,为了解募集资金x(单位:万元)

与收益率y之间的关系对近6个季度筹到的资金%和收益率%的数据进行统计,得到如下数

据表:

X2.002.202.603.203.404.00

y0.220.200.300.480.560.60

(1)通过绘制并观察散点图的分布特征后,分别选用、=。+笈与丁=。+1怛》作为众筹到的资

金x与收益率y的拟合方式,再经过计算,得到这两种拟合方式的回归方

y=0.34=0.02x,y=-0.27+1.471gx和下表统计数值,试运用相关指数比较以上两回归方程的

拟合效果;

y=a+bxy=c+d1gx

f=l扣f)

0.150.130.01

(2)根据以上拟合效果较好的回归方程,解答:预测众筹资金为5万元时的收益率.(精确到

0.0001)

【知识点:线性回归,线性相关关系】

解:(1)由已知,得对于方程y=0.34+0.02x,相关指数丈=1一黑。0.133;

对于方程y=-0.27+1.471gx,相关指数7?2=1-黑«0.933>0.133,

所以方程y=-0.27+1.471gx的拟合效果更好.

(2)当x=5时,y=-0.27+1.47lg5a0.7575;

(四)自助餐

1.变量X与y之间的回归方程表示()

A.x与y之间的函数关系

B.X与y之间的不确定性关系

C.x与y之间的真实关系形式

D.X与y之间的真实关系达到最大限度的吻合

【知识点:线性回归,线性相关关系】

解:D

2.已知回归方程》=2x+l,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平

方和是()

A.0.01

B.0.02

C.0.03

D.0.04

【知识点:线性回归,线性相关关系】

解:C

3.一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机器零件有一

些会有缺点,每小时生产有缺点零件的多少随机器运转的速度而变化,下表是抽样试验结果:

转速x/(rad/s)1614128

每小时生产有缺点的零件数y/件11985

若实际生产中,允许每小时的产品中有缺点的零件数最多为10个,那么机器的转速应该控制

所在的范围是()

A.10转4s以下

B.15转/s以下

C.20转/s以下

D.25转入以下

【知识点:线性回归,线性相关关系】

解:B

4.已知x,y的取值如下表:

X0134

y2.24.34.86.7

若具有线性相关关系且回归方程为y=0.95x+a,则a的值为()

A.0.325

B.2.6

C.2.2

D.0

【知识点:线性回归,线性相关关系】

解:B由已知得了=2,9=4.5,而回归方程过点(月歹),则4.5=0.95x2+“,a=2.6.

5.某工厂为了新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到

如下数据:

单位x(元)456789

销量>(件)908483807568

由表中数据,求得线性回归方程为5=-4x+6,若在这些样本点中任取一点,则它在回归直

线左下方的概率为()

I

A6

【知识点:线性回归,线性相关关系】

解:B

6.某企业对自己的拳头产品的销售价格(单位:元)与月销售量(单位:万件)进行调查,

其中最近五个月的统计数据如下表所示:

价格X99.5m10.511

销售量y11n865

由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归直线方程是:

A

y=-3.2x+40,且加+〃=20,贝(]〃=()

A.10

B.5

C.13

D.2

【知识点:线性回归,线性相关关系】

解:A

7.以下四个命题,其中正确的序号是.

①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,

这样的抽样是分层抽样;

②两个随机变量相关性越强,则相关系数的绝对值越接近于1;

③在线性回归方程9=0.2元+12中,当解释变量x每增加一个单位时,预报变量亍平均增加

0.2个单位;

④对分类变量x与y的随机变量K2的观测值上来说,攵越小,“x与y有关系”的把握程度越

大.

【知识点:线性回归,线性相关关系】

解:②③①是系统抽样;对于④,随机变量K2的观测值左越小,说明两个相关变量有

关系的把握程度越小.

8.对具有线性相关关系的变量x,y有一组观测数据⑶,y,■)(/=1,2,8),其线性回归方程

是g=+©,且X1+X2+X3+…+犬8=28+”+”+…+泗)=6,则实数4的值是.

【知识点:线性回归,线性相关关系】

答案:£=』

8

解析:依题意可知样本点的中心为隹,I),则|=抬+©解得&=L

8

9.某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与医院

抄录了1至6月份每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:

日期1月10日2月10日3月10日4月10日5月10日6月10日

昼夜温差》(℃)1011131286

就诊人数y(个)222529261612

该兴趣小组确定的研究方案是:先从这六组数据中选举2组,用剩下的4组数据求线性回归方

程,再用被选取的2组数据进行检验.

(1)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归

方程5=bx+

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论