高考数学一轮复习(新高考版)一元线性回归模型及其应用_第1页
高考数学一轮复习(新高考版)一元线性回归模型及其应用_第2页
高考数学一轮复习(新高考版)一元线性回归模型及其应用_第3页
高考数学一轮复习(新高考版)一元线性回归模型及其应用_第4页
高考数学一轮复习(新高考版)一元线性回归模型及其应用_第5页
已阅读5页,还剩11页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

§9.3一元线性回归模型及其应用

【考试要求】1.了解样本相关系数的统计含义2了解最小二乘法原理,掌握一元线性回归模型

参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.

■落实主干知识

【知识梳理】

1.变量的相关关系

(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,

这种关系称为相关关系.

⑵相关关系的分类:止相关和负相关.

(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附

近,我们就称这两个变量线性相关.

2.样本相关系数

E(即一1)(3'/-y)

(2)当r>0时,称成对样本数据正相关;当,<0时,称成对样本数据负相关.

(3)i”wi:当m越接近1时,成对样本数据的线性相关程度越强;当越接近o时,成对样本

数据的线性相关程度越窕.

3.一元线性回归模型

⑴我们将;=£+嬴为y关于K的经验回归方程,

n___

z{Xi-X)(>',-y)

A1=1

其M28-3)2'

J=l

AA_

y-bx.

(2)残差:观测值减去预测直称为残差.

【常用结论】

1.经验回归直线过点(7,7).

2.求,时,常用公式/=+------

Zd-〃x

!=1

3.【回归分析和独立性检验都是基于成对样本观测数据进吁估计或推断,得出的结论都可能犯

错误.

【思考辨析】

判断下列结论是否正确(请在括号中打“J”或“义”)

(1)相关关系是一种非确定性关系.(J)

(2)散点图是判断两个变量相关关系的一种重要方法和手段.(J)

AAA

(3)经验回归直线y=Z?x+a至少经过点(即,)」),(孙)2),…,(,%,加)中的一个点.(X)

(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(V)

【教材改编题】

1.在对两个变量x,丁进行回归分析时有下列步骤:

①对所求出的经验回归方程作出解释:②收集数据(即,y),i=l,2,…,〃:③求经验回归方

程;④根据所收集的数据绘制散点图.

则下列操作顺序正确的是()

A.①②④③B.③@④①

C.②③0@D.②®®①

答案D

解析根据回归分析的思理,可知对两个变量羽丁进行回归分析时,应先收集数据(H,V),

然后绘制散点图,再求经检回归方程,最后对所求的经验回归方程作出解释.

2.对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系数,•如下,则线性

相关性最强的是()

A.-0.82B.0.78C.-0.69D.0.87

答案D

解析由样本相关系数的绝对值|“越大,变量间的线性相关性越强知,各选项中r=0.87的绝

对值最大.

3.某单位为了了解办公楼用电量M度)与气温M℃)之间的关系,随机统计了四个工作日的用

电量与当天平均气温,并制作了对照表:

气温(C)181310-1

用电量(度)24343864

由表中数据得到经验回归方程),=-2x+m当气温为一4℃时,预测用电量约为()

A.68度B.52度

C.12度D.28度

答案A

解析由表格可知A=10,),=40,

A

根据经验回归直线必过(;,亍)得a=40+20=60,

A

・•・经验回归方程为),=—2x+60,

A

因此当X=-4时,),=68.

■探究核心题型

题型一成对数据的相关性

例1(1)(2023・保定模拟)已知两个变量x和),之间有线性相关关系,经调查得到如下样本数

据:

X34567

y3.52.41.1-0.2_1.3

根据表格中的数据求得经验回归方程为;=£+;则下列说法中正确的是()

AAAA

A.t/>0,b>0B.a>0,b<0

AAAA

C."0,b>0D."0,*0

答案B

解析由已知数据可知),随着x的增大而减小,则变量x和),之间存在负相关关系,所以晨0.

又三=9(3+4+5+6+7)=5,~=1x(3.5+2.4+l.l-0.2-1.3)=l.l,即1.1=5〃+"所

AA

以a=l.l—5/»0.

(2)(2022•大同模拟)如图是相关变量x,),的散点图,现对这两个变量进行线性相关分析,方案

-:根据图中所有数据,得到经验I可归方程;,样本相关系数为n;方案二:剔除

点(1(),21),根据剩下的数据得到经验回归方程;=.2工+:2,样本相关系数为◎则()

y

5H)15

A.0<n<rz<lB.0<rz<n<l

A.r\>riB.r\=n

C.r\<nD.不确定

答案C

解析由散点图可知,用y="ln伏㈤拟合比用y=的"+机拟合的程度高,故心|>|闻;

又因为x,y负相关,所以一n>一仁,即

题型二回归模型

命题点1一元线性回归模型

例2(2023・蚌埠模拟)某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率

每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:

利率上升百分点工0.10.20.30.40.5

日均存款总额),(亿元)0.20.350.50.650.8

⑴在给出的坐标系中画出上表数据的散点图;

().9

.7—l—4-iI

——一一1

().81

---1r--i

一」___F—I—1---:

().7---'—一■■1

11

r--n•••r--7--n

().6______1___

i____1

().5-——41一■♦.・«K--4

—r--nI

—一T一,>—_1

0.41

---1

—1卜T卜TTI

0.3L..U___

1a

().2---1r--i

—1卜-4卜-十-J____P

—『一一一一,一i

0.11

—r--n•••LT

0().1().2().30.40.50.6x

(2)根据上表提供的数据,用最小二乘法求出),关于x的经验回归方程),=以+/

(3)已知现行利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测H均存

款总额为现行利率下的2倍时,利率需上升多少个百分点?

2.孙一〃xy

A尸1AA55

参考公式及数据:①匕=-------------,a=y—bx,②耳啰产。/£X?=0.55.

6,,尸।尸i

解(1)如图所示.

().9--r

-1—1—4-n

-.-4____x<__1

().81

r---i

0.7—1b-H____—--:

・_一《---k一-•一1『-1

11

0.6•••

...J___1________[

i

---4

().5..1

r--n

___L__1--J——>

().411

0.3-H卜T卜-TT---1

...JL-.U____——a

11

().2r---i

卜…卜-十一」___f

——_一1

0.11

•••1r--nLT

0।1

().10.2().30.40.50.6x

(2)由表格数据可得;=1x(0.1+0.2+03+0.4+0.5)=03,~=1x(0.2+0.35+0.5+0.65+

0.8)=0.5,

AE划一5xy

0.9-5X0.3X0,5

所以6=J.....-0.55-5X0.3X0.3=3

Lxf-5x2

i=i

a=y—bx=0.5—1.5X0.3=0.05,

故1y=1.5x+O.O5.

⑶设利率需上升%个百分点,

由⑵得,0.625X2=1.5x4-0.05,解得x=0.8,

所以预测利率需上升0.8个百分点.

命题点2非线性回归模型

例3(2023・保山模拟)某印刷企业为了研究某种图书每册的成本费),(单位:元)与印刷数量

x(单位:千册)的关系,收集了一些数据并进行了初步整理,得到了如图所示的散点图及一些

统计量的值.

每册成本费、/元

20

15

10

5

。5101520253()印刷数量*千册

7__7__

2(X—X/Eix—X)(j/—y)E(〃L〃)2Z(«/—«)5-y)

X7UZt

f=lr=lf=lJ=1

53.5().22300.77

117

表中_--E

尸〃-

,7

1=1

(I)根据散点图判断),=。+法与),=。+§哪一个模型更适合作为该图书每册的成本费y与印刷

-1

数量X的经验回归方程?(只要求给出判断,不必说明理由)

⑵根据⑴的判断结果及表中数据求出y关于X的经验回归方程;

(3)若该图书每册的售价为9元,则预测至少应该印刷多少册,才能使销售利润不低于80000

元(假设能够全部售出).

AAA

附:对于一组数据(助,01),W2,也),…,(M„,Vn),其经脸回归方程P=pQ)+a的斜率和截

n------

Z(®,-CO)(Vi—V)

八J—|AA_

距的最小二乘估计分别为//=------------------,a=~o-(i~cJ.

E3一⑦)2

1=1

解(1)由散点图判断y=c+g更适合作为该图书每册的成本费'与印刷数量x的经验回归方

程.

(2)先建立y关于u的经验回归方程得;=;+>〃,

7__

Z(国一u)(方一y)

Ai~17AA_

由于d=----------------=『=10,故=3.5-10X0.2=1.5,

7U・/

£(uj-a)2

J=1

所以预测y关于〃的经验回归方程为;=1.5+10〃,

Ai()

从而y关于x的经验回归方程为y=1.5+?.

(3)假设印刷x千册,依据题意得9X-(1.5+¥)280,解得X212,

所以预测至少应该印刷12000册图书,才能使销售利润不低于80000元.

思维升华求经验回归方程的步骤

计算出工,卡,都“或”—引J

已4(即一彳)2的值

G七--------------------------------:

(步骤二H利用公式计算£.另

(步♦三卜后方面:晨七1

跟踪训练2(2022・南充模拟)某特色餐的开通了某APP的外卖服务,在一周内的某特色菜外

卖份数M单位:份)与收入M单位:元)之间有如下的对应数据:

外卖份数文(份)24568

收入),(元)3040605070

(1)在给出的坐标系中画出数据散点图;

8()

7()

6()

SO

4()

3()

I

20

I

-I__________

1()A

(2)请根据以上数据用最小二乘法求出收入,,关于份数x的经验【可归方程;

⑶据此估计外卖份数为12时,收入为多少元.

参考数据公式:*3=145,£v^=1380,

/-Ii-i

n___n__

Z(占一x)(,•一y)2>"一〃xy

A产1尸1

b==,

T.(Xj—X)2£/一〃X2

a=y-bx.

解(1)作出散点图如图所示.

(2)由表格数据得,x==5,

—30+4()+60+50+70_

y=<=50,

£孙一5xy

1=1

M1;1380-5X5X50

则力=[一—=]455X5:=6.5,

5x2

»=i

a=y—bx=50—6.5X5=17.5,

因此,所求经验回归方程为y=6.5x+175

A

(3)当x=12时,j=12X6.5+17.5=95.5,

即外卖份数为12时,预测收入为95.5元.

题型三残差分析

例4(1)(多选)下列说法正确的是()

A.在经验回归方程),=一0.85%+2.3中,当解释变量x每增加1个单位时,响应变量y平均减

少2.3个单位

B.在经验回归方程;,=—0.85x+2.3中,相对于样本点(1,1.2)的残差为-0.25

C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好

D.若两个变量的决定系数R?越大,表示残差平方和越小,即模型的拟合效果越好

答案BCD

解析对于A,根据经验回归方程,当解释变量x每增加1个单位时,响应变量;平均减少

0.85个单位,故A错误;

对于B,当解释变量x=l对,响应变量y=L45,则样本点(1,1.2)的残差为-0.25,故B正确;

对于C,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效

果越好,故C正确;

对于D,由决定系数2的意义可知,R2越大,表示残差平方和越小,即模型的拟合效果越好,

故D正确.

(2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原

材料碳酸锂乂是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,如表是2022

年某企业的前5个月碳酸锂的价格与月份的统计数据•:

月份代码X12345

碳酸锂价格),(万元/kg)0.50.61m1.5

根据表中数据,得出),关于x的经验回归方程为;=0.28x+;根据数据计算出在样本点(5,1.5)

处的残差为一0.06,则表中m=.

答案L4

解析由题设,1.5—),=1.5—(0.28乂5+。)=-0.06,

可得。=0.16.

14-2+3+4+5

又;=------c------=3

—0.5+0.6+1+〃?+1.53.6+/〃

-5二^~,

々…,3.6+机

所以0.28X3+0.16=­T—,

可得〃i=L4.

思维升华检验回归模型的拟合效果的两种方法

(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果.

(2)/?2分析:通过公式计算R2,R2越大,残差平方和越小,模型的拟合效果越好;R2越小,

残差平方和越大,模型的拟合效果越差.

跟踪训练3(1)下列命题是真命题的为()

A.经验回归方程;,=.+;一定不过样本点

B.可以用样本相关系数厂来刻画两个变量x和),线性相关程度的强弱,,•的值越小,说明两

个变显♦线性相关程度越弱

C.在I可归分析中,决定系数网=0.80的模型比决定系数R2=o.98的模型拟合的效果要好

D.残差平方和越小的模型,拟合的效果越好

答案D

解析对于A,经验回归方程不一定经过其样本点,但一定经过(三,7),所以A是假命题;

对于B,由样本相关系数的意义,当3越接近。时,表示变量),与x之间的线性相关程度越

弱,所以B是假命题;

对于C,用决定系数R2的值判断模型的拟合效果,片越大,模型的拟合效果越好,声以C

是假命题;

对于D,由残差的统计学意义知,D是真命题.

(2)两个线性相关变量x与),的统计数据如表:

X99.51010.511

y1110865

其经验回归方程是),=法+40,则相应于点(9,11)的残差为.

答案一0.2

—I—I

解析因为x=三义(9+9.5+10+10.5+11)=1(),y=\X(11+]0+8+6+5)=8,

JJ

A

所以8=10)+40,

A

解得匕=一3.2,

AA

所以y=-3.2r+40,当x=9时,),=11.2,

所以残差为11-11.2=-0.2.

课时精练

q基础保分练

1.下列有关线性回归的说法,不正确的是()

A.具有相关关系的两个变量不是因果关系

B.散点图能直观地反映数据的相关程度

C.回归直线最能代表线性相关的两个变量之间的关系

D.任一组数据都有经验回归方程

答案D

解析根据两个变量具有相关关系的概念,可知A正确;

散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相

关关系,所以B,C正确;

具有相关关系的成对样本数据才有经验回归方程,所以D不正确.

2.对于样本相关系数,下列说法错误的是()

A.样本相关系数可以用来判断成对样本数据相关的正负性

B.样本相关系数可以是正的,也可以是负的

C.样本相关系数1,1]

D.样本相关系数越大,成对样本数据的线性相关程度也越强

答案D

解析样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越有,故D错误.

3.(2023・运城模拟)在线性回归模型中,变量x与),的一组样本数据对应的点均在直线y=%

nA

产I

+1上,R2=\-----------,则R2等于()

EGLy)2

r=l

答案c

解析因为样本数据对应的点均在一条直线上,

所以R2=l.

4.(多选)某工厂研究某种产品的产量n单位:吨)与所需某种材料w单位:吨)之间的相关关

系,在生产过程中收集4组数据如表所示.根据表中数据可得经验【回归方程为;=0.7x+;

则下列四个说法中正确的为()

x3467

y2.55.9

A.变量x与),正相关

B.y与工的样本相关系数r<0

A

C.«=0.35

D.当产量为8吨时,预测所需材料约为5.95吨

答案ACD

解析因为经验回归方程)uOlx+a,

所以变量x与),呈正相关,

所以样本相关系数力0,故A正确,B错误;

3+4+6+7—2.5+34-4+5.9

由表格可得x=4:5尸4=3.85,

则0.7X5+。=3.85,解得口=0.35,故C正确;

A

所以经验回归方程为y=0.7x+0.35,

A

当x=8时,y=0,7X8+0.35=5.95,

即产量为8吨时,预测所需材料约为5.95吨,故D正确.

5.(多选)(2023・唐山模拟)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单

位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.已知

这10名志愿者身高的平均值为176cm,根据这10名志愿者的数据求得臂展〃关于身高。的

经验回归方程为;=1.2。-34,则下列结论正确的是()

身高——臂展

A.这1()名志愿者身高的极差小「臂展的极差

B.这10名志愿者的身高和臂展呈负相关

C.这10名志愿者臂展的平均值为176.2cm

D.根据经验回归方程可估计身高为160cm的人的臂展为158cm

答案AD

解析对于选项A,因为这10名志愿者臂展的最大值大于身高的最大值,而臂展的最小值小

于身高的最小值,所以这1()名志愿者身高的极差小于臂展的极差,故A正确;

对于选项B,因为1.2>0,所以这10名志愿者的身高和臂展呈正相关关系,故B错误;

对于选项C,因为这10名志愿者身高的平均值为176cm,所以这10名志愿者臂展的平均值

为l.2X176-34=177.2(cm),故C错误;

对于选项D,若一个人的身高为160cm,则由经验回归方程;=1.2°—34,可得这个人的臂展

的估计值为158cm,故D正确.

6.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表口:已

知该产品的色度y和色差x之间满足线性相关关系,且;,=0.8x+;现有一对测量数据为

(30,23.6),则该数据的残差为()

色差X21232527

色度y15181920

A.-0.96B.-0.8C.0.8D.0.96

答案C

—21+23+25+27—15+18+19+20

解析由题意可知,x=4=24,y==18,

将(24」8)代入),=0.81+。,

A八

即18=0.8X24+〃,解得口=一1.2,

A

所以y=0.8x-1.2,

A

当x=30时,y=0.8X30—1.2=22.8,

所以该数据的残差为23.6—22.8=0.8.

7.某智能机器人的广告费用x(万元)与销售额六万元)的统计数据如表所示:

广告费用x(万元)2356

销售额),(万元)28314148

根据此表可得经验回归方程为;=5%+;据此模型预测广告费用为8万元时销售额为

________万元.

答案57

2+34-5+6—28+31+41+48

解析由表格,得x=---------=%y=-------------=37、

所以37=5X4+〃,即。=17,

所以预测当广告费用为8万元时,销售额为5X8+17=57(万元).

8.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=2e2v+,的图象

附近,设z-lny,将其变疾后得到经验回归方程为2=〃犹+〃,则m〃h.

答案21n2+2

解析由z=lny,则Iny=ln2e"l即z=ln2+lne"i=ln2+2x+1,则z=2「Hn2+l,

故机=2,〃=ln2+1,所以〃"?=21n2+2.

9.假设关于某种设备的使用年限x(单位:年)与所支出的维修费用.y(单位:万元)有如下统计

资料:

X23456

y2.23.85.56.57.0

已知玄?=90,玄衿140.8,通=112.3,标48.9,、伤F.4.

⑴求x,y:

(2)计算),与%的样本相关系数4精确到0.001),并判断该设备的使用年限与所支出的维修费

用的相关程度.

5(为一1)6Ly)

附:样本相关系数r=

、/篙氏一X)名0,-亍)2《京-〃X2)(£)J万]

5一2+3+4+5+6

解⑴x=-------------=4

2.2+3.8+5.5+6.5+7.0

=5.0.

5

5____5_

(2)2>通一51y-112.3-5X4X5-12.3,^~5x2-90-5X42-10,

5―

X>7-5y2pl40.8—5X52=15.8,

2>加一5xy

g、?/=,12.312.312.3,、八『

所以r=~n~T-n~二。石灰彘二标下七京3七

A/!>;-5X2、/Ny?-5y2

,•接近1,说明该设备的使用年限与所支出的维修费用之间具有很高的相关性.

1().(2022•全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区

某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横械面积(单位:n?)

和材积量(单位:m)得到如下数据:

样本号i12345678910总和

根部横截0040.060.040.080.080.050.050.070.070.0606

面积为

材积量》0.250.400.220.540.510.340.360.460.420.403.9

101010

并计算得ZrV?=O.O38,Ej?=1.6158,Ix;v,=o.2474.

j=li=ri=i

(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;

(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);

(3)现测量了该林区所有这种树木的根部横截面积,井得到所有这种树木的根部横截面积总和

为186m2.己知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树

木的总材积量的估计值.

〃____n____

S(为一x)8-y)£百州一〃xy______

附:样本相关系数r=J;_“_—=pr——“W-896

AjI](Xi-X)2篙⑴一),)2—〃X2)(却彳一〃),2)

F.377.

一o6

解(1)样本中10棵这种树木的根部横截面积的平均值x=$=0.06(1/),

样本中10棵这种树木的材积量的平均值

一=-39

yYQ=0.39(m3),

据此可估计该林区这种树木平均一棵的根部横截面积为0.06m2,平均一棵的材积量为0.39m\

io____

力孙一l()xy

i=\

(2)r=------1

/10_10_

A/(£d—10X2)(*#—10y2)

\j产।尸।

__________0.2474—10X0.06X0.39________

一人(0.038—10X0.062)x(1.6158—10X0.392)

0.01340.0134…

-V0.0001896^0.0137产。9,

(3)设该林区这种树木的总材积量的估计值为Km3,

又已知树木的材积量与其根部横截面积近似成正比,

十曾06186

可得痂=T,

解得y=l209.

则该林区这种树木的总材积量的估计值为I209m3.

q综合提升练

H.(多选)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,

某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得y关于x的经

验I可归方程为;=6『+;,则下列说法正确的是()

周数㈤12345

治愈人数(y)2173693142

A.a=4

A

B.a=-8

C.此回归模型第4周的残差为5

D.估计第6周治愈人数为22()

答案BC

AA

解析设/=*,则y=6/+a,

—।

由已知得t=§X(l+4+9+16+25)=ll,

~

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论