版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.2一元线性回归模型及其应用
第一课时一元线性回归模型及其参数的最小二乘估计
课标要求素养要求
1.结合具体实例,了解一元线性回归模
通过学习一元线性回归模型的
型的含义.
含义,体会数学抽象及数据分
2.了解模型参数的统计意义,了解最小
析素养.
二乘原理.
【课前预习】
新知探究
A情境引入
恩格尔系数(Engel'sCoefficient)是根据恩格尔定律得出的比例数,指居民
家庭中食物支出占消费总支出的比重,是表示生活水平高低的一个指标.其计
算公式:恩格尔系数=食物支出金额♦总支出金额.
一个家庭收入越少,家庭收入中或者家庭总支出中用来购买食物的支出所占的
比例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购买食物
的支出所占比例将会下降.
问题恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关
时,我们如何对成对样本数据建立一个模型进行预测?
提示为了对两个变量线性相关关系进行预测,我们通常建立一元线性回归模
型进行预测.
►•知识梳理
1.一元线性回归模型
我们称
Y=bx+a+e,
、E(e)=0,D(e)=o2
为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变
量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;
e是Y与bx+a之间的随机误差.
2.线性回归方程与最小二乘法
回归直线方程过样本点的中心(;,;),是回归直线方程最常用的一个特征
我们将;=bx+a称为Y关于x的线性回归方程,也称经验回归函数或经验回归
公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘
法,求得的b,a叫做b,a的最小二乘估计(leastsquaresestimate),
其中
f"It«l
a=工
拓展深化
[微判断]
1.两个变量之间产生随机误差的原因仅仅是因为测量工具产生的误差.(X)
提示产生随机误差的原因有多种,测量工具和测量精度仅仅是其中的一个方
面.
2.线性回归方程最能代表观测值x,y之间的线性关系,且回归直线过样本点
的中心(x,y).(V)
[微训练]
1.(多选题)下列有关回归直线方程y=bx+a叙述正确的是()
A.反映y与x之间的函数关系
B.反映y与x之间的函数关系
C.表示y与x之间不确定关系
D.表示最接近y与x之间真实关系的一条直线
解析y=bx+a表示y与x之间的函数关系,而不是y与x之间的函数关系,但
它反映的关系最接近y与x之间的真实关系,.•.选AD.
答案AD
2.某地区近十年居民的年收入x与支出y之间的关系大致符合y=0.8x+
0.1(单位:亿元),预计今年该地区居民收入为15亿元,则年支出估计是
_________亿元.
解析Vy=0.8x+0.1,
y=0.8X15+0.1=12.1(亿元).
答案12.1
[微思考]
1.任何一组数据都可以由最小二乘法得出回归直线方程吗?
提示用最小二乘法求回归直线方程的前提是先判断所给数据具有线性相关关
系(可利用散点图来判断),否则求出的回归直线方程无意义.
2.根据a=y—bx及回归直线方程;=bx+a,判断点(x,y)与回归直线的关系是
什么?
提示由@=丫-bx得y=bx+a,因此点(x,y)在回归直线上.
【课堂互动】
题型一求回归直线方程
[例1]某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下
表数据:
X681012
y2356
⑴请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx
+a;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
相关公式J)=^4-----------,a—~y~bx
、、__;,2
解(1)如图:
样本点分布在一条直线附近,y与x具有线性相关关系.
4
(2)与xy=6X2+8X3+10X5+12X6=158,
1—1ii
-6+8+10+12
x=4=9,
2+3+5+6
y=4=%
4
(2)Xxy=6X2+8X3+10X5+12X6=158,
i=1ii
X?=62+82+102+122=344,
-158-4X9X414
b=344-4X92=20=0-7,
a=y—bx=4—0.7X9=—2.3,
故线性回归方程为y=0.7x-2.3.
(3)由⑵中线性回归方程可知,当x=9时,y=0.7X9-2.3=4,故预测记忆
力为9的同学的判断力约为4.
规律方法求线性回归方程的一般步骤
(1)收集样本数据,设为(X:,yj(i=l,2,…,n)(数据一般由题目给出).
⑵作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格X”y”X-,x,y,.
「一nn
(4)计算x,y,EX-,EXiYi.
i=li=l
n
ZXiYi-nxy
(5)代入公式计算b,a,公式为<£x;—nx2
i=l
<a=ybx.
(6)写出线性回归方程y=bx+a.
【训练1】某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万
元)之间有如下对应数据:
X24568
y3040605070
⑴画出散点图;
⑵求回归直线方程.
解(1)散点图如图所示.
百万元
8()
70
60
50
40
3()
2()
1()
(>
1238%/百万元
样本点分布在一条直线附近,y与x具有线性相关关系.
⑵列出下表,并用科学计算器进行有关计算.
i12345
Xi24568
Yi3040605070
XiYi60160300300560
2
Xi416253664
--55
x=5,y=50,Ex-=145,EXiyi=1380
i=li=l
5——
.EXiYi_5Xy
1=11380-5X5X50
于是可得,b=145-5X52—=6.5,a=y—bx=50—
Zx?—5x2
i=l
6.5X5=17.5.
于是所求的回归直线方程是y=6.5x+17.5.
题型二利用回归直线方程对总体进行估计
【例2】一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每
小时生产有缺点的零件的多少随机器运转速度的变化而变化,下表为抽样试验
的结果:
转速x(转/秒)1614128
每小时生产有缺
11985
点的零件数y(件)
⑴画出散点图;
(2)如果y与x有线性相关关系,请画出一条直线近似地表示这种线性关系;
516
⑶在实际生产中,若它们的近似方程为y=^x—,,允许每小时生产的产品中
有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内?
解(1)散点图如图所示:
.”件
12
10
8
()
I
2
0
810121416183(转/秒)
⑵近似直线如图所示:
81012141618点(转/秒)
516
(3)由yW10得力x—7WlO,解得xW14.9,所以机器的运转速度应控制在14
转/秒内.
【迁移1】(变条件,变设问)本例中近似方程不变,若每增加一个单位的转
速,生产有缺点的零件数近似增加多少?
51651
解因为y=^x—5所以当x增加一个单位时,y大约增加诬,即每增加一个
单位的转速,生产有缺点的零件数近似增加1个.
【迁移2】(变条件,变设问)本例中近似方程不变,每小时生产有缺点的零
件件数是7,估计机器的转速.
516516
解因为y=^x—,,所以当y=7时,7=—X—y,解得即估计机器的
转速约为11转/秒.
规律方法本题已知y与x是线性相关关系,所以可求出回归方程进行估计和
预测.否则,若两个变量不具备相关关系或它们之间的相关关系不显著,即使
求出回归方程也毫无意义.
【训练2】某车间为了规定工时定额,需要确定加工零件所花费的时间,为
此做了四次实验,得到的数据如下:
零件的个数x(个)2345
加工的时间y(h)2.5344.5
(1)已知零件个数与加工时间线性相关,求出y关于x的线性回归方程;
(2)试预测加工10个零件需要多少时间?
乙不乂一〃xy
参考公式办=二^----------
2—2
ZJX:—nx
r™I
4
解⑴由表中数据,得£Xiyi=2X2.5+3X3+4X4+5X4.5=52.5,
i=l
4
£X-=22+32+42+52=54,
i=l
2+3+4+5八.
x==3・5,
2.5+3+44-4.5
y-1=3・5.
c52.5-4义3.5X3.5
54-4X3.52=0,°,
.,.a=y—bx=3.5—0.7X3.5=1.05.
Ay关于x的线性回归方程为y=0.7x+l.05.
⑵加工10个零件时,大约需要0.7X10+1.05=8.05(小时).
【素养达成】
一、素养落地
1.通过本节课的学习,提升数学抽象素养及数据分析素养.
2.求线性回归方程时应注意的问题
(1)知道x与y成线性相关关系,无需进行相关性检验,否则应首先进行相关性
检验.如果两个变量之间本身不具有相关关系,或者说它们之间的相关关系不
显著,即使求出线性回归方程也是毫无意义的,而且用其估计和预测的量也是
不可信的.
(2)用公式计算a,b的值时,要先计算b,然后才能算出a.
3.利用回归方程,我们可以进行估计和预测.若回归方程为;=bx+a,则在x
=x。处的估计值为y0=bxo+a.
二、素养训练
1.工人工资y(元)与劳动生产率x(千元)的线性回归方程为y=50+80x,下列
判断正确的是()
A.劳动生产率为1000元时,工人工资为130元
B.劳动生产率提高1000元时,工人工资平均提高80元
C.劳动生产率提高1000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2000元
解析因为回归直线的斜率为80,所以x每增加1,y平均增加80,即劳动生
产率提高1000元时,工人工资平均提高80元.
答案B
2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,
根据一组样本数据(X-y)(i=l,2,…,n),用最小二乘法建立的回归方程为
y=0.85x-85.71,则下列结论中不正确的是()
A.y与x具有正的线性相关关系
B.回归直线过样本点中心(x,y)
C.若该大学某女生身高增加1cm,则其体重约增加0.85kg
D.若该大学某女生身高为170cm,则可断定其体重必为58.79kg
解析当x=170时,y=0.85X170-85.71=58.79,体重的估计值为58.79
kg.
答案D
3.设有一个回归方程为y=-1.5x+2,则变量x增加一个单位时()
A.y平均增加1.5个单位
B.y平均增加2个单位
C.y平均减少1.5个单位
D.y平均减少2个单位
解析•••两个变量线性负相关,.•.变量x增加一个单位,y平均减少1.5个单
位.
答案C
4.已知回归直线的斜率的估计值是1.23,且过定点(4,5),则线性回归方程
是.
解析回归直线的斜率的估计值为1.23,即b=l.23,
又回归直线过定点(4,5),•,=5—1.23X4=0.08,
/.y=l.23x+0.08.
答案y=1.23x+0.08
5.某产品的广告费用x(单位:万元)与销售额y(单位:万元)的统计数据如下
解析由题意得*=上千匚•=4.5,
25+30+40+45
y=4=第.
•.•回归直线方程y=bx+a中b=7,.,.35=7X4.5+a,解得a=3.5,
/.y=7x+3.5.
.,.当x=10时,y=7X10+3.5=73.5(万元).
答案73.5
【课后作业】
基础达标
一、选择题
1.某商品销售量y(件)与销售价格x(元/件)负相关,则其线性回归方程可能是
()
A.y=-10x+200B.y=10x+200
C.y=—10x—200D.y=10x—200
解析x的系数为负数,表示负相关,排除B,D;由实际意义可知x>0,y>
0,显然C不满足,故选A.
答案A
2.根据如下样本数据得到的回归方程为;=bx+a,则()
X345678
y4.02.5—0.50.5—2.0—3.0
A.a>0,b>0B.a>0,b<0
C.a<0,b>0D.a<0,b<0
解析画出散点图,知a>0,b<0.
-K
4
3
2
q
1234i67B
-21
-31
-41
案
答B
3.已知x与y之间的一组数据:
X0123
y1357
若y与x线性相关,则y与x的回归直线y=bx+a必过(
A.点(2,2)B.点(1.5,0)
C.点(1,2)D.点(1.5,4)
..0+1+2+3-1+3+5+7,
解析•x=4=L5,丫=4=4
,回归直线必过点(1.5,4).故选D.
答案D
4.已知x与y之间的一组数据:
X0123
ym35.57
已求得关于y与x的线性回归方程为y=2.2x+0.7,则m的值为()
A.1B.0.85
C.0.7D.0.5
0+1+2+3._口+3+5・5+7m+15.5...
解析x=\=1・5,-----:-----=—:—,将其代z入y=2.2x+
4
0.7,可得m=0.5,故选D.
答案D
5.已知表中y与x之间的线性回归方程是丫=^*+5.25,则b等于()
X1234
y4.5432.5
A.-0.5B.-0.6C.-0.7D.-0.8
.,,.匹用/曰-1+2+3+4-4.5+4+3+2.5,,
解析r由表中数据,得*=---------=2.5,y=---------------------=3.5,故回
归直线y=bx+5.25经过样本点的中心(2.5,3.5),得3.5=2.5b+5.25,解得
b=-0.7,故选C.
答案C
二、填空题
6.在一次试验中测得(x,y)的四组数据如下:
X16171819
y50344131
根据上表可得线性回归方程y=-5x+a,据此模型预报当x=20时,y的值为
16+17+18+19
解析x—■\-17.5,
4
50+34+41+31
=39,
回归直线过点(17.5,39),
.♦.39=—5X17.5+a,
.*.a=126.5,
.•.当x=20时,y=-5X20+126.5=26.5.
答案26.5
7.某工厂对某产品的产量与成本的资料分析后有如下数据:
产量x(千件)2356
成本y(万元)78912
由表中数据得到的线性回归方程y=bx+a中b=L1,则预测当产量为9千件
时,成本约为万元.
解析由表中数据得;=4,;=9,代入线性回归方程解得a=4.6,.•.当x=9
时,y=l.1X9+4.6=14.5.
答案14.5
8.期中考试后,某校高三(9)班对全班65名学生的成绩进行分析,得到数学成
绩y对总成绩x的回归方程为y=6+0.4x.由此可以估计:若两个同学的总成绩
相差50分,则他们的数学成绩大约相差_________分.
解析令两人的总成绩分别为x“X”
则对应的数学成绩估计为
yi=6+0.4x”y2=6+0.4x2,
所以M—y?|=|0.4(xi—x2)|=0.4X50=20.
答案20
三、解答题
9.某单位为了了解用电量y度与气温xC之间的关系随机统计了某4天的用
电量与当天气温如下表:
气温(℃)141286
用电量22263438
(1)求用电量y与气温x的线性回归方程;
(2)由(1)的方程预测气温为5c时,用电量的度数.
解(1)由题意知样本值n=4,x=10,y=30,则
n--
£(xi-x)(yLy)
-i=l
n
Z:(Xi-x)
i=1
4X(-8)+2X(-4)+(-2)X4+(-4)X8-80
16+4+4+1640
=-2,
a=y—bx=30—(—2)X10=50,
所以线性回归方程为y=-2x+50.
⑵令(1)中的回归方程中x=5,代入方程得;=40,所以预测当气温是5℃
时,用电量是40度.
10.有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均
GDP)x(单位:万元)和这一年这6个城市患白血病的儿童数量y(单位:人),如
下表:
人均GDPx/万元1086431
患白血病的儿童数y/人351312207175132180
(1)画出散点图,并判定这两个变量是否具有线性相关关系;
(2)通过计算可知这两个变量的回归直线方程为;=23.25x+102.15,假如一个
城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过
380人,请问这个断言是否正确?
解(1)根据表中数据画散点图,如图所示.
)7人
360•
270..
180・.•
9()
01234567891()切万元
从图中可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点
大致分布在这条直线的附近,所以这两个变量具有线性相关关系.
(2)上述断言是错误的.将x=12代入y=23.25x+102.15得y=23.25X12+
102.15=381.15>380,但381,15是对该城市人均GDP为12万元的情况下所
作的一个估计,该城市患白血病的儿童可能超过380人,也可能低于380人.
能力提升
11.在2020年5月1日,某市物价部门对本市的5家商场某商品的一天销售量
及其价格进行了调查,5家商场的售价x元和销售量y件之间的一组数据如下
表所示:
价格x(元)99.51010.511
销售量y(件)1110865
由散点图可知,销售量y与价格X之间有较好的线性相关关系,其线性回归直
线方程是:y=-3.2x+a,则a=()
A.-24B.35.6
C.40.5D.40
-q+g5+|O+in5+1I
解析价格的平均数是x=-5=1°,销售量的平均数是y=
11+10+8+6+5
=8,将(10,8)代入回归方程y=-3.2x+a,得8=一
5
3.2X10+a,/.a=8+3.2X10=40,故选D.
答案D
12.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价
格进行试销,得到如下数据:
单价x(元)88.28.48.68.89
销量y(件)908483807568
(1)求回归直线方程丫=6乂+2,其中b=-20;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,若该产品的成本
是4元/件,则为使工厂获得最大利润,该产品的单价应定为多少元?(利润=
销售收入一成本)
一1
解(1)由于x=\(8+8.2+8.4+8.6+8.8+9)=8.5,
b
~1
y=-(90+84+83+80+75+68)=80,
所以a=y—bx=80+20X8.5=250,
从而回归直线方程为y=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x4-250)—4(—20x+250)
=-20X2+330X-1000
=-20(x-8.25)2+361.25.
当且仅当x=8.25时,L取得最大值,
故当单价定为8.25元时,工厂可获得最大利润.
创新猜想
13.(多选题)某公司过去五个月的广告费支出x(单元:万元)与销售额y(单
位:万元)之间有下列对应数据:
X24568
y▲40605070
工作人员不慎将表格中y的第一个数据丢失.已知y对x呈线性相关关系,且
回归方程为y=6.5x+17.5,则下列说法正确的是()
A.销售额y与广告费支出x正相关;
B.丢失的数据(表中▲处)为30;
C.该公司广告费支出每增加1万元,销售额一定增加6.5万元;
D.若该公司下月广告费支出为8万元,则销售额约为75万元.
解析由回归直线方程为y=6.5x+17.5,可知b=6.5,则销售额y与广告费支
出x正相关,所以A正确;设丢失的数据为m,由表中的数据可得x=5,y=
220+m田,220+m)小、=।»工口―/口220+m,
―—,把点[5,—[代入回归方程,可得一--=6.5X5+17.5,解得m
=30,所以B正确;该公司广告费支出每增加1万元,销售额不一定增加6.5
万元,所以C不正确;若该公司下月广告费支出为8万元,则销售额约为;=
6.5X8+17.5=69.5(万元),所以D不正确.故选AB.
答案AB
14.(多空题)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,
下表记录了小李某月1号到5号每天打篮球时间x(单位:h)与当天投篮命中率
y之间的关系:
时间X12345
命中率y0.40.50.60.60.4
小李这5天的平均投篮命中率为;用线性回归分析的方法,预测小
李该月6号打6h篮球的投篮命中率为.
…一-0.4+0.5+0.6+0.6+0.42.5
解析y=----------------5----------------=可二0.5,
1+2+3+4+5
x==3.由公式,得b=0.01,
5
从而a=y—bx=0.5—0.01X3=0.47.
所以回归方程为y=0.47+0.Olx.
所以当x=6时,y=0.47+0.01X6=0.53.
答案0.50.53
8.2一元线性回归模型及其应用
第二课时非线性回归模型及其应用
课标要求素养要求
1.进一步掌握一元线性回归模型参数的统
计意义,会用相关统计软件.
通过学习回归模型的应用,提升数
2.了解非线性回归模型.
学运算及数据分析素养.
3.会通过分析残差和利用V判断回归模型
的拟合效果.
【课前预习】
新知探究
>情境引入
在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要运用散点
图选择适当的函数模型来拟合观测数据,然后通过适当的变量代换,把非线性
问题转化为线性问题,从而确定未知参数,建立相应的线性回归方程.
问题具有相关关系的两个变量的线性回归方程为y=bx+a.预测值y与真实值
y一样吗?预测值y与真实值y之间误差大了好还是小了好?
提示不一定;越小越好.
/口识梳理
1.残差的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的;
称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过
残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑
数据等,这方面工作称为残差分析.
2.刻画回归效果的方式
⑴残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值
等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域
内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和£(y-)S残差平方和越小,模型拟合效果越好,残差平方和越
i=lyi
大,模型拟合效果越差.
(3)利用N刻画回归效果
决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量
客户预报变量的能力.
n-
£(y.—Yi)'
R2=l—9------:—,R?越大,即拟合效果越好,炉越小,模型拟合效果越
£(y「y)~
i=l
差.
拓展深化
[微判断]
1.残差平方和越接近0,线性回归模型的拟合效果越好.(J)
2.在画两个变量的散点图时,响应变量在x轴上,解释变量在y轴上.(X)
提示在画两个变量的散点图时,响应变量在y轴上,解释变量在x轴上.
3.★越小,线性回归模型的拟合效果越好.(X)
提示田越大,线性回归模型的拟合效果越好.
[微训练]
1.在残差分析中,残差图的纵坐标为.
答案残差
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种
不同模型,计算可得它们的决定系数W分别如下表:
甲乙丙T
R20.980.780.500.85
哪位同学建立的回归模型拟合效果最好?
解R?越大,表示回归模型的拟合效果越好,故甲同学建立的回归模型拟合效
果最好.
[微思考]
在使用经验回归方程进行预测时,需要注意哪些问题?
提示(1)经验回归方程只适用于所研究的样本的总体;(2)所建立的经验回归
方程一般都有时效性;(3)解释变量的取值不能离样本数据的范围太远.一般解
释变量的取值在样本数据范围内,经验回归方程的预报效果好,超出这个范围
越远,预报的效果越差;(4)不能期望经验回归方程得到的预报值就是响应变量
的精确值.
【课堂互动】
题型一线性回归分析
【例1】己知某种商品的价格x(单位:元/件)与需求量y(单位:件)之间的
关系有如下一组数据:
X1416182022
y1210753
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.
一1
解X飞(14+16+18+20+22)=18,
-1
y=-(12+10+7+5+3)=7.4,
D
5
Ex-=142+162+182+202+222=1660,
i=l
5
Sxi%=14X12+16X10+18X7+20X5+22X3=620,
i=l
5——
八.匚XiYi_5xy
620-5X18X7.4
所以---------1.15,
51660-5X182
£Xi—5x2
i=l
a=7.4+1.15X18=28.1,
所以所求回归直线方程是;=一1.15x+28.1.
列出残差表:
Yi-Yi00.3-0.4-0.10.2
yi-y4.62.6-0.4-2.4-4.4
5-
2
所以Z,(y-yi)=0.3,
1=1
5-
E(y:—y)2=53.2,
1=1
5~,
£(yi-Yi)
,i=l
R2=1——;-----------y0.994,
W,,2
E(yj—y)
i=l
所以回归模型的拟合效果较好.
规律方法(1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线
性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指
数N来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行
分析.
(2)刻画回归效果的三种方法
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合
适.
②残差平方和法:残差平方和上(力一;尸越小,模型的拟合效果越好.
1=1
..(yi-Yi)
i—1
③决定系数法:R2=l---------------越接近1,表明回归的效果越好.
n
t(yi-y)~
i=l
【训练1】某地区2011年到2017年农村居民家庭人均纯收入y(单位:千元)
的数据如下表:
年份2011201220132014201520162017
年份代号t1234567
人均纯收入
2.93.33.64.44.85.25.9
y
(1)求y关于t的线性回归方程;
⑵利用⑴中的回归方程,分析2011年到2017年该地区农村居民家庭人均纯
收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为
一(—一5)
---------,£=歹一/".
X(t-7)2
31
解(1)由所给数据计算得
一1/
t=yX(1+2+3+4+5+6+7)=4,
一1
y=yX(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
£(ti-t)2=9+4+1+0+1+4+9=28,
i=1
.£(tj—t)(yi-y)=(-3)X(—1.4)+(—2)X(—1)+(—1)X(—0.7)+
1=1
0X0.1+1X0.5+2X0.9+3X1.6=14,
1--
t.(tj—t)(y「y)
;i=l
a=y—bt=4.3—0.5X4=2.3,
所以所求回归方程为y=0.5t+2.3.
⑵由(1)知b=0.5>0,故2011年到2017年该地区农村居民家庭人均纯收入逐
年增加,平均每年增加0.5千元.将2020年的年份代号t=10代入(1)中的回
归方程,得y=0.5X10+2.3=7.3.故预测该地区2020年农村居民家庭人均纯
收入为7.3千元.
题型二残差分析与相关指数的应用
【例2]假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5
组数据如下:
X15.025.830.036.644.4
y39.442.942.943.149.2
(1)以x为解释变量,y为预报变量,作出散点图;
⑵求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求R2,并说明⑵中求出的回归模型的拟合程度.
解(D散点图如下.
>有效穗数
50
48
46
44
42
40
38
15253545
基本苗数
(2)由⑴中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性
相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为y=bx+a,又x=30.36,y=43.5,
5
Sxi=5101.56,
i=1
Xy=1320.66,x=921.7296,
5
Sxy=6746.76.
i=lii
5——
、XXiy-5Xy._„_
贝此=---二---------~0.29,a=y—bx=34.70.
5-
£x?—5x2
i=l
故所求的回归直线方程为y=0.29x+34.70.
当x=56.7时,y=0.29X56.7+34.70=51.143.
故估计成熟期有效穗为51.143.
(3)由yi=bxi+a,可以算得e:=yi—yi分别为ei=0.35,e2=0.718,e3=—
0.5,e4=-2.214,e5=1.624,残差平方和:ie?^8.43.
i=l
5Q43
(4)I,(y-y)2=50.18,故1^^1一卷记心0.832.所以(2)中求出的回归模型
1=1OU.Io
的效果较好.
规律方法(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判
断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差e
“ez,…,当来判断模型拟合的效果.
⑵若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合
度越高,回归方程预报精确度越高.
【训练2】为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同
质量的6个物体进行测量,数据如下表:
X51015202530
y7.258.128.959.9010.911.8
⑴作出散点图并求回归直线方程;
⑵求出R?并说明回归模型拟合的程度;
⑶进行残差分析.
解(1)散点图如图所示.
弹簧长度/cm
14
12
10
::
6
I
2
5101520253()35、质量/g
样本点分布在一条直线附近,y与x具有线性相关关系.
一1
由表中数据,得x=R(5+10+15+20+25+3。)
=17.5,
一1
y=7x(7.25+8.12+8.95+9.90+10.9+11.8)Q9.487,
b
66
Lx!=2275,ZxiYi=l076.2.
i=li=l
计算得b%0.183,a^6.285.
故所求回归直线方程为y=6.285+0.183x.
⑵列表如下:
0.050.005-0.08-0.0450.040.025
Yi-Yi
y-y-2.237-1.367-0.5370.4131.4132.313
66-
可得Z,(y-)2^0.01318,S(y-y)2^14.6783.
1=1yi1=I
AQ1Q1Q
所以R2=l—“皿,产09991,回归模型的拟合效果较好.
14.6783
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这
个数据的时候是否有人为的错误,如果有的话,需要纠正错误,重新建立回归
模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水
平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧
长度与所挂物体的质量成线性关系.
题型三非线性回归分析
【例3】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费
x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8
年的年宣传费X,和年销售量y,(i=l,2,…,8)数据作了初步处理,得到下面
的散点图及一些统计量的值.
年销售量”
620
600
580
560
540
520
500
48。1
343638404244464850525456年宣传费/千元
8—8—
XLX石(w-w)•(y-
8一8-I()•(y-
Z(Xj—x)2X(Wj—w)2
Xyw1=1i=l
y)y)
6.
46.6563289.81.61469108.8
8
表中Wi=y[xi,w=-Swi,
(1)根据散点图判断,y=a+bx与y=c+d侦哪一个适宜作为年销售量y关于
年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.
根据⑵的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(U1,v,),(U2,V2),…,(u„,v),其回归直线v=a+Bu
的斜率和截距的最小二乘估计分别为
n一一
E(uj-u)(Vi-v)
;i=l-"2-
P=----------------------,a=v—Pu.
n
S(Uj—u)”
i=l
解(1)由散点图可以判断,y=c+d6适宜作为年销售量y关于年宣传费x的
回归方程类型.
(2)令w=,L先建立y关于w的线性回归方程.
8--
£(Wj—w)(yj—y)
〜十八i=l108.8
由于d-~=~j~z-=68,
8一、»1.6
X(Wi—w)~
i=1
c=y—dw=563—68X6.8=100.6,
所以y关于w的线性回归方程为y=100.6+68w,
因此y关于x的回归方程为y=100.6+68^/x.
⑶①由(2)知,当x=49时,
年销售量y的预报值y=100.6+68^49=576.6(t),
年利润z的预报值z=576.6X0.2-49=66.32(千元).
②根据(2)的结果知,年利润z的预报值
z=0.2(100.6+68也)-x=-x+13.66+20.12.
所以当~=6.8,
即x=46.24时,z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
规律方法求非线性回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线
性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
(3)利用所得模型,预报x=40时y的值.
解(1)作出散点图如下图,从散点图可以看出x与y不具有线性相关关系,根
据已有知识可以发现样本点分布在某一条指数函数曲线y=c,ec2x的周围,其中
C”C2为待定的参数.
y
350
300・
250
200
150
10().
50.•°
()L»,1.*._.__I_._.__._._I_A
20222426283032343638a
(2)对y=se喈两边取对数,得Iny=lnc,4-c2x,令z=lny,则有变换后的
样本点应分布在直线z=bx+a(a=lnJ,b=c?)的周围,这样就可以利用线性
回归模型来建立y与x之间的非线性回归方程了,数据可以转化为
X21232527293235
Z1.9462.3983.0453.1784.1904.7455.784
求得回归直线方程为z=0.272x-3.849,
•0.272X-3.849
・・y=e
残差
Yi711212466115325
Yi6.44311.10119.12532.95056.770128.381290.325
ei0.557-0.1011.875-8.9509.2334.675
13.381
(3)当x=40时,y=e"272X4°TM^i131.
【素养达成】
一、素养落地
1.通过本节课的学习,进一步提升数学运算及数据分析素养.
2.当根据给定的样本数据得到的散点图并不是分布在一条直线附近时,就不能
直接求其回归直线方程了,这时可根据得到的散点图,选择一种拟合得最好的
函数,常见的函数有募函数、指数函数、对数函数等,然后进行变量置换,将
问题转化为线性回归分析问题.
二、素养训练
1.下列两个变量之间的关系不是函数关系的是()
A.角度和它的余弦值
B.正方形的边长和面积
C.正n边形的边数和内角度数和
D.人的年龄和身高
解析函数关系就是变量之间的一种确定性关系.A,B,C三项中的两个变量
之间都是函数关系,可以写出相应的函数表达式,分别为f(®)=cos0,
g(a)=a2,h(n)=(n—2)Ji.D选项中的两个变量之间不是函数关系,对于年龄
确
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理管理中的医疗纠纷与法律风险防范
- 职专毕业考试题及答案
- 综合管理体系认证咨询合同
- 早产产妇的孕期保健与监测
- 新生儿听力筛查与护理
- 护理会诊的记录与文档
- 急性冠脉综合征抗血小板治疗专家共识(2026版)
- 环保工程职业健康方案
- 食管癌术后营养支持专家共识(2026版)
- 项目临时用电作业人员管理方案
- 2026年云南云天化股份有限公司春季招聘(169人)笔试模拟试题及答案解析
- YY/T 1986-2025一次性使用无菌神经用导管及附件
- 成都高投集团招聘笔试题
- 年龄相关性黄斑变性课件
- 码头防污染培训课件
- 维修安全教育培训内容课件
- TCCIIA0004-2024精细化工产品分类
- T-CBMF 92-2020 T-CCPA 18-2020 大弯矩方形钢筋混凝土电杆
- 光学和光子学 微透镜阵列 第3部分:光学特性测试方法
- 彝族民间音乐智慧树知到期末考试答案2024年
- 财政部政府采购评审专家考试题库
评论
0/150
提交评论