高考数学一轮复习:变量间的相关关系与统计案例_第1页
高考数学一轮复习:变量间的相关关系与统计案例_第2页
高考数学一轮复习:变量间的相关关系与统计案例_第3页
高考数学一轮复习:变量间的相关关系与统计案例_第4页
高考数学一轮复习:变量间的相关关系与统计案例_第5页
已阅读5页,还剩13页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2讲变量间的相关关系与统计案例

最新考纲考向预测

1.会作两个有关联变量的数据的散点两个变量线性相关的判断

图,并利用散点图认识变量间的相关关及应用,回归直线方程的

系.求法及应用,利用2X2列

2.了解最小二乘法的思想,能根据给出命题趋势联表判断两个变量的相关

的线性回归方程系数公式建立线性回关系是高考考查的热点,

归方程(线性回归方程系数公式不要求题型为选择与填空题,或

记忆).者在解答题中综合考查.

3.了解独立性检验的思想、方法,并能

初步应用独立性检验的思想方法解决

一些简单的实际问题.

核心素养数据分析、数学运算

4.通过典型案例了解回归分析的思想方

法,并能初步应用回归分析的思想、方

法解决一些简单的实际问题.

走进教材•自主回顾〃〃〃〃〃〃〃〃〃〃〃〃〃〃〃

知识梳理温故知新

1.变量间的相关关系

常见的两变量之间的关系有两类:一类是函数关系,另一类是指差关系;与

函数关系不同,相关关系是一种非确定性关系.

2.两个变量的线性相关

⑴从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一

条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.

(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种

相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系

为负相关.

n___

^xiyi-nxy

⑶回归方程为y=bx+a,其中力=三]二-

Yxr—nx2

(4)相关系数

当,>0时,表明两个变量正相差;

当,<0时,表明两个变量负相关.

一的绝对值越接近于1,表明两个变量的线性相关性越强•的绝对值越接近

于(),表明两个变量之间几乎不存在线性相关关系,通常仍大于().75时,认为两

个变量有很强的线性相关性.

3.独立性检验

(1)2X2列联表:假设有两个分类变量X和V,它们的取值分别为{川,r}和

{V,*},其样本频数列联表(称2X2列联表)为:

y中总计

x\aba±b

X2cdc+d

总计Q+Cb+d〃+/?+c+d

(2)心统计量

曲=(a+b)(:黑::L(b+d)(其中"="+0+c+"为样本容

量).

0常用结论

1.求解回归方程的关键是确定回归系数々,b,应充分利用回归直线过样本

中心点(x,y).

2.根据片的值可以判断两个分类变量有关的可信程度,若收越大,则两

分类变量有关的把握越大.

◎常见误区

1.根据回归方程计算的Q值,仅是一个预报情,不是真实发生的值.

2.注意线性回归方程中一次项系数为合,常数项为2,这与一次函数的习惯

表示不同.

3.应明确R2越接近于1,表示回归效果越好.

诊断自测易错清零

I.判断正误(正确的打“J”,错误的打“X”)

(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.()

(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表

示.()

(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.()

(4)事件X,丫的关系越密切,由观测数据计算得到的K2的观测值越大.()

(5)通过回归方程£=源+。可以估计和观测变量的取值和变化趋势.()

答案:(1)X(2)7⑶J(4)V(5)V

2.某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据

如表:

X681012

y2356

则),对x的线性回归直线方程为()

A.y=2.3x—0.7B.y=2.3x+0.7

C.y=0.7尤一2.3D.y=0.7x+2.3

解析:选C易求7=9,歹=4,样本点的中心(9,4)代入验证,满足f=().7x

—2.3.

3.(易错题)两个变量〉与工的回归模型中,分别选择了4个不同模型,它们

的相关指数R2如下,其中拟合效果最好的模型是()

A.模型1的相关指数中为0.98

B.模型2的相关指数R2为().8()

C.模型3的相关指数序为0.50

D.模型4的相关指数R2为0.25

解析:选A.在两人变量y与x的回归模型中,它们的相关指数A?越接近于

1,拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模

型I.

4.下面是2X2列联表:

解析:选CD.由题中散点图知C项中的点都分布在一条直线附近,D项中的

点也分布在一条直线附近,所以C项和D项中的两个变量具有相关关系,A项

和B项中的点分布杂乱无序不具有相关关系.故选CD项.

2.下列命题中正确的为()

A.线性相关系数厂越大,两个变量的线性相关性越强

B.线性相关系数〃越小,两个变量的线性相关性越弱

C.残差平方和越小的模型,模型拟合的效果越好

D.用相关指数R?来刻画回归效果,R?越小,说明模型的拟合效果越好

解析:选C.线性相关系数|r|越接近1,两个变量的线性相关性越强,所以A,

B错误;残差平方和越小的模型,模型拟合的效果就越好,C正确;相关指数

R2来刻画回归效果,R2越接近于1,说明模型的拟合效果就越好,所以D错误.

3.某公司在2020年上半年的月收入x(单位:万元)与月支出y(单位:万元)

的统计资料如表所示:

月份1月份2月份3月份4月份5月份6月份

月收入X12.314.515.()17.()19.820.6

月支出),5.635.755.825.896.116.18

根据统计资料,则()

A.月收入的中位数是15与y有正线性相关关系

B.月收入的中位数是17,x与y有负线性相关关系

C.月收入的中位数是16,工与y有正线性相关关系

D.月收入的中位数是16,工与y有负线性相关关系

解析:选C.月收入的中位数是170=A,收入增加,支出增加,故入

与),有正线性相关关系.

陶窗窗

判定两个变量正、负相关性的方法

(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从

左上角到右下角,两个变量负相关.

⑵相关系数:当,>0时,正相关;当一<0时,负相关.

(3)线性回归方程中:3()时,正相关;源0时,负相关.

考点口

回归分析

角度一线性回归方程及其应用

例工(2020•湖北八校第一次联考)为落实国家扶贫攻坚政策,某社区应上级

扶贫办的要求,对本社区所有贫困户每年年底进行收入统计,下表是该社区4

贫困户从2016年至2019年的收入统计数据:(其中y为A贫困户的人均年纯收

入)

年份2016年2()17年2018年2019年

年份代码x1234

人均年纯收入),/百元25283235

(1)作出A贫困户的人均年纯收入的散点图;

AA

(2)根据上表数据,用最小二乘法求出y关于年份代码x的线性回归方程》,=。

工+1,并估计4贫困户在2020年能否脱贫.(注:国家规定2020年的脱贫标准

为人均年纯收入不低于3800元)

〃___

八Z秒一〃xy八

(参考公式:分=1-----二一a=y-bx)

YA?—nx2

【解】(1)由表格中的数据得散点图如图:

-25+28+32+35

(2)根据表格中的数据可得工=

4-2),=4=30,

4____

A4到-4xyA_A-5

所以/?=-4--------=3.4»a=y-bx=30—3.4X7=21.5.

,身"4/2

故y关于x的线性回归方程为y=3.4x+21.5,

当x=5时,9=38.5(百元),因为38503800,所以预测A贫困户在2020

年能脱贫.

求回归直线方程的步骤

I⑴计算出£,夕,/+d+…+以用力+孙力+…+与力的值

[⑵利用公式计算回归系数i同

|(3)写出线性回归方程一宸+;)

角度二相关系数及其应用

例2(2020・高考全国卷H节选)某沙漠地区经过治理,生态系统得到很大改

善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积

相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,

调查得到样本数据3,y)(i=l,2,…,20),其中力和分别表示第,个样区的

2020

植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得占H=6(),£),,=1

20-320_、20__

200,£(X/—x)2=80,不(》—y)2=9000,不(XLx)•(»—y)=800.

(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样

区这种野生动物数量的平均数乘以地块数);

(2)求样本3,刈(,=1,2,…,20)的相关系数(精确到().()1).

n——

X(X/—x)()Ly)

附;相关系数-------=---7---='*72^1.414.

q占aw苫(产一7)2

【解】(1)由已知得样本平均数―),=疝12£0)>=60,从而该地区这种野生动物

数量的估计值为60X200=12000.

(2)样本8,》)。=1,2,…,20)的相关系数

『片20…__”

/年三)2艺65)23

陶窟四

回归方程的拟合效果,可以利用相关系数判断,当M越趋近于1时,两变量

的线性相关性越强.

匐跟踪训练】(2020•武汉市学习质*检测)有人收集了某10年中某城市居民

年收入(即该城市所有居民在一年内收入的总和)与某种商品的销售额的相关数

据如表:

第〃

12345678910

年收

入W32.031.033.036.037.038.039.043.045.0X10

亿元

商品

销售

25.030.034.037.039.041.042.044.048.0yio

额W

万元

10

且已知香工二380.0.

(1)求第10年的年收入xio;

(2)若该城市居民年收入犬与该种商品的销售额),之间满足线性回归方程£=

363,A

2541+a'

①求该种商品第10年的销售额)“o;

②若该城市居民年收入为40.0亿元,估计这种商品的销售•额是多少?(精确

到().01)

AAAA^.XiVi—nxy

附:①在线性回归方程中»b='i二-

2r/一〃X

A—A—

a=y-bx;

io_99

②斗君一10x2=254.0,12875.0,R.W=340.0.

io

解:(1)因为苫刘=380.0.

所以32+31+33+36+37+38+39+43+45+xio=38O,解得xio=46.

⑵①由该城市居民年收入x与该种商品的销售额y之间满足线性回归方程Q

363A363vA2孙—10xy363

A+=FPZ?==:

254^^254,^-]Q-2254

34>?10

12875+46yio-lOX^X°1Q-

即--------------254--------------=25t,

解得yio=51.

——A363八363A

②求得x=38,y=39.1,代入得39.1=^[X38+。,

”•ZJ4ZJ4

AA363

解得。比一15.21,所以,=记》一15.21,

J"I

,「363

当x=40时,),=奇义40—15.21七41.96,

故若该城市居民年收入为40.0亿元,估计这种商品的销售额是41.96万元.

考点3

独立性检验

H31(2()20•新后考卷I)为加强环境保护,治理空气污染,环境监测部门对

某市空气质量进行调研,随机抽杳了100天空气中的PM2.5和SOz浓度(单位:

Ug/m3)»得下表:

'\^SO2

ro,50](50,150](150,4751

PM2.5

[0,35]32184

(35,75]6812

(75,115]3710

(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过

150”的概率;

(2)根据所给数据,完成下面的2X2列联表:

[0,150](150»475]

PM2.5

[0,75]

(7575]

⑶根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5

浓度与SO2浓度有关?

n(ad-be)2

附:蜉=

(。+力)(c+d)(a+c)(b+d】

P(K2^k)0.0500.0100.001

k3.8416.63510.828

.【解】(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且

SCh浓度不超过15()的天数为32+18+6+8=64,因此,该市一天空气中PM2.5

64

浓度不超过75,且SCh浓度不超过150的概率的估计值为而=0.64.

(2)根据抽查数据,可得2X2列联表:

[0,150](150,475]

PM2.5

[0,75]6416

(75,115]1010

(3)根据(2)的列联表得

—…100X(64X10-16X10)2八

K勺儿丹值女二80X20X74X26七7.484.

由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SCh

浓度有关.

(1)独立性检验的一般步骤

①根据样本数据制成2X2列联表;

n(ad-be)2

②根据公式照=计算K2的观测值生

(a+Z?)(c+d)(〃+c)(Z?+d)

③查表比较心与临界值的大小关系,作出统计判断.

(2)解独立性检验的应用问题的关注点

①两个明确:(i)明确两类主体;(ii)明确研究的两个问题;

②两个准确:(i)准确画出2X2列联表;(ii)准确理解K2.

匐跟踪训练】(2020・长沙市统一模拟考试)为了解某校学生参加社区服务的

情况,采用按性别分层抽样的方法进行调查,已知该校共有学生960人,其中男

生560人,从全校学生中抽取了容量为〃的样本,得到一周参加社区服务时'可的

统计数据如下表:

超过1小时的人数不超过1小时的人数

男208

女12m

⑴求m»n的值;

(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时

与性别有关?

附:

P(K22k)0.0500.0100.001

k3.8416.63510.828

n(ad-be')2

(。+8)(c+d)(a+c)(b+d),

124-!H_400

解:(1)由已知,该校有女生400人,故20+8=560得m=8,

从而〃=20+8+12+8=48.

(2)作出2X2列联表如下:

超过1小时的人数不超过1小时的人数总计

男20828

女12820

总计321648

j1c48X(160-96)224

K2的观测值k==乂“=*[°.68570.841.

ZoXZUX32Xlo33

所以没有95%的把握认为该校学生一周参加社区服务时间是否超过1小时

与性别有关.

知能提升•分层演练

[A级基础练]

I.在一次对性别与说谎是否相关的调查中,得到如下数据:

说谎不说谎总计

男6713

女8917

总计141630

根据表中数据,得到如下结论正确的一项是()

A.在此次调查中有95%的把握认为是否说谎与性别有关

B.在此次调查中有99%的把握认为是否说谎与性别有关

C.在此次调查中有99.5%的把握认为是否说谎与性别有关

D.在此次调查中没有充分的证据显示说谎与性别有关

30X(6X9—7X8)2

解析:选D.由已知得烂的观测值k='।一—"0.002<0455,

13A1/X14X10

所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在

此调查中没有充分的证据显示说谎与性别有关.

2.(2020♦四川绵阳二诊)已知某产品的销售额),(单位:万元)与广告费用x(单

位:万元)之间的关系如下表:

M单位:万元)01234

),(单位:万元)1015in3035

若根据表中的数据用最小二乘法求得y与X的回归直线方程为f=6.5x+9,

则下列说法中错误的是()

A.产品的销售额与广告费用成正相关

B.该回归直线过点(2,22)

C.当广告费用为10万元时,销售额一定为74万元

D.m的值是20

解析:选C.由线性回归方程f=6.5x+9中的回归系数6.5>0,可知产品的销

售额与广告费用成正相关,故A中的说法正确;

-0+1+2+3+4-10+15+加+30+3590+加

x—z=2=5二^-代入),=6.5x+9,

90+m

得一^—=6.5X2+9,解得m=20,故D中的说法正确;

90+///90+20

=22,则该回归直线过点(2,22),故B中的说法正确;

>,=­5

当x=10时,£=6.5X10+9=74,说明当广告费用为10万元时,销售额预

计为74万元,故C中的说法错误.故选C.

3.如图是从2015年到2020年六年间我国公共图书馆业机构数与对应年份

编号的散点图(为便于计算,将2015年编号为1,2016年编号为2,…,2020年

编号为6,把每年的公共图书馆业机构数作为预报变量,把年份编号作为解释变

量进行回归分析),得到回归直线方程为f=13.743x+3095.7,其相关指数R2=

0.9817,给出下列结诒,其中正确的个数是()

添3190

13180

*3170

今3160

汪3150

二3140

更3130

共3120

出3110

3100

01234567

年份编号

①公共图书馆业机构数与年份编号的正相关性较强;

②公共图书馆业机构数平均每年增加13.743;

③可预测2021年公共图书馆业机构数为3192.

A.0B.1C.2D.3

解析:选D.因为数点图中各点散布在从左下角到右上角的区域内,所以为

正相关,因为7?2=0.9817接近于1,所以公共图书馆业机构数与年份编号的相

关性较强,故①正确;因为回归直线的斜率为13.743,所以公共图书馆业机构数

平均每年增加13.743敝②正确;将工=7代入回归直线方程夕=13.743工+3095.7,

解得£=3191.901^3192,所以可预测2021年公共图书馆业机构数为3192,故

③正确.综上所述,正确的个数是3,故选D.

4.(多选)下列说法中错误的是()

A.将一组数据中的每一个数据都加上或减去同一个常数后,方差不变

B.设有一个回归直线方程f=3—5x,变量x增加1个单位时,了平均增加5

个单位

C.设具有相关关系的两个变量x,y的相关系数为r,则仍越接近于0,x和

),之间的线性相关程度越强

D.在一个2X2列联表中,由计算得Y的值,则片的值越大,判断两个变

量间有关联的把握就越大

解析:选BC.根据方差公式,可知将一组数据中的每个数据都加上或减去同

一个常数后,方差恒不变,故A正确;变量x增加一个单位时,),平均减小5个

单位,故B不正确;设具有相关关系的两个变量x,),的相关系数为广,则H越接

近于(),1和y之间的线性相关程度越弱,故C错误;在一个2X2列联表中,由

计算得K的值,则K?的值越大,判断两个变量间有关联的把握就越大,故D正

确.故选BC.

5.经调查某地若干户家庭的年收入x(万无)和年饮食支出),(万元)具有线性

相关关系,并得到),关于x的回归直线方程£=0.245X+0.321,由回归直线方程

可知,家庭年收入每增加1万元,年饮食支出平均增加万元.

解析:x变为x+1,£=0.245。+1)+0.321=0.245x+0.321+0.245,因此家

庭年收入每增加1万元,年饮食支出平均增加0.245万元.

答案:0.245

6.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,

具体情况如下表:

非统计专业统计专业

性别

男131()

女720

为了检验主修统计专业是否与性别有关,根据表中的数据得到片的观测值

k=(精确到0001).若断定主修统计专业与性别有关系,这种判断出错

的可能性为.

(由临界值表知P(K223.841户0.05/(肥25.024户0.025,其中片的观测值攵

〃(ad-be)2______________

(。+〃)(c+d)(a+c)(〃+d),十台+c十4

解析:由题意,根据公式可得片的观测值4=

50X(13X20-10X7)2

一g4.844.

23X27X20X30

因为4.844>3.841,所以断定主修统计专业与性别有关系,这种判断出错的

可能性为0.05.

答案:4.8440.05

7.(2020・合肥模拟深校在高一年级学生中,对自然科学类、社会科学类校

本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其

中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.

(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?

(2)根据抽取的180名学生的调查结果,完成下面的2X2列联表.并判断能

否在犯错误的概率不超过0.025的前提下认为科学类的选择与性别有关?

选择自然科学类选择社会科学类总计

男生

女生

总计

〃(ad-be)~________廿।

(。+匕)(c+d)(。+。),其中“MQ+8+c+a

尸(烂2旬0.100.050.0250.0100.0050.001

屈2.7063.8415.0246.6357.87910.828

解:(1)从高一年级学生中随机抽取1人,抽到男生的概率约为普

1OU1N

(2)根据统计数据,可得2X2列联表如表:

选择自然科学类选择社会科学类总计

男生6045105

女生304575

总计9090180

m力m180X(60X45-30X45)236

则K?的观测值&=----1八〜r-,…,、八--------------

所以能在犯错误的概率不超过0.025的前提下认为科学类的选搽与性别有

关.

8.某市春节期间7家超市广告费支出刘(万元)和销售额坂万元)数据如表:

超市ABCDEFG

广告费支出方(万元)1246111319

销售额),,(万元)19324044525354

(1)若用线性回归模型拟合y与大的关系,求),与x的线性回归方程;

(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:£=-0.17Y

+5工+20经计算,二次函数回归模型和线性回归模型的R2分别约为().93和0.75,

请用R?说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为3

万元时的销售额.

参考数据:1=8'歹=42,±x»=2794'£x?=708.

n___

A^iy-nxy__

参考公式:b=E------------->aA=y-bAx.

,不需一2

7___

5个高孙—7工,,2794-7X8X42

解:⑴"==—708-7X82-=17

所以1=歹一£7=42—1.7X8=28.4.

故),关于x的线性回归方程是?=1.7x4-28.4.

(2)因为0.75<0.93,所以二次函数回归模型更合适.

当犬=3时,£=33.47.故选择二次函数回归模型更合适,并且用此模型预测

A超市广告费支出为3万元时的销售额为33.47万元.

[B级综合练]

9.(2020・高考全国卷III)某学生兴趣小组随机调查了某市100天中每天的空

气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):

人次

空藕NJ[0,200](200,400](400,600]

1(优)21625

2(良)51()12

3(轻度污染)678

4(中度污染)720

⑴分别估计该市一天的空气质量等级为1,2,3,4的概率;

(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间

的中点值为代表);

(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空

气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的

2X2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼

的人次与该市当天的空气质量有关?

人次W4人人次>400

空气质量好

空气质量不好

n(ad-be)2

(〃+Z?)(c+d)(a+c)(b+d〕

P(心》k)0.0500.0100.001

k3.8416.63510.828

.解:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计

值如表:

空气质量等级1234

概率的估计值0.430.270.210.09

(2)一天中到该公园锻炼的平均人次的估计值为

击(100X20+300X35+500X45)=350.

(3)根据所给数据,可得2X2列联表:

人次W400人次>400

空气质量好3337

空气质量不好228

根据列联表得

,100X(33X8-22X37)2

-----------------------'5820

K2=55X45X70X30

由于5.8203.841,故有95%的把握认为一天中到该公园锻炼的人次与该市

当天的空气质量有关.

[C级创新练]

10.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:

千元)对年销售量z(单位:t)和年利润z(单位:千元)的影

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论