新课标2025版高考数学一轮总复习第9章统计与统计案例第3节成对数据的统计分析教师用书_第1页
新课标2025版高考数学一轮总复习第9章统计与统计案例第3节成对数据的统计分析教师用书_第2页
新课标2025版高考数学一轮总复习第9章统计与统计案例第3节成对数据的统计分析教师用书_第3页
新课标2025版高考数学一轮总复习第9章统计与统计案例第3节成对数据的统计分析教师用书_第4页
新课标2025版高考数学一轮总复习第9章统计与统计案例第3节成对数据的统计分析教师用书_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三节成对数据的统计分析

考试要求:驾驭散点图、最小二乘法思想、回来分析以及独立性检验.

—^必备知识-回顾教材重“四基”/-

一、教材概念•结论•性质重现

1.相关关系

两个变量有关系,但又没有准确到可由其中的•个去精确地确定另•个的程度,这种关

系称为相关关系.

2.散点图

将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,

这样的统计图叫做散息图.利用散点图,可以推断两个变量是否相关,相关时是正相关还是

负相关.

3.正相关和鱼相关

(1)正相关:假如从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增

加的趋势,我们就称这两个变量正相关.

(2)负相关:假如当一个变量的值增加时,另一个变量的相应值呈现削减的趋势,则称

这两个变量负相关.

微提醒■■■

相关关系与函数关系的区分与联系

(1)相同点:两者均是指两个变量的关系.

(2)不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.

②函数关系是一种因果关系,而相关关系不肯定是因果关系,也可能是伴随关系.

-4.线性相关和非线性相关

(1)•般地,假如两个变量的取值呈现正相关或负相关,而且散点落在••条直线旁边,

我们就称这两个变量线拄足去.

(2)一般地,假如两个变量具有相关性,但不是线性相关,那么我们就称这两个变量韭

线拄相关或曲线相关.

5.样本相关系数不

变量x和变量/的样本相关系数r的计算公式如下:r

X(J-.—1)(y—丁)

>=1

微提醒■■■

(1)当上0时,称成对样本数据正相关;当X0时,称成对样本数据负相关;当?=0

时,称成对样本数据间没有线性相关关系.

(2)样本相关系数r的取值范围为[—1,1]:当|r|越接近1时,成对样本数据的线性相

关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.

6.一元线性回来模型

Y=bx-\-a+e:

我们称〜、…,、2为y关于1的一元线性回来模型,其中y称为因变量或

响应变量,x称为自变量或说明变量;a和人为模型的未知参数,a称为截距参数,。称为斜

率参数;e是V与公+a之间的随机误差.

7.线性回来方程与最小二乘法

回来直线方程过样本点的中心(二,7),是回来直线方程最常用的一个特征.

我们将尸H+a称为y关于X的阅历回来方程,也称阅历回来函数或阅历回来公式,其

图形称为阅历回来直线.这种求阅历回来方程的方法叫做最小二乘法,求得的力,&叫做6,

a的最小二乘估计,

n__n

i)(y—了)—njcy

;i=ii=i

b=-------------------------------=------------------------,

其中<£(片.-1)2Xjf—7?X2

Z=1i=l

a=y—bx.

8.刻画问来效果的方式

(1)残差图法:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重

估计值等,这样作出的图形称为残差图.若残差点比较匀称地落在水平的带状区域内,带状

区域越窄,则说明拟合效果越好.

(2)残差平方和法:残差平方和工(力一%尸,残差平方和越小,模型拟合效果越好,

1=1

残差平方和越大,模型拟合效果越差.

9.独立性检验

(1)临界值/统计量也可以用来作相关性的度量,.一越小说明变量之间越独立,f越

大说明变量之间越相关,4=『+〃)(:£'点匕>(力+中・忽视力的实际分布与该近似分

布的误差后,对于任何小概率值。,可以找到相应的正实数X。,使得成

立,我们称人为。的临界值,这个临界值就可作为推断一大小的标准.

(2)基于概率值。的检验规则:

当时,我们就推断〃不成立,即认为才和「不独立,该推断犯错误的概率不超

过。;当时,我们没有充分证据推断〃不成立,可以认为乃和V独立.

这种利用/的取值推断分类变量才和V是否独立的方法称为/独立性检验,读作“卡

方独立性检验”,简称独立性检验.

二、基本技能•思想•活动阅历

1.推断下列说法的正误,对的打“J”,错的打“X”.

(1)“名师出高徒”可以说明为老师的教学水平与学生的水平成正相关关系.

(V)

⑵通过阅历回来方程尸="+a可以估计预报变量的取值和改变趋势.

J)

(3)阅历回来方程y=bx+a中,若水0,则变量x和/负相关.

(X)

(4)因为由任何一组观测值都可以求得一个阅历回来方程,所以没有必要进行相关性检

验.X)

2.(多选题)关于回来分析,下列说法正确的是()

A.在回来分析中,变最间的关系若是非确定性关系,那么因变最不能由自变最唯一确

B.线性相关系数可以是正的也可以是负的

C.在回来分析中,假如产=1或?=±1,说明丫与了之间完全线性相关

D.样本相关系数,

ABC解析:选项D中,样本的相关系数应满足-1WE1,故D错误,ABC都正确.

3.以下四幅散点图所对应的样本相关系数的大小关系是()

35

30

25

20

15

10

5

°05101520253035

(1)样本相关系数为口

35

30

25

20

15

10

5

005101520253035

(2)样本相关系数为,2

35

30

25

20

15

10

5

0

051()152()253()35

(3)样本相关系数为与

35

30

25

20

15

10

5

0

0510152()253035

(4)样本相关系数为〃

A.ri>Z2>/3>ri

B.n>r3>r2>ri

C.ri>r3>r.i>r>

D.z*i>22>rl>23

C解析:由散点图的特征可知,(1)(3)为正相关,(2)(4)为负相关,所以r.>0,人

>0,及VO,r»<0.

又(1)(2)中的散点更为集中,更接近于一条直线,故n>为,及〈门,

所以Z2<ri<0<Z3<ri.

4.高二其次学期期中考试,依据甲、乙两个班学生的数学成果优秀和及格统计人数后,

得到如下列联表:

优秀及格合计

甲班113445

乙班83745

合计197190

则随机变量小的值约为()

A.0.600B.0.828

C.2.712D.6.004

A解析:依据列联表中的数据,可得♦=9。蔡片)%0.600.故选A.

5.若变量y与x的非线性回来方程是尸2《一1,则当加勺值为2时,x的估计值为

9(-9Q

[解析:由入〃-1=2,得火=7,即x的估计值为R

、关键能力-研析考点强“四翼

考点1相关关系的推断一一基础性

「多维训练」

1.有以下五组变量:

①某商品的销售价格与销售量;②学生的学籍号与学生的数学成果;③坚持每天吃早餐

的人数与患胃病的人数:④气温与冷饮销售量;⑤电瓶车的重量和行驶每T•米的耗电最.

其中两个变量成正相关的是()

A.①③B.@@

C.②⑤D.

D解析:对于①,一般状况下,某商品的销售价格与销售量成负相关关系;对于②,

学生的学籍号与学生的数学成果没有相关关系;对于③,一般状况下,坚持每天吃早餐的人

数与患胃病的人数成负相关关系:对于④,一般状况下,气温与冷饮销售量成正相关关系:

对于⑤,一般状况下,电瓶车的重量和行驶每千米的耗电量成正相关关系.综上所述,其中

两个变量成正相关的序号是④⑤.

2.两个变量的相关关系有①正相关、②负相关、③不相关,则下列散点图从左到右分

别反映的变量间的相关关系是()

A.①②③B.②®©

C.②①③D.®®®

0解析:对于(1),图中的点成带状分布,且从左到右上升,是正相关关系;对于(2),

图中的点没有明显的带状分布,是不相关的;对于(3),图中的点成带状分布,且从左到右

是下降的,星负相关关系.

解题通法

忽视散点图的结构特点导致错误

(1)两个变量具有正相关关系时,其散点图是从左下方到右上方的直线旁边;

(2)两个变量具有负相关关系时,其散点图是左上方到右下方的直线旁边.

考点2一元线性回来模型及其应用一一基础性

典例引领

考向1线性回来分析

例维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越

高,耐热水性能也越好.而甲醛浓度是影响缩醛化度八克分子%)的重要因素,在生产中常

用甲醛浓度x(g/L)去限制这一指标,为此必需找出它们之间的关系.现支配一批试验,获

得如下数据:

甲醛浓度x(g/L)18202224262830

缩醛化度八克分子%)26.8628.3528.7528.8729.7530.0030.36

⑴画散点图,并推断成对样本数据是否线性相关;

⑵求样本相关系数7■(精确到0.01),并通过样本相关系数推断甲醛浓度与缩醛化度的

相关程度和改变趋势的异同.

解:(1)画出散点图如图所示.

4缩醒化度),(克分.子%)

30-•••

28••,

26-*

0118202224262830

甲醯浓度Ng/L)

由散点图可以看出,成对数据呈现出相关关系.

_168_202.94

(2)1==24,)=--—,=4900.16,?=

//i=ii=i

7

4144.892.

i=l

7

£乙外—7

202.94

49OO.16-7X24X

7

I-O.96.

J(414-1-7X242)X'5892-7X

由此推断,甲醛浓度与缩醛化度正线性相关,印甲醛液度与

缩醛化度有相同的变化趋势,且相关程度很强.

解题通法

解这类问题先画出散点图,利用散点图视察两个变量之间的关系,若两个变量具有相关

关系,再利用样本相关系数r进行进一步的推断.

考向2非线性回来分析

例❷,(2024•郑州高三期末)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现

收集到一只红铃虫的产卵数y(个)和温度x(C)的8组观测数据,制成图1所示的散点图.现

用两种模型①y=a・Z/(a>0,心>0),②分别进行拟合,由此得到相应的非线性

回来方程并进行残差分析,进一步得到图2所示的残差图.

依据收集到的数据,计算得到如下值:

8

7tS(、jT)2Sk—7)2

1=1I=I

252.89646168422688

88

2(Zj—£)(4:-JC)X(y一G)(乙一7)

i=li=i

48.4870308

表中看=ln;7=—[N,♦0=旺7=&・

OO

(1)依据残差图,比较模型①,②的拟合效果,应选择哪个模型?请说明理由.

(2)依据⑴中所选择的模型,求出y关于x的非线性阅历回来方程(计算过程中四舍五

入保留两位小数),并求温度为35C时,产卵数y的预报值.

参考数据:e,⑹生273,6299,e579^327.

产卵个

4()

20

0051

801

60

40

20

°182022242628303234温度加(

图⑴产卵数散点图

残差

图(2)两种模理的残差图

解:(1)应当选择模型①.

理由:模型①残差点比较匀称地落在水平的带状区域中,且带状区域的宽度比模型②带

状宽度窄,所以模型①的拟合精度更高,回来方程的预报精度相应就会越高.故选模型①比

较合适.

(2)由(1)知,选用模型①,y=a・b\将两边取对数,得Iny=(lnb)x+lna.

令z=lny,z与温度x可以用阅历回I来方程来拟合,

—x)Czi—2)

占48.48

则z=(lnb)x+lna,Inb=---------;--------------------=168^0-29,

o

夕(N:-Z尸

;=1

Ina=z~7\n6=2.89-0.29X25^-4.36.

于是有Iny=0.29》一4.36,

所以产卵数》关于温度才的非线性经脸回归方程为y

_八0.29x—4.36

——e・

当①=35时,)=匕"29*35-4.36=声79~327(个),

所以,在气温在35℃时,一个红铃虫的产卵数的预报值为

327个.

解题通法

非线性I可来分析的解题步骤

根据原始数据(XJ)作出散点图

占图

根据散点图,选择恰当的拟合函数

作恰当的变换,将其转化成线性函

、求解,数,求经险回归方程

X在上面的基础上通过相应的变换,

即可得非线性经舲回归方程

多维训练

某种昆虫的日产卵数和时间改变有关,现收集了该昆虫第1天到第5天的日产卵数据:

第X天12345

日产卵数y(个)612254995

对数据初步处理后得到了如图所示的散点图和表中的统计量的值.

OO

9()

8O

7O

6O

5()

4O

3O

2O

IO

555

t储

2k»lnv;)

♦Iny,.)

i=1t=1*=i/=i

155515.9154.75

(1)依据散点图,利用计算机模拟出该种昆虫日产卵数y关于万的阅历回来方程为y=

e"九其中e为自然对数的底数),求实数a,。的值(精确到0.1).

(2)依据某项指标测定,若口产卵数在区间(e:不)上的时段为优质产卵期.利用⑴的

结论,估计在第6天到第10天中仃.取2天,其中恰有1天为优质产卵期的概率.

解:(1)因为y=e"纥两边取自然对数,得lny=a+".

令m=x,n=1np,得〃=a+bm.

1515.94

-54.75-5X-

因为〃=^7-..=।=0.693»

bo-bYx310n

所以go.7.

——1594

因为a=n—bm=­z1----0.7X3=1.088,

所以犷6.1,即1,b%0.7.

⑵依据⑴得尸尸+宁

由eViVeM

得7<x<y.

所以任第6天到第1U天中,第8,9天为优质产卵期.

从第6天到第10天中任取2天的全部可能结果有(6,7),(6,8),(6,9),(6,10),(7,8),

(7,9),(7,10),(8,9),(8,10),(9,10),共10种.

其中恰有1天为优质产卵期的有(6,8),(6,9),(7,8),(7,9),(8,10),(9,10),共6

种.

设从第6天到第10天中任取2天,其中恰有1天为优质产卵期的事务为力,

则尸(心=^=|

3

所以从第6天到第1C天中任取2天,其中恰有1天为优质产卵期的概率为壬

0

考点3残差分析一一应用性

典例引领

例❸■近年来,中国电影市场蓬勃发展,连创票房奇迹,各地接连新增/很多影院.某

市新开业的一家影院借助舒适的环境和较好的观影体验吸引越来越多的人前来观影,该影院

的相关负责人统计了刚开业7天内每一天前来观影的人次,用x表示影院开业的天数,y表

示每天前来观影的人次.

残号~模型①--♦-模型②

⑴该影院的相关负责人分别用两种模型①尸a+打,②片c・d(c,"为大于零的常数)

进行拟合,得到相应的阅田回来方程并进行残差分析,得到如图所示的残差图.依据残差图,

比较模型①、②的拟合效果,应选择哪个模型?(给出推断即可,不必说明理由)

(2)依据(1)的推断结果求y关于x的阅历回来方程,并预料该影院开业第8天前来观影

的人次.

参考数据:

77

X7

1=1i=l

41354704140

(3)依据(1)选择的模型依据某项指标测定,当残差5,2时,则称当天为观影正

常日,反之则称为“非观影正常日若从该影院开业的这7天中任选3天进行进一步的数

据分析,求这3天中含“非观影正常日”的概率.

解:(1)应当选择模型①.

77

(2)因为勺=a+Bw,>r,yi=4704,3=4,夕制=140,j72

f=ii=i

=16,

〉}".”一〃指少

4704-7X4X135

所以•二i=i

140-7X16

z=i

把样本数据中心点(4J35)代入得a=3,

所以y关于x的阅历回来方程为尸3+33x,

把x=8代入上式得y=3+33X8=267,

故该影院开业第8天前来观影的人次为267.

(3)从残差图易知,7天中有5天为“观影正常日”,记这5天为1,2,3,4,5,

2天“非观影正常日”为a,b,

所以从7天中选出3天的种数分三类:①(1,2,a),(1,2,b),(1,3,a),(1,3,b),

(4,5,a),(4,5,6),共(4+3+2+1)X2=20种;

②(1,2,3),(1,2,4),…,(3,4,5),共10种;

③(a,/>,1)»(a,b,2),­•,(a,b,5),共5种,

故总种数为35种,含“非观影正常日”的种数为25种,

255

所以这3天中含“非观影正常日”的概率为夕=正=亍.

3bI

解题通法

£(”—y*

利用R2刻画回来效果:/<2=]一三!--------------,川越大,模型拟合效果越好,

£(“一”

:=1

R2越小,模型拟合效果越差.

「多维训练」

新型冠状病毒肺炎COVID—19疫情发生以来,在世界各地渐渐力,散.在全国人民的共同

努力和各级部门的严格管控下,我国的疫情已经得到了很好的限制.然而,小王同学发觉,

每个国家在疫情发生的初期,由于相识不足和措施不到位,感染人数都会出现快速的增长.如

表是小王同学记录的某国连续8天每日新型冠状病毒感染确诊的累计人数.

日期代码X12345678

累计确诊人数P481631517197122

为了分析该国累计感染人数的改变趋以小王同学分别用两种模型:①尸加+热②y

=dx+c对变量x和y的关系进行拟合,得到相应的阅历回来方程并进行残差分析,残差图

如下(注:残差e,=匕一%):

经过计算得:(X,一x)(匕-y)=728,(xf—x)''=42,(z—z)(y—y)=6368,

——1

(z,—Z)2=3570,其中z,=M,z=TZi.

o

(1)依据残差图,比较模型①、②的拟合效果,应当选择哪个模型?请简要说明理由.

(2)依据(1)问选定的模型求出相应的阅历回来方程[系数均保留两位小数).

(3)由于时差,该国截至第9天新型冠状病毒感染确诊的累计人数尚未公布.小壬同学

认为,假如防疫形势没有得到明显改善,在数据公布之前可以依据他在第(2)问求出的阅历

何来方程来对感染人数做出预料,那么估计该地区第9天新型冠状病毒感染确诊的累计人数

是多少?

解:(1)选择模型①,理由如下:依据残差图可以看出,

模型①的估计值和真实值相对比较接近,

模型②的残差相对比较大,所以模型①的拟合效果相对较好.

(2)由(1)可知y关于x的非线性阅历回来方程为尸

八一1

令z=¥,则y="+a,由所给的数据可得z=7义(1+4+9+16+25+36+49+64)=

O

25.5,

—1

y(4+8+16+31+51+71+97+122)=50,

=ToX

y)

68681c

—=-----92.

83570

'(储-£)2

/=1

则a=7~bz七50—1.92X25.5=1.04,

所以y关于x的非线性阅历回来方程为p=L92Z+1.04.

⑶将>=9代入非线性阅历回来方程,可得y=1.92X9?+1.04=156.56=157(人),

所以预料该地区第9天新型冠状病毒感染确诊的累计人数约为157人.

考点4列联表与独立性检验一一综合性

「典例引领」

例0”某省进行中学新课程改革已经四年了,为了解老师对新课程教学模式的运用状

况,某一教化机构对某学校的老师关于新课程教学模式的运用状况进行了问卷调查.共调查

了50人,其中有老老师20人,青年老师30人.老老师对新课程教学模式赞同的有10人,

不赞同的有10人:青年老师对新课程教学模式赞同的有24人,不赞同的有6人.

(1)依据以上数据建立一个2X2列联表.

(2)依据小概率值a=0.001,能否认为青年老师和老老师在新课程教学模式的运用上看

法有差异?

解:(1)2X2列联表如下所示.

赞同不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论