




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025.高考科学复习创新方案•数学.提升版第3讲成对
数据的统计分析
[课程标准.了解样本相关系数的统计含义,了解样本相关系数与标准化数据
向量夹角的关系.2.会通过相关系数比较多组成对数据的相关性3了解一元线性回
归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回
归模型参数的最小二乘估计方法,会使用相关的统计软件4会用一元线性回归模
型进行预测5理解2x2列联表的统计意义.6.了解2x2列联表独立性检验及其应
用.
基础知识整合
>知识梳理
1.相关关系
两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,
这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为画歪相关和国负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现画增加的
趋势.
②负相关:当一个变量的值增加时,另一个变量的相应值呈现画减少的趋
势.
(2)按变量间是否有线性特征分为直线性相关或国韭线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在国二
条直线附近,我们就称这两个变量线性相关.
②非线性相关或曲线相关:如果两个变量具有相关性,但不是画线性相关,
我们就称这两个变量非线性相关或曲线相关.
3.相关关系的刻画
(1)散点图:为了直观描述成对样本数据的特征,把每对成对数据都用直角坐
标系中的点表示出来,由这些点组成的统计图,叫做散点图.
(2)样本相关系数
①我们常用样本相关系数一来确切地反映成对样本数据(川,刈的相关程度,
其中r=
n__
E(刘-x)⑶-,)
(>")(…)2
②样本相关系数r的取值范围为画JL—LL
当时,成对样本数据回正相关;当xo时,成对样本数据回负相关;
当仍越接近回L时,成对样本数据的线性相关程度越强;当团越接近回。时,成
对样本数据的线性相关程度越弱.
4.一元线性回归模型
Y=bx+ae,____.
称口』八八,、二为y关于犬的一元线性回归模型.其中y称为回
E(e)=0,D(e)=(r
因变量或回响应变量,尢称为画自变量或回健释变量,回且称为截距参数,
回女称为斜率参数;6是回上与回公吐幺之间的随机误差,如果《二画。,那
么丫与x之间的关系就可以用一元线性函数模型来描述.
5.最小二乘法
AAA
将y二饭+〃称为y关于x的经验回归方程,也称经验回归函数或经验回归公
式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求
AAA/£(刘一工)87)Aj
得的乩。叫做R。的最小二乘估计,其中二——------Z--------------------,。二回
£(X/-X)2
6.残差与残差分析
⑴残差
对于响应变量Y,通过观测得到的数据称为画观测值,通过经验回归方程得
到的f称为网预测值,网观测值减去因预测值称为残差.
(2)残差分析
国残差是随机误差的估计结果,通过对画残差的分析可以判断模型刻画数
据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
7.对模型刻画数据效果的分析
(1)残差图法
在残差图中,如果残差比较均匀地集中在同以横轴为对称轴的水平带状区
域内,则说明经验回归方程较好地刻画了两个变量的关系.
(2)残差平方和法
残差平方和回三_('•-倒2越小,模型的拟合效果越好.
i三1
(3)决定系数R2法
士n(》fA)-
可以用决定系数产=1-亍----------来比较两个模型的拟合效果,R2越
W(D
国大,模型拟合效果越好,收越国小,模型拟合效果越差.
8.列联表与独立性检验
(1)2x2列联表
①2X2列联表给出了成对分类变量数据的同交叉分类频数.
②定义一对分类变量x和匕我们整理数据如下表所示:
Y
X合计
Y=0Y=1
x=oaba+b
X=1cdc+d
合计a+cb+dn=a+h+c+d
像这种形式的数据统计表称为2x2列联表.
(2)独立性检验
①定义:利用Z2的取值推断分类变量X和庖是查独立的方法称为了独立
性检验,读作“卡方独立性检验。简称独立性检验.
।—।n[ad-be)2
(2)/2=36—------------7-----7——-,其中〃=a+/?+c+d.
J人1—,(〃+〃)(丁+一)(〃+♦)(〃+〃)1
(3)独立性检险解决实际问题的主要环节
①提出零假设”。:x和丫相互独立,并给出在问题中的解释.
②根据抽样数据整理出2x2列联表,计算/的值,并与临界值打比较.
③根据检验规则得出推断结论.
④在x和y不独立的情况下,根据需要,通过比较相应的频率,分析x和y
间的影响规律.
0知识拓展
1.相关关系与函数关系的异同
共同点:二者都是指两个变量间的关系;
不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一
种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.
AAA__
2.经验回归直线):二云+。一定过点(x,y).
>双基自测
1.(人教A选择性必修第三册习题8.1Ti改编)下列四个散点图中,变量x与
y之间具有负线性相关关系的是()
y)
()
I)
答案D
解析观察散点图可知,只有D中的散点图表示的是变量x与),之间具有负
线性相关关系.故选D.
2.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做了试验,
并用回归分析方法分别求得相关系数一与残差平方和〃3如下表:
甲乙丙T
r0.820.780.690.85
m106115124103
则哪位同学的试验结果体现的A,B两变量有更强的线性相关性()
A.甲B.乙
C.丙D.丁
答案D
解析团越接近1,"Z越小,线性相关性越强,故选D.
3.已知相关变量工和),满足关系£=-。以+1,相关变量丁与z负相关,则
下列结论中正确的是()
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
答案D
AAA
解析由-0.1X+1可得x与),负相关.因为y与z负相关,可设z=Z?),+
AAAAAAAA
a,b<0,JjllJz=Z?(-0.1A+1)+6/=-OAbx+b+a,故x与z正相关.
4.(多选)(人教B选择性必修第二册432例1改编)为了解阅读量多少与幸福
感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2x2列
联表(个别数据暂用字母表示):
幸福感
阅读量合计
强弱
多m1872
少36n78
合计906015()
计算得到Z2力2.981,参照下表:
a0.100.050.0250.0100.0050.001
Xa2.7063.8415.0246.6357.87910.828
则下列结论正确的是()
A.根据小概率值。=0.010的独立性检验,可以认为“阅读量多少与幸福感强
弱无关”
B.=54
C.n=52
D.根据小概率值a=0.005的独立性检验,可以在犯错误的概率不超过0.5%
的前提下认为“阅读量多少与幸福感强弱有关”
答案BD
解析.••/引2.981>7.879>6.635,.•.根据小概率值。=0.010的独立性检验,
可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关”,根
据小概率值〃=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下
认为“阅读量多少与幸福感强弱有关”,A错误,D正确;•.■〃2+36=90,18+〃
=60,「.团=54,〃=42,7.B正确,C错误.
5.某产品的广告费用x与销售额),的统计数据如下表:
广告费用*万元)4235
销售额y(万元)49263954
根据上表可得经验回归方程5二篇+2中的分为9.4,据此模型预测广告费用为
6万元时销售额约为万元.
答案65.5
_4+2+3+5_49+26+39+54
解析由表可得了二----4----二3.5,y=-------4------=42,因为点
AAAAAA
(3.5,42)在经验回归直线),=灰+々上,旦〃=9.4,所以42=9.4x3.5+〃,解得a=
9.1.故经验回归方程为£=9.4x+9.1.令x=6,得R=65.5.故预测广告费用为6万元
时销售额约为65.5万元.
核心考向突破
多角度探究突破
考向一两个变量的相关性
角度1相关关系的判断
例1(1)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表
如下:
月份123456
人均销售额658347
18.
利润率(%)12.610.43.08.116.3
5
根据表中数据,下列说法正确的是()
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均第售额成反比例函数关系
答案A
解析由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关
系,排除C,D;其属于正相关关系,A正确,B错误.故选A.
(2)在以下4幅散点图中,图_______中的y和x之间存在相关关系(将正确答
案的序号填在横线上)
答案②③④
解析图②③中的点成带状区域分布在某一直线附近,④中的点分布在某一
曲线附近,故②③④存在相关关系.
角度2相关系数的计算及意义
例2(1)(多选)某同学将收集到的六对数据制作成散点图一
AA
如右,得到其经验回归方程为八:),=0.681+出计算其相关系.
*c{)
数为n,决定系数为即经过分析确定点F为“离群点”,把它去_上_____,
X
掉后,再利用剩下的五对数据计算得到经验回归方程为/2:y=
源+0.68,相关系数为2决定系数为R幺下列结论正确的是()
A.n>/*!>0B.Ri>Ri
AA
C.0<Z?<0.68D力>0.68
答案AC
解析由图可知两变量呈正相关,故n>0,m>0,去掉"离群点''后,相关
性更强,所以「V废,故此v审,故A正确,B错误;根据图象,当去掉尸点后,
直线基本在4,B,C,D,E附近的那条直线上,直线的倾斜程度会略向x轴偏
向,故斜率会变小,因此0<合<0.68,故C正确:D错误.故选AC.
(2)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为
调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块
中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据5,»•)(,=1,
2,…,20),其中H和"分别表示第,个样区的植物覆盖面积(单位:公顷)和这种
2()2020-20_、
野生动物的数量,并计算得£即=60,Z»=1200,Z8-1)2=80,£(>7-y)2
/=1/=1/=1/=1
20__
=9(X)0,E(Xi-x)('•-),)=800.
,=!
①求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样
区这种野生动物数量的平均数乘以地块数);
②求样本(孙2,…,20)的相关系数(精确到0.01).
n
2U-x)(yi-y)
附:相关系数,二一----------:-------------,/R.414.
、Z(r-X)2E(V-y)2
V口।i='
1201
解①每个样区野生动物数量的平均数为疝=而xl20()=6(),地块数为
1=1
200,所以该地区这种野生动物数量的估计值为200x60=12000.
②样本6,V)的相关系数为
20__
_g—Lx)(p—y)__________8002迫
r==
^(y;-7)r^=3••
口触类旁通n判定两个变量相关性的方法
若点的分布从左下角到右上角,则两个变量正相关;若点的分
画散点图
布从左上角到右下角,则两个变量负相关
当厂>0时,正相关;当X。时,负相关;M越接近1,线性相关
样本相关系数
程度遗强
AA
经验回归方程当比>0时,正相关;当8Vo时,负相关
r即时训练1.(2024・蓟州开学考试)对两个变量羽),进行线性市地嬴榛
性相关系数门=0.8995,对两个变量〃,u进行线性相关检验,得线性相关系数9
=-0.9568,则下列判断正确的是()
A.变量x与y正相关,变量〃与u负相关,变量x与),的线性相关性较强
B.变量x与y负相关,变量〃与口正相关,变量无与),的线性相关性较强
C.变量x与),正相关,变量〃与口负相关,变量〃与口的线性相关性较强
D.变量x与),负相关,变量〃与u正相关,变量〃与u的线性相关性较强
答案C
解析因为线性相关系数门二0.8995X),所以二y正相关,因为线性相关系
数旌=-0.9568<0,所以〃,>,负相关,又因为|川<四,所以变量〃,♦的线性相关
性比心的线性相关性强,故A,B,D错误,C正确.故选C.
2.为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生
产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依
次抽取的16个零件的尺寸:
抽取次序12345678
零件尺寸9.9510.129.969.9610.019.929.9810.04
抽取次序910111213141516
零件尺寸10.269.9110.1310.029.2210.0410.059.95
116/I16
经计算得x=石£一二9.97,s='/讳Z)2=
([?-16£2)=0.212,8.5)2-8.439,£(刘_I)*8.5)=-
2.78,其中方为抽取的第,个零件的尺寸,,.=1,2,…,16.
(1)求(8,/)(/=1,2,16)的相关系数人并回答是否可以认为这一天生产
的零件尺寸不随生产过程的进行而系统地变大或变小(若I/K0.25,则可以认为零件
的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(1-3s,1+3s)之外的零件,就
认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程
进行检查.
①从这一天抽检的结果看,是否需对当天的生产过程进行检查?
②在(1-35,工+3s)之外的数据称为离群值,试剔除离群值,估计这条生产
线当天生产的零件尺寸的均值与标准差(精确到0.01).
附:样本(孙,♦)(,=1,2,〃)的相关系数
参考数据:^0.008-0.09.
解(1)由样本数据,得但,i)(i=1,2,…,16)的相关系数r
16
-2.78
-------F=-------=-()18
0.212x716x18.439
由于仍<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系
统地变大或变小.
(2)①由于工二9.97,s=0.212,因此由样本数据可以看出抽取的第13个零件
的尺寸在(1-3s,1+3s)以外,因此需对当天的生产过程进行检查.
②剔除离群值,即第13个数据,剩下数据的平均数为tX(16X9.97-9.22)=
10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
16
£^^16X0.2122416x9.972=1591.134,
/=1
剔除第13个数据,剩下数据的样本方差为tx(1591.134-9.222-
15x10.022户0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为M丽巾.09.
多角度探究突破
考向二回归分析
角度1线性回归模型
例3(2024.济南开学考试)随着科技的发展,网购成了人们购物的重要选择,
并对实体经济产生了一定影响.为了解实体经济的现状,某研究机构统计了一个
大商场2019-2023年的线下销售额如下:
年份编号X12345
年份20192020202120222023
销售额y
1513146512021060860
(单位:万元)
(1)由表中数据可以看出,可用线性回归模型拟合销售额),与年份编号x的关
系,请用相关系数加以说明;
(2)建立),关于久•的经验回归方程,并预测2024年该商场的线下销售额.
参考公式及数据:
A£砂-〃工aA_A_
b=~,a=y-bx,
£京-nx2
1736.
5
斗
解(1)由已知数据可得,X=3,y=—=^=1220,
5
所以£卬,-5Ty=16589-5x3x1220=-1711,
/=!
5
I___________________________
所以〃二J7,21’5y)工浦在-0.9856.
因为M非常接近1,所以可用线性回归模型拟合销售额),与年份编号x的关系.
22222
(2)由已知数据可得,1>?=14-2+3+4+5=55,
/=i
5
孕C
Ay16589-5x3x1220
所以。二当者5“——=-171.1,
=DD-
a=y-bx=1220-(-171.1)x3=1733.3,
所以>关于x的经验回归方程为5二-171.我+1733.3.
令x=6,
5!ljy=-171.1x6+1733.3=706.7(万元).
所以预测2024年该商场的线下销售额为706.7万元.
角度2非线性回归模型
例4某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费工(单
位:千元)对年销售量)(单位:。和年利润z(单位:千元)的影响.对近8年的年宣
传费即和年销售量2,…,8)数据作了初步处理,得到下面的散点图及一
些统计量的值.
年销售址/|
620
600...
580.■
560•
540.
520
500.•
48()1AA1AAAA,,A.
34363840424446485)525456
年宣传费/千元
8
88_2(WL
£(M篙(Xz-X)•(y•
yj(无一IF
Xyvr
初2-y)vv)-(>v-y)
46.65636.8289.81.61469108.8
表中卬i=«,W=R*Wi.
⑴根据散点图判断,),二。+bx与尸c+小「哪一个适宜作为年销售量y关于
年宣传费X的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据⑴的判断结果及表中数据,建立y关于支的经验回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=().2y-x.根据⑵的结果回答
下列问题:
①年宣传费工二49时,年销售量及年利润的预测值是多少?
②年宣传费x为何值时,年利润的预测值最大?
附:对于一组数据("I,Vl),(U2,V2),•••,(4,v„),其经验回归直线^A二aA+/A
AZ/)(V/-V)AA_
〃的斜率和截距的最小二乘估计分别为"~~-----------------,«=v-Pu.
X〃)2
解(1)由散点图可以判断,y=c+M适宜作为年销售量y关于年宣传费x
的经验回归方程类型.
(2)令w=先建立y关于卬的经验回归方程.
8
八(Wi-(yi-y)
108.8
由于"二'68,
8_1.6
R(Wi~W)2
A_A_,一____
c=y-dvv=563-68x6.8=100.6,
A
所以y关于卬的经验回归方程为y=100.6+68iv,
因此y关于x的经验回归方程为£=100.6+68G.
(3)①由(2)知,当户49时,年销售量),的预测值为£=100.6+6队用=576.6
千元,
年利润z的预测值为1=576.6x0.2-49=66.32千元.
②根据⑵的结果知,年利润z的预测值
z=0.2(100.6+68^)-x=-x+13.6^+20.12.
所以当5:号=6.8,即x=46.24时,2取得最大值.
故年宣传费为46.24千元时,年利润的预测值最大.
1触类旁通I求经验回归方程的步骤
提醒:对非线性回归分析问题,可通过适当的换元转化为线性回归分析问题
求解.
&即时训练1.(2023•厦门二模)移动物联网广泛应用于皿亿户
25・
生产制造、公共服务、个人消费等领域.截至2022年底,20.
我国移动物联网连接数达18.45亿户,成为全球主要经济体!?•
00I2345/
中首个实现''物超人''的国家.如图是2018〜2()22年移动物
联网连接数卬与年份代码,的散点图,其中年份2018〜2022对应的1分别为1〜
5.
(1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到0.01),
并推断它们的相关程度;
(2)①假设变量x与变量丫的〃对观测数据为(xi,yi),(X2,闻,…,g泗),
Y=bx+e
两个变量满足一元线性回归模型口二、:八/、式随机误差
E(e)=0,D(e)-(T
bxi).请推导:当随机误差平方和。二£区取得最小值时,参数的最小二乘估计;
/=!
②令变量x=/-7,y=卬-6,则变量x与变量y满足一元线性回归模型
(Y=bx+e
1,、:n/、,利用①中结论求y关于X的经验回归方程,并预测2024
年移动物联网连接数.
内
-
S(0f)(wf—w)
附:样本相关系数r="£(%.一而",
2
S(w,-w)=76.9,S(/,-f)(w,-w)=27.2,Sw,=6081网之277
解(1)由散点图可以看出样本点都集中在一条直线附近,由此推断两个变量
线性相关.
因为7=1x(l+24-3+4+5)=3,
5
所以Ze-7)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=1(),
z=i
Z(6-7)(W7-HO
,7.2_27.227.2
[10x76.9=”27.7
=0.98,
所以这两个变量正线性相关,且相关程度很强.
£一=£(北一)2=£(9一2bxiy,
⑵①。二-1"I"1
+b2xj)=lrN乂
—I___
要使Q取得最小值,当且仅当〃A二与y右?・2.
55
2工<“2(。—)(w,
r°1_________£_____~_w__)
②由①知公二£5—')2二*二2.72,
所以y关于X的经验回归方程为£=2.72X,
5
之卬i
又6二一§一=?3=12.16,所以当/=7时,
贝IJx=7-3=4,w=y+b=2.72x4+12.16=23.04,
所以预测2024年移动物联网连接数为23.04亿户.
2.(2023•辽宁名校联盟期末)红铃虫是棉花的主要害虫之一,也侵害木棉、锦
葵等植物.为了防治虫害,从根源上抑制害虫数量.现研究红铃虫的产卵数和温
度的关系,收集到7组温度工和产卵数y的观测数据于表I中.根据绘制的散点
图决定从回归模型①),=oeclr与回归模型②.v=+C4中选择一个来进行拟合.
表【
温度x/℃20222527293135
产卵数w个711212465114325
(1)请借助表n中的数据,求出回归模型①的方程(精确到().01);
表11(注:表中Zi=lny)
7777_7_
X(Xi-x)2
工(V-5)2
18956725.2716278106
7£y>(ti
zli(力-居8-,S(无一
2
7)工)•(》-y)x)-(A-7)-7)
11.06304041.86825.09
(2)类似地,可以得到回归模型②的方程为>=0.361-202.54,试求两种模型
下温度为20℃时的残差;
(3)若求得回归模型①的决定系数R2=0.95,回归模型②的决定系数R2=0.81,
请结合(2)说明哪个模型的拟合效果更好.
参考数据:e-3⑷=o.o3,e026«1.30,e,79«5.99,e52O«181.27.
附:经验回归方程9=加+1中
n__
"(船一x)(y-y)
AA_A_
»Z~7,a-y-px.
£{Xi-X)2
解⑴由y=ciec2r,fliny=\nc\+ax,
令,=Iny,b=a,a=Inci,得,=+a,
由表H数据可得,
7
41.86
7-0.26,
£(Xi-X)2162
A_A_25.27八r,189
a-i-bx~~~-0.26x-=-3o.41,
A
所以f=0.26x—3.41,
所以所求经验回归方程为Q=e°.-3⑷(或Q=o.O3eO26v).
⑵由题意可知,模型①在x=20时残差为yi-yi=7-e°-26x20-3-41«1.01,
模型②在x=20时残差为yi-yi=7-(0.36x202-202.54)=65.54.
(3)因为0.95>0.81,即模型①的决定系数大于模型②的决定系数,由决定系
数公式知,模型①的残差平方和小于模型②的残差平方和,因此模型①得到的数
据更接近真实数据,所以模型①的拟合效果更好.
考向三独立性检验
例5(2023•枣庄三中期末)某中学为调查本校学生“保
护动物意识的强弱与性别是否有关“,采用简单随机抽样的
方法,从该校分别抽取了男生和女生各50名作为样本,经
统计,得到如图所示的等高堆积条形图.
(1)根据已知条件,将下面2x2列联表补充完整:II保护动物意队强
II保护动物意队弱
保护动物意识合计
性别
强弱
男生50
女生50
合计100
(2)根据(1)表中数据,依据小概率值a=0.005的独立性检验,分析该校学生
保护动物意识的强弱与性别是否有关.
,n(ad-be)2
附.(〃+/?)(c+d)(a+c)(b+d),n=a+b+c+d.
a0.100.050.010.005
Xa2.7063.8416.6357.879
解(1)由等高堆积条形图知,男生保护动物意识强的有50x0.7=35人,女生
保护动物意识强的有50x0.4=20人,于是补充2x2列联表如下:
保护动物意识合计
性别
强弱
男生351550
女生203050
合计5545100
(2)零假设为"0:该校学生保护动物意识的强弱与性别无关,根据列联表中的
数据,得
、100x(35x30-15x20)2100
/=-50X50X55X45-二,9.091>7.879=xo.oo5,
根据小概率值a=0.005的独立性检验,我们推断“0不成立,即认为该校学
生保护动物意识的强弱与性别有关,此推断犯错误的概率不大于0.005.
I触类旁通I
1.比较几个分类变量有关联的可能性大小的方法
(1)通过计算Z2的大小判断:Z2越大,两变量有关联的可能性越大.
(2)通过计算|〃-庆|的大小判断:|〃-曲|越大,两变量有关联的可能性越大.
(3)通过计算备与力的大小判断:相差越大,两变量有关联的可能性越大.
V*Iexv*IV*
2.独立性检验的一般步骤
(1)根据样本数据制成2x2列联表.
.n(ad-be)2.
⑵根据公式r=("份(,+d)(a+c)g+计算/的值,
(3)比较/与临界值打的大小关系,作统计推断.
r即时训练(2024.贵州黔东南州从江县高三期中检测谋学校现有1000名学
生,为调查该校学生一周使用手机上网时间的情况,收集了〃名学生某周使用手
机上网时间的样本数据(单位:小时).将数据分为6组:[0,2],(2,4J,(4,6J,
(6,8],(8,10],(1(),12],并整理得到如下的频率分布直方图:
(1)估计该校学生一周平均使用手机上网时间(每组数据以该组中点值为代
表);
(2)将一周使用手机上网时间在(4,12]内定义为“长时间使用手机上网“;一周
使用手机上网时间在(0,4]内定义为“不长时间使用手机上网”,在样本数据中,
有().25〃名学生不近视.
①请补充完成该周使用手机上网时间与近视程度的列联表;
②若〃为100,那么在犯错误的概率不超过0.001的前提下是否能认为该校学
生一周使用手机上网时间与近视程度有关?
一周使用手机近视程度
合计
上网时间近视不近视
长时间使用手机
不长时间使用手机0.15/?
合计0.25〃
n(ad-be)2
附:1“)(c+d)…(〃+"),其中,…+b+c+&
a0.10.050.0100.0050.001
2.7063.8416.6357.87910.828
解(1)根据频率分布直方图可估计该校学生一周平均使用手机上网时间为
x=1x0.025x2+3x0.100x2+5x0.150x2+7x0.125x2+9x0.075x2+11x0.025x2=
5.8(小时).
(2)①由频率分布直方图可得,上网时间在(0,4]内和(4,12]内的比例为0.25:
0.75=1:3,
故可得列联表如下:
近视程度
一周使用手机上网时间合计
近视不近视
长时间使用手矶0.65〃0.1On0.75〃
不长时间使用手机0.10〃0.15/?0.25〃
合计0.75〃0.25〃n
100x(65x15-10x10)2
②若〃为100,则茬=—乂—«21.78>10.828,故在犯错误
的概率不超过0.001的前提下能认为该校学生一周使用手机上网时间与近视程度
有关.
课时作业
一、单项选择题
1.根据分类变量X与>的成对样本数据,计算得到犬二6.147.依据a=0.01
的独立性检验(xo.oi=6.635),结论为()
A.变量犬与y不独立
B.变量犬与),不独立,这个结论犯错误的概率不超过0.01
C.变量x与),独立
D.变量x与y独立,这个结论犯错误的概率不超过0.01
答案C
解析依据a=0。的独立性检验,当/=6.147<6.635时,可以认为变量x
与)独立.故选C
2.(2023・天津高考)调查某种群花萼长度和花瓣长度,所得数据如图所示.其
中相关系数一二0.8245,下列说法正确的是()
花滞长度
花萼氏度
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245
答案C
解析因为相关系数r=0,8245>0.75,所以花瓣长度和花萼长度的相关性较
强,并且呈正相关,所以A,B错误,C正确;因为相关系数与样本的数据有关,
所以当样本发生变化时,相关系数也可能会发生变化,所以D错误.故选C.
3.(2024.青岛开学考试)已知某设备的使用年限x(单位:年)与年维护费用),(单
位:千元)的对应数据如下表:
X24568
y34.56.57.59
由所给数据分析可知,x与),之间具有线性相关关系,且y关于x的经验回
AAA
归方程为L05x+a,则。=()
A.0.75B.0.85
C.0.95D.1.05
答案B
_2+4+5+6+8_3+4.5+6.5+7.5+9
解析由已知可得,x==5,y==6.1,
AA
因为经验回归直线过样本点的中心(5,6.1),所以6.1=1.05x5+。,解得4=0.85.
故选B.
4.用模型y=配机+1(〃>0)拟合一组数据时,令z=lny,将其变换后得到经验
回归方程z=2x+a,®j-=()
A.e
C.5D.2
答案D
解析对y=a/”(a>0)两边同时取对数,则析y=ln3ax+I)=lna+公+兀
b=2,b=2,b
令z=lny,5JlJz=+Ina+1,所以,I,解得所以.故选D.
a=\na+I,
5.下图是某地区20()3年至2023年环境保护建设投资额(单位:万元)的折线
图.
根据该折线图判断,下列结论正确的是()
A.为预测该地2024年的环境保护建设投资额,应用2003年至2023年的数
据建立回归模型更可靠
B.为预测该地2024年的环境保护建设投资额,应用2012年至2023年的数
据建立回归模型更可靠
C.投资额与年份负相关
D.投资额与年份的相关系数厂<()
答案B
解析因为2011年之前与2012年之后投资额变化较大,故为预测该地2024
年的环境保护建设投资额,应用2012年至2023年的数据建立回归模型更可靠,
所以A错误,B正确;随年份的增长,投资额总体上在增长,所以投资额与年份
正相关,r>0,故C,D错误.故选B.
6.根据如下样本数据:
X345678
y4.02.50.50.50.40.1
AAA
得到经验回归方程为),=尿+。,贝IJ()
AA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025四川泸州交通物流集团有限公司及下属公司招聘12人笔试参考题库附带答案详解析
- 家庭教育指导服务行业2025年市场细分领域竞争态势研究报告
- 跨文化领导力挑战解析试题及答案
- 餐饮企业食品安全与责任保险合同范本
- 高端会所家具定制与采购协议
- oppo校招笔试题目及答案
- 上市公司股权代持监管执行合同
- 餐饮行业跨界合作股权转让合同
- JAVA网络通信原理解析试题及答案
- 老城雨污分流管网提标改造工程项目总体规划
- 眼球的结构与功能
- 《社会主义制度在中国的确立》示范课教学设计【高中思想政治人教版必修1中国特色社会主义】
- 立方米卧式浓硫酸储罐设计
- 三乙胺安全标签
- GB/T 4490-2021织物芯输送带宽度和长度
- GB/T 28650-2012公路防撞桶
- GB/T 17793-1999一般用途的加工铜及铜合金板带材外形尺寸及允许偏差
- ICU常见检查项目及课件
- 土地荒漠化的防治(公开课)课件
- MSA量测系统分析RMSA量测系统分析课件
- 中考备考应对中考历史学科的复习策略和解题技巧课件
评论
0/150
提交评论