版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
:成对数据的统计相关性
【知识梳理】
知识点一:相关关系
1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相
关关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和鱼相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
知识点二:相关关系的刻画
1.散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,
由这些点组成的统计图,叫做散点图.
2.样本相关系数
(1)我们常用样本相关系数,•来确切地反映成对样本数据(为,羽的相关程度,/=|
(2)样本相关系数r的取值范围为[-1,小
①若/•>()时,成对样本数据正相关;
②若,<0时,成对样本数据负相关;
③当W越接近1时,成对样本数据的线性相关程度越强;
④当川越接近0时,成对样本数据的线性相关程度越弱.
【题型归纳】
题型一、变量间相关关系的判断
1.(2023•全国•高二专题练习)有五组变量:
①汽车的重量和汽车每消耗一升汽油所行驶的距离;
②平均日学习时间和平均学习成绩;
③某人每天的吸烟量和身体健康状况;
④圆的半径与面积;
⑤汽车的重量和每千米的耗油量.
其中两个变量成正相关的是()
A.②④⑤B.②④C.②⑤D.④⑤
【答案】C
【分析】根据相关系及正相关、负相关的定义,逐项判定,即可求解.
【详解】①中,汽车的重量和汽车每消耗1升汽油所行驶的平均路程是负相关的关系;
②中,平均日学习时间和平均学习成绩的关系是一个正相关;
③中,某人每日吸烟量和其身体健康情况是负相关的关系;
④中,圆的半径与面积是函数关系;
⑤中,汽车的重量和百公里耗油量关系是一个正相关;,
所以②⑤中的两个变量属于线性正相关.
故选:C.
2.(2023・高二课时练习)下列说法正确的是()
A.y=2『+l中的x,y是具有相关关系的两个变量
B.正四面体的体积与棱长具有相关关系
C.电脑的销售量与电脑的价格之间是一种确定性的关系
D.传染病医院感染传染病的医务人员数与医院收治的传染病人数是具有相关关系的两个变量
【答案】D
【分析】根据相关关系的定义、函数的定义即可判断
【详解】A,B均为函数关系,故A、B错误;C,D为相关关系,故C错,D对.
故选:D
3.(2022春・重庆•高二统考期末)己知变量x与>正相关,变量卜与z满足y=3~+l,则下列说法正确的是()
A.y与Z正相关,x与Z正相关B.y与Z正相关,x与Z负相关
c.y与z负相关,x与z正相关D.y与z负相关,x与z负相关
【答案】D
【分析】根据关系式可直接判断.
【详解】因为y=3-+l=[;]+l,所以y与z负相关,
又因为变量X与,正相关,所以X与Z负相关.
故选:D.
题型二:样本相关系数的性质
4.(2023春•陕西咸阳•高二校考阶段练习)在变量y与x的回归模型中,根据下面四个的相关系数卜I,判断拟合效
果最好的是()
A.模型1的相关系数H为0.2B.模型2的相关系数卜|
C.模型3的相关系数卜|为0.9D.模型4的相关系数卜|
【答案】c
【分析】由相关系数的绝对值越接近于1,回归模型拟合效果越好即可得出结论.
【详解】根据相关系数的绝对值大小可得模型3的相关系数H为0.9,离1最接近,
所以C项的拟合效果最好.
故选:C
5.(2023・全国•高二专题练习)如图是近十年来全国城镇人口、乡村人口的折线图(数据来自国家统计局).
根据该折线图,下列说法错误的是()
A.城镇人口与年份呈现正相关B.乡村人口与年份的相关系数,接近1
C.城镇人口逐年增长率大致相同D.可预测乡村人口仍呈现下降趋势
【答案】B
【分析】根据折线图判断乡村人口与年份、城镇人口与年份的相关关系以及线性相关关系的强弱,逐项判断可得出
合适的选项.
【详解】对于A选项,由折线图可知,城镇人口与年份呈现正相关,A对;
对于B选项,因为乡村人口与年份呈负线性相关关系,且线性相关性很强,所以「接近T,B错;
对于C选项,城镇人口与年份呈现正相关,且线性相关性很强,相关系数厂接近1,
故城镇人口逐年增长率大致相同,C对;
对于D选项,由折线图可知,乡村人口与年份呈负线性相关关系,可预测乡村人口仍呈现下降趋势,D对.
故选:B.
6.(2023春•陕西咸阳•高二武功县普集高级中学校考阶段练习)对于样本相关系数,下列说法错误的是()
A.样本相关系数可以用来判断成对样本数据相关的正负性
B.样本相关系数可以是正的,也可以是负的
C.样本相关系数「?[1,1]
D.样本相关系数越大,成对样本数据的线性相关程度也越强
【答案】D
【分析】利用相关系数与成对样本数据间的相关关系逐项判断,可得出合适的选项.
【详解】对于A选项,样本相关系数可以用来判断成对样本数据相关的正负性,A对;
对于B选项,样本相关系数可以是正的,也可以是负的,B对;
对于C选项,样本相关系数广?[1,1],C对;
对于D选项,样本相关系数的绝对值越大,成对样本数据的线性相关程度也越强,D错.
故选:D.
题型三、样本相关系数的计算及应用
„22/_2
7.(2021春•陕西咸阳•高二校考阶段练习)若已知出,4)是4(必-亍)-的两倍,2(匕7)(»-)')是拈")一的
1.2倍,则相关系数r的值为()
1.2
B-正
【答案】B
【分析】根据相关系数公式计算可得;
〃2
i=l1.2
【详解】解:2
友5(%-y)
1=1
故选:B
8.(2023•高二课时练习)在一组样本数据(%/),(々,%),(工3,%),,(七,州)(〃22,5,天,x“不全相等)的散点图中,
若所有样本点(XQ)(i=l,2,3,,〃)都在直线y=-++l上,则这组样本数据的样本相关系数为()
A.—1B.0C.1D.—
4
【答案】A
【分析】根据样本数据的所有样本点都在一条直线上,得出这组样本数据完全相关,再根据直线的斜率得出是正相
关还是负相关即可.
【详解】这组样本数据的所有样本点(%,y)(i=l,2,,〃)都在直线>=-++1上,
这组样本数据完全相关,
即说明这组数据的样本完全负相关,其相关系数是T
故选:A.
9.(2022•高二课时练习)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则>与x的相关系数
为()
A.—B.—1C.0D.—
22
【答案】B
【分析】经计算可知四个点都在一条单调递减的直线上,即可得相关系数.
【详解】因为过点(1,2),(2,0)的直线的斜率为&=g=-2,
所以过点。,2),(2,0)的直线的方程为:y=—2(x-2)即y=4-2x,
经检验点(4,T),(-1,6)都在直线y=4-2x,
所以y与x是函数关系,
又因为y=4-2x单调递减,所以y与x的相关系数为T,
故选:B.
题型四:残差和相关指数的计算和分析
10.(2023・全国•高二专题练习)某种产品的广告费支出x与销售额卜(单位:万元)之间有下表关系:
X24568
y3040605070
y与X的线性回归方程为$=6.5x+17.5,当广告支出5万元时,随机误差的效应(残差)为()
A.-10B.-20C.20D.10
【答案】D
【分析】随机误差的效应(残差)为观测值减去预测值
【详解】当广告支出5万元时,观测值为60,预测值为9=6.5x5+17.5=50,则随机误差的效应(残差)为60-50=10.
故选:D.
11.(2023•全国•高二专题练习)某种产品的广告支出费用x(单位:万元)与销售量》(单位:万件)之间的对应
数据如下表所示:根据表中的数据可得回归直线方程>2.27X-1O8,R2‘Q96,以下说法正确的是()
广告支出费用X
销售量y122
A.销售量)的多少有96%是由广告支出费用引起的
B.销售量y的多少有4%是由广告支出费用引起的
C.第三个样本点对应的残差自=-1,回归模型的拟合效果一般
D.第三个样本点对应的残差电=1,回归模型的拟合效果较好
【答案】A
【分析】根据已知条件结合残差和相关系数的定义可得答案.
【详解】因为女表示解释变量对于预报变量的贡献率,代”0.96,所以销售量y的多少有96%由广告支出费用引
起的,故A正确,B错误;
当x=4时,第三个样本点对应的残差为f=7-2.27x4+1.08=T,又R2#Q96,
故拟合效果较好,故CD错误.
故选:A.
12.(2022春•吉林通化・高二梅河口市第五中学校考期中)某种产品的广告支出费用x(单位:万元)与销售量丫(单
位:万件)之间的对应数据如下表所示:根据表中的数据可得回归直线方程a=2.27x-1.08,R-^0,96,以下说法正
确的是()
广告支出费用X
销售量y
A.第三个样本点对应的残差自=-1,回归模型的拟合效果一般
B.第三个样本点对应的残差自=1,回归模型的拟合效果较好
C.销售量y的多少有96%是由广告支出费用引起的
D.销售量)'的多少有4%是由广告支出费用引起的
【答案】C
【分析】利用回归模型可计算残差,结合相关指数可判断AB的正误,根据相关指数的意义可判断CD的正误.
【详解】x=4时,残差为7-2.27x4+lO8=-l,而R、0.96,故拟合效果较好,故AB错误.
因为^^0.96,故销售量丫的多少有96%是由广告支出费用引起的,故C正确,D错误.
故选:C.
题型五:统计相关性的综合问题
13.(2023•全国•高二专题练习)某学校组织学生观看了“天宫课堂”第二课的直播后,极大地激发了学生学习科学知
识的兴趣,提高了学生学习的积极性,特别是对实验操作的研究与探究.现有某化学兴趣小组的同学在老师的指导下,
开展了某项化学实验操作,为了解实验效度与实验中原料A的消耗量(单位:g)的关系,该校实验员随机选取了
10个小组的实验数据如下表.
小组编号i12345678910总计
实验效度巧0.50.60.50.70.80.60.60.80.50.46
原料A的消耗量必/g1.31.31.31.61.81.51.51.71.61.415
101()10
并计算得2年=3.76,=22.78,=9.16.
/=11=12=1
(1)求这10个小组的实验效度与实验中原料A的消耗量的平均值;
(2)求这10个小组的实验效度与实验中原料A的消耗量的相关系数(精确到0.01);
(3)经该校实验员统计,以往一个学年各种实验中需用到原料A的实验有200次左右.假设在一定的范围内,每次实
验中原料A的消耗量与实验效度近似成正比,其比例系数可近似为样本中相应的平均值的比值.根据要求,实验效度
平均值需达到0.8.请根据上述数据信息,估计该校本学年原料A的消耗量.
J(x,-x)(Z.-y)
附:相关系数/=-r===T=-----■,疗a2.65
(七-五)之(%-寸
V/=i/=1
(3)400g
1010
【分析】(1)根据数值计算即可;(2)先化简公式:2(%一月(%一方=»/-10对,
;=11=1
冬(―)冷(…)2=卮£10/]恪£_]0歹2),然后再代入相关数据计算可得结果;⑶由比例关系直
接计算即可.
【详解】(1)由题意得这10个小组的实验效度的平均值为元=4=06,
这10个小组实验中原料A的消耗量的平均值为5=^=L5(g).
10
(2)相关系数,=口「.
\£(%-可之(必-亚
V/=lr=l
22
——《0.75.
币2.65
(3)设该校本学年原料A的消耗量为产,
1Q
贝IJ由题可知尸=200x^^=400(8),
0.6
所以估计该校本学年原料A的消耗量为400g.
14.(2023♦全国♦高二专题练习)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.从中
国信息通信研究院发布的《云计算白皮书(2022年)》可知,我国2017年至2021年云计算市场规模数据统计表如
下:
年份2017年2018年2019年2020年2021年
年份代码X12345
云计算市场规模y/亿元692962133420913229
55
经计算得:\>»=36.33,^(x,.Inx)=112.85.
<=i;=1
(1)根据以上数据,建立y关于X的回归方程=(e为自然对数的底数).
(2)云计算为企业降低生产成本、提升产品质量提供了强大助推力.某企业未引入云计算前,单件产品尺寸与标准品尺
寸的误差£~N(0,二),其中〃?为单件产品的成本(单位:元),且尸(-1<£<1)=0.6827;引入云计算后,单件产品
m
尺寸与标准品尺寸的误差£~N(0,~L).若保持单件产品的成本不变,则尸(-1<£<1)将会变成多少?若保持产品质量
m
不变(即误差的概率分布不变),则单件产品的成本将会下降多少?
附:对于一组数据(知X),(孙必),…,(/,%),其回归直线y=px+a的斜率和截距的最小二乘估计分别为
B=W、---------,a=y-Px.
i=i
若x~N(3,则P(|X—〃kb)=0.6827,P(X-ju\<2a)=0.9545,P(|X-〃|<3cr)=0.9973.
【答案】(D'=e03S6*+6108
(2)尸(T<€<1)=0.9545,成本下降3元.
【分析】(1)将非线性回归模型转化为线性回归模型求解;
(2)利用正态分布的概率模型求解,并结合特殊概率值求解.
【详解】(1)因为》=/"&,所以姑£=晟+育,
5J5
112.85-3x36.333.86
所以6=乂=0.386,
51+4+9+16+25-5x32一IT
位2
f=i
131
所以匠=一£如吠一反=—x36.33-0.386x3=6.108,
5i=i5
所以9=或行e().386x+6.108
(2)未引入云算力辅助前,£~N(0,2),所以"=0,b=。,
又P(-l<£<l)=0.6827=P(|£—•<b),所以聆=1,所以加=4.
引入云算力辅助后,£~N(0,A),所以〃=0Q=。,
若保持产品成本不变,则机=4,£~N(0,;[,b=£=g,
所以"一1<£<1)=P(\S-/J\<2<r)=0.9545
若产品质量不变,则£=1,所以〃?=1,
所以单件产品成本可以下降4-1=3元.
15.(2023•全国•高二专题练习)某沙漠地区经过治理,生态环境得到很大改善,野生动物数量有所增加.为调查该
地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样
区,调查得到样本数据a,yj(i=12…,20),其中x,和川分别表示第i个样区的植物覆盖面积(单位:公顷)和这
20202()2()
种野生动物的数量,并计算得:1>=60,£8=1200,Z(X,「可一=80,Z(%-y)-=9000,
/=1i=l(=1r=l
20
可(%-方=800.
1=1
(1)求该地区这种野生动物数量的估计值;
⑵求样本(%,yj(i=l,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准
确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
【答案】(1)12000
(2)0.94
(3)分层抽样,理由见解析
【分析】(1)计算出样区中这种野生动物的平均数,由此可计算得到该地区的估计值;
(2)结合已知数据,根据相关系数公式可直接求得结果;
(3)根据分层抽样适用的条件可确定结果.
120
【详解】(1)由已知得:样区中,这种野生动物的平均数5=京2%=60,
•・•该地区这种野生动物数量的估计值为200x60=12000.
20
X4-可(%-方800=^1.0.94
1=1;
(2)相关系数r=[20~f20
Jt(y.-y)2780x90003
V1=1vi=l
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差
异很大,从而各地块间这种野生动物数量的差异也很大,采用分层抽样的方法能较好地保持样本结构与总体结构的
一致性,提高样本的代表性,从而获得对该地区这种野生动物数量更准确的估计.
【双基达标】
16.(2023春•上海闵行・高二校考阶段练习)下列关于散点图的说法中,正确的是()
A.任意给定统计数据,都可以绘制散点图B.从散点图中可以看出两个量是否具有一定的关系
C.从散点图中可以看出两个量的因果关系D.从散点图中无法看出数据的分布情况
【答案】B
【分析】根据散点图的概念判断即可.
【详解】散点图不适合用于展示百分比占比的数据,另外数据量较少的数据也不适合用散点图表示,故A错误;
散点图能看出两个量是否具有一定关系,但是并一定是因果关系,故B正确,C错误;
散点图中能看出数据的分布情况,故D错误.
故选:B
17.(2023春•高二课时练习)两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的相关系数「如下
表,其中拟合效果最好的模型是()
模型模型1模型2模型3模型4
相关系数「0.480.960.150.30
A.模型1B.模型2C.模型3D.模型4
【答案】B
【分析】根据相关系数的定义,判断卜|的大小,即可判断选项.
【详解】根据相关系数的定义可知,卜|越大,约接近于1,则拟合效果越好.
由数据可知,模型2的相关系数最大,所以拟合效果最好.
故选:B
18.(2023春•吉林长春•高二长春十一高校考阶段练习)《中共中央国务院关于全面推进乡村振兴加快农业农村现代
化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴,要大力
推进数字乡村建设,推进智慧农业发展.某乡村合作社借助互联网直播平台进行农产品销售,众多网红主播参与到直
播当中,在众多网红直播中,统计了10名网红直播的观看人次占和农产品销售量2,3,,10)的数据,得到如
图所示的散点图.
(1)利用散点图判断,y=a+%和y=c+21nx哪一个更适合作为观看人次x和销售量y的回归方程类型;(只要给出
判断即可,不必说明理由)
(2)对数据作出如下处理:得到相关统计量的值如表:
£10(西-下)c‘10/一、/一、10,
X.ycoE(小一石)2£(占7)(%->)-45-力
/=1/=1»=1i=i
9.430.323666.6439.266
_I10
其中令例=ln%,0=
1Ui=i
根据(i)的判断结果及表中数据,求》(单位:千件)关于x(单位:十万次)的回归方程,并预测当观看人次为
280万人时的销售量;
参考数据和公式:In2®0.69,In7al.95
附:对于一组数据(4,匕)、(“2,©、L、(%匕),其回归线丫=。+成的斜率和截距的最小二乘估计分别为:
Bn;,a=v-B".
Z")
f=l
【答案】(l)y=c+21nx更适合;
⑵y=10.3+lOlnx,预测当观看人次为280万人时的销售量约为43600件.
【分析】(1)根据散点图中散点的分布情况可选择合适的回归模型;
(2)令(y=hu,则丫=0+20,将表格中的数据代入最小二乘法公式,可求得》、c的值,进而可得出y关于x的
回归方程,将x=28代入回归方程可得出销售量.
【详解】(1)解:由散点图可知,散点分布在一条对数型曲线附近,所以选择回归方程y=3+21nx更适合.
(2)解:令<w=ln_r,则丫=6+2。,
因为Z(0厂0)(%-y)=66,Z(例-0)=6.6,
i=li=\
10
.2(四一。心.一》)
=9=10,
所以"二、;一二^
2(可-。)6.6
/=1
又因为7=30.3,石=2,所以c=7-d万=30.3—10*2=10.3,
所以y与0的线性回归方程为y=10.3+100,
故y关于X的回归方程为y=10.3+101nx.
令x=28,代入回归方程可得y=10.3+101n28=10.3+10x(21n2+ln7卜43.6(千件)
所以预测观看人次为280万人时的销售量约为43600件.
19.(2021春.陕西渭南•高二统考期末)某高中生参加社会实践活动,对某公司1月份至5月份销售的某种配件的
销售量及销售单价进行了调查,销售单价x和销售量y之间的一组数据如下表所示:
月份12345
销售单价M元)91011
销售量y(件)1110865
(1)由上表数据知,可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(精确到0.01)
(2)求出y关于X的线性回归方程;
(3)预计在今后的销售中,销售量与销售单价仍然服从(2)中的关系,如果该种配件的成本是2.5元/件,那么该种
配件的销售单价应定为多少元才能获得最大利润?(注:利润=销售收入-成本)
£(占-可(y-切
参考公式:相关系数r=IJ",线性回归方程£=/+4的斜率和截距的最小二乘法估计分别为
Vz=lV<=l
可(%-刃
b=----------------,a=y-bx.
i=l
55s5―
参考数据:Z(%-T)(%一歹)=-8茂=]0,Z(占_可一=彳,z(y一刃=26,而。8.06
i=\i=l2:=]
【答案】(1)答案见解析
(2)y=-3.2x+40
【分析】(1)根据所给公式及数据求出相关系数,即可判断;
(2)根据所给公式及数据求出右、a,即可得到回归方程;
(3)设销售利润为W,则卬=(》-2.5乂-3.2犬+40),(2.5<x<12.5),再根据二次函数的性质计算可得.
【详解】(1)解:£&-丁)也一刃=一8,^(x,.-J)2=1,之出-寸=26,
/=11=1'i=l
由于y与x的相关系数近似为T).99,说明》与x的线性相关程度相当高,
从而可以用线性回归模型拟合y与*的关系.
5575
⑵解:2(%-5)(%-反)=-8,Z(%-T)-=J,
i=l,=1L
1人
又了=10,y=—(11+10+8+64-5)=8,:.a=y-bx=S-(-3.2)x10=40
二•y关于x的线性回归方程为y=-3.2%+40.
(3)解:设销售利润为W,则W=(x-2.5)(-3.2x+40)=-3.2/+48X-1(X)(2.5<X<12.5),
整理得W=-3.21号)+80,
所以当x=7.5时%„=80,故该配件的销售单价应定为7.5元才能获得最大利润.
【高分突破】
一、单选题
20.(2021春•陕西咸阳•高二统考期中)如图所示的散点图,现选用两种回归模型,模型4用线性回归模型,计算
出相关系数4;模型8:用指数回归模型,计算出转化为线性回归方程所对应的相关系数4,则一定有()
A.B.C.片=]D.无法确定
【答案】B
【分析】由散点图即可判断.
【详解】根据散点图可知,利用指数回归模型模拟效果好于线性回归模型,
所以片<机
故选:B
21.(2023春•高二单元测试)对两个变量丫与x进行回归分析,分别选择不同的模型,它们的相关系数「如下,其
中拟合效果最好的模型是()
①模型I的相关系数「为0.25;②模型II的相关系数厂为0.80;
③模型HI的相关系数,为-0.50;④模型IV的相关系数r为-0.9();
A.IB.IIC.IllD.IV
【答案】D
【分析】根据相关系数的大小对相关关系强弱的判定,即可解出.
【详解】因为卜|越趋近于1,相关性越强,模型拟合效果越好,
所以拟合效果最好的模型是IV.
故选:D.
22.(2022春・吉林•高二校联考期末)在一组样本数据(4其),区,月),,(%,%),(〃*2,不孙,怎互不相等)的散点
图中,若所有样本点(%y)(i=l,2,…川都在直线y=gx-5上,则这组样本数据的样本相关系数为()
A.—B.—C.—1D.1
33
【答案】D
【分析】根据所有样本点(x,,y)(i=l,2,…,〃)都在直线y=;x-5上可知样本数据完全正相关,相关系数取到最大值,
可得答案.
【详解】由题意可知,所有样本点a,%)(i=l,2,…川都在直线y=gx-5上,
则这组样本数据完全正相关,且相关系数为1,
故选:D
23.(2022・高二单元测试)在建立两个变量y与x的回归模型时,分别选取了4个不同的模型,模型1的相关系数
为0.88,模型2的相关系数为0.66,模型3的相关系数为0.945,模型4的相关系数为0.01,其中拟合效果最好的
模型是()
A,模型1B.模型2C.模型3D.模型4
【答案】C
【分析】相关系数的绝对值越接近于1,拟合效果越好,比较即可得.
【详解】由已知模型3的相关系数为0.945,最接近于1,因此拟合效果最好.
故选:C.
24.(2022春・河南南阳•高二统考期末)对两个变量x与>进行回归分析,有一4个不同模型可供选择,其中拟合效果
最好的是()
A.模型1的相关系数厂为-0.95B.模型2的相关系数厂为0.89
C.模型3的相关系数厂为0.36D.模型4的相关系数『为-0.33
【答案】A
【分析】利用相关系数与模型拟合效果之间的关系判断可得出结论.
【详解】对于模型而言,当卜|越接近于1,则模型的拟合效果越好,故拟合效果最好的模型1.
故选:A.
25.(2023・全国•高二专题练习)下列四个命题:
①由样本数据得到的回归直线方程¥=屏+£至少经过样本点(不乂),(々,%),,(4%)中的一个;
②在回归分析中,若模型一的相关指数&=0.98,模型二的相关指数电=0.85,则模型一的拟合效果比模型二的
好;
③回归直线一定经过样本点的中心口,亍);
④在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高.
正确命题的个数为()
A.1B.2C.3D.4
【答案】C
[分析]根据回归直线方程的特点依次判断即可.
【详解】回归直线方程9=鼠+》经过样本中心点,不一定过样本点,所以①错误,③正确;
在回归分析中,模型的相关指数越大拟合效果越好,所以②正确.
在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,所以④正确.
故选:C.
二、多选题
26.(2023春•河南南阳•高二校联考期中)对于样本相关系数「,下列说法正确的是()
A.若两个随机变量线性不相关,则/•=()
B.若r=0,则两个随机变量没有任何相关性
C.r的值越小,成对样本数据的线性相关程度越弱
D.成对样本数据线性相关的正负性与r的符号(正负)相同
【答案】AD
【分析】由相关系数的概念可知选项的正确性.
【详解】对于A和C,相关系数厂用来衡量两个变量之间的线性相关程度,相关系数『是一个绝对值小于等于1的
量,并且它的绝对值越大说明相关程度越高,故A正确,C错误;
对于B,相关系数/■=()说明两个随机变量线性不相关,但这不代表两个变量之间不存在其他类型的关系,故B错
误;
对于D,由相关系数的概念可知,成对样本数据线性相关的正负性与r的符号(正负)相同,故D正确.
故选:AD.
27.(2023•全国•高二专题练习)某同学用搜集到的六组数据a,yj(i=l,2,,6)绘制了如下散点图,在这六个点中
去掉B点后重新进行回归分析,则下列说法正确的是()
A.决定系数2变小B.相关系数r的绝对值越趋于1
C.残差平方和变小D.解释变量x与预报变量y相关性变弱
【答案】BC
【分析】从图中分析得到去掉B点后,回归效果更好,再由决定系数,相关系数,残差平方和和相关性的概念和性
质作出判断.
【详解】从图中可以看出8点较其他点,偏离直线远,故去掉8点后,回归效果更好,
决定系数W越接近于1,所拟合的回归方程越优,故去掉B点后,N变大,越趋于1,A错误;
相关系数卜|越趋于1,拟合的回归方程越优,故去掉B点后,故相关系数,的绝对值越趋于1,B正确;
残差平方和变小拟合效果越好,故c正确;
解释变量X与预报变量y相关性增强,D错误.
故选:BC
28.(2023春•高二课时练习)对两个变量x与进行线性相关性和回归效果分析,得到一组样本数
据:(%,,),(々,必),…,(七,券),则下列说法不正确的是()
A.若所有样本点都在直线y=-x+l上,则两个变量的样本相关系数为/*=1
B.残差平方和越小的模型,拟合的效果越好
C.若H越大,则变量X与y的线性相关性越强
D.若H越小,则变量X与y的线性相关性越强
【答案】AD
【分析】根据相关系数,•的定义及其意义,对选项逐一判断即可得到结果.
【详解】当所有的样本点都在直线y=-x+l上时,样本点数据完全负相关,其相关系数r=-l,故A错误;
残差平方和越小的模型,齐越大,拟合的效果越好,故B正确;
相关系数卜|值越大,则变量X与y的线性相关性越强,故c正确;
相关系数卜|越小,则变量x与y的线性相关性越弱,D错误;
故选:AD.
29.(2022春•河北张家口•高二统考期末)变量x与》的成对数据的散点图如下图所示,并由最小二乘法计算得到回
归直线4的方程为?=&x+4,相关系数为,i,决定系数为R:;经过残差分析确定第二个点8为离群点(对应残差
过大),把点B去掉后,再用剩下的7组数据计算得到回归直线《的方程为£=2r+4,相关系数为4,决定系数为
R;.则以下结论中正确的是()
A.a,<a2B.<b2C.rt>r2D.R:<R;
【答案】BD
【分析】根据点8的特点判断选项AB,由于去掉8,其它点的线性关系更强,从而可判断CD选项
【详解】因为共8个点且离群点8的横坐标较小而纵坐标相对过大,去掉离群点后回归方程的斜率更大,而截距变
小,所以B正确,而A错误;
去掉离群点后相关性更强,拟合效果也更好,且还是正相关,所以4<4,母<&,故C错误,D正确.
故选:BD
30.(2023春•黑龙江哈尔滨•高二哈九中校考阶段练习)下列关于回归分析的说法中,正确的是()
A.在回归分析中,散点图内的散点大致落在一条从左下角到右上角的直线附近,我们称两个变量呈正相关
B.在回归分析中,残差点所在的带状区域宽度越宽,说明模型的拟合精度越高
C.在回归分析中,样本数据中一定有样本点(元力
D.决定系数2越大,模型的拟合效果越好
【答案】AD
【分析】根据回归分析中相关概念逐项分析可得.
【详解】由散点大致落在一条从左下角到右上角的直线附近可知直线斜率为正,故两个变量呈正相关,A正确;
残差点所在的带状区域宽度越窄,拟合精度越高,故B错误;
(天,刃为样本中心点,不一定在样本数据中,故C错误;
决定系数长越大,拟合效果越好,故D正确.
故选:AD
31.(2022春•山东聊城•高二统考期末)对具有相关关系的两个变量x和y进行回归分析时,经过随机抽样获得成对
的样本数据a,y)(i=l,2,…,〃),则下列说法正确的是()
A.若两变量X、了具有线性相关关系,则回归直线至少经过一个样本点
B.变量X、y的线性相关系数r的绝对值越接近1,则两个变量y与X的线性相关程度越强
c.用残差平方和来比较两个模型的拟合效果时,残差平方和越小,模型的拟合效果越好
D.用*=1-得------7来刻画回归模型的拟合效果时,若所有样本点都落在一条斜率为非零的直线上,则叱的
2")一
1=1
值为1
【答案】BCD
【分析】利用回归直线的相关知识可判断A选项;利用相关系数与线性相关程度的关系可判断B选项;利用残差
平方和与模型的拟合效果的关系可判断C选项;利用相关指数与回归模型的拟合效果的关系可判断D选项.
【详解】对于A选项,若两变量x、V具有线性相关关系,则回归直线过样本中心点,但不一定过样本点,A错;
对于B选项,若变量x、y的线性相关系数"的绝对值越接近1,则两个变量)'与x的线性相关程度越强,B对;
对于C选项,用残差平方和来比较两个模型的拟合效果时,残差平方和越小,模型的拟合效果越好,C对;
对于D选项,用正=1一号——二;来刻画回归模型的拟合效果时,若所有样本点都落在一条斜率为非零的直线上,
i=l
则收的值为1,D对.
故选:BCD.
三、填空题
32.(2023春•陕西西安•高二校联考阶段练习)已知某个样本点中的变量x、y线性相关,相关系数/•<(),则在以(焉)
为坐标原点的坐标系下的散点图中,大多数的点都落在第象限.
【答案】二、四
【分析】利用相关系数公式,结合已知有大多数点七-1与异号,即可得答案.
£(西-元)(必一歹)“
【详解】由,二「1”<0,则力(西一幻(斗一用<0,
)2业(一)2T
所以,大多数点七-嚏与%-亍异号,又(工亍)为坐标原点,
故大多数的点都落在第二、四象限.
故答案为:二、四
33.(2023・全国•高二专题练习)x和y的散点图如图所示,在相关关系中,若用〉=。声”拟合时的决定系数为R:,
用9=去+&拟合时的决定系数为抬,则M,R;中较大的是.
【答案】R;
【分析】根据相关系数的大小与拟合效果的关系判断即可.
【详解】由题图知,用丫=42拟合的效果比?=去+6拟合的效果要好,所以用>用,故较大者为用.
故答案为:
34.(2022春•吉林白城.高二校考阶段练习)在一组样本数据(冷必),(七,为),…(玉,片),(〃22,不々x“不相等)的散
点图中,若所有样本点a,y)(i=L2,…,冷都在直线y=gx+3上,则这组样本数据的样本相关系数为
【答案】1
【分析】根据样本相关系数的定义及直线的斜率为正,得到相关系数为L
【详解】因为所有样本点都在直线y=;x+3上,且直线y=gx+3的斜率为g>0,
故相关系数为1.
故答案为:1
35.(2023♦江苏•高二专题练习)某中学统计了2011~2021这11年本校学生参加高考数学均分、英语均分、总分均
分,得到如表所示的表格:
年份20112012201320142015201620172018201920202021
数学X(分)7577797480817783808281
英语加(分)959810010110210310198107106100
总分y(分)473481479485490487478492488493489
从表中可知,数学和英语这两科中与总分相关性较高的是.
【答案】数学
【分析】根据相关系数公式计算可得.
【详解】设数学学科和英语学科的相关系数分别为4,7=79,y=485,帚=101,
H
V/一\/
Z七-Xuy,_习=48+8+5+4+14+28+3+24+8=142;
-^\/(
M\
/一
ll-y
z\>2=144+16+36+25+4+49+49+9+64+16=412;
X-——
匕
,
/一\
/=l-XD
u\/2=16+4+25+1+4+4+16+1+9+4=84,
z
二z=l-q'2(y—W=484x412=J34608«186.0323,=0.7633.
=72+12+6+5+4—21+18+40—4=132;
而丫=36+9+1+1+4+9+36+25+1=122,
I||_211__2
二\X(见一同EG-亍)-=,122x412=J50264=224.1963,
・,.r2»0.5888.
V1=1'i=l'
4>4,,从相关系数角度来考虑,数学学科与总分的相关性较高,
故答案为:数学.
36.(2023•全国•高二专题练习)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,
通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费某种机械设备的使用年限x(单位:年)与失效费
y(单位:万元)的统计数据如下表所示:
使用年限X(单位:年)1234567
失效费y(单位:万元)
由上表数据可知,y与x的相关系数为.
[(%-月(%-刃
i=]y)=14.00,-丁
(精确到0.01,参考公式和数据:=7.08,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院档案及文档管理制度
- 医院要严明工作制度
- 2026八年级道德与法治下册 法治社会的共建
- 卫健站工作制度及流程
- 卫生监督所财务内控制度
- 卫生院各项规章制度汇编
- 县委办公室内部考核制度
- AutoC绘图建筑项目 4
- 口腔外科工作制度
- 2026道德与法治二年级拓展空间 时代楷模事迹
- 2025年银行业务知识考试题及答案
- 2026济南市护士招聘笔试题及答案
- 物业纠纷调解技巧2026年培训
- 家长会课件 下学期八年级期中考后分析与安全建议家长会课件
- 2026国家广播电视总局直属事业单位招聘166人备考题库(北京)附答案详解(突破训练)
- 2026全球与中国多功能多面体低聚倍半硅氧烷(POSS)行业前景动态及发展趋势预测报告
- 总审计师评价制度
- DB45-T 2885-2024 生活无着的流浪乞讨人员接送返乡工作规范
- 泵房日常安全培训课件
- 园林景观品质第三方评估(可编辑)
- 疥疮预防控制措施
评论
0/150
提交评论