版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3讲统计与成对数据的统计分析A对应学生用书P84
【考情分析】高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样
本估计总体、经验回归方程的求解与运用、独立性检验问题,常与概率综合考查,中
等难度.
真题
1.(2024.全国H卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得
到各块稻田的亩产量(单位:kg)并整理得下表:
亩产量[900,950)[950,1000)[1000,1050)
频数61218
亩产量[1050,1100)[1100,1150)[1150,1200)
频数302410
根据表中数据,下列结论中正确的是()
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过8()%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于90()kg至1()()()kg之间
解析:选C.对于A,因为前3组的频率之和0.06+0.12+0.18=0.36V0.5,前4组的
频率之和0.36+0.30=0.66>0.5,所以100块稻田亩产量的中位数所在的区间为[1
050,1100),故A不正确;对于B,100块稻田中亩产量低于1100kg的稻田所占比
例为6+12+18+30X]0。%=66%,故B不正确;对于C,因为1200—900=300,1150
100
—950=200,所以100块稻田亩产量的极差介于200kg至300kg之间,故C正确;
对于D,100块稻田亩产量的平均值约为击X(925X6+975X12+1025X18+1
075X30+1125X24+1175X10)=1067(kg),故D不正确.
2.(多选)(2023・新高考I卷)有一组样本数据Xi,及,…,/6,其中沏是最小值,工6是最
大值,则()
A.尢2,X3,工4,尤5的平均数等于尢1,尢2,…,尢6的平均数
B.X2,X3,工4,X5的中位数等于Xl,X2,…,兄的中位数
C.X2,X3,X4,X5的标准差不小于Xl,X2,…,工6的标准差
D.X2,X3,戈4,X5的极差不大于Xl,X2,…,枇的极差
解析:选BD.对于选项A:设X2,工3,X4,X5的平均数为m,X|,X2,…,X6的平均数
为〃,j],]n—m—必+%2+:3+%4+%5+%6%2+-3+%4+&-2(力+见)一(一+%2+%3+%4),因为没
6412
有确定2(笛+工6)与4+也+用+用的大小关系,所以无法判断加,〃的大小,故A错
■口
伏;
对于选项B:不妨设可知X2,工3,工4,的中位数等于X1,
X2,…,X6的中位数,均为生白,故B正确;
对于选项C:因为曾是最小值,X6是最大值,则及,工3,X4,X5的波动性不大于X1,
X2,…,X6的波动性,即X2,X3,X4,工5的标准差不大于汨,X2,…,配的标准差,
例如:2,4,6,8,1(),12,则平均数〃=^X(2+4+6+8+l()+12)=7,
6
标准差51=
-X[(2—7)2+(4-7)2+(6-7)2+(8~7)2+(10~7)2+(12~7)21=—,
、63
4,6,8,10,则平均数加=1/(4+6+8+10)=7,
4
标准差S2=J:X[(4—79+(6—7产+(8—7)2+(10-7)2]=遥,
显然而,即S1>S2,故C错误;
对于选项D:不妨设%]WX2WX3WX4WX5WX6,则北一为2右—X2,当且仅当X1=X2,X5
=X6时,等号成立,故D正确.
3.(2024.全国甲卷)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙
两个车间的产品中随机抽取150件进行检验,数据如下:
优级品合格品不合格品总计
甲车间2624050
乙车间70282100
总计96522150
⑴填写如下列联表:
优级品非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握
认为甲、乙两车间产品的优级品率存在差异?
⑵已知升级改造前该工厂产品的优级品率p=0.5.设万为升级改造后抽取的〃件产品的
优级品率.如果万>〃+1.65心云,则认为该工厂产品的优级品率提高了,根据抽取的
150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高
了?2.247)
大2_n(ad-bc)2
附:(a+b)(c+d)(a+c)(b+d)'n=a+h+c+d.
P(心NA)0.0500.0100.001
k3.8416.63510.828
解:(1)填写如下列联表:
优级品非优级品
甲车间2624
乙车间7030
则完整的2X2列联表如下:
优级品非优级品总计
甲车间262450
乙车间7030100
总计9654150
/_150x(26x30-70X24)2
,—AAQ75
“96X54X50X100
因为长=4.6875>3.841,所以有95%的把握认为甲、乙两车间产品的优级品率存在
差异;
因为a=4.6875<6.635,所以没有99%的把握认为甲、乙两车间产品的优级品率存
在差异.
(2)由题意可知万=奇=0.64,
又〃+L65^i^=().5+L65XP-5x(1-°-5)^0.5+1.65X-^-^().57,
,7n\15012.247
所以万>〃+1.65J若出,所以能认为生产线智能化升级改造后,该工厂产品的优级品
率提高了.
典例[方法导析]
考点1统计图表、数字特征
1.频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示等,频率=组距X等.
组距组距
2.在频率分布直方图中各小长方形的面积之和为1.
3.利用频率分布直方图求众数、中位数与平均数
(1)最高的小长方形底边中点的横坐标即众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积
与小长方形底边中点的横坐标之积的和.
典例亍「5幅说国劳产茱丽三旗赭福藕智茗丽位高二一该二函前就麻直一
宜,牡丹尤为天下奇”流传于世.某种植基地通过植株高度研究牡丹的生长情况,从
同一批次牡丹中随机抽取100株的植株高度(单位:cm)作为样本,得到如图所示的频
率分布直方图,则下列结论正确的是()
A.基地牡丹植株高度的极差的估计值大于50
B.基地牡丹植株高度不高于70的频率估计值为30%
C.基地牡丹植株高度的众数与中位数的估计值相等
D.基地牡丹植株高度的第75百分位数的估计值小于80
解析:选BC.对于A项,由图象可知,基地牡丹植株高度范围在[50,100]之间,所
以极差的估计值应不大于50,故A错误;
对于B项,基地牡丹植株高度不高于70的频率为(0.01+0.02)X10=0.3,故B正确;
对于C项,由频率分布直方图可知,基地牡丹植株高度不高于70的频率为0.3,不高
于80的频率为(0.01+0.02+0.04)><10=0.7>0.5,所以中位数位于[70,80],设为
x,则应有、^X0.4+().3=0.5,得x=75,众数估计为[70,80]的中点,也是75,与
中位数相同,故C正确;
对于D项,基地牡丹植株高度不高于80的频率为0.7,不高于90的频率为0.95,所
以基地牡丹植株高度的第75百分位数的估计值应在[80,90卜勺,故D错误.
(2)(多选)(2025•河南周口二模)已知正项等比数列{斯}的公比q<l,将{a九}的前9项按
照从小到大的顺序排列组成一组数据,则下列说法正确的是()
A.该组数据的30%分位数为6
B.该组数据的中位数小于其平均数
C.若去掉45,所得新数据的中位数与原中位数相等
D.若4=3的(i=L2,9),则力,D,…,D的方差是ai,①,…,麴的方差的9
倍
解析:选BD.由题意可知m>0,故{&J为单调递减数列,
对于A,9X30%=2.7,故数据的30%分位数为从小到大的第三个数〃7,A错误;
对于B,该组数据的中位数为as,由于。1+。9>2)。1以9=2。5,〃2+以8>2皿2以8=
2a5,。3+。7>2出+。6>2因此。i+qg+s+as+s+s+s
+。6+。5>9恁,土攵平均4攵文=%+"9+02+/+:3+07+04+%+°5>恁,B正确;
对于C,若去掉。5,所得新数据的中位数为"善〉周还=。5,而原中位数为。5,两
者不相等,C错误;
对于D,hi=3ai(i=1,2,…,9),则从,hi,…,仇的方差是〃i,。2,…,俏的方差
的9倍,D正确.
[易错提醒](1)对于给出的统计图表,一定要结合问题背景理解图表意义.
(2)频率分布直方图中纵坐标不要误以为是频率.
对点练1.(1)(多选)(2025•河北秦皇岛二模)已知一组样本数据为,必…,.⑵,…,
M,X|<X2<,,e<X2«<---<%4An则下列说法错误的是()
A.X1,了2,…,工4〃的下四分位数为无?
B.M”如+1,…,“的中位数为―产+】
C.Xl,X2,…,侬的平均数小于X2n+1,X2”+2,…,X4〃的平均数
D.ax]—afax2-a,…,4X4“一。的方差为xi,X2,…,X4〃的方差的。倍
解析:选ABD.对于A,由4〃义25%=〃,得下四分位数为生与旦,A错误;
2
对于B,数据X2“,X2〃+],…,山〃共2鹿+1个,其中位数为X3〃,B错误;
1271]]]2n
对于C,h丁?心⑦产工2”Vl2〃+1=「2/1T2A+IV丁十,正确;
2Tli2=2n2n2niC
对于D,ax\~a,ax2~ci,…,“必〃—a的方差为xi,xi,…,的方差的。?倍,D错
庆p.
(2)(多选)(2025•内蒙古呼和浩特一模)2024年4月30日国家统计局发布了制造业采购经
理指数(PMI)(%)(50%=与上月比较无变化),如图所示.下列说法正确的是()
A.从2023年4月到2024年4月制造业采购经理指数(PMI)呈下降趋势
B.从2023年10月到2024年4月,这7个月的制造业采购经理指数(PMI)的极差为
1.8%
C.从2023年10月到2024年4月,这7个月的制造业采购经理指数(PMI)的平均数为
49.4%
D.从2023年10月到2024年4月,这7个月的制造业采购经理指数(PMI)的80%分位
数为50.4%
解析:选BD.对于A,制造业采购经理指数(PMI)有升有降,A错误;
对于B,从2023年10月到2024年4月,这7个月的制造业采购经理指数(PMI)的极
差为50.8%—49.0%=1.8%,B正确;
对于C,从2023年10月到2024年4月,这7个月的制造业采购经理指数(PMI)的平
均数为(49.5%+49.4%+49.0%+49.2%+49.1%+50.8%+50.4%)+7、49.63%,C
错误;
对于D,从2023年10月到2024年4月,这7个月的制造业采购经理指数(PMI),从
,卜到大的川页序为49.()%,49.1%,49.2%,49.4%,49.5%,50.4%,50.8%,由
7X80%=5.6,得第80百分位数为第6个数,为50.4%,D正确.
考点2回归分析
求经验回归方程的步骤
(1)依据成对样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略);
(2)计算出又,y,a,6;
⑶写出经验回归方程.
典例
A.在成对样本数据(厮,yi)(i=1,2,3,…,10)中,根据最小二乘法求得经验回归方
程为g=3x—1,去除一个样本点(即,y)后,得到的新经验回归方程一定会发生改变
B.具有相关关系的两个变量x,y的样本相关系数为广,那么一越大,x,y之间的线性
相关程度越强
C.若散点图中的散点均落在一条斜率非零的直线上,则决定系数R2=i
D.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
解析:选CD.对于A,若去除的点恰好在原经验回归直线上,则去除该点后,经脸回
归方程不会发生改变,故A错误;
对于B,I川越接近于1,则x,y之间的线性相关程度越强,故B错误;
对于C,若散点图中的散点均落在一条斜率非零的直线上,则变量与变量之间满足线
性函数关系,决定系数R2=l,故C正确;
对于D,在残差图中,残差点分布的水平带状区域越窄,说明波动越小,即模型的拟
合精度越高,故D正确.
(2)(2025•山东济南二模)每年3月20日是国际幸福日,节日的意义在于追求幸福,建
设未来.某中学为纪念国际幸福日举办了幸福种植计划,一名同学记录了种子的发芽
情况,
天数X12345
胚芽长度y/cn\0.81.11.52.44.2
通过对表中数据进行分析,分别提出了两个回归模型:(i)9=Rr+6;(刃夕=加2+
①根据以上数据,计算模型(i)中的),关于x的相关系数”结果精确到0.01),若
0.95W|r|Wl,则选择模型(i),否则选择模型(ii),试问应该选择哪个模型?
②根据①的结果,试建立y关于x的回归方程,并预测第6天种子的胚芽长度(结果精
确到0.01).
L(阳-£)(%一刃
附:回归方程尸6%+台中斜率和截距的最小二乘估计公式分别为6TF—§
2(勺一元)
1=1
=y-bx.
z(阳―0(%一力
样本相关系数为1L।
n2n2
,z(xf-x)|z(yi-y)
i=l
55
参考数据:£(%i—元)(%一3)=8.1,£()7—y)2=7.5,V75^8.660;
i=li=l
5
令g=戏,X(^i—u)(y—y)=52.L
i=lf
解:①由题设得又=1+2+3+4+5=3,
5
则-X)2=(1-3)2+(2-3)2+-+(5-3)2=10,
i=l
Z(8一无)(力一刃
所以ri=i斌云W^M).94,故应选模型(ii).
525
”e)核(yf
i=i
②令Ui=xl,设线性回归方程为夕=mu+n,
1―1+4+9+16+251(_0.8+1.1+1.5十2.4+4.2_0
则nu=-------;-------=11,y=
55
2
所以2(Uj—u)=(l-ll)2+(4-ll)2+-+(25-ll)2=374,
5
,E(ui-u)(y/-y)_521
所以宿=
米…?——京N0.139,
1=1
又2=0.139X11+3则向-0.47,故夕=0.14〃+0.47,
所以回归方程为夕=0.14f+0.47,
故当x=6时,有9=0.14X36+0.47=5.51(厘米),
所以预测第6天种子的胚芽长度为5.51厘米.
[易错提醒](1)样本点不一定在经验回归直线上,但点(元,刃一定在经验回归直线
上.
⑵求6时,灵活选择公式,注意公式的推导和记忆.
⑶利用样本相关系数判断线性相关程度强弱时,看Irl的大小,而不是厂的大小.
(4)区分样本相关系数〃与决定系数R2.
⑸通过经验回归方程求的都是估计值,而不是真实值.
对点练2.(2025•四川雅安二模)国产动画电影《哪吒之魔童闹海》现已登顶全球动画电
影票房榜榜首,并刷新多项世界票房纪录,下表截取了该电影上映后10日的单日累计
票房:
日期1月29日1月30日1月31日2月1日2月2日2月3日2月4日
日期代码X1234567
累计票房
4.889.6815.8723.1931.3239.7648.43
y/亿元
日期2月5日2月6日2月7日
日期代码X8910
累计票房
54.9260.7866.20
y/亿元
⑴请根据这10日数据:
(i)计算x,y的平均值元,y;
(ii)求y关于x的经验回归方程;
(2)用上面求出的经验回归方程预测该电影上映半年后的票房,得到的结果合理吗?为
什么?(每月按30天计)
附:参考公式:经验回归方程夕=m+6中斜率和截距的最小二乘估计公式分别为5=
n
.1(阳一元)(%一力_-
色F--------,a=y-bx.
£xf—nx2
i=i
1010
参考数据:£yz=355.03,初y•一9)=594.495.
i=ii=i
1110
解:(1)(i)由题意,元="义(1+2+3+4+5+6+7+8+9+10)=5.5,尸Egy产
1—1
-X355.03=35.503.
10
10
(ii)X%?=12+22+32+42+52+62+72+82+92+102=385,
i=l
io
-I(xt-x)(yi-y)
贝防二庄%-----------594.495
2=7.206,8=35.503—7.206X5.5=-4.13,
yx?—iox2385-10X5.5
i=i
所以y关于x的经验回归方程为歹=7.206工一4.13.
(2)由(1)知,y=7.206x-4.13,
当元=180时,夕=7.206义180—4.13=1292.95,
则预测该电影上映半年后的票房为1292.95亿元,
这样的预测结果显然不合理,电影的票房一般在刚上映的一段时间内增长较快,随着
时间的推移,增长速度会逐渐放缓,而所求的经验回归方程是假设变量之间具有线性
关系,不能准确反映电影票房在较长时间内的变化趋势,所以用这个方程预测半年后
的票房是不合理的.
考点3独立性检验
独立性检脸的一般步骤
⑴根据样本数据列2X2列联表;
n(ad-be)2
(2)根据公式/=,计算片的值;
(a+b)(c+d)(a+c)(b+d)
(3)查表比较广与临界值的大小关系,作统计判断.旌越大,对应假设事件为成立(两
类变量相互独立)的概率越小,“0不成立的概率越大.
典例rJ(2025•浙江杭州二模)其车企为考察选购新能源汽车的款式与性别的关联性,调
查100人购买情况,得到如下列联表:
新能源汽车A款新能源汽车B款总计
男性5010X
女性251540
总计y25100
⑴求x,y;
⑵根据小概率值。=0.05的独立性检验,能否认为选购该新能源汽车的款式与性别有
关联?
⑶假设用样本估计总体,用频率估计概率,所有人选购汽车的款式情况相互独立.若
从购买者中随机抽取3人,设被抽取的3人中购买了3款车的人数为X,求X的数学
期望.
附:t(a+b)(cLx")c)(b+d),〃a+Hc+"
a0.100.050.0100.005
此2.7063.8416.6357.879
解:⑴由题意得工=50+10=60,y=100-25=75.
(2)零假设为Wo:选购新能源汽车的款式与性别无关联.
根据列联表中的数据,可得黑妻蒜〉』56>3.841,
根据小概率值cc=0.05的独立性检验,推断办不成立,
可以认为选购车的款式与性别有关,此推断犯错误的概率不大于().05.
(3)随机抽取1人购买3款车的概率为〃=焉=%
X的可能取值有(),1,2,3,由题意得X〜5(3,1),
由二项分布的期望公式得石(x)=〃〃=3X工=之.
44
[易错提醒](1)/越大两分类变量无关的可能性越小,推断犯错误的概率越小,通过
表格查得无关的可能性.
⑵在犯错误的概率不大于0.01的前提下认为两个变量有关,并不是指两个变量无关的
可能性为0.01.
对点练3.(2025•广东湛江二模)为了研究观众对某档节目的喜爱情况与性别的关联性,
分别调查了该档节目男、女观众各10()人,发现共有70名观众喜爱该档节目,且不
喜爱该档节目的女性观众数是喜爱该档节目的男性观众数的2倍.
(1)根据题中信息,完成下面列联表;
单位:人
喜爱情况
性别合计
喜爱不喜爱
男
女
合计
(2)根据(1)中的列联表,依据。=0.1的独立性检验,能否认为观众对该档节目的喜爱
情况与性别有关?
附:犬g+bxXXx*…+叶。+&
a0.10.050.01
Xa2.7063.8416.635
解:(1)设喜爱该档节目的男性观众数为x,则喜爱该档节目的女性观众数为70—乂
不喜爱该档节目的女性观众数为2x,则70—x+2x=100,得x=30.
故列琰表完成如下.
喜爱情况
,性别合计
喜爱不喜爱
男3070100
女4060100
合计70130200
(2)零假设为Ho:观众对该档节目的喜爱情况与性别无关.
得已一2黑黑蓝警一鲁598y.
根据夕=0.1的独立性检验,没有充分证据推断“o不成立,因此可以认为Ho成立,即
认为观众对该档节目的喜爱情况与性别无关.
[课下巩固检测练(三十五)]统计与成对数据的统计分析
(单选题、填空题每题5分,多选题每题6分,解答题每题10分)
一、单选题
1.(2024.天津高考)下列图中,线性相关系数最大的是()
解析:选A.观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性
回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他3图更接近1.
2.(2025•重庆模拟)“缤纷艺术节”的表演比赛中,某节目结束后,100位观众评委的
打分情况如图所示(分数均不相同),计算该节目最终得分时,需去掉一个最高分和一个
最低分,关于处理后的打分数据,下列说法一定正确的是()
频率
组距
(r707580859095100
A.中位数不变,极差变小
B.极差不变,平均数变小
C.平均数变大,方差变小
D.方差变小,中位数变大
解析:选A.去掉一个最大值和一个最小值,所以中位数没有变化,
因为极差为最大值与最小值之差,所以极差会变小,所以BD错误;
由于去掉最大值与最小值,平均值的变化不确定,故C错误.
3.随着消费者对食品安全和健康饮食的关注度的提升,中国有机燕麦作为有机食品中
营养价值较高的产品,受到消费者青睐,下图为中国有机燕麦消费者调研样本构成,
根据该图,下列说法正确的是()
样本年龄构成
月收入构成占比
20000元以上I4.0%
15001~20000元■11.1%
I000l-I5000JL=33.0%
5000-100007E1=140.4*
5000元以下011.5%
内22岁及以下由23-30岁□男□女
□31-40^自41-50岁
□51-60岁・&)岁以上
A.中国有机燕麦消费者中女性不超过男性的2倍
B.超过85%的中国有机燕麦消费者月收入不高于15000元
C.超过半数的中国有机燕麦消费者年龄在31〜40岁
D.中国有机燕麦消费者月收入构成占比中的5个百分数的中位数是33.0%
解析:选C.对于A,由图可得中国有机燕麦消费者中女性与男性占比分别为
69.2%,30.8%,而30.8%义2=61.6%<69.2%,故A错误;
对于B,中国有机燕麦消费者月收入不高于15000元的占比为1-4%—11.1%=
84.9%<85%,故B错误;
对于C,中国有机燕麦消猊者中年龄在31~40岁的占比为57.7%,故C正确:
对于D,中国有机燕麦消费者月收入构成占比中的5个百分数的中位数是11.5%,故
D错误.
4.(2025・天津一模)下列说法中,不正确的是()
A.在1,3,6,7,9,1(),12,15这组数据中,第5()百分位数为8
B.分类变量A与8的统计量片越大,说明“A与B有关系”的可信度越大
C.根据具有线性相关关系的两个变量的统计数据所得的经验回归方程为夕=族+&,若
6=2,x=l,y=3,则==1
D.两个模型中,残差平方和越大的模型拟合的效果越好
解析:选D.对A:因为8义50%=4,所以这组数据的第50百分位数为—=8,故A
选项内容正确;
对B:根据统计量片的意义可知,B选项内容正确;
对C:根据线性回归方程必过(后歹)得3=2X1+Q=&=1,故C选项内容正确;
对D:因为残差平方和越小,模型拟合的效果越好,故D选项内容错误.
5.(2025•天津河东二模)2024年12月26日,DeepSeek—V3首个版本正式上线,截至
2025年2月9日,DeepSeekAPP的累计下载量已超1.1亿次,AI成为当下的热门话
题.某中学高中数学社团以16至40岁人群使用DeepSeek频率为课题,分小组自主选
题进行调查研究,下列说法正确的是()
A.甲小组开展了DeepSeek每周使用频次与年龄的相关性研究,经计算样本相关系数
r^0.97,可以推断两个变量正线性相关,但相关程度很弱
B.乙小组利用最小二乘法得到DeepSeek每周使用频次y关于年龄x的经验回归方程
为9=0.3x+8,可以推断年龄为30岁的群体每周使用频次一定为17次
C.丙小组用决定系数叱来比较模型的拟合效果,经验回归方程①和②的R2分别约为
0.733和0.998,因此经验回归方程②的刻画效果比经验回归方程①的好很多
D.丁小组研究性别因素是否影响DeepSeek使用频次,根据小概率值a=0.1的片独立
性检验,计算得到为2=3.837>2.706=X。』,可以认为不同性别的人对DeepSeek使用
频次没有差异
解析:选C.对于A,〃的绝对值越接近1,相关性越强,故A错误;
对于B,回归方程为夕=0.3x+8给出的是预测值,实际值会有随机误差,所以年龄为
30岁的群体每周使用频次不一定为17次,故B错误;
对于C,R2表示模型对因变量的解释比例,R2大说明经验回归方程②的刻画效果比经
验回归方程①的好很多,故C正确;
对于D,%2=3.837>2.7O6=xo.i,可以认为不同性别的人对DeepSeek使用频次有差
异,故D错误.
二、多选题
6.(2025•广东珠海一模)一组样本数据(知》),i£{l,2,3,100}.其中房>1
100100
895,ZH=2X105,Z),,.=970,求得其经验回归方程为:y=-0.02x+al9残差为
i=li=l
备.对样本数据进行处理:M=ln(»—1895),得到新的数据(Y,»),求得其经验回归
方程为:9=—0.42X+A2,其残差为句分布如图所示,且6~M0,於),
N(0,返),贝女)
图1
A
四
图2
A.样本(阳,%)负相关
B.61=49.7
C.erf<(72
D.处理后的决定系数变大
解析:选ABD.对于A,经验回归方程夕=一0.02%+四中斜率一0.02V0,则样本(如
)力负相关,A正确;
对于B,原样本均值:元=2X103,7=9.7,由?=一().02%+白1,得&1=9.7+
0.02X2X103=49.7,B正确:
对于C,由图1的数据波动较大可得均比会更集中,则废〈而,C错误;
对于D,由图1的残差平方和较图2的残差平方和大知,处理后拟合效果更好,决定
系数变大,D正确.
7.(2025•甘肃陇南模拟)某校举行了交通安全知识主题演讲比赛,甲、乙两位同学演讲
后,6位评委对他们的演讲分别进行打分(满分100分),得到如图所示的统计图,则
()
分数
0123456评委编号
・甲“乙
A.甲得分的中位数大于乙得分的中位数
B.甲得分的极差大于乙得分的极差
C.甲得分的第75百分位数大于乙得分的第75百分位数
D.甲得分的方差大于乙得分的方差
解析:选AC.由统计图可知,甲得分从小到大排列为:81,81,82,83,84,87,
乙得分从小到大排列为:78,79,80,81,82,86,
对于A,甲得分的中位数为吧%=82.5,乙得分的中位数巴理=80.5,所以甲得分的
22
中位数大于乙得分的中位数,故A正确;
对于B,甲得分的极差为87—81=6,乙得分的极差为86—78=8,所以甲得分的极
差小于乙得分的极差,故B错误;
对于C,因为6义75%=4.5,所以甲得分的第75百分位数为84,乙得分的第75百分
位数为82,所以甲得分的第75百分位数大于乙得分的第75百分位数,故C正确;
对于D,由折线图可知,甲的得分比较集中,乙的得分比较分散,所以甲得分的方差
小于乙得分的方差,故D错误.
三、填空题
8.(2025・上海长宁二模)为了研究吸烟习惯与慢性气管炎患病的关系,某疾病预防中心
对相关调查数据进行了研究,假设"o:患慢性气管炎与吸烟没有关系,并通过计算得
到统计量x2^3.468,则可推断原假设儿.(填“拒绝”或“接受”,规定显
著性水平。=0.1,P(x2>2,706)^0.1)
解析:已知显著性水平a=0.1,P(%2^2.706)^0.1,即临界值为2.706,
因为3.468>2.706,所以可推断拒绝原假设Ho.
答案:拒绝
9.(2025•黑龙江哈尔滨一模)由样本数据(即,yi)(i=1,2,3,10),求得回归直线方
程为?=2x—1,且±=3,若去除偏离点(4,10)后,得到新的回归直线方程为9=%+
6,则去除偏离点后,相应于样本点(2,2)的残差值为.
解析:由于回归直线过样本中心点,当又=3时,y=2x-l=2X3-l=5,
去除偏离点(4,10)后,剩余数据的中心点为(于9),
则K一10元-4_26,104-10_40,
99'y99'
将点端,斗的坐标代入回归直线方程尸|式+5,可得|xg+6=£,解得5=一多所
以新的回归直线方程为夕=|九一蔗,当x=2时,,=5一卷=等
所以去除偏离点后,相应于样本点(2,2)的残差值为2一募=一宗
答案:一:
四、解答题
10.(2025•辽宁大连二模)在哈尔滨2025年第九届亚洲冬季运动会的志愿者选拔工作
中,面试满分为100分,现随机抽取了120名候选人的面试成绩分为五组,第一组
[45,55),第二组[55,65),第三组[65,75),第四组[75,85),第五组[85,95),绘
制成如图所示的频率分布直方图.已知图中从左到右前三组的频率成等差数列,第一
组的频率等于第五组的频率.
⑴求〃,人的值,并估计这120名候选人成绩的平均数(同一组中的数据用该组区间的
中点值作代表)和中位数(中位数精确到0.1);
(2)已知120名候选人中,男、女生各60人,男生想去冰上赛区的有35人,女生想去
冰上赛区的有20人,请补全下面2X2列联表.请问是否有99%的把握认为候选人想
去冰上赛区与性别有关?(片精确到0.001)
性别
志愿者合计
男生女生
想去冰上赛区3520
不想去冰上赛区
合计6060
n(ad-cb)2
(a+b)(c+d)(a+c)(b+d),
皈以)0.0500.0100.001
k3.9416.63510.828
⑶滑冰项目的场地服务需要4名志愿者,有4名男生和2名女生通过选拔入围,现随
机从6名同学中抽取4人服务该场地,记男生被抽中的人数为X,求X的分布列及期
望.
解:(1)由题意:10X2b=10a+10X0.045,
^(26Z+Z?+0.02+0.045)X10=1,解得。=0.005,/?=0.025.
估计这120名候选人成绩的平均数为:50X0.05+60X0.25+70X0.45+80X0.2+
90X0.05=69.5,
设中位数为x:(x-65)X0.045=0.5-(0.005+0.025)X10,
解得中位数x^69.4.
(2)
性别
志愿者合计
男生女生
想去冰上赛区352055
不想去冰上赛区254065
合计6060120
2_n(ad-bc)2_
120X(35X4-25X2=7,552>6.635,
/(a+b)(c+d)(a+c)(b+d)60x60x。55x65。产
所以有99%的把握认为候选人想去冰上赛区与性别有关.
(3)男生被抽中的人数X可能取值为2,3,4.
C2
22
P(X=2)P(X=3)=皆=*P(X=4)=步高
X的分布列为:
X234
281
P
51515
£('X)'=2X5-+3X15-+4X1-5=-3.
11.(2。25•山东模拟预测)下表是2020—2024年中国出生人口数y(单位:十万人)的数
据:
年份20202021202220232024
年份代码X12345
出生人口数
120106
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育局履行监督责任制度
- 混凝土企业安全责任制度
- 护理重症监护技术
- 工程项目质量责任制度
- 学前班主任岗位责任制度
- 房地产财务岗位责任制度
- 完善医院安全责任制度
- 中小学控辍保学责任制度
- 格落实责任制签订制度
- 护矿人员安全责任制度
- GA/T 1263-2015道路交通安全宣传教育基地建设指南
- 《绿色建筑概论》整套教学课件
- 大学计算机计算思维与信息素养第12章
- 数学第一章数据描述性分析课件
- 2023年福建军融建设发展有限公司招聘笔试题库及答案解析
- 《美学》课件(第1-8讲)教学提纲
- 森林防火整改报告记录
- 《海洋里的好伙伴》课件
- 狼疮性肾炎最新版课件
- 冶金生产概论绪论课件
- 计算机应用基础英文版课件:4.OS
评论
0/150
提交评论