备战2026年高考数学考试易错题(新高考)专题13 统计与统计案例(原题版)_第1页
备战2026年高考数学考试易错题(新高考)专题13 统计与统计案例(原题版)_第2页
备战2026年高考数学考试易错题(新高考)专题13 统计与统计案例(原题版)_第3页
备战2026年高考数学考试易错题(新高考)专题13 统计与统计案例(原题版)_第4页
备战2026年高考数学考试易错题(新高考)专题13 统计与统计案例(原题版)_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题13统计与统计案例

目录

题型一:统计

易错点01混淆总体与总体容量、样本与样本容量

易错点02求中位数、百分位数时忽略数据顺序

易错点03对频率分布直方图中的数据特征理解不透

题型二统计案例

易错点04混淆函数关系和相关关系而出错

易错点05忽视回归直线与回归曲线方程的区别与联系

易错点06求解独立性检验问题对K2的值理解不准确

题型一:统计

易错点01:混淆总体与总体容量、样本与样本容量

典例(24-25高三上·上海·阶段练习)某校为了解高三年级学生体重情况,从该年级1000名学生中抽取125

名学生测量他们的体重进行分析.在这项调查中,抽取的125名学生的体重是()

A.总体B.样本C.总体容量D.样本容量

【答案】B

【分析】根据样本的定义即可求解.

【详解】抽取的125名学生的体重是样本,故选:B

【易错剖析】

本题容易混淆样本与样本容量而出错.

【避错攻略】

抽样调查

(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.

(2)个体:构成总体的每一个元素叫做个体.

(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样

本中个体的数目叫做样本容量.

易错提醒:(1)总体是指考察对象的全体,而总体容量是指总体的个数;(2)样本是指从总体中抽取的若干个

个体组成的集合,而样本容量是指样本个体的数目,要注意二者的区别.

1.(2024高三·全国·专题练习)为了了解某地参加计算机水平测试的5000名学生的成绩,从中抽取了200

名学生的成绩进行调查分析,在这个问题中,被抽取的200名学生的成绩是()

A.总体B.个体

C.样本D.样本量

2.(24-25高二上·安徽·阶段练习)某中等职业学校为了了解高二年级1200名学生的视力情况,抽查了其中

200名学生的视力,并进行统计分析.下列叙述正确的是()

A.上述调查属于全面调查B.每名学生是总体的一个个体

C.200名学生的视力是总体的一个样本D.1200名学生是总体

3.(24-25高三·甘肃兰州·训练)为了了解参加运动会的1500名运动员的年龄情况,从中抽取了150名运动

员的年龄进行调查,则下列说法正确的是()

A.1500名运动员的年龄是总体

B.抽取到的150名运动员是样本

C.这个抽样方法可以采取随机数表法抽样

D.每个运动员被抽到的机会相等

1.(23-24高三·西藏日喀则·期末)高考结束后,为了分析该校高三年级1000名学生的高考成绩,从中随机

抽取了100名学生的成绩,就这个问题来说,下列说法中正确的是()

A.100名学生是个体

B.样本容量是100

C.每名学生的成绩是所抽取的一个样本

D.1000名学生是样本

2.(24-25高三上·福建福州·开学考试)为检查某校学生心理健康情况,市教委从该校1400名学生中随机抽

查400名学生,检查他们心理健康程度,则下列说法正确的是()

A.1400名学生的心理健康情况是总体B.每个学生是个体

C.400名学生是总体的一个样本D.400名学生为样本容量

3.(23-24高一下·山西晋中·阶段练习)为了了解某路口每天在学校放学时段的车流量,有下面几个样本,

统计该路口在学校放学时段的车流量,你认为合适的是()

A.抽取两天作为一个样本

B.春、夏、秋、冬每个季节各选两周作为样本

C.选取每周星期日作为样本

D.以全年每一天作为样本

4.(24-25高一上·全国·课堂例题)(多选)某市模考共有70000多名学生参加,某校教科室为了了解本校

3390名考生的数学成绩,从中抽取300名考生的数学成绩进行统计分析,下列说法正确的是()

A.3390名考生是总体的一个样本B.3390名考生的数学成绩是总体

C.样本容量是300D.70000多名考生的数学成绩是总体

.(23-24高一下·青海海东·阶段练习)为了了解某社区60周岁以上老年人的体重,进行如下调查:

调查一:对该社区所有60周岁以上老年人的体重进行调查;

调查二:对该社区部分60周岁以上老年人(500名)的体重进行调查.

关于上述调查,下列说法正确的是()

A.调查一是普查,调查二是抽样调查

B.调查二中的总体是指该社区抽取的500名60周岁以上老年人的体重

C.调查二中的样本量是500

D.检测一批灯泡的寿命宜采用调查一的调查方式,以使收集的数据更精确

6.(23-24高二上·湖北武汉·期中)“知名雪糕31℃放1小时不化”事件曝光后,某市市场监管局从所管辖十

五中、十七中、常青一中三校周边超市在售的28种雪糕中抽取了18种雪糕,对其质量进行了检查.在这

个问题中,18是()

A.总体B.个体C.样本D.样本量

易错点02:求中位数、百分位数时忽略数据顺序

典例(2024·河南·统考模拟预测)样本数据16,24,14,10,20,30,12,14,40的中位数为()

A.14B.16C.18D.20

【答案】B

【分析】由中位数定义即可得.

【详解】将这些数据从小到大排列可得:10,12,14,14,16,20,24,30,40,

则其中位数为16.

故选:B.

【易错剖析】

本题求解时容易忽略讲数据从小到大排列而出错.

【避错攻略】

1.众数、中位数、平均数

(1)众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.

(2)中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的

平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.

xxx

(3)平均数:n个样本数据x,x,,x的平均数为x12n,反应一组数据的平均水平,公

12nn

n

式变形:.

xinx

i1

2.百分位数

0

(1)定义:一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p0的数据小于或等于

0

这个值,且至少有100p0的数据大于或等于这个值.

(2)计算一组n个数据的的第p百分位数的步骤

①按从小到大排列原始数据.

0

②计算inp0.

③若i不是整数而大于i的比邻整数j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为

第i项与第i1项数据的平均数.

(3)四分位数:我们之前学过的中位数,相当于是第50百分位数.在实际应用中,除了中位数外,常

用的分位数还有第25百分位数,第75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,

因此称为四分位数.

易错提醒:在求数据的中位数、百分数时,一定要先把数据从小到大排列,然后再根据中位数、百分数的

定义进行求解.

1.(2025高三上·四川眉山·阶段练习)假设有一组数据为,,,,,,,这些数据的众数与中位

数分别是()

A.5,6B.6,4C.6,5D.6,6

2.(24-25高三上·天津和平·期末)一组数据按从小到大的顺序排列为1,3,m,7,10,11,若该组数据

1

的中位数是这组数据极差的,则该组数据的第45百分位数是()

2

A.3B.4C.5D.7

3.(24-25高三上·山东淄博·期末)某校举行了交通安全知识主题演讲比赛,甲、乙两位同学演讲后,6位

评委对甲、乙的演讲分别进行打分(满分10分),得到如图所示的折线统计图,则()

A.若去掉最高分和最低分,则甲得分的中位数大于乙得分的中位数

B.甲得分的极差大于乙得分的极差

C.甲得分的上四分位数小于乙得分的上四分位数

D.甲得分的方差大于乙得分的方差

1.(2025高三·全国·专题练习)一组数据18,12,10,11,9,7,4,6,1,3的25%分位数是()

A.10B.12C.4D.3

2.(24-25高三上·广东茂名·阶段练习)四川耙耙柑以果肉饱满圆润,晶莹剔透等特点深受民众喜爱,某耙

耙柑果园的质检员对刚采摘下来的耙耙柑采用随机抽样的方式对成筐的耙耙柑进行质检,记录下了8筐耙

耙柑中残次品的个数为5,7,6,3,9,4,8,10,则该组样本数据的第30百分位数为()

A.5B.5.5C.6D.6.5

3.(24-25高三上·湖北十堰·期末)已知x0,且x,x1,x2,2x的中位数为1,则x()

123

A.B.C.1D.

332

4.(24-25高三上·天津红桥·期末)从某学校高二年级随机抽取10名学生进行数学能力测试,测试成绩为

68,81,79,81,90,86,74,84,69,78,设学生测试成绩的平均数,中位数,众数分别为a,b,c,则()

A.abcB.abc

C.abcD.bac

5.(2024高三·全国·专题练习)一组数据从小到大依次为3,5,6,7,8,9,m,10,11,13,且众数为9,

下列说法错误的是()

A.m9B.中位数为8.5C.平均数为8D.极差为10

6.(2024高三·全国·专题练习)(多选)有一组样本数据x1,x2,,x6,其中x1是最小值,x6是最大值,则()

A.x2,x3,x4,x5的平均数等于x1,x2,,x6的平均数

B.x2,x3,x4,x5的中位数等于x1,x2,,x6的中位数

C.x2,x3,x4,x5的标准差不小于x1,x2,,x6的标准差

D.x2,x3,x4,x5的极差不大于x1,x2,,x6的极差

7.(24-25高三上·江苏·阶段练习)(多选)有一组样本数据1,2,3,5,7,8,9,a,下列说法正确的是

()

A.若该组数据的平均数为a,则a5B.若该组数据的中位数为a,则a5

C.当a9时,该组数据的极差为8D.当a5时,该组数据的方差最小

8.(2025高三·全国·专题练习)(多选)2024年10月央行再次下调人民币存款利率,存款利率下调是为了

刺激经济增长、促进投资和消费而采取的一种货币政策.下表为某银行近年来几个时间发布的人民币一年定

期存款利率:

时间2018年4月2019年4月2020年4月2021年6月2022年9月2024年7月2024年10月

利率

1.351.501.751.751.551.351.10

/%

关于表中的7个数据,下列结论正确的是()

A.极差为0.25B.平均数不大于1.5

C.20%分位数与30%分位数相等D.中位数为1.75

易错点03:对频率分布直方图中的数据特征理解不透

典例(24-25高三上·广东汕头·期末)某市为修订用水政策,制定更合理的用水价格,随机抽取100户居民,

得到他们的月均用水量,并整理得如下频率分布直方图.根据直方图的数据信息,下列结论中正确的是()

A.100户居民的月均用水量的中位数大于7.2t

B.100户居民的月均用水量低于16.2t的用户所占比例超过90%

C.100户居民的月均用水量的极差介于21t与27t之间

D.100户居民的月均用水量的平均值介于16.2t与22.2t之间

【答案】C

【分析】首先根据频率分布直方图中所有小长方形的面积和为1求出b的值,再分别求出100户居民的月均

用水量的中位数,平均数,极差等即可判断.

【详解】由频率分布直方图可知,

0.0770.1070.0430.0300.0300.0170.0100.013b31,

19

解得b,

3000

对于A,月均用水量在1.2,4.2的频率为0.07730.2310.5,

月均用水量在1.2,7.2的频率为0.2310.10730.2310.3210.5520.5,

所以100户居民的月均用水量的中位数在4.2,7.2,故A错误;

对于B,因为100户居民的月均用水量低于16.2t的用户的频率为

0.0770.1070.0430.0300.03030.861,

所以100户居民的月均用水量低于16.2t的用户所占比例为86.1%,故B错误;

对于C,由图知,极差的最大值为28.21.227,最小值为25.24.221,

所以100户居民的月均用水量的极差介于21t与27t之间,故C正确;

对于D,100户居民的月均用水量的平均值为

0.0772.70.1075.70.0438.70.03011.70.03014.7

19

0.01717.70.01020.70.01323.726.738.907t,故D错误.

3000

故选:C.

【易错剖析】

本题在计算过程中容易对中位数、百分位数、众数、平均数估计值的计算公式理解不透彻而出错.

【避错攻略】

1、画频数分布直方图与频率分布直方图的步骤:

(1)找出最值,计算极差;

(2)合理分组,确定区间;

(3)整理数据;

(4)作出相关图示;

频数分布直方图纵坐标是频数,每一组数对应的矩形的高度与频数成正比

频率分布直方图纵坐标是频率/组距,每一组数对应的矩形高度与频率成正比,每个矩形的面积

等于这一组数对应的频率,所有矩形的面积之和为1

2、频率分布表与频率分布直方图的特点

频数分布表反映具体数据在各个不同区间的取值频率,但不直观,数据的总体态势不明显;频率分布

直方图能直观地表明数据分布的行状态势,但失去了原始数据。

3、频数分布折线图和频率分布折线图

把频数分布直方图和频率分布直方图中每个矩形上面一边的中点用线段连接起来。

为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的。

4.频率分布直方图中的统计参数

(1)频率分布直方图中的“众数”

根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用

中点近似代替.

(2)频率分布直方图中的“中位数”

根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.

因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.

(3)频率分布直方图中的“平均数”

平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分

布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.

易错提醒:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分

布直方图中:

(1)最高的小长方形底边中点的横坐标即是众数;

(2)中位数左边和右边的小长方形的面积和是相等的;

(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底

边中点的横坐标之和.

1.(2024高三·全国·专题练习)某校高三年级共800名学生,将其期中考试的数学成绩进行适当分组后,得

到频率分布直方图如图所示.若要从这800人中按分数从高到低录取72人组成数学兴趣小组,则录取分数

线估计为()

A.105分B.108分C.110分D.112.5分

2.(24-25高三上·四川成都·阶段练习)某校1000名学生参加环保知识竞赛,随机抽取了20名学生的考试

成绩(单位:分),成绩的频率分布直方图如图所示,则下列说法正确的是()

A.频率分布直方图中a的值为0.004

B.估计这20名学生考试成绩的平均数为76.5

C.估计这20名学生数学考试成绩的众数为80

D.估计总体中成绩落在60,70内的学生人数为150

3.(2024高三·全国·专题练习)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明

显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:

利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判

定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为p(c);误诊率是将未患病者判定为阳

性的概率,记为q(c).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.则当漏诊

率pc0.5%时,误诊率qc.

1.(24-25高三上·天津河西·期末)某中学组织高中学生参加数学知识竞赛,现从中随机抽取100名学生成

绩的频率分布直方图如图所示,则这组样本数据的70%分位数为()

A.85B.86C.87D.88

2.(24-25高三上·吉林长春·阶段练习)某市为了了解全市10万名高一学生的数学学习情况,抽取了该市某

个区的15000名学生进行数学能力测试(百分制),并将这些学生的成绩整理成如图所示的频率分布直方图、

根据频率分布直方图,下列说法正确的是()

A.图中a的值为0.15

B.估计样本数据的75%分位数为85

C.用样本可以估计全市高一学生数学能力测试不及格(低于60分)的人数为5000

D.用样本可以估计全市高一学生数学能力测试的平均分约为81.5分(同一组数据用该组区间的中点值

作代表)

3.(2024·重庆·模拟预测)(多选)国际学生评估项目测试是世界经济合作与发展组织对各国中学生阅读、

数学、科学能力评价测试.从2000年开始,每3年进行一次测试评估.在评估研究时将测试成绩按一定规则

转换成等级赋分,赋分范围是40至100分,如图是2024年的某地中学生参加阅读测试后用赋分数据绘制成

的不完整频率分布直方图.据图中数据,下面说法正确的是()

A.该地学生成绩的中位数一定大于75

B.该地学生成绩的众数介于70至80之间

C.该地学生成绩的极差介于40至60之间

D.该地学生成绩没有超过60分学生所占比例为30%

4.(24-25高三上·安徽·阶段练习)(多选)某超市随机抽取了当天100名顾客的消费金额作为样本,并分组

如下:[0,50),[50,100),[100,150),,[250,300](单位:元),得到如图所示的频率分布直方图,则下列说法

正确的是()

A.若该超市当天总共有600名顾客,则消费金额在[100,150)(单位:元)内的顾客约有180人

B.若每组数据以区间中点值为代表,则样本中消费金额的平均数是145元

C.若用样本估计总体,则该超市当天消费金额的中位数是100.8元

D.现从样本的第1,2组中用比例分配的分层随机抽样方法抽取6人,再从这6人中随机抽取2人做进

2

一步调查,则抽到的2人的消费金额都不少于50元的概率是

5

5.(24-25高三上·黑龙江牡丹江·阶段练习)(多选)某次物理考试后,为分析学生的学习情况,某校从某年

级中随机抽取了100名学生的成绩,整理得到如图所示的频率分布直方图.为进一步分析高分学生的成绩分

布情况,计算得到这100名学生中,成绩位于80,90内的学生成绩方差为12,成绩位于90,100内的同学成

绩方差为10.则()

A.a0.005

B.估计该年级成绩在80分及以上的学生成绩的平均数为86.50

C.估计该年级学生成绩的中位数约为76.14

D.估计该年级成绩在80分及以上的学生成绩的方差为30.25

6.(2024·四川成都·模拟预测)某校为了解高三学生身体素质情况,从某项体育测试成绩中随机抽取n个学

生的成绩进行分析,得到成绩频率分布直方图(如图所示),估计该校高三学生此项体育成绩的中位数

为.(结果保留整数)

7.(23-24高三上·北京石景山·期末)某学校从全校学生中随机抽取了50名学生作为样本进行数学知识测试,

记录他们的成绩,测试卷满分100分,将数据分成6组:[40,50),[50,60),[60,70),[70,80),[80,

90),[90,100],并整理得到如右频率分布直方图,则图中的t值为,若全校学生参加同样的测试,

估计全校学生的平均成绩为(每组成绩用中间值代替).

题型二:统计案例

易错点04:混淆相关关系和函数关系而出错

典例(24-25高三上·江西南昌·训练)对两变量间的关系,下列论述正确的是()

A.任何两个变量都具有相关关系

B.正方形的面积与该正方形的边长具有相关关系

C.农作物的产量与施化肥量之间是一种确定性关系

D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系

【答案】D

【分析】由两个变量之间相关关系与函数关系之间的定义及区别即可求解.

【详解】解:对A:当两个变量之间具有确定关系时,两个变量之间是函数关系,而不是相关关系,所以A

错误;

对B:正方形的面积与该正方形的边长之间是函数关系,所以B错误;

对C:农作物的产量与施化肥量之间是相关关系,是非确定性的关系,所以C错误;

对D:学生的数学成绩与物理成绩之间是相关关系,是非确定性的关系,所以D正确;

故选:D.

【易错剖析】

本题容易不能区分相关关系和函数关系的不同而出错.

【避错攻略】

1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系

称为相关关系.

2.相关关系的分类

(1)按变量间的增减性分为正相关和负相关.

①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;

②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.

(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).

①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量

线性相关;

②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或

曲线相关.

3.相关关系的直观表示

散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,

由这些点组成的统计图,叫做散点图.

易错提醒:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,

而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.

1.(24-25高二下·全国·课后作业)下列两个变量中,成正相关的两个变量是()

A.汽车自身的重量与行驶每公里的耗油量

B.正方形面积与边长

C.花费在体育活动上面的时间与期末考试数学成绩

D.期末考试随机编排的准考证号与期末考试成绩总分

2.(2024高三下·全国·专题练习)对于任意给定的两个变量的统计数据,下列说法正确的是()

A.一定可以分析出两个变量之间的关系

B.一定可以用一条直线近似地表示两者之间的关系

C.一定可以画出散点图

D.一定可以用确定的表达式表示两者之间的关系

3.(24-25高三·陕西商洛·阶段练习)如图是近十年来全国城镇人口、乡村人口的折线图(数据来自国家统

计局).

根据该折线图,下列说法错误的是()

A.城镇人口与年份呈现正相关B.乡村人口与年份的相关系数r接近1

C.城镇人口逐年增长率大致相同D.可预测乡村人口仍呈现下降趋势

1.(23-24高二上·上海·课后作业)两个变量x与y之间的回归方程()

A.表示x与y之间的函数关系;B.表示x与y之间的不确定关系;

C.反映x与y之间的真实关系;D.是反映x与y之间的真实关系的一种最佳拟合.

2.(24-25高二·四川成都·期中)下列两个量之间的关系是相关关系的是()

A.匀速直线运动中时间与位移的关系B.学生的成绩和身高

C.儿童的年龄与体重D.物体的体积和质量

3.下列关于回归分析与独立性检验的说法:①回归分析和独立性检验没有什么区别;②回归分析是对两个

变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系;③回归分析是研究两个变量之

间的相关关系,而独立性检验是对两个变量是否具有某种关系的一种检验;④独立性检验可以100%确定两

个变量之间是否具有某种关系.其中正确的是()

A.①②B.③C.③④D.①②③④

4.(24-25高三·上海·随堂练习)已知r1表示变量x与y之间的相关系数,r2表示变量u与v之间的相关系数,

且r10.836,r20.958,则()

A.变量x与y之间呈正相关关系,且x与y之间的相关性强于u与v之间的相关性

B.变量x与y之间呈负相关关系,且x与y之间的相关性强于u与v之间的相关性

C.变量u与v之间呈负相关关系,且x与y之间的相关性弱于u与v之间的相关性

D.变量u与v之间呈正相关关系,且x与y之间的相关性弱于u与v之间的相关性

5.(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是()

A.某商品的销售价格与销售量B.汽车匀速行驶时的路程与时间

C.气温与冷饮的销售量D.人的年龄与视力

6.(23-24高三下·天津·阶段练习)在一段时间内,分5次测得某种商品的价格x(万元)和需求量yt之

间的一组数据,绘制散点图如图所示,利用最小二乘法求得相应的经验回归方程为yˆ28.111.5x,根据上

述信息,如下判断正确的是()

价格x1.41.61.822.2

需求量y12107m3

A.商品的价格和需求量存在正相关关系B.y与x不具有线性相关关系

C.m6D.价格定为1.9万元,预测需求量大约为6.25t

易错点05:混淆回归直线与回归曲线而致错

典例(2025高三·全国·专题练习)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据

处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.

月份x12345

销售量y(万件)4.95.86.88.310.2

该公司为了预测未来几个月的销售量,建立了y关于x的回归模型:yˆuˆx2vˆ.

(1)根据所给数据与回归模型,求y关于x的回归方程(uˆ的值精确到0.1);

5y2

(2)已知该公司的月利润z(单位:万元)与x,y的关系为z24x,根据(1)的结果,问该公司

x

哪一个月的月利润预报值最大?

【答案】(1)yˆ0.2x25

(2)第9个月的月利润预报值最大.

【分析】(1)将非线性回归方程问题转化线性回归方程问题,根据最小二乘法求解即可.

(2)先求得z的表达式,然后利用导数来求得最值问题.

1491625

【详解】(1)令wx2,则w11,

5

4.95.86.88.310.2

y7.2,

5

5

wiwyiy

i1

uˆ5

2

wiw

i1

102.371.420.451.1143

22222

11141191116112511

81.1

0.2,vˆyuˆw7.20.2115,

374

所以y关于x的回归方程为yˆ0.2x25.

(2)由(1)知yˆ0.2x25,

2

5y250.2x52327

z24x24x24xx2,

xxx

327

令hx24xx2(x0),

x

3

123273x224x273x9x1

hxxx2(x0),

x222xx2xx

令,得0x9,单调递增,

令ℎ�>0,得x9,ℎ单�调递减,

令ℎh�x<00,得x9,ℎ�

327

所以hx24xx2(x0)在x9处取得极大值,也是最大值,

x

所以,

hxmaxh97227936

所以第9个月的月利润预报值最大.

【易错剖析】

求解本题失分的一个主要原因是错把回归曲线误认为是直线方程,二是在求解过程中计算失误.

【避错攻略】

1、两个变量的线性相关

(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们

将它称为正相关.

(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.

(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个

变量之间具有线性相关关系,这条直线叫做回归直线.

2、回归分析与回归方程

(1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法.

(2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.

(3)回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程ybxa

的求法为

nn

(xix)(yiy)xiyinxy

i1i1

bnn

222

(xix)xinx

i1i1

aybx

nn

其中,1,1,(,)称为样本点的中心.

xxiyyixy

ni1ni1

(3)相关系数

若相应于变量x的取值xi,变量y的观测值为yi(1in),

nn

(xix)(yiy)xiyinxy

则变量x与y的相关系数ri1i1,

nnnn

222222

(xix)(yiy)xinxyiny

i1i1i1i1

通常用r来衡量x与y之间的线性关系的强弱,r的范围为1r1.

①当r0时,表示两个变量正相关;当r0时,表示两个变量负相关.

②r越接近1,表示两个变量的线性相关性越强;r越接近0,表示两个变量间几乎不存在线性相关关

系.当|r|1时,所有数据点都在一条直线上.

③通常当r0.75时,认为两个变量具有很强的线性相关关系.

3、残差分析

对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减

yyiy

去预测值等于残差,称为相应于点的残差,即有.

eˆi(xi,yi)eˆiyiyˆi

残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是

否存在可疑数据等,这方面工作称为残差分析.

(1)残差图:通过残差分析,残差点xi,eˆi比较均匀地落在水平的带状区域中,说明选用的模型比较

合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.

n

()通过残差平方和2分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;

2Q(yiyˆi)

i1

反之,不合适.

n

2

(yiyˆi)

()相关指数:用相关指数来刻画回归的效果,其计算公式是:2i1.

3R1n

2

(yiy)

i1

R2越接近于1,说明残差的平方和越小,也表示回归的效果越好.

易错提醒:在求回归曲线方程时一定要先判断回归曲线类型,若是非直线方程,就要转化为回归直线方程

求解,在计算过程中要注意求回归系数的两个公式之间的相互转化.

常见的非线性回归模型:

(1)指数函数型ycax(a0且a1,c0)

两边取自然对数,lnylncax,即lnylncxlna,

ylny

令,原方程变为ylncxlna,然后按线性回归模型求出lna,lnc.

xx

(2)对数函数型yblnxa

yy

令,原方程变为ybxa,然后按线性回归模型求出b,a.

xlnx

(3)幂函数型yaxn

两边取常用对数,lgylgaxn,即lgynlgxlga,

ylgy

令,原方程变为ynxlga,然后按线性回归模型求出n,lga.

xlgx

(4)二次函数型ybx2a

yy

令2,原方程变为ybxa,然后按线性回归模型求出b,a.

xx

b

(5)反比例函数型ya型

x

yy

令1,原方程变为ybxa,然后按线性回归模型求出b,a.

x

x

1.(23-24高三上·广东广州·期中)某学校数学兴趣小组在探究姜撞奶随着时间变化的降温及凝固情况的数

c2xe

学建模活动中,将时间x分钟与温度y(摄氏度)的关系用模型yc1e(其中为自然对数的底数)拟合.

设zlny,变换后得到一组数据:

x22.533.54

z4.044.013.983.963.91

由上表可得线性回归方程z0.06xa,则c1等于()

A.-4B.e4C.4.16D.e4.16

2.(24-25高三上·广东江门·阶段练习)已知x,y之间的一组数据:若y与x满足经验回归方程yˆbˆxaˆ,

则此曲线必过点.

x14916

y12.985.017.01

3.(2024·陕西宝鸡·模拟预测)统计显示,我国在线直播生活购物用户规模近几年保持高速增长态势,下表

为2020年—2024年我国在线直播生活购物用户规模(单位:亿人),其中2020年—2024年对应的代码依次

为1—5.

年份代码x12345

市场规模y3.984.565.045.866.36

5

y5.16,v1.68,viyi45.10,其中vixi

i1

L

参考公式:对于一组数据v1,y1、v2,y2、、vn,yn,其经验回归直线ybva的斜率和截距的最小二

n

viyinvy

i1

乘估计公式分别为bn,a1.83.

22

vinv

i1

(1)由上表数据可知,若用函数模型ybxa拟合y与x的关系,请估计2028年我国在线直播生活购物用

户的规模(结果精确到0.01);

(2)已知我国在线直播生活购物用户选择在品牌官方直播间购物的概率P,现从我国在线直播购物用户中随

机抽取5人,记这5人中选择在品牌官方直播间购物的人数为X,若PX5PX4,求X的数学期

望和方差.

1.(23-24高三下·山东·开学考试)为研究某池塘中水生植物的覆盖水塘面积x(单位:dm2)与水生植物

的株数y(单位:株)之间的相关关系,收集了4组数据,用模型ycekx(c0)去拟合x与y的关系,设

zlny,x与z的数据如表格所示:得到x与z的线性回归方程zˆ1.2xaˆ,则c()

x3467

z22.54.57

A.-2B.-1C.e2D.e1

kx

2.(23-24高三上·内蒙古呼和浩特·期末)用模型yae拟合一组数据组xi,yii1,2,3,,7,其中

x1x2x714,设zlny,得变换后的线性回归方程为zx1,则y1y2y7()

A.e35B.e21C.35D.21

3.(23-24高二下·福建漳州·阶段练习)2024海峡两岸各民族欢度“三月三”暨福籽同心爱中华·福建省第十一

届“三月三”畲族文化节活动在宁德隆重开幕.海峡两岸各民族同胞齐聚于此,与当地群众共同欢庆“三月三”,

畅叙两岸情.在活动现场,为了解不同时段的入口游客人流量,从上午10点开始第一次向指挥中心反馈入

口人流量,以后每过一个小时反馈一次.指挥中心统计了前5次的数据i,yi,其中i1,2,3,4,5,yi为第i次

入口人流量数据(单位:百人),由此得到关于i的回归方程yˆblog2i15,bˆN*,已知y9,根

据回归方程(参考数据:log231.6,log252.3),可预测下午4点时入口游客的人流量为()

A.9.6B.11.0C.11.4D.12.0

4.(2024高三·全国·专题练习)(多选题)某个国家某种病毒传播的中期,感染人数y和时间x(单位:天)

在18天里的散点图如图所示,下面四个回归方程类型中有可能适宜作为感染人数y和时间x的回归方程类型

的是()

$x2

A.yabxB.yabeC.yablnxD.yabx

5.(23-24高三上·江西新余·期末)在新冠疫情政策改变后,某社区统计了核酸检测为阳性的人数,用x表

示天数,y表示每天核酸检测为阳性的人数,统计数据如下表所示:

x1234567

y611213466101196

根据散点图判断,核酸检测为阳性的人数y关于天数x的回归方程适合用ycdx来表示,则其回归方程

为.

77

10.52

参考数据:设vilgyi,vvi1.52,xivi49.56,103.31

7i1i1

参考公式:对于一组数据u1,v1,u2,v2,…un,vn.其回归直线vu的斜率和截距的最小二乘估计

n

uivinuv

i1

公式分别为:n,vu

22

uinu

i1

6.(24-25高三上·福建泉州·阶段练习)一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了该

种药用昆虫的6组观测数据如下表:

温度x/C212324272932

产卵数y/个61120275777

66666

1122

经计算得:xxi26,yyi33,xixyiy557,xix84,yiy3930,线性回

6i16i1i1i1i1

6

28.0605

归模型的残差平方和yiyˆi236.64,e3167,其中xi,yi分别为观测数据中的温差和产卵数,

i1

i1,2,3,4,5,6.

(1)若用线性回归方程,求y关于x的回归方程yˆbˆxaˆ(精确到0.1);

(2)若用非线性回归模型求得y关于x回归方程为yˆ0.06e0.2303x,且相关指数R20.9522.

(i)试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好.

(ii)用拟合效果好的模型预测温度为35C时该种药用昆虫的产卵数(结果取整数).

ˆ

附:一组数据x1,y1,x2,y2,,xn,yn,其回归直线yˆbxaˆ的斜率和截距的最小二乘估计为

n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论