统计与概率(原卷版)-高考数学总复习总结归纳集锦专题资料_第1页
统计与概率(原卷版)-高考数学总复习总结归纳集锦专题资料_第2页
统计与概率(原卷版)-高考数学总复习总结归纳集锦专题资料_第3页
统计与概率(原卷版)-高考数学总复习总结归纳集锦专题资料_第4页
统计与概率(原卷版)-高考数学总复习总结归纳集锦专题资料_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题06计数原理与概率统计

3.统计与概率

【高考真题】

1.(2022・新高考全国I卷)从2至8的7个整数中随机取2个不同的数,则这2个数互质

的概率为()

2.(2020♦新高考全国II卷)某中学的学生积极参加体育锻炼,其中有96%的学生喜欢足球

或游泳,60%的学生喜欢足球,82%的学生喜欢游泳,则该中学既喜欢足球又喜欢游泳的学

生数占该校学生总数的比例是()

A.62%B.56%C.46%D.42%

3.(2022•全国乙卷文数)分别统计了甲、乙两位同学16周的各周课外体育运动时长(单位:

h),得如下茎叶图:

甲乙

615

853063

7532746

6421812256666

90238

10

则下列结论中错误的是()

A.甲同学周课外体育运动时长的样本中位数为7.4

B.乙同学周课外体育运动时长的样本平均数大于8

C.甲同学周课外体育运动时长大于8的概率的估计值大于0.4

D.乙同学周课外体育运动时长大于8的概率的估计值大于0.6

4.(2022•全国乙卷理数)某棋手与甲、乙、丙三位棋手各比赛一盘,各盘比赛结果相互独

立.已知该棋手与甲、乙、丙比赛获胜的概率分别为月,〃2,〃3,且生>〃2>网>0.记该棋

手连胜两盘的概率为P,则()

A.〃与该棋手和甲、乙、丙的比赛次序无关

B.该机手在第二盘与甲比赛,〃最大

C.该棋手在第二盘与乙比赛,〃最大

D.该棋手在第二盘与丙比赛,〃最大

5.(2022.全国甲卷文/理数)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解

讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各问答一份垃圾分类知识问

卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:

95%

90%

井85%

落80%今讲座座

75%•讲座后

70%

65%

居民编号

则()

A.讲座前问卷答题的正确率的中位数小于70%

B.讲座后问卷答题的正确率的平均数大于85%

C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差

D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差

6.(2022•全国甲卷文数)从分别写有I,2,3,4,5,6的6张卡片中无放回随机抽取2张,

则抽到的2张卡片上的数字之积是4的倍数的概率为()

7.(2021•全国乙卷文数)在区间随机取I个数,则取到的数小于;的概率为()

32

A.B.

436

8.(2021•全国甲卷文/理数)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调

查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:

A.该地农户家庭年收入低于4.5万元的农户比率估计为6%

B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%

C.估计该地农户家庭年收入的平均值不超过6.5万元

D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间

9.(2021•全国甲卷文/理数)将3个1和2个0随机排成一行,则2个0不相邻的概率为()

A.0.3B.0.5C.0.6D.0.8

10.(2020•全国I卷文数)设。为正方形A8C。的中心,在。,4,B,C,。中任取3点,

则取到的3点共线的概率为()

11.(2019.全国I卷文数)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,一,

1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验,若46号学生被抽

到,则下面4名学生中被抽到的是()

A.8号学生B.200号学生C.616号学生D.815号学生

12.(2019•全国•高考真题)生物实验室有5只兔子,其中只有3只测量过某项指标,若从这

5只兔子中随机取出3只,则恰有2只测量过该指标的概率为()

13.(2019.全国n卷理数)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手

的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评

分与9个原始评分相比,不变的数字特征是()

A.中位数B,平均数C.方差D.极差

14.(2019•全国III卷文/理数)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文

学瑰宝,并称为中国占典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机

调查了100学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》

的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过

《西游记》的学生人数与该校学生总数比值的估计值为()

A.0.5B.0.6C.0.7D.0.8

15.(2020•全国HI卷文数)设一组样本数据为,必,…%的方差为0.01,则数据10x7,10x2,...,

10%的方差为()

A.0.01B.0.1C.1D.10

16.(2020•全国HI卷理数)在一组样本数据中,1,2,3,4出现的频率分别为外〃2,〃3,几,

且则下面四种情形中,对应样本的标准差最大的一组是()

/=|

A.P\=PA=0.1,p2=p?=0.4B.Pi=p&=0.4,p2=0=0.1

C.P\=PA=0.2,p2=py=0.3D.Pi=p4=0.3,p2=py=0.2

17.(2021・新高考全国I卷)(多选)有一组样本数据为,々,…,马,由这组数据得到新

样本数据X,%,…,8,其中y=玉+。(,=1,2,为非零常数,则()

A.两组样本数据的样本平均数相同

B.两组样本数据的样本中位数相同

C.两组样本数据的样本标准差相同

D.两组样本数据的样本极差相同

18.(2021.新高考全国II卷)(多选)下列统计量中,能度量样本/W,•,士的离散程度的

是()

A.样本司,々,,%的标准差B.样本%,七,、%的中位数

C.样本内,勺,%的极差D.样本.卬声,,与的平均数

19.(2020.新高考全国H卷)(多选)我国新冠肺炎疫情进入常态化,各地有序推进复工复

产,下面是某地连续11天复工复产指数折线图,下列说法正确的是

A.这11天亚工指数和亚产指数均逐口增加;

B.这11天期间,复产指数增量大于复工指数的增量;

C.第3天至笫11天复工受产指数均超过80%;

D.第9天至第11天亚产指数增量大于发工指数的增量;

20.(2022•全国乙卷文/理数)从甲、乙等5名同学中随机选3名参加社区服务工作,则甲、

乙都入选的概率为.

21.(2019•全国II卷理数)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车

中,有10个车次的正点率为097,有20个车次的正点率为0.98,有10个车次的正点率为

0.99,则经停该站高铁列车所有车次的平均正点率的估计值为.

22.(2022・新高考全国I卷)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习

惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100

例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如卜

数据:

不够良好良好

病例组4060

对照组1090

(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异

(2)从该地的人群中任选一人,人表示事件“选到的人卫生习惯不够良好”,A表示事件“选到

的人患有该疾病”.普得与盟义的比值是卫生习喷不够良好对患该疾病风险程度的

一项度量指标,记该指标为R.

㈠)证明:

P(A|P(4|8)

(ii)利用该调查数据,给出P(A|8),P(4]田的估计值,并利用(i)的结果给出R的估

计值.

n(ad-he)2

附K?=

(a+b)(c+d)(n+c'\(b+d)

P(K2>k]0.0500.0100.001

k3.8416.63510.828

23.(2022・新高考全国II卷)在某地区进行流行病学调查,随机调查了100位某种疾病患者

的年龄,得到如卜的样本数据的频率分布直方图:

姨率/祖曲

(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);

⑵估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率;

(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人

II的16%.从该地区中任选一人,若此人的年龄位于区间[40,50),求此人患这种疾病的概

率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确

到0.0001).

24.(2020・新高考全国I/II卷)为加强环境保护,治理空气污染,环境监测部门对某市空气

J

质量进行调研,随机抽杳了100天空气中的PM2.5和SO2浓度(单位:Mg/m),得下表:

[0,50](50,150](150,475]

[0.35]32184

(35.75]6812

(75.115]3710

(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO?浓度不超过150”的概率;

(2)根据所给数据,完成下面的2x2列联表:

SO:

[0,150](150.475]

[0.75]

(75,115]

(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO?

浓度有关?

n(ad-hc)2

附:K'=

m+b)(c+d)(〃+c)(b+d)'

P(K2>k)0.0500.0100.001

k3.8416.63510.828

25.(2022•全国乙卷文/理数)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估

计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单

位:nr)和材积量(单位:mD,得到如下数据:

样本号i12345678910总和

根部横截面积10.040.060.040.080.080.050.050.070.070.060.6

材积量升0.250.400.220.540.510.340.360.460.420.403.9

101010

并计算得»;=0.038,ZW=L6158.,>j=0.2474.

(I)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积显;

(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);

(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总

和为186m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这

种树木的总材积量的估计值.

附:相关系数「=,71.896«1.377.

后,一鸣

26.(2022.全国甲卷文数)甲、乙两城之间的长途客车均由4和8两家公司运营,为了解这

两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:

准点班次数未准点班次数

A24020

B21030

(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;

(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?

2

2二”(ad-be)

:—(a+b)(c+d)(a+c)(〃+d)'

P(K2..k)0.1000.0500010

k2.7063.8416635

27.(2021•全国乙卷文/理数)某厂研制了一种生产高精产品的设备,为检验新设备生产产品

的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项

指标数据如下:

旧设备9.810.310.010.29.99.810.010.110.29.7

新设备10.110.410.110.010.110.310.610.510.410.5

旧设备和新设备生产产品的该项指标的样本平均数分别记为最和3,样本方差分别记为和

5

5;.

⑴求x,y,,《;

(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果

予一?22、区土£,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不

V10

认为有显著提高).

28.(2021•全国甲卷文/理数)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级

品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况

统计如卜,表:

一级品二级品合计

甲机床15050200

乙机床12080200

合计270130400

(1)甲机床、乙机床生产的产品中一•级品的频率分别是多少?

(2)能否有99%的把握认为甲机床的产品质最与乙机床的产品质量有差异?

n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

P(K2>k)0.0500.0100.001

k3.8416.63510.828

29.(2020•全国n卷文/理数)某沙漠地区经过治理,生态系统得到很大改善,野生动物数

量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些

地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据**y/)(/=l,2,…,

20),其中xi和),i分别表示第/个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,

20阳202(1

并计算得之为=60,£>=120(),£(七一君2=80,2(力一刃2=9000,

c=l;=11=1T

20

X(x;-I)(j;-7)=800.

r=l

(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生

动物数量的平均数乘以地块数);

(2)求样本(xi,yi)(i=\,2,20)的相关系数(精确到0.01);

(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地

区这种野生动物数最更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.

附:相关系数l“,&=1.414.

30.(2020.全国III卷文/理数)某学生兴趣小组随机调查了某市100天中每天的空气质量等

级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):

锻炼人次

[0,200](200,400](400,600]

空气质量等级

1(优)21625

2(良)51012

3(轻度污染)678

4(中度污染)720

(I)分别估计该市一天的空气质量等级为I,2,3,4的概率;

(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为

代表);

(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3

或4,则称这天“空气质量不好”.根据所给数据,完成下面的2x2列联表,并根据列联表,

判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?

人次“00人次>400

空气质量好

空气质量不好

n(aci-bc)2

(a+b)(c+d)(a+c)(b+d)

P(K2>k)0.0500.0100.001

k3.8416.63510.828

31.(2019・全国I卷文数)某商场为提高服劣质品:,随机调查了50名男顾客和50名女顾客,

每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:

满意不满意

男顾客401()

女顾客3020

(1)分别估计男、女顾客对该商场服务满意的概率;

(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?

附:心…黑渭:…

P(K2>k)0.0500.0100.001

k3.8416.63510.828

32.(2019.全国H卷文数)某行业主管部门为了解本行业中小企业的生产情况,随机调查了

100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.

)'的分组[-0.20,0)[0,0.20)10.20,0.40)[0.40,0.60)[0.60.0.80)

企业数22453147

(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;

(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中

点值为代表).

(精确到0.01)

附:V748.602.

33.(2019•全国n卷理数)II分制乒乓球比赛,每赢一球得1分,当某局打成10:10平后,

每球交换发球权,先多得2分的一方获胜,该局比赛结束.甲、乙两位同学进行单打比赛,

假设甲发球时甲得分的概率为05乙发球时甲得分的概率为04各球的结果相互独立.在

某局双方10:10平后,甲先发球,两人又打了X个球该局比赛结束.

(1)求P(X=2);

(2)求事件“X=4且甲获胜”的概率.

34.(2019•全国HI卷文/理数)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试

验:将200只小鼠随机分成AA两组,每组100只,其中A组小鼠给服甲离子溶液,A组小

鼠给服乙离了•溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科

学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:

20

O.150.20

O6.100.15

05b

O.0.05

L52.53.54.55.56.57.5百分比02.53.54.55.56.57.58.5百分比

甲离子残留百分比直方图乙离子残留百分比直方图

记。为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为

0.70.

(1)求乙离子残留百分比直方图中。力的值;

(2)分别估计甲、乙高子残留百分比的平均值(同一组中的数据用该组区间的中点值为代

表).

【基础知识】

1.事件的分类

(1)随机事件

一般地,随机试验中的每个随机事件都可以用这个试验的样本空间的子集来表示.为了叙述

方便,我们将样本空间门的于集称为随机事件,简称事件,并把只包含一个样本点的事件

称为基本事件.随机事件一般用大写字母A,B,。…表示.在每次试验中,当且仅当A中

某个样本点出现时,称为事件A发生.

(2)必然事件

。作为自身的子集,包含了所有的样本点,在每次试验中总有一个样本点发生,所以。总

会发生,我们称。为必然事件.

(3)不可能事件

空集0不包含任何样本点,在每次试验中都不会发生,我们称0为不可能事件.

2.两个事件的关系和运算

事件的关系或运算含义符号表示图形表示

包含A发生(导致)8发生AQB

并事件(和事件)A与4至少一个发生AU8或A+8

交事件(积事件)A与B同时发生AG8或A81㈣

互斥(互不相容)A与B不能同时发生AD8=0④簿

互为对立A与8有且仅有一个发生AQB=0,AUB=QL®i

3.频率与概率

(1)事件的概率

对随机事件发生可能性大小的度量(数值)称为事件的概率,事件人的概率用P(A)表示.

(2)频率的稳定性

一般地,随着试验次数〃的增大,频率偏离概率的幅度会创1,即事件A发生的频率加A)

会逐渐稳定于事件A发生的概率P(A).我们称频率的这个性质为频率的稳定性.囚此,我

们可以用频率〃㈤估计概率P(A).

⑶频率与概率的区别

本身是随机的,在试验之前是无法确定的,在相同的条件下做同样次

频率

数的重复试验,得到的事件的频率值也可能会不同

概率本身是一个在内的确定值,不随试验结果的改变而改变

4.古典概型

具有以下特征的试验叫做古典概型试验,其数学模型称为古典概率模型,简称古典概型.

(1)有限性:样本空间的样本点只有有限个;

(2)等可能性:每个样本点发生的可能性相等.

5.古典概型的概率公式

一般地,设试验E是古典概型,样本空间。包含〃个样本点,事件A包含其中的&个样本

点,则定义事件A的概率户5)=)=嗯.其中,"(A)和〃(。)分别表示事件A和样本空间

。包含的样本点个数.

6.概率的性质

性质1:对任意的事件4.都有'04P(A)Wl:

性质2:必然事件的概率为1,不可能事件的概率为0,即P(Q)=I,P(0)=O:

性质3:如果事件A与事件8互斥,那么尸(AU8)=尸(A)+P(B);

性质4:如果事件A与事件8互为对立事件,那么P(8)=1—P(A),P(4)=l—P(8);

性质5:如果AG8,那么P(A)WP(B),由该性质可得,对于任意事件A,因为0QAGQ,

所以0WP(A)WL

性质6:设A,B是一个随机试验中的两个事件,有P(AU/3)=P(A)+P(B)—P(An4).

7.简单随机抽样

(1)简单随机抽样

分为放回简单随机抽样和不放回简单随机抽样.除非特殊声明,本章简单随机抽样指不放回

简单随机抽样.

(2)简单随机样本

通过简单随机抽样获得的样本称为简单随机样本.

(3)简单随机抽样的常用方法

实现简单随机抽样的方法很多,抽签法和随机数法是比较常用的两种方法.

8.总体平均数与样本平均数

名称定义

总体均值一般地,总体中有N个个体,它们的变量值分别为匕,丫2,…,YN,

(总体平均数)

则称了+与…+夫==力匕为总体均值,又称总体平均数.

/>1

如果总体的N个变量值中,不同的值共有如IWN)个,不妨记为H,打,…,Yk,

其中匕出现的频数/(i=l,2,…,A),则总体均值还可以写成加权平均数的形式

下=培”.

如果从总体中抽取一个容量为〃的样本,它们的变量侑分别为T,",…,如,

样本均值

(样本平均数)则称亍二””;…+刃4fx-为样本均值,又称样本平均数.

1=1

说明:(1)在简单随机抽样中,我们常用样本平均数),去估计总体平均数y;

(2)总体平均数是一个确定的数,样本平均数具有随机性(因为样本具有随机性);

(3)一般情况下,样本量越大,估计越准确

9.分层随机抽样

(1)分层随机抽样的概念

一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,

在每个子总体中独立地进行简单随机抽样,再把所有子忘体中抽取的样本合在一起作为总样

本,这样的抽样方法称为分层随机抽样,每•个子总体称为层.

(2)分层随机抽样的平均数计算

在分层随机抽样中,以层数是2层为例,如果第1层和第2层包含的个体数分别为M和M

抽取的样本量分别为〃?和〃,第1层和第2层的样本平均数分别为;,7,样本平均数为高,

mn—M-।N-m-n-

'WM+N"M+N)阳,

我们可■以用样本平均数刀估计总体平均数屈.

10.统计图表

⑴常见的统计图表有条形图、扇形图、折线图、频数分布直方图、频率分布直方图等.

(2)频率分布表、频率分布直方图的制作步骤及意义

11.百分位数

(1仃分位数定义:一般地,一组数据的第〃百分位数是这样一个值,它使得这组数据中至少

有〃%的数据小于或等于这个值,

且至少有(100-p)%的数据大于或等于这个值.

(才I■算一组〃个数据的第尸百分位数的一般步骤如下:

第1步,按从小到大排列原始数据:

第2步,计算t=〃Xp%;

第3步,若,・不是整数,而大于i的比邻整数为J,则第〃百分位数为第/项数据;若,•是整

数,则第p百分位数为第,•项与第(i+1)项数据的平均数.

12.平均数、中位数和众数

名称概念

如果有〃个数r,也,…,山,那么…+右)就是这组数据

平均数

的平均数,用;表示,即7=53+x2+…+4).

将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个

中位数数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数

是偶数时)叫做这组数据的中位数.

一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)

众数

叫做这组数据的众数.

(1)众数、中位数、平均数的应用要点

中位数、众数分别反映了一组数据的“中等水平”“多数水平”,平均数反映了数据的平均

水平,我们需根据实际需要选择使用.

(2)频率分布直方图的数字特征

①众数:众数一般用频率分布表中频率最高的一组的组中值来表示,即在样本数据的频率分

布直方图中,最高小长方膨的底边中点的横坐标;

②中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等;

③平均数:平均数在频率分布表中等于组中值与对应频率之积的和.

13.方差和标准差

假设一组数据是.,M,…,%,用;表示这组数据的平均数,则这组数据的方差为

S?W(x,一寸.

〃1=1

这组数据的标准差为s=.

14.总体(样本)方差和总体标准差

(I)一般式:如果总体中所有个体的变量值分别为匕,匕,…,为,总体平均数为了,

则总体方差§2二肾(1斤

N/=1

⑵加权式:如果总体的N个变量值中,不同的值共有如tWN)个,不妨记为H,匕,…,匕,

其中匕出现的频数为例=1,2,…,狂则总体方差:S2=\Z£(Z-W.总体标准差:

/丫1=1

S=G

如果一个样本中个体的变量值分别为y,样本平均数为亍,则称

S、,汽(乂一?为样本方差,s=正为样本标准差.

n»=i

15.变量的相关关系

(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程

度,这种关系称为相关关系.

(2)相关关系的分类:正相关和负相关.

(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线

附近,我们称这两个变量线性相关.

16.样本相关系数

(2)当/>0时,成对样本数据正相关;当Z0时,成对样本数据负相关.

(3)H<I;当m越接近1时,成对样本数据的线性相关程度越强;当m越接近。时,成对样本

数据的线性相关程度越弱.

17.一元线性回归模型

⑴我们将;=晨+联称为丫关于x的经验同归方程,

3_

b=~^---------------=--------------------,a=y-bx

r=l»=1

⑵残差:观测值减去预测值,称为残差.

18.列联表与独立性检验

⑴关于分类变量X和y的抽样数据的2X2列联表:

Y

X合计

Y=0Y=\

x=oaba+b

X=1cdc+d

合计n+cb+d〃=a+b+c+d

⑵计算随机变量/=汨而鬻潦需而,利用Z2的取值推断分类变量X和y是否独

立的方法称为Z2独立性检验.

(3)独立性检验的一般步骤

①艮据样本数据制成2X2列联表.

②艮据公式%=(上"吧二%,L/计算•

J人(a+/?)(«+c)(b+a)(c+d)

③匕较Z2与临界值的大小关系,作统计推断.

【题型方法】

一、随机抽样

1.某中学有高中生3500人,初中生1500人,为了解学生的学习情况,用分层抽样的方法

从该校学生中抽取一个容量为〃的样本,己知从高中生中抽取70人,则〃为()

A.100B.150

C.200D.250

2.某班对八校联考成绩进行分析,利用随机数表法抽取样本时,先将60个同学按01,02,03,…,

60进行编号,然后从随机数表第9行第5列的数开始向右读,则选出的第6个个体是()

(注:下表为随机数表的第8行和第9行)

63016378591695SS67199810SO]

717512867358074439523879J第8行

33211234297864560782S24207

443815510013429966027954第9行

A.07B.25C.42D.52

3.某单位有360名职工,现采用系统抽样方法,抽取20人做问卷调查,将360人按1,2,...,

360随机编号,则抽取的20人中,编号落入区间[181,288]的人数为.

二、用样本估计总体

1.若样本4+芭/+冷•・,〃+%的平均值是5,方差是3,样本1+2引」+2W,…1+24的平

均值是9,标准差是江则()

A.a=T,b=痴B.a=2,b=V6C.a=2,/,=3D.a=l,b=26

2.2022年北京冬季奥运会中国体育代表团共收获9金4银2铜,金牌数和奖牌数均创历史

新高.获得的9枚金牌中,5枚来自雪上项目,4枚来自冰上项目.某体育院校随机调查了

100名学生冬奥会期间观看雪上项目和冰上项目的时间长度(单位:小时),并按[040],

(10,20],(20,30],(30,40],(40,50]分组,分别得到频率分布直方图如卜.:

估计该体育院校学生观看雪上项目和冰上项目的时间长度的第75百分位数分别是X、和々,

方差分别是s:和门,则()

A.>x2,s;>s;B.x,>x2,C.X)<x2,D.<x2,s;<s;

3.新冠肺炎疫情的发生,我国的三大产业均受到不同程度的影响,其中第三产业中的各个

行业都面临着很大的营收压力.2020年7月国家统计局发布了我国上半年国内经济数据,如

图所示:图1为国内三大产业比重,图2为第三产业中冬行业比重.

6%

以下关于我国上半年经济数据的说法正确的是()

A.第一产业的生产总值与第三产业中“租赁和商务服务业”的生产总值基本持平

B.第一产业的生产总值超过第三产业中“房地产业”的生产总值

C.若“住宿餐饮业”生产总值为7500亿元,贝『'金融业”生产总值为32500亿元

D.若“金融业”生产总值为41040亿元,则第二产业生产总值为166500亿元

三、古典概型

1.某兴趣小组有5名学生,其中有3名男生和2名女生,现在要从这5名学生中任选2名

学生参加活动,则选中的2名学生的性别相同的概率是()

2.我国数学家陈景润在哥德巴赫猜想的研究中取得了世界领先的成果.哥德巴赫猜想是“每

个大于2的偶数可以表示为两个素数的和“,如30=7+23.在不超过30的素数中,随机选

取两个不同的数,其和等于30的概率是()

3.从分别写有123,4,5的5张卡片中随机抽取1张,放回后再随机抽取1张,则抽得的第一

张卡片上的数大于第二张卡片上的数的概率为()

四、变量间的相关关系

1.已知变量工与),正相关,且由观测数据算得样本平均数彳=3,予=3.5,则由观测的数据得

到的线性回归方程可能为()

A.y=-0.3x4-4.4B.y=2x-2.4C.y=-2x+9.5D.y=0.4x+2.3

2.某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价M元)

A.变量x,y线性负相关且相关性较强;B.§=40;

C.当%=8.5时,y的估计值为12.8;D.相应于点(1056)的残差为0.4.

3.某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单

位:厘米),下左图为选取的15名志愿者身高与臂展的折线图,下右图为身高马臂展所对应

的散点图,并求得其回归方程为y=L16x-30.75,以下结论中正确的为()

竹展

A.15名志愿者身高的极差大于臂展的极差

B.身高相差10厘米的两人臂展都相差11.6厘米

C.身高为190厘米的人臂展一定为189.65厘米

D.15名志愿者身高和臂展成正相关关系

五、回归分析

1.根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手

段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播

放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种

率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村20()名居

民(未接种)5天内每天新接种疫苗的情况,得如下统计表:

第X天12345

新接种人数)'1015192328

(1)建立y关于%的线性回归方程;

(2)预测该村80%居民接种新冠疫苗需要几天?

^x^-nxy

参考公式:回归方程辛=加+》中斜率和截距的最小二乘估计公式分别为:卜=弋——

nx

4—c・

6=y-vx-

2.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.

'

■△

3

!a?

3

*

*T

«

1

HOX

ii:年份代7分》1时应隼份2OOI-2Q14.

(I)由折线图看出,可用线性回归模型拟合),与/的关系,请用相关系数加以说明:

(II)建立),关于,的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处埋

量.

附注:

参考数据:£y=9.32,=40.17,

1=1r=l

jg(Z-y)2=0.55,V7=2.646.

力也-,)(%-')

参考公式:相关系数r=

-74()厂刃2

1-1

Z(%-7)(》-历

回归方程),=a+从中斜率和截距的最小二乘估计公式分别为:b=J----------

;=|

a=y-bt.

3.某电器企业统计了近10年的年利润额)’(千万元)与投入的年广告费用X(十万元)的

相关数据,散点图如图,对数据作出如下处理:令/=山西.,匕=lny,得到相关数据如表

所示:

10101010

%Z匕

r-11=1=11=1

30.5151546.5

年利涧靓千万元

10

8

6

O]246810121416182022242628的年广告费用/卜万元

(I)从①y=〃X+4;②),=〃?♦/(〃7>0,k>0);③),=以2+公+6三个函数中选择一个作为

年广告费用X和年利润额>'的回归类型,判断哪个类型符合,不必说明理由;

(2)根据(I)中选择的回归类型,求出》与尤的回归方程:

(3)预计要使年利润额突破I亿,下一年应至少投入多少广告费用?(结果保留到万元)

参考数据:—«3.6788,3.67883®49.787

e

》仍一闷

参考公式:回归方程6=加+4中斜率和截距的最小二乘估计公式分别为/;=三--------

1=1

六、独立性检验

1.2020年是决胜全面建成小康社会、决战脱贫攻坚之年,面对新冠肺炎疫情和严重洪涝灾

害的考验.党中央坚定如期完成脱贫攻坚H标决心不动摇,全党全社会戮力同心真抓实干,

取得了积极成效.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,己知土地

的使用面积X与相应的管理时间y的关系如下表所示:

土地使用面积X(单位:亩)12345

管理时间)'(单位:月)811142423

并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示;

愿意参与管理不愿意参与管理

男性村民14060

女性村民40

(1)做出散点图,判断土地使用面积X与管理时间y是否线性相关;并根据相关系数「说明

相关关系的强弱.(若M20.75,认为两个变量有很强的线性相关性,「值精确到0.001).

参考公式:,=、

,/女j可孙")一

参考数据:y=16,J;(y-y)2=206,4^5«22.7

(2)完成以下2x2列联表,并判断是否有99.9%的把握认为该村的村民的性别与参与管理

意愿有关.

愿意参与管理不愿意参与管理合计

男性村民14060

女性村民40

2n(ad-bc)2

K~=------———~---------------,n=a+b+c+d

(a+b)(c+d)(a+c)(b+d)

可尸之仆)0.0500.0100.001

k。3.8416.63510.828

2.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100

个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:

(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;

(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:

箱产量V50kg箱产量250kg

旧养殖法

新养殖法

(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较.附:

P(K2>k)0.0500.0100.001

k3.8416.63510.828

n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

3.为确保我国如期全面建成小康社会,实现笫一个百年奋斗目标打下了坚实的基础.在产

业扶贫政策的大力支持下,某玩具厂对原有的生产线进行技术升级,为了更好地对比升级前

和升级后的效果,其中甲生产线继续使用旧的生产模式,乙生产线采用新的生产模式.质检

部门随机抽检了甲、乙两条生产线的各100件玩具,在抽取的200件玩具中,根据检测结果

将它们分为"8”、三个等级,A8等级都是合格品,C等级是次品,统计结果如表

所示:

等级ABC

频数1007525

(表二)

合格品次品合计

甲80

乙5

合计

在相关政策扶持下,确保每件合格品都有对II销售渠道,但从安全起见,所有的次品必须由

厂家自行销毁.

(1)请根据所提供的数据,完成上面的2x2列联表(表二),并判断是否有99.5%的把握认

为产品的合格率与技术升级有关?

(2)每件玩具的生产成本为20元,等级产品的出厂单价分别为川元、40元.若甲生

产线抽检的玩具中有35件为A等级,用样本的频率估计概率,若进行技术升级后,平均生

产一件玩具比技术升级前多盈利12元,则A等级产品的出产单价为多少元?

加k2n(ad-bc)2

附:K=-----------------,其中”=〃+Z?+c+".

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论