版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3节成对数据的统计分析
考试要求1.了解样本相关系数的统计含义2了解一元线性回归模型和2X2列
联表,会运用这些方法解决简单的实际问题.3.会利用统计软件进行数据分析.
知识诊断,基础夯实
知识梳理
1.变量的相关关系
(1)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,
这种关系称为相关关系.
⑵相关关系的分类:正相关和负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,
我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量
非线性相关或曲线相关.
2.样本相关系数
⑴相关系数,•的计算
变量x和变量y的样本相关系数,•的计算公式如工:
n
7)(^,—7)
/=!
(2)相关系数,•的性质
①当,>0时,称成对样本数据正相关;当时,成对样本数据鱼相关;当〃=0
时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为「一1,11.
当团越接近1时,成对样本数据的线性相关程度越强;
当忻越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)经验回归方程与最小二乘法
我们将;,=£+:称为y关于%的经验回归方程,也称经验回归函数或经验回归公
式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求
得的儿。叫做小。的最小二乘估计,
其中
X(J-.一3)(匕—~y)一〃~I~y
X(J*,—.r)■£?:)ix2
/-=1r-i
a=y-I)x,
(2)利用决定系数&2刻画回归效果
士('f)2
R2=1--.........
n/—、2
一"一”,R2越大,即拟合效果越好,R?越小,模型拟合效果越差.
4.列联表与独立性检验
⑴2X2列联表
一般地,假设有两个分类变量X和匕它们的取值分别为{“,X2)和户},其
2X2列联表为
y
X合计
y=y\y="
x=x\aba+b
X=X1cdc+d
合计a+cb-\-dn=a-\-b-\rc~\rd
(2)临界值
〃(cid—be)"
2
/=(W(一一忽略Z的实际分布与该近似分布的误
A(c+d)(a+c)(/?+人
差后,对于任何小概率值蜃可以找到相应的正实数后,使得夕(/2兄)=。成立.
我们称心为«的临界值,这个临界值就可作为判断“2大小的标准.
(3)独立性检验
基于小概率值Q的检验规则是:
当/2此时,我们就推断“0不成立,即认为x和y不独立,该推断犯错误为概
率不超过a;
当/〈此时,我们没有充分证据推断“。不成立,可以认为x和y独立.
这种利用Z2的取值推断分类变量X和y是否独立的方法称为/独立性检验,读
作“卡方独立性检验”,简称独立性检验.
下表给出了z2独立性检验中几个常用的小概率值和相应的临界值
a0.10.050.010.0050.001
Xa2.7063.8416.6357.87910.828
常用结论
1.求解经验回归方程的关键是确定回归系数;应充分利用回归直线过样本点
的中心(x,y).
2.根据经验回归方程计算的;,值,仅是一个预报值,不是真实发生的值.
3.根据/的值可以判断两个分类变量有关的可信程度,若/越大,则两分类变
量有关的把握越大.
诊断自测
1.思考辨析(在括号内打“J”或“X”)
(1)“名帅出高徒”口:以解释为教师的教学水平与学生的水平成止相关关
系.()
⑵通过经验回归方程;=£+:可以估计预报变量的取值和变化趋势.()
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.()
⑷事件x,y关系越密切,则由观测数据计算得到的好的值越大.()
答案⑴J(2)V(3)7(4)7
2.(多选)在统计中,由一组样本数据(xi,yi),(12,”),…,(枭”%)利用最小二乘
法得到两个变量的经验回归方程为;=£+;那么下列说法正确的是()
A.相关系数「不可能等于1
B.直线;=晨+:必经过点(达),)
C.直线;=£+Z表示最接近),与x之间真实关系的一条直线
D.相关系数为厂,且仍越接近于1,相关程度越大;团越接近于(),相关程度越小
答案BCD
解析相关系数的取值范围是mwi,故A错误;直线;,=晨+:必过样本点中心
即点。,),),故B正确;直线;=£+:是采用最小二乘法求解出的直线方程,接
近真实关系,故C正确;相关系数,•的绝对值越接近于1,表示相关程度越强,
越接近于0,相关程度越弱,故D正确.
3.(2022♦烟台模拟)某校为了研究“学生的性别”和“对待某一活动的态度”是
否有关,运用2X2列联表进行独立性检验,经计算/=7.069,则认为“学生性
别与支持某项活动有关系”的犯错误的概率不超过()
A.0.1%B.l%C.99%D.99.9%
答案B
2
解析VZ=7.O69>6.635=AO.OI,
・・・认为“学生性别与支持某项活动有关系”的犯错误的概率不超过1%.
4.(2020.全国I卷)某校一个课外学习小组为研究某作物种子的发芽率),和温度
武单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据
(如>7)(/=1,2,…,20)得到下面的散点图:
100%
80%
/60%
欠40%
10203040
温度/七
由此散点图,在10℃至40℃之间,下面四个经验回归方程类型中最适宜作为发
芽率),和温度元的经验回归方程类型的是()
A.y=a+bxB.y^a+bx2
C.y=〃+加'D.y=〃+blnx
答案D
解析由散点图可以看出,这些点大致分布在对数型函数的图象附近.
5.(易错题)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二
孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,
结果如下表.
城市级别
二孩生育意愿合计
非一线一线
愿生452065
不愿生132235
合计5842100
n(ad-be)2
由/一
(a+〃)(c+d)(a+c)1+d)'
㈤,100X(45X22-20X13)?”,
得58X42X35X65^9.616.
参照下表:
a0.10.050.010.001
Xa2.7063.8416.63510.828
根据小概率值”=0.01的独立性检验,可以得到的结论是.
答案生育意愿与城市级别有关
6.(2021・广州一模)若某商品的广告费支出x(单位:万元)与销售额),(单位:万元)
之间有如下表所示的定应数据:
X24568
y2040607080
根据表中数据,利用最小二乘法求得y关于x的经验回归方程为(=晨十1.5,根
据预测,当投入10万元时,销售额的估计值为万元.
答案106.5
11
解析x=^X(24-4+54-6+8)=5,),=5义(20+40+60+70+80)=54,
・・・样本中心为(5,54),
将其代入经验回归方程;,=,人十1.5中,有54=5,+1.5,解得,=10.5,
所以经验回归方程为(=1()&+1.5,
A
当x=10时,>'=10.5X10+1.5=106.5.
1考点突破,题型剖析
考点一成对数据的相关性
1.(2022.重庆诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统
计表如下:
月份123456
人均销售额658347
利润率(%)12.610.418.53.08.116.3
根据表中数据,下列说法正确的是()
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
答案A
解析由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,
排除C和D;其属于正相关关系,A正确,B错误.
2.下列四个散点图中,变量工与),之间具有负的线性相关关系的是()
A
y
••
o
c
答案D
解析观察散点图可知,只有D选项的散点图表示的是变量X与y之间具有负
的线性相关关系.
3.在一组样本数据(%i,yi),⑴,户),…,(xnt词(〃22,xi,JO,…,工”不全相
等)的散点图中,若所有样本点(r,刈0=1,2,…,〃)都在直线),=一5+1上,
则这组样本数据的样本相关系数为()
A.-lB.OC.-|D.1
答案A
解析因为样本点在直线y=-%+l上,呈现完全负相关,样本相关系数为-
1.
4.两个变量),与x的回归模型中,分别选择了4个不同模型,它们的决定系数炉
如下,其中拟合效果最好的模型是()
A.模型1的决定系数A?为0.98
B.模型2的决定系数火2为0.80
C.模型3的决定系数网为0.50
D.模型4的决定系数R2为0.25
答案A
解析在两个变量y与x的回归模型中,它们的决定系数R?越接近1,模型拟合
效果越好,在四个选项中A的决定系数最大,所以拟合效果最好的是模型1.
感悟提升判断相关关系的两种方法:
(1)散点图法:如果样木点的分布从整体上看大致在某一曲线附近,变量之间就
有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有
线性相关关系.
(2)决定系数法:利用决定系数判定,N越趋近1,拟合效果越好,相关性越强.
考点二回归分析
角度1线性回归分析
例1(2021・广州模拟)根据统计,某蔬菜基地西红柿亩产量的增加量),(百千克)与
某种液体肥料每亩使用量M千克)之间的对应数据的散点图如图所示:
)(百千克)
r
6-----------------
5.....................:
4-------•::
3---::::
°24568%(千克)
⑴依据数据的散点图可以看出,可用线性回归模型拟合y与工的关系,请计算相
关系数并加以说明(若团>0.75,则线性相关程度很高,可用线性回归模型拟合);
(2)求),关于犬的经验回归方程,并预测液体肥料每亩使用量为12千克时,西红
柿亩产量的增加量约为多少.
附:相关系数
n
^Xiyi-nxy
经验回归直线;,=鼠+:的斜率和截距的最小二乘估计分别为一=
〃〃——
g(XLx)(y,-y)gx»一yA一八一
'H:=一";),a=y-bx.
£(XLX)2YyXT-nX1
2+4+5+6+8_
解⑴尸c=5
3+4+5+6+7
产s=5.
g(H—x)G,/—y)=(—3)X(—2)+(—l)X(—l)+0X0+lX1+3X2=14,
玄(X/-X)2=(-3)24-(-1)2+02+12+32=20,
5-
X(>>/-y)2=(-2)2+(-l)2+02+l2+22=10.
:"1
=淋5=3
・•・可用线性回归模型拟合,,与X的关系.
5--
AX(H-X)(V一),)14
Q)b=5=-9?)-0.7,
£(刘一x)2
则。=厂"=5—0.7乂5=1.5,
/.y=0.7x+1.5.
A
当x=12时,y=0.7X12+1.5=9.9,
・・・预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千
克.
角度2非线性回归分析
例2某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费犬(单位:
千元)对年销售量),(单位:t)和年利润Z(单位:千元)的影响,对近8年的年宣传
费*和年销售量2,…,8)数据作了初步处理,得到下面的散点图及一
些统计量的值.
v620
甘6(K)
芋5«()♦*
奈56()♦
萍540.
3520
500♦
4«0
4042i1464«5()56
年宣传戕/千元
8£⑴L
8-8-
)2)2
XyW苫(Xi-X篙(Wi-W
-y)助•(y—y)
46.65636.8289.81.61469108.8
表中助=«,W=-^JVi.
⑴根据散点图判断y=a^bx与>=c十八&哪一个适宜作为年销售量),关于年宣
传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立),关于R的回归方程;
(3)已知这种产品的年利润z与X,y的关系为z=0.2),一工
根据⑵的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据。1),(〃2,V2),…,(〃”,C'〃),其回归直线。=。+//的斜
率和截距的最小二乘估计分别为:
n~~
Ag(Ui~u)(OLU)A-A-
n-,O.-V-B
宫(〃L〃)2
解(1)由散点图可以判断,y=c+,M.适宜作为总销售量关于年宣传费工的回
归方程类型.
(2)令讪=,,先建立y关于训的线性回归方程,由于
8一一
Ag(如一“)-(y—y)108.8
d=8="T?~=68,
(wi—w)-.
c=y一由0=563—68X6.8=100.6,
所以y关于w的线性回归方程为;=100.6+68〃,,因此y关于x的回归方程为;=
100.6+68也.
(3)①由(2)知,当x=49时,年销售量y的预报值
A
y=100.6+68相=576.6,
年利润z的预报值
2=576.6X0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
A
Z=0.2X(100.6+685)—X
——x+13.6m+20.12.
所以当-2—=6.8,即1=46.24时,
;取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
n--
A
Ay八-
感悟提升(1)求经验回归方程:利用公式方=———一一求从利用。=》一以求
Y^cr—nx1
a,写出经验回归方程.
(2)经验回归方程的拟合效果,可以利用相关系数|r|判断,当仍越趋近于1时,两
变量的线性相关性越强.或利用决定系数R2判断,R?越大,拟合效果越好.
(3)非线性经验回归方程转化为线性经脸回归方程的方法
AAAAAAAAA
①若y=〃+Z?S,设t=yjxt则),=。+初;②若满足对数式:y=a+Z?lnx,设t
AAA
=lnxf则丁=。+4;③若满足指数式:y=cie,2x,两边取对数解Iny=lnci+czx,
3殳z=lny,/7=lnci,/?=c?,如Iz=〃+/zx.
训练1下图是某地区2()05年至2021年环境基础设施投资额),(单位:亿元)的折
线图.
为了预测该地区2023年的环境基础设施投资额,建立了),与时间变量/的两个
线性回归模型.根据2005年至2021年的数据(时间变量t的值依次为1,2,…,
17)建立模型①:;,=—30.4+13.5,;根据2015年至2021年的数据(时间变量,的
值依次为1,2,…,7)建立模型②:;=99+17.5/.
⑴分别利用这两个模型,求该地区2023年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解(1)利用模型①,该地区2023年的环境基础设施投资额的预测值为;=-30.4
+13.5X19=226.1(亿元).
利用模型②,该地区2023年的环境基础设施投资额的预测值为
A
y=99+17.5X9=256.5(亿元).
⑵利用模型②得到的预测值更可靠.
理由如下:
(i)从折线图可以看出,2005年至2021年的数据对应的点没有随机散布在直线
),=-30.4+13.5/上下,这说明利用2005年至2021年的数据建立的线性模型①
不能很好地描述环境基础设施投资额的变化趋势.2015年相对2014年的环境基
础设施投资额有明显增加,2015年至2021年的数据对应的点位于一条直线的附
近,这说明从2015年开始环境基础设施投资额的变化规律呈线性增长趋势,利
用2015年至2021年的数据建立的线性模型),=99+17.5,可以较好地描述2015
年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可
(ii)从计算结果看,相对于2021年的环境基础设施投资额220亿元,由模型①
得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比
较合理,说明利用模型②得到的预测值更可靠.
考点三独立性检验
例3(2020•全国W卷)某学生兴趣小组随机调查了某市100天中每天的空气质量等
级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
炼人次
空气质量等小[0,2001(200,4001(400,600]
1(优)21625
2(良)51012
3(轻度污染)678
4(中度污染)720
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
⑵求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中
点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质
量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2X2
列联表,并根据列联表,能否在犯错误的概率不超过0.05的前提下,认为一天
中到该公园锻炼的人次与该市当天的空气质量有关?
人次W400人次>400
空气质量好
空气质量不好
n(ad-be)2
附:关=(〃+Z?)(c+d)(〃+c)(Z?+d)
a0.0500.0100.001
Q3.8416.63510.828
解(1)由所给数据,得该市一天的空气质量等级为1,2,3,4的概率的估计值
如下表:
空气质量等级~~1~~~~~3~~4
概率的估计值0.430.270.210.09
(2)一天中到该公园锻煤的平均人次的估计值为
击(1()0X20+300X35+50()X45)=35().
(3)根据所给数据,可得2X2列联表:
人次W400人次>400
空气质量好3337
空气质量不好228
零假设为Ho:
一天中到该公园锻炼的人次与该市当天的空气质量无关.
根据列联表得
,100X(33X8-22X37)2
刀二55X45X70X30^5.820>3,841=笈.
根据小概率值。=0.050的/独立性检验,可推断Ho不成立,所以在犯错误的概
率不超过0.05的前提下,可认为一天中到该公园锻炼的人次与该市当天的空气
质量有关.
感悟提升1.在2X2列联表中,如果两个变量没有关系,则应满足./一bc^.\ad
一区|越小,说明两个变量之间关系越弱;|公/一庆|越大,说明两个变量之间关系
越弓支
2.解决独立性检险的应用问题,一定要按照独立性检脸的步骤得出结论.独立性检
脸的一般步骤:
(1)根据样本数据制成2X2列联表:
(2)根据公式/=
__________一(ad-be)2__________笆2
(〃+£>)(〃+c)(6+d)(c+d))"'
(3)通过比较z2与临界值的大小关系来作统计推断.
训练2(2021•全国甲卷改编)甲、乙两台机床生产同种产品,产品按质量分为一级
品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产
品,产品的质量情况统计如下表:
一级品二级品合计
甲机床15050200
乙机床12080200
合计270130400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据小概率值«=0.01的独立性检验分析甲机床的产品质量与乙机床的产品
质量有差异.
..,___________〃(ad-be)2____________
附:丈=(a+b)(c+d)(〃+c)()+d)'
a0.10.050.010.005
Xa2.7063.8416.6357.879
解(1)根据题表中数据知,甲机床生产的产品中一级品的频率是薪=0.75,乙
机床生产的产品中一级品的频率是指=06
⑵需假设Ho为:甲机床的产品质量与乙机床的产品质量无差异.
根据题表中的数据可得
,400X(150X80—120X50)2400「_
元=200X200X270X130=骸弋1O.256>6.635=XO.OI.
根据小概率值a=0.01的独立性检验,我们推断从不成立,即认为甲机床的产
品质量与乙机床的产品质量有差异.
此推断犯错误的概率不大于0.01.
I分层训练,巩固提升
A级基础巩固
1.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数
据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的
是()
脂肪含量/%
35
30
25
20
15
1()
5
°1520254)354045505560年龄/岁
A.人体脂肪含量与年龄止相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
答案B
解析观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于
20%.
2.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回
归分析方法分别求得样本相关系数〃与残差平方和加,如下表:
甲乙丙T
r0.820.780.690.85
m106115124103
则哪位同学的试验结果体现A,B两个变量有更强的线性相关性?
A.甲BZC.丙D.T
答案D
解析「越大,加越小,线性相关性越强.
3.(2022・南昌模拟)某公司在2015〜2019年的收入与支出情况如下表所示:
收入M亿元)2.22.64.05.35.9
支出),(亿元)0.21.52.02.53.8
根据表中数据可得经验回归方程为;=0.8工+〃,依此估计该公司收入为8亿元时
的支出为()
A.4.2亿元B.4.4亿元
C.5.2亿元D.5.4亿元
答案C
解析根据表中数据,计算x=:X(2.2+2.6+4.0-5.3+5.9)=4,),=:X(0.2+1.5
JJ
+2.0+2.5+3.8)=2,
••a=y-0.8x=2—0.8X4——1.2,
经验回归方程为;,=().网一1.2,
当x=8时,y=0.8X8—1.2=52
4.已知某地的财政收入x与支出),满足经验回归方程;,=葭+:+贸单位:亿元),
其中.=0.8,:=2,|0<0.5,如果今年该地区的财政收入为1()亿元,那么支出
预计不会超过()
A.9亿元B.10亿元
C.9.5亿元D.10.5亿元
答案D
解析),=0.8X10+2+e=10+eW10.5.
5.(多选)(2022.衡水调研)己知变量x,y之间的线性经验回归方程为;,=-0.71+
103,且变量达y之间的一组相关数据如下表所示,则下列说法正确的是()
A.变量X,y之间成负相关关系
B.可以预测,当x=20时,y=-3.7
CJ〃=4
D.该经验回归直线必过点(9,4)
答案ABD
解析由-0.7V0,得变量x,y之间成负相关关系,故A正确;
A
当x=20时,y=-0.7X20+10.3=-3.7,故B正确;
1111+〃2
由表格数据可知x=WX(6+8+10+12)=9,3=1乂(6+机+3+2)=^—,则
旦产=-0.7X9+10.3,解得机=5,故C错误;
由m=5,得尸6+平+2=4,所以该回归直线必过点(9,4),故D正确.
6.(多选)(2021•枣庄模拟)某大学为了解学生对学校食堂服务的满意度,随机调查
了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得
到如下所示的列联表,经计算三弋4.762,则可以推断出()
不满意
男3020
女4010
a0.1000.0500.010
Xa2.7063.8416.635
3
A.该学校男生对食堂服务满意的概率的估计值为段
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.05
D.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.01
答案AC
()
解析对于A,该学校男生对食堂服务满意的概率的估计值为不言3彳=]3,故A
JUINUJ
正确;
对于B,该学校女生对食堂服务满意的概率的估计值为而40*=]4>]3,故B错误;
因为>3.841=知.05,认为男、女生对该食堂服务的评价有差异,此推
断犯错误的概率不超过0.05,故C正确,D错误.
7.己知x和),的散点图如图所示,在相关关系中,若用y=oe3拟合时的决定系
数为此,用;=£+:拟合时的决定系数为心,则用,阳中较大的是.
3M\
rl
2(nM|\
M7
25X/1
1nX
1(M
X3nM
-A
(789
M5
答案必
解析由散点图知,用拟合的效果比;二鼠+联拟合的效果要好,所以
呼>虺,故较大者为催
8.某市物价部门对本市的5家商场的某商品一天的销售量及其价格进行调查,5
家商场的售价M元/件)和销售量),(件)的数据如下表所示:
售价X99.5m10.511
销售量yIIn865
由散点图可知,销售量),与售价X之间有较强的线性相关关系,其经验回归方程
是y=-3.2x+40,且阳+〃=20,则其中的〃=.
答案10
9+9.5+"?+10.5+11m
解析-------------5-------------=8+亍
11+〃+8+6+5,।〃
产------5----------=6+小
回归直线一定经过点(x,y),
即6+2=—3.2(8+1)+40,即3.2m+〃=42.
=
又mn201所以〃,=10,〃=10.
9.某医疗研究所为了检验某种血清预防感冒的作月,把500名使用血清的人与另
外500名未使用血清的人一年中的感冒记录作比较,提出假设Ho;“这种血清
不能起到预防感冒的作用”,利用2X2列联表计算得^^3.918,经查临界值表
知回.05=3.841.则下列结论中,正确结论的序号是.
①认为“这种血清能起到预防感冒的作用”犯错误的概率不超过0.05;②若某人
未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的
有效率为95%;④这种血清预防感冒的有效率为5%.
答案①
解析/^3.918^3.841=^.05,所以认为“这种血清能起到预防感冒的作用”,
这种推断犯错误的概率不超过0.05.要注意我们检验的是假设是否成立和该血清
预防感冒的有效率是没有关系的,不是同一个问题,不要混清.
10.某城市地铁将于2023年6月开始运营,为此召开了一个价格听证会,拟定价
格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单[15,[25,[35,[45,[55,[65,
位:百元)25)35)45)55)65)75]
赞成定价
123534
者人数
认为价格偏
4812521
高者人数
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定
价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);
(2)由以上统计数据填下面2X2列联表,依据小概率值。=0.()1的独立性检验,
可否认为“月收入以55百元为分界点对地铁定价的态度有差异”.
人均月收入
对地铁定
不低于55百低于55百
价的态度合计
元的人数元的人数
认为价格偏高者
赞成定价者
合计
附:/=(a+b)(;;累(b+d),其中”=a+8+c+d
参考数据:
a0.10.050.010.005
Xa2.7063.8416.6357.879
解(1)“赞成定价者”的月平均收入为川=
20X1+30X2+40X3+50X5+60X3+70X4
1+2+3+5+3+4
心50.56.
“认为价格偏高者”的月平均收入为X2=
20X4+30X8+40X12+5QX5+6QX2+70X1
4+8+12+5+2+1
=38.75,
.,・“赞成定价者”与“认为价格偏高者”的月平均收入的差距是Xi-x2=50.56
一38.75=11.81(百元).
(2)根据条件可得2X2列联表如下:
人均月收入
对地铁定
不低于55百低于55百元合计
价的态度
元的人数的人数
认为价格偏高者32932
赞成定价者71118
合计104050
零假设为"o:月收入以55百元为分界点对地铁定价的态度无差异.
50X(3X11-7X29)2
一心6.27<6.635=xo.oi,
r=10X40X18X32
,根据小概率值。=0.01的独立性检验,没有充分证据推断“0不成立,因此可
以认为“月收入以55百元为分界点对地铁定价的态度没有差异”.
11.(2020・全国H卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数
量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地
块,从这些地块中用简单随机抽样的方法抽取2(1个作为样区,调查得到样本数
据⑶,>7)(/=1,2,20),其中为•和y分别表示第i个样区的植物覆盖面积(单
202020-
位:公顷)和这种野生动物的数量,并计算得名即=60,gv=l200,g(x-x)2
20-20
=8(),NGLy)2=9000,苫(Xi-x)(yi-y)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这
种野生动物数量的平均数乘以地块数);
⑵求样本(H,yi)(i=1,2,…,20)的相关系数(精确到0.01);
⑶根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以
获得该地区这种野生动物数量更准确的估计,请给出一•种你认为更合理的抽样方
法,并说明理由.
附:样本相关系数〃=
gCxi-x)(yi-y)
u“•,72^1.414.
§(xi~x)2g(y—y)2
解⑴由已知得样本立均数为y=去1否20y,=60,从而该地区这种野生动物数量的
估计值为60X200=12000.
(2)样本(H,yi)(i=1,2,…,20)的相关系数为
20~
否(XLX)("一))
(X/-X)2£(/一),)2
8002^2
N0.94.
—480X900()―3
(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对20()个地块进行
分层随机抽样.
理由如下:由⑵知各样区的这种野生动物数量与植物覆盖面积有很强的正相关
关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差
异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致
性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
B级能力提升
12.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是
()
A.若/=6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,
那么在100个吸烟的人中必有99人患有肺癌
B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患捕癌
有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有
关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
答案C
解析独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多
大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注
意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误
的解释.若从统计量中求出在犯错误的概率不超过().()1的前提下认为吸烟与患肺
癌有关系,是指有1%妁可能性使得判断出现错误.
13.(2022•海南调研)在一组样本数据3,yi),(xi,(北,泗)的散点图中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 丰城发电厂宿舍楼建筑结构设计
- 2025 312心理学考研真题答案高清无错版
- 2022年中专解剖学考前押题试题及估分专用答案
- 2025年皮肤美容护理执业资格考试押题卷及答案大全
- 2020宁德时代质量岗面试必背120题附官方参考回答
- 2020年社会保障概论专业面试必背题库及高分标准答案
- 2026年人教版下册数学测试题及答案
- 行政调解协议书可以反诉
- 兴业银融资系统使用协议书
- 资金抵押担保协议书
- 国家广播电视总局部级社科研究项目申请书
- 2025-2030中国自行车行业市场深度调研及发展趋势与投资前景预测研究报告
- 2026年陕西延长石油集团有限责任公司校园招聘笔试备考题库及答案解析
- 工会2025年度工作报告国企2025工会工作报告
- 广东梅州市嘉城建设集团有限公司招聘笔试题库2026
- T∕SZSSIA 019-2026 反恐怖防范管理规范 总则
- 2026年及未来5年市场数据中国税务大数据行业市场全景分析及投资前景展望报告
- 2026年中考英语专题复习:5个主题作文 预测练习题(含答案+范文)
- 2026年陕西能源职业技术学院单招职业适应性考试题库附参考答案详解(完整版)
- 24J113-1 内隔墙-轻质条板(一)
- 神州数码人才测评题2
评论
0/150
提交评论