2025届高考数学一轮复习-成对数据的统计分析讲义_第1页
2025届高考数学一轮复习-成对数据的统计分析讲义_第2页
2025届高考数学一轮复习-成对数据的统计分析讲义_第3页
2025届高考数学一轮复习-成对数据的统计分析讲义_第4页
2025届高考数学一轮复习-成对数据的统计分析讲义_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025届高考数学一轮复习讲义统计与成对数据

的统计分析之成对数据的统计分析

一、知识点讲解及规律方法结论总结

1.变量的相关关系

(1)正相关和负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现

①增加的趋势,我们就称这两个变量②一正相关;当一个变量的值增加时,另一个

变量的相应值呈现③减小的趋势,则称这两个变量④负相关.

(2)线性相关:一般地,如果两个变量的取值呈现⑤相关或相关,而且散

点落在⑦•条直线附近,我们就称这两个变量线性相关.

(3)非线性相关或曲线相关:一般地,如果两个变量具有相关性,但不是线性相关,那么

我们就称这两个变量非线性相关或曲线相关.

2.样本相关系数

n

£(x|-x)(y|-y)

(1)样本相关系数厂=『曰=।.

»2n2

(2)样本相关系数「的性质

①当厂>0时,称成对样本数据⑧正相关:当,VO时,称成对样本数据⑨负相

关;当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相

关关系.

②I,•IW1.当I/•I越接近于1,成对样本数据的线性相关性越⑩」1;IrI越接近于

0,成对样本数据线性相关性越⑪弱.

3.一元线性回归模型

(1)一元线性回归模型

我们称(丫=加.为y关于工的一元线怛回归模型.其中,y称为因变曷或

[E(e)=0,D(e)=a2

响应变量,x称为自变量或解释变量;。和人为模型的未知参数,〃称为截距参数,人称为

斜率参数;。是y与以+。之间的随机误差.

<2)经验回归方程与最小二乘估计

经验回归方程:y=bx+a.

Az(*i-x)(yi-y)XX\yi-nxyA

最小二乘估计:匕=---------二⑫巴、,,a=y-bx.

z<x,-x)txl-nx

i=li=l

说明经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线羟验

回归直线过点(元,y).

(3)残差

对于响应变量匕通过观测得到的数据称为观测值,通过经验回归方程得到的夕称为预测

值,观测值减去⑬预测值称为残差.

(4)决定系数

Z卬「%)2n

决定系数R2用来比较两个模型的拟合效果,2=]一耳------F,其中Z(V一必)2是残差

石以田』

平方和,R?越大(越接近I),表示残差平方和越小,即模型的拟合效果越好;改越小,

表示残差平方和越大,即模型的拟合效果越差.

4.列联表与独立性检验

(1)2X2列联表

一般地,假设有两个分类变量X和匕它们的取值为{0,I},其样本频数列联表(称为

2X2列联表)为:

Y

X合计

r=oY=\

x=oaba+b

x=\c(1c+d

合计a+cb-\-d〃=a+Z?+c+d

(2)独立性检验

/=(一小•利用f的取值推断分类变量x和y是否独立的方法称为公独立

(a-rD)9(C°-rd)%(a:+'c):(-D+d)

性检验,读作“卡方独立性检验”,简称独立性检验.

(3)临界值

对于任何小概率值a,可以找到相应的正实数乂,使得=a成立,我们称乂为

a的临界值,这个临界值可作为判断"大小的标准.概率值a越小,临界值⑭越大.

卜.表给出了拼独立性检验中5个常用的小概率值和相应的临界值.

a0.10.050.010.0050.001

Xa2.7063.8416.6357.87910.828

(4)基于小概率值a的检验规则

当222/时,我们就推断儿⑮不成立,即认为X和不独立,该推断犯错误的

概率不超过a:

当公〈我时,我们没有充分证据推断从不成立,可以认为x和y©独立.

说明若口?越大,则两个分类变量有关的把握越大.

二、基础题练习

1.下列四个散点图中,变量x与),之间具有负的线性相关关系的是(D)

2.下列说法正确的是(D)

A.在经验回归方程夕=-0.85%+2.3中,当解释变量x每漕加1个单位时,响应变量平均减

少2.3个单位

B.若两个变量的相关性越强,则/•越接近于1

C.在回归分析中,决定系数/?2=0.80的模型比决定系数配=0.98的模型拟合的效果要好

D.残差平方和越小的模型,拟合的效果越好

解析对于A,根据经脸回归方程,当解释变量x每增加1个单位时,响应变量?平均减少

().85个单位,故A错误;对于B,若两个变量的相关性越强,则Irl越接近于1,故B错

误;对于C,用决定系数R2的值判断模型的拟合效果,R?越大,模型的拟合效果越好,所

以C错误;对于D,由残差的统计学意义知,D正确.

3.为考查某种营养品对儿童身高增长的影响,选取部分儿童进行试验,根据100个有放回

简单随机样本的数据,得到如下列联表,由表可知下列说法正确的是(D)

身高

营养品合计

有明显增长无明显增长

食用a1050

未食用h3050

合计6040100

A.a=/?=30

B.fp12.667

c.从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是:

D.根据小概率值«=0.001的独立性检验,可以认为该营养品对儿童身高增长有影响

解析由题可知〃=50—10=40,6=50—30=20,所以A错误;/2=

416.667>10.828=xo.ooi,所以根据小概率值a=0.001的独立性检验,

可以认为该营养品对儿童身高增长有影响,所以B错误,D正确;从样本中随机抽取I名

儿童,抽到食用该营养品且身高有明显增长的儿童的概率是%=&所以C错误.

1005

4.[2023福州5月质检]已知变量x和),的统计数据如下表:

x678910

),3.54566.5

若由表中数据得到经验回归方程为9=0.融+必则x=1()时的残差为一0.1.(注:观测

值减去预测值称为残差)

解析易知土=8,y=5,.*.d=5—0.8X8=—1.4,.•*=10时,9=8—1.4=6.6,.*.x=10

时的残差为6.5-6.6=-0.1.

三、知识点例题讲解及方法技巧总结

命题点1成对数据的相关性

角度1判断两个变量的相关性

例1(1)已知变量x和),近似满足关系式丁=-0.皮+1,变量y与z正相关.下列结论中正

确的是(C)

A.x与丁正相关,x与z负相关

B.x与y正相关,x与z正相关

C.x与y负相关,x与z负相关

Da与y负相关,x与z正相关

解析由y=-0.1x+l,如x与y负相关,即y随x的增大而减小,又),与z正相关,所以

z随y的增大而增大,随丁的减小而减小,所以z随x的增大而减小,x与z负相关.

(2)[2023湖北仙桃中学模拟]对四组数据进行统计后,获得了如图所示的散点图,四组

数据的相关系数分别为门,-2,r3,小,对各组的相关系数进行比较,正确的是(C)

yy

oio

第一组第二组

第三组第四组

A.r?<r2<0<ri<r4B/4<八

C.r5Vr3Vo<r4<门D.ri<r4<()<r3<r2

解析由题图可知,第一、四组数据均正相关,第二、三组数据均负相关,当相关系数的

绝对值越大时,数据的线性相关性越强.第一组数据的线性相关性较第四组强,则外>口>

0,第二组数据的线性相关性较第三组强,则I心I>I「3I,且AV(),n<0,则r2〈门V

0.

因此,正<「3<0<「4<,1.故选C.

方法技巧

判断两个变量相关性的3种方法

若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到

画散点图

右下角,则两个变量负相关.

利用样本相

r>0时,正相关;rVO时,负相关;Irl越接近于1,线性相关性越强.

关系数

利用经验回AA

.iob>0时,正相关;匕<。时,负相关•

归万桂

角度2相关系数的计算

例2[2022全国卷乙上某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区

某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:

m2)和材积量(单位:m’),得到如下数据:

样本号i12345678910总和

根部横截

0.040.060.040.080.080.050.050.070.070.060.6

面积Xj

材积量>70.250.400.220.540.510.340.360.460.420.403.9

101010

并计算得2再2=0.038,2丫[2=1.6158,1x07=0.2474.

i=li=li=l

(1)估计该林区这种树木平均一棵的根部横截面枳与平均一棵的材积量.

(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).

(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积

总和为186nR已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区

这种树木的总材积量的估计值.

n

,,一一Z<Xi-x)(yj-y)f_______

附:相关系数「=[一,<L896^1.377.

n22

Z<xi-x)X(yf

[i=i1=1

io

Ex

解析(1)估计该林区这种树木平均一棵的根部横截面积土=若i=詈=0.06,估计该林区

10

ZXion

这种树木平均一棵的材积量产号屋=普=0.39.

1010

(2)Z(A7-X)(V—歹)=Zx;>7-10xy=0.0134,

i=li=l

E(xj—%)2=X*一)而=0.002,

)=1i=l

I(yj-y)2=£yi2-10y2=0.0948,

i=li=l

102102______________________________________

所以Z(%j-x)z(Vj-y)=V0.002x0.0948=V0.0001x1.896^0.01X1377=

Ji=li=l

io

z(Xi-乃Cy「”00134

0.01377,所以样本相关系数।E,—.97.

Iio21020.01377

#=Z15-5)iZ=l(y「”

(3)设该林区这种树木的总材积量的估计值为Km3,由题意可知,该种树木的材积量与

其根部横截面积近似成正比,所以些=工,所以丫=186X039=12()9,

0.061R60.06

即该林区这种树木的总材积量的估计值为I209m\

训练I变量X与y相对应的一组数据为(10,I),(11.3,2),(H.8,3),(12.5,

4),(13,5):变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,

3),(12.5,2),(13,1)力表示变量V与X之间的线性相关系数,。表示变量"与U

之间的线性相关系数,则(C)

A.r2<ri<0B.0<r2</i

C.rz<0<riD.rz=n

解析由题中的数据可知,变量y与x正相关,相关系数门>o,变量v与u负相关,相

关系教A〈0,即r2<0<门.故选c.

命题点2回归模型及其应用

角度1一元线性回归模型

例3[2023广西联考]某省为调查北部城镇2022年GDP,抽取了20个城镇进行分析,得到

样本数据(为,%)(i=1,2,…,20),其中即和y,•分别表示第i个城镇的人口(单位:

202020

万人)和该城镇2022年GDP(单位:亿元),计算得!>=IOO,ZM=800,I(为一

i=li=li=l

2020

x)2=70,g(y;-y)2=280,工(x,—x)(y一歹)=120.

i=li=l

(1)请用相关系数厂判断该组数据中),与x之间线性相关关系的强弱(若IrIG[0.75,

I],相关性较强;若Irl[0.30,0.75),相关性一般;若「£[-0.25,0.25],相关性较

弱).

(2)求),关于x的线性回归方程.

(3)若该省北部某城镇2024年的人口约为5万人,根据(2)中的线性回归方程估计该城

镇2024年的GDP.

Z(Xi-x)(yi-y)

参考公式:相关系数,i=1对于一组具有线性相关关系的数据5,

2九2

£n(芍一父)£(%一歹)

Ji=li=l

y)(i=l,2,…,〃),其回归直线夕=公+4的斜率和截距的最小二乘估计分别为b=

Z(X|-x)(yj-y)*

J---------5—,a=y~bx.

Z5—三)

f=l

20_

解析(1)由题意知,和关系数,=/—)=~^^=霁10.857,

(20220270X280140

I5一元)£(yi-y)

[i=ii=i

因为y与x的相关系数「满足Irl£[0.75,I],所以),与x之间具有较强的线性相关关系.

20

"Z(Xi-x)(yj-y)2oi2

(2)b=-----------=—=-

X(Xi-x)2707

1=1

入—80012^100一220,所以-12.220

a=Zy—bx=—20—7X—20=7Zy=-7x+—7.

(3)由⑵可估计该城滇2024年的GDP尸手X5+券=40(亿元).

方法技巧

回归模型问题的类型及解题方法

(1)求经验回归方程:

①利用数据,求出元y;

②利用公式,求出回归系数加

③利用经验回归直线过样本点的中心(五歹),求a.

(2)利用经验回归方程进行预测:直接将已知的自变量的某个数值代入经验回归方程求得

特定要求下的预测值.

(3)判断回归模型的拟合效果:利用残差平方和或决定系数代判断,川越大,表示残差

平方和越小,即模型的拟合效果越好.

角度2非线性回归模型

例4[2023重庆市三检]已知变量y关于x的经验回归方程为y=e^-0-6,若对y=沙圻酸两

边取自然刈数,可以发现Iny与x线性相关,现有一组数据如表所示:

Xi2345

yee3e4e6e7

则当x=6时,预测y的值为(C)

A.9B.8C.e9D.e8

解析对丫=心'os两边取自然对数,得]ny=bx—0.6,令z=lny,则z=bx—0.6,数据为

2345

ye///—

z13467

由表格数据,得元=I+2+:+4+5=3,Z=I+3+:+6+7=42.将(3,4.2)代入z=bx—0.6,得

4.2=3b-0.6,(方法技巧:经验回归方程只含一个未知数问题主要是依据经验回归直线

y=bx+a必过样本点的中心(元,y)求解)

解得人=1.6,所以z=1.6x—0.6,即、=ei,6x-o,6当乂=6时,y=ei-6xs-o.e-e9>故选c

方法技巧

I.解决非线性回归模型问题的思路:根据数据的散点图,选择恰当的拟合函数,用适当的

变量进行转换,如通过换元或取对数等方法,把问题化为线性回归模型问题,使之得到解

决.

2.常见的非线性回归模型及转换技巧

(1)y=a+-,令v=工,则y=a+bv;

XX

(2)y=a+binx(b0),令o=lnx,则y=〃+/w;

(3)y=a^(«>0,匕WO),令c=lna,v=lnx,w=lny,则〃=c+/?。;

hx

(4)y=ae(a>0,bWO),令c=ln〃,u=\nyt则〃=c+Z?x.

训练2[2023合肥市质检]研究表明,温度的突然变化会引起机体产生呼吸道上皮组织的生

理不良反应,从而导致呼吸系统疾病的发生或恶化.某中学数学建模社团成员欲研究昼夜温

差大小与该校高三学生患感冒人数多少之间的关系,他们记录了某周连续六天的昼夜温

差,并到校医务室查阅了这六天中每天高三学生新增患感冒而就诊的人数(假设患感冒必

到校医务室就诊),得到资料如卜.:

日期第一天第二天第三天第四天第五天第六天

昼夜温差A/C47891412

新增就诊人数),/位J2y4ys*

参考数据:£*=3160,£(第一”2=256.

i=ii=i

(1)已知第一天新增患感冒而就诊的学生中有7位女生,从第一天新增患感冒而就诊的学

生中随机抽取3位,若抽取的3人中至少有一位男生的概率为喘,求”的值;

(2)已知两个变量x与y之间的样本相关系数r=提,试用最小二乘法求出),关于x的经验

16

回归方程夕=小+优据此估计昼夜温差为15℃时,该校高三新增患感冒而就诊的学生数

(结果保留整数).

“£<xj-x)(yi-y)

参考公式:6=-----------i-,

£(Xj-X)

i=l

.Z<Xj-x)(yi-y)

描;-,噌5-”2

解析⑴:L旨=葛,

.______7x6x5________7

■%(九一1)5—2)­—24*

Ayi(巾一I)(yi-2)=720=10X9X8,.\yi=10.

66

(2)*.*£M=54,/.X=9,£(xy—x)2=64.

i=li=l

6__6

Z(Xj-x)(yi-y)z(Xj-x)(yj-y)6

>=|6E_z|6一广,.喑()L歹)=8X5

信」总,y「a

.5fpi田_8X15_15

••(Xj-X)2648

666_6_AA

又E(»一歹)2=£乂2―取£凹+6歹2=£*_6歹2=好6,解得歹=22,:.a=y-hx=?7

i=li=li=li=l

—竺义9=把,

88

・・・,=4+容,当x=15时,y=^+^X15^33,

故可以估计昼夜温差为15°C时,该校高三新增患感冒而就诊的学生数为33.

命题点3列联表与独立性检验

例5[2022全国卷甲改编]甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两

家公司K途客车的运行情况.随机调查了甲、乙两城之间的500个班次,得到下面列联

表:

准点班次数未准点班次数

A24020

B21030

(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;

(2)依据小概率值a=0.1的独立性检验,分析甲、乙两城之间的长途客车是否准点与客

车所属公司有关.

附:/=(。+盛霖鼠+“,n=ae.

+b++d

a0.10.0500.0100.001

Xa2.7063.8416.63510.828

解析(1)由题表可得4公司甲、乙两城之间的长途客车准点的概率为

B公司甲、乙两城之间的长途客车准点的概率为苗力.

(2)零假设为Ho:甲、乙两城之间的长途客车是否准点与客车所属公司无关.根据2X2列

联表,

可得/=500X(240X30-20X210)~3.205>2.706=x().।

(240+20)*(210+30)x(240+210)x(20+30)

根据小概.率值a=0.1的独立性检脸,我们推断“。不成立,

即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.

方法技巧

独立性检验的•般步骤

(I)提出零假设Ho;

(2)根据样本数据制成2X2列联表;

北(ad—be)

(3)根据公式42=计算公:

<a+b)(c4-d)(a+c)(ft+d)

(4)比较22与临界值区为大小关系,根据检验规则得出推断结论.

训练3某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的I000

名骑行人员中,记录其年舲(单位:岁)和是否佩戴头盔情况,得到如图所示的统计图:

稳率

(1)估算该市电动自行车骑乘人员的平均年龄.

(2)根据所给的数据,完成下面的列联表:

单位:名

是否佩戴头盔

年龄/岁合计

是否

[20,40)

[40,70]

合计

(3)根据(2)中的列联表,依据a=0.010的独立性检验,能否认为遵守佩戴安全头盔规

则与年龄有关?

n(ad-be)

附:/二〃=a+b+c+d.

(a+b)(c4-d)(a+c)(d+d)

a0.0500.0100.001

见3.8416.63510.828

解析(1)该市电动自行车骑乘人员的平均年龄为25X0.25+35X0.35+45X0.2+

55X0.15+65X0.05=39:岁).

(2)依题意,完成列联表如下:

单位:名

是否佩戴头盔

年龄/岁合计

是否

[20,40)54060600

[40,70]34060400

合计8801201000

(3)零假设为从):遵守佩戴安全头盔规则与年龄无关.

2

b方彳B2_1000x(540X60-340x60)_125

~•5.682<6.635xo.oio>

于1600X400X880X12022

根据小概率值a=0.010的独立性检验,没有充分证据推断从不成立,

因此可以认为为成立,即认为遵守佩戴安全头盔规则与年龄无关.

四、命题点习题讲解

1.[命题点1角度1/2023天津高考]调查某种群花萼长度和花瓣长度,所得数据如图所示.其

中相关系数r=0.8245,下列说法正确的是(C)

A.花瓣氏度和花萼长度没有相关性

B.花瓣长度和花萼长度呈负相关

C.花瓣长度和花萼长度呈正相关

D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245

解析因为相关系数r=0.8245>0.75,所以花瓣长度和花萼长度的相关性较强,并且呈正

相关,所以选项A,B错误,选项C正确;因为相关系数与样本的数据有关,所以当样本

发生变化时,相关系数也会发生变化,所以选项D错误.故选C.

2.[命题点1,2/2024济南市摸底考试]随着科技的发展,网购成了人们购物的重要选择,

并对实体经济产生了一定影响.为了解实体经济的现状,某研究机构统计了一个大商场

2018—2022年的线下销售额,如下表:

年份编号工1245

年份20182019202020212022

销售额V万元1513146512021060860

(1)由表中数据可以看出,可用经验回归模型拟合销售额y与年份编号x的关系,请用相

关系数加以说明;

(2)建立y关于x的经验回归方程,并预测2024年该商场的线下销售额.

参考公式及数据:

n

Zxjyi-nxy

用忙互第r»-=_______LJ___________________

一位2)(£*_竹2)

J1=11=1

对于一组数据(X1,V),(X2,”),…,(X",”),其经验回归直线丫=。+h的斜率

n

AX[yi-nxyAA55

和截距的最小二乘估计公式分别为b=$------,Q=歹一底£6=6100,Z孙=16

Xxf-nxi=li=l

i=l

589,(Zx?-5x2)(fyj2-5y2)F736.

Ji=li=l

解析(1)由已知数据可得,元=I+2+;+4+5=3,歹=¥=零2=1220,

5

所以2>M一5亍9=I6589-5X3X1220=-1711,

i=l

s

£加力一5G歹_

所以相关系数「=।=和——«=?—0.9856.

1736

(营5J卜o方2,)(自S弁,一际2)

因为|人非常接近|,

所以可用经验回归模型拟合销售额y与年份编号X的关系.

5

5八Z"iVi—5xy

222222

(2)由已知数据可得,Xxj=l+2+3+4+5=55,所以-------=-i7ii

i=lXx^-5x255—5X3

1=1

171.1,

AA

a-y-bx-\220-(-171.1)乂3—1733.3,

所以),关于x的经验回归方程为,=—171/x+17333

令%=7,则y=—171.1X7+1733.3=535.6(万元),

所以预测2024年该商场的线下销售额为535.6万元.

3.[命题点3Z2O21全国卷甲改编]甲、乙两台机床生产同种产品,产品按质量分为一级品和

二级品,为了比较两台机末产品的质量,分别用两台机床各生产了200件产品,产品的质

量情况统计如下表:

单位:件

一级品二级品合计

甲机床15050200

乙机床120802(X)

合计270130400

(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?

(2)依据小概率值a=0.01的独立性检验,分析甲机床的产品质量与乙机床的产品质量是

否有差异.

n(ad-be)

附:/=,〃=a+Z?+c+d

(a+b)(c+d)(a+c)(b+d)

0.0500.0100.001

3.8416.63510.828

解析(1)由题意,可得甲机床、乙机床生产的产品总数均为200件,

因为甲机床生产的产品中一级品的频数为150,所以甲机床生产的产品中一级品的频率为

翳=。・75,

因为乙机床生产的产品中一级品的频数为120,所以乙机床生产的产品中一级品的频率为

—=0.6.

200

(2)零假设为M):甲机床的产品质量与乙机床的产品质量无差异.

则根据列联表中的数据计算得淳=幽获黑蒜彩FO.256>6.635=MOI.

所以依据小概率值a=0.01的独立性检验,推断为不成立,

即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不大于0.01.

五、习题实战演练

1.在用经验回归方程研究四组数据的拟合效果时,分别作出下列四个关于四组数据的残差

图,则用线性回归模型拟合效果最佳的是(A)

CD

解析用残差图判断模型妁拟合效果时,残差点比较均匀地落在水平的带状区域中,说明

这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合效果越好.故选A.

2.[全国卷I]某校一个课外学习小组为研究某作物种子的发芽率),和温度.1(单位:°C)

的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(孙%)(/=1,

2,…,20)得到如图所示的散点图.

由此散点图,在1()°C至40c之间,下面四个回归方程类型中最适宜作为发芽率y和温度

x的回归方程类型的是(D)

A.y=a+〃xB.yj+Zu2

Cj=〃+be'D.y=a+blnx

解析由散点图可以看出,随着温度x的增加,发芽率y增加到一定程度后,变化率越来

越慢,符合对数型函数的图象特征.

3.[2024江苏徐州模拟]如图,在一组样本数据A(2,2),B(4,

.*,7)

,£(10,6

3),C(6,4),D(8,7),E(10,6)的散点图中,若去掉。•C(6.4)

.•留4,3)

(8,7),则下列说法正确的为(D)4(2.2)

A.样本相关系数;•变小

B.残差平方和变大

C.决定系数不变小

D.自变量%与因变量_y的相关程度变强

解析由散点图分析可知,只有。点偏离直线较远,去掉。点后,工与),的线性相关程度

变强,且为正相关,所以样本相关系数r变大,决定系数R2变大,残差平方和变小,故选

D.

4.[2024青岛市检测]已知某设备的使用年限x(年)与年维护费用),(千元)的对应数据

如下表:

x24568

>'34.56.57.59

由所给数据分析可知:%与),之间具有线性相关关系,且,,关于x的经验回归方程为9=

l.05x+a,则6=(B)

A.0.75B.0.85C.0.95D.1.05

解析由题意可知万=2+4-5+6+8=5,歹=*.5+6.5+7.5+9=6.1,则6.1=1.()5X5+6,所以6

55

=6.1-1.05X5=0.85,故选B.

5.[多选Z2024九江模拟]根据最小二乘法,由一组样本点(如),□(其中i=l,2,…,

300)求得的经验回归方程是夕=晨+心则下列说法正确的是(BD)

A.至少有一个样本点落在经验回归直线》=晨+6上

B.若所有样本点都在经验回归直线夕=>+6上,则变量间的相关系数为±1

A

C.对所有的解释变量为(i=l,2,300),力为+6的值一定与外有误差

D.若经验回归直线y=的斜率b>0,则变量r与y正相关

解析经脸回归直线必过样本点的中心,但样本点可能都不在经脸回归直线上,故A缗

A

误;若所有样本点都在经脸回归直线夕=欧+左上,则变量间的相关系数为±1,故B正

确;若所有的样本点都在经验回归直线尸鼠+a上,贝的值与v相等,故c错误;

相关系数/•与.符号相同,若经验回归直线9=晨+左的斜率♦>(),则—>(),样本点散布在

从左下角到右上角的区域,则变量x与),正相关,故D正确.故选BD.

6.[多选Z2024贵州统考]某学校高三年级甲、乙两班共1。5人进行了一次数学测试.按照成

绩大于或等于120分(满分15()分)的同学评价为“优秀生”,其他分数的同学评价为

“潜力生”进行整体水平评价,得到下面表(1)所示的列联表.已知在这105人中随机抽

取1人,“优秀生”的概率为泉根据表(2)的数据,可断定下列说法正确的是

(BC)

表⑴单位:人

成绩

班级合计

优秀生潜力生

甲班10b

乙班C30

合计105

表(2)

a0.050.010.001

xa3.8416.63510.828

A.列联表中c的值为30,b的值为35

B.列联表中c的值为20,b的值为45

C.根据列联表中的数据,有95%的把握认为成绩与班级有关

D.根据列联表中的数据,没有95%的把握认为成绩与班级有关

解析因为在这105人中随机抽取1人,“优秀生”的概率为M所以“优秀生”的人数为

105X^=30,“潜力生”的人数为105—30=75,所以。=30—10=20,力=75—30=45,

故A错B对;

因为f=1°5x;黑窑黑45)[6/09>3.841,所以有95%的把握认为成绩与班级有关,故

C对D错.故选BC.

7.[多选Z2024云南师大附中月考]已知变量x,y之间的经验回归方程为9=10.3—0.7x,且

变量x,y的数据如表所示,则下列说法正确的是(BC)

x681012

y6in32

A.变量%与),正相关

B.实数机的值为5

C.该经验回归直线必过点(9,4)

D.相应于(10,3)的残差为0.3

有力4仁*ab/乙it7—6+8+10+12c—6+m+3+2

解析由表格数据得,x=——-----=9,y=--———,将点(9,—)代入经验

4444

回归方程9=10.3—0.7x得,上黄=10.3—0.7X9,解得阳=5,所以选项B正确:

山巴=4,即样本点的中心为(9,4),所以选项C正确;

4

当变量x增加时,变量y相应值减少,两个变量负相关,所以选项A错误:

由残差的定义知,观测值臧去预测值为残差,由经验回归方程9=10.3—0.7占令x=l(),

得预测值夕=3.3,则相应于(10,3)的残差为3—3.3=—0.3,所以选项D错误.故选BC.

8.[2024海南月考]某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,

具体数据如下表:

单位:人

专业

性另IJ合计

非统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论