版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3讲成对数据的统计分析
课标要求命题点五年考情命题分析预料
1.了解样本相关系数的统2024天津T7,
计含义,了解样本相关关成对数据的2024全国卷乙
系与标准化数据向量夹角相关性T19;2024全国本讲是高考命题热点.对于
的关系;会通过相关系数卷IIT18回来分析,主要考查散点
比较多组成对数据的相关回来模型及图,回来方程类型的识
2024全国卷IT5
性.其应用别,求相关系数和回来方
2.了解一元线性回来模型程,利用回来方程进行预
的含义,了解模型参数的料等;对于独立性检验,
2024全国卷甲
统计意义,了解最小二乘主要考查列联表和依据小
T19;2024新高
原理,驾驭一元线性回来概率值的独立性检验,常
考卷IT20:2024
模型参数的最小二乘估计与概率综合命题.题型以解
列联表与独全国卷甲T17:
方法;针对实际问题,会答题为主,难度中等.预料
立性检验2024全国卷甲
用一元线性回来模型进行2025年高考会以创新生产
TI7:2024新高
预料.生活实践情境为载体考查
考卷IT19;2024
3.理解2X2列联表的统回来分析和独立性检验.
全国卷HIT18
计意义;了解2X2列联
表独立性检验及其应用.
1.变量的相关关系
(1)正相关和负相关:从整体上看,当一个变量的值犀加时,另一个变量的相应值也呈现
①一增加的趋势,我们就称这两个变量②一止相关;当一个变量的值增加时,另一个
变量的相应值呈现③」的趋势,则称这两个变量④负相关.
(2)线性相关:一般地,假如两个变量的取值呈现⑤」L相关或相关,而且散
点落在⑦一一条直线旁边,我们就称这两个变量线性相关.
(3)非线性相关或曲线相关:一般地,假如两个变量具有相关性,但不是线性相关,那么
我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
n
(I)样本相关系数r=、c
Jil苫5一”
(2)样本相关系数r的性质
①当,,0时,称成对样本数据⑧正相关;当,VO时,称成对样本数据⑨负相
关;当r=0时,只表明成对样本数据间没有线性相关关系,但不解除它们之间有其他相
关关系.
②IrIW1.当I川越接近于1,成对样本数据的线性相关性越⑩」Irl越接近于
0,成对样本数据线性相关性越⑪弱.
3.一元线性回来模型
(1)一元线性回来模型
我们称『=丘+°+,',为丫关于x的一元线性回来模型.其中,y称为因变量或
(e)=0,0(e)=o2
响应变量,x称为自变量或说明变最;。和力为模型的未知参数,〃称为截距参数,b称为
斜率参数;e是丫与必+。之间的随机误差.
(2)阅历回来方程与最小二乘估计
阅历回来方程:y=bx-\-d.
n_n
AZ(X|-x)(yi-y)Xiyi-nxyA
最小二乘估计:b=^-n----------2—=⑫以“,,a=y-bx.
i=li=l
说明阅历回来方程,也称阅历回来函数或阅历回来公式,其图形称为阅历回来直线.阅历
回来直线过点(x,y).
(3)残差
对于响应变量匕通过观测得到的数据称为观测值,通过阅历回来方程得到的夕称为预料
值,观测值减去⑬预料值称为残差.
(4)确定系数
n2
、、£(%一负)n
确定系数代用来比较两个模型的拟合效果,/?2=1_平——].其中Z('•一/)2是残差
£1=1
1=1
平方和,片越大(越接近1),表示残差平方和越小,印模型的拟合效果越好;N越小,
表示残差平方和越大,即模型的拟合效果越差.
4•列联表与独立性检验
(1)2X2列联表
一般地,假设有两个分类变量X和匕它们的取值为{0,1},其样本频数列联表(称为
2义2列联表)为:
Y
X合计
r=oY=\
x=oaha+b
x=\cdc+d
合计a~\~cb+d〃=a+Z?+c+d
(2)独立性检验
/=,匚….利用f的取值推断分类变量x和丫是否独立的方法称为f独立
(a-rb){c-ra)(a+c)(b+a)
性检验,读作“卡方独立性检验”,简称独立性检验.
(3)临界值
对于任何小概率值a,可以找到相应的正实数%,使得PJ22M)=a成立,我们称心为
a的临界值,这个临界值可作为推断f大小的标准.概率值a越小,临界值x“⑭越大.
下表给出了々独立性检验中5个常用的小概率值和相应的临界值.
a0.10.050.01().0050.001
x«2.7063.8416.6357.87910.828
(4)基于小概率值。的检验规则
当公2乂时,我们就推断〃。⑮不成立,即认为X和网不独立,该推断犯错误的
概率不超过a;
当fVxa时,我们没有充分证据推断从不成立,可以认为X和X©独立.
说明若匚2越大,则两个分类变量有关的把握越大.
1.下列四个散点图中,变量工与y之间具有负的线性相关关系的是(D)
2.下列说法正确的是(D)
A.在阅历回来方程夕=一0.85汇+2.3中,当说明变量x每僧加1个单位时,响应变量平均削
减2.3个单位
B.若两个变量的相关性越强,则「越接近于1
C.在回来分析中,确定系数R2=0.8()的模型比确定系数R2=0.98的模型拟合的效果要好
D.残差平方和越小的模型,拟合的效果越好
解析对于A,依据阅历回来方程,当说明变量x每增加1个单位时,响应变量?平均削减
().85个单位,故A错误;对于B,若两个变量的相关性越强,则Irl越接近于I,故B错
误;对于C,用确定系数R2的值推断模型的拟合效果,R?越大,模型的拟合效果越好,所
以C错误:对于D,由残差的统计学意义知,D正确.
3.为考查某种养分品对儿童身高增长的影响,选取部分儿童进行试验,依据100个有放回
简洁随机样本的数据,得到如下列联表,由表可知下列说法正确的是(D)
养分品身高合计
有明显增长无明显增长
食用Cl1050
未食用b3050
合计6040100
A.a=/>=30
B./2^12.667
C.从样本中随机抽取I名儿童,抽剑食用该养分品口身高有明显增长的儿童的概率是|
D.依据小概率值。=0.001的独立性检验,可以认为该养分品对儿童身高增长有影响
解析由题可知。=50—10=40,6=50—30=20,所以A错误:/2=
IOOX<40x30—10x20)心[6.667>10.828=xo.ooi,所以依据小概率值Q=0.001的独立性检验,
50x50x60x40
可以认为该养分品对儿童身高增长有影响,所以B错误,D正确;从样本中随机抽取I名
儿童,抽到食用该养分品且身高有明显增长的儿童的概率是券所以C错误.
4.12024福州5月质检]已知变量x和),的统计数据如下表:
X678910
y3.54566.5
若由表中数据得到阅历回来方程为夕=0.8x+6,则x=10时的残差为一-0.1.(注:见测
值减去预料值称为残差)
解析易知元=8,y=5,.*.3=5—0.8X8=—1.4,.•・x=10时,夕=8—14=6.6,/.x=10
时的残差为6.5-6.6=-0.1.
研透高考明确方向
命题点1成对数据的相关性
角度1推断两个变量的相关性
例I(1)已知变量x和),近似满意关系式),=-0.以+1,变量y与z正相关.下列结论中正
确的是(C)
A..r与y正相关,x与z负相关
B.X与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析由y=-0.1x+l,知x与y负相关,即y随x的增大而减小,又),与z正相关,所以
z随y的增大而增大,随):的减小而减小,所以z随x的增大而减小,x与z负相关.
(2)[2024湖北仙桃中学模拟]对四组数据进行统计后,获得了如图所示的散点图,四组
数据的相关系数分别为门,鼻,-3,小,对各组的相关系数进行比较,正确的是(C)
第一组其次组
第三组第四组
A.n<r2<0<n<r4B.r4<n<0<r2<r3
<3.「2<r3<0<r4<〃D.ri<r4<0<r3<r2
解析由题图可知,第一、四组数据均正相关,其次、三组数据均负相关,当相关系数的
确定值越大时,数据的线性相关性越强.第一组数据的线性相关性较第四组强,则">自>
0,其次组数据的线性相关性较第三组强,则I,2I>I,3I,且/2<0,n<0,则r2<r3<
0.
因“匕,故选C.
方法技巧
推断两个变量相关性的3种方法
若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到
画散点图
右下角,则两个变量负相关.
利用样本相
厂>0时,正用关;「V。时,负相关;1r1越接近于1,线性相关性越强.
关系数
利用阅历回AA
b>0时,止相关;bVO时,负相关.
角度2相关系数的计算
例2[2024全国卷乙]某地经过多年的环境治理,己将荒山改造成了绿水青山.为估计一林区
某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:
m2)和材积量(单位:nr),得到如下数据:
样本号/12345678910总和
根部横截
0.040.060.040.080.080.050.050.070.070.060.6
面积为
材积量>70.250.400.220.540.510.340.360.460.420.403.9
101010
并计算得Z靖=0.038,Zyj2=L6158,£^,=0.2474.
i=li=li=l
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).
(3)现测量了该林区全部这种树木的根部横截面积,并得到全部这种树木的根部横截面积
总和为186m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区
这种树木的总材积量的估计值.
一,,Z<Xi-x)(yi-y)________
附:相关系数r=-r'=1,<L896^1.377.
/n2n2
10
解析⑴估计该林区这种树木平均一棵的根部横截面和土=/-=箸=0.06,估计该林区
10
Zyion
这种树木平均一棵的材积量歹=弋-=云=0.39.
1010
(2)Z(A7-x)(y,-y)=Zx/>7-10xy=0.0134,
i=li=l
S(Xj-x)*I2=£Xj2-10x2=0.002,
i=li=l
io2io
Z(%一歹)=zyi2-10y9=0.0948,
i=li=l
102102____________________________
Jz(%j-x)Z(Vj-y)=V0.002x0.0948=70.0001x1.896^0.01X1.377=
i=li=l
io
2(Xi-x)(y|-y)
0.01377,所以样本相关系数厂=।E、您nn丝i7440.97.
J101020.01377
IZ5一三2)Z(”一歹)
#=1i=l
(3)设该林区这种树木的总材积量的估计值为Km3,由题意可知,该种树木的材积量与
其根部横裁面积近似成正比,所以鳖=工,所以y=186X0.39=]209,
0.0G1060.06
即该林区这种树木的总材枳量的估计值为1209m3.
训练I变量X与y相对应的一组数据为(10,I),(11.3,2),(11.8,3),(12.5,
4),(13,5);变量。与V相对应的一组数据为(10,5),(11.3,4),(11.8,
3),(12.5,2),(13,1)4表示变量V与X之间的线性相关系数,〃表示变量V与U
之间的线性相关系数,则(C)
A.r2<ri<0B.0<r2</'i
C.r2<0<nD/2=C
解析由题中的数据可知,变量丫与x正相关,相关系数门>0,变量v与u负相关,相
关系数「2<0,即r2<0<〃.故选C.
命题点2回来模型及其应用
角度1一元线性回来模型
例3[2024广西联考]某省为调查北部城镇2024年GDP,抽取了20个城镇进行分析,得到
样本数据(为,%)(/=1,2,…,20),其中为•和M分别表示第,•个城镇的人口(单位:
202020
万人)和该城镇2024年GDP(单位:亿元),计算得2即=100,Zy,=800,工(为一
i=li=li=l
2020
x)2=70,Z(V一歹)2=280,£x)(»一歹)=120.
i=li=l
(1)请用相关系数「推断该组数据中),与X之间线性相关关系的强弱(若I/I£[0.75,
1],相关性较强;若INe[0.30,0.75),相关性一般;若回一0.25,0.25],相关性较
弱).
(2)求),关干x的线性回来方程.
(3)若该省北部某城镇2024年的人II约为5万人,依据(2)中的线性回来方程估计该城
镇2024年的GDP.
n
Z(xi-x)(yj-y)
参考公式:相关系数,对于一组具有线性相关关系的数据(小
n2n2
X(Xj-x)£(yi-y)
Ji=li=l
»)(Z=l,2,…,〃),其回来直线夕=)+式的斜率和截距的最小二乘估计分别为5=
Z(同一⑷(万一夕)A
----------2—,a=y—bx.
£(Xj-X)
i=l
20
z(Xj-x)(yj-y)
解析(1)由题意知,相关系数/•=i=i=1",="比0857
202202,70X280140,,
L5-三)I(y.-y)
因为),与x的相关系数「满意Irl£[0.75,I],所以),与x之间具有较强的线性相关关系.
20__
"X(Xi-x)(yj-y)
、乙)020_2707,
Eixi-x)707
i=l
的|、八
a=y—b-x=—800——12^X.—100=一220,所以1y=-12xd,-2-2-0.
Z207207Z77
(3)由(2)可估计该城镇2024年的GDP9=£x5+—=40(亿元).
方法技巧
回来模型问题的类型及解题方法
(1)求阅历回来方程:
①利用数据,求出万,y;
②利用公式,求出回来系数加
③利用阅历回来直线过样本点的中心(北歹),求6.
(2)利用阅历回来方程进行预料:干脆将已知的自变量的某个数值代入阅历回来方程求得
特定要求下的预料值.
(3)推断回来模型的拟合效果:利用残差平方和或确定系数2推断,R2越大,表示残差
平方和越小,即模型的拟合效果越好.
角度2非线性回来模型
例4[2024重庆市三检]己知变量),关于x的阅历回来方程为y=e^-°6,若对y=沙圻回两
边取自然对数,可以发觉1”,与x线性相关,现有一组数据如表所示:
X12345
yee行3e-4e-6e
则当x=6时,预料y的值为(C)
A.9B.8C.e9D.e8
解析对y=a、。6两边取自然对数,得]ny=bx—0.6,令z=lny,则z=bx—0.6,数据为
X12345
ye/?卡
z13467
由表格数据,得亍十;""=3,2=E二e'=4.2.将(3,4.2)代入z=bx-0.6,得
4.2=3b-0.6,(方法技巧:阅历回来方程只含一个未知数问题主要是依据阅历回来直线
y=bx+a必过样本点的中心(元,y)求解)
解得。=1.6,所以z=1.6x-0.6,即丫=ei・6x-°-6.当x=6时,y=解6X6-0-6=e)故选C.
方法技巧
1.解决非线性回来模型问题的思路:依据数据的散点图,选择恰当的拟合函数,用适当的
变量进行转换,如通过换元或取对数等方法,把问题化为线性回来模型问题,使之得到解
决.
2.常见的非线性回来模型及转换技巧
(1)y=a+^,令v=:,则y=a+bv;
(2)y=a+Z?lnx(b0),令o=lnx,则y=a+加;
(3)y=a^>(tz>(),b*0),令c=lna,v=\nx,w=lny,贝[“=c+加;
(4)y=aebx(«>0,bWO),令c=lna,w=lny,则"=c'+Z?x.
训练2[2024合肥市质检]探讨表明,温度的突然变更会引起机体产生呼吸道上皮组织的生
理不良反应,从而导致呼吸系统疾病的发生或恶化.某中学数学建模社团成员欲探讨昼夜温
差大小与该校高三学生患感冒人数多少之间的关系,他们记录了某周连续六天的昼夜温
差,并到校医务室查阅了这六天中每天高三学生新增患感冒而就诊的人数(假设患感冒必
到校医务室就诊),得到资料如F:
日期第一天其次天第三天第四天第五天第六天
昼夜温差MC47891412
新增就诊人数),/位yi>'4训
参考数据:1^=3160,£(%一歹)2=256.
i=ii=i
(1)已知第一天新增患感冒而就诊的学生中有7位女生,从第一天新增患感冒而就诊的学
生中随机抽取3位,若抽取的3人中至少有一位男生的概率为葛,求》的值:
(2)已知两个变量r与),之间的样本相关系数r=搭,试用最小二乘法求出),关于x的阅历
16
回来方程夕=bx+6,据此估计昼夜温差为15℃时,该校高三新增患感冒而就诊的学生数
(结果保留整数).
Ax<Xi-x)(yj-y)
参考公式;b=^------------—
X<Xj-X)
i=l
Z<Xi-x)cvi-y>
i-l
'n2/n
215r)落(ys-y)
*_17
解析(1)VI砾;一总
7x6x57
,•%5-1)81-2)24,
Ayi(yi-1)(yi-2)=720=10X9X8,Ayi=IO.
(2)VZx,=54,Ax=9,£(x;—x)2=64.
i=li=l
百(与一功(y「9)_昌5—初乂一歹〉_1$6
,;・Z(X,—x)(>7—y)=8X15,
8X16i=l
<x,—x)■
.5一积“一评_8X15_15
一募(%i-x)2648
i=l
66:2=fyi2-6y2=256,解得了=22,:.a=y~bx=22
又Z(加一歹)2=ZW—2歹•ZM+6P
i=li=li=li=l
—受X9=%,
8
・・・y=1+警,当x=15时,y=、+】X15比33,
8888
故可以估计昼夜温差为15℃时,该校高三新增患感冒而就诊的学生数为33.
命题点3列联表与独立性检验
例5[2024全国卷甲改编]甲、乙两城之间的长途客车均由八和B两家公司运营.为了解这两
家公司长途客车的运行状况,随机调查了甲、乙两城之间的500个班次,得到下面列联
表:
准点班次数未准点班次数
A24020
B21030
(1)依据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)依据小概率值a=0.1的独立性检验,分析甲、乙两城之间的长途客车是否准点与客
车所属公司有关.
附._____几—c)_______,
A(a+b)(c+d)(a+c)(h+d)
a0.10.0500.0100.001
Xa2.7063.8416.63510.828
解析(1)由题表可得A公司甲、乙两城之间的长途客车准点的概率为就会=看,
B公司甲、乙两城之间的长途客车准点的概率为募为=(
(2)零假设为从):甲、乙两城之间的长途客车是否准点与客车所属公司无关.依据2X2列
联表,
500X(240X30-20X210)
可得12=比3.205>2.706=X0』
(240+20)X(210+30)X(240+210)X(20+30)
依据小概率值。=0.1的独立性检脸,我们推断“()不成之,
即认为甲、乙两城之间的长途客车是否准点与客车所属公
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 停车场系统维修外包合同
- 冻结法隧道施工工艺及施工方法
- 公园物业管理外包合同
- 2026年职业健康培训考试试题及答案
- 公司让离职签给外包合同
- 腔镜手术基本操作及相关知识试题与答案
- 雨期基坑施工工艺
- 旅馆从业在线考试题及答案解析
- 麻醉科主治医师考试(疼痛诊疗学及危重病医学)试题及答案
- 口唇破溃护理
- 做账实操-财务交接及半路建账实操SOP
- 未成年人家庭监护能力评估通知书、参考指标、评估报告(参考)
- 学校结构化面试试题及答案
- 考叉车证科目一模拟试题
- 2025年江苏省苏州市工业园区事业单位招聘考试综合类专业能力测试试卷及答案
- 串串店加盟易合同范本
- 诚信管理体系知识培训课件
- 戚继光马上作课件
- 2025年中国花岗岩石材数据监测报告
- 临床试验SAE培训课件
- 人工智能应用技术基础 课件 项目七 解码人工智能生成内容AIGC的独特技术
评论
0/150
提交评论