成对数据的统计(基础):相关系数,回归方程,独立性检验(解析版)-2024-2025学年人教A版高二数学下册重难点突破_第1页
成对数据的统计(基础):相关系数,回归方程,独立性检验(解析版)-2024-2025学年人教A版高二数学下册重难点突破_第2页
成对数据的统计(基础):相关系数,回归方程,独立性检验(解析版)-2024-2025学年人教A版高二数学下册重难点突破_第3页
成对数据的统计(基础):相关系数,回归方程,独立性检验(解析版)-2024-2025学年人教A版高二数学下册重难点突破_第4页
成对数据的统计(基础):相关系数,回归方程,独立性检验(解析版)-2024-2025学年人教A版高二数学下册重难点突破_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题4-1成对数据的统计(基础):相关系数,回归方程,独立性检验

【题型1】相关关系与函数关系的概念及辨析

【题型2】样本相关系数的意义及辨析

【题型3】相关系数的计算

【题型4】回归直线方程的意义与样本中心点

【题型5】残差的计算

【题型6】刻画回归效果的方式

【题型7】利用最小二乘估计公式求回归直线方程

【题型8】决定系数计算

【题型9】由散点图求近似回归方程(非线性)

【题型101非线性拟合小题

【题型11]联表的完善

【题型12]独立性检验的概念及辨析

【题型13]卡方的计算

_1______________________

【题型1】相关关系与函数关系的概念及辨析

概念梳理

函数关系:指变量之间存在的一种严格、完全确定性的关系,即一个变量的数值完全由另一个变量的数值

所确定、控制。函数关系通常可以用数学公式确切地表示出来,例如圆的面积与半径之间的关系.

相关关系:不是完全确定的,即一个变量的变化不能完全决定另一个变量的变化,例如身高与体重之间的

关系,虽然身高和体重有关,但身高不能完全决定体重.

【例题1】(24-25高二下•河南洛阳•阶段练习)下列说法正确的是()

A.任何两个变量都具有相关关系

B.球的体积与该球的半径具有相关关系

C.农作物的产量与施化肥量之间是一种确定性关系

D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系

【分析】根据相关关系是一种不确定关系,函数关系是一种确定关系,可判断A;根据球的体积与半径之

间的关系,可判断该关系为函数关系,可判断B;根据农作物的产量与施化肥量之间的关系可得该关系为

一种相关关系,可判断C;根据学生的数学成绩与物理成绩之间是一种相关关系可判断D.

【详解】解:当两个变量之间具有确定的关系时,两个变量之间是函数关系,而不是相关关系,故A错误;

球的体积与该球的半径之间是函数关系,故B错误;

农作物的产量与施化肥量之间的关系是相关关系,是非确定性关系,故C错误;

学生的数学成绩与物理成绩之间的关系是相关关系,是非确定性关系,故D正确.

【例题2】(23-24高二下•甘肃兰州•期末)下列各关系不属于相关关系的是()

A.产品的成本与生产数量B.球的表面积与体积

C.家庭的支出与收入D.人的年龄与体重

【答案】B

【分析】根据相关关系的定义判断.

【详解】对于A:产品的成本与生产数量是相关关系,故A正确;

对于B:设球的半径为R,球的表面积为S、体积为V,

所以球的表面积与体积是一种函数关系,故B错误;

对于C:家庭的支出与收入是相关关系,故C正确;

对于D:人的年龄与体重是相关关系,故D正确.

【巩固练习1】(23-24高二下•吉林•期末)下列两个变量中能够具有相关关系的是()

A.人的身高与受教育的程度B.人的体重与眼睛的近视程度

C.企业员工的工号与工资D.儿子的身高与父亲的身高

【答案】D

【分析】根据相关关系的定义判断即可.

【详解】对于A:人的身高与受教育的程度不具有相关关系,故A错误;

对于B:人的体重与眼睛的近视程度不具有相关关系,故B错误;

对于C:企业员工的工号与工资不具有相关关系,故C错误.

对于D:儿子的身高与父亲的身高具有相关关系,故D正确.

【巩固练习2】(23-24高二下•北京丰台•期末)在一般情况下,下列各组的两个变量呈正相关的是()

A.某商品的销售价格与销售量B.汽车匀速行驶时的路程与时间

C.气温与冷饮的销售量D.人的年龄与视力

【答案】C

【分析】根据相关关系的概念逐项判定,即可求解.

【详解】对于A,某商品的销售价格与销售量呈负相关关系,故错误;

对于B,汽车匀速行驶时的路程与时间是函数关系,故错误;

对于C,气温与冷饮的销售量呈正相关,故正确;

对于D,人的年龄与视力呈负相关,故错误.

故选:C.

【巩固练习3](23-24高二下.安徽.期末)下列两个变量之间的关系是相关关系的是()

A.等边三角形的边长。与其面积S

B.匀速直线行驶的汽车的位移s与行驶时间,

C.杂交水稻植株的高度h与土壤湿润度r

D.某班的学生人数”与该班某次数学考试的平均分x

【答案】C

【分析】根据相关关系的定义即可逐一判断.

【详解】对于A选项,因为5=且/,边长。与面积s是确定的函数关系,故A错误;

4

对于B选项,设匀速直线行驶的汽车的速度为v,s=vt,所以位移s与行驶时间看是确定的函数关系,故

B错误;

对于C选项,杂交水稻植株的高度。与土壤湿润度厂具有相关关系,通常情况下,土壤湿润度厂会一定程

度上影响杂交水稻植株的高度值的,故C正确;

对于D选项,因为班级某次数学考试的平均分x等于班级总分除以学生人数2所以当班级总分确定的情

况下,某班的学生人数几与该班某次数学考试的平均分工是一种确定关系,故D正确

【题型2】样本相关系数的意义及辨析

样本相关系数r:衡量两个变量之间线性关系的强弱

①当r>0时,称成对样本数据正相关;当rv0时,成对样本数据负相关;当r=0时,成对样本数据间没

有线性相关关系.

②样本相关系数厂的取值范围为1,1]

当卜|越接近1时,成对样本数据的线性相关程度越强;

当H越接近。时,成对样本数据的线性相关程度越弱.

【例题1】(23-24高二下.北京丰台•期末)在一般情况下,下列各组的两个变量呈正相关的是()

A.某商品的销售价格与销售量B.汽车匀速行驶时的路程与时间

C.气温与冷饮的销售量D.人的年龄与视力

【分析】根据相关关系的概念逐项判定,即可求解.

【详解】对于A,某商品的销售价格与销售量呈负相关关系,故错误;

对于B,汽车匀速行驶时的路程与时间是函数关系,故错误;

对于C,气温与冷饮的销售量呈正相关,故正确;

对于D,人的年龄与视力呈负相关,故错误.

【例题2】(23-24高二下.黑龙江哈尔滨•期末)(多选)已知5个成对数据(x,y)的散点图如下,若去掉点

。(4,3),则下列说法正确的是()

”(1,4)

,.5(2,3.5)

.・。(4,3)

C(3,2.5)

______________E$1)

O%

A.变量x与变量y呈正相关B.变量x与变量y的相关性变强

C.样本相关系数厂变小D.样本相关系数厂变大

【答案】BC

【分析】根据已知条件,结合变量间的相关关系,结合图象分析判断即可.

【详解】由散点图可知,去掉点0(4,3)后,y与X的线性相关加强,且为负相关,

所以B正确,A错误;

由于y与X的线性相关加强,且为负相关,所以相关系数r变小,

由于y与x的线性相关加强,且为负相关,所以相关系数的绝对值变大,

而相关系数为负的,所以样本相关系数厂变小,所以D错误.

【例题3】(23-24高二下•吉林长春•期中)已知变量尤与y的回归直线方程为y=3x-l,变量y与z负相关,

则()

A.x与y负相关,尤与z负相关B.x与y正相关,x与z正相关

C.x与y负相关,尤与z正相关D.x与y正相关,尤与z负相关

【答案】D

【分析】根据已知条件,结合回归方程可判断x与y正相关,再由变量y与z负相关,即可判断尤与z负相

关.

【详解】根据回归方程y=3x-l可知变量x与y正相关,又变量y与z负相关,

由正相关、负相关的定义可知,尤与z负相关.

【巩固练习。(23-24高二下•北京东城・期末)某校学生科研兴趣小组为了解1~12岁儿童的体质健康情况,

随机调查了20名儿童的相关数据,分别制作了肺活量、视力、肢体柔韧度、BMI指数和身高之间的散点

图,则与身高之间具有正相关关系的是()

BMIA

O崩°

A.肺活量B.视力C.肢体柔韧度D.BMI指数

【答案】A

【分析】根据给定的散点图,结合正相关的意义判断即得.

【详解】对于A,儿童的身高越高,其肺活量越大,肺活量与身高具有正相关关系,A正确;

对于B,儿童的视力随身高的增大先增大,后减小,视力与身高不具有正相关关系,B错误;

对于C,肢体柔韧度随身高增大而减小,肢体柔韧度与身高不具有正相关关系,C错误;

对于D,BMI指数与身高的相关性很弱,不具有正相关关系,D错误.

【巩固练习2】(24-25高二下•江西上饶•阶段练习)对四组数据进行统计,获得如图所示的散点图,关于其

样本相关系数的比较,正确的是()

35353535

30303030

25252525

20202020

15151515

10101010

5555

05101520253035051015202530350510152025303505101520253035

样本相关系数为小样本相关系数为「2样本相关系数为-3样本相关系数为-4

(1)(2)(3)(4)

A.全<QV0<厂3<GB.Q<72V0<厂1<丁3

C.Q<r2Vo<厂3VD.72VqV0<<73

【分析】根据相关系数的概念即可判断.

【详解】由图可知图(1)和图(3)是正相关,故相关系数为正,又因为图(1)的点较图(3)的点分布

密集,故相关性图(1)更好,相关系数较大,即0<73<71;

图(2)和图(4)是负相关,故相关系数为负,又因为图(2)的点较图(4)的点分布密集,故相关性图

(2)更好,相关系数的绝对值较大,即IQIVIql,故/2<QV0;

综上可知:r2<r4<0<r3<

【巩固练习3】(24-25高二上•河北沧州•阶段练习)变量%与y相对应的一组数据为

(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量〃与u相对应的一组数据为

(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),q表示变量y与%之间的线性相关系数,厂2表示变量〃与〃之间的线

性相关系数,则()

A.r2<?i<0B.0<r2<rr

C.r<0<

2D.r2=rr

【分析】根据正相关,负相关判断丁1,丁2的正负,即可比较大小.

【详解】由变量%与y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),

可得变量y与汽正相关,所以丁1>0.

而由变量〃与u相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12:5,2),(13,1),

可知变量u与〃负相关,所以丁2<0,所以G与丁2的大小关系是丁2<0<

【题型3】相关系数的计算

基胴识

对于变量尤和变量%设经过随机抽样获得的成对样本数据为(看,凹),(X2J2),(X“,y“),利用

相关系数厂来衡量两个变量之间线性关系的强弱,相关系数厂的计算公式:

£(汨—x)(凹—y)£—nx-y

__z=1.

r_i=\z

=I"----I,=/〃“(其中Xi,X2,…,X.和*,

)忙(%—3y①(x/—八2)晓(%22)

必,…,%的均值分别为x和y).

若线性相关程度很高,则两个变量之间可用线性线性回归模型拟合.

[例题1]若已知£忆式看一君2是£忆式%—9)2的两倍,£忆式看一君(力—歹)是£匕(%—歹)2的1.2倍,则

相关系数r的值为()

A.—B.qC.0.92D.0.65

1.2V2

【解题思路】根据相关系数公式计算可得;

2.式.一君二1.22£/%―7)2=12

T=

2鼠(XE-S-叵嬴寻迎DZQL"也

【例题2】部门所属的10个工业企业生产性固定资产价值与工业增加值数据如下(单位:百万元):

固定资产价值33566789910

工业增加值15172528303637424045

根据上表数据计算的相关系数为()

A.0B.-0.8973C.1.0228D.0.9918

【解题思路】根据已知条件,结合相关系数的公式,即可求解.

【解答过程】由表中数据可得,x=^x(3+3+5+•--+9+10)=6.6,9=卷X(15+17+25+--+40+

45)=31.5,

2::蛭-10x2=(32+32+52+•••+102)-10X6.62=54,4,-10y2=(152+172+252+

…+452)-iox31.52=954.5,

鹉/%-10x-y=(3x15+3x17+5x25+­­•+10x45)-10x6.6x31.5=226,

用r=------2仁1(%一工)(%一9)----_--------------X昌1------_——空——xo9918

故22MI%-"卮声碇乔丽由E-

【巩固练习1】一唱片公司欲知唱片费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片

中随机抽选了10张,得如下的资料:2gxi=28,2:[蛭=303.4,£随%=75,夕::%?=598.5,

£时阳为=237,则y与龙的相关系数厂的绝对值为()

A.0.6B.0.5

C.0.4D.0.3

【解题思路】运用相关系数公式进行求解即可.

【解答过程】因为2以左=28,鹉%=75,所以元=2.8,9=7.5,

,,\^=iX-10xy\I237-10X2.8X7.5I

r=---i-y-i--=----------

IV*102.八/一、?IV*102\?V303.4—10x2.82xV598.5—10x7.52

x2

J2i=1i一10(久尸[Z曰W-io(y)

【巩固练习2】某大学生在国家提供的税收、担保贷款等很多方面的政策扶持下选择加盟某专营店自主创

业,该专营店统计了近五年来创收利润数%(单位:万元)与时间《(单位:年)的数据,列表如下:

412345

%2.42.74.16.47.9

依据表中给出的数据,是否可用线性回归模型拟合y与t的关系,请计算相关系数「并加以说明(计算结果

精确到0.01).(若M>0・75,则线性相关程度很高,可用线性回归模型拟合)

【答案】0.97,理由见解析

【知识点】相关系数的计算、相关系数的意义及辨析

【分析】依次计算T,V,复%,后a-讨和寸,代入相关系数计算公式,计算即得相关

V曰Vi=l

系数〃的值,与0.75比较得出结论.

【详解】由题可知:7=3,y=|(2.4+2.7+4.1+6.4+7.9)=4.7,

5

=1x2.4+2x2.7+3x4.1+4x6.4+5x7.9=85.2,

2)/厂"万

85.2-5x3x4.714.7

~0.97>0.75

710x^/22.782J56.95

即y与/的线性相关程度很高,可用线性线性回归模型拟合.

【巩固练习3]

【题型4】回归直线方程的意义与样本中心点

回归直线方程是统计学中用于描述两个变量间线性关系的数学模型,其形式为y=a+加;,其中。为截距,

b为回归系数(斜率)。通过最小二乘法,该方程最小化了数据点与直线的垂直距离平方和,从而反映变量

间的整体趋势。

重要考点:回归直线必经过样本中心点(三7),且6表示自变量每增加1单位时因变量的平均变化量。其

应用包括预测、决策优化及理论验证,但需先通过散点图确认线性关系,避免非线性或异常值影响结果。

【例题11小明同学在做市场调查时得到如下样本数据:

X13610

y8a42

他由此得到回归直线方程为歹=-2.1%+15.5,则下列说法不正确的是()

A.变量尤与y线性负相关B.当x=2时可以估计y=11.3

C.a=6D.变量x与y之间是函数关系

【分析】由回归系数B=-2,1<0,可判定A正确;当x=2时,求得y=11.3,可判定B正确;求得样本

中心(5,*),代入回归直线方程,求得a的值,可判定C正确;由回归直线方程的意义可判定D不正确.

【详解】对于A中,由回归直线方程夕=-2,1久+15.5,可得片=-2,1<0,

所以变量x与y线性负相关,所以A正确;

对于B中,当%=2时,可得夕=一2.1x2+15.5=11.3,所以B正确;

对于C中,由统计图表中的数据,可得元=1+3:6+10=5,歹=8+a:4+214+a

444

即样本中心为(5,*),代入回归直线方程9=-2.1x+15.5,

4

可得^=-2.1x5+15.5,解得a=6,所以C正确;

对于D中,变量x与y是线性负相关关系,不是函数关系,所以D不正确.

【例题2】某单位为了了解用电量y度与气温之间的关系,随机统计了某4天的用电量与当天气温,并

制作了对照表

气温(℃)181310-1

用电量(度)24343864

由表中数据得回归直线方程2嬴+&中瑟-2.1,预测当气温为时,用电量约为度.

【答案】69.4

【分析】由题意求1=10,7=40,根据回归直线方程过样本中心代入求解得G=61,再把x=T代

入回归直线方程运算求解.

【详解】根据题意得:气温的平均数1=10(℃),用电量的平均数亍=40(度)

•••回归直线方程9=%+<5过样本中心(10,40),即40=10(-2.1)+4,贝|&=61

y--2.1x+61

当x=7•时,贝ije=69.4

【例题3】某种产品的价格x(单位:元/kg)与日需求量y(单位:kg)之间的对应数据如表所示:

X1015202530

y1110865

根据表中的数据可得回归直线方程为夕=Bx+14.4,则以下结论错误的是()

A.变量y与x呈负相关B.回归直线经过点(20,8)

C.b=-0,32D.该产品价格为35元/kg时,日需求量大约为4kg

【解题思路】算出元歹后可得从而可判断各项的正误.

,庄ue▼—10+15+20+25+30———11+10+8+6+5二

[解答过程]x=-------------------=20,y=----------------=8,

故8=BX20+14.4即B=-0,32,故ABC都正确.

此时夕=一0.32%+14.4,令x=35,则夕=-0.32x35+14.4=-11.2+14.4=3.2,

故D错误.

【巩固练习1】下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温彳(单位:°C)的对比表,己知表

中数据计算得到y关于x的线性回归方程为y=bx+21,则据此模型预计30C时卖出奶茶的杯数为()

气温x/℃510152025

杯数y2620161414

A.9B.10C.11D.12

【答案】A

【分析】先求得石的值,再据此模型计算出30C时卖出奶茶的杯数.

【详解】%=1(5+10+15+20+25)=15,9=2(26+20+16+14+14)=18

„-33

由18=156+27,可得》=一『则》=-/30+27=9

则据此模型预计30C时卖出奶茶的杯数为9

【巩固练习2】(23-24高二下・浙江杭州•期中)已知尤,y的对应值如下表所示:若y与x线性相关,且求

得的回归直线方程为9=2余+3,则根=()

X12914

y2720m

A.30B.31C.32D.33

【答案】C

【分析】计算样本点中心(只歹),代入回归直线方程,即可求解.

口"*-12+9+1435_27+20+m47+m

【详解】由题意可知x=-------------=—,>=---------------=---------,

3333

(杨)m

将样本点中心(;35,147+一J代入回归直线方程得2x135+3=4W7+,得〃?=32.

【巩固练习3】某学生在对50位同学的身高y(单位:cm)与鞋码x(单位:欧码)的数据进行分析后

发现两者呈线性相关,得到经验回归方程y=3元+&.若50位同学身高与鞋码的均值分别为y=170,%=40,

则<5=.

【答案】50

【分析】利用回归方程必过样本中心(三亍),代人求解即可.

【详解】因为经验回归方程为£=3%+力,9=170,元=40,

所以&=y-3x=170-3x40=50.

【巩固练习4]为助力新冠肺炎疫情后的经济复苏,某电商平台为某工厂的产品开设直播带货专场.为了

对该产品进行合理定价,采用不同的单价在平台试销,得到的数据如下表所示:

单价%/元88.28.48.68.89

销量y/万件908483m7568

(1)求单价x的平均值于;

(2)根据以上数据计算得y与X具有较强的线性相关程度,并由最小二乘估计求得y关于X的经验回归方程

为£=-20尤+250,求机的值.

【答案】⑴8.5;(2)80

【分析】(1)由表格数据直接计算平均数即可;

(2)根据表格数据可求得样本中心点,代入回归方程即可求得加.

8+8.2+8.4+8.6+8.8+9o

【详解】⑴元=—"O.J.

6

90+84+83+m+75+68400+m

(2)由表格数据知:y=

66

400+m

----------=-20x8.5+250,解得:〃z=80.

6

【题型5】残差的计算

(1)残差

对于响应变量y,通过观测得到的数据称为观测值,通过经验回归方程得到的g称为预测值,观测值

减去预测值称为残差.

(2)残差图

作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残

差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.

(3)残差分析

残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是

否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差”化残差图”在残差图中分析残

差特性.

【例题1】(23-24高二下•湖南长沙•阶段练习)对具有线性相关关系的变量x,y有一组观测数据

(%,%)(7=1,2「、10),其经验回归方程为尸-2入+4,且元=5,9=9,则相应于点(13,-9)的残差为

【答案】-0.4

【分析】将样本中心代入可得&=20,即可根据残差定义求解.

【详解】)等元=5,尸=9代入/=-2.2x+G可得9=—2.2x5+&nG=20,

所以y=—2.2%+20,

故当元=13时,y——2.2x13+20=—8.6,

所以残差为—9+8.6=-0.4

【例题2】(23-24高二下•浙江•期中)某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)

的相关性,在生产过程中收集了4组对应数据(x,y),如表所示.根据表中数据,得出y关于x的经验回归

方程为y=0.1x+a.据此计算出在样本(3,2)处的残差为.

■fe(4,3.3)代入夕=0.7尤+6,解得0=0.5,

9=0.7x+0.5,

•fex=3代入解得y=0.7x3+0.5=2.6,

;.在样本(3,2)处的残差为2-26=-0.6.

【巩固练习1](23-24高二下•福建泉州•期末)某学校一同学研究温差尤。C与本校当天新增感冒人数,人的

关系,该同学记录了5天的数据:

x(C)568912

y(人)1720252835

经过拟合,发现基本符合经验回归方程亍=2.6x+&,则当x=9时,残差为.

【答案】0.4

【分析】计算出7=8,亍=25,将(8,25)代人回归方程,得到6=4.2,求出回归方程,当%=9时,

g2.6x9+4.2=27.6,计算出残差.

仁5+6+8+9+12=-17+20+25+28+351

【详解】y=-------------;-------------=25,

5

将(8,25)代入夕=2.6%+&中得,2.6x8+6=25,

解得&=25—20.8=4.2,

故_2=2.6x+4.2,当x=9时,9=2.6x9+4.2=27.6,

故残差为28—27.6=0.4.

【巩固练习2】(2024•重庆・三模)对具有线性相关关系的变量X。有一组观测数据

(%,%)«=1,2...10),元=5,9=一1,其经验回归方程y=-3.2x+a,则在样本点(3,2.9)处的残差

为.

【答案】0.5

【分析】利用样本中心在回归直线上及残差的定义即可求解.

【详解】招■元=5,9=-4代入亍=-3.2元+4,得Y=-3.2x5+&,解得d=12,

所以y--3.2x+12,

故当x=3时,y=-3.2x3+12=2.4,

所以残差e=2.9—24=0.5.

【巩固练习3】近几年,我国新能源汽车产业进入了加速发展的阶段,呈现市场规模、发展质量“双提升”

的良好局面.新能源汽车的核心部件是动力电池,其中的主要成分是碳酸锂.下表是某地2023年3月1

日至2023年3月5日电池级碳酸锂的价格与日期的统计数据:

日期代码X12345

电池级碳酸锂价格y(十万元/吨)4.13.93.8m3.9

根据表中数据,得出》关于x的经验回归方程为方=-0.05x+a,根据数据计算出在样本点(3,3.8)处的残差

为-0.1,则a-m的值为.

【答案】0.25

【分析】由残差定义可得。,再由回归方程过点(工3)可得他,即可得答案.

【详解】由题知3.8—夕=3.8—(a-0.05x3)=-0.1,可得。=4.05.

」_1+2+3+4+54.1+3.9+3.8+/71+3.915.7+m

又九二--------------=3,9=

555

由中=《05x3+4.05,

可得根=3.8.ika—m=0.25.

【题型6】刻画回归效果的方式

MSB_______________________________________

刻画回归效果的方式

⑴残差图法

作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残

差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型

比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.

(2)残差平方和法

n

残差平方和为£(M—Gy,残差平方和越小,模型拟合效果越好.

Z=1

(3)利用尺2刻画拟合效果

A?越大,模型的拟合效果越好,A?越小,模型的拟合效果越差.

(4)决定系数R2与相关系数r的联系与区别

①相关系数r反映两个变量的相关关系的强弱及正相关或负相关,决定系数尺2反映回归模型的拟合效果.

②在含有一个解释变量的线性模型中,决定系数&的数值是相关系数厂的平方,其变化范围为[0,1],而

相关系数的变化范围为[-1,1].

③当相关系数I厂|接近于1时,说明两变量的相关性较强,当|「|接近于。时,说明两变量的相关性较弱;

而当代接近于1时,说明经验回归方程的拟合效果较好.

【例题1】(23-24高二上四川绵阳•期末)有一散点图如图所示,在5个(居y)数据中去掉。(3,10)后,给出

下列说法:①相关系数厂变大;②相关指数R2变大;③残差平方和变小;④变量x与变量y的相关性变强.其

中正确说法的个数为()

•£(10,12)

•0(3,10)

•C(4,5)

•8(2,4)

7(1,3)

O|x

A.1个B.2个C.3个D.4个

【解题思路】利用散点图,结合相关性,相关指数,残差以及y与尤的相关性,逐项判定,即可求解.

【解答过程】根据题意,散点图有5个(%,y)数据中去掉。(310),

J

可得y与x的相关性越强,并且是正相关,

所以相关系数r变大,相关指数解变大,残差的平方和变小,

所以四个命题都正确.

【例题2】下列说法错误的是()

A.决定系数解越大,模型的拟合效果越好

B.若变量x和y之间的样本相关系数为r=-0.999,则变量%和y之间的负相关很强

C.残差平方和越小的模型,拟合的效果越好

D.在经验回归方程夕=-2x+0.8中,当解释变量x每增加1个单位时,响应变量夕平均增加2个单位

【解题思路】根据相关系数、决定系数、残差平方和及经验回归方程的知识逐项判断即可.

【解答过程】对于A,决定系数R2越大,模型的拟合效果越好,故A正确;

对于B,若变量x和y之间的样本相关系数为r=-0.999,则变量x和y之间的负相关很强,故B正确;

对于C,残差平方和越小的模型,拟合的效果越好,故C正确;

对于D,在经验回归方程夕=-2%+0.8中,当解释变量x每增加1个单位时,响应变量?平均减少2个单位,

故D错误.

【例题3】红铃虫是棉花的主要害虫之一,一只红铃虫的产卵数和温度有关.现收集了7组观测数据.用4种

模型分别进行拟合.由此得到相应的回归方程并进行残差分析,进一步得到如图4幅残差图,根据残差图,

拟合效果最好的模型是()

残差残差

100100

5050

00■4-------1------->--------L.

2&-…编号23456_____2……编号

-50-50

-100-100

模型一的残差图模型二的残差图

残差残差

100100

5050

00

23456J编号23456*7编号

-50-50

-100-100

模型三的残差图模型四的残差图

A.模型一B.模型二C.模型三D.模型四

【答案】D

【分析】利用残差点分布的带状区域越窄,拟合精度越好,拟合效果越好即可选出答案.

【详解】当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,

这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,

对比4个残差图,可知模型四的图对应的带状区域的宽度最窄.

【巩固练习1】(23-24高二上.四川绵阳•期末)有一散点图如图所示,在5个(x,y)数据中去掉。(3,10)后,

给出下列说法:①相关系数厂变大;②相关指数R2变大;③残差平方和变小;④变量尤与变量y的相关性

变强.其中正确说法的个数为()

4•£'(10,12)

•0(3,10)

•C(4,5)

"2,4)

7(1,3)

-------------------------------►

O-----------------------------x

A.1个B.2个C.3个D.4个

【解题思路】利用散点图,结合相关性,相关指数,残差以及y与x的相关性,逐项判定,即可求解.

【解答过程】根据题意,散点图有5个(x,y)数据中去掉。(310),

可得y与x的相关性越强,并且是正相关,

所以相关系数r变大,相关指数R2变大,残差的平方和变小,

所以四个命题都正确.

【巩固练习2】为研究光照时长x(小时)和种子发芽数量》(颗)之间的关系,某课题研究小组采集了9

组数据,绘制散点图如图所示,并对x,y进行线性回归分析.若在此图中加上点P后,再次对x,y进行

线性回归分析,则下列说法正确的是()

A.x,y不具有线性相关性B.决定系数R2变大

C.相关系数厂变小D.残差平方和变小

【答案】C

【分析】从图中分析得到加入尸点后,回归效果会变差,再由决定系数,相关系数,残差平方和及相关性

的概念和性质作出判断即可.

【详解】对于A,加入尸点后,变量x与预报变量y相关性变弱,

但不能说x,y不具有线性相关性,所以A不正确

对于B,决定系数越接近于1,拟合效果越好,所以加上点尸后,决定系数代变小,故B不正确;

对于C,从图中可以看出P点较其他点,偏离直线远,所以加上点尸后,回归效果变差.

所以相关系数厂的绝对值越趋于0,故C正确;

对于D,残差平方和变大,拟合效果越差,所以加上点P后,残差平方和变大,故D不正确;

【巩固练习3]为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率y(%)

与复工时间的取值为5,10,15,20,25,30天)的回归关系:模型(1)严=a+6x,模型(2)严=*+&,

设两模型的决定系数依次为R;和后.若两模型的残差图分别如下,则()

模型(1)的残差图模型(2)的残差图

62

律3残1

差0差0

%%

-3-1

-6-2

5101520253051015202530

A.B.R;=R;

C.R;>R;D.R;、R;关系不能确定

【答案】A

【分析】根据残差点图分析拟合效果,从而得到答案.

【详解】根据残差点图,模型(2)残差点比较均匀地落在水平的带状区域中,带状区域宽度窄,拟合精

度较高,所以

【题型7】利用最小二乘估计公式求回归直线方程

回归直线方程过样本点的中心(x,y),是回归直线方程最常用的一个特征;

我们将m=%+6称为y关于%的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回

归直线。这种求经验回归方程的方法叫做最小二乘法,求得的方,&,叫做〃,a的最小二乘估计,其中g称

为回归系数,它实际上也就是经验回归直线的斜率,4为截距.

【例题1](24-25高三上・浙江•期末)年初,甲流在国内肆意横行,下表是某单位统计了5天内每日新增患

甲流的员工人数.

第X天12345

新增y人235812

、2七%一位歹

b=-----------,a=y-bx

乙玉2-nx—2

i=l

55

已知=115,=55,现用最小二乘法算得线性回归方程是()

Z=1Z=1

A.\=2.1尤_0.5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论