版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十一章统计11.2成对数据的统计分析知识清单考点清单目录CONTENTS知识清单知识点1变量间的相关关系1.相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关
系称为相关关系.温馨提示相关关系与函数关系均是指两个变量的关系,但函数关系是一种确定的关
系,相关关系是一种非确定的关系.2.散点图将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,
这样的图形叫做散点图.利用散点图,可以判断两个变量是否相关,相关时是正相关还是
负相关.3.正相关和负相关(1)正相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.(2)负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,
则称这两个变量负相关.4.线性相关和非线性相关(1)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我
们就称这两个变量线性相关.(2)一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线
性相关或曲线相关.5.样本相关系数(1)r=
=
,称r为变量x和变量y的样本相关系数.(2)样本相关系数r是一个描述成对样本数据的数字特征,它的正负性和绝对值的大小可
以反映成对样本数据的变化特征:①当r>0时,称成对样本数据正相关;②当r<0时,称成对样本数据负相关.(3)样本相关系数r的取值范围为[-1,1],样本相关系数r的绝对值大小可以反映成对数据之间线性相关的程度:①当|r|越接近1时,成对数据的线性相关程度越强;②当|r|越接近0时,成对数据的线性相关程度越弱.6.一元线性回归模型(1)经验回归方程将
=
x+
称为Y关于x的经验回归方程,其中
提醒
1.根据经验回归方程进行预测,得到的仅是一个估计值,而不一定是真实发生的
值.2.经验回归直线一定过样本点的中心,即必过点(
,
).(2)判断模型拟合效果的方式①利用残差平方和:
(yi-
)2,残差平方和越小,拟合效果越好.②利用残差图:若残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域
内,该区域越窄,说明拟合效果越好.(残差:观测值减去预测值)③利用决定系数R2:R2=1-
,R2越大,拟合效果越好.
XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d2.独立性检验(1)小概率值α的临界值:对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成
立:P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.(2)χ2的计算公式:χ2=
,其中n=a+b+c+d为样本容量.(3)独立性检验的定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性
检验,简称独立性检验.(4)基于小概率值α的检验规则:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分的证据推断H0不成立,可以认为X和Y独立.(5)下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值.即练即清
✕
√
✕
✕
2.已知①两个变量x,y的样本相关系数r1=0.958;②两个变量u,v的样本相关系数r2=-0.974,
则两个变量呈正相关的是______;线性相关程度更强的是______.(填序号)②
①
3.在研究“吸烟”是否对“患肺癌”有影响的案例中,通过对列联表的数据进行处理,
计算得到随机变量χ2≈16.632,可以在犯错误的概率不超过0.001的前提下认为“吸
烟”与“患肺癌”_______.(填“有关”或“无关”)有关
4.某食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收
集到了一部分不同储藏年份的该酒品,并测定了其芳香度(如表).储藏年份x014568芳香度y1.31.85.6
7.49.3由最小二乘法得到经验回归方程:
=1.03x+1.13,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,则推断该数据为___________.
6.1
考点清单考点1变量间的相关关系角度1变量间的相关关系典例1
(多选)(2026届广东部分学校联考,10)为更好地促进同学们的动手能力,某学校
拟开展物理实验周活动,组织同学们到实验室开展物理实验.在某个实验中,某同学利用
自己测量得出的实验数据(已知其中含1个异常样本点),利用最小二乘法进行计算得出
了经验回归方程及决定系数
.并利用计算机处理得到了以下的实验结果1,实验结果2为删除该异常样本点后利用最小二乘法进行计算得到的经验回归方程及决定系数
,则
(
)
AB
A.可认为该实验中的自变量与因变量符合线性回归模型B.推测实验结果1中的异常样本点的自变量的值可能为0.33C.由
<
,知实验结果1相较于实验结果2拟合效果更好D.实验结果1的因变量的平均值大于实验结果2的因变量的平均值解析对于A,由题中散点图可知该实验中的自变量与因变量符合线性回归模型,因此
A正确;对于B,根据实验结果1的图可知异常样本点的自变量的值可能为0.33,因此B正确;对于C,由
<
,知实验结果2相较于实验结果1拟合效果更好,因此C错误;对于D,由于实验结果1包含的异常样本点对应的因变量值接近-4.6,比其他正常样本点
对应的因变量值小得多,所以实验结果1的因变量的平均值小于实验结果2的因变量的
平均值,因此D错误.故选AB.方法总结判断相关关系的方法1.散点图:如果所有的样本点都落在某条曲线附近,那么变量之间具有相关关系;如果所
有的样本点都落在某一直线附近,那么变量之间具有线性相关关系.2.样本相关系数:(1)当r>0时,成对样本数据正相关,当r<0时,成对样本数据负相关;(2)|r|
越接近1,成对样本数据的线性相关程度越强.3.经验回归方程:当
>0时,正相关;当
<0时,负相关.变式训练1.(关键条件变式)(多选)下列说法中,正确的是
(
)A.若两个变量x与y的样本相关系数r<0,则这两个变量负相关B.若两个变量x与y的样本相关系数r越大,则这两个变量的线性相关程度越强C.若两个变量x与y的样本相关系数接近于0,则这两个变量不具有相关关系D.对于两个变量x与y的经验回归方程,若决定系数R2越大,则经验回归方程的拟合效果
越好
AD
解析若两个变量x与y的样本相关系数r<0,则这两个变量负相关,因此A正确;两个变量
x与y的样本相关系数r的绝对值越接近于1,则这两个变量的线性相关程度越强,因此B
错误;两个变量x与y的样本相关系数接近于0只能说明这两个变量线性相关关系很弱,
不能排除它们之间有其他相关关系,因此C错误;由决定系数的意义知,对于两个变量x
与y的经验回归方程,若决定系数R2越大,则经验回归方程的拟合效果越好,因此D正确.
故选AD.角度2回归模型典例2
(线性回归模型)(2025届河南省实验中学开学考,17)为实施乡村振兴,科技兴
农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体
西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如
下.x/千克24568y/千克300400400400500(1)由上表数据可知,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明
(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合);(2)求y关于x的经验回归方程,并预测当液体肥料每亩使用量为20千克时,西红柿亩产量
的增加量约为多少千克.附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线的斜率和截距的最小二乘估计公式,
相关系数r的公式分别为
=
,
=
-
,r=
.参考数据:
≈3.16.解析
(1)由已知数据可得
=
=5,
=
=400,
(xi-
)(yi-
)=600,
(xi-
)2=20,
(yi-
)2=20000,∴相关系数r=
=
≈0.95.∵|r|>0.75,∴可用线性回归模型拟合y与x的关系.(2)由(1)知
=
=
=30,
解题技巧
1.求经验回归方程的步骤(1)计算出
,
,
+
+…+
,x1y1+x2y2+…+xnyn;(2)计算
,
;(3)写出经验回归方程
=
x+
.2.求非线性经验回归方程的步骤变式训练2.(非线性回归模型)(2026届湖北部分高中协作体联考,19)中国茶文化博大精深,饮
茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关.某数学建模小组为了获得茶
水温度y(单位:℃)关于时间x(单位:min)的回归方程模型,通过实验收集在25℃室温,用
同一温度的热水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理
得到如图所示的散点图以及如表所示的数据.
(xi-
)(yi-
)
(xi-
)(wi-
)73.53.85-95-2.24表中:wi=ln(yi-25),
=
wi.(1)根据散点图判断:①y=a+bx与②y=d·cx+25哪一个更适宜作为该茶水温度y关于时间x
的经验回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立该茶水温度y关于时间x的经验回归方程;(3)已知该茶水温度降至60℃口感最佳,根据(2)中的经验回归方程,求在相同条件下,刚
泡好的茶水,大约需要放置多长时间才能达到最佳饮用口感.参考数据:e-0.08≈0.92,e4.09≈60,ln7≈1.9,ln3≈1.1,ln2≈0.7.解析
(1)由散点图知,点的分布呈现出曲线的趋势,因此更适宜的回归方程为②y=d·cx+
25.(2)由y=d·cx+25,得y-25=d·cx,对等式两边取自然对数,得ln(y-25)=lnd+xlnc,令w=ln(y-25),则w=lnd+xlnc,
=
xi=
=3,
(xi-
)2=(-3)2+(-2)2+(-1)2+12+22+32=28,结合题表中数据,得lnc=
=
=-0.08,
考点2独立性检验典例3
(2026届福建三明一中月考,15)已知某区组建了一支120人的志愿者队伍,并由
其中72人组成“志愿模范队”.经过一年的实践,全队共有72人的周平均服务时长超过
2小时,其中有54人来自“志愿模范队”,如下表所示.
是“志愿模范队”成员不是“志愿模范队”成员总计周平均服务时长超过2小时54
72周平均服务时长不超过2小时
总计72
120
P(χ2≥k)0.1000.0500.0100.001k2.7063.8416.63510.828
是“志愿模范队”成员不是“志愿模范队”成员总计周平均服务时长超过2小时541872周平均服务时长不超过2小时183048总计7248120零假设为H0:“是‘志愿模范队’成员”与“周平均服务时长超过2小时”无关,可得χ2=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 金融服务信息披露承诺书(7篇)
- 2026国家石油天然气管网集团有限公司招聘考试备考题库及答案解析
- 2026甘肃省金格城市建设有限公司招聘4人考试备考试题及答案解析
- 2026湖南医药发展投资集团有限公司所属企业二季度招聘127人考试备考题库及答案解析
- 员工培训效果评估催办函(6篇)范文
- 自动化生产线升级改造解决方案
- 2026广东中山大学附属第一医院国际医疗部招聘2人考试模拟试题及答案解析
- 环保产业联动发展承诺书4篇
- 人力资源管理招聘流程
- 2026福建厦门市集美区杏滨小学招聘顶岗教师1人笔试备考试题及答案解析
- 2026四川泸州市泸县第一次考试选调机关事业单位工作人员53人农业笔试备考试题及答案解析
- 2026北京昌平区事业单位考试真题
- 2026北京海淀高三一模语文(含答案)
- 【招考】2025年下半年北京海淀区事业单位公开招聘笔试历年典型考题及考点剖析附带答案详解
- 传承五四精神争做新时代好少年
- 2026湖北恩施州消防救援局政府专职消防员招聘38人考试参考题库及答案解析
- 学生违纪处理管理规定细则(2026年新版)
- 交管12123驾照学法减分题库500题(含答案)
- 建设目标责任制度
- 广东佛山市顺德区2024-2025学年八年级物理下册期末试卷(解析版)
- 2026年入团团员知识考试题库100题及答案
评论
0/150
提交评论