49. 回归分析与独立性检验-2026版高考数学二轮核心常考56个微专题_第1页
49. 回归分析与独立性检验-2026版高考数学二轮核心常考56个微专题_第2页
49. 回归分析与独立性检验-2026版高考数学二轮核心常考56个微专题_第3页
49. 回归分析与独立性检验-2026版高考数学二轮核心常考56个微专题_第4页
49. 回归分析与独立性检验-2026版高考数学二轮核心常考56个微专题_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

49.线性回归分析与独立性检验一.基本原理一.相关性检验1.相关系数:2.相关系数r的性质(1)当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.(2)样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.二.线性回归与最小二乘法1回归直线方程过样本点的中心,是回归直线方程最常用的一个特征2我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计,其中3残差的概念对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.4刻画回归效果的方式(i)残差图法:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.(ii)残差平方和法:残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.(iii)利用刻画回归效果:决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客立预报变量的能力.,越大,即拟合效果越好,越小,模型拟合效果越差.三.独立性检验1.2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为y1y2合计x1aba+bx2cdc+d合计a+cb+da+b+c+d2.独立性检验(1)统计量也可以用来作相关性的度量.越小说明变量之间越独立,越大说明变量之间越相关.忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得成立.我们称为的临界值,这个临界值就可作为判断大小的标准.(2)独立性检验基于小概率值α的检验规则是:当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当时,我们没有充分证据推断H0不成立,可以认为X和Y独立.这种利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验(testofindependence).3.应用独立性检验解决实际问题的大致步骤(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;(2)根据抽样数据整理出2×2列联表,计算的值,并与临界值比较;(3)根据检验规则得出推断结论;(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.二.典例分析例1.(2022年全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山,为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:样本号12345678910总和根部横截面积0.040.060.040.080.080.050.050.070.070.060.6材积量0.250.400.220.540.510.340.360.460.420.403.9并计算得,,.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数,.解析:(1)样本中10棵这种树木的根部横截面积的平均值,样本中10棵这种树木的材积量的平均值据此可估计该林区这种树木平均一棵的根部横截面积为,平均一棵的材积量为(2)则(3)设该林区这种树木的总材积量的估计值为,又已知树木的材积量与其根部横截面积近似成正比,可得,解之得.则该林区这种树木的总材积量估计为例2(2022年新高考1卷)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调査了100人(称为对照组),得到如下数据:不够良好良好病例组60对照组1090(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?附:,解析:(1)假设患该疾病群体与未患该疾病群体的卫生习惯没有差异,则,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.例3.2023年3月5日,国务院总理李克强在政府工作报告中指出“着力扩大消费和有效投资.面对需求不足甚至出现收缩,推动消费尽快恢复.帮扶旅游业发展.围绕补短板、调结构、增后劲扩大有效投资.”某旅游公司为确定接下来五年的发展规划,对2013~2022这十年的国内旅客人数作了初步处理,用和分别表示第年的年份代号和国内游客人数(单位:百万人次),得到下面的表格与散点图.年份2013201420152016201720182019202020212022年份代码x12345678910国内游客数y3262361139904432500055426006287932462530(1)2020年~2022年疫情特殊时期,旅游业受到重挫,现剔除这三年的数据,再根据剩余样本数据(,2,3,…,7)建立国内游客人数关于年份代号的一元线性回归模型;(2)2023年春节期间旅游市场繁荣火爆,预计2023年国内旅游人数约4550百万人次,假若2024年∼2027年能延续2013年∼2019年的增长势头,请结合以上信息预测2027年国内游客人数.附:回归直线的斜率和截距的最小二乘估计公式分别为:,参考数据:,解析:(1)由题可得,,,所以,,所以根据样本数据(,2,3,…,7)建立一元线性回归模型为;(2)由可知,年份每增加1年国内旅游人数将增加468百万人次,所以预测2027年国内游客人数为百万人次.习题演练1.某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉后,下列说法正确的是(

)A.相关系数r变小 B.决定系数变小C.残差平方和变大 D.解释变量x与预报变量y的相关性变强解析:从图中可以看出较其他点,偏离直线远,故去掉后,回归效果更好,对于A,相关系数越接近于1,模型的拟合效果越好,若去掉后,相关系数r变大,故A错误;对于B,决定系数越接近于1,模型的拟合效果越好,若去掉后,决定系数变大,故B错误;对于C,残差平方和越小,模型的拟合效果越好,若去掉后,残差平方和变小,故C错误;对于D,若去掉后,解释变量x与预报变量y的相关性变强,且是正相关,故D正确.故选:D.2.为了研究y关于x的线性相关关系,收集了5组样本数据(见下表):x12345y0.50.811.21.5假设经验回归方程为,则(

)A.B.当时,y的预测值为2.2C.样本数据y的40%分位数为0.8D.去掉样本点后,x与y的样本相关系数r不变解析:对于A选项:线性回归方程必过点,,,解得,所以选项A正确;对于B选项:当时,可以的出y的预测值为2.2,所以B选项正确;对于C选项:从小到大排列共有5个数据,则是整数,则第40百分位数为从小到大排列的第3个数据,即第40百分位数为3,所以C选项错误;对于D选项:因为相关系数为,5组样本数据的相关系数为:,去掉样本中心点后相关系数为,所以相关系数r不变,所以D选项正确;故选:ABD.3.随着科技发展的日新月异,人工智能融入了各个行业,促进了社会的快速发展.其中利用人工智能生成的虚拟角色因为拥有更低的人工成本,正逐步取代传统的真人直播带货.某公司使用虚拟角色直播带货销售金额得到逐步提升,以下为该公司自2023年8月使用虚拟角色直播带货后的销售金额情况统计.年月2023年8月2023年9月2023年10月2023年11月2023年12月2024年1月月份编号123456销售金额/万元15.425.435.485.4155.4195.4若与的相关关系拟用线性回归模型表示,回答如下问题:(1)试求变量与的样本相关系数(结果精确到0.01);(2)试求关于的经验回归方程,并据此预测2024年2月份该公司的销售金额.附:经验回归方程,其中,,样本相关系数;参考数据:,.解析:(1),,所以.(2)由题意,所以,所以关于的经验回归方程为,所以预测2024年2月份该公司的销售金额为万元.4.(2025年新高考1卷)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:超声波检查结果组别正常不正常合计患该疾病20180200未患该疾病78020800合计8002001000(1)记超声波检查结果不正常者患该疾病的概率为P,求P的估计值;(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.附,0.0050.0100.0013.8416.63510.828解析:(1)根据表格可知,检查结果不正常的人中有人患病,所以的估计值为;(2)零假设为:超声波检查结果与患病无关,根据表中数据可得,,根据小概率值的独立性检验,我们推断不成立,即认为超声波检查结果与患该病有关,该推断犯错误的概率不超过.5.为比较A、B两种AI教学系统在提升教师备课效率方面的差异,研究人员在某地区随机招募了200名教师,并随机分配其中100名使用系统A,其余100名使用系统B.经过一个月的试用后,以“备课时间减少15%以上”作为备课效率显著提升的标准,经整理得到如下列联表:备课效率使用的教学系统显著提升没有显著提升合计系统A7525100系统B5545100合计13070200(1)记事件“该地区教师使用系统A后,备课效率显著提升”的概率为,求的估计值;(2)根据小概率值的独立性检验,分析这两种AI教学系统在显著提升教师备课效率方面是否存在差异.附:,0.050.0050.0013.8417.87910.828解析:(1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论