版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题28统计案例和回归方程【考点预测】知识点一、变量间的相关关系1、变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.2、散点图将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.3、相关系数若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.(1)当时,表示两个变量正相关;当时,表示两个变量负相关.(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.(3)通常当时,认为两个变量具有很强的线性相关关系.知识点二、线性回归1、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为其中,,,(,)称为样本点的中心.2、残差分析对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关指数来刻画回归的效果,其计算公式是:.越接近于,说明残差的平方和越小,也表示回归的效果越好.知识点三、独立性检验1、分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为总计总计从列表中,依据与的值可直观得出结论:两个变量是否有关系.2、等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.3、独立性检验(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.(2)公式:,其中为样本容量.(3)独立性检验的具体步骤如下:①计算随机变量的观测值,查下表确定临界值:0.50.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.828②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.(2)两个分类变量和是否有关系的判断标准:统计学研究表明:当时,认为与无关;当时,有的把握说与有关;当时,有的把握说与有关;当时,有的把握说与有关.【典例例题】例1.(2023·浙江湖州·高三安吉县高级中学校考期末)研究变量得到一组样本数据,进行回归分析,以下说法中错误的是(
)A.若变量和之间的相关系数为,则变量和之间的负相关很强B.用决定系数来比较两个模型拟合效果,越大,表示残差平方和越小,即模型的拟合效果越好C.在经验回归方程中,当解释变量每增加1个单位时,响应变量平均减少2个单位D.经验回归直线至少经过点中的一个【答案】D【解析】对A:若变量和之间的相关系数为,则变量和之间的负相关很强,A正确;对B:用决定系数来比较两个模型拟合效果,越大,表示残差平方和越小,即模型的拟合效果越好,B正确;对C:在经验回归方程中,当解释变量每增加1个单位时,响应变量平均减少2个单位,C正确;对D:经验回归直线必过样本中心点,但不一定过样本点,D错误.故选:D.例2.(2023春·河南濮阳·高三统考开学考试)某大型企业开发了一款新产品,投放市场后供不应求,为了达到产量最大化,决定增加生产线.经过一段时间的生产,统计得该款新产品的生产线条数与月产量(件)之间的统计数据如下表:4681030406070由数据可知,线性相关,且满足回归直线方程,则当该款新产品的生产线为12条时,预计月产量为(
)A.73件 B.79件 C.85件 D.90件【答案】C【解析】依题意可得,,因为回归直线方程必过样本中心点,即,解得,所以,当时,故当该款新产品的生产线为12条时,预计月产量为85件.故选:C例3.(2023·高三课时练习)通过随机询问110名不同的大学生是否爱好某项运动,得到了如下的列联表:男女合计爱好402060不爱好203050总计6050110附表:0.050.0100.0013.8416.63510.828参照附表,能得到的正确结论是(
).A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”【答案】A【解析】由题意知本题所给的观测值,,所以有以上的把握认为“爱好该项运动与性别有关”,即在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”.故选:A.例4.(多选题)(2023·山西·统考一模)某同学用搜集到的六组数据绘制了如下散点图,在这六个点中去掉点后重新进行回归分析,则下列说法正确的是(
)A.决定系数变小 B.相关系数的绝对值越趋于1C.残差平方和变小 D.解释变量与预报变量相关性变弱【答案】BC【解析】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,决定系数越接近于1,所拟合的回归方程越优,故去掉点后,变大,越趋于1,A错误;相关系数越趋于1,拟合的回归方程越优,故去掉点后,故相关系数的绝对值越趋于1,B正确;残差平方和变小拟合效果越好,故C正确;解释变量与预报变量相关性增强,D错误.故选:BC例5.(2023·浙江宁波·高三期末)已知变量x和y的统计数据如下表:x678910y3.5455.57如果由表中数据可得经验回归直线方程为,那么,当时,残差为______.(注:残差=观测值-预测值)【答案】【解析】,所以,所以时,,所以残差为.故答案为:.例6.(2023·全国·模拟预测)2022年是极其不平凡的一年,我国在新冠疫情的反复肆虐下奋勇前行,取得了可观的抗疫成果.下表是2022年3月13日至3月18日河北省现存新冠肺炎确诊病例数目的统计结果:日期2022.3.132022.3.142022.3.152022.3.162022.3.172022.3.18日期编号x123456病例数目y131182195233271292(1)请根据表中的数据用最小二乘法求y与x的回归直线方程;(计算结果均保留整数)(2)若已知某校须在河北省病例数目达到450例之前采取封校措施,假设该时间段内河北省的疫情增长速率持平,请根据(1)中的回归直线方程推测该校最晚在哪一天采取封校措施.参考公式:,,,【解析】(1),,,,所以回归直线方程;(2)当,所以推测该校最晚在2022年3月23日采取封校措施.例7.(2023春·河北石家庄·高三石家庄二中校考开学考试)某中药企业计划种植两种药材,通过大量考察研究得到如下统计数据.药材A的亩产量约为300公斤,其收购价格处于上涨趋势,最近五年的价格如下表:年份20182019201020212022年份编号12345单价(元/公斤)1820232529药材的收购价格始终为20元/公斤,其亩产量的频率分布直方图如下:(1)若药材A的单价(单位:元/公斤)与年份编号间具有线性相关关系;请求出关于的回归直线方程,并估计2024年药材A的单价;(2)利用上述频率分布直方图估计药材B的平均亩产量(同一组数据用中点值为代表);(3)若不考虑其他因素影响,为使收益最大,试判断2024年该药企应当种植药材A还是药材B?并说明理由.参考公式:回归直线方程,其中.【解析】(1)由题意可得:,,则,,故回归直线方程为,当时,,即2024年药材A的单价预计为元/公斤.(2)由频率分布直方图可得:组距为20,自左向右各组的频率依次为,故B药材的平均亩产量为公斤.(3)预计2024年药材A每亩产值为元,药材B每亩产值为元元,所以药材A的每亩产值更高,应该种植药材A.例8.(2023·全国·高三专题练习)为了让人民享受到更优质的教育服务,我国逐年加大对教育的投入.为了预测2022年全国普通本科招生数,建立了招生数y(单位:万人)与时间变量t的三个回归模型.其中根据2001年至2019年的数据(时间变量t的值依次取1,2,3,…,19)建立模型①:(决定系数)和模型②:=152.4+16.3t(相关系数0.97,决定系数).根据2014年至2019年的数据(时间变量t的值依次取1,2,3,…,6)建立模型③:=372.8+9.8t(相关系数0.99,决定系数).(1)可以根据模型①得到2022年全国普通本科招生数的预测值为597.88万人,请你分别利用模型②③,求2022年全国普通本科招生数的预测值;(2)你认为用哪个模型得到的预测值更可靠?说明理由(写出一个即可).【解析】(1)利用模型②得2022年全国普通本科招生数的预测值为=152.4+16.3×22=511(万人);利用模型③得2022年全国普通本科招生数的预测值为=372.8+9.8×9=461(万人).(2)利用模型③得到的预测值更可靠,理由如下(以下理由任选一个作答即可).理由一:从计算结果可以看出,模型③的决定系数最大,说明其拟合效果最好,因此利用模型③得到的预测值更可靠.理由二:模型①的决定系数比模型②③小很多,说明其拟合效果最差.对于模型②③,模型③的相关系数0.99比模型②的相关系数0.97大,说明模型③的两变量的线性相关性比模型②更强.因此利用模型③得到的预测值更可靠.例9.(2023·辽宁·校联考模拟预测)5G技术对社会和国家十分重要,从战略地位来看,业界一般将其定义为继蒸汽机革命、电气革命和计算机革命后的第四次工业革命.某科技公司生产一种5G手机的核心部件,下表统计了该公司2017-2021年在该部件上的研发投入x(单位:千万元)与收益y(单位:亿元)的数据,结果如下:年份20172018201920202021研发投入x23456收益y23334(1)求研发投入x与收益y的相关系数r(精确到0.01);(2)由表格可知y与x线性相关,试建立y关于x的线性回归方程,并估计当x为9千万元时,该公司生产这种5G手机的核心部件的收益为多少亿元;(3)现从表格中的5组数据中随机抽取2组数据并结合公司的其他信息作进一步调研,记其中抽中研发投入超出4千万元的组数为X,求X的分布列及数学期望.参考公式及数据:对于一组数据(i=1,2,3,⋯,n),相关系数,其回归直线的斜率和截距的最小二乘估计分别为,,.【解析】(1)由题可得,,,,所以.(2)因为,,所以y关于x的线性回归方程为.当x=9时,,所以此时该公司生产这种5G手机的核心部件收益估计为5亿元.(3)易知X的可能取值为0,1,2,,,,所以X的分布列为X012P所以.例10.(2023·河南信阳·高三统考期末)热心网友们调查统计了柳州市某网红景点在2022年6月至10月的旅游收入y(单位:万元),得到以下数据:月份x678910旅游收入y1012111220(1)根据表中所给数据,用相关系数r加以判断,是否可用线性回归模型拟合y与x的关系?若可以,求出y关于x之间的线性回归方程;若不可以,请说明理由;(2)为调查游客对该景点的评价情况,网友们随机抽查了200名游客,得到如图列联表,请填写2×2列联表,并判断能否有99.9%的把握认为“游客是否喜欢该网红景点与性别有关联”?喜欢不喜欢总计男100女60总计110参考数据:,注:r与的计算结果精确到0.001.参考公式:相关系数,线性回归方程:,其中,,.临界值表:0.0100.0050.0016.6357.87910.828【解析】(1)由已知得,,,,,所以,因为,说明y与x的线性相关关系很强,可用线性回归模型拟合y与x的关系,设线性回归方程为,∴,.则y关于x线性回归方程为;(2)由题可得2×2列联表,喜欢不喜欢总计男7030100女4060100总计11090200,∴有99.9%的把握认为“游客是否喜欢该网红景点与性别有关联”.例11.(2023·全国·高三专题练习)网民的智慧与活力催生新业态,网络购物,直播带货,APP买菜等进入我们的生活,改变了我们的生活方式,随之电信网络诈骗犯罪形势也非常严峻.自“国家反诈中心APP”推出后,某地区采取多措并举的推广方式,努力为人民群众构筑一道防诈反诈的“防火墙”.经统计,该地区网络诈骗月报案数与推广时间有关,并记录了经推广x个月后月报案件数y的数据.x(个)1234567y(件)891888351220200138112(1)根据以上数据,使用作为回归方程模型,求出y关于x的回归方程;(2)分析该地区一直推广下去,两年后能否将网络诈骗月报案数降至75件以下.参考数据(其中,,,,.参考公式:对于一组数据,,,…,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.【解析】(1)由表中数据可得(891+888+351+220+200+138+112)=400,令,设y关于t的线性回归方程为,则则,故y关于x的回归方程为;(2)由回归方程可知,随x的增大,y逐渐减少,当时,,故两年后网络诈骗月报案数能降至75件以下.例12.(2023·陕西榆林·统考一模)第二十二届世界杯足球赛在卡塔尔正式拉开序幕,这是历史上首次在北半球冬季举行的世界杯足球赛.某市为了解高中生是否关注世界杯足球赛与性别的关系,随机对该市50名高中生进行了问卷调查,得到如下列联表.关注不关注合计男高中生4女高中生14合计已知在这50名高中生中随机抽取1人,抽到关注世界杯足球赛的高中生的概率为.(1)完成上面的列联表;(2)根据列联表中的数据,判断能否有的把握认为该市高中生是否关注世界杯足球赛与性别有关.附:,其中.【解析】(1)由题可知,关注世界杯足球赛的高中生有人,不关注世界杯足球赛的高中生有人.故完成的列联表如下:关注不关注合计男高中生26430女高中生14620合计401050(2),因为,所以没有的把握认为该市高中生是否关注世界杯足球赛与性别有关.【技能提升训练】一、单选题1.(2023·全国·高三专题练习)下列关于回归分析与独立性检验的说法正确的是(
)A.回归分析和独立性检验没有什么区别B.回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系C.回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验D.独立性检验可以100%确定两个变量之间是否具有某种关系【答案】C【解析】回归分析是对两个变量之间的相关关系的一种分析,而相关关系是一种不确定关系,通过回归分析预测和估计两个变量之间具有的相关关系;独立性检验是对两个变量之间是否具有某种关系的分析,并且可以分析这两个变量在多大程度上具有这种关系,但不能100%肯定这种关系.故ABD错误,C正确.故选:C.2.(2023·全国·高三专题练习)已知下列命题:①回归直线恒过样本点的中心;②两个变量线性相关性越强,则相关系数就越接近于1;③两个模型中残差平方和越小的模型拟合的效果越好.则正确命题的个数是(
).A.0 B.1 C.2 D.3【答案】D【解析】由回归方程的性质可得,回归直线恒过样本点的中心,①对,由相关系数的性质可得,两个变量线性相关性越强,则相关系数就越接近于1,②对,根据残差的定义可得,两个模型中残差平方和越小的模型拟合的效果越好,③对,故正确命题的个数为3,故选:D.3.(2023·全国·高三专题练习)某中学有学生近600人,要求学生在每天上午7:30之前进校,现有一个调查小组调查某天7:00~7:30进校人数的情况,得到如下表格(其中纵坐标表示第分钟至第分钟到校人数,,,如当时,纵坐标表示在7:08~7:09这一分钟内进校的人数为4人).根据调查所得数据,甲同学得到的回归方程是(图中的实线表示),乙同学得到的回归方程是(图中的虚线表示),则下列结论中错误的是(
)159151921242728293013441121366694101106A.7:00~7:30内,每分钟的进校人数与相应时间呈正相关B.乙同学的回归方程拟合效果更好C.根据甲同学得到的回归方程可知该校当天7:09~7:10这一分钟内的进校人数一定是9人D.该校超过半数的学生都选择在规定到校时间的前5分钟内进校【答案】C【解析】对于A,根据散点图知,7:00~7:30内,每分钟的进校人数与相应时间呈正相关,故A正确;对于B,由图知,曲线的拟合效果更好,故乙同学的回归方程拟合效果更好,故B正确;对于C,表格中并未给出对应的值,而由甲的回归方程得到的只能是估计值,不一定就是实际值,故C错误;对于D,全校学生近600人,从表格中的数据知,7:26~7:30进校的人数超过300,故D正确,故选:C.4.(2023·全国·高三专题练习)下图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.根据该折线图判断,下列结论正确的是(
)A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠C.投资额与年份负相关D.投资额与年份的相关系数【答案】B【解析】因2009年之前与2010年之后投资额变化较大,故为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠,所以A错误,B正确;随年份的增长,投资额总体上在增长,所以投资额与年份正相关,,故CD错误.故选:B.5.(2023春·广东揭阳·高三校考阶段练习)给出以下四个命题:①在回归分析中,可用相关指数的值判断模型的拟合效果,越大,模型的拟合效果越好;②回归模型中离差是实际值与估计值的差,离差点所在的带状区域宽度越窄,说明模型拟合精度越高;③在一组样本数据(,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为;④对分类变量与的统计量来说,值越小,判断“与有关系”的把握程度越大.其中,真命题的个数为(
)A. B. C. D.【答案】B【解析】对于①,由相关指数的定义知:越大,模型的拟合效果越好,①正确;对于②,离差点所在的带状区域宽度越窄,则离差平方和越小,模型拟合精度越高,②正确;对于③,若所有样本点都在直线上,则线性相关系数,③错误;对于④,由独立性检验的思想知:值越大,“与有关系”的把握程度越大,④错误.故选:B.6.(2023秋·江苏南通·高三统考期末)经验表明,树高与胸径具有线性关系,为了解回归方程的拟合效果,利用下列数据计算残差,用来绘制残差图.胸径x/cm18.219.122.324.526.2树高的观测值y/m18.919.420.822.824.8树高的预测值18.619.321.523.024.4则残差的最大值和最小值分别是(
)A.0.4,-1.8 B.1.8,-0.4 C.0.4,-0.7 D.0.7,-0.4【答案】C【解析】解:由表可得,各组数据的残差为:,,,,,故残差最大值为0.4,最小值为-0.7.故选:C7.(2023春·河南开封·高三统考开学考试)某部门统计了某地区今年前7个月在线外卖的规模如下表:月份代号x1234567在线外卖规模y(百万元)111318★28★35其中4、6两个月的在线外卖规模数据模糊,但这7个月的平均值为23.若利用回归直线方程来拟合预测,且7月相应于点的残差为,则(
)A.1.0 B.2.0 C.3.0 D.4.0【答案】B【解析】依题意,,而,于是得,而当时,,即,联立解得,所以.故选:B8.(2023·广西柳州·统考模拟预测)下列说法正确的是(
)A.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差B.某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学C.数据2,3,4,5的方差是数据4,6,8,10的方差的一半D.在回归直线方程,当解释变量每增加1个单位时,预报变量多增加0.1个单位【答案】D【解析】对于A选项:在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故A选项错误;对于B选项:概率只说明事件发生的可能性,事件不一定发生,所以并不能说明天气预报不科学,故B选项错误;对于C选项:根据所给的数据,看出第二组是由第一组乘以2得到的,前一组的方差是后一组的四分之一,标准差是一半,故C选项错误;对于D选项:在回归直线方程中,当解释变量每增加1个单位时,预报变量增加0.1个单位,故D选项正确.故选:D.9.(2023·全国·高三专题练习)用模型拟合一组数据时,设,将其变换后得到回归方程为,则(
)A. B.1 C. D.2【答案】D【解析】因为,,所以,又,所以,解得,所以,故选:D10.(2023·全国·高三专题练习)如图是一组实验数据的散点图,拟合方程,令,则关于的回归直线过点,,则当时,的取值范围是(
)A. B. C. D.【答案】D【解析】根据题意可得,由关于的回归直线过点,可得:,所以,所以,由可得,所以,所以,所以,故选:D11.(2023·全国·高三专题练习)人类已进入大数据时代,目前,全球年数据产生量已经从级别跃升到,乃至级别(,,,).由国际数据公司的研究结果得到2008年至2020年全球年数据产生量(单位:)的散点图.根据散点图,下面四个选项中最适宜刻画2008年至2020年全球年数据产生量和实际的函数模型是(
)A. B.C. D.【答案】D【解析】由散点图知:全球年数据产生量随年份的增加而增加,且增加的速度越来越快,因为的图象是一条直线,的图象,随x增大,y增大,但图象越来越平缓,的图象,随x增大,y增大,但图象越来越平缓,的图象,随x增大,y增大,图象越来越陡峭,所以D选项正确,A、B、C选项错误.故选:D.12.(2023·全国·高三专题练习)某高中调查学生对2022年冬奥会的关注是否与性别有关,随机抽样调查150人,进行独立性检验,经计算得,临界值表如下:0.150.100.050.0250.0102.0722.0763.8415.0246.635则下列说法中正确的是:(
)A.有97.5%的把握认为“学生对2022年冬奥会的关注与性别无关”B.有99%的把握认为“学生对2022年冬奥会的关注与性别有关”C.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别有关”D.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别无关”【答案】C【解析】由题意可知,,所以在犯错误的概率不超过的前提下可认为“学生对2022年冬奥会的关注与性别有关”.故选:C.13.(2023·上海·高三专题练习)为了考查某种病毒疫苗的效果,现随机抽取100只小白鼠进行试验,得到如下2×2列联表:感染未感染总计服用104050未服用203050总计3070100附:,其中.0.100.050.0250.0100.0050.0012.7063.8415.0246.6357.87910.828根据以上数据,得到的结论正确的是(
)A.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”B.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗无关”C.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”D.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗无关”【答案】C【解析】依题意,,显然有,所以有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”,选项A,B,D不正确,C正确.故选:C14.(2023·全国·高三专题练习)通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:跳绳性别合计男女爱好402060不爱好203050合计6050110已知,0.050.010.0013.8416.63510.828则以下结论正确的是(
)A.根据小概率值的独立性检验,爱好跳绳与性别无关B.根据小概率值的独立性检验,爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001C.根据小概率值的独立性检验,有99%以上的把握认为“爱好跳绳与性别无关”D.根据小概率值的独立性检验,在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别无关”【答案】A【解析】由题知因为,所以爱好跳绳与性别无关且这个结论犯错误的概率超过0.001,故A正确,B错误,又因为,所以有99%以上的把握认为“爱好跳绳与性别有关,或在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别有关.故C和D错误.故选:A.二、多选题15.(2023春·广东·高三统考开学考试)给出下列说法,其中正确的是(
)A.某病8位患者的潜伏期(天)分别为3,3,8,4,2,7,10,18,则它们的第50百分位数为B.已知数据的平均数为2,方差为3,那么数据,,的平均数和方差分别为5,13C.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定D.样本相关系数【答案】AC【解析】选项A,将3,3,8,4,2,7,10,18由小到大排列为2,3,3,4,7,8,10,18,第50百分位数即为中位数,这组数的中位数为,故A正确,选项B,由数据的平均数为2,方差为3,则数据,,的平均数为,方差为,故B错误,选项C,在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定,故C正确.选项D中,样本的相关系数应满足,故D错误.故选:AC16.(2023·全国·高三专题练习)下列命题中正确的是(
)A.在回归分析中,成对样本数据的样本相关系数r的绝对值越大,成对样本数据的线性相关程度越强B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好C.比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型拟合效果越差D.对分类变量X与Y,统计量的值越大,则判断“X与Y有关系”的把握程度越大【答案】ABD【解析】相关系数的绝对值越大,相关程度越强,A正确;决定系数越大,拟合效果越好,故B正确;残差平方和越小,模拟效果越好,故C错误;统计量的值越大,分类变量X与Y相互独立的概率越小,即判断“X与Y有关系”的把握程度越大,故D正确.故选:ABD17.(2023·全国·高三专题练习)(多选)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,随机观察了他所在地区的100天中的“日落云里走”的情况和后半夜天气情况,得到如下数据,后半夜天气情况“日落云里走”的情况下雨未下雨总计出现25530未出现254570总计5050100并计算得到,则小波对该地区天气的判断正确的是(
)A.后半夜下雨的概率约为B.未出现“日落云里走”时,后半夜下雨的概率约为C.有99%的把握认为“‘日落云里走’是否出现”与“后半夜是否下雨”有关D.若出现“日落云里走”,则后半夜有99%的可能会下雨【答案】AC【解析】对A,把频率看作概率,可得后半夜下雨的概率约为,故A判断正确:对B,未出现“日落云里走”时,后半夜下雨的概率约为,故B判断错误;对C,由,知有99%的把握认为“‘日落云里走’是否出现”与“后半夜是否下雨”有关,故C判断正确;易知D判断错误.故选:AC18.(2023·全国·高三专题练习)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如下所示的列联表,通过计算得到K2的观测值为9认可不认可40岁以下202040岁以上(含40岁)4010已知,,则下列判断正确的是(
)A.在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”B.在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”C.有99%的把握认为“光盘行动”的认可情况与年龄有关D.在犯错误的概率不超过0.001的前提下,认为“光盘行动”的认可情况与年龄有关【答案】AC【解析】∵K2的观测值为9,且P(K2≥6.635)=0.010,P(K2≥10.828)=0.001,又∵9>6.635,但9<10.828,∴有99%的把握认为“光盘行动”的认可情况与年龄有关,或者说,在犯错误的概率不超过0.010的前提下,认为“光盘行动”的认可情况与年龄有关,所以选项C正确,选项D错误,由表可知认可“光盘行动”的人数为60人,所以在该餐厅用餐的客人中认可“光盘行动”的比例为%≈66.7%,故选项A正确,选项B错误.故选:AC.19.(2023秋·河北保定·高三校考期末)下列说法中正确的有(
)A.将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;B.设有一个线性回归方程,变量增加1个单位时,平均增加5个单位;C.设具有相关关系的两个变量,的相关系数为,则越接近于0,和之间的线性相关程度越弱;D.在一个列联表中,由计算得的值,在的前提下,的值越大,判断两个变量间有关联的把握就越大.【答案】ACD【解析】根据方差公式,可知将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变.故A正确;变量增加一个单位时,平均减小5个单位,故B不正确;设具有相关关系的两个变量,的相关系数为,则越接近于,和之间的线性相关程度越弱,故C正确;在一个列联表中,由计算得的值,若,则有95%的把握判断两个变量间有相关关系,因此在的前提下,的值越大,判断两个变量间有关联的把握就越大,故D正确.故选:ACD.三、填空题20.(2023·全国·高三专题练习)2020年,全球展开了某疫苗研发竞赛,我为处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2500人,分成5组,各组感染人数如下:调查人数300400500600700感染人数33667并求得与的回归方程为,同期,在人数为10000的条件下,以拟合结果估算未注射疫苗的人群中感染人数,记为;注射疫苗后仍被感染的人数记为,则估计该疫苗的有效率为__________.(疫苗的有效率为;参考数据:;结果保留3位有效数字)【答案】【解析】由题设表格中的数据可得,故,故,而,故疫苗有效率为,故答案为:.21.(2023·全国·高三专题练习)给出的下列四个命题中,正确的命题序号为______.①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②设回归直线方程为,当变量每增加一个单位时,平均增加2个单位;③已知服从正态分布,且,则;④变量与相对应的一组样本数据为,,,,由上述样本数据得到与的线性回归分析,若表示解释变量对于预报变量变化的贡献率,则.【答案】④【解析】对于①,从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样;故①错误;对于②,在回归直线方程中,当变量每增加一个单位时,平均增加0.2个单位;故②错误;对于③,若服从正态分布,且,则,所以,故③错误;对于④,在线性回归中,相关指数等于相关系数,由题意,,,,,,,,,则,,所以相关指数,故④正确;故答案为:④22.(2023·全国·高三专题练习)x和y的散点图如图所示,在相关关系中,若用拟合时的决定系数为,用拟合时的决定系数为,则,中较大的是________.【答案】【解析】由题图知,用拟合的效果比拟合的效果要好,所以,故较大者为.故答案为:.23.(2023·高三课时练习)已知x、y的取值如下表所示:x2345y2.23.85.5m若y与x线性相关,且回归直线方程为,则表格中实数m的值为_________.【答案】6.5【解析】因为,,所以,解得.故答案为:6.5.24.(2023·高三课时练习)观察下列图形,其中两个变量x、y具有相关关系的图是______.(写出所有满足条件的图形序号)【答案】③④【解析】根据散点图可知在③④中,样本点成带状分布,则两个变量具有相关关系,所以两个变量x、y具有相关关系的图是③④.故答案为:③④.25.(2023·湖南岳阳·统考一模)已知某车间在上半年的六个月中,每个月的销售额y(万元)与月份()满足线性回归方程,则该车间上半年的总销售额约为______万元.【答案】198【解析】由题意可得该车间上半年的总销售额约为:(万元),故答案为:19826.(2023·高三课时练习)某实验室对小白鼠体内x、y两项指标进行研究,连续五次实验所测得的这两项指标数据如下表:x120110125130115y9283909689已知y与x具有线性相关关系,利用上表中的五组数据求得回归直线方程为.若下一次实验中,利用该回归直线方程预测得,则的值为______.【答案】0.54【解析】已知y与x具有线性相关关系,且直线方程为过样本中心值,又,
,所以①,又实验中,预测得,所以②,联立①②解得:.故答案为:0.54.27.(2023秋·广西河池·高三统考期末)近年来,“考研热”持续升温,2022年考研报考人数官方公布数据为457万,相比于2021年增长了80万之多,增长率达到21%以上.考研人数急剧攀升原因较多,其中,本科毕业生人数增多、在职人士考研比例增大,是两大主要因素.据统计,某市各大高校近几年的考研报考总人数如下表:年份20182019202020212022年份序号x12345报考人数y(万人)1.11.622.5m根据表中数据,可求得y关于x的线性回归方程为,则m的值为___________.【答案】2.8【解析】,,,,解得.故答案为:2.8.四、解答题28.(2023·全国·高三专题练习)据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数(,且)表示是否下雨:当时表示该地区下雨,当时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下:332
714
740
945
593
468
491
272
073
445
992
772
951
431
169
332
435
027
898
719
(1)求出k的值,使得该地区每一天下雨的概率均为;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:时间2016年2017年2018年2019年2020年年份12345降雨量2827252322经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨量与年份具有线性相关关系,求回归直线方程.并预测该地区2022年端午节有降雨的话,降雨量约为多少?参考公式:,.【解析】(1)由题意可知,,解得,即表示下雨,表示不下雨.所给的20组数据中,,,,,,,,共组表示天中恰好有天下雨,故所求的概率为.(2)由题中所给的数据可得,,所以,,所以回归方程为,当时,.所以该地区年端午节有降雨的话,降雨量约为.29.(2023·全国·高三专题练习)互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:1日2日3日4日5日外卖甲日接单(百单)529811外卖乙日接单(百单)2310515(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;(2)据统计表明,与之间具有线性相关关系.①请用相关系数对与之间的相关性强弱进行判断;(若,则可认为与有较强的线性相关关系,值精确到0.001)②经计算求得与之间的回归直线方程为,假定每单外卖业务企业平均能获纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润的大致范围.(值精确到0.01)参考数据:,.【解析】(1)由表格中的数据,可得,,外卖甲的日接单量的方差,外卖乙的日接单量的方差,因为,即外卖甲平均日接单量与外卖乙平均日接单量相同,但外卖甲日接单量更集中一些,所以外卖甲比外卖乙经营状况更好.(2)①因为又,,所以代入计算可得,相关系数,所以可认为与之间有较强的线性相关关系.②令,可得,解得,又,所以当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润大约不低于6006元.30.(2023·高三课时练习)为打造“四态融合、产村一体”的望山、见水、忆乡愁的美丽乡村,增加农民收入,某乡政府在近几年中任选了5年,经统计,年份代号x与景区农家乐接待游客人数y(单位:万人)的数据如下表:年份代号x23578接待游客人数y(万人)33.546.58(1)根据数据说明变量x与y是正相关还是负相关;(2)求相关系数r的值,并说明年份与接待游客数的相关性的强与弱;(3)分析近几年中该景区农家乐接待游客人数y的变化情况,求该景区农家乐接待游客人数关于年份代号的回归直线方程;并预测在年份代号为10时该景区农家乐接待游客的人数(单位:万人,精确到小数点后2位).附:一般地,当r的绝对值大于0.75时认为两个变量之间有很强的线性关系.,.【解析】(1)由表中数据可得,,则,由于变量y的值随x的值的增加而增加(),因此x与y之间是正相关;(2)因为,所以年份与接待游客数的相关性很强;(3)因为,所以景区农家乐接待游客人数y关于年份代号x的回归直线方程为,当x=10时,,由此预测在年份代号为10时该景区农家乐接待游客人数约为9.04万人.31.(2023秋·河南开封·高三统考期末)某加工工厂加工产品A,现根据市场调研收集到需加工量X(单位:千件)与加工单价Y(单位:元/件)的四组数据如下表所示:X681012Y12m64根据表中数据,得到Y关于X的线性回归方程为,其中.(1)若某公司产品A需加工量为1.1万件,估计该公司需要给该加工工厂多少加工费;(2)通过计算线性相关系数,判断Y与X是否高度线性相关.参考公式:
,时,两个相关变量之间高度线性相关.【解析】(1)∵,,则,又∵∴,,∴,∵1.1万=11千,∴当时,(元),∴(元),答:估计该公司需要给该加工工厂57200元加工费.(2)由(1)知,,,,∴∴,∴两个相关变量之间高度线性相关.32.(2023·全国·高三专题练习)受北京冬奥会的影响,更多人开始关注滑雪运动,但由于室外滑雪场需要特殊的气候环境,为了满足日益增长的消费需求,国内出现了越来越多的室内滑雪场.某投资商抓住商机,在某大学城附近开了一家室内滑雪场.经过6个季度的经营,统计该室内滑雪场的季利润数据如下:第个季度123456季利润(万元)2.23.64.34.95.35.5根据上面的数据得到的一些统计量如下:4.30.5101.414.11.8表中,.(1)若用方程拟合该室内滑雪场的季利润与季度的关系,试根据所给数据求出该方程;(2)利用(1)中得到的方程预测该室内滑雪场从第几个季度开始季利润超过6.5万元;附:线性回归方程中,,.参考数据:【解析】(1)由,先求y关于u的线性回归方程,由已知数据得,故,所以y关于u的回归方程为,故y关于x的回归方程为;(2)令,得,所以,故预测从第12个季度开始季利润超过6.5万元;33.(2023·全国·高三专题练习)长沙某公司对其主推产品在过去5个月的月广告投入xi(百万元)和相应的销售额yi(百万元)进行了统计,其中i=1,2,3,4,5,对所得数据进行整理,绘制散点图并计算出一些统计量如下:,,,,,,,其中,i=1,2,3,4,5.(Ⅰ)根据散点图判断,与哪一个适宜作为月销售额关于月广告投入xi的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及题中所给数据,建立y关于x的回归方程,并据此估计月广告投入220万元时的月销售额.附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.【解析】(1)根据散点图选择作为回归方程.(2)令,则,,故回归方程为,当月广告投入为万元时,月销售额为(百万元).答:选择作为回归方程,当月广告投入为万元时,月销售额约(万元).34.(2023春·河南濮阳·高三统考开学考试)某出租车公司为推动驾驶员服务意识和服务水平大提升,对出租车驾驶员从驾驶技术和服务水平两个方面进行了考核,并从中随机抽取了100名驾驶员,这100名驾驶员的驾驶技术与性别的2×2列联表和服务水平评分的频率分布直方图如下,已知所有驾驶员的服务水平评分均在区间内.驾驶技术优秀非优秀男2545女525(1)判断能否有95%的把握认为驾驶员的驾驶技术是否优秀与性别有关;(2)从服务水平评分在,内的驾驶员中用分层抽样的方法抽取5人,再从这5人中随机抽取3人,求这3人中恰有2人的评分在内的概率.附:,其中.0.100.0500.0102.7063.8416.635【解析】(1),没有95%的把握认为驾驶员的驾驶技术是否优秀与性别有关;(2),解得:,故服务水平评分在,内的驾驶员人数比例为,故用分层抽样的方法抽取5人中,内有4人,设为,内有1人,设为,再从这5人中随机抽取3人,共有以下情况:,共10种情况,其中这3人中恰有2人的评分在的有,6种情况,故这3人中恰有2人的评分在内的概率为.35.(2023秋·浙江嘉兴·高三统考期末)为积极响应“反诈”宣传教育活动的要求,某企业特举办了一次“反诈”知识竞赛,规定:满分为100分,60分及以上为合格.该企业从甲、乙两个车间中各抽取了100位职工的竞赛成绩作为样本.对甲车间100位职工的成绩进行统计后,得到了如图所示的成绩频率分布直方图.(1)估算甲车间职工此次“反诈”知识竞赛的合格率;(2)若将频率视为概率,以样本估计总体.从甲车间职工中,采用有放回的随机抽样方法抽取3次,每次抽1人,每次抽取的结果相互独立,记被抽取的3人次中成绩合格的人数为.求随机变量的分布列;(3)若乙车间参加此次知识竞赛的合格率为,请根据所给数据,完成下面的列联表,并根据列联表判断是否有的把握认为此次职工“反计”知识竞赛的成绩与其所在车间有关?2×2列联表甲车间乙车间合计合格人数不合格人数合计附参考公式:①,其中.②独立性检验临界值表【解析】(1)根据频率分布直方图可求得甲车间此次参加“反诈”知识竞赛的合格率,即.(2)由题意可知,由于每次抽取的结果是相互独
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026四川九洲电器集团有限责任公司招聘市场开发岗(市场经理)等岗位9人备考题库及完整答案详解【各地真题】
- 2026广西北海市产业投资有限责任公司招聘4人备考题库附答案详解(b卷)
- 2026山东日照市教育局直属学校招聘第一批急需紧缺教师29人备考题库附完整答案详解【全优】
- 2026辽宁丹东市北宸商务科技有限责任公司面向社会招聘1人备考题库带答案详解(突破训练)
- 2026广东岭南国防教育基地仓库管理员招聘备考题库及完整答案详解一套
- 2026河南郑外集团郑开学校附中教师招聘1人备考题库【b卷】附答案详解
- 2026新教材人教版二年级下册数学 第7课时 整 理和复习课件
- 2026中国农业科学院油料作物研究所油料基因工程与转基因安全评价创新团队科研助理招聘1人备考题库带答案详解(黄金题型)
- 2026北京市丰台区东铁匠营街道蒲黄榆社区卫生服务中心 护士岗位招聘备考题库及答案详解(考点梳理)
- 2026新教材人教版二年级下册数学 第1课时 1000以内数的认识 课件
- 《第2课 玩转季节色》课件2025-2026学年人教版美术二年级下册
- 2026年深圳市高三语文一模作文“戏剧性的瞬间”58分56分范文及点评
- 2026年淮南联合大学单招综合素质考试题库带答案详解
- 2026年安徽工贸职业技术学院单招职业技能考试题库及一套答案详解
- 江苏省重点高中2026届高三九校联考政治试卷(含答案)
- 2026中食(河北)产业发展有限公司招聘市场运营部专员考试参考试题及答案解析
- (一模)东北三省三校2026年高三第一次联合模拟考试物理试卷(含答案)
- 【《中国工商银行个人消费信贷风险与防范研究》14000字(论文)】
- 2026保安员资格考试培训试题及答案
- 2026湖南省卫生健康委直属事业单位招聘185人考试参考题库及答案解析
- 《城市地下道路工程设计标准》DBJ41-T218-2019
评论
0/150
提交评论