专题11成对数据的统计分析_第1页
专题11成对数据的统计分析_第2页
专题11成对数据的统计分析_第3页
专题11成对数据的统计分析_第4页
专题11成对数据的统计分析_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题11成对数据的统计分析1.(2023·湖南邵阳·统考二模)党的二十大报告提出全面推进乡村振兴.为振兴乡村经济,某市一知名电商平台决定为乡村的特色产品开设直播带货专场.该特色产品的热卖黄金时段为2023年2月1至4月1日,为了解直播的效果和关注度,该电商平台统计了已直播的2023年2月1日至2月5日时段的相关数据,这5天的第天到该电商平台专营店购物人数(单位:万人)的数据如下表:日期2月1日2月2日2月3日2月4日2月5日第x天12345人数y(单位:万人)75849398100依据表中的统计数据,该电商平台直播黄金时间的天数与到该电商平台专营店购物的人数(单位:万人)具有较强的线性相关关系,经计算得,到该电商平台专营店购物人数与直播天数的线性回归方程为.请预测从2023年2月1日起的第38天到该专营店购物的人数(单位:万人)为(

)A.312 B.313 C.314 D.315【答案】C【解析】由题意,,,将代入,可得,解得,线性回归直线方程为,将代入上式,.故选:C.2.(2023·河南·洛阳市第三中学校联考二模)已知变量y与x之间具有线性相关关系,根据变量x与y的相关数据,计算得则y关于x的线性回归方程为(

)附:回归方程中的斜率和截距的最小二乘法估计公式分别为A. B.C. D.【答案】B【解析】由题中的数据可知,所以.所以.所以y关于x的线性回归方程为.故选:B.3.(2023·山东·沂水县第一中学校联考模拟预测)为做好“甲型流感”传染防控工作,某校坚持每日测温报告,以下是高三一班,二班各10名同学的体温记录(从低到高):高三一班:36.1,36.2,,36.4,36.5,36.7,36.7,36.8,36.8,37.0(单位:℃),高三二班:36.1,36.1,36.3,36.3,36.4,36.4,36.5,36.7,,37.1(单位:℃)若这两组数据的第25百分位数、第90百分位数都分别对应相等,则为(

)A.0.6 B.0.5 C.0.4 D.0.3【答案】C【解析】由,可得第25百分位数分别为和,则;由,可得第90百分位数分别为和,则,解得;故.故选:C.4.(2023·陕西·校联考模拟预测)随着生活水平的不断提高,旅游已经成为人们生活的一部分,某地旅游部门从2022年到该地旅游的游客中随机抽取10000位游客进行调查,得到各年龄段游客的人数和旅游方式,如图所示,则下列说法不正确的是(

)A.估计2022年到该地旅游的游客中中年人和青年人占游客总人数的80%B.估计2022年到该地旅游的游客中选择自助游的游客占游客总人数的26.25%C.估计2022年到该地旅游且选择自助游的游客中青年人超过一半D.估计2022年到该地旅游的游客中选择自助游的青年人比到该地旅游的老年人还要多【答案】D【解析】设2022年到该地旅游的游客总人数为,由题意可知游客中老年人、中年人、青年人的人数分别为,,,其中选择自助游的老年人、中年人、青年人的人数分别为,,,所以2022年到该地旅游的游客中中年人和青年人的人数为,所以A正确;因为2022年到该地旅游的游客选择自助游的人数为,所以B正确;因为2022年到该地旅游且选择自助游的游客的人数为,其中青年人的人数为,所以C正确;因为2022年到该地旅游的游客中选择自助游的青年人的人数为,而到该地旅游的老年人的人数为,所以D错误.故选:D.5.(多选题)(2023·湖南郴州·统考三模)给出下列命题,其中正确的是(

)A.对于独立性检验的值越大,说明两事件相关程度越大.B.若随机变量,则C.若,则D.已知样本点组成一个样本,得到回归直线方程,且,剔除两个样本点和得到新的回归直线的斜率为,则新的回归方程为【答案】BCD【解析】选项A,对于独立性检验的值越大,说明这两事件具有相关性的把握越大,错误;选项B,,,正确;选项C,,则,,正确;选项D,把代入回归直线方程,得,剔除两个样本点和后,新的平均数,又新的回归直线的斜率为,即,则,解得,则新的回归方程为,正确;故选:BCD6.(多选题)(2023·广东湛江·统考二模)某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如下表所示:编号12345678910身高/cm165168170172173174175177179182体重/kg55896165677075757880由表中数据制作成如下所示的散点图:由最小二乘法计算得到经验回归直线的方程为,相关系数为,决定系数为;经过残差分析确定为离群点(对应残差过大),把它去掉后,再用剩下的9组数据计算得到经验回归直线的方程为,相关系数为,决定系数为.则以下结论中正确的有(

)A. B.C. D.【答案】AC【解析】身高的平均数为,因为离群点的横坐标168小于平均值,纵坐标89相对过大,所以去掉离群点后经验回归直线的截距变小而斜率变大,所以,,所以A正确,B错误;去掉离群点后成对样本数据的线性相关程度更强,拟合效果会更好,所以,所以C正确,D错误.故选:AC.7.(2023·上海长宁·统考二模)甲、乙两城市某月初连续7天的日均气温数据如图所示,则在这7天中;①甲城市日均气温的中位数与平均数相等②甲城市的日均气温比乙城市的日均气温稳定③乙城市日均气温的极差为④乙城市日均气温的众数为以上判断正确的是___________(写出所有正确判断的序号)【答案】①④【解析】甲城市的气温分别为:;乙城市的气温分别为:.对选项①:甲城市气温的中位数为;平均数为,正确;对选项②:根据折线图知乙城市的日均气更温稳,错误;对选项③:乙城市日均气温的极差为,错误;对选项④:乙城市日均气温的众数为,正确.故答案为:①④8.(2023·广西·校联考模拟预测)某单位为了调查性别与对工作的满意程度是否具有相关性,随机抽取了若干名员工,所得数据统计如下表所示,其中,且,若有的把握可以认为性别与对工作的满意程度具有相关性,则的值可以是__________.(横线上给出一个满足条件的x的值即可)对工作满意对工作不满意男女附:,其中.0.100.050.0250.0100.0050.0012.7063.8415.0246.6357.87910.828【答案】(或中任意一个)【解析】,解得,因为且,所以或或或或或.故答案为:(或中任意一个)9.(2023·山东临沂二模)某农科所统计了单位面积某种化肥实施量x(kg)和玉米相应产量Y(kg)的相关数据,制作了数据对照表:x(kg)1620242936Y(kg)340350362404454若在合理施肥范围内x与Y具有线性相关关系,(1)求Y关于x的线性回归方程;(2)请利用线性回归方程预测时的玉米产量.附:回归直线的斜率和截距的最小二乘法估计公式分别为:,.【解析】(1)解:由表中数据计算得,.,,,,.所以回归方程为.(2)将代入回归方程得.故预测时,玉米产量约为.10.(2023·宁夏银川·统考模拟预测)“十四五”时期是我国全面建成小康社会、实现第一个百年奋斗目标之后,开启全面建设社会主义现代化国家新征程、向第二个百年奋斗目标进军的第一个五年.“三农”工作重心历史性转向全面推进乡村振兴,加快中国特色农业农村现代化进程.国务院印发《“十四五”推进农业农村现代化规划》制定了具体工作方案和工作目标,提出到年全国水产品年产量达到万吨.年至年全国水产品年产量(单位:千万吨)的数据如下表:年份年份代号总产量(1)求出关于的线性回归方程,并预测年水产品年产量能否实现目标;(2)为了系统规划渔业科技推广工作,研究人员收集了年全国个地区(含中农发集团)渔业产量、渔业从业人员、渔业科技推广人员的数据,渔业年产量超过万吨的地区有个,有渔业科技推广人员高配比(配比渔业科技推广人员总数:渔业从业人员总数)的地区有个,其中年产量超过万吨且高配比的地区有个,能否有的把握认为“渔业科技推广人员配比和年产量”有关系.附:对于一组数据,其回归直线的斜率和截距的最小二乘法估计分别为,,;参考数据,.【解析】(1)由表格数据知:,,,,,,关于的线性回归方程为:,当时,,年水产品年产量能实现目标.(2)列联表如下:渔业年产量超过万吨的地区渔业年产量不超过万吨的地区合计有渔业科技推广人员高配比的地区没有渔业科技推广人员高配比的地区合计则,有的把握认为“渔业科技推广人员配比和年产量”有关系.11.(2023·河南·校联考模拟预测)某社区对是否愿意参与2023年元旦文艺与体育活动进行调查,随机抽查男性居民,女性居民各35人,参与调查的结果如下表:愿意参与不愿参与男性居民15人20人女性居民25人10人(1)从已知数据判断能否有95%的把握认为是否愿意参与文艺和体育活动与性别有关;(2)用分层抽样方法,在愿意参与的居民中抽取8人,再从这8人中随机抽取3人,记抽到的男性居民人数为X,求随机变量X的分布列和数学期望.附:,其中.0.0500.0100.0013.8416.63510.828【解析】(1)由已知得列联表:愿意参与不愿参与总计男性居民152035女性居民251035总计403070因为.所以有95%的把握认为是否愿意参与文艺和体育活动与性别有关;(2)用分层抽样方法,在愿意参与的居民中抽取8人,男性居民应抽取3人,女性居民应抽取5人,再从这8人中随机抽取3人,记抽到的男性居民为X,则X的可能取值为0,1,2,3.,,,,所以X的分布列为:X0123P所以.12.(2023·浙江温州·统考二模)在一次全市的联考中,某校高三有100位学生选择“物化生”组合,100位学生选择“物化地”组合,现从上述的学生中分层抽取100人,将他们此次联考的化学原始成绩作为样本,分为6组:,得到如图所示的频率分布直方图.(1)求直方图中的值;(2)在抽取的100位学生中,规定原始成绩不低于80分为“优秀”,低于80分为“不够优秀",请将下面的列联表补充完整,并判断是否有的把握认为成绩是否优秀与所选的组合有关?优秀不够优秀总计“物化生”组合40“物化地”组合总计(3)浙江省高考的选考科目采用等级赋分制,等级赋分的分差为1分,具体操作步骤如下:第一步:将原始成绩从高到低排列,按人数比例划分为20个赋分区间.第二步:对每个区间的原始成绩进行等比例转换,公式为:其中分别是该区间原始成绩的最低分、最高分;分别是该区间等级分的最低分、最高分;为某考生原始成绩,为转换结果.第三步:将转换结果四舍五入,确定为该考生的最终等级分.本次联考采用浙江选考等级赋分制,已知全市所有的考生原始成绩从高到低前(最低分为80分)的考生被划分至的赋分区间,甲、乙两位考生的化学原始成绩分别为,最终的等级分为98、99.试问:本次联考全市化学原始成绩的最高分是否可能是91分?请说明理由.附:,其中.0.100.050.010.0012.7063.8416.63510.828【解析】(1)由频率分布直方图得:,解得,所以直方图中的值是.(2)由频率分布直方图“优秀”人数为人,则不够优秀的为85人,所以列联表为:优秀不够优秀总计“合物化生”组104050“物化地”组54550合总计1585100零假设:成绩是否优秀与所选的组合无关,因此,所以没有的把握认为成绩是否优秀与所选的组合有关.(3)假设本次联考全市化学原始成绩的最高分是91分,则有,此时99.73四舍五入后变为100分,与99分矛盾,因此假设不成立,所以本次联考全市化学原始成绩的最高分不可能是91分.13.(2023·山西·校联考模拟预测)某中学为了调查学生每周运动时长,随机从全校男生和女生中各抽取了90名学生进行问卷调查,并对每周不同运动时长所对应的人数进行了统计,得到如下数据:每周平均运动时长少于7小时每周平均运动时长不少于7小时男生4545女生6030(1)能否有99%的把握认为男生与女生每周平均运动时长有差异?(2)现随机从全校男生和女生中各随机抽取2名学生,记其中男生和女生中每周平均运动时长不少于7小时的人数分别为X,Y,且记,证明:.附:0.0500.0100.0013.8416.63510.828【解析】(1)由已知得列联表:每周平均运动时长少于7小时每周平均运动时长不少于7小时合计男生454590女生603090合计10575180,所以没有99%的把握认为学生每周平均运动时长与性别有差异.(2)男生中每周平均运动时长不少于7小时的概率,女生中每周平均运动时长不少于7小时的概率,依题意,,,于是,,随机变量的可能值为,,0,1,2,,,,,,因此,所以.14.(2023·江西南昌·统考二模)随着国民旅游消费能力的提升,选择在春节假期放松出行的消费者数量越来越多.伴随着我国疫情防控形势趋向平稳,被“压抑”已久的出行需求持续释放,“周边游”、“乡村游”等新旅游业态火爆,为旅游行业发展注入新活力,旅游预订人数也开始增多,为了调查游客预订与年龄是否有关,调查组对400名不同年龄段的游客进行了问卷调查,其中有200名游客预定了,这200名游客中各年龄段所占百分比见图:已知在所有调查游客中随机抽取1人,抽到不预订的且在19~35岁年龄段的游客概率为.(1)请将下列2×2列联表补充完整.预订旅游不预订旅游合计1935岁18岁以下及36岁以上合计能否在犯错误概率不超过0.001的前提下,认为旅游预订与年龄有关?请说明理由.(2)将上述调查中的频率视为概率,按照分层抽样的方法,从预订旅游客群中选取5人,在从这5人中任意取2人,求2人中恰有1人是1935岁年龄段的概率.附:,其中.0.1000.0500.0100.0050.001k2.7063.8416.6357.87910.828【解析】(1)预定旅游中,19-35岁年龄段的人数为:人,18岁以下及36岁以上人数为人.在所有调查对象中随机抽取1人,抽到不预订的旅游客群在19~35岁年龄段的人的概率为,故不预订旅游客群19~35岁年龄段的人为:人,18岁以下及36岁以上人数为人.所以列联表中的数据为:预订旅游不预订旅游合计19~35岁1207519518岁以下及36岁以上80125205合计200200400,则能在犯错误概率不超过0.001的前提下,认为旅游顸订与年龄有关.(2)按分层抽样,从预定旅游客群中选取5人,其中在19-35岁年龄段的人数为,分别记为:A,B,C;18岁以下及36岁以上人数为2人,分别记为:a,b.从5人中任取2人,则有:,共有10种情况其中恰有1人是19-35岁年龄段的有:,共6种情况,故2人中恰有1人是1935岁年龄段的概率为:.15.(2023·黑龙江哈尔滨·哈尔滨三中校考二模)中国共产党第二十次全国代表大会上的报告中提到,新时代十年我国经济实力实现历史性跃升,国内生产总值从54万亿元增长到114万亿元,我国经济总量稳居世界第二位.建立年份编号为解释变量,地区生产总值为响应变量的一元线性回归模型,现就20122016某市的地区生产总值统计如下:年份20122013201420152016年份编号12345地区生产总值(亿元)2.83.13.94.65.6(1)求出回归方程,并计算2016年地区生产总值的残差;(2)随着我国打赢了人类历史上规模最大的脱贫攻坚战,该市20172022的地区生产总值持续增长,现对这11年的数据有三种经验回归模型、、,它们的分别为0.976、0.880和0.985,请根据的数值选择最好的回归模型预测一下2023年该市的地区生产总值;(3)若20122022该市的人口数(单位:百万)与年份编号的回归模型为,结合(2)问中的最佳模型,预测一下在2023年以后,该市人均地区生产总值的变化趋势.参考公式:,;【解析】(1)由数据,,,而,,所以,则,综上,回归方程为,当时,,故2016年地区生产总值残差为.(2)根据相关指数越大拟合越好,由于,故模型较好,因2023年对应,则亿元.(3)由(2)及题设知:该市人均地区生产总值,令,且,若,所以,而且,则,故,所以在上递增,则在上递增,所以该市人均地区生产总值逐年递增.16.(2023·山东聊城·统考二模)某中学在高一学生选科时,要求每位学生先从物理和和历史这两个科目中选定一个科目,再从思想政治、地理、化学、生物这四个科目中任选两个科目.选科工作完成后,为了解该校高一学生的选科情况,随机抽取了部分学生作为样本,对他们的选科情况统计后得到下表:思想政治地理化学生物物理类100120200180历史类1201406080(1)利用上述样本数据填写以下列联表,并依据小概率值的独立性检验,分析以上两类学生对生物学科的选法是否存在差异.科类生物学科选法选不选合计物理类历史类合计(2)假设该校高一所有学生中有的学生选择了物理类,其余的学生都选择了历史类,且在物理类的学生中其余两科选择的是地理和化学的概率为,而在历史类的学生中其余两科选择的是地理和化学的概率为.若从该校高一所有学生中随机抽取100名学生,用表示这100名学生中同时选择了地理和化学的人数,求随机变量的均值.附:0.10.050.0010.0050.0012.7063.8416.6357.87910.828【解析】(1)由题意可得:选择物理类的总人数有600,其中选择生物学科的人数为180,不选择生物学科的人数为420;选择历史类的总人数有400,其中选择生物学科的人数为80,不选择生物学科的人数为320;据此完善列联表科类生物学科选法选不选合计物理类180120300历史类80120200合计260240500零假设:两类学生对生物学科的选法没有差异,可得,由于,根据小概率值可知假设不成立,故可以认为两类学生对生物学科的选法存在差异,且犯错误的概率不大于.(2)记“学生选择物理类”为事件M,“学生选择历史类”为事件N,“同时选择的地理和化学”为事件C,则,故,由题意可得,则,故随机变量的均值.17.(2023·全国·模拟预测)某乡镇全面实施乡村振兴,大力发展特色产业——富硒水果.工作人员统计了近8年富硒水果种植面积(单位:百亩)与年销售额(单位:千万元)的数据.经计算得到如下处理后的统计量:,,,,,,,,,其中,.(1)根据以上数据,从相关系数的角度,判断与哪个适宜作为年销售额关于种植面积的回归方程类型(相关系数精确到0.01).(2)根据(1)的判断结果及相关数据,建立关于的回归方程(系数精确到0.01).(3)该乡镇计划年销售额不低于10亿元,请预测种植面积至少为多少亩.附:相关系数,回归直线的斜率与截距的最小二乘估计分别为,.参考数据:,.【解析】(1)若用作为年销售额关于种植面积的回归方程类型,则设,则.设与的相关系数为,则.由,,得,则,所以.若用作为年销售额关于种植面积的回归方程类型,则.设,则.设与的相关系数为,则.因为,所以适宜作为年销售额关于种植面积的回归方程类型.(2).由,得.,所以关于的线性方程为,则关于的回归方程为.(3)由题意可知.整理,得,因为,解得或(舍去),故种植面积至少为706亩.18.(2023·山东·沂水县第一中学校联考模拟预测)为加快推动旅游业复苏,进一步增强居民旅游消费意愿,山东省人民政府规定自2023年1月21日起至3月31日在全省实施景区门票减免,全省国有A级旅游景区免首道门票,鼓励非国有A级旅游景区首道门票至少半价优惠.本次门票优惠几乎涵盖了全省所有知名的重点景区,据统计,活动开展以来游客至少去过两个及以上景区的人数占比约为90%.某市旅游局从游客中随机抽取100人(其中年龄在50周岁及以下的有60人)了解他们对全省实施景区门票减免活动的满意度,并按年龄(50周岁及以下和50周岁以上)分类统计得到如下不完整的列联表:不满意满意总计50周岁及以下5550周岁以上15总计100(1)根据统计数据完成以上列联表,并根据小概率值的独立性检验,能否认为对全省实施景区门票减免活动是否满意与年龄有关联?(2)现从本市游客中随机抽取3人了解他们的出游情况,设其中至少去过两个及以上景区的人数为,若以本次活动中至少去过两个及以上景区的人数的频率为概率.①求的分布列和数学期望;②求.参考公式及数据:,其中.0.1000.0500.0100.0012.7063.8416.63510.828【解析】(1)由题意,抽取的100人年龄在50周岁及以下的有60人,则年龄在50周岁以上的有40人,补全的列联表如下:不满意满意总计50周岁及以下5556050周岁以上152540总计2080100则.所以在犯错误的概率不超过0.001的情况下认为对全省实施景区门票减免活动是否满意与年龄有关联.(2)①由题意可得,游客至少去过两个及以上景区的概率为0.9,则,的所有可能取值为0,1,2,3,,,,,所以的分布列如下:0123因为,所以数学期望.②.19.(2023·内蒙古包头·二模)新型冠状病毒疫情已经严重影响了我们正常的学习、工作和生活.某市为了遏制病毒的传播,利用各种宣传工具向市民宣传防治病毒传播的科学知识.某校为了解学生对新型冠状病毒的防护认识,对该校学生开展防疫知识有奖竞赛活动,并从女生和男生中各随机抽取30人,统计答题成绩分别制成如下频数分布表和频率分布直方图.规定:成绩在80分及以上的同学成为“防疫标兵”.30名女生成绩频数分布表:成绩频数101064(1)根据以上数据,完成以下列联表,并判断是否有95%的把握认为“防疫标兵”与性别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论