专题06 统计案例原卷版_第1页
专题06 统计案例原卷版_第2页
专题06 统计案例原卷版_第3页
专题06 统计案例原卷版_第4页
专题06 统计案例原卷版_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专题06统计案例【清单01】变量间的相关关系1、变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.2、散点图将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.3、相关系数若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.(1)当时,表示两个变量正相关;当时,表示两个变量负相关.(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.(3)通常当时,认为两个变量具有很强的线性相关关系.【清单02】线性回归1、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为其中,,,(,)称为样本点的中心.2、残差分析对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关指数来刻画回归的效果,其计算公式是:.越接近于,说明残差的平方和越小,也表示回归的效果越好.【清单03】独立性检验1、分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{,}和{,},其样本频数列联表(称为2×2列联表)为总计总计从列表中,依据与的值可直观得出结论:两个变量是否有关系.2、等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.3、独立性检验计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.0.100.050.0100.0050.0012.7063.8416.6357.87910.828【考点题型一】线性分析--相关系数、相关指数【例1】.下列说法正确的个数是(

)①线性相关系数越接近1,两个变量的线性相关程度越强;②独立性检验可以100%确定两个变量之间是否具有某种关系;③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.A.1 B.2 C.3 D.4【变式1-1】.下列说法错误的是(

)A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1;B.用不同的模型拟合同一组数据,则残差平方和越小的模型拟合的效果越好;C.设,且,则;D.若变量x和y满足关系,则x与y负相关.【变式1-2】.已知5个成对数据的散点图如下,若去掉点,则下列说法正确的是()A.变量x与变量y呈正相关 B.变量x与变量y的相关性变强C.残差平方和变大 D.样本相关系数r变大【变式1-3】.以下关于统计分析的描述,哪一个是正确的?(

)A.样本均值越接近总体均值,样本的代表性越好.B.样本标准差越大,数据的离散程度越小.C.相关系数的绝对值越接近1,表示两个变量的线性关系越弱.D.决定系数R²越接近1,模型的解释能力越强.【变式1-4】.关于线性回归的描述,有下列命题:①回归直线一定经过样本点的中心;②相关系数r越大,线性相关程度越强;③决定系数越接近1拟合效果越好;④随机误差平方和越小,拟合效果越好.其中正确的命题个数为(

)A.1 B.2 C.3 D.4【变式1-5】.对四组数据进行统计,获得如图散点图,关于其相关系数的比较,正确的是(

)A.B.C. D.【考点题型二】回归方程【例2】.某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:研发投入(亿元)12345产品收益(亿元)3791011(1)计算,的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般;若,则线性相关程度较高)(2)求出关于的线性回归方程,并预测若想收益超过20(亿元),则需研发投入至少多少亿元?(结果保留一位小数)参考公式:回归直线的斜率和截距的最小二乘法估计公式,相关系数的公式分别为,,.参考数据:,,.【变式2-1】.在下表的统计量中,有一个数值不清晰,用m表示.x12345y6.37.48.18.7m已知表中数据的经验回归方程同时满足:①过点;②x每增加一个单位,y增加0.9个单位,则当;时,.【变式2-2】.(多选)随机抽取5家超市,得到其广告支出(万元)与销售额(万元)的数据如下:超市ABCD广告支出24568销售额3040606070下列说法正确的是(

)(参考公式:,;参考数据:)A.经验回归直线经过点 B.经验回归方程为C.样本点的残差为 D.预测广告支出10万元时的销售额为80万元【变式2-3】.某大学组织宣传小分队进行法律法规宣传,某宣传小分队记录了前9天每天普及的人数,得到下表:时间x(天)123456789每天普及的人数y8098129150203190258292310(1)从这9天的数据中任选2天的数据,以X表示2天中普及人数不少于200人的天数,求X的分布列和数学期望;(2)由于统计人员的疏忽,第5天的数据统计有误,如果去掉第5天的数据,试用剩下的数据求出每天普及的人数y关于天数x的线性回归方程.参考数据:,,.附:对于一组数据(,),(,),……,(,),其回归直线的斜率和截距的最小二乘估计分别为:,.【变式2-4】.某学院为了加强学生身体素质,特推出“校园轻氧打卡”活动,以下是前9天的打卡人数散点图.(1)求出每天打卡人数y关于天数x的经验回归方程;(2)利用经验回归方程试着预测第10天的打卡人数;附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.【考点题型三】独立性检验【例3】.新型冠状病毒疫情已经严重影响了我们正常的学习、工作和生活.某市为了遏制病毒的传播,利用各种宣传工具向市民宣传防治病毒传播的科学知识.某校为了解学生对新型冠状病毒的防护认识,对该校学生开展防疫知识有奖竞赛活动,并从女生和男生中各随机抽取30人,统计答题成绩分别制成如下频数分布表和频率分布直方图.规定:成绩在80分及以上的同学成为“防疫标兵”.

名女生成绩频数分布表:成绩频数101064附:0.1000.0500.0250.0100.0050.0012.7063.8415.0246.6357.87910.828(1)根据以上数据,完成以下列联表,并判断是否有%的把握认为“防疫标兵”与性别有关;男生女生合计防疫标兵非防疫标兵合计(2)以样本估计总体,以频率估计概率,现从该校女生中随机抽取人,其中“防疫标兵”的人数为,求随机变量的分布列与数学期望.【变式3-1】.现在,很多人都喜欢骑“共享单车”,但也有很多市民并不认可.为了调查人们对这种交通方式的认可度,某同学从交通拥堵严重的A城市和交通拥堵不严重的B城市分别随机调查了20名市民,得到了一个市民是否认可的样本,具体数据如下列联表:AB总计认可15823不认可51217总计2020400.100.050.0250.010.0052.7063.8415.0246.6357.879附:.根据表中的数据,下列说法中,正确的是(

)A.没有95%以上的把握认为“是否认可与城市的拥堵情况有关”B.有97.5%以上的把握认为“是否认可与城市的拥堵情况有关”C.可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”D.可以在犯错误的概率不超过0.01的前提下认为“是否认可与城市的拥堵情况有关”【变式3-2】.某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是(

)男生女生篮球迷3015非篮球迷4510附:,0.100.050.012.7063.8416.635A.有的把握认为是否是篮球迷与性别有关B.有的把握认为是否是篮球迷与性别有关C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关【变式3-3】.(多选)为了了解居家学习期间性别因素是否对学生体育锻炼的经常性有影响,某校随机抽取了40名学生进行调查,按照性别和体育锻炼情况整理出如下的22列联表:性别锻炼情况合计不经常经常女生/人14721男生/人81119合计/人221840临界值表如下:0.10.050.010.0050.0012.7063.8416.6357.87910.828根据这些数据,给出下列四个结论中正确的是(

)A.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性有影响B.依据频率稳定于概率的原理,可以认为性别对体育锻炼的经常性没有影响C.根据小概率值α=0.05的独立性检验,可以认为性别对体育锻炼的经常性有影响,这个推断犯错误的概率不超过0.05D.根据小概率值α=0.05的独立性检验,没有充分证据推断性别对体育锻炼的经常性有影响,因此可以认为性别对体育锻炼的经常性没有影响【变式3-4】.学校为了解学生对“公序良俗”的认知情况,设计了一份调查表,题目分为必答题和选答题.其中必答题是①、②、③共三道题,选答题为④、⑤、⑥、⑦、⑧、⑨、⑩共七道题,被调查者在选答题中自主选择其中道题目回答即可.现从④、⑥、⑧、⑩四个题目中至少选答一道的学生中随机抽取名学生进行调查,他们选答④、⑥、⑧、⑩的题目数及人数统计如表:选答④、⑥、⑧、⑩的题目数1道2道3道4道人数(1)现规定:同时选答④、⑥、⑧、⑩的学生为“公序良俗”达人.学校还调查了这位学生的性别情况,研究男女生中“公序良俗”达人的大概比例,得到的数据如下表:性别“公序良俗”达人非“公序良俗”达人总计男性女性总计请完成上述列联表,并根据小概率值的独立性检验,分析“公序良俗”达人与性别是否有关.(2)从这名学生中任选名,记表示这名学生选答④、⑥、⑧、⑩的题目数之差的绝对值,求随机变量的分布和数学期望.参考公式:,其中.附表见上图.【变式3-5】.电动车的安全问题越来越引起广大消费者的关注,目前电动车的电池有石墨烯电池与铅酸电池两种.某公司为了了解消费者对两种电池的电动车的偏好,在社会上随机调查了500名市民,其中被调查的女性市民中偏好铅酸电池电动车的占,得到以下的2-2列联表:偏好石墨烯电池电动车偏好铅酸电池电动车合计男性市民200100女性市民合计500(1)根据以上数据,完成2×2列联表,依据小概率的独立性检验,能否认为市民对这两种电池的电动车的偏好与性别有关;(2)采用分层抽样的方法从偏好石墨烯电池电动车的市民中随机抽取7人,再从这7名市民中抽取2人进行座谈,求在有女性市民参加座谈的条件下,恰有一名女性市民参加座谈的概率;(3)用频率估计概率,在所有参加调查的市民中按男性和女性进行分层抽样,随机抽取5名市民,再从这5名市民中随机抽取2人进行座谈,记2名参加座谈的市民中来自偏好石墨烯电池电动车的男性市民的人数为X,求X的分布列和数学期望.参考公式:,其中.参考数据:0.1000.0500.0250.0100.0050.0012.7063.8415.0246.6357.87910.8281.已知一组数据满足线性回归关系,且经验回归方程为,若,则(

)A.30 B.60 C.630 D.12002.高温可以使病毒中的蛋白质失去活性,从而达到杀死病毒的效果,某科研团队打算构建病毒的成活率与温度的某种数学模型,通过实验得到部分数据如下表:温度x(℃)6810病毒数量y(万个)302220由上表中的数据求得回归方程为,可以预测当温度为14℃时,病毒数量为(

)参考公式:,A.12 B.10 C.9 D.113.在研究线性回归模型时,样本数据所对应的点均在直线上,用表示解释变量与响应变量之间的线性相关程度,则(

)A. B. C.1 D.34.已知变量与变量线性相关,与的样本相关系数为,且由观测数据算得样本平均数,,则由该观测数据算得经验回归方程可能是(

)A. B.C. D.5.白术是常见的大宗药材,最早记载于《神龙本草经》,又叫于术、片术,具有补脾健胃,燥湿利水等功效.今年白术从1月份到5月份每公斤的平均价格(单位:元)的数据如右表:根据上表可得回归方程,则实数的值为(

)月份12345每公斤平均价格77109137168199A.46 B.47 C.48 D.496.下列说法正确的是(

)A.某班共有学生50人,现按性别采用分层随机抽样的方法抽取容量为5的样本,若样本中男生有2人,则该班女生共有20人B.数据,,,,,,,的第80百分位数为8C.线性回归分析中,样本相关系数的绝对值越大,成对样本数据的线性相关性越强D.线性回归模型分析中,模型的决定系数越小,模型的拟合效果越好7.(多选)下列说法中正确的是(

)A.数据1,2,2,3,4,5的极差与众数之和为7B.若随机变量X服从二项分布,且,则C.X和Y是分类变量,若值越大,则判断“X与Y独立”的把握性越大D.若随机变量X服从正态分布,且,则8.(多选)下列说法正确的是(

)A.若随机变量,则B.残差平方和越大,模型的拟合效果越好C.若随机变量,则当减小时,保持不变D.一组数据的极差不小于该组数据的标准差9.(多选)下列命题正确的是(

)A.线性回归直线不一定经过样本点的中心B.设,若,,则C.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1D.一个袋子中有100个大小相同的球,其中有40个黄球、60个白球,从中不放回地随机摸出20个球作为样本,用随机变量X表示样本中黄球的个数,则服从二项分布,且10.经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)之间的关系近似于线性相关关系.对某小组学生每周用于数学的学习时间与数学成绩进行数据收集如表:151618192210298115120若由表中样本数据求得线性回归方程为,则实数.11.一部年代创业剧《乘风踏浪》,让辽宁葫芦岛成为许多人心驰神往的旅游度假目的地.为了更好地了解游客需求,优化自身服务,提高游客满意度,随机对1200位游客进行了满意度调查,结果如下表:男性女性合计满意5605401100不满意4060100合计6006001200根据列联表中的数据,经计算得到(精确到0.001);依据数据可作出的判断是.附:.0.10.050.012.7063.8416.63512.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:

令,数据经过初步处理得:,,,,,,,现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).附:①相关系数,回归直线中公式分别为,;②参考数据:,,,.13.随着互联网的高速发展和新媒体形式的不断丰富,微短剧作为一种新兴的文化载体,正逐渐成为拓展文化消费空间的重要途径.某媒体为了了解微短剧消费者的年龄分布,随机调查了200名消费者,得到如下列联表:年龄不超过40岁年龄超过40岁合计是微短剧消费者3045不是微短剧消费者合计100200(1)根据小概率值的独立性检验,能否认为“是微短剧消费者”与“年龄不超过40岁”有关联?(2)记2020~2024年的年份代码x依次为1,2,3,4,5,下表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论