版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
微专题13统计与成对数据的统计分析1.分层随机抽样中的均值与方差若将总体分为k层,第j层的样本量为nj,样本均值为eq\o(x,\s\up15(-))j,样本方差为seq\o\al(2,j),j=1,2,…,k,记n=eq\i\su(j=1,k,n)j,则总的样本均值eq\o(x,\s\up15(-))和样本方差s2分别为eq\o(x,\s\up15(-))=eq\f(1,n)eq\i\su(j=1,k,n)jeq\o(x,\s\up15(-))j,s2=eq\f(1,n)eq\i\su(j=1,k,[)njseq\o\al(2,j)+nj(eq\o(x,\s\up15(-))j-eq\o(x,\s\up15(-)))2].2.一元线性回归模型(1)经验回归直线eq\o(y,\s\up15(^))=eq\o(b,\s\up15(^))x+eq\o(a,\s\up15(^))一定过样本点的中心(eq\o(x,\s\up15(-)),eq\o(y,\s\up15(-))).(2)a,b的最小二乘估计为eq\b\lc\{\rc\(\a\vs4\al\co1(\o(b,\s\up15(^))=\f(\i\su(i=1,n,)(xi-\o(x,\s\up15(-)))(yi-\o(y,\s\up15(-))),\i\su(i=1,n,)(xi-\o(x,\s\up15(-)))2),,\o(a,\s\up15(^))=\o(y,\s\up15(-))-\o(b,\s\up15(^))\o(x,\s\up15(-)).)) (3)决定系数R2=1-eq\f(\i\su(i=1,n,)(yi-\o(y,\s\up15(^))i)2,\i\su(i=1,n,)(yi-\o(y,\s\up15(-)))2)越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.3.独立性检验(1)卡方:χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d为样本容量.(2)基于小概率值α的检验规则:当χ2≥xα时,推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,没有充分证据推断H0不成立,即认为X和Y独立. 微点一统计图表及数字特征的应用例1(1)(多选题)给定一组不全相同的样本数据x1,x2,…,xn,关于样本数据2x1-1,2x2-1,…,2xn-1的说法正确的是()A.与原数据相比,极差一定变大B.与原数据相比,众数一定变大C.与原数据相比,平均数一定变大D.与原数据相比,方差一定变大(2)(2025·滨州二模)(多选题)据网络平台数据,电影《哪吒之魔童闹海》登顶动画票房榜榜首的亚洲电影.一团队从观看该电影的所有观众中随机抽取10000人为样本,统计他们的年龄,并绘制如图所示的频率分布直方图,则()A.a=0.019B.观众年龄的众数估计为35C.观众年龄的平均数估计为30.2D.观众年龄的第70百分位数估计为38[听课记录]_________________________________________________________________________________________________________________________________利用频率分布直方图估计样本数字特征的方法(1)中位数:在频率分布直方图中,中位数左边和右边的直方图面积相等,由此可以估计中位数.(2)平均数:平均数的估计值等于每个小矩形的面积乘矩形底边中点横坐标之和.训练1(1)(2025·广东模拟)(多选题)为了丰富学生的课余生活,减轻学生的学习压力,某校提倡师生全民健身,口号为“全民健身,与奥运同行”.该校跳绳社团组织学生校内跳绳比赛,得到10名同学的跳绳数分别为:180,166,190,176,180,200,170,198,160,220(单位:个),则这组样本数据的()A.极差为60 B.平均数是184C.方差为400 D.60%分位数是185(2)(多选题)2020至2024年我国快递业务量及其增长速度如图所示,则()A.2020至2024年我国快递业务量逐年增长B.2020至2024年我国快递业务量的中位数是1106亿件C.2020至2024年我国快递业务量增长速度的极差是19.4%D.估计我国2019年的快递业务量大于500亿件微点二回归分析例2某电商平台统计了近七年小家电的年度广告费支出xi(万元)与年度销售量yi(万台)的数据,如表所示:年份2018201920202021202220232024广告费支出x1246111319销售量y1.93.24.04.45.25.35.4其中eq\i\su(i=1,7,x)iyi=279.4,eq\i\su(i=1,7,x)eq\o\al(2,i)=708.(1)若用回归模型拟合y与x的关系,求出y关于x的经验回归方程;(2)若用y=c+deq\r(x)模型拟合得到的经验回归方程为eq\o(y,\s\up15(^))=1.63+0.99eq\r(x),经计算回归模型及该模型的R2分别为0.75和0.88,请根据R2的数值选择更好的回归模型拟合y与x的关系,进而计算出年度广告费x为何值时,利润eq\o(z,\s\up15(^))=200y-x的预报值最大?参考公式:eq\o(b,\s\up15(^))=eq\f(\i\su(i=1,n,x)iyi-n\o(x,\s\up15(-))\o(y,\s\up15(-)),\i\su(i=1,n,x)eq\o\al(2,i)-n\o(x,\s\up15(-))2)=eq\f(\i\su(i=1,n,)(xi-\o(x,\s\up15(-)))(yi-\o(y,\s\up15(-))),\i\su(i=1,k,)(xi-\o(x,\s\up15(-)))2),eq\o(a,\s\up15(^))=eq\o(y,\s\up15(-))-eq\o(b,\s\up15(^))eq\o(x,\s\up15(-)).训练2某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i12345678910平均值根部横截面积xi0.040.060.040.080.080.05abc0.070.06材积量yi0.250.410.220.540.530.340.350.390.430.440.39其中a,b,c为等差数列,并计算得:eq\i\su(i=1,6,x)iyi=0.146,eq\r(\i\su(i=1,6,x)eq\o\al(2,i)-6\o(x,\s\up15(-))2)≈0.044,eq\r(\i\su(i=1,6,y)eq\o\al(2,i)-6\o(y,\s\up15(-))2)≈0.303.(1)求b的值;(2)若选取前6个样本号对应数据,判断这种树木的根部横截面积与材积量是否具有很强的线性相关性,并求该林区这种树木的根部横截面积与材积量的经验回归方程(若0.25≤|r|≤0.75,则认为两个变量的线性相关性一般;若|r|>0.75,则认为两个变量的线性相关性很强);(3)根据经验回归方程估计a,c的值(精确到0.01).附:样本相关系数r=eq\f(\i\su(i=1,n,x)iyi-n\o(x,\s\up15(-))\o(y,\s\up15(-)),\r(\i\su(i=1,n,x)eq\o\al(2,i)-n\o(x,\s\up15(-))2)\r(\i\su(i=1,n,y)eq\o\al(2,i)-n\o(y,\s\up15(-))2)),经验回归方程eq\o(y,\s\up15(^))=eq\o(b,\s\up15(^))x+eq\o(a,\s\up15(^))中,eq\o(b,\s\up15(^))=eq\f(\i\su(i=1,n,x)iyi-n\o(x,\s\up15(-))\o(y,\s\up15(-)),\i\su(i=1,n,x)eq\o\al(2,i)-n\o(x,\s\up15(-))2).eq\o(a,\s\up15(^))=eq\o(y,\s\up15(-))-eq\o(b,\s\up15(^))eq\o(x,\s\up15(-)).微点三独立性检验例3(2025·重庆模拟)随机询问80名不同职业的人在购买食品时是否看营养说明,得到如下调查结果:职业买食品时是否看营养说明合计不看营养说明看营养说明从事与医疗相关行业122840从事与医疗无关行业182240合计305080(1)从这80名受访者中随机抽出1人,已知此人在购买食品时要看营养说明,求这名受访者从事与医疗无关行业的概率;(2)依据小概率值α=0.05的χ2独立性检验,能否推断两个群体在购买食品时是否看营养说明存在差异?参考公式:χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),χ2独立性检验中常用小概率值和相应临界值:α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828独立性检验的一般步骤(1)根据样本数据列2×2列联表.(2)提出零假设,根据公式χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),计算χ2的值.(3)比较χ2与临界值的大小关系,作统计判断.χ2越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.训练3(2025·河南省名校模拟)某校开设校本课程“剪纸”,为了解学生参加该课程与性别是否有关,用简单随机抽样的方法分别从男生和女生中各抽取了50名学生进行调查,得到如下2×2列联表:性别课程合计参加“剪纸”课程不参加“剪纸”课程男生10女生3050合计(1)补全列联表,并依据小概率值α=0.050的独立性检验,分析参加“剪纸”课程是否与性别有关联;(2)以样本估计总体,且以频率估计概率,若从该校女生中随机抽取3人,记其中参加“剪纸”课程的人数为X,求X的期望.附:χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.α0.0500.0250.010xα3.8415.0246.6351.(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:亩产量[900,950)[950,1000)[1000,1050)[1050,1100)[1100,1150)[1150,1200]频数61218302410根据表中数据,下列结论中正确的是()A.100块稻田亩产量的中位数小于1050kgB.100块稻田中亩产量低于1100kg的稻田所占比例超过80%C.100块稻田亩产量的极差介于200kg至300kg之间D.100块稻田亩产量的平均值介于900kg至1000kg之间2.(2024·天津高考)下列图中,线性相关系数最大的是()eq\o(\s\up15(),\s\do15(A))eq\o(\s\up15(),\s\do15(B))eq\o(\s\up15(),\s\do15(C))eq\o(\s\up15(),\s\do15(D))3.(2023·新课标Ⅰ卷)(多选题)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则()A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差4.(2021·新课标Ⅰ卷)(多选题)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则()A.两组样本数据的样本平均数相同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样本数据的样本极差相同微专题13统计与成对数据的统计分析例1(1)AD解析对于A,若样本数据x1,x2,…,xn中的最小的数为x1,最大的数为xn,则极差为xn-x1,则样本数据2x1-1,2x2-1,…,2xn-1的极差为(2xn-1)-(2x1-1)=2(xn-x1),因为xn-x1>0,所以2(xn-x1)>xn-x1,所以A正确;对于B,若x1,x2,…,xn的众数为x1,则2x1-1,2x2-1,…,2xn-1的众数为2x1-1,若x1=-1,则2x1-1=2×(-1)-1=-3<-1,所以B错误;对于C,若x1,x2,…,xn的平均数为,则2x1-1,2x2-1,…,2xn-1的平均数为2-1,若=0,则2-1=-1<0,所以C错误;对于D,若x1,x2,…,xn的方差为s2=eq\f(1,n)[(x1-)2+(x2-)2+…+(xn-)2],而s2>0,则2x1-1,2x2-1,…,2xn-1的方差为s′2=eq\f(1,n)[(2x1-1-2+1)2+(2x2-1-2+1)2+…+(2xn-1-2+1)2]=4×eq\f(1,n)[(x1-)2+(x2-)2+…+(xn-)2]=4s2>s2,所以D正确.故选AD.(2)BD解析由题意知(0.010+a+0.022+0.025+0.020+0.005)×10=1,解得a=0.018,故A错误;观众年龄的众数估计是eq\f(30+40,2)=35,故B正确;估计这10000名观众年龄的平均数为5×0.1+15×0.18+25×0.22+35×0.25+45×0.2+55×0.05=29.2,故C错误;前3组的频率之和为(0.010+0.018+0.022)×10=0.50,前4组的频率之和为0.50+0.025×10=0.75,故第70百分位数位于第4组,设其为t,则(t-30)×0.025+0.50=0.70,解得t=38,即第70百分位数为38,故D正确.故选BD.训练1(1)ABD解析将这组数据从小到大排序得160,166,170,176,180,180,190,198,200,220,这组数据的极差为220-160=60,故A正确;平均数为eq\f(1,10)×(180+166+190+176+180+200+170+198+160+220)=184,故B正确;方差为eq\f(1,10)×[(180-184)2+(166-184)2+(190-184)2+(176-184)2+(180-184)2+(200-184)2+(170-184)2+(198-184)2+(160-184)2+(220-184)2]=297.6,故C错误;因为10×0.6=6,所以60%分位数为eq\f(180+190,2)=185,故D正确.故选ABD.(2)ABD解析对于A中,根据统计图表,可得2020至2024年我国快递业务量逐年增长,所以A正确.对于B中,2020至2024年我国快递业务量分别为834,1083,1106,1321,1605,可得数据的中位数为1106亿件,所以B正确;对于C中,2020至2024年我国快递业务量增长速度的极差为31.2%-2.1%=29.1%,所以C错误.对于D中,设我国2019年的快递业务量为x亿件,则(1+31.2%)x=834,可得x=eq\f(834,1.312)>eq\f(834,1.5)=556>500,所以D正确.故选ABD.例2解(1)由题意可得:=eq\f(1+2+4+6+11+13+19,7)=8,=eq\f(1.9+3.2+4.0+4.4+5.2+5.3+5.4,7)=4.2,所以==eq\f(279.4-7×8×4.2,708-7×82)=0.17,=-=4.2-0.17×8=2.84,y关于x的经验回归方程为=0.17x+2.84.(2)因为0.75<0.88,R2越大拟合效果越好,选用经验回归方程=1.63+0.99eq\r(x)更好,=200(1.63+0.99eq\r(x))-x=-x+198eq\r(x)+326=-(eq\r(x)-99)2+10127,当eq\r(x)=99,即x=9801时,利润的预报值最大.训练2解(1)由a,b,c为等差数列,得2b=a+c,由表格得该树木根部横截面积的平均值为0.06,可得a+b+c=0.06×10-(0.04+0.06+0.04+0.08+0.08+0.05+0.07)=0.18,故3b=0.18,解得b=0.06.(2)由已知得=eq\f(1,6)×(0.04+0.06+0.04+0.08+0.08+0.05)≈0.058,=eq\f(1,6)×(0.25+0.41+0.22+0.54+0.53+0.34)≈0.382,样本相关系数r=≈0.98>0.75,故这种树木的根部横截面积与材积量具有很强的线性相关性.所以=≈6.75,=-≈-0.0095,所以该林区这种树木的根部横截面积与材积量的经验回归方程为=6.75x-0.0095.(3)由表格数据可得,根部横截面积为a,c时对应的材积量分别为0.35,0.43,代入经验回归方程分别得0.35=6.75a-0.0095,0.43=6.75c-0.0095,解得a≈0.05,c≈0.07.例3解(1)用A表示事件“受访者在购买食品是要看营养说明”,B表示事件“受访者从事医疗无关行业”,“已知此人在购买食品时要看营养说明,求这名受访者从事与医疗无关行业”的概率就是在“在事件A发生的条件下,事件B发生”的概率,记为P(B|A),n(AB)=22,n(A)=50,所以P(B|A)=eq\f(22,50)=eq\f(11,25).(2)零假设为H0:职业与看营养说明相互独立,即两个群体在购买食品时是否看营养说明无差异,根据表中数据,计算得到χ2=eq\f(80×(12×22-18×28)2,40×40×30×50)=eq\f(48,25)=1.920<3.841=x0.05,根据小概率值α=0.05的χ2独立性检验,没有充分证据推断H0不成立,所以可以认为H0成立,即认为两个群体在购买食品时是否看营养说明无差异.训练3解(1)2×2列联表如下:性别课程合计参加“剪纸”课程不参加“剪纸”课程男生104050女生203050合计3070100零假设为H0:参加“剪纸”课程与性别无关联,则χ2=eq\f(100(10×30-20×40)2,30×70×50×50)=eq\f(100,21)≈4.762>3.841=x0.050,依据小概率值α=0.050的独立性检验,我们推断H0不成立,即认为参加“剪纸”课程与性别有关联,此推断犯错误的概率不大于0.050.(2)由表格中的数据知,从女生中抽取1人,其参加“剪纸”课程的概率为P=eq\f(20,50)=eq\f(2,5),X的可能取值为0,1,2,3,且X~Beq\b\lc\(\rc\)(\a\vs4\al\co1(3,\f(2,5))),所以E(X)=3×eq\f(2,5)=eq\f(6,5).真题巧用·明技法1.C解析对于A,因为前3组的频率之和0.06+0.12+0.18=0.36<0.5,前4组的频率之和0.36+0.30=0.66>0.5,所以100块稻田亩产量的中位数所在的区间为[1050,1100),故A不正确;对于B,100块稻田中亩产量低于1100kg的稻田所占比例为eq\f(6+12+18+30,100)×100%=66%,故B不正确;对于C,因为1200-900=300,1150-950=200,所以100块稻田亩产量的极差介于200kg至300kg之间,故C正确;对于D,100块稻田亩产量的平均值为eq\f(1,100)×(925×6+975×12+1025×18+1075×30+1125×24+1175×10)=1067(kg),故D不正确.综上所述,故选C.2.A解析选项A中的散点有明显的从左下角到右上角沿直线分布的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学(历史学)世界近代史期末测试题及答案
- 制砖车间新员工培训课件
- 工程建设安全培训材料课件
- 工程安全管理员培训题库课件
- 公务用车专项治理自查报告(多篇)自查自纠报告
- 生鲜配送运输合同范本草案
- 慢阻肺患者AI运动指导方案
- 土地承包经营合同协议
- 员工餐厅日常监督检查制度
- 2026年旅游服务尽职调查合同协议
- 中央财经大学金融学院行政岗招聘1人(非事业编制)参考笔试题库及答案解析
- 临床试验风险最小化的法律风险防范策略
- 2025年酒店总经理年度工作总结暨战略规划
- 2025年三基超声试题及答案
- 广场景观及铺装工程施工方案
- 贵州兴义电力发展有限公司2026年校园招聘备考题库及一套完整答案详解
- 完整版学生公寓维修改造工程施工组织设计方案
- 2026年“十五五”期间中国速冻食品行业市场调研及投资前景预测报告
- 2026年北京第一次普通高中学业水平合格性考试化学仿真模拟卷01(考试版及全解全析)
- 2025年《生命伦理学》知识考试题库及答案解析
- 物业安全生产岗位责任清单
评论
0/150
提交评论