版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题16统计目录一览2023真题展现考向一样本的数字特征考向二频率分布直方图真题考查解读近年真题对比考向一样本的数字特征考向二频率分布直方图考向三独立性检验命题规律解密名校模拟探源易错易混速记/二级结论速记考向一样本的数字特征1.(多选)(2023•新高考Ⅰ•第9题)有一组样本数据x1,x2,⋯,x6,其中x1是最小值,x6是最大值,则()A.x2,x3,x4,x5的平均数等于x1,x2,⋯,x6的平均数 B.x2,x3,x4,x5的中位数等于x1,x2,⋯,x6的中位数 C.x2,x3,x4,x5的标准差不小于x1,x2,⋯,x6的标准差 D.x2,x3,x4,x5的极差不大于x1,x2,⋯,x6的极差【答案】BD解:A选项,x2,x3,x4,x5的平均数不一定等于x1,x2,⋯,x6的平均数,A错误;B选项,x2,x3,x4,x5的中位数等于x3+x42,x1,x2,⋯,x6C选项,设样本数据x1,x2,⋯,x6为0,1,2,8,9,10,可知x1,x2,⋯,x6的平均数是5,x2,x3,x4,x5的平均数是5,x1,x2,⋯,x6的方差s12=16×[(0﹣5)2+(1﹣5)2+(2﹣5)2+(8﹣5)2+(9﹣5)x2,x3,x4,x5的方差s22=14×[(1﹣5)2+(2﹣5)2+(8﹣5)s12>s22,∴s1D选项,x6>x5,x2>x1,∴x6﹣x1>x5﹣x2,D正确.考向二频率分布直方图2.(2023•新高考Ⅱ•第19题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性,此检测标准的漏诊率是将患病者判定为阴性的概率,记为p(c);误诊率是将未患病者判定为阳性的概率,记为q(c).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);(2)设函数f(c)=p(c)+q(c).当c∈[95,105],求f(c)的解析式,并求f(c)在区间[95,105]的最小值.解:(1)当漏诊率p(c)=0.5%时,则(c﹣95)•0.002=0.5%,解得c=97.5;q(c)=0.01×2.5+5×0.002=0.035=3.5%;(2)当c∈[95,100]时,f(c)=p(c)+q(c)=(c﹣95)•0.002+(100﹣c)•0.01+5×0.002=﹣0.008c+0.82≥0.02,当c∈(100,105]时,f(c)=p(c)+q(c)=5×0.002+(c﹣100)•0.012+(105﹣c)•0.002=0.01c﹣0.98>0.02,故f(c)=−0.008c+0.82,95≤c≤100所以f(c)的最小值为0.02.【命题意图】考查样本的数字特征、频率分布直方图、相关性、独立性检验.【考查要点】考查相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等.考查学生读取数据、分析数据、处理数据的能力.【得分要点】1.众数、中位数、平均数(1)众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.(2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:一组数据的算术平均数,即x=2.频率分布直方图(1)频率分布直方图:在直角坐标系中,横轴表示样本数据,纵轴表示频率与组距的比值,将频率分布表中的各组频率的大小用相应矩形面积的大小来表示,由此画成的统计图叫做频率分布直方图.(2)频率分布直方图的特征①各长方形面积等于相应各组的频率的数值,所有小矩形面积和为1.②从频率分布直方图可以清楚地看出数据分布的总体趋势.③从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息被抹掉.(3)频率分布直方图求数据①众数:频率分布直方图中最高矩形的底边中点的横坐标.②平均数:频率分布直方图各小矩形的面积乘底边中点的横坐标之和.③中位数:把频率分布直方图分成两个面积相等部分的平行于y轴的直线横坐标.3.极差、方差与标准差(1)①用一组数据中最大数据减去最小数据的差来反映这组数据的变化范围,这个数据就叫极差.②一组数据中各数据与平均数差的平方和的平均数叫做方差.③方差的算术平方根就为标准差.(2)方差和标准差都是反映这组数据波动的大小,方差越大,数据的波动越大.4.独立性检验(1)分类变量:如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)原理:假设性检验.一般情况下:假设分类变量X和Y之间没有关系,通过计算K2值,然后查表对照相应的概率P,发现这种假设正确的概率P很小,从而推翻假设,最后得出X和Y之间有关系的可能性为(1﹣P),也就是“X和Y有关系”.(表中的k就是K2的观测值,即k=K2).利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验.(3)2×2列联表:设,为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:总计总计(4)范围:K2∈(0,+∞);性质:K2越大,说明变量间越有关系.(5)解题步骤:①认真读题,取出相关数据,作出2×2列联表;②根据2×2列联表中的数据,计算K2的观测值k;③通过观测值k与临界值k0比较,得出事件有关的可能性大小.考查相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等.考查形式以多选题和解答题为主。考向一样本的数字特征3.(多选)(2021•新高考Ⅱ)下列统计量中,能度量样本x1,x2,…,xn的离散程度的有()A.样本x1,x2,…,xn的标准差 B.样本x1,x2,…,xn的中位数 C.样本x1,x2,…,xn的极差 D.样本x1,x2,…,xn的平均数【解答】解:中位数是反应数据的变化,方差是反应数据与均值之间的偏离程度,极差是用来表示统计资料中的变异量数,反映的是最大值与最小值之间的差距,平均数是反应数据的平均水平,故能反应一组数据离散程度的是标准差,极差.故选:AC.4.(多选)(2021•新高考Ⅰ)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则()A.两组样本数据的样本平均数相同 B.两组样本数据的样本中位数相同 C.两组样本数据的样本标准差相同 D.两组样本数据的样本极差相同【解答】解:对于A,两组数据的平均数的差为c,故A错误;对于B,两组样本数据的样本中位数的差是c,故B错误;对于C,∵标准差D(yi)=D(xi+c)=D(xi),∴两组样本数据的样本标准差相同,故C正确;对于D,∵yi=xi+c(i=1,2,…,n),c为非零常数,x的极差为xmax﹣xmin,y的极差为(xmax+c)﹣(xmin+c)=xmax﹣xmin,∴两组样本数据的样本极差相同,故D正确.故选:CD.考向二频率分布直方图5.(2022•新高考Ⅱ)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);(2)估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率;(3)已知该地区这种疾病患者的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口的16%.从该地区中任选一人,若此人的年龄位于区间[40,50),求此人患这种疾病的概率(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).【解答】解:(1)由频率分布直方图得该地区这种疾病患者的平均年龄为:=5×0.001×10+15×0.002×10+25×0.012×10+35×0.017×10+45×0.023×10+55×0.020×10+65×0.017×10+75×0.006×10+85×0.002×10=47.9岁.(2)该地区一位这种疾病患者的年龄位于区间[20,70)的频率为:(0.012+0.017+0.023+0.020+0.017)×10=0.89,∴估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率为0.89.(3)设从该地区中任选一人,此人的年龄位于区间[40,50)为事件B,此人患这种疾病为事件C,则P(C|B)==≈0.0014.考向三独立性检验6.(2022•新高考Ⅰ)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:不够良好良好病例组4060对照组1090(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”,与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.(ⅰ)证明:R=•;(ⅱ)利用该调查数据,给出P(A|B),P(A|)的估计值,并利用(ⅰ)的结果给出R的估计值.附:K2=.P(K2≥k)0.0500.0100.001k3.8416.63510.828【解答】解:(1)补充列联表为:不够良好良好合计病例组4060100对照组1090100合计50150200计算K2==24>6.635,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)(i)证明:R=:=•=•==•=;(ⅱ)利用调查数据,P(A|B)==,==,P(|B)=1﹣P(A|B)=,P(|)=1﹣P(A|)=,所以R=×=6.一.简单随机抽样(共3小题)1.(2023•湖南模拟)已知某班共有学生46人,该班语文老师为了了解学生每天阅读课外书籍的时长情况,决定利用随机数表法从全班学生中抽取10人进行调查.将46名学生按01,02,…,46进行编号.现提供随机数表的第7行至第9行:844217533157245506887704744767217633502583921206766301637859169556571998105071751286735807443952387933211234297864560782524207443815510013429966027954若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,则得到的第8个样本编号是()A.07 B.12 C.39 D.44【解答】解:由题意可知得到的样本编号依次为12,06,01,16,19,10,07,44,39,38,则得到的第8个样本编号是44.故选:D.2.(2023•赤峰模拟)某商场推出一种抽奖活动:盒子中装有有奖券和无奖券共10张券,客户从中任意抽取2张,若至少抽中1张有奖券,则该客户中奖,否则不中奖.客户甲每天都参加1次抽奖活动,一个月(30天)下来,发现自己共中奖11次,根据这个结果,估计盒子中的有奖券有()A.1张 B.2张 C.3张 D.4张【解答】解:设盒子中的有奖券x张,则无奖券(10﹣x)张,所以客户不中奖的概率为=1﹣,即=,化简得x2﹣19x+33=0,解得x=,因为x∈(0,10),所以x的近似值为2,即估计盒子中的有奖券有2张.故选:B.3.(2023•宜春模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为()第1行:2976 3413 2841 4241第2行:8303 9822 5888 2410第3行:5556 8526 6166 8231A.10 B.22 C.24 D.26【解答】解:被选中的红色球号码依次为28,03,22,24,10,26,所以第四个被选中的红色球号码为24.故选:C.二.分层抽样方法(共2小题)4.(2023•江西模拟)目前,甲型流感病毒在国内传播,据某市卫健委通报,该市流行的甲型流感病毒,以甲型H1N1亚型病毒为主,假如该市某小区共有100名感染者,其中有10名年轻人,60名老年人,30名儿童,现用分层抽样的方法从中随机抽取20人进行检测,则做检测的老年人人数为()A.6 B.10 C.12 D.16【解答】解:老年人做检测的人数为.故选:C.5.(2023•西山区校级模拟)为庆祝中国共产党成立100周年,某市举办“红歌大传唱”主题活动,以传承红色革命精神,践行社会主义路线,某高中有高一、高二、高三分别600人、500人、700人,欲采用分层抽样法组建一个18人的高一、高二、高三的红歌传唱队,则应抽取高三()A.5人 B.6人 C.7人 D.8人【解答】解:依题意得:某高中有高一、高二、高三分别600人、500人、700人,欲采用分层抽样法组建一个18人的高一、高二、高三的红歌传唱队,则应抽取高三的人数为:.故选:C.三.系统抽样方法(共2小题)6.(2023•凯里市校级二模)某工厂要对生产流水线上的600个零件(编号为001,002,…,599,600)进行抽检,若采用系统抽样的方法抽检50个零件,且编号为015的零件被抽检,则被抽检的零件的最小编号为.【解答】解:因为,即抽取的组距为12,又因为编号为015的零件被抽检,所以被抽检的零件的最小编号为003.故答案为:003.7.(2023•武汉模拟)2022年8月16日,航天员的出舱主通道——问天实验舱气闸舱首次亮相,为了解学生对这一新闻的关注度,某班主任在开学初收集了50份学生的答题问卷,并抽取10份问卷进行了解,现采用系统抽样的方法,将这50份答题问卷从01到50进行编号,分成10组,已知第一组中被抽到的号码为03,则第8组中被抽到的号码为.【解答】解:将这50份答题问卷从01到50进行编号,分成10组,则每组为5份,第一组中被抽到的号码为03,则第8组中被抽到的号码为3+(8﹣1)×5=38.故答案为:38.四.分布和频率分布表(共2小题)8.(2023•青羊区校级模拟)一个果园培养了一种少籽苹果,现随机抽样一些苹果调查苹果的平均果籽数量,得到下列频率分布表:果籽数目1234苹果数12521则根据表格,这批样本的平均果籽数量为()A.1 B.1.6 C.2.5 D.3.2【解答】解:苹果总数为12+5+2+1=20,则这批样本的平均果籽数量为.故选:B.9.(2023•安宁市校级模拟)某人发现人们在邮箱名称里喜欢用数字,于是他做了调查,结果如下表:邮箱数601302653061233213047006897名称里有数字的邮箱数3678165187728130028204131频率(1)填写上表中的频率(结果保留到小数点后两位);(2)人们在邮箱名称里使用数字的概率约是多少?【解答】解:(1)由频率公式可算出表格中的频率从左向右依次为:0.60,0.60,0.62,0.61,0.59,0.61,0.60,0.60.(2)由(1)知,虽然计算出的频率不全相同,但都在常数0.60左右摆动,因此,中国人在邮箱名称里使用数字的概率约为0.60.五.频率分布直方图(共11小题)10.(2023•四川模拟)某学校在高三年级中抽取200名学生,调查他们课后完成作业的时间,并根据调查结果绘制了如下频率分布直方图.根据此直方图得出了下列结论,其中不正确的是()A.所抽取的学生中有40人在2.5小时至3小时之间完成作业 B.该校高三年级全体学生中,估计完成作业的时间超过4小时的学生概率为0.1 C.估计该校高三年级学生的平均做作业的时间超过3小时 D.估计该校高三年级有一半的学生做作业的时间在2.5小时至4.5小时之间【解答】解:对于A,在2.5小时至3小时之间的人数为0.4×0.5×200=40人,故A正确;对于B,该校高三年级全体学生中,估计完成作业的时间超过4小时的学生概率为(0.1+0.1)×0.5=0.1,故B正确;对于C,该校高三年级学生的平均做作业的时间为(0.1×1.25+0.3×1.75+0.5×2.25+0.4×2.75+0.3×3.25+0.2×3.75+0.1×4.25+0.1×4.75)×0.5=2.75,故C错误;对于D,由图可估计该校高三年级学生做作业的时间在2.5小时至4.5小时之间的概率为(0.4+0.3+0.2+0.1)×0.5=0.5,故D正确.故选:C.11.(2023•碑林区校级模拟)为弘扬奥林匹克精神,普及冰雪运动知识,助力2022年冬奥会和冬残奥会,某校组织全体学生参与“激情冰雪﹣相约冬奥”冰雪运动知识竞赛.从参加竞赛的学生中,随机抽取若干名学生的竞赛成绩,均在50到100之间,将样本数据分组为[50,60),[60,70),[70,80),[80,90),[90,100],并将成绩绘制得到如图所示的频率分布直方图.已知成绩在区间70到90的有60人.(1)求样本容量,并估计该校本㳄竞赛成绩的中位数及平均数(同一组中的数据用该组区间的中点值为代表);(2)全校学生有1000人,抽取学生的竞赛成绩的标准差为11,用频率估计概率,记全校学生的竞赛成绩的标准差为σ,估计全校学生中竞赛成绩在内的人数.【解答】解:(1)设样本容量为n,则,得n=100,样本容量为100,设本次竞赛成绩的中位数为x,则0.08+0.2+(x﹣70)×0.032=0.5,得x=76.875,抽取的学生竞赛成绩的平均数;(2),,则抽取学生在内的频率为(70﹣65.6)×0.02+0.32+(87.6﹣80)×0.028=0.6208,全校学生有1000人,竞赛成绩在内的人数1000×0.6208=620.8≈621.12.(2023•商丘三模)某学校参加全国数学竞赛初赛(满分100分).该学校从全体参赛学生中随机抽取了200名学生的初赛成绩绘制成频率分布直方图如图所示:(1)根据频率分布直方图给出的数据估计此次初赛成绩的中位数和平均分数;(2)从抽取的成绩在90~100的学生中抽取3人组成特训组,求学生A被选的概率.【解答】解:(1)由图可知,前三组的频率之和为(0.0075+0,0200+0.0300)×10=0.575,故初赛成绩的中位数在第三组[60,70)内,设为x,则有0.075+0.2+0.03×(x﹣60)=0.5,解得x=67.5,即初赛成绩的中位数为67.5;由频率分布直方图可知,初赛成绩的平均数为:=0.075×45+0.2×55+0.3×65+0.25×75+0.15×85+0.025×95=67.75;(2)由图可知,抽取的200名学生中,成绩在90~100的有200×0.025=5人,从这5人中抽取3人,共有=10种取法,其中,学生A被选中,则有=6种取法,故学生A被选中的概率为.13.(2023•葫芦岛一模)某校进行了物理学业质量监测考试,将考试成绩进行统计并制成如下频率分布直方图,a的值为;考试成绩的中位数为.【解答】解:由频率分布直方图可知:(0.005+0.010+0.015×2+0.020+a)×10=1,解得a=0.035,设中位数为x,则.故答案为:0.035,.14.(2023•泉州模拟)随着老年人消费需求从“生存型”向“发展型”转变,消费层次不断提升,“银发经济”成为社会热门话题之一,被各企业持续关注.某企业为了解该地老年人消费能力情况,对该地年龄在[60,80)的老年人的年收入按年龄[60,70),[70,80)分成两组进行分层抽样调查,已知抽取了年龄在[60,70)的老年人500人.年龄在[70,80)的老年人300人.现作出年龄在[60,70)的老年人年收入的频率分布直方图(如下图所示).(1)根据频率分布直方图,估计该地年龄在[60,70)的老年人年收入的平均数及第95百分位数;(2)已知年龄在[60,70)的老年人年收入的方差为3,年龄在[70,80)的老年人年收入的平均数和方差分别为3.75和1.4,试估计年龄在[60,80)的老年人年收入的方差.【解答】解:(1)频率分布直方图中,该地年龄在[60,70)的老年人年收入的平均数约为:0.04×2+0.08×3+0.18×4+0.26×5+0.20×6+0.15×7+0.05×8+0.04×9=5.35,由频率分布直方图,年收入在8.5万元以下的老年人所占比例为1﹣0.04×1=0.96,年收入在7.5万元以下的老年人所占比例为1﹣(0.05×1+0.04×1)=0.91,因此,第95百分位数一定位于[7.5,8.5)内,由,可以估计该地年龄在[60,70)的老年人年收入的第95百分位数为8.3.(2)设年龄在[60,70)的老年人样本的平均数记为,方差记为;年龄在[70,80)的老年人样本的平均数记为,方差记为;年龄在[60,80)的老年人样本的平均数记为,方差记为s2.由(1)得,由题意得,,,,则,由,可得,即估计该地年龄在[60,80)的老年人的年收入方差为3.15.(2023•贾汪区校级模拟)在某地区进行流行病调查,随机调查了100名某种疾病患者的年龄,得到如图的样本数据频率分布直方图.(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值作代表);(2)估计该地区一人患这种疾病年龄在区间[20,70)的概率;(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口的16%,从该地区任选一人,若此人年龄位于区间[40,50),求此人患该种疾病的概率.(样本数据中的患者年龄位于各区间的频率作为患者年龄位于该区间的概率,精确到0.0001)【解答】解:(1)由频率分布直方图得平均年龄为:=(5×0.001+15×0.002+25×0.012+35×0.017+45×0.023+55×0.020+65×0.017+75×0.006+85×0.002)×10=47.9(岁).(2)设A={一人患这种疾病的年龄在区间[20,70)},∴P(A)=1﹣P()=1﹣(0.001+0.002+0.006+0.002)×10=1﹣0.11=0.89.(3)设B=“任选一人年龄位于区间[40,50)”,C=“从该地区中任选一人患这种疾病“,则由已知得:P(B)=16%=0.16,P(C)=0.1%=0.001,P(B|C)=0.023×10=0.23,则由条件概率公式可得:从该地区中任选一人,若此人的年龄位于区间[40,50),此人患这种疾病的概率为:P(C|B)====0.0014375≈0.0014.16.(2023•郑州模拟)2023U.I.M.F1摩托艇世界锦标赛中国郑州大奖赛于2023年4月29日~30日在郑东新区龙湖水域举办.这场世界瞩目的国际体育赛事在风光迤逦的龙湖上演绎了速度与激情,全面展示了郑州现代化国家中心城市的活力与魅力.为让更多的人了解体育运动项目和体育精神,某大学社团举办了相关项目的知识竞赛,并从中随机抽取了100名学生的成绩,绘制成如图所示的频率分布直方图.(1)求频率分布直方图中成绩的平均数和中位数(同一组数据用该组区间的中点值代替);(2)若先采用分层抽样的方法从成绩在[80,90),[90,100]的学生中共抽取6人,再从这6人中随机抽取2人为赛事志愿者,求这2名志愿者中恰好有一人的成绩在[90,100]的概率.【解答】解:(1)由频率分布直方图可知:平均成绩,因为0.02+0.16+0.22=0.4<0.5,0.02+0.16+0.22+0.3=0.7>0.5,所以中位数落在[70,80)内,设中位数为x,则0.4+0.030×(x﹣70)=0.5,解得;(2)因为成绩在[80,90),[90,100]的学生人数所占比例为0.020:0.010=2:1,所以从成绩在[80,90),[90,100]的学生中应分别抽取4人,2人,记抽取成绩在[80,90)的4人为:a,b,c,d,抽取成绩在[90,100]的2人为:E,F,从这6人中随机抽取2人的所有可能为:(a,b),(a,c),(a,d),(a,E),(a,F),(b,c),(b,d),(b,E),(b,F),(c,d),(c,E),(c,F),(d,E),(d,F),(E,F),共15种,抽取的2名学生中恰好有一人的成绩在[90,100]的是(a,E),(a,F),(b,E),(b,F),(c,E),(c,F),(d,E),(d,F)只有8种,故做培训的这2名学生中恰好有一人的成绩在[90,100]的概率.17.(2023•四川模拟)某市为了解全市环境治理情况,对本市的200家中小型企业的污染情况进行了摸排,并把污染情况各类指标的得分综合折算成准分(最高为100分),统计并制成如图所示的直方图,则这次摸排中标准分不低于75分的企业数为()A.30 B.60 C.70 D.130【解答】解:根据频率分布直方图,标准分不低于75分的企业的频率为:1﹣(0.01+0.02+0.04+0.06+0.04)×5=1﹣0.65=0.35,∴标准分不低于75分的企业数为0.35×200=70(家).故选:C.18.(2023•甘肃模拟)为提升本地景点的知名度、美誉度,各地文旅局长纷纷出圈,作为西北自然风光与丝路人文历史大集合的青甘大环线再次引发热议.为了更好的提升服务,某地文旅局对到该地的5000名旅行者进行满意度调查,将其分成以下6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],整理得到如图所示的频率分布直方图.(1)求频率分布直方图中a的值;(2)在这些旅行者中,满意度得分在60分及以上的有多少人?(3)为了打造更加舒适的旅行体验,文旅局决定在这5000名旅行者中用分层抽样的方法从得分在[80,100]内抽取6名旅行者进一步做调查问卷和奖励.再从这6名旅行者中抽取一等奖两名,求中奖的2人得分都在[80,90)内的概率.【解答】解:(1)由题意,得(0.006+0.010+a+0.018+0.020+0.032)×10=1,解得a=0.014.(2)由频率分布直方图,得满意度得分在60分及以上的频率是1﹣(0.006+0.014)×10=0.8,所以满意度得分在60分及以上的人数约为5000×0.8=4000.(3)用分层抽样的方法抽取的6名旅行者中,得分在[80,90)内的有4人,设为A,B,C,D;得分在[90,100]内的有2人,设为E,F,因此从6人中任取2人的试验有Ω={AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF},共15个基本事件,设2人得分都在[80,90)内为事件M,则M={AB,AC,AD,BC,BD,CD},共6个基本事件,所以中奖的2人得分都在[80,90)内的概率.19.(2023•日喀则市模拟)我市某校为了解高一新生对物理科与历史科方向的选择意向,对1000名高一新生发放意向选择调查表,统计知,有600名学生选择物理科,400名学生选择历史科.分别从选择物理科和历史科的学生中随机各抽取20名学生的数学成绩得如下累计表(如表):分数段物理人数历史人数[40,50)02[50,60)14[60,70)34[70,80)65[80,90)63[90,100]42(1)利用表中数据,试分析数学成绩对学生选择物理科或历史科的影响,并绘制选择物理科的学生的数学成绩的频率分布直方图,并求出选择物理科的学生的数学成绩的平均数(如图);(2)从数学成绩低于80分的选择物理科和历史科的学生中按照分层抽样的方法抽取5个成绩,再从这5个成绩中抽2个成绩,求至少有一个选择物理科学生的概率.【解答】解:(1)由表格数据知,随着数学成绩分数的提升,选择物理方向学生的占比有明显的提升,所以数学成绩越好,其选择物理科方向的概率越大,频率分布直方图如下:选择物理科的学生的数学成绩的平均数为;(2)由题可知,数学成绩低于80分的选择物理学科的成绩有10个,选择历史学科的成绩有15个,一共有25个,则按照分层抽样的方法在选择物理学科的数学成绩应抽取个,设为A,B,在选择历史学科的数学成绩应抽取个,设为a,b,c,基本事件列举如下:AB,Aa,Ab,Ac,Ba,Bb,Bc,Ab,ac,bc,所以一共有10个基本事件,满足条件的有7个:AB,Aa,Ab,Ac,Ba,Bb,Bc,所以至少有一个选择物理科学生的概率为.20.(2023•博白县模拟)某地区期末进行了统一考试,为做好本次考试的评价工作,现从中随机抽取了50名学生的成绩,经统计,这批学生的成绩全部介于40至100之间,将数据按照[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]分成6组,制成了如图所示的频率分布直方图.(1)求频率分布直方图中m的值;在这50名学生中用分层抽样的方法从成绩在[70,80),[80,90),[90,100]的三组中抽取了11人,再从这11人中随机抽取3人,记X为3人中成绩在[80,90)的人数,求P(X=1);(2)规定成绩在[90,100]的为A等级,成绩在[70,90)的为B等级,其它为C等级.以样本估计总体,用频率代替概率.从所有参加考试的同学中随机抽取3人,求获得B等级的人数不少于2人的概率.【解答】(1)根据频率分布直方图可得:2×0.004×10+0.022×10+0.03×10+0.028×10+10m=1,解得m=0.012,又成绩在[70,80),[80,90),[90,100]的三组人数比为7:3:1,∴根据分层抽样抽取的成绩在[70,80),[80,90),[90,100]的三组人数为7,3,1,∴;(2)根据题意可知成绩为B等级的频率为,设从所有参加考试的同学中随机抽取3人,获得B等级的人数为Y,则Y服从二项分布,∴,,∴获得B等级的人数不少于2人的概率为.六.频率分布折线图、密度曲线(共2小题)21.(2023•青羊区校级模拟)在统计中,月度同比是指本月和上一年同月相比较的增长率,月度环比是指本月和上一个月相比较的增长率,如图是2022年1月至2022年12月我国居民消费价格月度涨跌幅度统计图,则以下说法错误的是()A.在这12个月中,我国居民消费价格月度同比数据的中位数为2.1% B.在这12个月中,月度环比数据为正数的个数比月度环比数据为负数的个数多3 C.在这12个月中,我国居民消费价格月度同比数据的均值为1.85% D.在这12个月中,我国居民消费价格月度环比数据的众数为0.0%【解答】解:在这12个月中,我国居民消费价格月度同比数据由小到大依次为0.9%,0.9%,1.5%,1.6%,1.8%,2.1%,2.1%,2.1%,2.5%,2.5%,2.7%,2.8%,中位数为,平均数为,由数据可知我国居民消费价格月度环比的数据中,有6个月的数据为正数,3个月的数据为0.0%,3个月的数据为负数,所以月度环比数据为正数的个数比月度环比数据为负数的个数多3,且0.0%出现次数最多,故众数为0.0%,故选项A,B,D正确,C错误,故选:C.22.(2023•定远县校级模拟)空气质量指数是评估空气质量状况的一组数字,空气质量指数划分为[0,50)、[50,100)、[100,150)、[150,200)、[200,300)和[300,500]六档,分别对应“优”、“良”、“轻度污染”、“中度污染”、“重度污染”和“严重污染”六个等级.如图是某市2月1日至14日连续14天的空气质量指数趋势图,则下面说法中正确的是()A.这14天中有5天空气质量为“中度污染” B.从2日到5日空气质量越来越好 C.这14天中空气质量指数的中位数是214 D.连续三天中空气质量指数方差最小是5日到7日【解答】解:根据题意,依次分析选项:对于A,这14天中有4天空气质量指数在[150,200)之间,则有4天为“中度污染”,A错误;对于B,从2日到5日空气质量逐渐下降,即空气质量越来越好,B正确;对于C,将14组数据从小到大排列:80,83,138,155,157,165,179,214,214,221,243,260,263,275,其中位数为(179+214)=196.5,C错误;对于D,5日到7日的三天,数据相差比较大,则连续三天中空气质量指数方差最小不是5日到7日,D错误.故选:B.七.茎叶图(共3小题)23.(2023•兴国县模拟)某赛季甲、乙两名篮球运动员每场比赛的得分用如图所示的茎叶图表示,茎叶图中甲运动员每场比赛得分的中位数为18.5,若甲、乙两名篮球运动员每场比赛得分的平均数分别用,表示,标准差分别用S1,S2表示,则()A.,S1<S2 B.,S1<S2 C.,S1>S2 D.,S1>S2【解答】解:甲运动员得分为:5,11,15,10+x,20,22,22,24,因为甲运动员每场比赛得分的中位数为18.5,所以=18.5,解得x=7,所以甲运动员得分为:5,11,15,17,20,22,22,24,所以,=,乙运动员得分为:8,11,12,16,18,20,21,22,,=,所以,S1>S2.故选:D.24.(2023•毕节市模拟)某市质量检测部门从辖区内甲、乙两个地区的食品生产企业中分别随机抽取9家企业,根据食品安全管理考核指标对抽到的企业进行考核,并将各企业考核得分整理成如下的茎叶图.由茎叶图所给信息,可判断以下结论中正确是()A.若a=2,则甲地区考核得分的极差大于乙地区考核得分的极差 B.若a=4,则甲地区考核得分的平均数小于乙地区考核得分的平均数 C.若a=5,则甲地区考核得分的方差小于乙地区考核得分的方差 D.若a=6,则甲地区考核得分的中位数小于乙地区考核得分的中位数【解答】解:对于选项A:甲地区考核得分的极差为94﹣75=19,乙地区考核得分的极差为99﹣74=25,即甲地区考核得分的极差小于乙地区考核得分的极差,故选项A错误;对于选项B:甲地区考核得分的平均数为,乙地区考核得分的平均数为,即甲地区考核得分的平均数大于乙地区考核得分的平均数,故选项B错误;对于选项C:甲地区考核得分从小到大排列为:75,78,81,84,85,88,92,93,94,乙地区考核得分从小到大排列为:74,77,80,83,84,87,91,95,99,由以上数据可知,乙地区考核得分的波动程度比甲地区考核得分的波动程度大,即甲地区考核得分的方差小于乙地区考核得分的方差,故选项C正确;对于选项D:由茎叶图可知,甲地区考核得分的中位数为85,乙地区考核得分的中位数为84,即甲地区考核得分的中位数大于乙地区考核得分的中位数,故选项D错误;故选:C.25.(2023•河南模拟)某班男女生各10名最近一周平均每天的锻炼时间(单位:分钟)的茎叶图如图所示.假设每名学生最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大.②从平均数分析,男生每天锻炼的时间比女生多.③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差.④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.上述四个结论中符合茎叶图所给数据的结论是()A.①②③ B.②③④ C.①②④ D.①③④【解答】解:由茎叶图可知,男生每天锻炼时间差别小,女生差别大,故①正确,男生平均每天锻炼时间超过65分钟的概率为,女生平均每天锻炼时间超过65分钟的概率为,故④正确,设男生、女生两组数据的平均数分别是、,标准差分别为S甲、S乙,易得,,则>,故②正确,又根据茎叶图可知,男生锻炼时间较集中,女生锻炼时间较分散,故S甲<S乙,故③错误,故选:C.八.散点图(共2小题)26.(2023•泉州模拟)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉D(10,2)后,下列说法正确的是()A.相关系数r变小 B.决定系数R2变小 C.残差平方和变大 D.解释变量x与预报变量y的相关性变强【解答】解:由散点图知,去掉点D(10,2)后,y与x的线性相关性加强,则相关系数r变大,∴A错误,决定系数R2变大,∴B错误,残差平方和变小,∴C错误,解释变量x与预报变量y的相关性变强,∴D正确.故选:D.27.(2023•嘉定区模拟)如图是根据x,y的观测数据(xi,yi)(i=1,2,⋯,10)得到的散点图,可以判断变量x,y具有线性相关关系的图是()A.①② B.③④ C.②③ D.①④【解答】解:由题图知,①②的点呈片状分布,没有明显的线性相关关系,③中y随x的增大而减小,各点整体呈下降趋势,x与y负相关,④中y随x的增大而增大,各点整体呈上升趋势,y与x正相关,故选:B.九.统计图表获取信息(共2小题)28.(2023•遂宁模拟)如图是遂宁市2022年4月至2023年3月每月最低气温与最高气温(℃)的折线统计图:已知每月最低气温与最高气温的线性相关系数r=0.88,则下列结论正确的是()A.月温差(月最高气温﹣月最低气温)的最大值出现在8月 B.每月最低气温与最高气温有较强的线性相关性,且二者为线性负相关 C.每月最高气温与最低气温的平均值在4﹣8月逐月增加 D.9﹣12月的月温差相对于5﹣8月,波动性更小【解答】解:对于A,8月温差为38﹣22=16,10月温差为36﹣5=31,故最大温差在10月,故A错,对于B,已知每月最低气温与最高气温的线性相关系数r=0.88,则二者为线性正相关,故B错,对于C,由图表可得,4﹣8月最低气温与最高气温都呈上升趋势,则4﹣8月最高气温与最低气温的平均值逐月增加,故C对,对于D,5﹣8月最高气温为38,最低气温为14,极差为24,9﹣12月最高气温为37,最低气温0,极差为37,故9﹣12月温差波动更大,故D错,故选:C.29.(2023•中卫一模)某保险公司为客户定制了A,B,C,D,E共5个险种,并对5个险种参保客户进行抽样调查,得出如下的统计图:用该样本估计总体,以下四个说法错误的是()A.57周岁以上参保人数最少 B.18~30周岁人群参保总费用最少 C.C险种更受参保人青睐 D.31周岁以上的人群约占参保人群80%【解答】解:A选项,57周岁以上参保人数所占比例是10%,是最少的,A选项正确;B选项,“18~30周岁人群参保平均费用”比“57周岁以上人群参保平均费用”的一半还多,而18~30周岁人群参保人数所占比例是57周岁以上参保人数所占比例的两倍,所以57周岁以上参保人群参保总费用最少,B选项错误;C选项,C险种参保比例0.358,是最多的,所以C选项正确;D选项,31周岁以上的人群约占参保人群30%+40%+10%=80%,D选项正确.故选:B.一十.众数、中位数、平均数(共7小题)30.(多选)(2023•洪山区校级模拟)某产品售后服务中心选取了20个工作日,分别记录了每个工作日接到的客户服务电话的数量(单位:次):6338254256485339284745525948416248505227则这组数据的()A.众数是48 B.中位数是48 C.极差是37 D.5%分位数是25【解答】解:这组数据中48出现了3次,出现次数最多,所以众数是48,选项A正确;从小到大排列数据,第10位和第11位均为48,所以中位数是×(48+48)=48,选项B正确;最大值是63,最小值是25,所以极差是63﹣25=38,选项C错误;因为20×5%=1是整数,5%分位数应取第1位与第2位的平均值,即×(25+27)=26,选项D错误.故选:AB.31.(多选)(2023•湖北模拟)在一次党建活动中,甲、乙、丙、丁四个兴趣小组举行党史知识竞赛,每个小组各派10名同学参赛,记录每名同学失分(均为整数)情况,若该组每名同学失分都不超过7分,则该组为“优秀小组”,已知甲、乙、丙、丁四个小组成员失分数据信息如下,则一定为“优秀小组”的是()A.甲组中位数为2,极差为5 B.乙组平均数为2,众数为2 C.丙组平均数为1,方差大于0 D.丁组平均数为2,方差为3【解答】解;对A,因为中位数为2,极差为5,故最大值小于等于7,故A正确;对B,如失分数据分别为0,0,0,2,2,2,2,2,2,8,则满足平均数为2,众数为2,但不满足每名同学失分都不超过7分,故B错误;对C,如失分数据分别为0,0,0,0,0,0,0,0,1,9,则满足平均数为1,方差大于0,但不满足每名同学失分都不超过7分,故C错误;对D,利用反证法,假设有一同学失分超过7分,则方差大于,与题设矛盾,故每名同学失分都不超过7分.故D正确.故选:AD.32.(多选)(2023•朝阳区校级模拟)已知互不相同的9个样本数据,若去掉其中最大和最小的数据,则剩下的7个数据与原9个数据相比,下列数字特征中不变的是()A.中位数 B.平均数 C.方差 D.第40百分位数【解答】解:设这9个数分别为x1,x2,x3,x4,x5,x6,x7,x8,x9,且x1<x2<x3<x4<x5<x6<x7<x8<x9,则中位数为x5,去掉最大和最小的数据,得x2,x3,x4,x5,x6,x7,x8,中位数为x5,故中位数一定不变;故A正确,由40%×9=3.6,得x1,x2,x3,x4,x5,x6,x7,x8,x9的第40百分位数为x4,由40%×7=2.8,得x2,x3,x4,x5,x6,x7,x8的第40百分位数为x4,故第40百分位数不变,故D正确,设这9个数分别1,2,3,4,5,6,7,8,9,则平均数为,方差为,去掉最大和最小的数据为2,3,4,5,6,7,8,则平均数为,方差为,所以此时方差都改变了,故C错,设这9个数分别﹣1,2,3,4,5,6,7,9,10,则平均数为,去掉最大和最小的数据为2,3,4,5,6,7,9,此时平均数为,所以此时平均数改变了,故B错.故选:AD.33.(多选)(2023•花都区校级模拟)为了加强疫情防控,某中学要求学生在校时每天都要进行体温检测.某班级体温检测员对一周内甲乙两名同学的体温进行了统计,其结果如图所示,则下列结论正确的是()A.乙同学体温的极差为0.3°C B.甲同学体温的中位数与平均数相等 C.乙同学体温的方差比甲同学体温的方差小 D.甲同学体温的第60百分位数为36.5°C【解答】解:对于A,乙同学体温的极差为36.5﹣36.3=0.2°C,故A错误;对于B,甲同学体温从小到大为:36.2,36.2,36.4,36.4,36.5,36.5,36.6,甲同学体温的中位数是36.4,平均数是(36.2+36.2+36.4+36.4+36.5+36.5+36.6)=36.4,∴甲同学体温的中位数与平均数相等,故B正确;对于C,从折线图上得到甲同学体温波动比乙同学体温波动大,∴乙同学体温的方差比甲同学体温的方差小,故C正确;对于D,甲同学体温从小到大为:36.2,36.2,36.4,36.4,36.5,36.5,36.6,7×60%=4.2,∴甲同学体温的第60百分位数为36.5°C,故D正确.故选:BCD.34.(多选)(2023•朝阳区校级模拟)现有甲、乙、丙三位篮球运动员连续5场篮球比赛得分情况的记录数据,已知三位球员得分情况的数据满足以下条件:甲球员:5个数据的中位数是26,众数是24;乙球员;5个数据的中位数是29,平均数是26;丙球员:5个数据有1个是32,平均数是26,方差是9.6;根据以上统计数据,下列统计结论一定正确的是()A.甲球员连续5场比赛得分都不低于24分 B.乙球员连续5场比赛得分都不低于24分 C.丙球员连续5场比赛得分都不低于24分 D.丙球员连续5场比赛得分的第60百分位数大于24【解答】解:对于A,设甲球员的5场篮球比赛得分按从小到大排列为x1,x2,x3,x4,x5,则x1≤x2≤x3≤x4≤x5,x3=26,且24至少出现2次,故x1=x2=24,故A正确;对于B,设乙球员的5场篮球比赛得分按从小到大排列为y1,y2,y3,y4,y5,则y1≤y2≤y3≤y4≤y5,y3=29,取y1=20,y2=23,y4=29,y5=29,可得其满足条件,但有2场得分低于24,故B错误;对于C,设丙球员的5场篮球比赛得分按从小到大排列为z1,z2,z3,z4,z5,由已知,所以,若z4≥32,则z5≥32,所以,矛盾,所以z5=32,,因为z1,z2,z3,z4,z5的平均数为26,所以z1+z2+z3+z4=98,取z1=23,z2=25,z3=25,z4=25,满足要求,但有一场得分低于2(4分),故C错误;对于D,因为5×60%=3,所以丙球员连续5场比赛得分的第60百分位数为,若,则,故z1+z2+z3+z4<98,矛盾,所以,所以丙球员连续5场比赛得分的第60百分位数大于24,故D正确.故选:AD.一十一.极差、方差与标准差(共4小题)35.(多选)(2023•锦州一模)甲、乙二人在相同条件下各射击10次,每次中靶环数情况如图所示:下列说法正确的是()A.从环数的平均数看,甲、乙二人射击水平相当 B.从环数的方差看,甲的成绩比乙稳定 C.从平均数和命中9环及9环以上的频数看,乙的成绩更好 D.从二人命中环数的走势看,甲更有潜力【解答】解:由题意及图得,甲射击10次中靶环数由小到大排列为5,6,6,7,7,7,7,8,8,9.乙射击10次中靶环数由小到大排列为2,4,6,7,7,8,8,9,9,10.甲平均值:(环),乙平均值:(环),甲方差:,乙方差:,A项,甲平均值等于乙平均值,故A正确;B项,,甲的成绩比乙稳定,B正确;C项,甲乙平均数均为7,甲命中9环及9环以上的频数为1,乙命中9环及9环以上的频数为3,故乙的成绩更好,C正确;D项,从二人命中环数的走势看,甲成绩逐渐平稳,乙成绩仍有上升趋势,故乙更有潜力,D错误.故选:ABC.36.(多选)(2023•张家口三模)一组互不相等的样本数据x1,x2,⋯,xn,其平均数为,方差为s2,极差为m,中位数为n,去掉其中的最小值和最大值后,余下数据的平均数为,方差为s′2,极差为m′,中位数为n′,则下列选项一定正确的有()A.n=n′ B. C.s2>s′2 D.m>m′【解答】解:对于选项A:易知中位数是把数据从小到大依次排列后,排在中间位置的数或中间位置的两个数的平均数,若去掉其中的最小值和最大值后,此时中间位置的数相对位置保持不变,所以新数据的中位数保持不变,此时n=n′,故选项A正确;对于选项B:平均数受样本中每个数据的影响,若去掉最小值和最大值后,余下数据的平均数可能会改变,故选项B错误;对于选项C:方差反映数据的离散程度,若去掉数据中的最小值和最大值后,数据相对更加集中,方差变小,此时s2>s′2,故选项C正确;对于选项D:因为极差是最大值与最小值之差,若去掉最小值和最大值后,新数据的极差必然小于原数据的极差,此时m>m′,故选项D正确.故选:ACD.37.(多选)(2023•嘉兴二模)已知一组样本数据x1,x2,…,xn(x1<x2<…<xn),现有一组新的数据,,…,,,则与原样本数据相比,新的样本数据()A.平均数不变 B.中位数不变 C.极差变小 D.方差变小【解答】解:对于A项,新数据的总数为:,故平均数不变,A正确;对于B项,不妨设原数据为:1,2.5,3,则新数据为:1.75,2.75,2,显然中位数变了,故B错误;对于C项,原数据极差为:xn﹣x1,新数据极差为:,,极差变小了,故C正确;对于D项,由于两组数据的平均数不变,而极差变小,说明新数据相对原数据更集中于平均数,故方差变小,即D项正确.故选:ACD.38.(多选)(2023•安徽模拟)甲、乙两位射击爱好者,各射击10次,甲的环数从小到大排列为4,5,5,6,6,7,7,8,8,9,乙的环数从小到大排列为2,5,6,6,7,7,7,8,9,10.则()A.甲的环数的70%分位数是7 B.甲的平均环数比乙的平均环数小 C.这20个数据的平均值为6.6 D.若甲的方差为2.25,乙的方差为4.41,则这20个数据的方差为4.34【解答】解:对于A,因为10×70%=7,所以甲的环数的70%分位数是,故A错误;对于B,,,所以,故B正确;对于C,这20个数据的平均值,故C正确;对于D,这20个数据的方差为,故D错误.故选:BC.39.(多选)(2023•辽宁一模)给定数5,4,3,5,3,2,2,3,1,2,则这组数据的()A.中位数为3 B.方差为 C.众数为3 D.85%分位数为4.5【解答】解:将数5,4,3,5,3,2,2,3,1,2,按小到大的顺序排列为:1,2,2,2,3,3,3,4,5,5,则这组数据的中位数为,故A正确;数据中2,3,出现的次数最多,所以众数为2和3,故C错误;平均数为:,则方差为,故B正确;第85%分位数是数据中至少有85%的数据小于或等于该数,因此,从小到大第9个数字为5,故D错误,故选:AB.40.(多选)(2023•桃城区校级模拟)统计学是源自对国家的资料进行分析,也就是“研究国家的科学”.一般认为其学理研究始于希腊的亚里士多德时代,迄今已有两千三百多年的历史.在两千多年的发展过程中,将社会经济现象量化的方法是近代统计学的重要特征.为此,统计学有了自己研究问题的参数,比如:均值、中位数、众数、标准差.一组数据:a1,a2,⋯,a2023(a1<a2<a3<⋯<a2023))记其均值为m,中位数为k,标准差为s,则()A.k=a1012 B.a1011<m<a1012 C.新数据:a1+2,a2+2,a3+2,⋯,a2023+2的标准差为s+2 D.新数据:2a1+1,2a2+1,2a3+1,⋯,2a2023+1的标准差为2s【解答】解:对于A选项,因为a1<a2<a3<⋯<a2023,样本数据最中间的项为a1012,由中位数的定义可知k=a1012,A对;对于B选项,不妨令an=n(n=1,2,⋯,2023),则m=1012=a1012,B错;对于C选项,数据a1+2,a2+2,a3+2,⋯,a2023+2的均值为,方差为,所以,数据a1+2,a2+2,a3+2,⋯,a2023+2的标准差为s,C错;对于D选项,数据2a1+1,2a2+1,2a3+1,⋯,2a2023+1的均值为,其方差为,所以,新数据:2a1+1,2a2+1,2a3+1,⋯,2a2023+1的标准差为2s,D对.故选:AD.一十二.用样本的数字特征估计总体的数字特征(共1小题)41.(多选)(2023•泉州模拟)某学校为调查学生迷恋电子游戏情况,设计如下调查方案,每个被调查者先投掷一枚骰子,若出现向上的点数为3的倍数,则如实回答问题“投掷点数是不是奇数?”,反之,如实回答问题“你是不是迷恋电子游戏?”.已知被调查的150名学生中,共有30人回答“是”,则下列结论正确的是()A.这150名学生中,约有50人回答问题“投掷点数是不是奇数?” B.这150名学生中,必有5人迷恋电子游戏 C.该校约有5%的学生迷恋电子游戏 D.该校约有2%的学生迷恋电子游戏【解答】解:由题意可知掷出点数为3的倍数的情况为3,6,故掷出点数为3的倍数的概率为,故理论上回答问题一的人数为人.掷出点数为奇数的概率为,理论上回答问题一的50人中有25人回答“是”,故回答问题二的学生中回答“是”的人数为30﹣25=5人.对于A,抽样调查的这150名学生中,约有50人回答问题一,故A正确.对于B,抽样调查的这150名学生中,约有5人迷恋电子游戏,“必有”过于绝对,故B错.对于C,抽样调查的150名学生中,50名学生回答问题一,故有100名学生回答问题二,有5名学生回答“是”,故该校迷恋电子游戏的学生约为,故C正确.对于D,由C可知该校迷恋电子游戏的学生约为,故D错.故选:AC.一十三.百分位数(共2小题)42.(多选)(2023•张家口二模)中央广播电视总台《2023年春节联欢晚会》以温暖人心的精品节目、亮点满满的技术创新、美轮美奂的舞美效果为全球华人送上了一道红红火火的文化大䝳.某机构随机调查了18位观众对2023年春晚节目的满意度评分情况,得到如下数据:a,60,70,70,72,73,74,74,75,76,77,79,80,83,85,87,93,100.若a恰好是这组数据的上四分位数,则a的值可能为()A.83 B.84 C.85 D.87【解答】解:由于上四分位数即第75百分位数,于是18×75%=13.5,将这些数据按照从小到大排列后,第14个数为上四分位数,所以a应该是18个数据从小到大排列后的第14个数,显然a不是最小的数.而除去a后,从小到大排列得到的第13个数为83,第14个数为85,所以83≤a≤85.故选:ABC.43.(多选)(2023•浙江模拟)已知某地区某周7天每天的最高气温分别为23,25,13,10,13,12,19(单位℃).则()A.该组数据的平均数为 B.该组数据的中位数为13 C.该组数据的第70百分位数为16 D.该组数据的极差为15【解答】解:将23,25,13,10,13,12,19从小到大排列为10,12,13,13,19,23,25,对于A,该组数据的中位数为,故A正确;对于B,该组数据的中位数为13,故B正确;对于C,由7×70%=4.9,则该组数据的第70百分位数为从小到大排列的第5个数,是19,故C错误;对于D,该组数据的极差为25﹣10=15,故D正确.故选:ABD.44.(多选)(2023•茂名二模)小爱同学在一周内自测体温(单位:℃)依次为36.1,36.2,36.1,36.5,36.3,36.6,36.3,则该组数据的()A.平均数为36.3 B.方差为0.04 C.中位数为36.3 D.第80百分位数为36.55【解答】解:根据题意,将7个数据从小到大排列:36.1,36.1,36.2,36.3,36.3,36.5,36.6,由此分析选项:对于A,其平均数=(36.1+36.1+36.2+36.3+36.3+36.5+36.6)=36.3,A正确;对于B,其方差S2=(0.04+0.04+0.01+0+0+0.04+0.09)=,B错误;对于C,其中位数为第4个数据,即36.3,C正确;对于D,7×80%=5.6,则该组数据的第80百分位数为36.5,D错误.故选:AC.45.(多选)(2023•如皋市模拟)某班共有48人,小明在一次数学测验中的成绩是第5名,则小明成绩的百分位数可能是()A.9 B.10 C.90 D.91【解答】解:将全班数学成绩由低到高排列,则小明成绩排在第44位,显然AB错误;因为48×90%=43.2,48×91%=43.68,所以第90百分位数和第91百分位数均为小明成绩.故选:CD.一十四.变量间的相关关系(共2小题)46.(多选)(2023•鼓楼区校级模拟)下列说法中正确的是()A.若数据x1,x2,…,xn的方差s2为0,则此组数据的众数唯一 B.已知一组数据2,3,5,7,8,9,9,11,则该组数据的第40百分位数为6 C.若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的值越大 D.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高【解答】解:对于A,数据x1,x2,…,xn的方差s2为0时,则此组数据与平均数相同,所以众数唯一,选项A正确;对于B,数据2,3,5,7,8,9,9,11,且8×40%=3.2,所以该组数据的第40百分位数为第4个数,是7,选项B错误;对于C,若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的绝对值越接近1,所以选项C错误;对于D,残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,选项D正确.故选:AD.一十五.相关系数(共4小题)47.(2023•锡山区校级一模)对两组变量进行回归分析,得到不同的两组样本数据,第一组对应的相关系数,残差平方和,决定系数分别为r1,,,第二组对应的相关系数,残差平方和,决定系数分别为r2,,,则()A.若r1>r2,则第一组变量比第二组的线性相关关系强 B.若,则第一组变量比第二组的线性相关关系强 C.若,则第一组变量比第二组变量拟合的效果好 D.若,则第二组变量比第一组变量拟合的效果好【解答】解:根据题意,依次分析选项:对于A,若|r1|>|r2|,则第一组变量比第二组的线性相关关系强,A错误;对于B,若,必有|r1|>|r2|,则第一组变量比第二组的线性相关关系强,B正确;对于C,若,则第二组变量比第一组变量拟合的效果好,C错误;对于D,若,则第一组变量比第二组变量拟合的效果好,D错误.故选:B.48.(2023•黄州区校级二模)在一组样本数据(x1,y1),(x2,y2),⋯,(xn,yn),(n≥2,x1,x2,⋯,xn互不相等)的散点图中,若所有样本点(xi,yi)(i=1,2,⋅⋅⋅,n)都在直线上,则这组样本数据的样本相关系数为()A. B. C.﹣1 D.1【解答】解:根据回归直线方程y=,可得这两个变量是正相关,又因为所有样本点(xi,yi)(i=1,2,⋅⋅⋅,n)都在直线上,所以r=1,故选:D.49.(2023•汉滨区校级模拟)某食品加工厂新研制出一种袋装食品(规格:500g/袋),下面是近六个月每袋出厂价格(单位:元)与销售量(单位:万袋)的对应关系表:月份序号123456每袋出厂价格xi10.510.91111.51212.5月销售量yi2.221.91.81.51.4并计算得,,.(1)计算该食品加工厂这六个月内这种袋装食品的平均每袋出厂价格、平均月销售量和平均月销售收入;(2)求每袋出厂价格与月销售量的样本相关系数(精确到0.01);(3)若样本相关系数|r|≥0.75,则认为相关性很强;否则没有较强的相关性.你认为该食品加工厂制定的每袋食品的出厂价格与月销售量是否有较强的相关性.附:样本相关系数,.【解答】解:(1)该食品加工厂这六个月内这种袋装食品的平均每袋出厂价格为:(元),平均月销售量为(万袋),平均月销售收入为(万元);(2)由已知,每袋出厂价格与月销售量的样本相关系数为:====;(3)由于每袋出厂价格与月销售量的样本相关系数|r|≈0.98>0.75,所以该食品加工厂制定的每袋食品的出厂价格与月销售量有较强的相关性.一十六.线性回归方程(共5小题)50.(2023•江西模拟)近年来,我国无人机产业发展迅猛,在全球具有领先优势,已经成为“中国制造”一张靓丽的新名片,其中民用无人机市场也异常火爆,销售量逐年上升.现某无人机专卖店统计了5月份前5天每天无人机的实际销量,结果如下表所示.日期编号x12345销量y/部9a17b27经分析知,y与x有较强的线性相关关系,且求得线性回归方程为,则a+b的值为()A.28 B.30 C.33 D.35【解答】解:由已知可得,,∴样本点的中心的坐标为(3,),代入回归直线方程,得,解得a+b=33.故选:C.51.(2023•金安区校级模拟)某学校一同学研究温差x(℃)与本校当天新增感冒人数y(人)的关系,该同学记录了5天的数据:x568912y1720252835经过拟合,发现基本符合经验回归方程,则下列结论错误的是()A.样本中心点为(8,25) B. C.x=5时,残差为﹣0.2 D.若去掉样本点(8,25),则样本的相关系数r增大【解答】解:,.∴样本中心点为(8,25),故A正确;把(8,25)代入,得25=2.6×8+,可得,故B正确;x=5时,=17.2,则残差为17﹣17.2=﹣0.2,故C正确;由相关系数公式可知,去掉样本点(8,25)后,x与y的样本相关系数r不变,故D错误.故选:D.52.(2023•乌鲁木齐模拟)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如表所示:时间x12345销售量y(千只)0.50.81.01.21.5若y与x线性相关,且线性回归方程为,则下列说法不正确的是()A.由题中数据可知,变量y与x正相关,且相关系数r<1 B.线性回归方程中 C.残差的最大值与最小值之和为0 D.可以预测x=6时该商场5G手机销量约为1.72(千只)【解答】解:从数据看y随x的增加而增加,故变量y与x正相关,由于各增量并不相等,故相关系数r<1,故A正确;由已知数据易得,代入中得到,故B错误;,,,,,,,,,,,残差的最大值与最小值之和为0,故C正确;x=6时该商场5G手机销量约为,故D正确.故选:B.53.(2023•鞍山模拟)2020年,是人类首次成功从北坡登顶珠峰60周年,也是中国首次精确测定并公布珠峰高程的45周年.华为帮助中国移动开通珠峰峰顶5G,有助于测量信号的实时开通,为珠峰高程测量提供通信保障,也验证了超高海拔地区5G信号覆盖的可能性,在持续高风速下5G信号的稳定性,在条件恶劣地区通过简易设备传输视频信号的可能性.正如任总在一次采访中所说:“华为公司价值体系的理想是为人类服务.”有人曾问,在珠峰开通5G的意义在哪里?“我认为它是科学技术的一次珠峰登顶,告诉全世界,华为5G、中国5G的底气来自哪里.现在,5G的到来给人们的生活带来更加颠覆性的变革,某IT公司基于领先技术的支持,5G经济收入在短期内逐月攀升,该IT公司在1月份至6月份的5G经济收入y(单位:百万元)关于月份x的数据如下表所示,并根据数据绘制了如图所示的散点图.月份x123456收入y(百万元)6.68.616.121.633.041.0(1)根据散点图判断,y=ax+b与y=c•edx(a,b,c,d均为常数)哪一个更适宜作为5G经济收入y关于月份x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的结果及表中的数据,求出y关于x的回归方程,并预测该公司7月份的5G经济收入.(结果保留小数点后两位)(3)从前6个月的收入中抽取2个,记收入超过20百万元的个数为X,求X的分布列和数学期望.参考数据:e1.52e2.663.5021.152.8517.70125.356.734.5714.30其中,设u=lny,ui=lnyi(i=1,2,3,4,5,6).参考公式:对于一组具有线性相关关系的数据(xi,vi)(i=1,2,3,⋯,n),其回归直线的斜率和截距的最小二乘估计公式分别为,.【解答】解:(1)根据散点图判断,y=cedx更适宜作为5G经济收入y关于月份x的回归方程类型;(2)由(1)得y=cedx,则两边同时取常用对数得lny=lnc+dx,设u=lny,则u=lnc+dx,∵,∴,∴,∴,即,∴,令x=7,则,故预测该公司7月份的5G经济收入大约为65.35百万元;(3)前6个月的收入中,收入超过20百万元的有3个,∴随机变量X的取值可能为0,1,2,∴,故X的分布列为:X012P∴.54.(2023•道里区校级二模)中国共产党第二十次全国代表大会上的报告中提到,新时代十年我国经济实力实现历史性跃升,国内生产总值从54万亿元增长到114万亿元,我国经济总量稳居世界第二位.建立年份编号为解释变量,地区生产总值为响应变量的一元线性回归模型,现就2012﹣2016某市的地区生产总值统计如下:年份20122013201420152016年份编号12345地区生产总值(亿元)2.83.13.94.65.6(1)求出回归方程,并计算2016年地区生产总值的残差;(2)随着我国打赢了人类历史上规模最大的脱贫攻坚战,该市2017﹣2022的地区生产总值持续增长,现对这11年的数据有三种经验回归模型=1.017x+1.200、﹣1.645、+2.365,它们的R2分别为0.976、0.880和0.985,请根据R2的数值选择最好的回归模型预测一下2023年该市的地区生产总值;(3)若2012﹣2022该市的人口数(单位:百万)与年份编号的回归模型为=0.2x+1.2,结合(2)问中的最佳模型,预测一下在2023年以后,该市人均地区生产总值的变化趋势.参考公式:,.【解答】解:(1)设年份编号为x,地区生产总值为y亿元,则=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年短视频达人肖像合同协议
- 2025关于企业租赁车辆合同范本
- 2025年短视频创作者坑位收益合同协议
- 2025年工业管道保温施工行业发展趋势与节能潜力报告
- 2025年京津冀低空经济「交通圈」航空产业国际合作与交流报告
- 2025年共享办公保险保障范围深度评估报告
- 2025关于花卉的购销合同
- 2025年低空经济监管沙盒制度下无人机产业可持续发展报告
- 2025年少儿主持口才培训行业细分市场与教学质量评估路径报告
- 2025年无人机电力巡检与输电线路检测研究报告
- 2026届江苏省苏州常熟市九上物理期中综合测试试题含解析
- 2025年农林经济管理考研农业政策测试试卷(含答案)
- 采光顶钢结构施工步骤方案
- 法律基础常识试题及答案2025年
- 2025贵州毕节市中级人民法院招聘聘用制法官助理30人考试模拟试题及答案解析
- 电气维护试题及答案
- 2025年轨道交通设备维护可行性研究报告
- GB/T 46336.1-2025幸福河湖评价导则第1部分:流域面积3 000 km2以下(含)河流
- 2025四川南充市嘉陵城市发展集团有限公司招聘工作人员10人考试模拟试题及答案解析
- 苏德战争教学课件
- 高一数学教案必修第一册(2025-2026学年)
评论
0/150
提交评论