高考数学一轮总复习第十二章概率与统计12.5统计与统计案例理新人教B版_第1页
高考数学一轮总复习第十二章概率与统计12.5统计与统计案例理新人教B版_第2页
高考数学一轮总复习第十二章概率与统计12.5统计与统计案例理新人教B版_第3页
高考数学一轮总复习第十二章概率与统计12.5统计与统计案例理新人教B版_第4页
高考数学一轮总复习第十二章概率与统计12.5统计与统计案例理新人教B版_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、12.5统计与统计案例,高考理数,一、随机抽样 1.简单随机抽样 一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(nN),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样. 最常用的简单随机抽样的方法有两种:抽签法和随机数法. 2.系统抽样 当总体中的个体比较多时,首先把总体分成均衡的若干部分,然后按照事先确定的规则,从每一部分中抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样. 3.分层抽样 一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方

2、法是分层抽样,知识清单,二、用样本估计总体 1.用样本的频率分布估计总体分布 (1)频率分布表与频率分布直方图 频率分布表和频率分布直方图,是从各个小组数据在样本容量中所占比例大小的角度来表示数据分布的规律.它可以使我们看到整个样本数据的频率分布情况. 绘制频率分布直方图的步骤: 求极差;决定组距与组数;将数据分组;列频率分布表;画频率分布直方图. (2)频率分布折线图 连结频率分布直方图中各小长方形上端的中点,就得到频率分布折线图. (3)茎叶图 一般地,茎是指中间的一列数,叶就是从茎的旁边生长出来的数. 2.用样本的数字特征估计总体的数字特征 (1)众数:一组数据中出现次数最多的数. (2

3、)中位数:将数据从小到大(或从大到小)排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数,3)平均数:=,反映了一组数据的平均水平. (4)标准差: s=,反映了样本数据的离散程度. (5)方差:s2=(x1-)2+(x2-)2+(xn-)2,反映了样本数据的离散程度. 三、变量间的相关关系及回归分析 1.相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种不确定关系. 2.散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些点散

4、布在从左下角到右上角的区域,则称两个变量 正相关;若这些点散布在从左上角到右下角的区域,则称两个变量负相关,3.回归分析:对具有相关关系的两个变量进行统计分析的方法叫做回归分析.在线性回归模型y=bx+a+e中,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化,在统计中,我们把自变量x称为解释变量,因变量y称为预报变量. 4.回归方程:=x+,其中=,=-,它主要用来估计和预测取值,从而获得对这两 个变量之间整体关系的了解. 5.相关系数:,它主要用于相关量的显著性检验,以衡量它们之间的线 性相关程度.当r0时,表示两个变量正相关;当r0时,表示两个变量负相关.|r|

5、越接近1,表明两个变量的线性相关性越强;当|r|接近0时,表明两个变量间几乎不存在线性相关关系. 四、独立性检验 1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. 2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为,可构造一个随机变量 K2= ,其中n=a+b+c+d为样本容量,3.独立性检验 利用随机变量、独立性假设来确定是否一定有把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验. 两个分类变量X和Y是否有关系的判断方法: 当K22.706

6、时,没有充分的证据判定变量X,Y有关联,可以认为X,Y没有关联; 当K22.706时,有90%的把握判定变量X,Y有关联; 当K23.841时,认为X与Y无关; 当K23.841时,有95%的把握说X与Y有关; 当K26.635时,有99%的把握说X与Y有关; 当K210.828时,有99.9%的把握说X与Y有关,知识拓展】 1.随机抽样,2.用样本估计总体 用样本估计总体,包括用“形”与“数”两个方面.用“形”就是利用样本数据列出频率分布表、画出频率分布直方图和频率折线图.用“数”就是用样本的数字特征来反映总体的某个方面的特征,最常用的是借助平均数、众数、中位数、标准差和方差等数字特征来估计

7、数据的平均水平和离散、波动的程度.它们是同一组数据的频率分布的不同表现形式. 3.对回归分析的理解 回归分析是处理变量相关关系的一种数学方法,它主要解决三个问题: (1)确定两个变量之间是否有相关关系,如果有,就找出它们之间贴近的数学表达式; (2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势; (3)求出回归直线方程,简单随机抽样的方法有:抽签法和随机数法. 系统抽样的步骤:将总体中的个体随机编号;将编号分段;在第1段中用简单随机抽样确定起始的个体编号;按照事先研究的规则抽取样本. 分层抽样的步骤:分层;按比例确定每层抽取个体的个数;各层抽样(方法可以不同);合成样本. 例1(20

8、16河南龙子湖一模,17,12分)我省城乡居民社会养老保险个人年缴费分100,200,300,400,500,600,700,800,900,1 000(单位:元)十个档次,某社区随机抽取了50名村民,按缴费在100500元,6001 000元,以及年龄在2039岁,4059岁之间进行了统计,相关数据如下,突破方法,方法1抽样方法,1)用分层抽样的方法从缴费在100500元之间的村民中随机抽取5人,则应从年龄在2039岁之间的村民中抽取几人? (2)从缴费在100500元之间抽取的5人中,随机选取2人进行到户走访,求这2人的年龄都在4059岁之间的概率. 解析(1)设应从年龄在2039岁之间的

9、村民中抽取x人,则=,解得x=2. 所以应从年龄在2039岁之间的村民中抽取2人. (2)设从缴费在100500元之间抽取的5人中,年龄在2039岁之间的2人为A,B,在4059岁之间的3人为a,b,c, 则随机选取2人的情况有(A,B),(A,a),(A,b),(A,c),(B,a),(B,b),(B,c),(a,b),(a,c),(b,c),共10种. 年龄都在4059岁之间的有(a,b),(a,c),(b,c),共3种, 则所求概率P=. 1-1(2016广西南宁三模,5,5分)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,960,分组后在第一组采用简单随

10、机抽样的方法抽到的号码为9,抽到的32人中,编号在1450内的人做问卷A,编号在451750内的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为() A.7B.9C.10D.15 答案C 解析由题意可知系统抽样中每一组的样本数为=30,因为第一组抽取的样本号码为9,所以 第k组抽取的样本号码应该为9+30(k-1)(kN*).由4519+30(k-1)750,得16k25(kN*),所以k=16,17,25,共10个,即应该有10人做问卷B,从频率分布直方图中得出有关数据的方法: (1)频率=组距; (2)频率比=小长方形的高的比; (3)众数:最高小长方形底边中点的横坐标; (4

11、)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标; (5)平均数:每个小长方形的面积乘小长方形底边中点的横坐标之和. 例2(2014吉林延吉一模,19,12分)从全校参加科技知识竞赛的学生试卷中,抽取一个样本,考察竞赛的成绩分布.将样本分成5组,绘成频率分布直方图(如图),图中从左到右各小组的小长方形的高的比是13642,最后一组的频数是6,方法2频率分布直方图的应用,请结合频率分布直方图,解答下列问题: (1)样本的容量是多少? (2)列出频率分布表; (3)成绩落在哪个范围内的人数最多?并求该小组的频数、频率; (4)估计这次竞赛中,成绩不低于60分的学生占总人数的百分

12、比. 解析(1)由于各组的组距相等,所以各组的频率与各小长方形的高成正比且各组频率的和等于1,那么各组的频率分别为,.设该样本容量为n,则=,解得n=48,2)由以上得频率分布表如下,3)成绩落在70.5,80.5)之间的人数最多,该组的频数和频率分别是18和. (4)不低于60分的学生占总人数的百分比约为100%=93.75%. 2-1(2014广东,17,13分)随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:件),获得数据如下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36.

13、 根据上述数据得到样本的频率分布表如下,1)确定样本频率分布表中n1,n2, f1和f2的值; (2)根据上述频率分布表,画出样本频率分布直方图; (3)根据样本频率分布直方图,求在该厂任取4人,至少有1人的日加工零件数落在区间(30,35的概率. 解析(1)n1=7,n2=2, f1=0.28, f2=0.08. (2)样本频率分布直方图如图所示,3)根据样本频率分布直方图,得每人的日加工零件数落在区间(30,35的概率为0.2,设所取的4人中,日加工零件数落在区间(30,35的人数为,则B(4,0.2),P(1)=1-P(=0)=1-(1-0.2)4=1-0.409 6=0.590 4,

14、所以4人中,至少有1人的日加工零件数落在区间(30,35的概率为0.590 4,1.制作茎叶图的方法:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序由上到下列出. 2.估计数字特征,给定两组数据的茎叶图,“重心”下移者平均数较大,数据集中者方差较小. 例3(2014山东东营二模,10,4分)甲、乙两名同学在5次数学考试中,成绩统计图用茎叶图表示如图所示,若甲、乙两名同学的平均成绩分别用、表示,则下列结论正确的是() A.,且甲比乙成绩稳定 B.,且乙比甲成绩稳定 C.,且甲比乙成绩稳定 D.,且乙比甲成绩稳定,方法3茎叶图的应用,解析=90,=88

15、,甲同学的成绩的方差是(1+4+0+1+4)=2,乙同学的成绩的方差是(25+0+ 1+1+9)=7.2,故甲同学的成绩比乙的稳定. 答案A 3-1(2016宁夏银川一中4月月考,19,12分)为了解某地高中生身高情况,研究小组在该地高中生中随机抽出30名高中生的身高制成如图所示的茎叶图(单位:cm). 若身高在175 cm以上(包括175 cm)定义为“高个子”,身高在175 cm以下(不包括175 cm)定义为“非高个子,1)如果用分层抽样的方法从“高个子”和“非高个子”中共抽取5人,再从这5人中选2人,求至少有一人是“高个子”的概率; (2)用样本估计总体,把频率作为概率,若从该地所有高

16、中生(人数很多)中选3人,用表示所选3人中“高个子”的人数,试写出的分布列,并求的数学期望. 解析(1)根据茎叶图知,抽取的30名学生中有“高个子”12人,“非高个子”18人,用分层抽样的方法抽取5人,又=,所以抽中的“高个子”有12=2人,“非高个子”有18=3人. 从这5人中选2人,用事件A表示“至少有一名高个子被选中”,则它的对立事件表示“没 有高个子被选中”,则P(A)=1-P()=1-=1-=. 因此,至少有一人是“高个子”的概率是. (2)抽取的30名学生中有12名是“高个子”,所以抽取1名学生,是“高个子”的频率为=,用 样本估计总体,把频率作为概率,那么从该地所有高中生中抽取1

17、名学生,是“高个子”的概率是,从该地所有高中生中抽取3名学生可看成进行3次独立重复试验,于是,服从二项分布B, 的所有可能取值为0,1,2,3. P(=0)=,P(=1)=, P(=2)=,P(=3)=. 因此,的分布列如下,所以E()=0+1+2+3,1)平均数、中位数、众数与方差、标准差都是重要的数字特征,可对总体进行一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数可描述总体的集中趋势,方差和标准差可描述波动大小. (2)有关平均数、方差的一些结论: 若数据x1,x2,xn的平均数为,那么mx1+a,mx2+a,mx3+a,mxn+a的平均数是m+a. 设数据x1,

18、x2,xn的方差为s2,则 a.s2=(+)-n; b.数据x1+a,x2+a,xn+a的方差也为s2; c.数据ax1,ax2,axn的方差为a2s2. 刻画一组数据的“集中趋势”的数字特征:中位数、众数、平均数;刻画一组数据的“离散程度”的数字特征:极差、方差、标准差.平均数容易掩盖一些极端情况,使我们作出对总体的片面判断,但标准差较好地避免了极端情况,因此,往往结合平均数和标准差对总体作出较好的估计,考点一 西方人文精神的起源古希腊先哲,例4甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图. (1)分别求出两人得分的平均数与方差; (2)根据图和上面算得的结果,对两人的训练成

19、绩作出评价. 解题导引(1)由题图知甲、 乙二人成绩利用公式求 平均数、方差 (2)比较平均数、方差大小评价 解析(1)由题图可得甲、乙两人五次测试的成绩分别为,甲:10分,13分,12分,14分,16分; 乙:13分,14分,12分,12分,14分. =13, =13, =(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2=4, =(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2=0.8. (2)由可知乙的成绩较稳定. 从折线图看,甲的成绩基本上呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩无明

20、显提高. 4-1(2016河南郑州回民中学4月月考,6,5分)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)的统计图如图所示,假设得分值的中位数为m,众数为n,平均数为,则(,求线性回归方程的步骤: 例5(2014湖南长沙3月月考,18,12分)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据,方法5线性回归分析,1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=x+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)

21、求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤. (参考数值:32.5+43+54+64.5=66.5) 解析(1)由题设所给数据,可得散点图如下图,2)由对照数据,计算得 所以,由最小二乘法确定的回归方程的系数为 =0.7, =-=3.5-0.74.5=0.35. 因此,所求的线性回归方程为y=0.7x+0.35. (3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7100+0.35)=19.65吨标准煤. 5-1(2015江西一模,18,14分)为了研究某种细菌在特定环境下,随时间变化的繁殖情况,得如下实验数据,1)求

22、y关于t的线性回归方程; (2)利用(1)中的回归方程,预测t=8时,细菌繁殖个数. 附:=,=-b. 解析(1)由表中数据计算得, =5,=4,(ti-)(yi-)=8.5, (ti-)2=10, =0.85,=-=-0.25. 所以,回归方程为y=0.85t-0.25. (2)将t=8代入回归方程y=0.85t-0.25中得y=0.858-0.25=6.55. 故预测t=8时,细菌繁殖个数为6.55千个,独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量K2应该很小.如

23、果由观测数据计算得到的K2的观察值k很大,则在一定程度上说明假设不合理.根据随机变量K2的含义,我们把K2k0解释为有1-P(K2k0)100%的把握认为“两个分类变量有关系”;把K2k0解释为没有1-P(K2k0)100%的把握认为“两个分类变量有关系”,或者由样本观测数据不能充分说明“两个分类变量有关系”. 例6(2016辽宁沈阳3月月考,19,12分)某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示,方法6独立性检验,1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论