




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、备考学案二 统计一、随机抽样1简单随机抽样设一个总体的个数为N,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样(1)抽签法制签抽签成样抽签法简便易行,当总体的个体数不多时,适宜采用这种方法(2)随机数表法编号数数成样结论:用简单随机抽样,从含有N个个体的总体中抽取一个容量为的样本时,每次抽取一个个体时任一个体被抽到的概率为;在整个抽样过程中各个个体被抽到的概率为;基于此,简单随机抽样体现了抽样的客观性与公平性;简单随机抽样的特点:它是不放回抽样;它是逐个地进行抽取;它是一种等概率抽样2系统抽样当总体中的个数较多时,可将总体分成均衡的几
2、个部分,然后按照预先制定的规则,从每一部分抽取1个个体,得到所需的样本,这种抽样叫做系统抽样(也称为机械抽样)系统抽样的步骤可概括为:编号分段确定起始的个体编号抽取样本按照先确定的规则(常将加上间隔)抽取样本:3分层抽样当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫做层结论:(1)分层抽样是等概率抽样,它也是公平的用分层抽样从个体数为N的总体中抽取一个容量为的样本时,在整个抽样过程中每个个体被抽到的概率相等,都等于;(2)分层抽样是建立在简单随机抽样或系统抽样的基础上的,由于它充分利用了已知信息,因此利用它获取
3、的样本更具有代表性,在实践的应用更为广泛例1:在简单随机抽样中,某一个个体被抽中的可能性()A与第几次抽样无关,第一次抽中的可能性要大些B与第几次抽样无关,每次抽中的可能性都相等C与第几次抽样有关,最后一次抽中的可能性要大些D每个个体被抽中的可能性无法确定例2:假设要抽查某种品牌的850颗种子的发芽率,抽取60颗进行实验利用随机数表抽取种子时,先将850颗种子按001,002,850进行编号,如果从随机数表第8行第2列的数3开始向右读,请你依次写出最先检测的4颗种子的编号_(下面摘取了随机数表第7行至第9行)84 42 17 53 31 57 24 55 06 88 77 04 74 47 6
4、7 21 76 33 50 25 83 92 12 06 7663 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 7933 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54例3:某单位有840名职工,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,840随机编号,则抽取的42人中,编号落入区间481,720的人数为()A11B12C13D14例4:某单位200名职工的年龄分布情况如图所示,现要从中
5、抽取40名职工作样本,用系统抽样法,将全体职工随机按1200编号,并按编号顺序平均分为40组(15号,610号,196200号)若第5组抽出的号码为22,则第8组抽出的号码应是_若用分层抽样方法,则40岁以下年龄段应抽取_人二、用样本估计总体1频率分布的概念:频率分布是指一个样本数据在各个小范围内所占比例的大小一般用频率分布直方图反映样本的频率分布其一般步骤为:(1)计算一组数据中最大值与最小值的差,即求极差;(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图2茎叶图制作方法:将所有两位数的十位数字作为茎,个位数字作为叶,茎相同者共用一个茎,茎按从小到大的顺序从
6、上向下列出,共茎的叶可以按从大到小(或从小到大)的顺序同行列出(也可以没有大小顺序)3众数、中位数、平均数(1)众数:一组数据中出现次数最多的数称为这组数据的众数一组数据中的众数可能不止一个,反映了该组数据的集中程度(2)中位数:一组数据按从小到大的顺序排成一列,处于中间位置的数称为这组数据的中位数一组数据中的中位数是唯一的,反映了该组数据的集中趋势在频率分布直方图中,中位数左边和右边的直方图的面积相等(3)平均数:一组数据的和与这组数据的个数的商数据x1,x2,xn的平均数为n4方差、标准差(1)方差s2=,描述一组数据围绕平均数波动程度的大小(2)标准差s若数据组x1,x2,xn的平均数为
7、,方差为s2,标准差为s,则数据组ax1b,ax2b,axnb(a,b为常数)的平均数为ab,方差为a2s2,标准差为as例1:在某电脑杂志的一篇文章中,每个句子的字数如下10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,24,27,17在某报纸的一篇文章中,每个句子的字数如下:27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22(1)画出两组数据的茎叶图;(2)比较分析两组数据,能得出什么结论?例2:对某校高三年级学生参加社区服务次数进行统计,随机抽取
8、M名学生作为样本,得到这M名学生参加社区服务的次数,根据此数据作出了频数与频率的统计表和频率分布直方图如图所示分组频数频率10,15)100.2515,20)24n20,25)mp25,3020.05合计M1(1)求出表中M,p及图中a的值;(2)若该校高三学生有240人,试估计该校高三学生参加社区服务的次数在区间10,15)内的人数;(3)估计这次学生参加社区服务人数的众数、中位数以及平均数例3:某班级有50名学生,其中有30名男生和20名女生随机询问了该班五名男生和五名女生在某次数学测验中的成绩,五名男生的成绩分别为86,94,88,92,90,五名女生的成绩分别为88,93,93,88,
9、93下列说法一定正确的是()A这种抽样方法是一种分层抽样B这种抽样方法是一种系统抽样C这五名男生成绩的方差大于这五名女生成绩的方差D该班男生成绩的平均数小于该班女生成绩的平均数三、频率分布折线图、总体密度曲线1频率分布折线图定义:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图2总体密度曲线定义:在样本频率分布直方图中,随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线它能够精确地反映总体在各个范围内取值的百分比,给我们提供更加精细的信息四、变量间的相关关系1相关关系:当一个变量取一定的数值时,与之相
10、对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化变量间的这种相互关系,称为两变量的相关关系2散点图:将有相关关系的两变量的数据作为点的坐标,在平面直角坐标系中表示出来,所得到的图称之为散点图散点图直观上是一些分散的点正相关:散点散布在从左下角到右上角的区域时,这样的两变量的相关关系,称为正相关;负相关:散点散布在从左上角到右下角的区域时,这样的两变量的相关关系,称为负相关3线性相关:如果散点图中各点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线称之为回归直线,直线的方程称之为回归直线方程4最小二乘法求回归直线方程:,其中,回归直线必过一个定点:
11、当一个变量已知时,由回归直线方程可以估算出另一个变量的近似值5线性相关系数r:r为正时,表明正相关;r为负时,表明负相关例1:由一组样本数据(x1,y1),(x2,y2),(xn,yn)得到的回归直线方程bxa,那么下面说法不正确的是()A直线bxa必经过点(,)B直线bxa至少经过点(x1,y1),(x2,y2),(xn,yn)中的一个点C直线bxa的斜率为D直线bxa和各点(x1,y1),(x2,y2),(xn,yn)的偏差yi(bxia)2是该坐标平面上所有直线与这些点的偏差中最小的直线例2:下列说法正确的是()A对于相关系数r来说,|r|1,|r|越接近0,相关程度越大;|r|越接近1
12、,相关程度越小B对于相关系数r来说,|r|1,|r|越接近1,相关程度越大;|r|越大,相关程度越小C对于相关系数r来说,|r|1,|r|越接近1,相关程度越大;|r|越接近0,相关程度越小D对于相关系数r来说,|r|1,|r|越接近1,相关程度越小;|r|越大,相关程度越大例3:某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表年份2007200820092010201120122013年份代号1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家
13、庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入,附:回归直线的斜率和截距的最小二乘估计公式分别为:,本章整合参考答案:一、随机抽样例1:【答案】B【解析】在简单随机抽样中,每一个个体被抽中的可能性都相等,与第几次抽样无关例2:【答案】301,637,169,555【解析】第8行第2列的数3开始向右读第一个小于850的数字是301,第二个数字是637,也符合题意,第三个数字是859,大于850,舍去,第四个数字是169,符合题意,第五个数字是555,符合题意,故答案为:301,637,169,555例3:【答案】B【解析】根据系统抽样的等可能性可知,每人入选的可能性都是,由
14、题设可知区间481,720的人数为240,所以编号落入区间481,720的人数为24012例4:【答案】3720【解析】由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,所以第8组抽出的号码为22(85)537二、用样本估计总体例1:解:(1)依题意,画出茎叶图如下图所示(2)电脑杂志文章中每个句子的字数集中在1030之间,中位数为22.5,而报纸文章中每个句子的字数集中在2040之间,中位数为27.5还可以看出,电脑杂志上每个句子的平均字数比报纸上每个句子的平均字数要少这与电脑杂志作为科普读物需要简明、通俗易懂的要求相吻合例2:解:(1)由分组10,15)内的频数是10,频率是0.2
15、5,知0.25,所以M40因为频数之和为40,所以1024m240,m4,p0.10因为a是对应分组15,20)的频率与组距的商,所以a0.12(2)因为该校高三学生有240人,分组在10,15)内的频率是0.25所以估计该校高三学生参加社区服务的次数在此区间内的人数为60(3)估计这次学生参加社区服务人数的众数是17.5,因为n0.6,an50.12,所以样本中位数是1517.1,估计这次学生参加社区服务人数的中位数是17.1,样本平均人数是12.50.2517.50.622.50.127.50.0517.25,估计这次学生参加社区服务人数的平均数是17.25例3:【答案】C【解析】若抽样方法是分层抽样,男生、女生应分别抽取6人、4人,所以A错;由题目看不出是系统抽样,所以B错;这五名男生成绩的平均数190,这五名女生成绩的平均数291,故这五名男生成绩的方差为(8690)2(9490)2(8890)2(9290)2(9090)28,这五名女生成绩的方差为(8891)22(9391)236,所以这五名男生成绩的方差大于这五名女生成绩的方差,但该班男生成绩的平均数不一定小于女生成绩的平均数,所以D错四、变量间的相关关系例1:【答案】B例2:【答案】C例3:解:(1)由所给数据计算得(123
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 招标才刚管理办法
- 房开公司管理办法
- 整改工作管理办法
- 杂志费用管理办法
- 建筑劳务管理办法
- 扬州噪声管理办法
- 建安劳动管理办法
- 林地承包管理办法
- 投资仓位管理办法
- 中医护理中级试题及答案
- 湖南省长沙市岳麓区长郡双语实验中学2024-2025学年八年级下学期期末语文试题(含答案)
- 面向人体介入器械的电磁定位方法研究
- 二零二五年度木材加工产品买卖合同
- 儿科肺炎健康教育
- 新消费系列报告:解构“第五消费时代”-民生证券
- 供应商物流管理办法规定
- 公司承包责任制管理办法
- 加油站安全操作规程及安全管理制度
- 2025年河北 高考真题化学试题(解析版)
- 上海市智慧城市发展水平评估报告
- 空调设备维护保养制度(3篇)
评论
0/150
提交评论