用样本估计总体(一).ppt_第1页
用样本估计总体(一).ppt_第2页
用样本估计总体(一).ppt_第3页
用样本估计总体(一).ppt_第4页
用样本估计总体(一).ppt_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2.2.1用样本的频率分布估计总体分布(一),复习回顾,1.抽样方法有哪些?,2.三种抽样方式比较,1.不放回抽样,2.抽样过程中,每个个体被抽取的机会均等,从总体中逐个抽取,将总体均分为几部分,按简单随机抽样抽取第一个样本,然后按相同的间隔抽取其他样本,将总体分成几层,分层进行抽取,抽取第一个样本时采用简单随机抽样,各层抽样时,采用简单随机抽样或系统抽样,总体中的个体数较少,总体中的个体数较多 (间隔相同的时间或距离),总体由差异明显的几部分组成,练习:在下列问题中,各采用什么抽样方法抽取样本较合适?,1、从20台电脑中抽取4台进行质量检测; 2、从2004名同学中,抽取一个容量为20的样本 3、某中学有180名教工,其中业务人员136名,管理人员20名,后勤人员24名,从中抽取一个容量为15的样本。,简单随机抽样,系统抽样,分层抽样,如何从样本数据中提取基本信息来估计总体的情况呢?,抽样是统计的第一步, 接下来就要对样本进行分析。,2.2 用样本估计总体,一、用样本的频率分布估计总体的分布,二、用样本的数字特征估计总体的特征,平均数、中位数、众数、,极差、方差、标准差,频率分布表、频率分布直方图、 频率折线图、茎叶图,我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢 ?,探究:,下表给出100位居民的月均用水量表,分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息。表格则是通过改变数据的构成形式,为我们提供解释数据的新方式,讨论:如何分析数据?,根据这些数据你能得出用水量其他信息吗?,为此我们要对这些数据进行整理与分析,初中我们曾经学过频数分布图和频数分布表,这使我们能够清楚地知道数据分布在各个小组的个数。下面将要学习的频率分布图和频率分布表,则是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布的规律。它可以使我们看到整个样本数据的频率分布情况。,一频率分布的概念: 频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布,一、频率分布直方图,第一步: 求极差: (数据组中最大值与最小值的差距),最大值= 4.3 最小值= 0.2 所以极差= 4.3-0.2 = 4.1,第二步: 决定组距与组数: (注意取整),当样本容量不超过100时, 按照数据的多少, 常分成512组. 为方便组距的选择应力求“取整”. 本题如果组距为0.5(t). 则,第三步: 将数据分组:( 给出组的界限),所以将数据分成9组较合适.,0, 0.5), 0.5, 1), 1, 1.5),4, 4.5) 共9组.,第四步: 列频率分布表.,组距=0.5,0.04,0.08,0.08,0.16,0.3,0.15,0.44,0.22,0.25,0.5,1,2.00,0.02,0.04,0.04,0.08,0.1,0.3,0.15,0.05,为了直观反映样本数据在各组中的 分布情况,我们将上述频率分布表中的有 关信息用下面的图形表示:,月均用水量/t,频率 组距,0.5 0.4 0.3 0.2 0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,为了直观反映样本数据在各组中的 分布情况,我们将上述频率分布表中的有 关信息用下面的图形表示:,月均用水量/t,频率 组距,0.5 0.4 0.3 0.2 0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,为了直观反映样本数据在各组中的 分布情况,我们将上述频率分布表中的有 关信息用下面的图形表示:,月均用水量/t,频率 组距,0.5 0.4 0.3 0.2 0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,为了直观反映样本数据在各组中的 分布情况,我们将上述频率分布表中的有 关信息用下面的图形表示:,月均用水量/t,频率 组距,0.5 0.4 0.3 0.2 0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,为了直观反映样本数据在各组中的 分布情况,我们将上述频率分布表中的有 关信息用下面的图形表示:,月均用水量/t,频率 组距,0.5 0.4 0.3 0.2 0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,为了直观反映样本数据在各组中的 分布情况,我们将上述频率分布表中的有 关信息用下面的图形表示:,月均用水量/t,频率 组距,0.5 0.4 0.3 0.2 0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,为了直观反映样本数据在各组中的 分布情况,我们将上述频率分布表中的有 关信息用下面的图形表示:,月均用水量/t,频率 组距,0.5 0.4 0.3 0.2 0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,为了直观反映样本数据在各组中的 分布情况,我们将上述频率分布表中的有 关信息用下面的图形表示:,月均用水量/t,频率 组距,0.5 0.4 0.3 0.2 0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,为了直观反映样本数据在各组中的 分布情况,我们将上述频率分布表中的有 关信息用下面的图形表示:,为了直观反映样本数据在各组中的 分布情况,我们将上述频率分布表中的有 关信息用下面的图形表示:,月均用水量/t,频率 组距,0.5 0.4 0.3 0.2 0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,频率/组距,月均用水量/t,(组距=0.5),小长方形的面积=?,小长方形的面积总和=?,月均用水量居民人数最多的在哪个区间?,请大家阅读第68页,直方图有哪些优点和缺点?,第五步: 画出频率分布直方图.,同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同.不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断.分别以1和0.1为组距重新作图,然后谈谈你对图的印象.,频率分布直方图的特征: 1.频率分布直方图频率分布表更直观地反映了样本的分布规律. 2.从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。,如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布表2-2和频率分布直方图2.2-1, 你能对制定月用水量标准提出建议吗 ?,88%的居民月用水量在3t以下, 可建议取a=3.,小结: 画频率分布直方图的步骤: 第一步: 求极差: (数据组中最大值与最小值的差距) 第二步: 决定组距与组数: (强调取整) 第三步: 将数据分组 ( 给出组的界限) 第四步: 列频率分布表. (包括分组、频数、频率、频率/组距) 第五步: 画频率分布直方图(在频率分布表的基础上绘制,横坐标为样本数据尺寸,纵坐标为频率/组距.),组距:指每个小组的两个端点的距离 组数:将数据分组,当数据在100个以内时, 按数据多少常分5-12组。,注意,(2)纵坐标为:,练习:,例 某地区为了了解知识分子的年龄结构, 随机抽样50名,其年龄分别如下: 42,38,29,36,41,43,54,43,34,44, 40,59,39,42,44,50,37,44,45,29, 48,45,53,48,37,28,46,50,37,44, 42,39,51,52,62,47,59,46,45,67, 53,49,65,47,54,63,57,43,46,58. (1)列出样本频率分布表; (2)画出频率分布直方图; (3)估计年龄在3252岁的知识分子所占的比例约是多少.,(1)极差为67-28=39,取组距为5,分为8组.,分 组 频数 频率 27,32) 3 0.06 32,37) 3 0.06 37,42) 9 0.18 42,47) 16 0.32 47,52) 7 0.14 52,57) 5 0.10 57,62) 4 0.08 62,67) 3 0.06 合 计 50 1.00,样本频率分布表:,(2)样本频率分布直方图:,(3)因为0.06+0.18+0.32+0.14=0.7, 故年龄在3252岁的知识分子约占70%.,课堂练习,2(2006年全国卷II)一个社会调查机构就某地居民 的月收入调查了10 000人,并根据所得数据画了样 本的频率分布直方图(如下图).为了分析居民的收入 与年龄、学历、职业等方面的关系,要从这10 000 人中再用分层抽样方法抽出100人作进一步调查, 则在2500,3000(元)月收入段应抽出_人.,0.0001,0.0002,0.0003,0.0004,0.0005,月收入(元),频率/组距,25,1000 1500 2000 2500 3000 3500 4000,课堂练习,A. 0.27,78 B. 0.27,83 C. 2.7,78 D. 2.7,83,A,2.2.1用样本的频率分布估计总体分布(二),频率分布直方图如下:,连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图,频率分布折线图,由于样本是随机的,不同的样本的得到的频率分布折线图不同,即使对于同一样本,不同的分组情况得到的频率分布折线图也不同,频率分布折线图是随着样本的容量和分组情况的变化而变化的。,利用样本频分布对总体分布进行相应估计,(3)当样本容量无限增大,组距无限缩小,那么频率折线图就会无限接近于一条光滑曲线总体密度曲线。,(2)样本容量越大,这种估计越精确。,(1)上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?假如增至10000呢?,总体密度曲线,月均用水量/t,a,b,(图中阴影部分的面积,表示总体在某个区间 (a, b) 内取值的百分比)。,用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。,总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.,总体密度曲线,随堂训练,6.如图是总体密度曲线,下列说法正确的是( ) (A)组距越大,频率分布折线图越接近于它 (B)样本容量越小,频率分布折线图越接近于它 (C)阴影部分的面积代表总体在(a,b)内取值的百分比 (D)阴影部分的平均高度代表总体在(a,b)内取值的百分比,c,茎叶图,某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:,甲运动员得分: 13, 51, 23, 8, 26, 38, 16, 33, 14, 28, 39,乙运动员得分: 49, 24, 12, 31, 50, 31, 44, 36, 15, 37, 25,36, 39,甲 乙,0 1 2 3 4 5,2 5 5 4 1 6 1 6 7 9 4 9 0,8 4 6 3 3 6 8 3 8 9 1,叶 茎 叶,当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。,1.茎叶图:,2.画茎叶图的步骤:,1.将每个数据分为茎(高位)和叶(低位)两部分,在此例中,茎为十 位上的数字,叶为个位上的数字; 2.将最小茎和最大茎之间的数按大小次序排成一列,写在左(右) 侧; 3.将各个数据的叶按大小次序 写在其茎右(左)侧.,3.茎叶图优缺点:,从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;茎叶图中的数据可以随时记录,随时添加 ,方便记录与表示,茎叶图只便于表示两位或一位有效数字的数据,对位数多的数据不太容易操作;茎叶图只便于记录两组数据,两组以上的数据虽然能够记录但是没有表示两组记录那么直观、清晰,优点:,缺点:,甲、乙两个小组各10名学生的英语口语测试成绩如下: 甲组 76 90 84 86 81 87 86 82 85 83 乙组 82 84 85 89 79 80 91 89 79 74 用茎叶图表示两小组的成绩,并判断哪个小组的成绩更整齐一些,甲组成绩较集中,所以甲组成绩更稳定一些,例、,小 结 图形 优点 缺点 频率分布 1)易表示大量数据 丢失一些 直方图 2)直观地表明分布地 情况 信息 1)无信息损失 只能处理样本 茎叶图 2)随时记录方便记录和表示 容量较小数据,几种表示频率分布的方法的优点与不足,1.频率分布表在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便。,2.频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式。但是从直方图本身得不出原始的数据内容。,3.频率分布折线图的优点是它反映了数据的变化 趋势。如果样本容量不断增大,分组的组距不断 缩小,那么折线图就趋向于总体分布的密度曲线。,4.用茎叶图刻画数据有两个优点:一是所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示,能够展示数据的分布情况。但当样本数据较多或数据位数较多时,茎叶图就显得不太方便了。,4.(2010龙岩高一检测)如图是某赛季甲、乙两名篮球运动员参加的每场比赛得分的茎叶图,则甲、乙两人这几场比赛得分的中位数之和是( ) (A)65 (B)64 (C)63 (D)62,用样本的数字特征估计总体的数字特征,中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.,众数:在一组数据中,出现次数最多的数据叫做这组数据的众数,平均数: 一组数据的算术平均数,即,三 众数、中位数、平均数的概念,问题1:众数、中位数、平均数这三个数 一般都会来自于同一个总体或样本,它们 能表明总体或样本的什么性质?,平均数:反映所有数据的平均水平,众数:反映的往往是局部较集中的数据信息,中位数:是位置型数,反映处于中间部位的 数据信息,三种数字特征的优缺点,思考1:如何从频率分布直方图中估计众数?,2.25,众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。,思考2:如何从频率分布直方图中估计中位数?,前四个小矩形的面积和=0.49,2.02,后四个小矩形的面积和=0.26,分析:在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等。,总结:在频率分布直方图中,把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标称为中位数。,注:图中的数据是小矩形的面积即频率,上图中,设中位数为x,则,思考3:如何从频率分布直方图中估计平均数 ?,注:图中的数据是小矩形的面积即频率,平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和。,2.02,在频率分布直方图中如何估计众数?,众数:频率分布直方图中最高小长方形底边中点的横坐标.,左图中,众数为_.,2.25,在频率分布直方图中如何估计中位数?,中位数:在频率分布直方图中,把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标 。,左图中,中位数为_.,2.02,在频率分布直方图中如何估计平均数?,平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.,左图中,平均数为_.,2.02,方差与标准差,1.频率分布折线图:,连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图,复习提问:,2.总体密度曲线,月均用水量/t,a,b,(图中阴影部分的面积,表示总体在某个区间 (a, b) 内取值的百分比)。,3.茎叶图优缺点:,从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;茎叶图中的数据可以随时记录,随时添加 ,方便记录与表示,茎叶图只便于表示两位或一位有效数字的数据,对位数多的数据不太容易操作;茎叶图只便于记录两组数据,两组以上的数据虽然能够记录但是没有表示两组记录那么直观、清晰,优点:,缺点:,在频率分布直方图中如何估计众数?,众数:频率分布直方图中最高小长方形底边中点的横坐标.,左图中,众数为_.,2.25,在频率分布直方图中如何估计中位数?,中位数:在频率分布直方图中,把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标 。,左图中,中位数为_.,2.02,在频率分布直方图中如何估计平均数?,平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.,左图中,平均数为_.,2.02,引言: 样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息. 平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度.,情境一:,某农场种植了甲、乙两种玉米苗,从中各抽取了10株,分别测得它们的株高如下:(单位cm),甲: 31 32 35 37 33 30 32 31 30 29,乙: 53 16 54 13 66 16 13 11 16 62,思考:,哪种玉米苗长得齐?,甲,37(最大值) 29(最小值 ) 8,乙,66(最大值) 11(最小值) 55,极 差,甲: 31 32 35 37 33 30 32 31 30 29,乙: 53 16 54 13 66 16 13 11 16 62,情景二:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下: 甲:7 8 7 9 5 4 9 10 7 4 乙:9 5 7 8 7 6 8 6 7 7 甲、乙两人本次射击的平均成绩分别为多少环?,思考:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?,环数,甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定.,极差:,一组数据的最大值与最小值的差,极差越大,数据越分散,越不稳定,极差越小,数据越集中,越稳定,极差体现了数据的离散程度.,为了对玉米生长的高度差异以及两人射击水平的稳定程度等做个合理的评价, 我们用一个新的概念来研究,方差和标准差.,甲的环数极差=10- 4=6 乙的环数极差=9-5=4. 它们在一定程度上表明了样本数据的分散程度,与平均数一起,可以给我们许多关于样本数据的信息.显然,极差对极端值非常敏感,注意到这一点,我们可以得到一种“去掉一个最高分,去掉一个最低分”的统计策略.,考察样本数据的分散程度的大小,最常用的统计量是标准差 标准差是样本数据到平均数的一种平均距离,一般用s表示,所谓“平均距离”,其含义可作如下理解:,由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差,方差:,对于样本数据x1,x2,xn,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?,标准差的概念:,计算标准差的公式:,设一组样本数据 x1,x2,xn ,其平均数为 ,则,标准差是样本数据到平均数的一种平 均距离,一般用s表示。,标准差的平方s2方差,在刻画样本数据分散程度上,方差s2与 标准差s是一样的。但是在解决实际问 题时,一般多采用标准差s 。,对标准差的理解,(1)标准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论