用样本估计总体221用样本频率分布估计总体分布_第1页
用样本估计总体221用样本频率分布估计总体分布_第2页
用样本估计总体221用样本频率分布估计总体分布_第3页
用样本估计总体221用样本频率分布估计总体分布_第4页
用样本估计总体221用样本频率分布估计总体分布_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计的基本思想方法:

用样本估计总体,即通常不直接去研究总体,而是通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况.具体步骤一是如何从总体中抽取样本?二是如何根据对样本的整理、计算、分析,对总体的情况作出推断.(1、用样本频率分布估计总体分布,2、用样本的某种数字特征(例如平均数、方差等)去估计总体的相应数字特征。)

第一页,共37页。几个基本概念1、频数:将一批数据按要求分为若干个组,各组内数据的个数,叫做该组的频数。2、频率:每组数据的个数除以总数据个数的商叫做该组的频率。3、样本的频率分布:根据随机抽取样本的大小,分别计算某一事件出现的频率,这些频率的分布规律,就叫做样本的频率分布。一、用样本的频率分布估计总体分布第二页,共37页。如何用样本的频率分布

估计总体分布?第三页,共37页。引例:我国是世界上严重缺水的国家之一,

城市缺水问题较为突出。2000年全国主要城市中缺水情况排在前10位的城市第四页,共37页。

例1:某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超过a的部分按议价收费。①如果希望大部分居民的日常生活不受影响,那

么标准a定为多少比较合理呢?

②为了较合理地确定这个标准,你认为需要做哪些工作?第五页,共37页。思考:由上表,大家可以得到什么信息?

通过抽样,我们获得了100位居民某年的月平均用水量(单位:t),如下表:第六页,共37页。

1.求极差:

步骤:

频率分布直方图

2.决定组距与组数:组数=

4.3-0.2=4.14.10.5=8.2组距极差=3.将数据分组[0,0.5),[0.5,1),…,[4,4.5]

第七页,共37页。4.列频率分布表100位居民月平均用水量的频率分布表第八页,共37页。频率/组距月平均用水量/t0.500.400.300.200.100

0.511.522.533.544.5

5.画频率分布直方图第九页,共37页。思考:

如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布表和频率分布直方图,你能对制定月用水量标准提出建议吗?注意1、小正方形的面积=组距×频率/组距=频率2、各小正方形的面积之和等于1.3、每一小组频率实际上反映样本数据落在各个小组的比例大小。第十页,共37页。一、求极差,即数据中最大值与最小值的差二、决定组距与组数:组距=极差/组数三、分组,通常对组内数值所在区间,取左闭右开区间,最后一组取闭区间四、登记频数,计算频率,列出频率分布表总结:画一组数据的频率分布直方图,可以按以下的步骤进行:五、画出频率分布直方图(纵轴表示频率/组距)第十一页,共37页。练习1.有一个容量为50的样本数据的分组的频数如下:[12.5,15.5)3[15.5,18.5)8[18.5,21.5)9[21.5,24.5)11[24.5,27.5)10[27.5,30.5)5[30.5,33.5)4(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)根据频率分布直方图估计,数据落在[15.5,24.5)的百分比是多少?第十二页,共37页。解:组距为3分组频数频率频率/组距[12.5,15.5)3[15.5,18.5)8[18.5,21.5)9[21.5,24.5)11[24.5,27.5)10[27.5,30.5)5[30.5,33.5)40.060.160.180.220.200.100.080.0200.0530.0600.0730.0670.0330.027第十三页,共37页。频率分布直方图如下:频率组距0.0100.0200.0300.0400.05012.515.50.0600.070第十四页,共37页。2.已知样本10,8,

6,10,8,13,11,10,12,7,8,9,12,9,11,12,9,10,11,11,那么频率为0.2范围的是()A.5.5~7.5B.7.5~9.5C.9.5~11.5D.11.5~13.5分组频数频率频数累计5.5~7.520.127.5~9.560.389.5~11.580.41611.5~13.540.220合计201.0D第十五页,共37页。3.一个容量为100的样本,数据的分组和各组的相关信息如下表,试完成表中每一行的两个空格.分组频数频率频率累计[12,15)6[15,18)0.08[18,21)0.30[21,24)21[24,27)0.69[27,30)16[30,33)0.10[33,36]1.00合计1001.00第十六页,共37页。课堂小结编制频率分布直方图的步骤:①找最大值与最小值。②决定组距与组数③决定分点④登记频数,计算频率,列表,画直方图说明:(1)确定分点时,使分点比数据多一位小数,并且把第1小组的起点稍微再小一点.第十七页,共37页。频率分布直方图如下:月均用水量/t频率组距0.100.200.300.400.500.511.522.533.544.5连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图第十八页,共37页。总体密度曲线频率组距月均用水量/tab(图中阴影部分的面积,表示总体在某个区间(a,b)内取值的百分比)。第十九页,共37页。用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。

总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.总体密度曲线第二十页,共37页。茎叶图某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:(1)甲运动员得分:13,51,23,8,26,38,16,33,14,28,39(1)乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39第二十一页,共37页。茎叶图甲乙0123452554161679490846368389

1叶就是从茎的旁边生长出来的数,表示得分的个位数。茎是指中间的一列数,表示得分的十位数第二十二页,共37页。茎叶图不仅能够保留原始数据,而且能够展示数据的分布情况。从运动员的成绩的分布来看,乙运动员的成绩更好;从叶在茎上的分布情况来看,乙运动员的得分更集中于峰值附近,说明乙运动员的发挥更稳定。在样本数据较少时,用茎叶图表示数据的效果较好。它不但可以保留所有信息,而且可以随时纪录,这对数据的纪录和表示都能带来方便。但当样本数据较多时,茎叶图就显得不太方便。因为每一个数据都要在茎叶图中占据一个空间,如果数据很多,枝叶就会很长。第二十三页,共37页。第一课时众数、中位数、平均数2.2.2

用样本的数字特征估计总体的数字特征第二十四页,共37页。一众数、中位数、平均数的概念

中数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.

众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.第二十五页,共37页。平均数:一组数据的算术平均数,即x=

练习:在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:成绩(单位:米)1.501.601.651.701.751.801.851.90人数23234111分别求这些运动员成绩的众数,中位数与平均数平均数:一组数据的算术平均数,即x=第二十六页,共37页。解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70;

这组数据的平均数是

答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米).第二十七页,共37页。

二、众数、中位数、平均数与频率分布直方图的关系

1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。例如,在上一节调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t.如图所示:第二十八页,共37页。频率组距0.10.20.30.40.5O0.511.522.533.544.5月平均用水量(t)第二十九页,共37页。

2、在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。下图中虚线代表居民月均用水量的中位数的估计值,此数据值为2.02t.第三十页,共37页。频率组距0.10.20.30.40.5O0.511.522.533.544.5月平均用水量(t)第三十一页,共37页。

3、平均数是频率分布直方图的“重心”.用频率分布直方图估计平均数方法是平均数≈图中每一个小矩形的面积×小矩形底边中点的横坐标之和第三十二页,共37页。三三种数字特征的优缺点

1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少.第三十三页,共37页。

2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。第三十四页,共37页。

3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。第三十五页,共37页。

四众数、中位数、平均数的简单应用例某工厂人员及工资构成如下:人员经理管

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论