2.2用样本估计总体_第1页
2.2用样本估计总体_第2页
2.2用样本估计总体_第3页
2.2用样本估计总体_第4页
2.2用样本估计总体_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

用样本估计总体,2.2,前面我们研究了通过抽样来收集数据的方法,了解了提高样本代表性的一些具体方法,数据被收集后,必须从中寻找所包含的讯息,以便我们能通过样本来估计总体。,样本的特征直接反映了总体的特征,我们通常用样本的频率和数字特征来评估总体的特征。,复习回顾,主要内容,2.2.1用样本的频率分布估计总体分布,2.2.2用样本的数字特征估计总体的数字特征,用样本的频率分布估计总体分布,2.2.1,【探究】我国是世界上严重缺水的国家之一,城市缺水问题较为突出。某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费,如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?你认为,为了较为合理地确定出这个标准,需要做那些工作?,很明显,如果水价太高,影响居民日常生活,水价太低,不利于节约用水.,为了确定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等等.,由于城市住户较多,因此我们采用抽查的方式进行,下面是对100户进行抽查的结果:,样本容量可以根据实际情况适当选择,并不一定越大越好.,这100户用水量在0.24.3之间,除此之外,我们很难得到其他信息,一次我们必须对数据的潜在信息进行分析,在初中,我们学习了哪些分析数据的方法?,人类辨识影像的能力要优於辨识文字与数字的能力,因此我们采用图形的方式来展现数据时,常常不我们直接观察数据要来的快。,一幅好的图胜过一千个字,频数分布图,频数分布表,下面我们将要学习到的是频率分布表和频率分布图,从比例的角度来分析数据,频率分布的基本步骤是:,1.求极差:,最大数与最小数的差,反映了数据的变化范围,4.3-0.2=4.1,2.决定组距和组数,组距和组数没有固定的标准,常常需要尝试和选择的过程,一般数据较少(100以内)时,分成512组,3.数据分组:,数据的分组也不是越多越好,为了方便,我们力求“取整”,因此,分成9组较合适,以0.5为组距分组时。可以分成9组:,0,0.5),0.5,1.0),4,4.5),当样本容量n很大时,分组数k应该在(1+3.3lgn)附近,4.列频率分布表,利用计算出各组数据的频率,5.作频率分布直方图,频率分布直方图就是以面积的形式反映了数据落在各个小组的频率的大小,所有小长方形的面积和为1,(1)居民月均用水量的分布是“山峰”状的,而且是“单峰”的;(2)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;(3)居民月均用水量的分布有一定的对称性等.,频率分布直方图的特征:(1)从频率分布直方图可以清楚的看出数据分布的总体趋势;(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。,如右图,我们连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.,一般的,随着样本容量的增加,作图时组数也相应的变大,相应的频率分布折线图会越来越接近一条光滑曲线总体密度曲线.,总体密度曲线反映了总体在各个范围内取值的百分比,它比频率分布直方图提供更加精细的信息。,例如:图中阴影部分的面积就表示总体在a,b内的百分比。,注意点:由于样本是随机的,不同的样本得到的频率分布折线图不同;即使对于同一样本,不同的分组情况得到的频率分布折线图也不同,频率分布折线图是随着样本的容量和分组情况的变化而变化的,因此不能由样本的频率分布折线图得到准确的总体密度曲线。,除了上面的几种处理方式外,我们还有一种用来表示数据的图茎叶图,例某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50。乙的得分:8,13,14,16,23,26,28,33,38,39,51。上述的数据可以用下图来表示,中间数字表示得分的十位数,两边数字分别表示两个人各场比赛得分的个位数.,012345,83463683891,5254976611940,甲,乙,通过此图即可看出甲运动员的得分大致对称,发挥比较稳定!,用茎叶图表示有两个突出的优点:,但茎叶图只能表示两位的整数,虽然可以表示两个人的比赛结果(或两个以上的记录),但没有直方图那么直观、清晰。,2.茎叶图可以在比赛时随时记录,方便记录与表示,1.从统计图上没有信息的损失,所有的信息都可以从这个茎叶图中得到,用样本的数字特征估计总体的数字特征,2.2.2,频率分布直方图和频率分布折线图虽然能够很好的反映总体的分布情况,但为了更好的把握总体,我们还需要通过样本的数据对总体的数字特征进行研究。,知识探究(一):众数、中位数和平均数,思考1:在初中我们学过众数、中位数和平均数的概念,这些数据都是反映样本信息的数字特征,对一组样本数据如何求众数、中位数和平均数?,思考2:在城市居民月均用水量样本数据的频率分布直方图中,你认为众数应在哪个小矩形内?由此估计总体的众数是什么?,中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数平均数:一组数据的算术平均数,众数:在一组数据中,出现次数最多的数据叫做这组数据的众数,众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛.,思考3:在频率分布直方图中,每个小矩形的面积表示什么?中位数左右两侧的直方图的面积应有什么关系?,思考4:在城市居民月均用水量样本数据的频率分布直方图中,从左至右各个小矩形的面积分别是0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02.由此估计总体的中位数是什么?,0.5-0.04-0.08-0.15-0.22=0.01,0.010.5=0.02,中位数是2.02.,说明:2.02这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致.,思考5:平均数是频率分布直方图的“重心”,在城市居民月均用水量样本数据的频率分布直方图中,各个小矩形的重心在哪里?从直方图估计总体在各组数据内的平均数分别为多少?,0.25,0.75,1.25,1.75,2.25,2.75,3.25,3.75,4.25,思考6:根据统计学中数学期望原理,将频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积相加,就是样本数据的估值平均数.由此估计总体的平均数是什么?,0.250.04+0.750.08+1.250.15+1.750.22+2.250.25+2.750.14+3.250.06+3.750.04+4.250.02=2.02(t).平均数是2.02.,思考7:从居民月均用水量样本数据可知,该样本的众数是2.3,中位数是2.0,平均数是1.973,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗?,频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关.,注:在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由此估计总体特征.,思考8:一组数据的中位数一般不受少数几个极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点,你能举例说明吗?样本数据的平均数大于(或小于)中位数说明什么问题?你怎样理解“我们单位的收入水平比别的单位高”这句话的含义?,如:样本数据收集有个别差错不影响中位数;大学毕业生凭工资中位数找单位可能收入较低.平均数大于(或小于)中位数,说明样本数据中存在许多较大(或较小)的极端值.这句话具有模糊性甚至蒙骗性,其中收入水平是员工工资的某个中心点,它可以是众数、中位数或平均数.,三种数字特征的优缺点,1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少.,2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。,3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。,知识探究(二):标准差,样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息.平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度.,思考1:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:甲:78795491074乙:9578768677甲、乙两人本次射击的平均成绩分别为多少环?,思考2:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?,环数,甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定.,思考3:对于样本数据x1,x2,xn,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?,思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s表示.假设样本数据x1,x2,xn的平均数为,则标准差的计算公式是:,那么标准差的取值范围是什么?标准差为0的样本数据有何特点?,S=0,标准差为0的样本数据都相等.,标准差越大离散程度越大,数据较分散;标准差越小离散程度越小,数据较集中在平均数周围.,标准差,标准差是样本数据到平均数的一种平均距离。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论