




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2.2用样本估计总体用随机抽样的方法获得样本,我们就会得到一组数据,统计思想的本质就是用样本估计总体。用样本估计总体,一般有两种方法:一是用样本的频率分布估计总体分布;二是用样本的数字特征估计总体的数字特征。一、用样本的频率分布估计总体分布1频数、频率将一批数据按照要求分为若干组,各组内数据的个数叫做该组的频数;每组数除以全体数据的个数的值叫做该组的频率。频率反映数据在每组中所占比例的大小。2频率分布根据随机所抽样本的大小,分别计算某一事件出现的频率,这些频率的分布规律(取值状况),就叫做样本的频率分布。为了直观地显示样本的频率分布情况,通常我们会将样本的容量、样本中出现该事件的频数以及计算所得的相应频率列在一张表中,叫做样本频率分布表。3用样本的频率分布估计总体分布从一个总体中得到一个包含大量数据的样本时,我们很难从一个个数字中直接看出样本所包含的信息,如果知道了这些数据的频数分布或频率分布,就可以比较清楚地看出样本数据的特征,从而估计总体的分布情况。用样本估计总体,是研究统计问题的一个基本思想方法,而对于总体分布,我们总是用用样本的频率分布对它进行估计。4频率分布直方图作频率分布直方图的具体步骤:(1)计算极差:最大值与最小值的差。(2)决定组距与组数:组距与组数的确定没有固定标准,需要尝试、选择,力求有合适的组数,以能把数据的规律较清楚地呈现为准,太多或太少都不好,不利对数据规律的发现。组数应与样本的容量有关,样本容量越大,组数越多,如果数据的容量不超过100时,按数据多少,通常分为512组。(3)决定分点:分点要比数据多一位小数,便于分组,分组区间采用左闭右开,避免数据被重复计算。(4)列频率分布表:一般分“分组”、“频数累计”(可省略)、“频数”、“频率”四列,最后一行是“合计”。注意:频数的合计应是样本容量,频率合计应是1。(5)画出频率分布直方图:在画频率分布直方图时,纵轴表示“频率/组距”。说明:从频率分布直方图可以清楚地看出数据分布的总体趋势;从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。5频率分布条形图与频率分布直方图的联系与区别频率分布图联系适用范围作图步骤频率表示条形图都是用于表达和分析样本的频率分布情况总体中的个体取值较少直接可由频率分布表作出条形图用矩形条的高度表示频率直方图总体中的个体取值较多、甚至无限求极差;定组距与组数;定分组区间;列频率分布表;画频率分布直方图用矩形条的面积表示频率6频率分布折线图、总体密度曲线(1)频率分布折线图连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。说明:频率折线图也是表示估计总体分布情况的一种方法,更能反映总体分布的变化趋势;频率折线图必须在频率分布直方图的基础上进行;随着样本容量的增大,所划分的区间数也可以随之增多,而每个区间的长度则会相应随之减少,相应的频率折线图就会越来越接近于一条光滑曲线。(2)总体密度曲线一般地,总体的个数越多,所取的样本的容量就越大,分的组数就越多。随着样本容量和组数的增加,相应的频率分布折线图会越来越接近于一条光滑的曲线,这条曲线称作总体密度曲线。说明:总体密度曲线精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息。7茎叶图当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。说明:用茎叶图表示数据有两个优点:一是所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示,能够展示数据的分布情况。茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两组以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰。二、用样本的数字特征估计总体的数字特征1平均数、中位数、众数(1)平均数:一组数据的总和除以数据的个数所得的商就是平均数。(2)中位数:如果将一组数据按从小到大的顺序依次排列,当数据有奇数个时,处在最中间的一个数;当数据有偶数个时,处在最中间的两个数的平均数,是这组数据的中位数。(3)众数:在一批数据中,出现次数最多的数(若有两个或几个数据出现地最多,且出现的次数一样,这些数据都是这组数据的众数;若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数)。说明:在频率分布直方图中也可以找到众数、中位数。众数根据它的意义可知在频率分布直方图中最高小长方形的中点所对应的数据值即为这组数据的众数;而在频率分布直方图上的中位数左右两侧的直方图面积应该相等,因而可以估计其近似值。2平均数、中位数、众数的异同(1)平均数、中位数、众数都是描述一组数据集中趋势的量,平均数是最重要的量。(2)平均数的大小与一组数据里每个数据均有关系,任何一个数据的变动都会相应引起平均数的变动。(3)众数考查各数据出现的频率,大小只与这组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,其众数往往更能反映问题。(4)中位数仅与数据的排列位置有关,某些数据的变动对中位数没有影响,中位数可能出现在所给数据中,也可能不在所给数据中。当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势。(5)实际问题中求得的平均数、众数、中位数都应带上单位。3极差、方差、标准差(1)极差:就是一组数据中最大数与最小数之间的差。(2)方差:设一组数据为,这组数据的平均数为,则方差为。注:两个简化公式;。其中,是接近原数据的平均数的一个常数。(3)标准差:标准差是样本数据到平均数的一种平均距离,它用来描述样本数据的离散程度。在实际应用中,标准差常被理解为稳定性。 说明:计算样本数据,的标准差的算法 算出样本数据的平均数; 算出每个样本数据与样本平均数的差(1,2,); 算出(1,2,); 算出(1,2,)这个数的平均数,即为样本方差; 算出方差的算术平方根,即为样本标准差。三、范例剖析例1 为了了解某地高一年级男生的身高情况,从其中的一个学校选取容量为60的样本(60名男生的身高),分组情况如下:分组147.5155.5155.5163.5频数621频率分组163.5171.5171.5179.5频数频率0.1求出表中、的值。分析:由频率的意义,各小组的频数与样本容量的比就是相应各小组的频率,因此易求出第一、二小组的频率,再根据各小组频率之和为1的性质,即可求出;再逆用频率公式,可求出当频率为0.1,样本容量是60时的频数。解析:第一小组的频率,第二小组的频率,因为各小组频率和为1,所以第三小组频率为1(0.10.350.1)0.45。又,。评注:统计图表的饿方法有多种多样,各种方法也有各自的优点与不足,一般情况是借助于各自的优点,只要能充分体现其问题的本质即可。例2 某市对上、下班交通情况做抽样调查,上、下班时间各抽取了12辆机动车行驶速度如下:(单位:) 上班时间:30 33 18 27 32 40 26 28 21 28 35 20 下班时间:27 19 32 29 36 29 30 22 25 16 17 30 用茎叶图表示上面的样本数据,并求出样本数据的中位数。 分析:以十位数为茎,个位数为叶,可以作出相应的茎叶图,从而可据图分析数据的特征。 解析:根据题意绘出该市上、下班交通情况的茎叶图,如图所示。 上班时间 下班时间 由图可见,上班时间行驶时速的中位数是28,下班时间行驶时速的中位数是28。 评注:茎叶图保留了原始数据,所有的数据信息都可以很容易的从表中获得。例3 某工厂人员及工资构成如下:人员经理管理人员高级技工工人学徒合计周工资2200250220200100人数16510123合计22001500110020001006900 (1)指出这个问题中的众数、中位数和平均数; (2)在这个问题中,平均数能客观地反映该工厂的工资水平吗?为什么? 分析:该例着眼于众数、中位数、平均数各自的特点,以及其使用对象。 解析:由表格可知,众数为200; ,中位数为250; 平均数为。 虽然平均数为300元/周,但由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。评注:平均数受数据中的极端值的影响较大,妨碍了对总体估计的可靠性,这时平均数反而不如众数、中位数更为客观。例4 求一组数据7,6,8,8,5,9,7,7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论