9.2.3 总体集中趋势的估计 课件(共29张PPT)_第1页
9.2.3 总体集中趋势的估计 课件(共29张PPT)_第2页
9.2.3 总体集中趋势的估计 课件(共29张PPT)_第3页
9.2.3 总体集中趋势的估计 课件(共29张PPT)_第4页
9.2.3 总体集中趋势的估计 课件(共29张PPT)_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

9.2.3总体集中趋势的估计第9章统计人教A版2019必修第二册学习目标

1.结合实例,能用样本估计总体的集中趋势参数(众数、中位数、平均数),培养数据分析的核心素养;2.会求样本数据的众数、中位数、平均数,提升数学运算的核心素养;3.理解集中趋势参数的统计含义,培养数据分析的核心素养。新知导入

现从甲、乙、丙三个厂家生产的同一种耐用家电产品中,各抽取8件产品,对其使用寿命进行跟踪调查,其结果如下:(单位:年)甲:3,4,5,6,8,8,8,10;乙:4,6,6,6,8,9,12,13;丙:3,3,4,7,9,10,11,12.【问题】三家广告中都称其产品的使用寿命为8年,利用初中所学的知识,你能说明为什么吗?【提示】三个厂家是从不同角度进行了说明,以宣传自己的产品.其中甲:众数为8年,乙:平均数为8年,丙:中位数为8年.

为了了解总体的情况,前面我们研究了如何通过样本的分布规律估计总体的分布规律.但有时候,我们可能不太关心总体的分布规律,而更关注总体取值在某一方面的特征.例如,对于某县今年小麦的收成情况,我们可能会更关注该县今年小麦的总产量或平均每公顷的产量,而不是产量的分布;对于一个国家国民的身高情况,我们可能会更关注身高的平均数或中位数,而不是身高的分布;等等.在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.下面我们通过具体实例进一步了解这些量的意义,探究它们之间的联系与区别,并根据样本的集中趋势估计总体的集中趋势.平均数:反映所有数据的平均水平的数据叫做平均数.中位数:把处在最中间位置的一个数据或最中间两个数据的平均数叫做中位数.众数:出现次数最多的数据叫做众数.下面我们通过具体实例进一步了解这些量的意义,探究它们之间的联系与区别,并根据样本的集中趋势估计总体的集中趋势.例4利用9.2.1节中100户居民用户的月均用水量的调查数据,计算样本数据的平均数和中位数,并据此估计全市居民用户月均用水量的平均数和中位数.9.013.614.95.94.07.16.45.419.42.02.28.613.85.410.24.96.814.02.010.52.15.75.116.86.011.11.311.27.74.92.310.016.712.012.47.85.213.62.422.43.67.18.825.63.218.35.12.03.012.022.210.85.52.024.39.93.65.64.47.95.124.56.47.54.720.55.515.72.65.75.56.016.02.49.53.717.03.84.12.35.37.88.14.313.36.81.37.04.91.87.128.010.213.817.910.15.54.63.221.6解:①根据已知100户居民用户月均用水量的数据,可得样本平均数为即100户居民的月均用水量的平均数为8.79t.解:由上述数据可得,第50个数和第51个数均为6.8,由中位数的定义,可得100户居民的月均用水量的中位数是6.8t.②将样本数据按从小到大排序,结果如下:1.31.31.82.02.02.02.02.12.22.32.32.42.42.63.03.23.23.63.63.73.84.04.14.34.44.64.74.94.94.95.15.15.15.25.35.45.45.55.55.55.55.65.75.75.96.06.06.46.46.86.87.07.17.17.17.57.77.87.87.98.18.68.89.09.59.910.010.110.210.210.510.811.111.212.012.012.413.313.613.613.813.814.014.915.716.016.716.817.017.918.319.420.521.622.222.424.324.525.628.0因为数据是抽自全市居民户的简单随机样本,所以我们可以据此估计全市居民用户的月均用水量约为8.79t,其中位数约为6.8t,众数是2.0和5.5t.由众数的定义,可得100户居民的月均用水量的众数是2.0和5.5t.思考1:小明用统计软件计算了100户居民用水量的平均数和中位数,但在录入数据时,不小心把一个数据7.7录成了77.请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数作比较,哪个量的值变化更大?你能解释其中的原因吗?

思考2:平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关.在下图的三种分布形态中,平均数和中位数的大小存在什么关系?

一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的,那么平均数和中位数应该大体上差不多;如果直方图在右边“拖尾”,那么平均数大于中位数;如果直方图在左边“拖尾”,那么平均数小于中位数.也就是说,和中位数相比,平均数总是在“长尾巴”那边.例5.某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格.据统计,高一年级女生需要不同规格校服的频数如表所示.

如果用一个量来代表该校高一年级女生所需校服的规格,那么在中位数、平均数和众数中,哪个量比较合适?试讨论用表中的数据估计全国高一年级女生校服规格的合理性.校服规格155160165170175合计频数39641679026386解:为了更直观地观察数据的特征,我们用条形图来表示表中的数据.可以发现,选择校服规格为“165”的女生的频数最高,所以用众数165作为该校高一年级女生校服的规格比较合适.

由于全国各地的高一年级女生的身高存在一定的差异,所以用一个学校的数据估计全国高一年级女生的校服规格不合理.

众数只利用了出现次数最多的那个值的信息.众数只能告诉我们它比其他值出现的次数多,但并未告诉我们它比别的数值多的程度.因此,众数只能传递数据中的信息的很少一部分,对极端值也不敏感.

一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对于分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.探究2样本的平均数、中位数和众数可以分别作为总体的平均数、中位数和众数的估计,但在某些情况下我们无法获知原始的样本数据.例如,我们在报纸、网络上获得的往往是已经整理好的统计表或统计图.这时该如何估计样本的平均数、中位数和众数?你能以下面的频率分布直方图提供的信息为例,给出估计方法吗?思考1根据频率分布直方图如何计算样本平均数?1.根据频率分布直方图计算样本平均数:因为样本平均数可以表示为数据与它的频率的乘积之和.所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.

所以由上图可得样本平均数为这个结果与根据原始数据计算的样本平均数8.79相差不大.由于0.077×3=0.231,(0.077+0.107)×3=0.552,因此中位数落在区间[4.2,7.2)内.设中位数为x,由0.077×3+0.107×(x-4.2)=0.5,解得x≈6.71.因此,中位数约为6.71.2.根据频率分布直方图计算样本中位数:根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.这个结果与根据原始数据计算的样本中位数6.8相差不大.3.根据频率分布直方图计算样本众数:根据众数定义得,在样本数据中出现次数最多数据就是众数.因此在频率分布直方图中,我们常常把最高直方图底边的中点作为众数的估计值.在这个实际问题中,众数“5.7”让我们知道月均用水量在区间[4.2,7.2)内的居民用户最多.但这个结果与根据原始数据计算的样本众数2.0和5.5相差比较大,这说明众数只利用了出现次数最多的那个值的信息.众数只能告诉我们它比其他值出现的次数多,但并未告诉我们它比别的数值多的程度,因此,众数只能传递数据中的信息的很少一部分,对极端值也不敏感.在此频率分布直方图中,月均用水量在区间[4.2,7.2)内的居民最多,所以将这个区间的中点5.7作为众数的估计值.思考3以上我们讨论了平均数、中位数和众数在刻画一组数据的集中趋势时的各自特点,并研究了用样本的特征量估计总体特征量的方法.但需要注意的是,这些特征量有时会被利用而产生误导.例如,假设你到人力市场去找工作,有一个企业老板告诉你,“我们企业员工的年平均收入是20万元”.你如何理解这句话?这句话是真实的,但它可能描述的是差异巨大的实际情况.例如,可能这个公司的工资水平普遍较高,也就是员工收入的中位数、众数与平均数差不多;也可能是绝大多数员工的年收入较低,而少数员工的年收入很高;在这种情况下,年收入的平均数就比中位数大得多.尽管在后一种情况下,用中位数或众数比用平均数更合理些,但这个企业的老板为了招揽员工,却用了平均数.所以,我们要强调“用数据说话”,但同时又要防止被数据误导.这就需要掌握更多的统计知识和方法.课堂练习1.根据表9.2-2中的数据,估计该市2015年全年空气质量指数的平均数、中位数和第80百分位数.(注:已知该市属于“严重污染”等级的空气质量指数不超过400)空气质量等级(空气质量指数(AQD)频数频率优(AQI≤50)8322.8%良(50<AQI≤100)12133.2%轻度污染(100<AQI≤150)6818.6%中度污染(150<AQI≤200)4913.4%重度污染(200<AQI≤300)308.2%严重污染(AQI>300)143.8%合计365100%由上表数据可知,中位数在50~100之间,其估计值为解:平均数的估计值为25×22.8%+75×33.2%+125×18.6%+175×13.4%+250×8.2%+350×3.8%≈111.由上表数据可知,空气质量指数在0~150的频率为0.746,0~200的频率为0.88.所以第80百分位数在150~200之间,其估计值为2.假设你是某市一名交通部门的工作人员,你打算向市长报告国家对本市26个公路项目投资的平均资金数额.已知国家对本市一条新公路的建设投资为2000万元人民币,对另外25个公路项目的投资是20~100万元,这26个投资金额的中位数是25万元,平均数是100万元,众数是20万元.请你根据上面的信息给市长写一份简要的报告.解:因为一条公路建设投资2000万元,属极端情况,大多数投资项目在20万元至100万元之间,此时平均数难以正确客观反映各项目投资的实际分布状况,不宜选用.而众数20万元只说明投资20万元的项目最多,不能反映其他项目的投资数额.中位数对极端值不敏感,能回避极端数额的影响.所以25万元比较客观,故选中位数25万元作为平均投资金额.3.某校举行演讲比赛,10位评委对两位选手的评分如下:

甲7.57.57.87.88.08.08.28.38.49.9

乙7.57.87.87.88.08.08.38.38.58.5选手的最终得分为去掉一个最低分和一个最高分之后,剩下8个评分的平均数.那么,这两个选手的最后得分是多少?若直接用10位评委评分的平均数作为选手的得分,两位选手的排名有变化吗?你认为哪种评分办法更好?为什么?解:去掉一个最低分和一个最高分后的平均数分别为若不去掉一个最低分和一个最高分的平均数分别为所以甲、乙的最后得分分别为8分和8.06分.此时,甲、乙两位选手的排名发生了变化.相比较而言第一种评分办法更合理,因为去掉一个最低分和一个最高分以后能够防止被数据中的极端值误导,使平均数能更加准确地反映数据信息.随堂检测1.某学习小组在一次数学测验中,得100分的有1人,95分的有1人,90分的有2人,85分的有4人,80分和75分的各1人,则该小组成绩的平均数、众数、中位数分别是()A.85分、85分、85分 B.87分、85分、86分C.87分、85分、85分 D.87分、85分、90分

2.某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄(单位:岁)如下:甲群13,13,14,15,15,15,15,16,17,17;乙群54,3,4,4,5,5,6,6,6,57.(1)甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?(2)乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?

3.从高三年级抽出50名学生参加数学竞赛,由成绩得到如图所示的频率分布直方图.由于一些数据丢失,试利用频率分布直方图估计:(1)这50名学生成绩的众数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论