用样本的数字特征估计总体的数字特征.ppt_第1页
用样本的数字特征估计总体的数字特征.ppt_第2页
用样本的数字特征估计总体的数字特征.ppt_第3页
用样本的数字特征估计总体的数字特征.ppt_第4页
用样本的数字特征估计总体的数字特征.ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

用样本的数字特征估计总体的数字特征,情境一:,某农场种植了甲、乙两种玉米苗,从中各抽取了10株,分别测得它们的株高如下(单位:厘米):,甲: 25 41 40 37 22 14 19 39 21 42,乙: 27 16 44 27 44 16 40 40 16 40,分析:,欲比较哪种玉米苗长得高,可以比较一下它们的平均高 !,反映了总体的 某种特征,总体特征数,30,31,总体特征数:,通常把能反映总体某种特征的量称为总体特征数,如何反映总体的特征数?,用样本的特征数估计总体的特征数!,情境二:,在利用单摆检验重力加速度的实验中,全班同学在相同的条件下进行测试,得到下列数据(单位:m/s),9.62 9.54 9.78 9.94 10.01 9.66 9.88 9.68 10.32,9.76 9.45 9.99 9.81 9.56 9.78 9.72 9.93 9.94,9.65 9.79 9.42 9.68 9.70 9.84 9.90,怎样利用这些数据对重力加速度进行估计?,平均数,为什么呢?,问题转化为:,实验结果测得一组数据为,用 作为重力加速度“最理想的”近似值,依据是什么呢?,算术平均数,=,=,读作: 平均,处理实验数据的原则是使这个近似值与实验数据之间的离差(偏差)最小、设近似值为x,则它与n个实验值 ai(i1,2,3,n)的离差分别为 x-a1,x-a2,x-an,平均数最能代表一个样本数据的集中趋势,也就是说它与样本数据的离差最小。,称为这n个数的 平均数或者均值,一 众数、中位数、平均数的概念,中数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,众数:在一组数据中,出现次数最多的数据叫做这组数据的众数,众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛.,注: 若有两个或几个数据出现的最多,且出现的次数一样,这些数据都是这组数据的众数;若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数。 样本数据不一定有众数,有众数则不一定只有一个,中位数怎么求?,1、求下列各组数据的众数,(1)、1 ,2,3,3,3,5,5,8,8,8,9,9,众数是:3和8,(2)、1 ,2,3,3,3,5,5,8,8,9,9,众数是:3,2、求下列各组数据的中位数,(1)1 ,2,3,3,3,4,6,8,8,8,9,9,(2)1 ,2,3,3,3,4,8,8,8,9,9,中位数是:5,中位数是:4,平均数: 一组数据的算术平均数,即 x=,练习: 在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:,分别求这些运动员成绩的众数,中位数与平均数,平均数: 一组数据的算术平均数,即 x=,解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75 上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70;,这组数据的平均数是,答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米).,加权平均值,(用频率计算平均值),一般地,若取值为 , 出现的次数分别为 ,设频率为,则其加权平均数为,其中,例3:由下表计算学生平均日睡眠时间,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,思考:小长方形面积、对应这个组的频率、这个组占的比例的关系。,二 、 众数、中位数、平均数与频率分布直方图的关系,1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。 例如,在上一节调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t.如图所示:,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,2.25,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,提示:中位数左边的数据个数与右边的数据个数是相等的。,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,前四个小矩形的面积和=0.49,后四个小矩形的面积和=0.26,2.02,归纳总结得: 在样本中,有50的个体小于或等于中位数,也有50的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。在这个频率分布直方图中,左边的直方图的面积代表50个单位,右边的直方图也是代表50个单位,它们的分界线与x轴交点的横坐标就是中位数。中位数在样本数据的频率分布直方图中,就是把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标。,思考讨论以下问题: 1、2.02这个中位数的估计值,与样本的中位数值2.0不一样,你能解释其中原因吗?,答:2.02这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,直方图已经损失一些样本信息。所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致.,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,提示:在频率分布直方图中,各个组的平均数如何找?,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,.,.,.,.,.,.,.,.,.,0.75,1.75,2.25,2.75,3.25,3.75,4.25,1.25,0.5,提示:与小长方形面积的比例有关吗?,总结归纳得: 平均数是频率分布直方图的“重心”,是直方图的平衡点。 先找出每个小长方形的“重心”,即每小组的平均数,再按比例算出直方图的平均数。 平均数在样本数据的频率分布直方图中,等于频率分布图中每个小长方形面积乘以小矩形底边中点的横坐标之和。,思考讨论以下问题: 2、样本中位数不受少数极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点。你能举例说明吗?,答:优点:对极端数据不敏感的方法能够有效地预防错误数据的影响。 对极端值不敏感有利的例子:例如当样本数据质量比较差,即存在一些错误数据(如数据录入错误、测量错误等)时,用抗极端数据强的中位数表示数据的中心值更准确。,三 三种数字特征的优缺点,1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少.,2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。,3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此 ,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。,思考讨论以下问题: 3、“用数据说话”,这是我们经常听到的一句话。但是,数据有时也会被利用,从而产生误导。例如,一个企业中,绝大多数人是一线工人,他们的年收入可能是一万元左右,另有一些经理层次的人,年收入过到几十万元。这时年收入的平均数比中位数大得多。尽管这时的中位数比平均数更合理些,但是这个企业的老板到人力市场去招聘工人时,也许更可能用平均数来回答有关工次待遇的指问。 你认为“我们单位的收入水平比别的单位高”这句话应当怎么解释?,答: 我认为这句话是这样解释的:这个企业的老板以员工平均工资收入水平去描述他们单位的收入情况。我觉得这是不合理的,因为这些员工当中,少数经理层次的收入与大多数一般员工收入的差别比较大,所以平均数不能反映该单位员工的收入水平。这个老板的话有误导与蒙骗行为。,课后练习 假设你是一名交通部门的工作人员,你打算向市长报告国家对本市26个公路项目投资的平均资金数额,其中一条新公路的建设投资为2000万元人民币,另外25个项目的投资是20100万元。中位数是25万元,平均数是100万元,众数是20万元。你会选择哪一种数据特征来表示国家对每一个项目投资的平均金额?你选择这种数字特征的缺点是什么?,答: 这里应该采用平均数来表示每一个国家项目的平均金额,因为这能反映所有项目的信息。但平均数会受到极端数据2000万元的影响,所以大多数项目投资金额都和平均数相差比较大。,四 众数、中位数、平均数的简单应用,例 某工厂人员及工资构成如下:,(1)指出这个问题中周工资的众数、中位数、平均数,(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?,分析:众数为200,中位数为220,平均数为300。 因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。,标准差,平均数向我们提供了样本数据的重要信息,但是平均有时也会使我们作出对总体的片面判断因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽的因此,只有平均数还难以概括样本数据的实际状态,如:有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:,甲: ,乙: ,如果你是教练,你应当如何对这次射击作出评价?,如果看两人本次射击的平均成绩,由于,两人射击 的平均成绩是一样的.那么两个人的水平就没有什么差异吗?,2.标准差,4,5,6,7,8,9,10,环数,频率,0.1,0.2,0.3,(甲),4,5,6,7,8,9,10,0.1,0.2,0.3,0.4,环数,频率,(乙),直观上看,还是有差异的.如:甲成绩比较分散,乙成绩 相对集中(如图示).因此,我们还需要从另外的角度来考察这两组数据.例如:在作统计图,表时提到过的极差. 甲的环数极差=10-4=6 乙的环数极差=9-5=4. 它们在一定程度上表明了样本数据的分散程度,与平均数一起,可以给我们许多关于样本数据的信息.显然,极差对极端值非常敏感,注意到这一点,我们可以得到一种“去掉一个最高分,去掉一个最低分”的统计策略.,考察样本数据的分散程度的大小,最常用的统计量是标准差 标准差是样本平均数的一种平均距离,一般用s表示,由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差,一个样本中的个体与平均数之间的距离关系可用下图表示:,考虑一个容量为2的样本:,建构数学,因为方差与原始数据的单位不同,且 平方后可能夸大了离差的程度,我们 将方差的算术平方根称为这组数据的 标准差,标准差:,标准差也可以刻画数据的稳定程度 方差和标准差的意义: 描述一个样本和总体的波动大小的特征数, 标准差大说明波动大.,例题1:画出下列四组样本数据的直方图,说明它们的异同点.,解:四组样本数据的直方图是:,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0,1,2,3,4,5,6,7,8,四组数据的平均数都是5.0,标准差分别是0.00,0.82, 1.49,2.83.虽然它们有相同的平均数,但是它们有不同的标准差,说明数据的分散程度是不一样的.,标准差还可以用于对样本数据的另外一种解释.例如,在关于居民月均用水量的例子中,平均数,标准差s=0.868 ,所以,例2 甲乙两人同时生产内径为25.40mm的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:mm),甲 25.46, 25.32, 25.45, 25.39, 25.36 25.34, 25.42, 25.45, 25.38, 25.42 25.39, 25.43, 25.39, 25.40, 25.44 25.40, 25.42, 25.35, 25.41, 25.39,乙 25.40, 25.43, 25.44, 25.48, 25.48 25.47, 25.49, 25.49, 25.36, 25.34 25.33, 25.43, 25.43, 25.32, 25.47 25.31, 25.32, 25.32, 25.32, 25.48,从生产的零件内径的尺寸看,谁生产的质量较高?,分析:每一个工人生产的所有零件的内径尺寸组成一个总体, 由于零件的生产标准已经给出(内径25.40mm),生产质量可以从总体的平均数与标准差两个角度来衡量.总体的平均数与内径标准尺寸25.00mm的差异在时质量低,差异小时质量高;当总体的平均数与标准尺寸很接近时,总体的标准差小的时候质量高,标准差大的时候质量低.这样比较两人的生产质量只要比较他们所生产的零件内径尺寸所组成的两个总体的平均数与标准差的大小即可.但是这两个总体的平均数与标准差都是不知道的,根据用样本估计总体的思想,我们可以通过抽样分别获得相应的样体数据,然后比较这两个样本的平均数,标准差,以此作为两个总体之间的估计值.,解:用计算器计算可得:,从样本平均数看,甲生产的零件内径比乙生产的更接近内径标准(25.40mm),但是差异很小;从样本标准差看,由于,从上述例子我们可以看到,对一名工人生产的零件内径(总体)的质量判断,与我们抽取的内径(样本数据)直接相关.显然,我们可以从这名工人生产的零件中获取许多样本(为什么?).这样,尽管总体是同一个,但由于样本不同,相应的样本频率分布与平均数,标准差等都会发生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论