版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章 从样本统计量估计整体参数 学习要点第一节 点估计第二节 区间估计 第三节 总体均数的估计 第四节 其他总体参数的估计本章小结 学习要点 掌握推断统计的内容和前提条件理解统计估计的原理,掌握统计估计的方法 能够运用总体均数估计的方法解决实际问题 第一节 点估计当总休平均数或比例未知时,我们可以直接把样本平均数或比例用作它的估计值。由于样本统计量为数轴上的一个点,所以称为“点估计值” 。科学研究不仅需要对事物特征作出一般性的描述,而且更要根据样本提供的信息去推测相应总体的情况,统计内容中的
2、推断统计则是专门研究如何用样本去推断总体的方法。一、 什么是推断统计一般情况下,样本统计量是不会和相应的总体参数完全相同的,两者多少都会有一定的差距,但是如果用无限多个样本的统计量来估计总体参数,平均估计误差将会等于0。具有这一特征的统计量就无偏估计值。 例如,用样本平均数估计总体平均数时,总会有些误差,在有些样本中,它可能会大于总体平均数,而在另一些样本中它又可能会小于总体平均数,而且对于不同的样本估计误差的大小也是不同的,但是无限多个样本平均数的平均估计误差为0。换句话说,样本平均数的平均数将会等于总体平均数。推断统计就是指由样本资料去推测相应总体情况的理论与方法。也就是由部分推全体,由已
3、知推未知的过程。推断统计根据推测的性质不同而分为参数估计和假设检验两方面。参数估计(parameter estimation)就是用样本去估计相应总体的状况,其具体方法有点估计和区间估计。假设检验(hypothesis test)的主要用途是对出现差异的两个或多个现象或事物进行真实性情况的检验,又称统计检验(statistical test)。在检验中又根据是否需要依赖于对总体分布形态和总体参数检验的假设而分为参数检验和非参数检验。参数检验法在检验时对总体分布和总体参数(,)有所要求,而非参数检验法在检验时则不依赖于总体的分布形态和总体参数的情况。参数检验法主要有检验、检验、检验和检验等,非参
4、数检验(non-parameter test)主要有2检验、符号检验法、符号等级检验法、秩和检验、中位数检验等。二、统计推断的基本问题没有系统学过统计学的人往往有一种误解,以为只要搜集了数据资料,就可以用统计方法来处理数据。殊不知统计学是建立在概率论基础上的,而概率论是专门研究随机事件的。因此,在做统计推断之前必须考虑你所获得的资料是否能够用统计的方法来分析。通常,进行统计推断时应首先考虑以下三个方面的问题。一是关于统计推断的基本前提。统计推断的前提是随机抽样。因此当我们利用样本统计量进行总体推断时,首先要了解抽样的方式,即了解样本是如何得来的,是随机抽取的,还是人为抽取的。随机抽样的均等性和
5、独立性,避免了入样个体只来自总体的某一部分,从而也就避免了样本的偏倚性。可以说,样本的抽取直接关系着统计研究结果的科学性。二是样本的规模与样本的代表性。抽样研究需要有一定的样本规模,而样本要具有代表性也需要有一定的样本规模来保证,以减少抽样误差。一般来说,在其它条件相同的情况下,样本越小,抽样的误差越大;样本越大,抽样的误差就越小。当样本增至包括总体的全部个体(即)时,抽样的误差为0。因此,只要条件允许,尽可能地采用大样本,以增强样本对总体的代表性和可靠性。值得注意的样本规模和样本代表性是建立在随机抽样基础之上的,否则即使样本再大也是无意义的。三是统计推断的错误要有一定限度。统计推断是在特定的
6、时间、空间和条件下得出的结论,加上抽样误差的影响,在用样本推测总体时总会犯一定的错误。这种错误在统计推断中是不可避免的,也是允许的。不过这种错误要有一定的限度,超过一定限度的错误是不允许的。统计推断中允许犯错误的限度是用小概率事件来表示。 第二节 区间估计一、参数估计的定义所谓参数估计就是根据样本统计量去估计相应总体的参数。譬如我们可以根据样本均数()去估计总体的均数(),根据样本方差()去估计总体方差(),根据样本的相关系数()去估计总体相关系数()等等。二、参数估计的方法参数估计有点估计和区间估计两种。譬如,某学区期末时抽取所管辖的小学四年级的数学测验成绩,求得平均分70分,标准
7、差10分,于是一个管理者认为全区四年级的数学平均分可能是70分,而另一个管理者则认为全区四年级数学平均分可能性在6575之间。因前者是用数轴上的一点做估计,称为点估计。后者是用数轴上的一段距离做估计,称区间估计。(一)点估计点估计(point estimation)是在参数估计中直接以样本的统计量(数轴上的一个点)作为总体参数的估计值。譬如用样本统计量:,、等作为总体参数、等的估计值。但是作为良好点估计的统计量必须具备一定的前提条件。1无偏性用统计量估计总体参数必然会存在一定的误差,而恰好相等的情形是极少见的。当然,无偏性并不是说没有一点误差,而是要求用各个样本的统计量作为估计值时,其偏差为0
8、,即这时的统计量被称为无偏估计量(unbiased estimator)。譬如,根据中心极限定理二有,即样本均数的均数是总体均数的无偏估计量,亦即我们可以用样本均数的均数作为总体均数的点估计值。假设我们从某市四个区的六岁男童中随机抽取四个样本,对每个样本测量其身高的平均数,再求得四个样本均数的均数为110.70公分,并此值作为该市所有六岁男孩的平均身高就是一个点估计。如果,大于0或小于0,那么这时的统计量就为有偏估计量。作为总体参数的良好估计值是应当具备无偏性的。当样本容量足够大的时候,用样本均数或样本标准差作为总体相应参数的估计量都可视为无偏估计量。正因为如此,在大样本统计分析中,常用样本标
9、准差()去代替总体标准差()。当总体分布呈正态时,中数也是总体均数的无偏估计量。然而由于抽样误差的普遍存在,我们不能期待一次抽样就能对总体参数作出精确的估计。加之点估计不能给出估计误差及其可靠性有关信息,因此采用点估计时应特别注意样本统计量所具有的特性。2一致性总体参数的估计量随样本容量的无限增大,应当能越来越接近它所估计的总体参数。例如正态总体的总体均数为,标准差为,如果是从总体中随机抽取样本获得的平均数,其容量为,则当时,;。这时样本统计量的均数就是总体参数的一个估计值,或者说与是一致的。3有效性当总体参数的无偏估计量不止一个统计量时,则要分析无偏估计量的变异大小的情况。无偏估计量变异性小
10、的,有效性较高;无偏估计量变异性大的,则有效性较低。例如作为总体均数的估计值来说,样本均数、中数和众数等都是无偏估计量。这时选谁作为估计值最恰当则要看谁的变异性最小。在,和中只有的变异性最小,即的方差最小。所以用统计量样本均数作为总体参数的估计值是最佳选择。这也同时说明为什么在统计推断中不常使用中数和众数。4充分性充分性是指一个容量为的样本统计量是否充分地反映了全部个数所反映的总体信息。从,和的比较中我们已知,只有在求均数时个数据全部参与计算,它充分地反映所有数据所要反映的总体信息,而在计算和时只有部分数据参与计算,是用部分数据反映的总体信息。因此平均数的充分性最高,中数和众数的充分性较低。同
11、理,在差异量数中方差和标准差要比平均差、四分位差更具有充分性。一个好的点估计应当具备以上四个条件。但是无论如何,抽样误差总是存在,加上点估计不能提供正确估计的概率,所以应用时受到局限。例如,我们只能大体上知道样本容量比较大时,多数的靠近,但是样本容量究竟大到什么程度,“多数”、“靠近”到什么程度,“多数”到底是多少等等都是很模糊的。点估计的这些不足以及缺陷可以用区间估计的方法来弥补。第三节 总体均数的估计一、均数估计的标准误均数估计就是用样本均数去估计总体均数。在用样本均数()对总体均数()进行区间估计时,样本均数的标准误()是衡量抽样误差大小的重要指标,而样本均数的抽样分布则是进行这种估计的
12、理论依据。(一)标准误的定义式已知当总体2已知时,根据中心极限定理三有因为标准误与总体标准差成正比,与样本容量的平方根成反比,所以总体标准差越小,标准误越小;样本容量越大,标准误也越小。对于一个指定的总体来说,其总体标准差是一个确定的数。因此,在实际工作中,增大样本容量可以减小均数的标准误,这是提高估计精度的重要手段。对于总体均数进行估计时,如果已知,那么只需从总体中抽取一个容量为n的随机样本,就可以求出而对其区间作出估计,其区间估计公式为(二)标准误的近似式未知在实际工作中,总体方差及总体标准差往往是未知的。这时我们只能根据样本的标准差去估计总体的标准差。用样本标准差去估计总体标准差时必须考
13、虑其无偏估计量的问题。数理统计学已证明样本标准差不是总体标准差的无偏估计量。因此,以作为的点估计是不恰当的。但是样本的无偏标准差却是总体标准差的无偏估计量,即统计量抽样分布的平均数恰好等于。因此,这里的样本无偏标准差定义为由于是的无偏估计量,且当n一定时,抽样分布的标准误小于,所以当n足够大且一定时,的近似程度高于。于是,有了样本平均数标准误的近似公式 当总体未知时,即可采用这一公式计算均数的标准误。二、总体均数的估计方法总体均数的估计方法大致有三种,一种以正态分布理论为依据的估计法,称正态估计法。一种是以分布理论为依据的估计方法,称分布估计法。三是以渐近正态分布为依据的估计方法,称近似正态估
14、计法。三种方法适用于不同的资料形式。(一)正态估计法正态估计法适用于总体方差2已知的数据资料。其具体应用情形有二,一是总体呈正态时,不论样本容量的大小,样本均数的分布都呈正态分布。因为,中心极限定理一指出,总体正态时,从总体抽取的容量为n一切可能样本的均数呈正态分布。二是总体呈非正态时,只要样本容量大于30,样本均数的分布呈近似正态分布。因为,中心极限定理一指出,当足够大时,无论总体分布形态如何,样本均数的分布服从或接近正态分布。第四节 其他总体参数的估计参数估计除总体均数的估计外,还有总体方差和标准差的估计、总体相关系数的估计和总体比例的估计等等。这种参数估计过程大致相同,主要区别在于标准误
15、的计算不同。一、总体方差和总体标准差的估计 (一)总体方差的估计 由于样本方差与总体方差比值的分布呈分布,所以有,或 例8-5:从某校初三学生中随机抽取10份物理成绩,计算得平均分为71.2,标准差()为14.46。试估计物理成绩的方差在什么范围之内。 1)选择显著性水平。假设本例选 2)计算自由度。本例, 3)查显著性临界值表,确定和,本例有 , 4)代入公式,作出估计,或 5)结果解释 该校初三学生物理成绩的方差有98%的可能会落在86.86901.20之间或标准差会落在9.3230.02之间,超出这一范围的可能只有2%。从这一结果看,物理成绩标准差的区间较大,若增加样本容量可缩小区间差距
16、。 (二)总体标准差的估计 标准差的估计既可以采用上述总体方差估计区间的平方根,也可以直接利用样本标准差进行估计。样本标准差抽样分布的标准差称标准差的标准误,其公式为(或)因其近似正态分布,所以总体标准差的置信区间为 用此法对例8-5进行总体标准的估计,则有 二、总体相关系数的估计 由样本相关系数形成的分布形式较多,因此计算样本相关系数标准误的及置信限的方法也较为复杂。这里只介绍常用方法Fisher的Z函数分布法。Fisher的Z函数分布法是通过将样本相关系数转换为值(因的样本分布近似正态分布),并以值进行估计,然后再将值还原为值的做法。这种既无需考虑样本容量大小,也无需顾忌总体相关系数。例8-6:某教师经研究发现,其所教班级学生(55人)的数学成绩与物
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外卖饭店营销方案(3篇)
- 泵站景观绿化施工方案(3篇)
- 彭州从事绿化施工方案(3篇)
- 华为营销方案文档(3篇)
- 肛提肌损伤修复机制
- 能源监测与吊顶系统融合
- 糖尿病视网膜水肿管理
- 维修服务市场细分策略
- 私募基金监管趋势-第1篇
- 深埋TBM施工隧洞岩爆风险评估与应对策略:理论、实践与创新
- 医院医德医风培训
- 大功率电源及系统行业员工职业发展规划与管理
- 节能降耗培训课件
- 领取基本养老金申请表
- 2023年考研考博考博英语河北工业大学考试高频考点参考题库答案
- 糖尿病饮食与运动-糖尿病饮食营养课件
- 基于1+X证书制度构建“岗课赛证”融通模式的典型案例
- 某水电站×kN坝顶双向门机安装质量检测记录表
- GB/T 1401-1998化学试剂乙二胺四乙酸二钠
- GA 884-2018公安单警装备催泪喷射器
- 名师课件:部编版(新)高中历史必修中外历史纲要(上)第20课《北洋军阀统治时期的政治经济与文化》
评论
0/150
提交评论