4-2 参数估计_第1页
4-2 参数估计_第2页
4-2 参数估计_第3页
4-2 参数估计_第4页
4-2 参数估计_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、不像其他科学,统计从来不打算使 自己完美无缺,统计意味着你永远 不需要确定无疑。 Gudmund R.Iversen,统计应用二战中的经济情报,经济情报在二次世界大战中发挥了重要的作用。 为了解德军的军事实力,盟军一方面积极利用各种渠道,从德国收集战争情报,以估计德军的实力,但这些情报相互之间矛盾、差别悬殊的情况十分普遍。 1943年初,驻伦敦的美国大使馆开始分析所俘获的德军装备的一些标识及序列号信息,以求准确估计德军的军事生产能力。 以坦克为例。通过研究分析坦克的底盘、转向架、发动机、变速箱等主要部件上的标识信息,可以获得它们的生产日期、生产厂商名称及地址、生产模具数量、组装日期、投入使用日

2、期等信息,从而为估计坦克的产量提供了充足的基础。 战争结束,德军一些官方信息公布之后,证明了这种估计方法的极高的准确性。,统计应用二战中的经济情报,统计应用,4-2 参数估计,1 参数估计的一般问题 一个总体参数的区间估计 不同抽样技术的估计(略) 4 样本容量的确定,学习目标,估计量与估计值的概念 点估计与区间估计的区别 评价估计量优良性的标准 一个总体参数的区间估计方法 样本容量的确定方法,参数估计在统计方法中的地位,统计推断的过程,1 参数估计的一般问题,1.1 估计量与估计值 1.2 点估计 1.3 评价估计量的标准 1.4. 区间估计,1.1估计量与估计值,估计量:用于估计总体参数的

3、随机变量 如样本均值,样本比例、样本方差等 例如: 样本均值就是总体均值 的一个估计量 参数用 表示,估计量用 表示 估计值:估计参数时计算出来的统计量的具体值 如果样本均值 x =80,则80就是的估计值,1.1估计量与估计值 (estimator & estimated value),参数估计的方法,1.2点估计,1.2.1点估计 (point estimate),点估计又叫定值估计,就是用样本的统计量 直接估计总体参数 。 当已知一个样本的观察值时,就可得到总体参水的一个估计值。 例如:用样本均值直接作为总体均值的估计; 点估计常用的方法有两种: 矩估计法 极大似然估计法,1.2.1.1

4、矩估计法(Methods of Moment Estimate),矩估计法是英国统计学家K.Pearson提出的。 其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律可知,样本矩以概率收敛于总体矩。因此,只要总体X的k阶矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。 在统计学中,矩是指以期望值为基础而定义的数字特征,例如数学期望、方差、协方差等。 矩可以分为原点矩和中心矩两种。,原点矩与中心矩,随机变量的k次幂k的数学期望称为的k阶原点矩,记为vk,即vk=E(k). 随机变量与其期望离差的k次幂(-E)k的数学期望称为的k

5、阶中心矩, 记为k,即k=E(-E)k.,矩估计法(Methods of Moment Estimate),按矩估计法进行点估计,样本平均数是总体均值的点估计量,样本方差是总体方差的点估计量,样本比例是总体比例的点估计量。,点估计,【例4.1】已知某灯泡的寿命服从正态分布XN(,2),其中,2均是未知。今随机抽取4只灯泡,测得寿命(单位小时)为1502,1453,1367,1650,试估计,,矩估计法(Methods of Moment Estimate),特点:简便、直观,而且不必知道总体的分布类型。 局限: 要求K阶原点矩存在,否则无法估计 不唯一 不考虑总体的分布类型,无法充分利用分布函

6、数提供的信息,1.2.1.2极大似然估计法(Maximum Likelihood Estimate,MLE),是由Fisher提出的一种参数估计方法。 其基本思想是:设总体分布的函数形式已知,但有未知参数 , 可以取很多值,在的一切可能取值中选一个使样本观察值出现的概率为最大的值作为估计值,记作 ,并称为的极大似然估计值。 这种求估计量的方法称为极大似然估计法。,极大似然估计法(Maximum Likelihood Estimate,MLE),设总体X的概率密度函数为f(x;),其中为待估参数。对于从总体中取得的样本观测值,其联合密度函数为 f(xi;),这是参数的函数,我们称之为的似然函数

7、L( )= f(xi;) MLE就是要求使得似然函数达到极大的作为该参数的估计量,记为 ,并称 为参数的极大似然估计,极大似然估计法(Maximum Likelihood Estimate,MLE),具体步骤 (1)由总体分布导出样本的联合概率密度(或联合密度) (2)把样本联合密度中自变量看成已知常数,而把总体参数看做自变量,得到似然函数 (3)用微分原理求似然函数的极大值 (4)在极大值的表达式中,将样本值带入就得到总体参数的估计值,点估计(小结),优点:简单、具体明确。 缺点: 由于样本具有随机性,从一个样本得到的估计值往往不会恰好等于实际值,总会有一定的抽样误差。 虽然在重复抽样条件下

8、,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值 点估计本身无法说明抽样误差的大小,也无法说明估计结果有多大把握。,1.3评价估计量的标准,无偏性(unbiasedness),无偏性:样本估计量的均值应等于被 估计总体参数的真值。,有效性(efficiency),有效性:对同一总体参数的两个无偏估计 量,方差更小的估计量更有效,一致性(consistency),一致性:随着样本容量n的增大,一个好的估计量将在概率意义下愈来愈接近于总体的真值。,估计量的优良标准,样本平均数作为总体平均数的估计量、样本比例作为总体比例的估计量,都具有上述优良性

9、质,所以,通常用样本平均数去估计总体平均数,用样本比例去估计总体比例。 总体方差的无偏估计量为S2 样本二阶中心矩不具备无偏型,但它是渐进无偏的。当n时,样本二阶中心矩的均值趋近于总体方差的真值。,1.4区间估计 (interval estimate),1.4区间估计 (interval estimate),区间估计就是根据样本估计量、以一定的可靠程度推断总体参数所在的区间范围。 这种估计不仅以样本估计量为依据,而且考虑了估计量的分布,所以它能给出估计量的精度,也能说明估计结果的把握程度。,1.4区间估计,回顾抽样极限误差: 在一定概率下,,在点估计的基础上,给出总体参数估计的一个区间范围,该

10、区间由样本统计量加减估计误差而得到,1.4区间估计,极限误差,置信区间,一般定义: 设总体参数为, L U为由样本确定的两个统计量,对于给定的(0 1),有 P(L U)=1- 称(L ,U)为参数的置信区间,其估计的可靠程度即置信度为1- 。区间的两个端点分别成为置信下限和置信上限, 为显著性水平。 置信区间是随机区间。,置信水平(1 - 表示区间估计的可靠程度或把握程度,也即所估计的区间包含总体真值的可能性。 置信水平为(1 - 的置信区间表示,以(1 - 的概率包含了位置参数的区间。 为是未包含总体参数的区间比例 常用的置信水平值有 99%, 95%, 90% 相应的 为0.01,0.0

11、5,0.10,置信水平(confidence level),置信区间的意义: 若作多次同样的抽样,将得到多个置信区间,那么其中有的区间包含了总体参数的真值,有的没有包含真值,但平均来说,包含总体参数真值的区间有(1 - 。 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个 总体参数以一定的概率落在这一区间的表述是错误的,置信区间 (confidence interval),置信区间 (95%的置信区间),点估计值,未包含真值!,区间估

12、计的图示,影响区间宽度的因素,1.总体数据的离散程度,用 来测度 样本容量, 3.置信水平 (1 - ),影响 z 的大小,2 一个总体参数的区间估计,2.1 总体均值的区间估计 2.2 总体比例的区间估计 2.3 总体方差的区间估计,一个总体参数的区间估计,总体均值的区间估计(结果的四舍五入法则),当用原始数据构建置信区间时,置信区间的计算结果应保留的小数点位数要比原始数据中使用的小数点多一位 如,原始数据有一位小数,置信区间的结果应保留两位小数 当不知道原始数据,只使用汇总统计量(n,x,s)时,置信区间的计算结果保留的小数点位数应与样本均值使用的小数点位数相同,总体均值的区间估计 (正态

13、总体、已知,或非正态总体、大样本),总体均值的区间估计(大样本),1.假定条件 总体服从正态分布,且方差() 已知 如果不是正态分布,可由正态分布来近似 (n 30) 使用正态分布统计量 z,总体均值 在1- 置信水平下的置信区间为,总体均值的区间估计(例题分析),【例4.2】某企业从长期实践得知,其产品直径X是一随机变量,服从方差为0.052的正态分布。从某日产品中随机抽取6个,测得其直径为14.8,15.3,15.1,15,14.7,15.1,在0.05的置信度下,求该产品直径的均值的置信区间。,总体均值的区间估计(例题分析),【例4.3】某企业生产某种产品的工人有1000人,某日采用重复

14、抽样从中随机抽取100人,调查他们的当日产量为35件,产量的样本标准差为4.5件,试以95.45%的置信度估计平均产量的抽样极限误差和置信区间。,总体均值的区间估计(例题分析),【 例 】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量(单位:g)如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%,总体均值的区间估计(例题分析正态性评估),食品重量的正态概率图,总体均值的区间估计(例题分析),解:已知N(,10

15、2),n=25, 1- = 95%,z/2=1.96。根据样本数据计算得: 。由于是正态总体,且方差已知。总体均值在1-置信水平下的置信区间为,该食品平均重量的置信区间为101.44g109.28g,统计函数CONFIDENCE,总体均值的区间估计(例题分析),【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如下表。试建立投保人年龄90%的置信区间,总体均值的区间估计(例题分析),解:已知n=36, 1- = 90%,z/2=1.645。根据样本数据计算得: , 总体均值在1- 置信水平下的置信区间为,投保人平均年龄的置信区间为37.37岁41.63

16、岁,统计函数CONFIDENCE,总体均值的区间估计 (正态总体、未知、小样本),总体均值的区间估计 (小样本),1.假定条件 总体服从正态分布,但方差() 未知 小样本 (n 30) 使用 t 分布统计量,总体均值 在1-置信水平下的置信区间为,t 分布, t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,t 分布(用Excel生成t分布的临界值表),将分布自由度df的值输入到工作表的A列 将右尾概率的取值输入到第1行 在B2单元格输入公式“=TINV(B$1*$A2)”,然后将其向下、向右复

17、制即可得, 用Excel生成t分布的临界值表,t 分布(用Excel绘制t分布图),第1步:在工作表的第1列A2:A62输入一个等差数列,初始 值为“-3”,步长为“0.1”,终值为“3” 第2步:在单元格C1输入t分布的自由度(如“20”) 第3步:在单元格B2输入公式“=TDIST(-A2,$C$1,1)”,并将其 复制到B3:B32区域,在B33输入公式 “=TDIST(A33,$C$1,1)”并将其复制到B34:B62区域 第4步:在单元格C3输入公“=(B3-B2)*10”,并将其复制到C4 :C31区域,在单元格C32输入公式“=(B32-B33)*10” 并将其复制到C33:C6

18、1区域 第5步:将A2:A62作为横坐标,C2:C62作为纵坐标,根据 “图表向导”绘制折线图, 用Excel绘制t分布图,t 分布(用Excel绘制t分布图),总体均值的区间估计(例题分析),【例4.4】某商场从一批袋装食品中随机抽取10袋,测得每袋重量分别为789,780,794,762,802,813,770,785,810,806,要求以95%的把握程度,估计这批食品的平均每袋重量的区间范围和允许误差。,总体均值的区间估计(例题分析),【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(单位:h)如下。建立该批灯泡平均使用寿命95%的置信区间,总体均值的

19、区间估计(例题分析正态性评估),灯泡寿命的正态概率图,总体均值的区间估计(例题分析),解:已知N(,2),n=16, 1- = 95%,t/2=2.131 根据样本数据计算得: , 总体均值在1-置信水平下的置信区间为,该种灯泡平均使用寿命的置信区间为1476.8h1503.2h,总体均值的区间估计,无论总体方差是否已知,总体均值的置信度为1-的置信区间可表示为: 其中,总体均值的区间估计,在对总体平均数进行区间估计的基础上,可进一步推断相应的总量指标,即使用总体单位总数N分别乘以总体平均数的区间下限和上限,便得到相应的总量区间范围,总体比例的区间估计,总体比例的区间估计,1.假定条件 总体服

20、从二项分布 可以由正态分布来近似N(P,P(1-P)/n) 使用正态分布统计量 z,3. 总体比例P在1-置信水平下的置信区间为,总体比例的区间估计(例题分析),【例4.5】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机抽选了200人组成一个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。,总体比例的区间估计(例题分析),【例】某城市想要估计下岗职工中女性所占的比例,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间,解

21、:已知 n=100,p65% , 1- = 95%,z/2=1.96,该城市下岗职工中女性比例的置信区间为55.65%74.35%,总体方差的区间估计,总体方差的区间估计,1.估计一个总体的方差或标准差 2.假设总体服从正态分布 总体方差 2 的点估计量为s2,且,4. 总体方差在1- 置信水平下的置信区间为,总体方差的区间估计(图示),总体方差的区间估计(例题分析),【例】一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间,总体方差的区间估计(例题分析),解:已

22、知n25,1-95% ,根据样本数据计算得 s2 =93.21 2置信度为95%的置信区间为,该企业生产的食品总体重量标准差的的置信区 间为7.54g13.43g,一个总体参数的区间估计(小结),3.不同抽样技术的抽样估计,3.1 分层抽样的抽样估计 3.2 等距抽样的抽样估计 3.3 整群抽样的抽样估计,4 样本容量的确定,抽样设计中的一个重要内容就是要确定必要的样本单位数。 所谓必要的样本单位数,就是为了使抽样误差不超过给定的允许范围至少应抽取的样本单位数目。 确定必要样本单位数的原则是:在保证抽样推断能达到预期的可靠程度和精确性的要求下,使费用达到最小,即用尽可能少的样本容量而能达到误差在允许范围之内。,样本容量的确定,在总体方差 已知,总体单位总数为N,样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论