版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《统计学》第七章抽样估计第一页,共80页。参数估计在统计方法中的地位统计方法描述统计推断统计抽样估计参数估计其它方法……假设检验2第二页,共80页。统计推断的过程样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差3第三页,共80页。7.1抽样估计的基本问题7.2点估计7.3简单随机抽样的区间估计7.4其它抽样组织方式的抽样误差4第四页,共80页。7.1抽样估计的基本问题7.1.1抽样估计的意义抽样估计是按随机原则从总体中抽取一部分单位进行调查,并以调查结果对总体的数量特征作出具有一定可靠程度的估计与推断。必须具有的工作—抽样、推断和计算可靠度。5第五页,共80页。应用抽样调查和推断的原因,不可能进行全面调查。
不必要进行全面调查。
数据及时性要求。
验证全面调查结果。6第六页,共80页。7.1.2抽样设计1.抽样框目标总体-统计总体。抽样框—包含全部抽样单位的名单。编制抽样框——确定抽样范围。抽样单位(一个或多个总体单位)(1)名单抽样框(2)区域抽样框(3)时间表抽样框7第七页,共80页。一个理想的抽样框应该与目标总体一致,即应包括全部总体单位,既不重复也不遗漏。也就是说,每个总体单位在抽样框里必须出现一次而且只能出现一次,以保证抽样框能完全代表目标总体。8第八页,共80页。2.抽样方法
重复抽样,也叫回置抽样,是指从总体的N个单位中抽取一个容量为n的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。同一总体单位有可能被重复抽中,每次都是从N个总体单位中抽取每个总体单位被抽中可能性均为1/N。如果考虑排列问题,所有可能的样本数为Nn。如果不考虑排列可能的样本数为。
9第九页,共80页。不重复抽样,也叫不回置抽样,是指抽中单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。同一总体单位不可能被重复抽中.
每次抽取是在不同数目的总体单位中进行的,每个总体单位被抽中的概率为1/N。
如果仅仅考虑组合,所有可能的样本数为,如果考虑排列为。10第十页,共80页。3.抽样组织方式
简单随机抽样是最基本的抽样组织方式,数理统计均以简单随机抽样入手,有很成熟的理论。
统计实务中根据总体的特点有各种不同的抽样组织方法。分层抽样、等距抽样、整群抽样、多阶段抽样等。11第十一页,共80页。7.1.3抽样估计误差
误差:登记性误差和代表性误差
12第十二页,共80页。7.2点估计
7.2.1矩估计
7.2.2极大似然估计7.2.3估计量的评价标准13第十三页,共80页。假设在总体中,为未知参数(均值、方差、成数等)。由样本构造统计量,来估计未知参数。称为的点估计量。将某次抽样的样本观测值,代入
得点估计值。点估计14第十四页,共80页。思想:一种古老的估计法。基本思想是用样本的指标替代总体的指标,然后通过方程解出未知参数。设总体的密度函数为f(x;1,…,k)。
7.2.1矩估计法15第十五页,共80页。
1.前提1:总体的各阶原点矩是总体未知参数的函数。
16第十六页,共80页。
2.前提2:辛钦大数定律。总体的原点矩存在时,当样本容量趋于无穷时,样本的原点矩收敛到总体的原点矩。
17第十七页,共80页。3.解法求解方程组得解,称为总体参数的矩估计。18第十八页,共80页。
总体的分布为均匀分布,求的矩估计。19第十九页,共80页。例设是来自某总体的样本,且均值和方差存在。求总体的均值和方差的矩估计。解方程组,得20第二十页,共80页。7.2.2极大似然估计
甲厂收到供应商提供的一批货物,根据以往的经验,该供应商的产品次品率为10%,而供应商声称次品率仅有5%。若随机抽出10件检验,结果有4件次品。购货方应该如何做决策。记次品数为,则服从二项分布。若则10件中有4件次品的概率为
若则10件中有4件次品的概率为
21第二十一页,共80页。计算的结果表明,在次品为0.1时,10件产品中有4件次品的概率大,这说明该批产品次品率为0.1的可能性大。由于样本来源于总体,样本能很好反映总体的特征。思想:概率最大的事件最可能发生。假设总体的分布函数已知,但是参数未知。从总体中抽出样本,并计算各可能参数值条件下样本发生的可能性,使样本发生的可能性最大的是参数的极大似然估计量22第二十二页,共80页。数学理论:设总体的分布密度函数为其中为待估参数。为总体的简单随机样本。则其联合密度函数为
对给定的一个样本观测值,称
为样本的似然函数。23第二十三页,共80页。
使似然函数达到极大值的,是总体参数的极大似然估计。利用微积分的结论,函数在一阶导数零处达到极值。所以,总体参数的极大似然估计是下列方程组的根。24第二十四页,共80页。
由于函数和函数的对数是在同一点达到极值,所以为了运算上的方便,我们常常对似然函数去对数,得到对数似然函数,使乘积变成求和,更方便运算。所以25第二十五页,共80页。0-1分布的数学期望为p,在总体中抽随机样本,样本发生的概率为:使上式最大的P满足26第二十六页,共80页。
例设是来自正态总体的样本,均值和方差存在。求总体的均值和方差的极大似然估计。
解方程组,得27第二十七页,共80页。28第二十八页,共80页。
无偏性有效性一致性7.2.3点估计量的评价准则29第二十九页,共80页。设为未知参数θ的估计量,若则称为θ的无偏估计量。1.无偏性若则称为θ的渐近无偏估计量。30第三十页,共80页。总体X(345),抽容量为2的样本。即(33)3(34)3.5(35)4(43)3.5(44)4(45)4.5(53)4(54)4.5(55)5
31第三十一页,共80页。
可见样本平均数就是总体平均数的无偏估计量。以无偏性来评判估计量是很合理的。一个好的估计量就某一个具体的估计值而言,可能不等于总体参数值,但平均地看有向估计的参数集中的趋势。32第三十二页,共80页。
证明样本均值是总体均值μ
的一个无偏估计量,但样本方差不是总体方差的无偏估计量。解:由于从而又因为所以即33第三十三页,共80页。设为θ
的两个无偏估计量,若则称比
有效。二、有效性设为θ
的估计量,称为的均方误差,并且记,则34第三十四页,共80页。
设是总体X的样本
均是平均数的无偏估计量,但比有效。
35第三十五页,共80页。思考题:设是总体X的一个容量为3的样本,
是总体均值的估计量,它们是无偏估计量吗?若是,哪一个更有效。36第三十六页,共80页。
设为未知参数θ的估计量,当时,按概率收敛于θ。即三、一致性,则称为θ的一致估计量37第三十七页,共80页。随着样本容量增大,估计量会越来越接近被估计的参数。即对任意的>0,有
则称是参数θ的一致估计量。一致估计量是大样本所呈现的性质。若某个估计量是待估参数θ的一致估计量,意味着样本容量很大时,估计量和待估参数接近的可能性几乎等于100%。38第三十八页,共80页。7.3区间估计
区间估计的思想基本概念单个总体均值的置信区间总体成数的置信区间总体方差的置信区间39第三十九页,共80页。
某保险公司欲了解某个险种投保人的平均年龄,随机抽取24人,计算出24人的平均年龄为39岁,总体标准差7.2岁。试以95%的置信度估计该险种投保人的平均年龄。设投保人的年龄,且已知,是X的一个样本。
当讨论总体均值的置信区间时,首先应该从总体均值的点估计量出发。
40第四十页,共80页。
由前面的讨论已知,有
由此,根据给定的置信度1-,可以确定,使在区间上取值的概率等于1-即
经过整理,可得41第四十一页,共80页。
由样本得样本均值,标准差=7.2对于给定的置信度95%,有=0.05查标准正态分布表确定临界值。所以有
投保人的年龄以95%的可靠程度在36.13到41.87岁。
42第四十二页,共80页。95%——可靠程度,如果大,说明什么?(36.134,41.866)——置信区间,如果区间很短,说明什么?这是评价区间估计的两个标准可靠度(置信度)置信区间(置信区间的半径,精确度)43第四十三页,共80页。7.3.1区间估计的概念设是来自总体的一个样本,θ是总体未知参数。对给定的,如能确定两个统计量和,满足则称为置信度或置信概率,是θ的置信度的置信区间,称为显著性水平。置信度可以用频率来说明。如果是置信度0.95置信区间,当从总体中多次取样本容量为
n
的样本时,则每次可得到一个置信区间,这些置信区间有的包含θ,而有的则不包含θ,但平均来说,包含θ的置信区间的频率应在0.95附近波动。44第四十四页,共80页。评价区间估计的两个标准:估计的可靠度。置信度1-反映了区间估计的可信度。置信水平=0.95,说明估计区间以95%的概率包含总体的参数θ。或者说,100个这样的估计区间中,平均有95个包含了总体参数θ;估计的精确度。区间的长度反映了区间估计的精确度。当区间的长度愈大,估计区间包含真值θ的可能性也就愈大,但是估计也愈不精确。可靠度和精确度是相互矛盾的。45第四十五页,共80页。估计的可靠度。置信度反映了区间估计的可信度。置信水平=0.95,说明估计区间以95%的概率包含总体的参数θ。或者说,100个这样的估计区间中,平均有95个包含了总体参数θ;46第四十六页,共80页。47第四十七页,共80页。
区间的长度:(上限-下限)
区间的半径:(上限-下限)/2
反映了区间估计的精确度。当区间的长度愈大,虽然估计区间包含真值的可能性愈大,但是估计却不精确。估计的精确度48第四十八页,共80页。
可靠度和精确度是相互矛盾的。当其中之一确定时,扩大样本容量可以改善另一个。49第四十九页,共80页。7.3.2单个正态总体均值的置信区间
1、当总体方差已知时,总体均值的置信区间为:
2、当总体方差未知时,总体均值的置信区间为:50第五十页,共80页。7.3.3成数的置信区间1、单个总体成数的置信区间设从成数为P的总体X中随机抽出容量为n的样本,其中是样本中具有某种统计特性的单位的数量为,则样本的成数为。在给定的置信度下,总体成数的置信区间为在估计总体的成数时,总体的成数是未知的,所以在置信上下限中的P可以用样本成数代替,当样本容量足够大,误差很小。51第五十一页,共80页。
例5.4为了研究我国所生产的丝绸产品在国外的销路,在纽约所举办的丝绸展销会上,对1000名成年人进行了调查,得知600人喜欢这种产品。试以95%的置信度估计纽约市成年人喜欢此种产品的比率获得置信区间。52第五十二页,共80页。
设总体服从正态分布,是抽自该总体的简单随机样本,对于给定的置信度,
查分布表得临界值和,
的置信度为的置信区间为
7.3.4单个总体方差的置信区间
53第五十三页,共80页。
例5.3某手表厂生产的精益牌手表,其走时误差为正态分布,(单位:秒/日)。检验员从装配线上随机抽出9只进行检验,检测的结果如下:-4.0,3.1,2.5,-2.9,0.9,1.1,2.0,-3.0,2.8取置信水平为0.95,求该品牌手表的走时,误差的均值和方差的置信区间。54第五十四页,共80页。【例6】EXCEL数据“汽车传动”
MetropolitanResearch有限公司是一家消费者研究组织,它设计调查,对消费者所使用的大量的产品和服务进行评估。在某一项研究中,Metropolitan调查消费者对底特律某一个主要制造商所生产的汽车的性能的满意程度。分发给该制造商所生产的一种最大型号小汽车用户的调查表表明,许多人抱怨该车刚开始传动系统不佳。为了更好地了解传动系统的问题,Metropolitan采用由底特律地区一个修理企业所提供的实际传动系统的维修记录为样本。55第五十五页,共80页。管理报告(1)用适当的描述统计量汇总传动系统数据。(2)求曾经出现过传动系统问题的汽车总体中在出现传动系统问题时所行驶里程的均值的95%置信区间,并对该区间估计做出管理上的解释。56第五十六页,共80页。平均73342.3标准误差3521.221473中位数72705众数#N/A标准差24898.79582方差619950033.2峰度0.166992025偏度0.25986483区域113048最小值25066最大值138114求和观测数50最大(1)138114最小(1)25066置信度(95.0%)7076.159344我们可以看出可靠性汽车传动装置出问题的时间差异是很大的。生产过程的质量不稳定。57第五十七页,共80页。7.3.5样本容量的确定
影响样本容量的因素样本容量的确定区间估计一览表
58第五十八页,共80页。
一、影响样本容量的因素1.总体的变异程度高低。(总体方差的大小)2.允许误差的大小。允许误差指允许的抽样误差,记为。例如样本均值与总体均值之间的允许误差可以表示为。允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为极限误差。59第五十九页,共80页。3.置信度的大小。
1-说明了估计的可靠程度。所以,在其他条件不变的情况下,如果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。4.抽样方法的不同。在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本容量也就不同。重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。提示:
60第六十页,共80页。
样本容量的确定
1、估计总体均值的样本容量设为样本均值与总体均值之间的允许误差,已知总体方差时,在置信度下,估计总体均值时的样本容量重复抽样样本容量:不重复抽样样本容量:61第六十一页,共80页。
注:确定样本容量时,无论是总体还是样本方差均是未知的,所以要用其它的替代。若历史资料有若干个可供选择的,应该选最大的。62第六十二页,共80页。2、估计总体成数时的样本容量估计总体成数时样本容量的确定方法与估计总体均值一致,设为允许误差,在的置信度下,样本容量为重复抽样:
不重复抽样:
63第六十三页,共80页。
注:确定样本容量时,无论是总体还是样本成数均是未知的,所以要用其它的替代。若历史资料有若干个可供选择的,应该选最靠近50%的。
64第六十四页,共80页。
例在区间估计中,若抽样允许误差扩大到原来的2倍,样本容量会如何变化,为原来的多少?若抽样允许误差减少到原来的1/2,样本容量会如何变化,为原来的多少?65第六十五页,共80页。置信区间一览表前提条件目的
置信度的置信区间正态总体方差已知(小样本)估计总体均值正态总体方差未知(小样本)估计总体均值
总体分布未知,正态总体方差未知(大样本)估计总体均值
66第六十六页,共80页。前提条件目的1-置信度的置信区间正态总体估计总体方差一个属性总体大样本估计总体成数67第六十七页,共80页。7.4其他抽样组织方式的抽样误差
在统计实务中,简单随机抽样并非是最好的抽样组织方式。比如一个总体中的单位差异很大时,可能我们的样本代表性会较低,所以必须更具不同的情况来组织抽样方式。68第六十八页,共80页。7.4.1分层抽样(类型抽样)首先将总体单位按某一个标志分层;然后在各层按随机抽样的方法分别抽出各层的样本。
特点:分层抽样在层内是抽样调查,层间是全面调查,所以分层时应该尽量让每层内的变异程度小,而层间的变异程度大。分层抽样的抽样误差较简单随机抽样小,样本具有很好的代表性。69第六十九页,共80页。抽样平均误差的计算公式:
通常情况下,分层抽样的抽样平均误差小于简单随机抽样的平均误差)。70第七十页,共80页。一般方法:比例分配法考虑每层中的总体单位数,按比例在每层中抽出相同比例的样本,即每层的样本容量71第七十一页,共80页。概念:首先将总体单位按某一标志排队,然后计算抽样间隔距离K=N/n,后在第一个抽样距离内确定抽样起点r
最后抽取样本单位(或样本点)构成样本(按固定的间隔和排队顺序)。关键:1)排队(选择排队标志,可与调查标志有关,也可与调查标志无关);
2)确定抽样起点(即第一个样本单位)。至于抽样距离k,样本容量一旦确定,它也随之而定。
7.4.2等距抽样(机械抽样或系统抽样)72第七十二页,共80页。(一)无关标志排队等距抽样排队标志X:X1到XN由小到大排列,调查标志Y:Y1到YN呈现为无序(随机)排列。故抽样起点可随机确定,完全遵循了随机原则,不会产生系统偏差。抽样误差的计算:通常是按简单随机抽样的抽样误差公式近似计算的。即抽样效果近似简单随机抽样。注意:抽样间隔≠现象的周期长度×整数。否则所抽取的样本有系统偏差。这种周期有时是比较隐蔽的。如工人交接班时间、地块中农作物垅长、社区住户调查中门牌号码(楼层)。73第七十三页,共80页。(二)有关标志排队等距抽样
将总体单位按某一有关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
 - 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
 - 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
 - 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
 - 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
 - 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
 - 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
 
最新文档
- 2025年数学湖南中考试题及答案
 - 2025年毕节医院面试真题及答案
 - 2025年西藏烟草考试题库及答案
 - 2025年建筑结构机考试题及答案
 - 2025年办公楼空调系统租赁合同协议
 - 2025年办公楼电梯租赁合同协议
 - 2025年办公空间文件柜租赁合同协议
 - 2025年按小时弯管机租赁合同协议
 - 2025年外语趣味知识题库及答案
 - 2025年高职招考福建试卷及答案
 - 2025年节能减排在铁路运输业中的实施策略可行性研究报告
 - 液压设备安全培训课程课件
 - 人力资源法律顾问
 - 2025贵州茅台酒股份有限公司招聘158人笔试参考题库附带答案详解
 - 门诊中心导诊课件模板
 - 第8课《网络新世界》第一课时-统编版《道德与法治》四年级上册教学课件
 - 2025年中国电信国际业务部招聘笔试指南与模拟题
 - 机关纪委监督检查课件
 - 适应性规划-洞察及研究
 - 交通算法面试题目及答案
 - 白蚁防治施工过程中的安全管理
 
            
评论
0/150
提交评论