第3章-抽样与参数估计ppt课件_第1页
第3章-抽样与参数估计ppt课件_第2页
第3章-抽样与参数估计ppt课件_第3页
第3章-抽样与参数估计ppt课件_第4页
第3章-抽样与参数估计ppt课件_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.第 3 章 抽样与参数估计3.1 抽样与抽样分布3.2 参数估计的根本方法 3.3 总体均值的区间估计3.4 总体比例的区间估计3.5 样本容量确实定学习目的了解概率抽样方法了解抽样分布点估计与区间估计的区别评价估计量优良性的规范总体均值的区间估计方法总体比例的区间估计方法样本容量确实定方法参数估计在统计方法中的位置参数估计假设检验统计方法描画统计推断统计3.1 抽样与抽样分布什么是抽样推断抽样方法抽样分布抽样推断中常用的统计量及其分布3.1.1 抽样推断概念要点是根据观测到的样本数据对总体作出推测,这种推测伴随某种不确定性,需求用概率来表示其可靠程度,这是统计推断的一个重要特点。统计推断的

2、过程样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差等3.1.2 抽样方法抽样方法(一)概率抽样(probability sampling)也称随机抽样特点按一定的概率以随机原那么抽取样本抽取样本时使每个单位都有一定的时机被抽中每个单位被抽中的概率是知的,或是可以计算出来的 当用样本对总体目的量进展估计时,要思索到每个样本单位被抽中的概率一次失败的抽样调查简单随机抽样(simple random sampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入选样本的概率是相等的最根本的抽样方法,是其它抽样方法的根底特点简单、直观,在抽样框完好时,可直接从中抽取样本用样

3、本统计量对目的量进展估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查添加了困难抽取样本的方法1、反复抽样:也叫放回抽样,抽样过程中总体单位的总数不变,每个抽中单位有再次被抽中的能够2、不反复抽样:也叫无放回抽样,每个单位只需一次被抽中的时机,总体单位数不断减少。分层抽样(stratified sampling)将抽样单位按某种特征或某种规那么划分为不同的层,然后从不同的层中独立、随机地抽取样本层1层2层N总体分层抽样(stratified sampling)分层抽样的值依赖于层内各元素是同质性类似的。使层内差别小,层间差别大优点保证样本的构造与总体的构造比较相近,从而提

4、高估计的精度组织实施调查方便既可以对总体参数进展估计,也可以对各层的目的量进展估计整群抽样(cluster sampling)将总体中假设干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的一切单位全部实施调查群1群2群N总体整群抽样(cluster sampling)整群抽样的值依赖于每一群对总体的代表性,当群中元素不同质不类似时,整群抽样得到的结果最正确。特点抽样时只抽取一个群,可简化任务量调查的地点相对集中,节省调查费用,方便调查的实施缺陷是估计的精度较差系统抽样(systematic sampling)将总体中的一切单位(抽样单位)按一定顺序陈列,在规定的范围内随机地抽取一个单位

5、作为初始单位,然后按事先规定好的规那么确定其它样本单位。优点:操作简便,可提高估计的精度缺陷:对估计量方差的估计比较困难多阶段抽样(multi-stage sampling)先将总体单位划分成假设干大群,大群内再分成假设干小群。先按某种方法抽取大群,然后在中选群中抽取小群,再进一步抽样,从选中的群中抽取出假设干个单位进展调查具有整群抽样的优点,保证样本相对集中,节约调查费用适用于大规模的抽样调查,如:我国的农作物产量调查、职工家计调查等 多阶段抽样例:全国农作物产量抽样调查,首先由省一切县市级中抽取部分县市作为第一阶段样本,再从被抽中的县市中抽取乡镇作为第二阶段样本,从被抽中乡镇中抽取村作为第

6、三阶段样本,最后从中选村中抽取农户,并从农户的播种面积中抽取部分地块,进展实割实测,计算平均亩产量,然后逐级往上综合计算平均亩产量,并推算全国总产量。非概率抽样(non-probability sampling)相对于概率抽样而言抽取样本时不是根据随机原那么,而是根据研讨目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。有方便抽样、判别抽样、自愿样本、滚雪球抽样、配额抽样等方式 。方便抽样调查过程中由调查员根据方便的原那么,自行确定入选样本的单位。调查员在街头、公园、商店等公共场所进展拦截调查厂家在出卖产品柜台前对路过顾客进展的调查优点:容易实施,调查的本钱低缺陷:样本单位确实定

7、带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体判别抽样研讨人员根据阅历、判别和对研讨对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样,代表抽样等方式判别抽样是客观的,样本选择的好坏取决于调研者的判别、阅历、专业程度和发明性抽样本钱比较低,容易操作自愿样本被调查者自愿参与,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查询卷活动,向某类节目拨打热线等,都属于自愿样本滚雪球抽样先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研讨总体的调查对象,调查人员根据所提供的线索,进展以后的调查。这个过程继续下去,就会构成滚雪球效应。适宜于

8、对稀少群体和特定群体研讨优点:容易找到那些属于特定群体的被调查者,调查的本钱也比较低。配额抽样先将总体中的一切单位按一定的标志(变量)分为假设干类,然后在每个类中采用方便抽样或判别抽样的方式选取样本单位。操作简单,可以保证样本的构造和总体的构造类似。概率抽样与非概率抽样的比较概率抽样根据随机原那么抽选样本样本统计量的实际分布存在可根据调查的结果推断总体非概率抽样不是根据随机原那么抽选样本样本统计量的分布是不确定的3.1.3 抽样分布抽样中的几个根底概念总体(Population):调查研讨的事物或景象的全体个体(Item unit):组成总体的每个元素样本(Sample):从总体中所抽取的部分

9、个体样本容量(Sample size):样本中所含个体的数量总体中各元素的察看值所构成的分布 分布通常是未知的可以假定它服从某种分布 总体分布(population distribution)总体一个样本中各察看值的分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布 样本分布(sample distribution)样本样本统计量如均值、比例、方差等的概率分布,是一种实际概率分布结果来自容量一样的一切能够样本根据样本统计量的统计规律进展总体特征的推断。抽样分布 (sampling distribution)抽样分布 (sampling distribution)总体计算样本统计量例如:样

10、本均值、比例、方差样本3.1.4 抽样推断中常用的统计量及其分布1、 样本平均数分布设有一个X变量的总体,即原总体,其平均数为,规范差为。从这个总体中随机取样含量为n的样本,从每一个样本都可以计算出该样本的平均数 ,即 有 ,这许多个样本平均数就构成了一个变量的总体。样本平均数总体变量的平均数是 ,规范差是 .例1:在掷骰子实验中,样本原总体N=6,其一切的样本空间为X=1,2,3,4,5,6,那么该总体有如下均匀的分布和特征数参数: xifipi110.167210.167310.167410.167510.167610.167Total61.000X.当抽样样本容量n=2时,即当掷骰子2次

11、时,其相应的组合如下表: Roll 1Roll 21,1 (1.0)1,2 (1.5)1,3 (2.0)1,4 (2.5)1,5 (3.0)1,6 (3.5)2,1 (1.5)2,2 (2.0)2,3 (2.5)2,4 (3.0)2,5 (3.5)2,6 (4.0)3,1 (2.0)3,2 (2.5)3,3 (3.0)3,4 (3.5)3,5 (4.0)3,6 (4.5)4,1 (2.5)4,2 (3.0)4,3 (3.5)4,4 (4.0)4,5 (4.5)4,6 (5.0)5,1 (3.0)5,2 (3.5)5,3 (4.0)5,4 (4.5)5,5 (5.0)5,6 (5.5)6,1 (

12、3.5)6,2 (4.0)6,3 (4.5)6,4 (5.0)6,5 (5.5)6,6 (6.0).fipi1.010.0281.520.0562.030.0832.540.1113.050.1393.560.1674.050.1394.540.1115.030.0835.520.0566.010.028Total361.000当n=2时平均数 的抽样分布Pi.例2:假定一个有限总体指3个一平方米抽样单位中的蛴螬数,察看值为2,4,和6头。倘假设从这一总体内抽出一切能够的样本,而每个样本只需一个察看值,那么能够出现的数目为2,4,6,样本平均数亦为2,4,6。.例2:假设每个样本有2个察看值,

13、即n=2,这时抽出的一切能够样本数目就有32 = 9个,这9个样本得到的平均数如下表:第一个观察值 第二个观察值样本观察值222 2242 4362 64424 2344 4464 65626 2446 4566 66总和360123423456.例2:4种不同容量的样本平均数( )的抽样分布表n=1n=2n=4n=8ffff21212.012.0012.2582.542.50362.75112323.0103.002663.255043.5163.507843.75101641434.0194.0011074.2510164.5164.507844.75504525.0105.002665.

14、251125.545.50365.75861616.016.0013981656144448/34/32/31/3.不同容量时的 分布及参数0123423456.样本平均数分布的根本性质从同一总体抽出的具有一样容量的一切能够平均数分布,其平均数等于该总体平均数 即样本平均数分布的方差等于总体方差除以样本容量n,即 因此样本平均数的规范差是原总体样本的规范误。.样本平均数分布的根本性质从一个正态总体中抽样,无论样本容量大小,其样本平均数分布都遵照正态分布。从不是正态分布的同一总体抽出的、具有一样容量的一切能够样本,随样本容量n的添加,其平均数分布逐渐趋向于正态分布,当样本容量n30时逼近正态分布

15、。 .样本平均数分布的根本性质 由于平均数分布在样本容量n30时逼近正态分布,因此在计算样本平均数出现的概率时,样本平均数可按下式进展正态规范化:. 正态分布再生定理: 当总体为正态概率分布时,对任何容量样本,样本均值x的抽样分布服从均值x =,规范差x =/n 的正态分布1. 从正态总体抽样Sampling from Normal Populations抽样分布定理Sampling Distribution Theorem.m = 50s = 10 x从正态总体抽样Sampling from Normal PopulationsmX = 50 xn =16X = 2.5n = 4X = 5总

16、体分布抽样分布.数据的特征和度量数据的特征和度量集中趋势算术平均数调和平均数几何平均数中位数众数百分位数四分位数离散趋势极差四分位距平均差方差与规范差规范分数离散系数分布外形偏态测度峰态测度.抽样方法.又称“大样本定理,当样本容量n足够大(n30),无论总体是什么分布,样本均值x的抽样分布将趋于均值为、规范差为/n的正态分布中心极限定理Central Limit Theorem在实际中,总体的分布往往未知,因此该定理的运用非常广泛从非正态总体抽样Sampling from Non-Normal Populations.x假设样本容量足够大(n 30)抽样分布趋于正态分布中心极限定理Centra

17、l Limit Theorem.中心极限定理对三个总体的图示x 的抽样分布 (n = 2)xP(x)总体I总体IIxP(x)xP(x)总体IIIxP(x)xP(x)xP(x).中心极限定理对三个总体的图示x 的抽样分布(n = 30)x 的抽样分布(n = 5)xP(x)xP(x)xP(x)xP(x)xP(x)xP(x).规范差和规范误的区别:规范差standard deviation:样本内变员数 偏离样本平均数 的程度的目的。规范误standard error即样本平均数的规范差:样本平均数 偏离总体平均数 的程度的目的。.例题据调查,5060岁的成年男性血液中平均胆固朜浓度为200mg/

18、dl,规范差为20mg/dl。假设血液胆固朜浓度丈量符合正态分布。求:1) 随机从该年龄段挑选一人,其血液胆固朜浓度低于250mg/dl的概率?(F(2.5)=0.9938)解:将以上数据转化为规范正态即在5060岁的成年男性中,99.38的人血液胆固朜浓度低于250mg/dl。.2) 随机从该年龄段挑选一人,其血液胆固朜浓度高于225mg/dl的概率?(F(1.25)=0.8944)解:将以上数据转化为规范正态即在5060岁的成年男性中,10.56%的人血液胆固朜浓度高于225mg/dl。.3) 从该年龄段以100人为取样单位,求其血液胆固朜平均浓度低于204mg/dl的概率?(F(2.0)

19、=0.9772)解:由于所求的是样本平均数的抽样分布,其.4) 假设25个老人在严厉控制饮食后,其血液胆固朜平均浓度为188mg/dl,分析饮食控制能否显著降低血液胆固朜浓度,并解释之。解:即在不控制饮食的情况下,25个人血液胆固朜平均浓度低于188mg/dl的概率仅为0.13%,阐明饮食控制能显著降低血液胆固朜浓度。.2、样本比例的抽样分布引例:知某高校女生总数为8000比例为40%,现对全体学生做两次随机抽样, n=10和n=1000 ,求这两次抽样中女生的比例在50%以上的概率。5-58.5-59样本比例的均值和方差.5-60.二样本比例的分布规律5-61.例:知某高校女生女生总数为80

20、00比例为40%,现对全体学生做两次不放回抽样, n=10和n=1000 ,求这两次抽样中女生的比例在50%以上的概率。.抽样推断中常用的统计量及其分布1Z统计量及其分布规范正态分布设随机变量 X N(,2) ,n个随机变量X1,X2,Xn为X的一个简单随机样本,那么样本均值 N(,2/n),将其规范化,得到Z统计量及其分布:规范正态分布xms普通正态分布 =1Z规范正态分布 2t 统计量及其分布t 统计量的分布 设随机变量X N(,2 ),n个随机变量X1,X2,Xn为X的一个简单随机样本, 称为统计量,它服从自在度为(n-1)的t 分布Xt 分布与规范正态分布的比较t 分布规范正态分布t不

21、同自在度的t分布规范正态分布t (df = 13)t (df = 5)Zt 分布的性质1、 t 分布的均值为02、 t 分布是一个均值对称的分布3、 t 分布方差大于1,与规范正态分布比, t 分布中心略低,两尾部较高,自在度越小,差别越明显。4、随着样本容量自在度n-1不断增大, t 分布越来越趋近于规范正态分布,并以规范正态分布为极限。 3 2统计量及其分布2分布(2 distribution)1.设随机变量X1,X2,Xn相互独立, ,那么: 服从规范正态分布 ,那么它们的平方和X2服从自在度为n的2分布。2.令 ,那么 Y 服从自在度为1的2分布,即 3. 当总体 ,从中抽取容量为n的

22、样本,那么分布的外形取决于其自在度n的大小,通常为不对称的正偏分布,但随着自在度的增大逐渐趋于对称 期望为:E(2)=n,方差为:D(2)=2n(n为自在度) 可加性:假设X和Y为两个独立的2分布随机变量,X2(n1),Y2(n2),那么X+Y这一随机变量服从自在度为n1+n2的2分布 2分布(性质和特点)4 F 统计量及其分布F分布(F distribution)设假设X为服从自在度为n的2分布,即X2(n),Y为服从自在度为m的2分布,即Y2(m),且X和Y相互独立,那么F统计量及其分布为: 称F为服从自在度n和m的F分布。假设XF(n,m),那么1/XF(m,n)。F分布曲线是右偏型的,

23、并且随着自在度n,m取值的变小,F分布曲线的偏斜程度增大。 不同自在度的F分布F分布(性质和特点)F1,10)(5,10)(10,10)3.2 参数估计的方法估 计 方 法点 估 计区间估计.3.2.1 点估计 (point estimate)用样本估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计例如:用两个样本均值之差直接作为总体均值之差的估计2.方法:矩估计法、极大似然估计法等。.矩估计法借助样本矩去估计总体的参数用样本的一阶原点矩来估计总体的均值用样本的二阶中心矩来估计总体的方差 .例 矩法估计例题 设总体 , 为总体的样本,求, 的矩法估计量。 解:.例灯

24、泡平均寿命分析设从某灯泡厂某天消费的灯泡中随机抽取10只灯泡,测得其寿命为(单位:小时)1050,1100,1080,1120,1200,1250,1040,1130,1300,1200。试用矩法估计该厂这天消费的灯泡的平均寿命及寿命分布的方差。 解:.极大似然估计法求极大似然估计的普通步骤写出似然函数 对似然函数取对数,并整理 求导数 解似然方程 .例 极大似然估计例题设总体X服从N(, ),是X 的样本值,求, 的极大似然估计解:似然方程为: ,S2的极大似然估计量分别为 ,.评价点估计量的规范无偏性(unbiasedness)无偏性:估计量抽样分布的数学期望等于被 估计的总体参数 P(

25、)BA无偏有偏的抽样分布有效性(efficiency)有效性:对同一总体参数的两个无偏点估计 量,有更小规范差的估计量更有效 AB 的抽样分布 的抽样分布P( )一致性(consistency)一致性:随着样本容量的增大,估计量的 值越来越接近被估计的总体参数AB较小的样本容量较大的样本容量P( )3.2.2 区间估计 interval estimate 1.概念:根据样本估计量以一定可靠程度推断总体参数所在的区间范围例如:总体均值有95%的可靠程度置信度落在7585之间。区间估计的图示x95% 的样本 -1.96 x +1.96x99% 的样本 - 2.58x +2.58x90%的样本 -1

26、.65 x +1.65x置信区间 (confidence interval)对于给定的01),假设参数落到1和2的概率:满足称(1,2)为参数的置信程度为1-的置信区间。其中,(1 - 为置信程度。为显著性程度,是总体参数未在区间内的比例样本统计量 (点估计)置信区间置信下限1置信上限2置信程度1-区间估计的公式 点估计值抽样极限误差抽样极限误差(允许误差或边沿误差) =概率度抽样平均误差 区间估计的根本要求区间估计的两个根本要求:置信度:希望区间1,2包含的概率越大越好即估计的可靠性准确度:希望区间1,2的平均长度越短越好即估计的准确性总体均值的区间估计*总体方差 知时,总体均值的估计 , 为来自总体的样本 样本均值 服从数学期望为、方差为 /n的正态分布,即 当 知时,可得到1-置信度下,的置信区间为 置信区间的宽度为:.例 零件直径问题知某零件的直径服从正态分布,从该批产品中随机抽取10件,测得平均直径为202.5mm,知总体规范差=2.5mm,试建立该种零件平均直径的置信区间,给定置信度为0.95。 解:知 , =202.5mm,n=10, =0.95,查规范正态分布表,得 =1.96,所以在 置信度下, 的置信区间为即202.5-1.962.5/ ,202.5+1.962.5/ ,计算结果为:200

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论