第04章 抽样理论与参数估计_第1页
第04章 抽样理论与参数估计_第2页
第04章 抽样理论与参数估计_第3页
第04章 抽样理论与参数估计_第4页
第04章 抽样理论与参数估计_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第04章 抽样理论与参数估计Outline第一节 抽样的基本概念第二节 抽样方法第三节 抽样分布第四节 样本容量的计算第五节 参数估计第一节 抽样的基本概念一、总体、个体与样本二、参数与统计量反映总体数据特征的量数统称为总体参数,简称为参数。反映样本数据特征的量数统称为样本统计量,简称为统计量。抽样的基本概念总体(population):要研究的事物或现象的总体个体(unit):组成总体的每个元素(成员)总体容量(population size):一个总体中所含个体的数量样本(sample):从总体中抽取的部分个体样本容量(sample size):样本中所含个体的数量抽样(sampling)

2、:为推断总体的某些重要特征,需要从总体中按一定抽样技术抽取若干个体的过程参数(parameter):反映总体数据特征的量数统计量(statistic):反映样本数据特征的量数统计量是样本的函数,只依赖于样本;样本均值、样本方差等都是统计量总体总体样本样本X参数统计量统计量参数估计参数估计差异检验差异检验总体参数Vs.样本统计量第二节 抽样方法一、简单随机抽样二、等距抽样三、分层抽样一、简单随机抽样所谓简单随机抽样simple random sampling ,就是在对某一特定总体中抽取样本时,总体中每一个元素或个体被抽取的可能性是同等的,而且任何元素或个体之间彼此被抽取的机会是独立的。1.抽签

3、法2.随机数字表二、等距抽样又称系统抽样 systematic sampling。先把总体所包含的各个元素或个体编上号码。假设共有N个元素,则编出的号码从1至N,然后可根据拟抽取的样本容量n求得抽样间距是k,看,k=N/n,这时可随机确定一个起点a( 1a k ),起点确定后,从起点开始每间隔k个单位抽取一个,这样抽取的号码序列也就确定了,即由号码a,a+k,a+2k a+(n-1)k组成容量为n的样本。受总体数据的周期性的影响。三、分层抽样stratified random sampling。按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分成几个不同的部分,每一部分称为一个层,在

4、每一个层中实行简单随机抽样。这种抽样方法较充分地利用了总体的已有信息,是一种实用和操作都较方便的抽样方法。分多少层视具体情况而定。原则:层内差异变小,层与层之间的差异要尽可能大。-层内同质,层外异质。可防止简单随机抽样造成的样本构成与总体构成不成比例的现象。第三节 抽样分布一、样本平均数分布二、2分布三、t分布四、F分布一、样本平均数的分布sampling distribution of the mean采用随机抽样的方法,从总体中抽取大小为n的样本,计算出它的平均数X1,然后将这些个体放回总体去,再次取n个个体,又可以计算出X2, 再将n个个体放回去,再抽取n个个体,可以计算出无限个X,这些

5、样本平均数X所有可能值的概率分布叫平均数X的抽样分布总体方差已知总体方差未知总体方差已知的样本平均数分布- 总体分布正态1 ,0,22212NnXnXZnNXxxxNXn即,则样本平均数随机抽取样本如果总体总体方差未知的样本平均数分布中心极限定理Central Limit Theorem 设从均值为,方差为2(有限)的任意一个总体中抽取大小为的样本,当充分大时,样本均值X的抽样分布近似服从均值为,方差为2/的正态分布。注:什么叫充分大呢? 总体偏离正态越远,则要求就越大。在实际应用中常要求30 或者50 标准误 standard error样本平均数的标准差称为标准误nnSEnNXNXX222

6、,,练习6maxmax221056.6)()(,359.4882.360923.76,923.76131000,882.360),882.3,60()1314,60(131460maxmaxXXXXZZPXXPZXXZNNXn,解:某电梯承受的最大拉力为1000千克,可乘坐13人。已知人群的平均体重为60千克,标准差为14千克,且服从正态分布。问电梯发生事故的概率是多少?总体方差未知的样本平均数分布当总体方差2未知时,用S2作为2的估计值11)(11,122221ntnSXttntXXnStnSXtNXxxxniin分布,即的服从自由度为且其中,统计量为定义,为来自正态总体设样本二、样本方差的

7、分布- 2分布样本方差的分布较复杂,它与总体分布有关。在这里只研究当总体为正态分布时,样本方差的分布。设x1,x2,xn为来自正态分布N(,2)的样本,则从数学上可以推导出正态总体下样本方差S2的分布为:1)()1()1(122222nxxSnSnnii2分布 Chi-square distribution nnnnxxxXxxxNXnn2222222121,) 1 , 0(分布,记为的的平方和服从自由度为准正态分布的随机变量个相互独立的均服从标即:分布为自由度的服从以则的样本,是来自总体,设 2222222222222222121211111,),(SnnXXnnnXXXXXnXXzZxxx

8、XxxxNXnn,则有来估计未知时用当分数,则有转化成将的样本,是来自总体,设2分布的特点正偏态分布 当df时, 2分布为正态分布2值都是正值可加性 k个2分布的和也是2分布2 = df; 2 = 2df (df 2)连续型分布2分布表df = 5,求 = 0.05和 = 0.01时的单侧临界值解: nPn2222临界值变量在不同自由度下的列出了09.15)5(07.11)5(201. 0205. 0三、t分布students t distribution ntttnnYXtYXnYNX1 ,02分布,记做的服从自由度为则随机变量相互独立,与,且,设自由度 degree of freedom可

9、以自由取值的变量的个数 任意说出三个整数 任意说出三个和为100的整数t分布的特点 对称:左侧为负,右侧为正,均值为0- t 30时, t分布为接近正态分布,方差1, n45时, t分布与正态分布没有多大差异 在小样本n30时, t分布具有重要作用t分布的一些推论222112111 , 02221212121212222112122212121ntnSSYXtnntnnnnSnSnYXtNnSnSYXZ四、F分布 F distribution 2121212212,nnFFFnnnYnXFYXnYnX分布,记做的,第二自由度为服从第一自由度为则称随机变量相互独立,与,且设1, 11, 1111

10、111111111,212221222121222221211222222212111222212221212222222221221211212222221212112121nnFSSFnnFSSnSnnSnnnnnFnSnnSnSNYyyySNXxxxnn时,当,方差为来自总体样本,方差为来自总体设样本F分布的特点F(n1,n2)分布形态是正偏态分布,形式随n1,n2不同而不同,随n1,n2的增加而渐趋正态分布F为两个方差比率,所以为正值n1=1,n2任意时,F值与自由度为n2的t值的平方相等,即F(1,n2) = t2(n2)F(n1,n2)=1/F1- (n2,n1)F分布的应用F分布

11、是统计学家费歇尔(R. A. Fisher)于1924年首先发现的 假设检验 区间估计 方差分析 回归分析第四节 样本容量的计算最大允许误差d是确定样本容量的一个因素。2222222212dppzndStndznzndXdznX或同理有,最大允许误差由样本平均数分布方差与样本容量的关系样本容量n,总体方差2,允许误差d,可靠性系数Z/2的关系总体方差越大,需要的样本容量越大;允许误差越大,需要的样本容量越小;可靠性系数越大,需要的样本容量越大;练习1.要使95%置信区间的允许误差为5,应选取多大的样本容量?假定总体的标准差为25。2.一项调查中,总体比率的计划值为0.35,则当允许的最大绝对误

12、差为0.05时,在求其95%置信区间时应采用多大的样本容量?3.一家广告公司想估计某类商店去年所花的平均广告费有多少。检验表明,总体方差约为1800000。如置信度取95,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?第五节 参数估计一、点估计二、区间估计参数估计设总体有待估参数,自总体中抽取样本x1,x2,xn点估计 point estimate用样本的某一统计量估计如用样本均值估计总体均值区间估计 interval estimate求出一定概率下的取值范围点估计统计量作为估计量 estimator充分性 sufficiency用到样本的所有数据无偏性 unbi

13、asedness估计值的平均值与真值一致有效性 efficiency当总体参数的无偏估计量有不止一个统计量时,无偏估计变异性最小者有效性高,变异大者有效性低一致性 consistency当样本容量无限增大时,估计值越来越接近所估计的总体参数有效性哪个是更好的估计量? 算术平均数 vs. 中数无偏估计量 unbiased estimator nnnxExExEnxxxEnxnEXESXxxxNXnnniin).(1)(.)()(1.11,2121122212证:的无偏估计量是总体方差而样本方差的无偏估计量,是总体均值则样本平均数,随机抽取样本如果总体二、区间估计区间估计的原理样本统计量的分布规律

14、几个概念显著性水平 significance level也叫置信系数,指估计总体参数可能落入某区间时犯错误的概率 通常有三个标准: :0.05, 0.01, 0.001 1- :0.95, 0.99, 0.999置信水平、置信度 confidence level 1- 置信区间 confidence interval指在某一置信水平时,总体参数所在的区域距离或区域长度1.1总体平均数的估计-总体正态、方差已知),(1,1,1,1,22222222222nZXnZXnZXnZXPZnXZPZZZPnXZnNXNX的置信区间为置信水平为的已知时,总体均值方差因此,总体正态分布且对给定显著性水平已知

15、77.8332 .7299.38.8226 .7395.1018. 13607. 724. 21007. 799.95.7978361007. 7121212121置信区间置信区间的样本估计总体参数用解:求标准误置信区间。和的求总体参数,两个样本,和随机抽取。从这个总体中布,例:已知总体为正态分nnnXXnnXXnZXnZX22,练习1.2总体均数的估计-总体正态、方差未知nStXnStXntnSXtxxxn2221,1,为置信区间来自正态总体,则设样本83.81,17.62,306. 2)8(, 9,79.12,72856570687450629183922205. 0nStXnStXtnS

16、X解:成绩均值做区间估计。试对全年级该次测验的,个考生的成绩为测试后从中抽取的,学生进行英语水平测试例:某校对高中一年级练习1.3总体均值的估计-总体非正态、方差未知nSZXnSZXtZnStXnStXn222222,30置信区间为,即代替上式中的也可以用近似正态分布,因为此时样本均值服从时,置信区间仍为当2.总体方差的区间估计2121221222212122212221222212121222221,111111111 , 0,nnnnnnnSnSnSnSnPSnPSnXZNXZNX的置信区间为的置信水平为因此,对给定显著性水平而那么已知总体)差的范围(取试确定语文成绩的标准。,份,其成绩为考试中,随机抽取例:某校高中语文毕业05. 08277859088837992917886897268751554.11,36. 511.133,69.281,163.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论