lec12 中心极限定理主要的样本分布

上传人：3*** IP属地：湖北上传时间：2021-12-13 格式：PPTX 页数：45 大小：327.38KB 积分：30 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、中心极限定理主要的样本统计量分布参数估计第十二讲大纲中心极限定理内容及应用主要的样本统计量分布样本均值样本方差样本比例参数估计点估计的评价准则及方法中心极限定理在随机变量的一切可能的分布律中，正态分布占有特殊重要的地位实践中经常遇到的大量的随机变量都是服从正态分布的为什么正态分布会如此广泛地存在，从而在概率论中占有如此重要的地位？应该如何解释大量随机现象中的这一客观规律？概率论中有关论证随机变量之和的极限分布为正态分布的定理称为中心极限定理内容林德伯格-列维中心极限定理大量独立同分布的随机变量之和，进行标准化(减去均值，除以方差)后近似服从正态分布棣莫弗-拉普拉

2、斯中心极限定理二项分布以正态分布为极限分布若被研究的随机变量可以表示为大量独立随机变量之和，且每个随机变量对总和只起微小的作用，则可以认为此随机变量服从正态分布例：观察误差进行某种观测时，不可避免地有许多客观的和人为的随机因素影响着我们的观测结果这些因素中的每一个都可能使观测的结果产生很小的误差，然而由于所有这些误差共同影响着观测结果，于是我们得到的是一个“总的”误差实际观测得到的误差可以看作是一个随机变量，它是很多数值微小的独立随机变量的总和，根据中心极限定理，这个随机变量应该服从正态分布正态分布变量的产生受众多相互独立的随机因素影响每一因素的影响都是微小的且这些正、负影响可

3、以叠加例如各种测量的误差；人体的生理特征工厂产品的尺寸；农作物的收获量海洋波浪的高度；学生的考试成绩中心极限定理在样本均值中的应用在抽样分布中，由于样本均值是一个由n个来自同一个总体的独立的随机变量的和，因此，运用中心极限定理，我们可以得到样本均值的分布信息当我们从均值为m，方差为s2的总体中随机抽样时，如果n充分大，那么样本均值近似服从参数为m和s2/n的正态分布。即对于充分大的n，若样本容量n足够大，无论总体的分布形态如何，总有)/,(2nNXsmn30可认为是大样本中心极限定理的发现历史 1733年， De Moivre 发现当n增大时，正态分布可以作为二项分布的极限，后来

4、Laplace改进了他的证明并把二项分布推广为更一般的分布 1900年，Liapunov 给出了中心极限定理一个更一般的形式 1922年，Lindeberg给出了中心极限定理的独立随机变量序列情形下最终形式 1933年，Feller 给出了该定理必要条件的证明中心极限定理的三个要点当样本足够大时，的样本分布为正态分布；注意：当总体是正态分布时，无论样本大小，的样本分布均为正态分布的期望为m，即；的方差为s 2/n，即；或标准差为，即 Excel模拟XXX()E XmXnXD2)(snsnXSes)(例已知一批发动机的平均功率为220马力，标准差为15马力。一位购买商随机抽取

5、100台。试问样本均值低于217马力的概率为多少？ 100台意味着大样本，所以， = normdist (217, 220, 1.5, true) = 2.28% 样本均值低于217马力的概率为2.28%)100/15,220(2NX)217(XP例设有一批种子，其中良种占1/6。试估计在任选的6000粒种子中，良种比例与 1/6 比较上下不超过1%的概率。设 X 表示6000粒种子中的良种数，则X B( 6000 , 1/6 )，由德莫佛拉普拉斯中心极限定理，有65000,1000 NX近似10.011000600.962460006XPP X中心极限定理9624. 001. 0616

6、000XP二项分布(精确结果)Poisson分布9379. 001. 0616000XPChebyshev 不等式7685. 001. 0616000XP比较几个近似计算的结果10.010.959060006XP主要的样本分布正态总体的样本均值服从正态分布大样本下的样本均值近似服从正态分布正态总体方差未知时，小样本均值的抽样分布正态总体样本方差的抽样分布样本比例的抽样分布t分布 1908年，英格兰科学家W. S. Gossett 首次发现，又称Student 分布平均数的规律误差当正态总体方差s 2未知时，又是小样本情形标准化的样本均值服从t分布 n1为参数，是t分布的自由

7、度(df)X) 1(/ntnsXTmt分布的密度函数 f n(t)是偶函数 12212( )12nntf ttnnn 221,( )( )2tnnftte -3-2-11230.10.20.30.4n = 1n=20t 分布的图形红色的是标准正态分布t 分布比正态分布更平缓，且尾部更高t 分布的特点均值为0，方差大于1 当n趋于无穷时，方差趋于1，t 分布趋于正态分布方差较大的原因：总体方差未知所带来的不确定性的增大当s 2已知时，在大样本的情况下，我们认为T统计量近似服从标准正态分布) 1 , 0(/NnXZsmt分布总结当样本容量不大于30，而且总体标准差未知时，总体为正态总体，

8、可以使用t分布 t分布为对称分布对于不同的样本容量都有一个不同的t分布，随着样本容量增加，t分布的形状由平坦逐渐变得接近正态分布当样本容量大于30时，t分布就非常接近于正态分布用Excel求t分布的分布值 t分布函数tdist 计算在一定的自由度和变量值t分布的概率语法结构为：tdist (x, df, tails) 其中：x为需要计算分布的数值；df为自由度；tails 指明分布函数是单侧分布还是双侧分布。 tails =1，单侧分布值 tails =2，双侧分布值t分布的单侧与双侧分布值tdist (x, df, 1) = P ( Tx ) = 1 P ( Tx )注意：Excel

9、只能给出x 大于0的结果。如果x 小于0，可利用t 分布的对称性进行换算tdist (x, df, 2) = P ( T x 或T 15% ，那么此时有则 P(T-3.227)= tdist ( 3.22749, 14, 1) = 0.003039454 所以股评家的预测不可信 (1)/XTt nsnm0.10.153.227/0.06/ 15XTsnm 用Excel求t分布的反函数 t分布反函数tinv 计算在一定的自由度和概率水平下得出t分布的随机变量取值语法结构为：tinv (probability, df ) 其中：probability为t分布双侧双侧概率值练习：求df=15时

10、，t分布1%，5%，90%，95%的分位点，并与z分布的结果对比一下。再重复一下df=40的结果。正态总体样本方差的抽样分布先介绍一下c2分布(卡方分布) 设X1, X2, Xn相互独立，且都服从标准正态分布N (0,1)，则其密度函数为221( )niiXnc222121,02( )( )0,0 xnnne xxf xxc2分布图形c2分布的特点c2分布的密度函数只有一个参数，即自由度df 不对称分布，一般表现为正偏分布；c2分布的期望为它的自由度，方差为2倍自由度；c2分布曲线的形状取决于自由度，随着自由度的增大，分布的方差增大，曲线的最高点逐渐下降并向右移动，并趋向对称正态总体样本方

11、差的抽样分布样本方差统计量在上面的统计量中，总体方差是已知的但在实际中，总体方差是未知的，样本方差已知122)(11iiXXnS) 1() 1(2222nSncscStata模拟 clear capture prog drop simu prog simu drawnorm x , n(10) means(4) sds(5) clear qui sum x end simulate simu chi2=(9*r(Var)/25), reps(20000) twoway (hist chi2) (function y=(chi2(9,x)-chi2(9,(x-0.01)/0.01,ran

12、g(0 40)0.02.04.06.08.1010203040Densityy从均值为4，标准差为5的正态总体中抽取10个样本单位，重复20000次，得到的卡方统计量分布样本比例的抽样分布已知在n重贝努里试验中，X表示某事件发生的次数，X/n显然就是某事件在n次试验中出现的频率，也即比例又已知X服从二项分布，显然X/n也是服从二项分布的随机变量，所改变的只是分布的参数2(/ )() /(/ )(1) /(1) /E XnE Xnnp npD Xnnppnppn当n很大时即np 5且n(1-p)5时，二项分布近似于正态分布，因而有 X/n N (p, p(1-p)/n) 既然样本比例X/

13、n就是在n次试验中某事件发生的频率（容量为n的样本中某特征出现的频率），则当试验次数足够多时（样本容量足够大时），有(0,1)(1)ppZNppn说明在现实中，如果样本容量n足够大，用正态分布代替二项分布的效果会很好即使n不大，只要p接近0.5，正态分布的代替效果也会很好通常只要np和n(1-p)都大于5，就可以放心使用正态分布来代替二项分布总结：主要的样本统计量分布正态分布总体，方差s 2已知正态分布总体，方差s 2未知如果是大样本，近似有正态总体样本比例) 1 , 0(/NnXZsm (1)/XTt nSnm(0,1)/XZNSnm) 1() 1(2222nSncsc(0,

14、1)(1)ppZNppn参数估计参数估计是在总体分布参数值未知的情况下，利用样本统计量来估计总体的参数在估计过程中，用来推估总体参数的样本统计量称为估计量根据估计方法的不同，参数估计可以分为点估计和区间估计点估计：根据样本资料求出非常接近总体参数的估计值，并以此推知总体参数区间估计：根据样本观测值给出估计值的范围，并用概率术语说明估计值与未知总体参数的接近程度点估计量的评价准则无偏性有效性最小均方误差一致性无偏性设总体参数为q，其估计量为若点估计量的抽样分布的期望值等于总体参数q，即：，则称估计量为参数q 的无偏估计量一个好的估计量就某一个具体估计值而言，可能不等

15、于总体参数值，但大量的看(多次重复抽样)，其平均值应该等于总体参数值qqqq)(Eq22(), ()E XE Sms有效性设和是总体参数q的两个无偏估计量，如果，则称比有效1q2q1q2q12()()DDqqm中位数的抽样分布均值的抽样分布 ABX)(XP最小均方误差记均方误差为MSE，有用最小MSE来判断估计量是否优良，同时考虑了估计量的变异程度和与被估参数间的偏误，具有最小的均方误差的估计量显然是最优的估计量2)()(qqq EMSEm ABX)(XPC一致性当样本容量趋于无穷大时，若估计量依概率收敛于待估参数q ，即对任意e 0，有则称为q的一致估计量qlim1n

16、Pqqeqm样本容量较小样本容量较大 AB)(XPX点估计方法极大似然估计法矩估计法最小二乘估计法极大似然估计法例：有两个射手，一人的命中率为0.9，另一人的命中率为0.1，现在他们中的一个向目标射击了一发，结果命中了，估计是谁射击的？极大似然思想一般说，事件A发生的概率与参数q有关，q取值不同，则P(A)也不同记事件A发生的概率为P(A|q ) 若A发生了，则认为此时的q值应是在所有可能的取值中使P(A|q) 达到最大的那一个矩估计法用样本矩作为同阶总体矩的估计，即英国统计学家皮尔逊Pearson于1894年提出的，也是最古老的一种估计法之一用样本矩替代总体矩，进而找出未知参数的估计11().nkkiiE XXn=最小二乘估计法寻找这样的参数值，在这个参数值下，使得样本值与该参数值所确定的理论值距离最小，或者说误差最小。例如：设

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

lec12 中心极限定理主要的样本分布

文档简介

温馨提示

最新文档

评论

lec12 中心极限定理 主要的样本分布

文档简介

温馨提示

最新文档

评论

相关文档

lec12 中心极限定理主要的样本分布