版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中心极限定理主要的样本统计量分布参数估计第十二讲大纲 中心极限定理 内容及应用 主要的样本统计量分布 样本均值 样本方差 样本比例 参数估计 点估计的评价准则及方法中心极限定理 在随机变量的一切可能的分布律中,正态分布占有特殊重要的地位 实践中经常遇到的大量的随机变量都是服从正态分布的 为什么正态分布会如此广泛地存在,从而在概率论中占有如此重要的地位? 应该如何解释大量随机现象中的这一客观规律? 概率论中有关论证随机变量之和的极限分布为正态分布的定理称为中心极限定理内容 林德伯格-列维中心极限定理 大量独立同分布的随机变量之和,进行标准化(减去均值,除以方差)后近似服从正态分布 棣莫弗-拉普拉
2、斯中心极限定理 二项分布以正态分布为极限分布 若被研究的随机变量可以表示为大量独立随机变量之和,且每个随机变量对总和只起微小的作用,则可以认为此随机变量服从正态分布例:观察误差 进行某种观测时,不可避免地有许多客观的和人为的随机因素影响着我们的观测结果 这些因素中的每一个都可能使观测的结果产生很小的误差,然而由于所有这些误差共同影响着观测结果,于是我们得到的是一个“总的”误差 实际观测得到的误差可以看作是一个随机变量,它是很多数值微小的独立随机变量的总和,根据中心极限定理,这个随机变量应该服从正态分布正态分布变量的产生 受众多相互独立的随机因素影响 每一因素的影响都是微小的 且这些正、负影响可
3、以叠加 例如 各种测量的误差;人体的生理特征 工厂产品的尺寸;农作物的收获量 海洋波浪的高度;学生的考试成绩中心极限定理在样本均值中的应用 在抽样分布中,由于样本均值是一个由n个来自同一个总体的独立的随机变量的和,因此,运用中心极限定理,我们可以得到样本均值的分布信息 当我们从均值为m,方差为s2的总体中随机抽样时,如果n充分大,那么样本均值 近似服从参数为m和s2/n的正态分布。即对于充分大的n,若样本容量n足够大,无论总体的分布形态如何,总有)/,(2nNXsmn30可认为是大样本中心极限定理的发现历史 1733年, De Moivre 发现当n增大时,正态分布可以作为二项分布的极限,后来
4、Laplace改进了他的证明并把二项分布推广为更一般的分布 1900年,Liapunov 给出了中心极限定理一个更一般的形式 1922年,Lindeberg给出了中心极限定理的独立随机变量序列情形下最终形式 1933年,Feller 给出了该定理必要条件的证明中心极限定理的三个要点 当样本足够大时, 的样本分布为正态分布; 注意:当总体是正态分布时,无论样本大小, 的样本分布均为正态分布 的期望为m,即 ; 的方差为s 2/n,即 ;或标准差为 ,即 Excel模拟XXX()E XmXnXD2)(snsnXSes)(例 已知一批发动机的平均功率为220马力,标准差为15马力。一位购买商随机抽取
5、100台。试问样本均值低于217马力的概率为多少? 100台意味着大样本,所以 , = normdist (217, 220, 1.5, true) = 2.28% 样本均值低于217马力的概率为2.28%)100/15,220(2NX)217(XP例 设有一批种子,其中良种占1/6。试估计在任选的6000粒种子中,良种比例与 1/6 比较上下不超过1%的概率。 设 X 表示6000粒种子中的良种数,则X B( 6000 , 1/6 ),由德莫佛拉普拉斯中心极限定理,有65000,1000 NX近似10.011000600.962460006XPP X中心极限定理9624. 001. 0616
6、000XP二项分布(精确结果)Poisson分布9379. 001. 0616000XPChebyshev 不等式7685. 001. 0616000XP比较几个近似计算的结果10.010.959060006XP主要的样本分布 正态总体的样本均值服从正态分布 大样本下的样本均值近似服从正态分布 正态总体方差 未知时,小样本均值的抽样分布 正态总体样本方差的抽样分布 样本比例的抽样分布t分布 1908年,英格兰科学家W. S. Gossett 首次发现,又称Student 分布 平均数的规律误差 当正态总体方差s 2未知时,又是小样本情形 标准化的样本均值 服从t分布 n1为参数,是t分布的自由
7、度(df)X) 1(/ntnsXTmt分布的密度函数 f n(t)是偶函数 12212( )12nntf ttnnn 221,( )( )2tnnftte -3-2-11230.10.20.30.4n = 1n=20t 分布的图形红色的是标准正态分布t 分布比正态分布更平缓,且尾部更高t 分布的特点 均值为0,方差大于1 当n趋于无穷时,方差趋于1,t 分布趋于正态分布 方差较大的原因:总体方差未知所带来的不确定性的增大 当s 2已知时, 在大样本的情况下,我们认为T统计量近似服从标准正态分布) 1 , 0(/NnXZsmt分布总结 当样本容量不大于30,而且总体标准差未知时,总体为正态总体,
8、可以使用t分布 t分布为对称分布 对于不同的样本容量都有一个不同的t分布,随着样本容量增加,t分布的形状由平坦逐渐变得接近正态分布 当样本容量大于30时,t分布就非常接近于正态分布用Excel求t分布的分布值 t分布函数tdist 计算在一定的自由度和变量值t分布的概率 语法结构为:tdist (x, df, tails) 其中:x为需要计算分布的数值;df为自由度;tails 指明分布函数是单侧分布还是双侧分布。 tails =1,单侧分布值 tails =2,双侧分布值t分布的单侧与双侧分布值tdist (x, df, 1) = P ( Tx ) = 1 P ( Tx )注意:Excel
9、只能给出x 大于0的结果。如果x 小于0,可利用t 分布的对称性进行换算tdist (x, df, 2) = P ( T x 或T 15% ,那么此时有 则 P(T-3.227)= tdist ( 3.22749, 14, 1) = 0.003039454 所以股评家的预测不可信 (1)/XTt nsnm0.10.153.227/0.06/ 15XTsnm 用Excel求t分布的反函数 t分布反函数tinv 计算在一定的自由度和概率水平下得出t分布的随机变量取值 语法结构为:tinv (probability, df ) 其中:probability为t分布双侧双侧概率值 练习:求df=15时
10、,t分布1%,5%,90%,95%的分位点,并与z分布的结果对比一下。再重复一下df=40的结果。正态总体样本方差的抽样分布 先介绍一下c2分布(卡方分布) 设X1, X2, Xn相互独立,且都服从标准正态分布N (0,1),则 其密度函数为221( )niiXnc222121,02( )( )0,0 xnnne xxf xxc2分布图形c2分布的特点c2分布的密度函数只有一个参数,即自由度df 不对称分布,一般表现为正偏分布;c2分布的期望为它的自由度,方差为2倍自由度;c2分布曲线的形状取决于自由度,随着自由度的增大,分布的方差增大,曲线的最高点逐渐下降并向右移动,并趋向对称正态总体样本方
11、差的抽样分布 样本方差 统计量 在上面的统计量中,总体方差是已知的 但在实际中,总体方差是未知的,样本方差已知122)(11iiXXnS) 1() 1(2222nSncscStata模拟 clear capture prog drop simu prog simu drawnorm x , n(10) means(4) sds(5) clear qui sum x end simulate simu chi2=(9*r(Var)/25), reps(20000) twoway (hist chi2) (function y=(chi2(9,x)-chi2(9,(x-0.01)/0.01,ran
12、g(0 40)0.02.04.06.08.1010203040Densityy从均值为4,标准差为5的正态总体中抽取10个样本单位,重复20000次,得到的卡方统计量分布样本比例的抽样分布 已知在n重贝努里试验中,X表示某事件发生的次数,X/n显然 就是某事件在n次试验中出现的频率,也即比例 又已知X服从二项分布,显然X/n也是服从二项分布的随机变量,所改变的只是分布的参数2(/ )() /(/ )(1) /(1) /E XnE Xnnp npD Xnnppnppn当n很大时 即np 5且n(1-p)5时,二项分布近似于正态分布,因而有 X/n N (p, p(1-p)/n) 既然样本比例X/
13、n就是在n次试验中某事件发生的频率(容量为n的样本中某特征出现的频率),则当试验次数足够多时(样本容量足够大时),有(0,1)(1)ppZNppn说明 在现实中,如果样本容量n足够大,用正态分布代替二项分布的效果会很好 即使n不大,只要p接近0.5,正态分布的代替效果也会很好 通常只要np和n(1-p)都大于5,就可以放心使用正态分布来代替二项分布总结:主要的样本统计量分布 正态分布总体,方差s 2已知 正态分布总体,方差s 2未知 如果是大样本,近似有 正态总体 样本比例) 1 , 0(/NnXZsm (1)/XTt nSnm(0,1)/XZNSnm) 1() 1(2222nSncsc(0,
14、1)(1)ppZNppn参数估计 参数估计是在总体分布参数值未知的情况下,利用样本统计量来估计总体的参数 在估计过程中,用来推估总体参数的样本统计量称为估计量 根据估计方法的不同,参数估计可以分为点估计和区间估计 点估计:根据样本资料求出非常接近总体参数的估计值,并以此推知总体参数 区间估计:根据样本观测值给出估计值的范围,并用概率术语说明估计值与未知总体参数的接近程度点估计量的评价准则 无偏性 有效性 最小均方误差 一致性无偏性 设总体参数为q,其估计量为 若点估计量 的抽样分布的期望值等于总体参数q,即: ,则称估计量 为参数q 的无偏估计量 一个好的估计量就某一个具体估计值而言,可能不等
15、于总体参数值,但大量的看(多次重复抽样),其平均值应该等于总体参数值qqqq)(Eq22(), ()E XE Sms有效性 设 和 是总体参数q的两个无偏估计量,如果 ,则称 比 有效1q2q1q2q12()()DDqqm中位数的抽样分布均值的抽样分布 ABX)(XP最小均方误差 记均方误差为MSE,有 用最小MSE来判断估计量是否优良,同时考虑了估计量的变异程度和与被估参数间的偏误,具有最小的均方误差的估计量显然是最优的估计量2)()(qqq EMSEm ABX)(XPC一致性 当样本容量趋于无穷大时,若估计量 依概率收敛于待估参数q ,即对任意e 0,有 则称 为q的一致估计量qlim1n
16、Pqqeqm样本容量较小样本容量较大 AB)(XPX点估计方法 极大似然估计法 矩估计法 最小二乘估计法 极大似然估计法 例:有两个射手,一人的命中率为0.9,另一人的命中率为0.1,现在他们中的一个向目标射击了一发,结果命中了,估计是谁射击的? 极大似然思想 一般说,事件A发生的概率与参数q有关,q取值不同,则P(A)也不同 记事件A发生的概率为P(A|q ) 若A发生了,则认为此时的q值应是在所有可能的取值中使P(A|q) 达到最大的那一个矩估计法 用样本矩作为同阶总体矩的估计,即 英国统计学家皮尔逊Pearson于1894年提出的,也是最古老的一种估计法之一 用样本矩替代总体矩,进而找出未知参数的估计11().nkkiiE XXn=最小二乘估计法 寻找这样的参数值,在这个参数值下,使得样本值与该参数值所确定的理论值距离最小,或者说误差最小。 例如:设
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 47138-2026速冻面米食品质量通则
- 2026年厦门华厦学院单招职业适应性测试题库及答案详解(必刷)
- 2026年南京机电职业技术学院单招职业适应性考试题库带答案详解
- 2026年南京城市职业学院单招职业倾向性考试题库带答案详解(预热题)
- 2026年内蒙古电子信息职业技术学院单招职业技能考试题库及答案详解(名师系列)
- 2026年兴安职业技术学院单招综合素质考试题库附参考答案详解(综合题)
- 2026年北海职业学院单招职业倾向性考试题库带答案详解(培优)
- 2026年内蒙古民族幼儿师范高等专科学校单招职业适应性考试题库附参考答案详解(考试直接用)
- 2026年保定理工学院单招职业倾向性测试题库含答案详解(完整版)
- 2026年南通师范高等专科学校单招职业技能考试题库含答案详解(精练)
- 广东深圳市华睿欣能投资控股集团有限公司2026届校园招聘笔试备考题库及答案解析
- 2026浙江省创新投资集团有限公司招聘备考题库含答案详解(能力提升)
- 2026年春节后复工复产“开工第一课”安全生产培训课件
- 探秘黄河-中国的河流(第三课时)设计
- 【初中语文】九年级语文春季开学第一课(新教材统编版)
- Metso造纸机纸机通风系统造纸通风抄纸培训
- 2024年江苏农牧科技职业学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 十种客户类型及应对技巧分解课件
- 有机肥厂年度计划书怎么写
- 中小学英语教师课堂话语分析研究
- 0-6岁智障儿童康复教育发展性课程评量
评论
0/150
提交评论