版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中心极限定理中心极限定理 -0-中心极限定理中心极限定理 -1-Step 8- Data 分析分析Step 9- Vital Few X的选定的选定q 多多变变量量研研究究q 中心中心极极限定理限定理q 假假设检验设检验q 置信置信区间区间q 方差分析,均方差分析,均值检验值检验q 卡方卡方检验检验q 相相关关/回回归归分析分析Step 7- Data 收集收集路径位置路径位置理论课理论课中心极限定理中心极限定理 -2-q 定义定义 q 中心极限定理的应用中心极限定理的应用 1. 正态分布的例子 2. Chi-Square分布的例子q 标准误差与样本大小的关系标准误差与样本大小的关系目目 录录
2、中心极限定理中心极限定理 -3-定义定义q 中心极限定理是阐述大量随机变量之和的极限分布是正态分布的一系中心极限定理是阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。最常用的有:列定理的总称。最常用的有:q 独立同分布中心极限定理独立同分布中心极限定理: “随机变量随机变量x1,x2,独立,且服从同一分布,独立,且服从同一分布, 若存在有限的数学期望若存在有限的数学期望E(xi)=u和方差和方差D(xi)=2, 当当n时,随机变量的总和时,随机变量的总和xi趋于均值为趋于均值为nu,方差为,方差为n 2的正态分布。的正态分布。 (即算术平均数(即算术平均数1/n xi=xbar趋于
3、均值为趋于均值为u,方差为,方差为2/n的正态分布)的正态分布)” 不论总体服从何种分布,只要它的数学期望和方差存在,不论总体服从何种分布,只要它的数学期望和方差存在, 从中抽取容量为从中抽取容量为n的样本,则这个样本的总和或平均数是随机变量,的样本,则这个样本的总和或平均数是随机变量, 当当n充分大时,充分大时, xi或或 xbar趋于正态分布。趋于正态分布。中心极限定理中心极限定理 -4-定义定义q 德莫佛德莫佛- -拉普拉斯中心极限定理拉普拉斯中心极限定理: “如果用如果用X表示表示n次独立试验中事件次独立试验中事件A发生发生(“成功成功”)的次数,的次数,P是事件是事件A在每在每次试验
4、中发生的概率次试验中发生的概率,则则X服从二项分布服从二项分布,B(n,p), 当当n时,时,X趋于均值为趋于均值为np,方差为,方差为npq的正态分布。的正态分布。 ” 正态分布和泊松分布都是二项分布的极限分布正态分布和泊松分布都是二项分布的极限分布 当n足够大时, 可用正态分布近似计算; 当n足够大且p小时,可用泊松分布近似计算。q 中心极限定理是一种十分重要的现象中心极限定理是一种十分重要的现象,它是统计学中应用的许多方法它是统计学中应用的许多方法的理论基础的组成部分的理论基础的组成部分(如如:计算样本均值的置信区间计算样本均值的置信区间) 中心极限定理中心极限定理 -5-利用同样的数据
5、画出两种不同的控制图利用同样的数据画出两种不同的控制图, ,并仔细比较它们的差异并仔细比较它们的差异: : 打开文件CENLIMIT.MTW .分别用下面的两个路径画出个体图和子群大小为5的均值图 个体图路径 均值图路径应用应用中心极限定理中心极限定理 -6-图形输出图形输出样本平均样本平均 仔细比较两个图上的控制上下线仔细比较两个图上的控制上下线(UCL(UCL和和LCL),LCL),有什么不同有什么不同? ?应用应用1361211069176614631161100908070605040观观测测值值单单独独值值_X =68.28UCL=96.59LCL=39.97O Ou ut tp p
6、u ut t 的的单单值值控控制制图图28252219161310741807570656055样样本本样样本本均均值值_X =68.28UCL=80.70LCL=55.861O Ou ut tp pu ut t 的的 X Xb ba ar r 控控制制图图中心极限定理中心极限定理 -7-个体控制个体控制图和图和 X barX bar控制图的差异控制图的差异UCLX3LCLX3UCLnX3LCLnX315100102030405060应用应用中心极限定理中心极限定理 -8-E平均值分布的标准偏差叫做平均值分布的标准偏差叫做 E这个公式表明平均值比个体数据更稳定,稳定因子是样本数的平这个公式表明
7、平均值比个体数据更稳定,稳定因子是样本数的平方根。方根。xxn x 均值标准误差均值标准误差个体值的标准差个体值的标准差n =平均值的样本数平均值的样本数x均值的标准误差(均值的标准误差(Standard Error of the MeanStandard Error of the Mean)其中其中中心极限定理中心极限定理 -9-MS meanMSn() 我们经常依靠从测量系统中得到的一个数值来估计我们经常依靠从测量系统中得到的一个数值来估计输入输入或或输输出出变量的值变量的值。减小测量系统误差的简易方法就是把两个或更多的。减小测量系统误差的简易方法就是把两个或更多的读数平均。读数平均。 我
8、们的测量系统的精密度自动增加,增加因子是平均值样本我们的测量系统的精密度自动增加,增加因子是平均值样本数的平方根数的平方根, ,如果我们要想使测量系统的误差减小一半,我们就如果我们要想使测量系统的误差减小一半,我们就需要把需要把4 4次的测量值平均才可以。次的测量值平均才可以。实际应用实际应用测量系统的改善测量系统的改善中心极限定理中心极限定理 -10-l当总体数据具备正态分布时当总体数据具备正态分布时中心极限定理理解例题模拟中心极限定理理解例题模拟-1-1l 假设你面前有一个大桶假设你面前有一个大桶, ,桶里面装有相当多数量的白色纸条桶里面装有相当多数量的白色纸条, ,每张纸条上都写每张纸条
9、上都写 有数字,且假定这些数字都来自一个具有特定平均值和标准偏差的正态分布有数字,且假定这些数字都来自一个具有特定平均值和标准偏差的正态分布. . 1)1)从中随机抽出从中随机抽出9 9张白色纸条张白色纸条, ,并把其上面的并把其上面的9 9个数字求平均个数字求平均, , 2)2)然后把这个平均值写在一张绿色纸条上然后把这个平均值写在一张绿色纸条上, , 3)3)把这把这9 9张白色纸条放回原来的桶里张白色纸条放回原来的桶里, , 4)4)把这张绿色纸条放入另外一个桶里把这张绿色纸条放入另外一个桶里, , 如此重复上面的步骤,直到盛有绿色纸条的桶放满为止。如此重复上面的步骤,直到盛有绿色纸条的
10、桶放满为止。l白色纸条代表总体的数据;白色纸条代表总体的数据;l绿色纸条代表平均值的样本;绿色纸条代表平均值的样本;l我们用我们用MINITABMINITAB来模拟做这个练习。来模拟做这个练习。中心极限定理中心极限定理 -11-:让我们用让我们用MINITABMINITAB产生一些模拟的数据来验证我们的理论。产生一些模拟的数据来验证我们的理论。:首先用首先用MINITABMINITAB产生产生9 9列各列各250250个数据,假设这些数据来自一个个数据,假设这些数据来自一个 平均值平均值=70=70、标准偏差标准偏差=9=9的正态分布的正态分布: :则列则列C1-C9 C1-C9 代表白色纸条
11、代表白色纸条:然后求出各行然后求出各行9 9个数据的平均值,其结果放在列个数据的平均值,其结果放在列C10C10,则,则:C10C10代表绿色纸条。代表绿色纸条。:我们用描述统计的方法求出各列数据的平均和标准偏差。我们用描述统计的方法求出各列数据的平均和标准偏差。:仔细比较仔细比较C1-C9C1-C9列与列与C10C10列有什么差别?列有什么差别? 例题例题1 1 中心极限定理应用模拟中心极限定理应用模拟中心极限定理中心极限定理 -12-1 1、用、用MINITABMINITAB随机产生样本数据随机产生样本数据分别输入下列信息分别输入下列信息中心极限定理中心极限定理 -13-2 2、样本平均数
12、计算、样本平均数计算中心极限定理中心极限定理 -14-3 3、输出:产生、输出:产生1010列数据列数据注意:每次每个人操作产生的数据都不一样注意:每次每个人操作产生的数据都不一样中心极限定理中心极限定理 -15-4 4、描述统计路径、描述统计路径中心极限定理中心极限定理 -16-5 5、描述统计结果比较、描述统计结果比较描述性描述性统计统计: C1, C2, C3, C4, C5, C6, C7, C8, C9, C10 平均平均值值变变量量 N N* 平均平均值值 标标准准误误 标标准差准差 最小最小值值 下四分位下四分位数数 中位中位数数 上四分位上四分位数数C1 250 0 70.60
13、5 0.534 8.439 43.537 64.924 70.895 76.690C2 250 0 69.633 0.623 9.847 43.521 63.094 70.174 76.382C3 250 0 69.643 0.591 9.341 47.785 62.617 69.063 76.286C4 250 0 70.293 0.559 8.846 49.313 64.745 69.702 75.834C5 250 0 70.705 0.603 9.542 45.849 64.118 70.673 77.782C6 250 0 69.385 0.587 9.288 41.398 63.2
14、37 69.285 76.174C7 250 0 70.228 0.543 8.585 48.888 64.444 70.587 75.767C8 250 0 69.852 0.592 9.357 41.977 63.096 69.826 77.060C9 250 0 70.126 0.568 8.988 48.100 64.023 69.871 75.867C10 250 0 70.052 0.185 2.930 61.501 68.167 70.479 72.180 xxxn99933中心极限定理中心极限定理 -17-5 5、描述统计结果比较(续)、描述统计结果比较(续)描述性描述性统计统
15、计: C1, C2, C3, C4, C5, C6, C7, C8, C9, C10 平均平均值值变变量量 N N* 平均平均值值 标标准准误误 标标准差准差 最小最小值值 下四分位下四分位数数 中位中位数数 上四分位上四分位数数C1 250 0 70.605 0.534 8.439 43.537 64.924 70.895 76.690C2 250 0 69.633 0.623 9.847 43.521 63.094 70.174 76.382C3 250 0 69.643 0.591 9.341 47.785 62.617 69.063 76.286C4 250 0 70.293 0.55
16、9 8.846 49.313 64.745 69.702 75.834C5 250 0 70.705 0.603 9.542 45.849 64.118 70.673 77.782C6 250 0 69.385 0.587 9.288 41.398 63.237 69.285 76.174C7 250 0 70.228 0.543 8.585 48.888 64.444 70.587 75.767C8 250 0 69.852 0.592 9.357 41.977 63.096 69.826 77.060C9 250 0 70.126 0.568 8.988 48.100 64.023 69.
17、871 75.867C10 250 0 70.052 0.185 2.930 61.501 68.167 70.479 72.180现在开始比较。现在开始比较。中心极限定理中心极限定理 -18-7674727068666462403020100C C1 10 0频频率率均值70.05标准差 2.930N250C C1 10 0 的的直直方方图图正态 90.082.575.067.560.052.5403020100C C9 9频频率率均值70.13标准差 8.988N250C C9 9 的的直直方方图图正态 l样本的散布样本的散布( (C C9)9)和样本平均的散布和样本平均的散布( (C10
18、)C10)进行比较。进行比较。散布散布减少了很多减少了很多. = = 8.988 = = 2.9306 6、直方图直方图结果比较结果比较中心极限定理中心极限定理 -19-l用点图比较频度数用点图比较频度数则则能够更明确的了解能够更明确的了解散布散布。7 7、点图点图结果比较结果比较91847770635649C9C10数数 据据C C 9 9 , , C C 1 1 0 0 的的 点点 图图每个符号最多表示 2 个观测值。中心极限定理中心极限定理 -20-F样本平均值分布的样本平均值分布的平均值平均值和总体的平均值十分接近和总体的平均值十分接近;F样本平均值分布的样本平均值分布的标准偏差标准偏
19、差等于总体的标准偏差除以等于总体的标准偏差除以样本数的平方根样本数的平方根;F样本平均值的分布十分接近正态分布。样本平均值的分布十分接近正态分布。8 8、结论结论中心极限定理中心极限定理 -21-q 当总体数据是非正态分布时,若从中随机抽样当总体数据是非正态分布时,若从中随机抽样n n个并计算其平均,个并计算其平均, 同样如此反复若干次,然后比较这些平均的散布与这些个体值的同样如此反复若干次,然后比较这些平均的散布与这些个体值的 散布,你会发现,当散布,你会发现,当n n时,时,x-barx-bar的散布也具有正态分布。的散布也具有正态分布。q 为了验证为了验证, ,我们在非正态分布中随机选择
20、一个偏移较大的分布我们在非正态分布中随机选择一个偏移较大的分布- - “ “Chi-SquareChi-Square分布分布”,求其,求其x-barx-bar来体会一下中心极限定理。来体会一下中心极限定理。 l当总体数据不具备正态分布时当总体数据不具备正态分布时中心极限定理理解例题模拟中心极限定理理解例题模拟-2-2中心极限定理中心极限定理 -22-1 1、用卡方分布随机产生、用卡方分布随机产生9 9列,每列各有列,每列各有250250个数据个数据中心极限定理中心极限定理 -23-1 5 . 01 2 . 51 0 . 07 . 55 . 02 . 50 . 0C C 9 9C C 9 9 的
21、的 点点 图图每 个 符 号 最 多 表 示 2 个 观 测 值 。2 2、用产生的数据进行、用产生的数据进行点图点图描绘和描绘和正态检验正态检验 在这里看到在这里看到,这是一个很偏移的分布,这是一个很偏移的分布,我们用它来验证中心极限定理我们用它来验证中心极限定理151050-599.99995908070605040302010510.1C C9 9百百分分比比均值2.008标准差2.149N250AD15.427P 值0.005C C9 9 的的概概率率图图正态 - 95% 置信区间中心极限定理中心极限定理 -24-C10 C10 项是对项是对 C1C9 C1C9 的平均值的数据统计,的
22、平均值的数据统计,同样同样样本样本大小为大小为 9 9,其散布明显变得小多了。其散布明显变得小多了。描述性描述性统计统计: C1, C2, C3, C4, C5, C6, C7, C8, C9, C10 平均平均值值变变量量 N N* 平均平均值值 标标准准误误 标标准差准差 最小最小值值 下四分位下四分位数数 中位中位数数 上四分位上四分位数数C1 250 0 1.917 0.122 1.932 0.002 0.543 1.252 2.602C2 250 0 2.038 0.112 1.768 0.003 0.602 1.453 3.068C3 250 0 2.072 0.130 2.050 0.009 0.558 1.402 2.853C4 250 0 2.005 0.139 2.204 0.002 0.551 1.327 2.875C5 250 0 1.854 0.109 1.726 0.009 0.534 1.283 2.595C6 250 0 1.954 0.129 2.039 0.003 0.477 1.347 2.743C7 250 0 1.965 0.122 1.935 0.011 0.516 1.412 2.759C8 250 0 2.074 0.138 2.178 0.011 0.597
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026河南永锦能源招聘210人考试备考题库及答案解析
- 2026内蒙古包头铁道职业技术学院赴铁路院校招聘急需专业教师16人考试备考试题及答案解析
- 2026年淮南经济技术开发区公益性岗位征集考试备考题库及答案解析
- 2026广东深圳市眼科医院招聘工作人员招聘11人考试参考试题及答案解析
- 2026天津市津南创腾经济开发有限公司招聘8人考试备考试题及答案解析
- 文库发布:exo介绍教学
- 2026日照银行见习人员招聘10人考试参考题库及答案解析
- 2026安徽亳州市蒙城县商业综合体招聘劳务派遣人员(四次)考试参考题库及答案解析
- 2026年西安市鄠邑区就业见习基地见习招聘(163人)考试参考试题及答案解析
- 2026年合肥幼教集团光明之家幼儿园门卫招聘考试参考题库及答案解析
- 发货员岗位考试题及答案
- 2025年工会干事招聘面试题库及解析
- 医药代表合规培训
- 管道施工临时用电方案
- 车间核算员试题及答案
- 2025年敖汉旗就业服务中心招聘第一批公益性岗位人员的112人笔试备考试题附答案详解(综合卷)
- 《旅游应用文写作》课程标准
- 河北省石家庄市第四十中学2026届中考语文仿真试卷含解析
- 血管外科护士进修
- 临床实习护士出科自我鉴定大纲及消毒供应室、五官科、急诊科、内科、外科、儿科、妇科、手术室、血液科、骨科、神经内科等自我鉴定范文
- 农村初中教学中引领学生自主学习的路径探究
评论
0/150
提交评论