版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章 样本均数的抽样误差与置信区间 联系:数据/变量在离散点或区间上分布分布特征数应用样本数据x 频数分布表频数分布图描述指标()参考值范围随机变量X ,误差概率分布表概率分布图总体参数() ()置信区间3.1 样本本均数的分布布从同一总体中中独立抽取多多份样本, 他们的均数数常大小不一一, 这说明明样本均数存存在变异。通通过电脑实验验来认识样本本均数的变异异规律一、正态总体样样本均数的分分布实验3.1 从正态分布布总体抽样的的实验 假定正常常男子的红血血球计数服从从正态分布NN(4.66002, 0.574622),随机抽取取1000份样样本, 每份含n5个个体。样样本均数依然然是一个随机
2、机变量, 且且 (1) 各样样本均数未必必等于总体均均数(,误差?); (2) 样本本均数之间存存在差异(,变异); (3) 样本本均数的分布布很有规律,围绕着总体体均数,中间多、两两边少, 左右基本本对称(对称、正态态?); (4) 样本本均数的变异异范围较原变变量变异范围围大大缩小(); (5) 随着着样本量的增增大, 样本均数数变异范围逐逐渐缩小()。图3.1 从正态分布总体抽样的实验结果原正态总体N(4.6602, 0.57462);直方图是样本均数的分布(Luo: 这里横坐标为,若改为便是误差分布图的形状不变)3.74.14.54.95.3图3.1 从正态分布总体抽样的实验结果原正态
3、总体N(4.6602, 0.57462);直方图是样本均数的分布(Luo: 这里横坐标为,若改为便是误差分布图的形状不变)3.74.14.54.95.35.73.74.14.54.95.35.73.74.14.54.95.35.7n=5 n=10 n=30(a) (b) (c) HYPERLINK l 实3_1a 实3_1a 表3.11 从N(4.66602, 0.574462)中随机抽样样, 样本量为为5, 1000份独立样本的均数、标标准差和总体体均数的955%置信区间间(单位:1012 /L)样本号均数标准差95%置信区间间样本号均数标准差95%置信区间间15.00.56884.2939
4、, 5.70062514.48.40063.9827, 4.9777324.72.34704.2891, 5.15509524.32.54873.6388, 5.0001234.24.57633.5246, 4.95554534.88.37324.4167, 5.3443444.64.59493.9014, 5.37786544.68.35244.2425, 5.1117554.60.40054.1028, 5.09972554.80.58664.0717, 5.5228364.80.81863.7837, 5.81163564.52.35044.0850, 4.9555074.68.4502
5、4.1211, 5.23389574.88.68694.0272, 5.7332884.32.82253.2989, 5.34411584.80.52324.1505, 5.4449594.72.59643.9796, 5.46604594.80.27944.4531, 5.14469104.40.44963.8418, 4.95582604.76.58234.0371, 5.48830114.60.56833.8944, 5.30056614.76.70833.8807, 5.63394124.60.34014.1778, 5.02222624.12.57933.4008, 4.833921
6、34.60.66483.7746, 5.42254634.72.44194.1714, 5.26686144.76.62743.9811, 5.53389644.44.28184.0902, 4.78898154.20.68863.3451, 5.05549654.921.02673.6454, 6.19947164.64.30914.2562, 5.02238664.80.71913.9073, 5.69927174.96.42234.4357, 5.48843674.72.43614.1786, 5.26614184.96.40834.4532, 5.46669684.84.58734.1
7、109, 5.56691194.68.58753.9506, 5.40094694.36.48923.7527, 4.96673204.84.53404.1771, 5.50030704.76.33534.3437, 5.17763214.92.28524.5659, 5.27741714.40.43093.8650, 4.93350224.60.45174.0392, 5.16608724.68.68803.8259, 5.53341234.44.43333.9021, 4.97779734.60.43014.0661, 5.13339244.96.37114.4993, 5.4220774
8、4.48.64113.6841, 5.27759254.64.47424.0513, 5.2228775*4.16.39273.6724, 4.64476264.96.53494.2959, 5.62241764.52.54873.8388, 5.20012274.48.47783.8868, 5.07732774.36.39303.8721, 4.84479284.68.38184.2061, 5.1553978*5.04.20524.7853, 5.29947294.68.62893.8992, 5.46608794.56.99633.3231, 5.79969305.28.64674.4
9、771, 6.08829804.80.62434.0249, 5.57751314.84.67244.0053, 5.6774781*4.00.20903.7405, 4.25595324.52.32034.1224, 4.91176824.64.34144.2162, 5.06638334.76.58414.0348, 5.48852835.04.40504.5372, 5.54428344.48.20844.2213, 4.73388844.52.53533.8555, 5.18845355.04.66464.2149, 5.86651854.44.32764.0333, 4.844673
10、64.56.39124.0743, 5.04457864.60.37974.1287, 5.07713374.68.51834.0366, 5.32234874.48.28014.1322, 4.82278384.80.74453.8758, 5.72242884.64.24734.3330, 4.94471394.72.72603.8187, 5.6221389*5.32.39824.8256, 5.81144404.68.85673.6165, 5.74435904.92.34734.4888, 5.35512414.561.02413.2887, 5.83313914.72.29414.
11、3548, 5.08852424.76.67863.9175, 5.60025924.44.42733.9096, 4.97704435.04.51764.3974, 5.68826934.48.35944.0338, 4.92262444.52.36584.0659, 4.97741944.92.44564.3668, 5.47732454.52.59443.7821, 5.25580954.64.47584.0494, 5.23306464.72.50244.0963, 5.34437964.76.85163.7027, 5.81173475.12.63544.3312, 5.900889
12、74.64.45604.0739, 5.20061484.76.58374.0354, 5.48846984.36.33683.9419, 4.7778149*4.04.35953.5937, 4.48863994.56.61973.7907, 5.32293504.52.60943.7634, 5.277661004.60.45664.0331, 5.16669* 由这份样本本估计的955%置信区间间实际上并未未复盖总体均均数 HYPERLINK l 图3_1 图图3_1 表3.2 从N(4.66602, 0.574462)中随机抽取取1000份独立样本, 其均数的频频数分布组段下限(100
13、12 /L)频数频率(%)累积频率(%)3.60- 1 0.1 0.13.80- 5 0.5 0.64.00- 32 3.2 3.84.20-11711.715.54.40-22922.938.44.60-30430.468.84.80-21821.890.65.00- 76 7.698.25.20- 15 1.599.75.40- 3 0.3 1000.0合计1000100.0理论上可以证证明, 从正态分分布N(, 2)的总体中随随机抽取含量量为n的样本,其其样本均数N(, 2 /n)。样本均数的标标准差习惯上上又称为样本本均数的标准准误(staandardd erroor),简称称标准误。
14、值值得注意的是是如下的普遍遍规律:或 (3.1) 实际应用中往往往总体标准准差未知, 人们只能能用样本标准准差S代替,从而获获得的估计值值,则有 (3.2) 为方便计,可可称为理论标标准误,为样样本标准误。二、非正态总体体样本均数的的分布实验3.2 从正偏峰的的分布总体抽抽样的实验(1) 随着样样本量的增大大, 样本均数数分布的对称称性逐渐改善善, 样本量量为30时, 样本均数数的分布接近近正态分布; (2) 随着着样本量的增增大, 样本均数数的变异范围围逐渐变窄。11234578n=5(b)123456789n=10(c)123456789n=20(d)123456789n=30(e)图3.
15、2 从正偏峰的分布总体分布抽样实验的结果(a)是原分布,正偏峰;其它为不同样本含量时样本均数的直方图123456789(a)实验3.3 从不对称钩钩形分布的总总体抽样的实实验 图3.3(aa): (1) 样本本均数分布再再不象个钩子子, 样本量很很小时就象正正态分布了; (2) 随着着样本量的增增大, 样本均数数的变异范围围也逐渐变窄窄。以上两项实验验的结果具有有普遍性。理理论上可以证证明, 非正态总体体样本均数的的分布并不是是正态分布;但当样本量量较大时(例如,n30), 样本均数的的分布接近正正态分布。 HYPERLINK l 图3_1 图3_11123456789n=5(b)123456
16、789n=10(c)123456789n=20(d)123456789n=30(e)图3.3 从不对称钩形分布总体抽样实验的结果(a)是原分布,呈钩形;其它为不同样本含量时样本均数的直方图123456789(a)3.2 t分分布一、标准正态离离差和标准tt离差 标准正态离差差便服从标准准正态分布, 记为(3.3) 若未知,用样样本标准差SS代替,以代替它们不不尽相同,即即有变异,因因而比多了一种与与自由度有关关的变异。WW.S.Goosett于于1908年用用笔名Stuudent研研究了它的分分布规律, 称之t分布, 记为, v=n-1(3.4) 不妨称为标准准t离差(staandardd t
17、 deeviatee)。(读作nunju:)是t分布的自由由度,不同的的自由度对应应于不同的tt分布曲线。二、t分布的图图形与t分布表实验3.1(续续) 标准正态态离差和标准准t离差 对前述实实验3.1所得10000份随机样本本分别计算标标准正态离差差和标准t离差, 并绘制相相应的直方图图, 如图3.4(a)和(b)所示。本书附表5给给出了t分布的双侧侧尾部面积和和对应的t界值。对应应于同样大小小的尾部面积积,t界值比正态态分布界值要要大。-5-5-3-10135(a)-5-3-10135(b)图3.4 从N(4.6602,0.57462)中随机抽取1000份独立样本,n=5(a)样本均数的标
18、准正态离差的直方图;(b)样本均数的标准t离差的直方图图3图3.5 标准正态分布和t分布的图形=时的t分布即标准正态分布012345-1-2-3-4-50.00.10.20.30.4 (标准正态分布)3.3 正态态分布总体均均数的置信区区间95%置信区区间:设N(, 2 ), 和未知,由t分布面积规规律可知:-t0.005t0.05(3.3) 经移项化简,可可改写为(3.4) 置信程度为为95%;换言言之,这样估估计100次次,约有955次正确。应用公式为(, ),或或(3.5) (1-)置信信区间:(, )(3.6) 可称为置信区区间的精度,它等于于置信区间宽宽度的一半,意意指置信区间间的两
19、端点离离样本均数有有多远。 HYPERLINK l 表3_1 表表3_1 实验3.11(续) 置信区间间与置信水平平 对于前述述从正态总体体随机抽取的的每一份样本本均可按(33.5)式各各计算总体均均数的一个955%置信区间间。表3.11的第4列给出了由由前100份样本本作出的的95%置信区区间。不难发发现, 多数区间间(95个)覆覆盖了总体均均数4.66602, 但但第49, 75, 778, 811和89号这5个个样本算出的的区间却“扑空”了,即这样样的区间估计计95%正确确,5%错误误。换言之,当当我们依据一一个样本均数数,对总体均均数只作一次次区间估计时时,其置信度度为95%。例3.1
20、 从从某类患者中中随机抽取220例, 其血沉(mmm/h)的均均数为9.115, 标准准差为2.113。假定该该类患者的血血沉值服从正正态分布, 试估计总体体均数的955%置信区间间和99%置信区区间。解 =9.155, s=22.13, n=20, =10.115和8.15 =10.551和7.78置信水平由995%提高到到99%, 置信区间便便由窄变宽, 估计的精精度下降。若若既要提高置置信水平, 又要估计的的精度好, 就必须缩小小s或加大n。s反映客观存存在的个体差差异, 通常无法法缩小, 但加大样样本量是行之之有效的办法法。3.4 两正正态总体均数数之差的置信信区间设有标准差相相等而均
21、数不不等的两个正正态总体N(1, 2)和N(2, 2),均未知。N(1,22/n1), N(2, 2/n2),仍服从正态态分布()NN(1-2, 2(1/n1 +1/nn2 )(3.7)()NN(1-2, )(3.7) 的标准正态态离差服从标标准正态分布布, 即 N(0, 1)(3.8) N(00, 1)(3.8) Luo: 如果果1=2,N(0, 1)(假设检检验)现2未知,服服从t分布。即的标准t离差 t分布布,v=n1+n2(3.9) t分布布,v=n1+n2(3.9) 其中, Sc22称为两样本本的合并方差差:Sc2 =(3.100) Sc2的自自由度为S12和S22的自由度之之和,
22、(nn1 -1)+(n2 -1)= n1+n2-2, 因而, t分布的的自由度也是是n1n22。以下公式不讲讲解了:t0.005 t0.05(3.111)(3.112)(-)-t00.05,(-)+t0.05)(3.133)( ),( )+)(3.144)例3.2 某某地随机抽取取40岁正常男男子20名和40岁正常女女子15名, 测定红细细胞计数, 男女样本均均数和样本标标准差分别为为 =4.66, s1 =0.47和=4.18, s2 =0.45, 试计算40岁正常男男女红细胞计计数总体均数数之差的955%置信区间间。(单位: 10012 /L)解 例3.3 假假定某地健康康成年男女的的红细胞计数数(1012 /L)分别服从均均数不等、标标准差相等的的二个正态分分布。现有男男女各一份随随机样本, 样本量n1=300, n2=250, 均数和标标准差分别为为 =4.666, s11 =0.447和 =4.118, s22 =0.339。试估计计男女红细胞胞计数的总体体均数之差的的95%置信区区间。解 3.5 二项项分布总体概概率以及概率率之差的置信信区间1. 二项分布布总体概率的的置信区间 大样本时,利利用P近似地服从从正态分布的的性质进行估估计。(3.155
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年产品测试实习合同
- 2026年乐器学习培训合同
- 家签培训课件
- 工程维修部年终总结
- 新任村组干部培训课件
- 培训教师总结
- 培训主任竞聘
- 口语交际课件介绍
- 医院安全与医疗纠纷
- 冬季安全家长会课件
- 人工湿地施工方案【整编】
- 盖板涵盖板计算
- 斜拉索无应力索长的计算
- 智慧机场综合安防系统解决方案
- 2024年高中英语学业水平测试及答案
- 天塔之光模拟控制PLC课程设计
- 初中日语人教版七年级第一册单词表讲义
- GB/T 9065.5-2010液压软管接头第5部分:37°扩口端软管接头
- GB/T 5847-2004尺寸链计算方法
- GB/T 20475.2-2006煤中有害元素含量分级第2部分:氯
- 北师大版一年级数学上册口算比赛试题试卷
评论
0/150
提交评论