




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章 样本均数的抽样误差与置信区间 联系:数据/变量在离散点或区间上分布分布特征数应用样本数据x 频数分布表频数分布图描述指标()参考值范围随机变量X ,误差概率分布表概率分布图总体参数() ()置信区间3.1 样本均数的分布从同一总体中独立抽取多份样本, 他们的均数常大小不一, 这说明样本均数存在变异。通过电脑实验来认识样本均数的变异规律一、正态总体样本均数的分布实验3.1 从正态分布总体抽样的实验 假定正常男子的红血球计数服从正态分布N(4.6602, 0.57462),随机抽取1000份样本, 每份含n5个个体。样本均数依然是一个随机变量, 且 (1) 各样本均数未必等于总体均数(,误差?); (2) 样本均数之间存在差异(,变异); (3) 样本均数的分布很有规律,围绕着总体均数,中间多、两边少, 左右基本对称(对称、正态?); (4) 样本均数的变异范围较原变量变异范围大大缩小(); (5) 随着样本量的增大, 样本均数变异范围逐渐缩小()。图3.1 从正态分布总体抽样的实验结果原正态总体N(4.6602, 0.57462);直方图是样本均数的分布(Luo: 这里横坐标为,若改为便是误差分布图的形状不变)3.74.14.54.95.35.73.74.14.54.95.35.73.74.14.54.95.35.7n=5 n=10 n=30(a) (b) (c)表3_2实3_1a 表3.1 从N(4.6602, 0.57462)中随机抽样, 样本量为5, 100份独立样本的均数、标准差和总体均数的95%置信区间(单位:1012 /L)样本号均数标准差95%置信区间样本号均数标准差95%置信区间15.00.56884.2939, 5.7062514.48.40063.9827, 4.977324.72.34704.2891, 5.1509524.32.54873.6388, 5.001234.24.57633.5246, 4.9554534.88.37324.4167, 5.343444.64.59493.9014, 5.3786544.68.35244.2425, 5.117554.60.40054.1028, 5.0972554.80.58664.0717, 5.528364.80.81863.7837, 5.8163564.52.35044.0850, 4.955074.68.45024.1211, 5.2389574.88.68694.0272, 5.732884.32.82253.2989, 5.3411584.80.52324.1505, 5.449594.72.59643.9796, 5.4604594.80.27944.4531, 5.1469104.40.44963.8418, 4.9582604.76.58234.0371, 5.4830114.60.56833.8944, 5.3056614.76.70833.8807, 5.6394124.60.34014.1778, 5.0222624.12.57933.4008, 4.8392134.60.66483.7746, 5.4254634.72.44194.1714, 5.2686144.76.62743.9811, 5.5389644.44.28184.0902, 4.7898154.20.68863.3451, 5.0549654.921.02673.6454, 6.1947164.64.30914.2562, 5.0238664.80.71913.9073, 5.6927174.96.42234.4357, 5.4843674.72.43614.1786, 5.2614184.96.40834.4532, 5.4669684.84.58734.1109, 5.5691194.68.58753.9506, 5.4094694.36.48923.7527, 4.9673204.84.53404.1771, 5.5030704.76.33534.3437, 5.1763214.92.28524.5659, 5.2741714.40.43093.8650, 4.9350224.60.45174.0392, 5.1608724.68.68803.8259, 5.5341234.44.43333.9021, 4.9779734.60.43014.0661, 5.1339244.96.37114.4993, 5.4207744.48.64113.6841, 5.2759254.64.47424.0513, 5.228775*4.16.39273.6724, 4.6476264.96.53494.2959, 5.6241764.52.54873.8388, 5.2012274.48.47783.8868, 5.0732774.36.39303.8721, 4.8479284.68.38184.2061, 5.153978*5.04.20524.7853, 5.2947294.68.62893.8992, 5.4608794.56.99633.3231, 5.7969305.28.64674.4771, 6.0829804.80.62434.0249, 5.5751314.84.67244.0053, 5.674781*4.00.20903.7405, 4.2595324.52.32034.1224, 4.9176824.64.34144.2162, 5.0638334.76.58414.0348, 5.4852835.04.40504.5372, 5.5428344.48.20844.2213, 4.7388844.52.53533.8555, 5.1845355.04.66464.2149, 5.8651854.44.32764.0333, 4.8467364.56.39124.0743, 5.0457864.60.37974.1287, 5.0713374.68.51834.0366, 5.3234874.48.28014.1322, 4.8278384.80.74453.8758, 5.7242884.64.24734.3330, 4.9471394.72.72603.8187, 5.621389*5.32.39824.8256, 5.8144404.68.85673.6165, 5.7435904.92.34734.4888, 5.3512414.561.02413.2887, 5.8313914.72.29414.3548, 5.0852424.76.67863.9175, 5.6025924.44.42733.9096, 4.9704435.04.51764.3974, 5.6826934.48.35944.0338, 4.9262444.52.36584.0659, 4.9741944.92.44564.3668, 5.4732454.52.59443.7821, 5.2580954.64.47584.0494, 5.2306464.72.50244.0963, 5.3437964.76.85163.7027, 5.8173475.12.63544.3312, 5.9088974.64.45604.0739, 5.2061484.76.58374.0354, 5.4846984.36.33683.9419, 4.778149*4.04.35953.5937, 4.4863994.56.61973.7907, 5.3293504.52.60943.7634, 5.27661004.60.45664.0331, 5.1669* 由这份样本估计的95%置信区间实际上并未复盖总体均数图3_1 表3.2 从N(4.6602, 0.57462)中随机抽取1000份独立样本, 其均数的频数分布组段下限(1012 /L)频数频率(%)累积频率(%)3.60- 1 0.1 0.13.80- 5 0.5 0.64.00- 32 3.2 3.84.20-11711.715.54.40-22922.938.44.60-30430.468.84.80-21821.890.65.00- 76 7.698.25.20- 15 1.599.75.40- 3 0.3 100.0合计1000100.0理论上可以证明, 从正态分布N(m, s2)的总体中随机抽取含量为n的样本,其样本均数N(m, s2 /n)。样本均数的标准差习惯上又称为样本均数的标准误(standard error),简称标准误。值得注意的是如下的普遍规律:或 (3.1) 实际应用中往往总体标准差s未知, 人们只能用样本标准差S代替s,从而获得的估计值,则有 (3.2) 为方便计,可称为理论标准误,为样本标准误。二、非正态总体样本均数的分布实验3.2 从正偏峰的分布总体抽样的实验(1) 随着样本量的增大, 样本均数分布的对称性逐渐改善, 样本量为30时, 样本均数的分布接近正态分布; (2) 随着样本量的增大, 样本均数的变异范围逐渐变窄。1234578n=5(b)123456789n=10(c)123456789n=20(d)123456789n=30(e)图3.2 从正偏峰的分布总体分布抽样实验的结果(a)是原分布,正偏峰;其它为不同样本含量时样本均数的直方图123456789(a)实验3.3 从不对称钩形分布的总体抽样的实验 图3.3(a): (1) 样本均数分布再不象个钩子, 样本量很小时就象正态分布了; (2) 随着样本量的增大, 样本均数的变异范围也逐渐变窄。以上两项实验的结果具有普遍性。理论上可以证明, 非正态总体样本均数的分布并不是正态分布;但当样本量较大时(例如,n30), 样本均数的分布接近正态分布。图3_1123456789n=5(b)123456789n=10(c)123456789n=20(d)123456789n=30(e)图3.3 从不对称钩形分布总体抽样实验的结果(a)是原分布,呈钩形;其它为不同样本含量时样本均数的直方图123456789(a)3.2 t分布一、标准正态离差和标准t离差 标准正态离差便服从标准正态分布, 记为(3.3) 若s未知,用样本标准差S代替s,以代替它们不尽相同,即有变异,因而比多了一种与自由度有关的变异。W.S.Gosett于1908年用笔名Student研究了它的分布规律, 称之t分布, 记为, v=n-1(3.4) 不妨称为标准t离差(standard t deviate)。n(读作nunju:)是t分布的自由度,不同的自由度对应于不同的t分布曲线。二、t分布的图形与t分布表实验3.1(续) 标准正态离差和标准t离差 对前述实验3.1所得1000份随机样本分别计算标准正态离差和标准t离差, 并绘制相应的直方图, 如图3.4(a)和(b)所示。本书附表5给出了t分布的双侧尾部面积和对应的t界值。对应于同样大小的尾部面积a,t界值比正态分布界值要大。-5-3-10135(a)-5-3-10135(b)图3.4 从N(4.6602,0.57462)中随机抽取1000份独立样本,n=5(a)样本均数的标准正态离差的直方图;(b)样本均数的标准t离差的直方图图3.5 标准正态分布和t分布的图形=时的t分布即标准正态分布012345-1-2-3-4-50.00.10.20.30.4n=3n=1n= (标准正态分布)3.3 正态分布总体均数的置信区间95%置信区间:设N(m, s2 ), m和s未知,由t分布面积规律可知:-t0.05t0.05(3.3) 经移项化简,可改写为(3.4) 置信程度为95%;换言之,这样估计100次,约有95次正确。应用公式为(, ),或(3.5) (1-a)置信区间:(, )(3.6) 可称为置信区间的精度,它等于置信区间宽度的一半,意指置信区间的两端点离样本均数有多远。表3_1 实验3.1(续) 置信区间与置信水平 对于前述从正态总体随机抽取的每一份样本均可按(3.5)式各计算总体均数的一个95%置信区间。表3.1的第4列给出了由前100份样本作出的的95%置信区间。不难发现, 多数区间(95个)覆盖了总体均数4.6602, 但第49, 75, 78, 81和89号这5个样本算出的区间却“扑空”了,即这样的区间估计95%正确,5%错误。换言之,当我们依据一个样本均数,对总体均数只作一次区间估计时,其置信度为95%。例3.1 从某类患者中随机抽取20例, 其血沉(mm/h)的均数为9.15, 标准差为2.13。假定该类患者的血沉值服从正态分布, 试估计总体均数的95%置信区间和99%置信区间。解 =9.15, s=2.13, n=20, =10.15和8.15 =10.51和7.78置信水平由95%提高到99%, 置信区间便由窄变宽, 估计的精度下降。若既要提高置信水平, 又要估计的精度好, 就必须缩小s或加大n。s反映客观存在的个体差异, 通常无法缩小, 但加大样本量是行之有效的办法。3.4 两正态总体均数之差的置信区间设有标准差相等而均数不等的两个正态总体N(m1, s2)和N(m2, s2),均未知。N(m1,s2/n1), N(m2, s2/n2),仍服从正态分布()N(m1-m2, s2(1/n1 +1/n2 )(3.7)()N(m1-m2, )(3.7) 的标准正态离差服从标准正态分布, 即 N(0, 1)(3.8) N(0, 1)(3.8) Luo: 如果m1=m2,N(0, 1)(假设检验)现s2未知,服从t分布。即的标准t离差 t分布,v=n1+n2(3.9) t分布,v=n1+n2(3.9) 其中, Sc2称为两样本的合并方差:Sc2 =(3.10) Sc2的自由度为S12和S22的自由度之和, (n1 -1)+(n2 -1)= n1+n2-2, 因而, t分布的自由度也是n1n22。以下公式不讲解了:t0.05 t0.05(3.11)(3.12)(-)-t0.05,(-)+t0.05)(3.13)( ),( )+)(3.14)例3.2 某地随机抽取40岁正常男子20名和40岁正常女子15名, 测定红细胞计数, 男女样本均数和样本标准差分别为 =4.66, s1 =0.47和=4.18, s2 =0.45, 试计算40岁正常男女红细胞计数总体均数之差的95%置信区间。(单位: 1012 /L)解 例3.3 假定某地健康成年男女的红细胞计数(1012 /L)分别服从均数不等、标准差相等的二个正态分布。现有男女各一份随机样本, 样本量n1=300, n2=250, 均数和标准差分别为 =4.66, s1 =0.47和 =4.18, s2 =0.39。试估计男女红细胞计数的总体均数之差的95%置信区间。解 3.5 二项分布总体概率以及概率之差的置信区间1. 二项分布总体概率的置信区间 大样本时,利用P近似地服从正态分布的性质进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 无人机培训招生宣讲
- 《医疗器械监督管理条例》培训试题附参考答案
- 旅游局行业知识培训课件
- 2025年网页设计师专业技能考核试卷及答案
- 2025年网络直播行业未来发展趋势预测分析及答案
- 2025年网络营销专家认证考试试卷及答案
- 2025年ITO导电膜玻璃项目建议书
- 路南区数学试卷
- 南京初二上数学试卷
- 南宁三中小升初数学试卷
- 2025年云南省事业单位招聘考试综合类专业能力测试试卷(工程类)难点解析
- 2025年秋期人教版2年级上册数学核心素养教案(第6单元)(教学反思有内容+二次备课版)
- 2025内蒙古西部天然气蒙东管道有限公司招聘20人笔试参考题库附带答案详解(10套)
- 2025店铺租赁合同协议书下载
- 2025年国企财务招聘笔试题和答案(基础知识测试题)
- 9型人格培训课件
- 2025年银行安全保卫知识考试题库(含答案)
- 曲靖市商务局招聘公益性岗位人员考试真题2024
- 2025年青岛市中考英语试卷(含答案解析)
- 投资评价管理办法
- 2025年广东华南农业大学招聘事业编制工作人员考试笔试试题(含答案)
评论
0/150
提交评论