




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、首都医科大学首都医科大学公共卫生与家庭医学学院公共卫生与家庭医学学院流行病与卫生统计学系流行病与卫生统计学系医学统计学医学统计学参数估计参数估计n抽样分布与标准误 nZ分布与t分布 n总体参数估计抽样分布抽样分布n卡方分布n t 分布n F 分布总体与样本总体与样本n总体总体(population):根据研究目的确定的同质观察单位的全体n样本样本(sample):从总体中随机抽取部分观察单位,其实测值的集合n为何要进行抽样研究?n对无限总体来讲是唯一可行的方法n对有限总体的也可节省人力和材料,增加研究工作的可行性参数与统计量参数与统计量n参数参数(parameter): 描述总体特征的统计指标
2、n如: (总体均数)、(总体标准差)n统计量统计量(statistic): 由样本数据计算得到的统计指标量n如: (样本均数)、S (样本标准差)X抽样研究的目的抽样研究的目的n抽样研究是期望通过样本提供的信息来推断总体特征,即统计推断(statistical interference);其主要内容:n参数估计参数估计:用样本均数、样本率推断总体均数、总体率n假设检验假设检验:用推理的方法来判断某个(某几个)样本是否来源于预先假设的总体均数的抽样误差均数的抽样误差n概念概念:样本均数与总体均数之间的差异( -)或样本均数之间的差异都是由于抽样引起的,称为均数的抽样误差。对于抽样研究,抽样误差不
3、可避免n产生原因产生原因:n个体差异即变异n样本只是部分研究对象n控制方法控制方法:n改进抽样方法n增加样本量X均数的抽样误差均数的抽样误差 n影响均数的抽样误差大小的因素有两个:n总体内各个个体间的变异程度n样本的含量n的大小与样本量的关系与样本量的关系:S S 一定,一定,nn,标准误,标准误抽样误差抽样误差X1同同一一总总体体中中抽抽样样X2XiX 1S1X 2 S2 X ISiX nSn均数的抽样误差均数的抽样误差XThe sample mean has a sampling distributionSampling batches of Scottish soldiers and t
4、aking chest measurements. Pop mean = 39.8 in, Pop sd = 2.05 in12345678910121134363840424446(a) 12 samples of size n = 6SamplenumberChest measurement (in.)From Chance Encounters by C.J. Wild and G.A.F. Seber, John Wiley & Sons, 1999.Twelve samples of size 2434363840424446(b) 12 samples of size n
5、= 24SamplenumberChest measurement (in.)123456789101211From Chance Encounters by C.J. Wild and G.A.F. Seber, John Wiley & Sons, 2000.ContdHistograms from 100,000 samples(c ) n = 1 0 0(b ) n = 2 43 93 83 74 04 14 23 93 83 74 04 14 23 93 83 74 04 14 20 .00 .51 .01 .50 .00 .51 .00 .00 .5S a m p le m
6、 e a n o f c h e st m ea su rem e n ts (in .)(a ) n = 6F ig u re 7 .2 .2S ta n d a rd ise d h isto g ra m s o f th e sa m p le m e a n s fro m 1 0 0 ,0 0 0 sa m p le s o f so ld ie rs (n so ld ie rs p e r sa m p le ).F ro m C h a n c e E n co u n ters b y C .J. W ild an d G .A .F. S eb er, Jo h n W
7、iley & S o n s, 2 0 0 0 .中心极限定理中心极限定理(central limit theorem)nn从正态分布N(,2)总体中,以固定n 抽取样本,样本均数 的分布仍服从正态分布 n即使是从偏态分布总体抽样,只要n足够大,样本均数 的分布也近似正态分布n样本均数 的总体均数仍为,样本均数的标准差为:XXX2N( ,) XX/n抽样分布抽样分布 抽样分布示意图抽样分布示意图抽样误差的分布抽样误差的分布n理论上可以证明:若从正态总体 中,反复多次随机抽取样本含量固定为n 的样本,那么这些样本均数 也服从正态分布,即 的总体均数仍为 ,样本均数的标准差为 中心极限定理
8、中心极限定理: : 当样本含量很大的情况下,无论原始测量变量服从当样本含量很大的情况下,无论原始测量变量服从什么分布,什么分布, 的抽样分布均近似正态的抽样分布均近似正态 X抽样分布抽样分布 抽样分布示意图抽样分布示意图Central Limit Effect - Histograms of sample meansn = 2n = 1n = 4n = 1001234560.00.20.40.60.81.00120.00.40.81.201234560.00.20.40.60.81.0(a) Exponential01230.00.20.40.60.81.0012340.00.20.40.60
9、.8From Chance Encounters by C.J. Wild and G.A.F. Seber, John Wiley & Sons, 2000.Central Limit Effect - Histograms of sample meansn = 2n = 1n = 4n = 100.00.20.40.60.81.001230.00.20.40.60.81.001230.00.20.40.60.81.001230.00.20.40.60.81.001230.00.20.40.60.81.00123(b) Quadratic UFrom Chance Encounter
10、s by C.J. Wild and G.A.F. Seber, John Wiley & Sons, 2000.n样本均数的标准差 (亦称标准误标准误,standard error)是说明均数抽样误差大小的指标n标准误大,抽样误差大;反之,抽样误差小。其大小与成正比,与样本含量n的平方根成反比n样本均数的变异越小说明估计越精确,因此可以用标准误表示抽样误差的大小:标准误标准误(Standard Error)nXn实际中总体标准差 往往未知,可用样本标准差S作为的估计值,计算标准误的估计值:n对计量资料,其计算公式为:标准误标准误(Standard Error)XSnSSX n例:在某
11、地随机抽查成年男子140人,计算得红细胞均数4.771012/L,标准差0.38 1012/L ,试计算均数的标准误?n标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较标准误标准误(Standard Error)120.380.032( 10/L)140XSSn n根据中心极限定理,即使样本统计量所来自的总体不服从正态分布,当样本含量n足够大时,样本均数也近似地服从正态分布。可由公式作标准正态变换 n如果样本均数的分布服从一般正态分布 ,则Z Z 分布分布XznX/Z分布2,XNWilliam Sealey Gosset(1
12、876.61937.10)t t 分布分布n英国统计学家Gosset于1908年以笔名“Student”发表了一篇论文n提出了t 分布的理论n又称为学生t 分布(Stuents t-distribution) 1 1、t t分布的概念:分布的概念:n为了应用方便,对正态变量X进行z变换后,可使一般的正态分布N(,2)变换为标准正态分布N(0,1)n样本均数( )的分布服从正态分布 ,同理,对正态变量进行z变换后,也可使正态分布变换为标准正态分布N(0, 1)jXX123,XXX t t 分布分布2,XNn由于实际工作中,往往是未知的,常用S作为的估计值,此时就不是统计量z而改为统计量t,即t分
13、布nt分布的发现,开创了小样本统计推断的新纪元nt分布主要用于总体均数的区间估计及t检验, = -1/XXXtnSSnt t 分布分布 n1 1、概念:、概念:t t 分布分布. 1),(,321ntSXNXXXXXn分布,自由度服从服从正态分布自由度及其意义自由度及其意义 n自由度是统计学术语,其意义是随机变量能“自由”取值的个数n如:对于一个 n=4 的样本,若已知 ,有三个数据是“自由”的,一旦三个数据确定了(例如4,3,7),受到 这个条件的限制,第四个数据只能是6,否则 因而这里的自由度n更一般意义上,任何统计量的自由度5X5X3141 n限制条件的数目 n5X不同自由度下的t 分布
14、图 t 分布的特征分布的特征 n以0为中心,左右对称的单峰分布;n t分布曲线是一簇曲线,其形态变化与自由度的大小有关; t分布的峰部矮而尾部翘得较高n当 ,因 逼近 ,t分布逼近z分布,故标准正态分布是t分布的特例XXS-5-4-3-2-10123452 2、图形特征、图形特征t t 分布分布n1)以0为中心,左右对称n2)形状与自由度有关n3)随自由度增大逼近标准正态分布00.10.20.30.40.5-6-5-4-3-2-10123456tf(t)t分布图P t分布曲线下的面积分布曲线下的面积t,t界值表界值表n该表的横标目横标目为自由度 ,纵标目纵标目为概率P P,表中数值为其相应的t
15、 t界值界值,记作t t , , ( ( 为检验水准为检验水准) )n阴影部分表示t,以外尾部面积占总面积的百分数,即概率Pnt分布是以0为中心的对称分布,表中只列出正值,不管t值正负只用绝对值 t t分布界值表分布界值表(附表(附表C2_560 -561C2_560 -561页页 ) 横标目:自由度,横标目:自由度, 纵标目:概率,纵标目:概率, p, p, 即曲线下阴影部分的面积即曲线下阴影部分的面积; ; 表中的数字:相应的表中的数字:相应的 |t | |t | 界值。界值。t- t单尾概率与双尾概率单尾概率与双尾概率n单尾概率单尾概率:一侧尾部面积n双尾概率双尾概率:两侧尾部面积之和n
16、单侧单侧t t0.05,200.05,20=1.725=1.725 表示=20时,t1.725的概率或t-1.725的概率分别为0.05,记作P(t-1.725)=0.05或P(t1.725)=0.05 n双侧双侧t t0.05,200.05,20=2.086=2.086 表示=20时,绝对值2.086的t值占曲线下面积的5,也就是说出现绝对值比2.086大的可能性小于0.05单尾概率与双尾概率单尾概率与双尾概率 更一般的表示法:更一般的表示法:n单侧:P(t-t, )= 或 P(t t, )= n双侧:P(t- t/2, ) P(tt/2, )= n反之,P(t,/2 t t2 则 P1 5
17、0)总体均数的估计总体均数的估计服从标准正态分布(Z分布)nXz/95. 096. 1/96. 1nXP95. 096. 196. 1nXnXP)96.1 ,96.1(XXXX),(2/2/XXzXzX一般情况一般情况其中 为标准正态分布的双侧界值 可信区间:可信区间:2/zv 5v 1v ( )f t标准正态分布可信区间的计算可信区间的计算 n(二) 未知,或样本数量大(n50)总体均数的估计总体均数的估计 通常未知,这时可以用其估计量S 代替,但 已不再服从标准正态分布,而是服从著名的 t 分布)/()(nSX可信区间的计算可信区间的计算 n(二) 未知,或样本数量大(n50)总体均数的估
18、计总体均数的估计计算原理与前相同,仅仅是两侧概率的界值有些差别1)/()(2/)(2/tnSXtP/2,/2,(.) 1XXPXXt St S 可信区间:可信区间:). .()(2/)(2/XXStXStX,/2,t为自由度为 ,可信度为- 的t临界值(双尾)可信区间的计算可信区间的计算 n(二) 未知,或样本数量大(n50)总体均数的估计总体均数的估计注意注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本情况下(如n100),也可以用 替换 近似计算2/z2/t 可信区间:可信区间:). .()(2/)(2/XXStXStX,/2,t为自由度为 ,可信度为- 的t临界值
19、(双尾)Finding the Critical Value, ZnConsider a 95% confidence interval:Z= -1.96Z= 1.960.9510.02520.0252Point EstimateLower Confidence LimitUpperConfidence LimitZ units:X units:Point Estimate01.96ZCommon Levels of ConfidencenCommonly used confidence levels are 90%, 95%, and 99%Confidence LevelConfidenc
20、e Coefficient, Z value1.281.6451.962.332.583.083.270.800.900.950.980.990.9980.99980%90%95%98%99%99.8%99.9%1xIntervals and Level of ConfidenceConfidence Intervals Intervals extend from to (1-)x100%of intervals constructed contain ; ()x100% do not.Sampling Distribution of the MeannZXnZXxx1x2/2/21xix6n
21、例 对某人群随机抽取20人,用某批号的结核菌素作皮试,平均侵润直径为10.9mm,标准差为3.86mm。问这批结核菌素在人群中使用时,皮试的平均侵润直径的95及99置信区间是多少?n本例n=20,则=19,=0.05(双侧),查附表2,t0.05,19=2.093,按式计算3.863.8610.92.093, 10.92.09320209.1, 12.79595置信区间置信区间同理,99置信区间 (8.5,13.4)n本例该人群皮试的平均侵润直径虽不能确切地知道其数值,但有95的可能性在9.112.7mm这个区间,有99的可能性在8.513.4mm这个区间n换句话说,作出平均侵润直径在9.11
22、2.7mm的结论,说对的概率是95,说错的概率是5;作出平均侵润直径在8.513.4mm的结论,说对的概率是99,说错的概率是1n在作区间估计时,每次的结论的正确与否是偶然的。既然说对的把握大到95或99之多。我们就相信这一结论,但并不是说总体均数所在的这一区间是绝对正确的意意 义义n某卫生防疫站为了解某厂所生产的同一批罐装午餐肉中亚硝酸盐的含量,随机抽取了该批罐装午餐肉10听,测得亚硝酸盐含量的样本均数为17.6mg/kg,标准差为1.64mg/kgn试估计该批罐装午餐肉中亚硝酸盐含量的95CI ?习习 题题XXSXSX96.1,96.1XXSXSX58. 2,58. 2 区间估计区间估计
23、1. 1. 当当n n足够大时足够大时,n总体均数的95%95%的置信区间:n总体均数的99%99%的置信区间的置信区间:总体均数的估计总体均数的估计 例:求140名正常人的空腹血糖的95%与99%的区间(88.55-1.961.096, 88.55+1.961.096) 即: (86.40 , 90.70)(88.552.581.096, 88.552.581.096) 即: (85.72 , 91.38) 可信区间的计算可信区间的计算 总体均数的估计总体均数的估计 区间估计区间估计 2. 当当 n 较小且总体方差未知时较小且总体方差未知时, , 总体均数的置信区间:n例2 测得25名1岁婴
24、儿血红蛋白均数为123.7g/L,标准差为11.9g/L。计算1岁婴儿血红蛋白均数的95%可信区间?XXStXStX,2/,2/,25/9 .11064. 27 .123,25/9 .11064. 27 .12305. 0,24125查表查表064. 224, 2/05. 0t总体均数的估计总体均数的估计置信区间的含义置信区间的含义n从总体中作随机抽样,每个样本可以算得一个置信区间,如95置信区间,意味着做100次抽样,算得100个置信区间,平均有95个置信区间包括总体均数(估计正确),只有5个置信区间不包括总体均数(估计错误)n5是小概率事件,实际发生的可能性小,因此,在实际应用中就认为总体
25、均数在算得的置信区间内。这种估计方法会冒5的风险置信区间的两个要素置信区间的两个要素n准确度准确度 反映在可信度(1-)的大小上,即可信区间包含总体均数的可能性大小,从准确度的角度看,愈接近1愈好,如可信度99%比95%好n精密度精密度 反映在可信区间的长度上,即长度愈小愈好 三、模拟实验三、模拟实验 模拟抽样成年男子红细胞数。设定模拟抽样成年男子红细胞数。设定: : 产生产生100100个随机样本,分别计算其个随机样本,分别计算其95%95%的可信区间,的可信区间,结果用图示的方法表示。从图可以看出:绝大多数结果用图示的方法表示。从图可以看出:绝大多数置信区间包含总体参数置信区间包含总体参数
26、 ,只有,只有6 6个置信区间个置信区间没有包含总体参数(用星号标记)。没有包含总体参数(用星号标记)。14039.075.4n,754. 图图4-2 4-2 模拟抽样成年男子红细胞数模拟抽样成年男子红细胞数100100次的次的95%95%可信区间示意图可信区间示意图 )14039.075.4(n,*置信区间置信区间概念概念:估计可能包含未知总体估计可能包含未知总体参数的一个范围,范围内包括参数的一个范围,范围内包括总体参数的置信程度为总体参数的置信程度为(1-1-)(95%95%,99% 99% 指可信度)指可信度)范畴范畴:统计推断:统计推断用途用途:估计未知总体参数所在:估计未知总体参数所在 范围范围计算公式:计算公式: 正态分布,正态分布,未知:未知: 非正态分布,但非正态分布,但n30,n30,有有 或或 参考值范围参考值范围概念概念:个体值的波动范围,即:个体值的波动范围,即按事先给定的范围按事先给定的范围绝大多数正绝大多数正常人的某指标范围常人的某指标范围(1-1-)所确所确定的定的“正常人正常人”解剖、生理、解剖、生理、生化指标的波动范围生化指标的波动范围 (95%95%,99%, 99%, 指绝大多数正常人)指绝大多数正常人)范畴范畴:统计描述:统计描述用途用途:供判断观察个体的某项:供判断观察个体的某项指标是否指标是否“正常正常”时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 检查检修现场管理制度
- 生态养殖基地管理责任书
- 人力资源行业出生日期及全面工作证明(7篇)
- 供应商质量合同书
- 农业气候智能适应-洞察及研究
- 专业物流仓储合作协议
- 语文作文技巧:记叙文写作方法与实例解析教案
- 农业领域战略转型与绿色发展合作框架协议
- 二合成考试题及答案
- 绿化修剪面试题及答案
- 英语歌曲欣赏troubleisafriend
- 邮轮乘务员职业道德与素养PPT完整全套教学课件
- 有限责任公司章程两个及以上股东样本
- 山东开放大学工作人员招聘考试真题2022
- 夏季预防中暑及中暑急救培训PPT
- 地缘政治与中国的地缘战略
- DB11T 065-2022电气防火检测技术规范
- 2022年和政县政务中心综合窗口人员招聘笔试试题及答案解析
- 铝电解电容器
- GB/T 10653-2001高聚物多孔弹性材料压缩永久变形的测定
- 幼儿园突发事件应急处置流程图
评论
0/150
提交评论