医科大学统计学全套精品课件_第1页
医科大学统计学全套精品课件_第2页
医科大学统计学全套精品课件_第3页
医科大学统计学全套精品课件_第4页
医科大学统计学全套精品课件_第5页
已阅读5页,还剩492页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

柏建岭bjlcn南京医科大学公共卫生学院生物统计学系,Medicalstatistics医学统计学,绪论(Introduction),2020/5/8,柏建岭讲稿,2,主要内容,引言学科定义基本概念学习要求,2020/5/8,柏建岭讲稿,3,天气预报,生活中的统计学,2020/5/8,柏建岭讲稿,4,社会经济中的统计学,2020/5/8,柏建岭讲稿,5,统计是什么?WhatisStatistics?,若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。FlorenceNightingal1820一1910,2020/5/8,柏建岭讲稿,6,统计学(Statistics),研究数据的收集、整理、分析的一门学科。Webster国际大词典Statisticsisthesciencedealingwiththecollections,analysis,interpretationandpresentationofmassesofnumericaldata.不列颠百科全书Statisticsisthescienceandartofdealingwithvariationindatathroughcollection,classificationandanalysisinsuchawayastoobtainreliableresult.,2020/5/8,柏建岭讲稿,7,7,数据处理的工具和技能,2020/5/8,柏建岭讲稿,8,统计学与医学研究的关系,医学研究中存在的大量随机现象同样的药治疗患有同一疾病的患者,疗效可以不同相同的生活条件,各人健康状况可以不同同样的年龄和性别,儿童的身高和体重可以不同几乎可以这样说:绝大部分的医学现象均是随机现象对于一个具体个体,其最终的结局是不可确切预计的,2020/5/8,柏建岭讲稿,9,统计学与医学研究的关系,但是在医学观察研究中,许多结果有一定的随机性,也有一定的内在规律。当这些个体事件大量重复时,则可以发现其中存在着一定的规律。如何对这些变化规律加以总结?,2020/5/8,柏建岭讲稿,10,统计学与医学研究的关系,例如:分别用2种药(A药和B药)治疗类风湿关节炎,各治疗10名类风湿关节炎患者。,问:A药疗效比B药疗效好吗?,2020/5/8,柏建岭讲稿,11,统计学与医学研究的关系,对于这些有一定随机性的结果,要根据发生的概率大小才能下结论。这就是医学统计学要解决的问题。研究医学中这些随机现象的发生规律的学科。,2020/5/8,柏建岭讲稿,12,医学统计学(MedicalStatistics),基础:概率论和数理统计等数学的原理、方法研究对象:医学资料研究任务:搜集、整理、分析和推断性质:一门应用学科,2020/5/8,柏建岭讲稿,13,数理统计学与生物医学的结合,生物统计学(Biostatistics)医学统计学(MedicalStatistics)卫生统计学(HealthStatistics),2020/5/8,柏建岭讲稿,14,基本概念,同质异质变异总体和样本参数和统计量随机概率和频率小概率事件和小概率原理变量的分类,2020/5/8,柏建岭讲稿,15,同质异质,同质(homogeneity):性质相同异质(heterogeneity):性质不同例如,调查某地2011年12岁男童身高,则它的观察单位是每一个儿童,它的同质基础是同一地区、同一年份、同一年龄、同为男性。个体的同质性是构成研究总体的必备条件研究内容(指标/变量)不同,对同质性的要求不同同质和异质是相对的概念,2020/5/8,柏建岭讲稿,16,在研究事物的形状时,同质和异质示例,在研究事物的颜色时,2020/5/8,柏建岭讲稿,17,制定血红蛋白参考值范围时,2020/5/8,柏建岭讲稿,18,制定白细胞参考值范围时,2020/5/8,柏建岭讲稿,19,变异,同质事物之间的差别称为变异(variation)亦称个体变异。变异的两个方面:个体与个体间的差别同一个体重复测量值间的差别,2020/5/8,柏建岭讲稿,20,个体变异(individualvariation),同质个体间的差异。一种或多种不可控因素(已知的或未知的)作用下所产生的反映的综合表现。结果是随机的(无法绝对正确地预测)。个体变异是普遍存在的。个体变异是有规律的。没有个体变异,就没有统计学!,2020/5/8,柏建岭讲稿,21,总体和样本,总体(population)按研究目的所确定的同质研究对象某项观察指标的全体,即全体观察单位。有限总体(finite)无限总体(infinite)个体(individual)组成总体的基本单位。,2020/5/8,柏建岭讲稿,22,总体和样本,样本(randomsample)从研究总体中随机抽取具有代表性的部分观察单位。代表性,包含了总体的特性样本含量(samplesize)样本中包含个体的数量。,2020/5/8,柏建岭讲稿,23,参数和统计量,总体参数(populationparameter)总体的特征值称为参数。未知的,固有的,不变的,需要研究的!样本统计量(samplestatistic)由样本所算出的统计指标或特征值称为统计量。已知的,变化的,有误差的!在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。,2020/5/8,柏建岭讲稿,24,参数和统计量,参数一般用希腊字母表示,如:总体均数总体标准差总体率p总体相关系数r统计量一般用拉丁字母表示如:样本均数样本标准差s样本率p样本相关系数r,2020/5/8,柏建岭讲稿,25,平均身高,总体,样本,平均身高,总体参数,样本统计量,2020/5/8,柏建岭讲稿,26,随机(random),机会均等,无主观影响抽样随机(randomsampling)有相同的机会被抽到分组随机(randomallocation)有相同的机会被分到不同的组中顺序随机(randomorder)有相同的机会先后接受处理,2020/5/8,柏建岭讲稿,27,频率和概率,频率(relativefrequency):在n次随机试验中,事件A发生了m次,则比值称为事件A在这n次试验中出现的频率。,2020/5/8,柏建岭讲稿,28,抛硬币试验在概率的统计学定义上的诠释,频率和概率,2020/5/8,柏建岭讲稿,29,2020/5/8,柏建岭讲稿,30,概率的统计学定义:数理统计学中的大数定理表明:当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数p:随机事件A发生的概率(probability)。概率描述了随机事件发生的可能性的大小。是一种参数。常用P来表示。0P1,频率和概率,2020/5/8,柏建岭讲稿,31,小概率事件(rareevent),当某事件发生的概率很小(可能性很小),统计学上称该事件为小概率事件。经典的小概率事件:瞎猫碰上死耗子医学上:小于或等于0.05,2020/5/8,柏建岭讲稿,32,小概率原理,小概率事件在一次试验中认为是不会发生的。,2020/5/8,柏建岭讲稿,33,变量,医学研究中,根据研究目的的要求对一些观察项目或研究指标在一些研究对象中进行观察(或测量),由于这些指标存在着变异,故把这些观察项目或研究指标称为随机变量,简称变量(variable)。观察结果对应的取值称为变量值或观察值。,2020/5/8,柏建岭讲稿,34,变量的分类,数值变量numericalVariable定量变量可认为是连续的,往往有单位,取值间的差异是可度量的。分类变量categoricalVariable取值是是分散、定性的,表现为互不相容的类别和属性。无序分类(定性变量):无顺序,无间隔,仅有分类二项分类多项分类有序分类(等级变量):仅有顺序,无单位,取值间的差异是不可度量的,2020/5/8,柏建岭讲稿,35,资料类型的判断,2020/5/8,柏建岭讲稿,36,不同分类的互相转化,数值变量无序分类变量数值变量有序分类变量有序分类变量无序分类变量信息量只有减少,不可增加,2020/5/8,柏建岭讲稿,37,三个步骤,研究设计运用医学统计学的起点,也是高质量地完成整个研究的重要基础。资料分析在研究设计基础上,通过实验(试验)或调查,将所得数据进行统计学处理的过程。结论在数据分析的基础上,应用统计学处理的结果,进行统计学推断;同时,依据相应的专业知识,作出专业性的结论。,2020/5/8,柏建岭讲稿,38,基本概念汇总,总体个体、个体变异,总体参数未知,样本代表性、抽样误差,随机抽样,样本统计量已知,统计推断,风险,2020/5/8,柏建岭讲稿,39,医学统计学思维,归纳型思维演绎型思维从样本到总体从个别到一般,2020/5/8,柏建岭讲稿,40,建立医学统计学思维,生物体的变异是普遍存在的,这种变异是有规律的;抽样误差是不可避免的,抽样误差是有规律的;统计推断是有风险的,这种风险是可以控制的。,2020/5/8,柏建岭讲稿,41,统计学的作用,工具发现规律,而不是创造规律概率论:规律性中的随机性统计学:随机性中的规律性,2020/5/8,柏建岭讲稿,42,学习医学统计学的要求,建立统计学思维学会从不确定性、机遇、风险和推断的角度去思考医学问题提高自身的科学素质和医学研究能力;学会设计结合专业作出严密的试验设计并获得可靠、准确、完整的资料;学会分析与表达学会运用统计方法充分挖掘资料中蕴含的信息,恰如其分地进行理性概括,写出具有科学认证的研究报告和学术论文。,2020/5/8,柏建岭讲稿,43,参考书籍,陆守曾陈峰主编医学统计学金丕焕陈峰主编医用统计方法,2020/5/8,柏建岭讲稿,44,Thankyou,柏建岭南京医科大学公共卫生学院生物统计学系,Medicalstatistics医学统计学,统计资料的整理与描述数值变量资料,2020/5/8,柏建岭讲稿,46,主要内容,个体变异频数分布表(图)定量指标的描述集中位置离散趋势总结,2020/5/8,柏建岭讲稿,47,个体变异(individualvariation),是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就个体而言:变异是随机的(random)。就总体而言:个体变异是有规律的。,2020/5/8,柏建岭讲稿,48,原始数据,100名成年男性血红细胞计数(1012/L)资料如下:,频数分布表和频数分布图,原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。解决:频数分布表的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。,2020/5/8,柏建岭讲稿,50,频数表编制步骤,求极差选定适当的组段数后估计组距列出组段划记归组获得频数求频率,完成频数表,2020/5/8,柏建岭讲稿,51,频数分布表的编制,求极差或全距(Range):R=Xmax-XminR=6.18-3.29=2.89选定适当的组段数后估计组距(i)组段数的选取以能反映资料的分布特征为宜一般取815组i=2.89/10=0.2890.3,2020/5/8,柏建岭讲稿,52,频数分布表的编制,列出组段组段的含义:包括组段的下限而不含组段的上限。如:3.20等价于3.20,3.50)第一个组段应包含最小值最后一个组段应包含最大值,2020/5/8,柏建岭讲稿,53,频数分布表的编制,划记归组获得频数常用的划记方法:“正”;“|”求频率,完成频数表相应的频数除以总数即为频率各组段的频率总和为1或者100%,100名成年男性血红细胞计数频数表,55,100名成年男子红细胞计数频数图,图2.1100名成年男性的血红细胞计数的频数分布,2020/5/8,柏建岭讲稿,56,频数分布表和频数分布图的用途,描述分布类型描述分布的特征便于发现特大、特小的可疑值便于计算有关指标、统计分析与处理,2020/5/8,柏建岭讲稿,57,频数分布类型,对称分布:以正态分布较为常见非对称分布:偏态分布正偏态:右侧左侧向右侧拖尾负偏态:左侧右侧向左侧拖尾,2020/5/8,柏建岭讲稿,58,频数分布特征,数据分布的范围:3.296.18集中位置:中等大小人数居多,向中间集中数据最集中的区间:4.705.00离散趋势:以中等大小的区间为中心,向两侧逐渐减少分布形态:基本对称,2020/5/8,柏建岭讲稿,59,2020/5/8,柏建岭讲稿,60,2020/5/8,柏建岭讲稿,61,2020/5/8,柏建岭讲稿,62,2020/5/8,柏建岭讲稿,63,数值变量资料的统计指标,集中位置的描述离散趋势的描述,2020/5/8,柏建岭讲稿,64,集中位置的描述-平均数(average),均数(arithmeticmean,mean),总体均数,样本均数,2020/5/8,柏建岭讲稿,65,平均数(average),加权均数(weightedmean)均数是加权均数的一个特例,2020/5/8,柏建岭讲稿,66,平均数(average),几何均数(geometricmean),2020/5/8,柏建岭讲稿,67,几何均数例,1:10,1:20,1:40,1:80,1:160,2020/5/8,柏建岭讲稿,68,平均数(average),中位数(median)将一组数据按从小到大的顺序排列,位置居中的数即是中位数。,2020/5/8,柏建岭讲稿,69,中位数例,9例正常人的发汞值(mol/kg):1.1,1.83.54.24.85.65.97.110.5M=4.810例正常人的发汞值:1.1,1.83.54.24.85.65.97.110.516.3M=(4.8+5.6)/2=5.2,2020/5/8,柏建岭讲稿,70,平均数(average),同样有十分位数、四分位数,百分位数(percentile),2020/5/8,柏建岭讲稿,71,M=P50,排序数据:按从小到大顺序排列,2020/5/8,柏建岭讲稿,72,平均数应用的注意事项,同质的资料计算平均数才有意义根据资料分布的特征选用适当的平均数均数:单峰对称分布的资料几何均数:各变量值之间成倍数关系,分布呈偏态,经对数变换后呈单峰对称分布资料中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。(偏态分布、不规则分布资料、有不确定值的资料),2020/5/8,柏建岭讲稿,73,平均数应用的注意事项,计算几何均数时:变量值中不能有0同一组变量值不能同时存在正、负值若变量值全为负值,可先将负号除去,算出结果后再冠以负号样本含量较少时不宜计算靠近两端的百分位数平均数要与变异指标结合使用,2020/5/8,柏建岭讲稿,74,看一个例子:,有甲、乙两组同性别同年龄儿童体重(kg):甲组26,28,30,32,34=30kgn甲=5乙组24,27,30,33,36=30kgn乙=5上述两组数据的特点:集中位置相同:均为30kg离散程度不同:各观察值离均数的远近不同,2020/5/8,柏建岭讲稿,75,离散趋势的描述,全距(Range)亦称极差,记为R,是一组变量值中最大值与最小值之差。优点:简单明了缺点:不灵敏、不稳定,2020/5/8,柏建岭讲稿,76,离散趋势的描述,四分位数间距(interquartilerange)定义为:QLQU,即中间一半观察值的极差。四分位数(quartile)是两个特定的百分位数:第25%分位数P25,和第75%分位数P75,分别记为QL和QU。四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。,2020/5/8,柏建岭讲稿,77,25%,25%,25%,25%,排序数据:按从小到大顺序排列,M,QL,QU,inter-quartilerange,Q2,Q1,Q3,2020/5/8,柏建岭讲稿,78,离散趋势的描述,方差(Variance)和标准差(StandardDeviation)总体均数未知,用样本均数估计,2020/5/8,柏建岭讲稿,79,标准差,“离均差平方之和平均后的方根”“均方根”,n-1称为(标准差的)自由度,即“可以自由变异的程度”分子有n项离均差,但只有n-1项独立,根据任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”。,2020/5/8,柏建岭讲稿,80,标准差大:分布分散、不整齐、波动大;标准差小:分布集中、整齐、波动较小。,2020/5/8,柏建岭讲稿,81,离散趋势的描述,变异系数(coefficientofvariation)亦称离散系数(coefficientofdispersion),是标准差s与均数之比,即:,2020/5/8,柏建岭讲稿,82,变异系数的两个特点及相应的用途,没有单位反映标准差占均数的百分比或标准差是均数的几倍可用来比较度量衡单位不同的资料的变异度不受平均水平的影响反映的是以均数为基数的相对变异的大小比较均数相差悬殊的资料的变异度,2020/5/8,柏建岭讲稿,83,某地20岁男子100人,身高均数为171.06cm,标准差为4.95cm;体重均数为61.54kg,标准差为5.02kg,试比较身高和体重的变异。,身高体重,2020/5/8,柏建岭讲稿,84,绝对变异受平均水平的影响相对变异排除了平均水平的影响,4个不同年龄组儿童身高(cm)的变异,2020/5/8,柏建岭讲稿,85,平均数与变异度的关系,平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征变异度越小,平均数对各变量值的代表性越好变异度越大,平均数对各变量值的代表性越差,2020/5/8,柏建岭讲稿,86,平均数与变异度的关系,通常,平均数与变异指标一起描述资料的分布特征。用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料的特征。,2020/5/8,柏建岭讲稿,87,资料的指标描述,统计描述的一个重要的组成部分数值变量资料的统计指标平均水平指标:算术均数、几何均数、中位数等。离散程度指标:全距、四分位数间距、方差、标准差、变异系数。分类资料的统计指标相对数指标,2020/5/8,柏建岭讲稿,88,Thankyou,正态分布NormalDistributionanditsApplications,Medicalstatistic医学统计学,90,正态分布的重要性,医学上某些指标服从或近似服从正态分布;很多统计方法是建立在正态分布基础上的;很多其他分布的极限为正态分布。,91,主要内容(Content),正态分布的概念及图形正态分布的特征正态分布曲线下面积的规律标准正态分布正态分布的应用总结,92,频数分布图,93,正态分布的概念及图形,94,正态分布的概念及图形,NormaldistributionGauss发现最早用于物理学、天文学Gaussiandistribution,95,96,正态分布的概率密度函数,如果随机变量X的概率密度函数为总体均数,为总体标准差为圆周率,e为自然对数的底X为变量,代表横轴的数值,f(X)为纵轴数值。则称X服从正态分布,记作XN(,2),其中,为分布的均数,为分布的标准差。,(-X+),97,正态分布图示,x,0,.1,.2,.3,.4,f(x),98,方差相等、均数不等的正态分布图示,99,均数相等、方差不等的正态分布图示,1,100,正态分布的特征,单峰分布;高峰在均数处;以均数为中心,均数两侧完全对称。正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。正态曲线下的面积分布有一定的规律。,101,正态曲线下的面积规律,X轴与正态曲线所夹面积恒等于1。对称区域面积相等。,S(-,-X),S(+X,)S(-,-X),102,正态曲线下的面积规律,对称区域面积相等。,S(-x1,-x2),-x1-x2+x2+x1,S(-x1,-x2)=S(+x1,+x2),103,正态曲线下的面积规律,-4-3-2-101234,-3-2-+2+3,S(-,-3)=0.0013,S(-,-2)=0.0228,S(-,-1)=0.1587,S(-,)=0.5,S(-,+3)=0.9987,S(-,+2)=0.9772,S(-,+1)=0.8413,S(-,)=1,104,正态曲线下的面积规律,-4-3-2-101234,-3-2-+2+3,1-S(-3,+3)=0.0026,1-S(-2,+2)=0.0456,1-S(-,+)=0.3174,105,正态曲线下的面积规律,-4-3-2-101234,-3-2-+2+3,S(-,-3)=0.0013,S(-,-2)=0.0228,S(-,-1)=0.1587,S(-,)=0.5,S(-,+3)=0.9987,S(-,+2)=0.9772,S(-,+1)=0.8413,S(-,)=1,106,1,107,正态曲线下的面积规律,正态分布的一个显著特点其曲线下面积完全决定于以标准差为单位从点X到的离差。,108,正态曲线下的面积规律,-1.96,+1.96,2.5%,2.5%,95%,109,正态曲线下的面积规律,110,正态曲线下的面积规律,-2.58,+2.58,0.5%,0.5%,99%,111,正态曲线下的面积规律,正态曲线下面积总和为1;正态曲线关于均数对称;对称的区域内面积相等;对任意正态曲线,按标准差为单位,对应的面积相等;-1.64+1.64内面积为90%;-1.96+1.96内面积为95%;-2.58+2.58内面积为99%。,112,标准正态分布,标准正态分布(standardnormaldistribution)是均数为0,标准差为1的正态分布。记为N(0,1)。标准正态分布是一条曲线。概率密度函数:,(-u+),113,正态分布转换为标准正态分布,若XN(,2),作变换:则u服从标准正态分布。u称为标准正态离差(standardnormaldeviation),114,图一般正态分布变成标准正态分布示意,XN(,2),uN(0,1),115,标准正态分布曲线下面积(u),u0.000.020.040.060.08-3.00.00130.00130.00120.00110.0010-2.50.00620.00590.00550.00520.0049-2.00.02280.02170.02070.01970.0188-1.90.02870.02740.02620.02500.0239-1.60.05480.05260.05050.04850.0465-1.00.15870.15390.14920.14460.1401-0.50.30850.30150.29460.28770.281000.50000.49200.48400.47610.4681,0,u,116,正态分布的应用,估计频数分布确定临床参考值范围,117,估计频数分布,出生体重低于2500g为低体重儿,某市婴儿出生体重均数3200g,标准差为s=350g。设该资料服从正态分布,试求该地低体重儿占该地所有出生婴儿的比例。,118,首先计算标准离差:查标准正态分布表:(-2)=0.0228结果:估计低体重儿的比例为2.28%.,119,思考题,标准正态分布曲线下-22范围内的面积?标准正态分布曲线下-21范围内的面积?,120,P(-2u2)=1-2P(u-2)=1-20.0228=0.9544P(-20.10按=0.10水准,不拒绝H0,差别无统计学意义。可以认为男女红细胞计数总体方差相等。,例4.8,H0:12,男女血小板计数总体均数相同;H1:12,男女血小板计数总体均数不同;=0.05。t=0.5719t0.05,28=2.048,P0.05按=0.05水准,不拒绝H0,差别无统计学意义,故尚且不能认为男女血小板计数有差别。,例4.11,随机抽取20只小鼠分配到A、B两个不同饲料组,每组10只,在喂养一定时间后,测得鼠肝中铁的含量(g/g),数据如下。试问不同饲料对鼠肝中铁的含量有无影响?,两组方差的比较(例4.11资料),(1)H0:12=22;H1:1222;=0.10。(2)F0.10,(9,9)3.18(3)P0.10按=0.10水准,拒绝H0,接受H1,可认为两种饲料喂养的鼠肝中铁含量的总体方差不相等。,方差不齐时的近似t检验,CochranIfthedataarenotconsistentwiththenullhypothesis,thedifferenceissaidtobestatisticallysignificant.P,差异无统计学意义这种差异不排除偶然性。Nostatisticalsignificance.,Significant的意义,有意义的;意味深长的表明.的(of)重要的,重大的,值得注意的有效的,有影响的非偶然的(notbychance),大纲要求,掌握假设检验的基本思想、原理及步骤。掌握样本均数与总体均数比较的t检验。掌握成组设计与配对设计两样本均数比较的t检验。熟悉t检验的应用条件。,大纲要求,掌握两类错误的概念。熟悉检验效能的概念及影响因素。了解假设检验应注意的问题。了解区间估计和假设检验的关系。,练习7,10例男性矽肺患者的血红蛋白(g/L)的均数为125.9(g/L),标准差为16.3(g/L),已知男性健康成人的血红蛋白正常值为140.2(g/L),问矽肺患者的血红蛋白是否与健康人不同。,H0:140.2,矽肺患者的血红蛋白与健康人相同;H1:140.2,矽肺患者的血红蛋白与健康人不同。=0.05tt0.05,9=2.262P0.05按=0.05的水准,拒绝H0,接受H1,差别有统计学意义。认为矽肺患者的血红蛋白与健康人不同。,练习7区间估计,本例自由度=10-1=9,经查表得t0.05,9=2.262,则矽肺患者的血红蛋白总体均数的95%CI:(114.24,137.56)g/dl,不包括男性健康成人的血红蛋白的总体均数140.2(mg/dl),所以说矽肺患者的血红蛋白与健康人不同。,练习8,某医院用某新药与常规药物治疗婴幼儿贫血,将20名贫血患儿随机等分两组,分别接受两种药物治疗,测得血红蛋白增加量(g/L)如下,问新药与常规药物的疗效有无差别?,H0:12,新药与常规药物的疗效相同;H1:12,新药与常规药物的疗效不同。双侧=0.05。=n1n22=10102=18t0.20,18=1.330,tt0.20,18,P0.20,差别无统计学意义,故尚且不能认为新药与常规药物的疗效有所不同。,练习9,将20名某病患者随机分为两组,分别用甲、乙两药治疗,测得治疗前后(治后一月)的血沉(mm/小时)如下。试问:(1)甲乙两药是否均有效?(2)甲乙两药的疗效有无差别?,练习9,分析思路,疗前两组同质性比较,以分析可比性;各组疗前疗后差值比较,分别确定各自的疗效;两组疗前疗后差值相互比较,分析两组的效果是否相同?,两组药物降血沉效果(mm/小时)的比较,疗前疗后差值甲药8.702.415.503.103.201.93乙药9.601.844.601.965.002.98,疗前两组方差齐性检验,F=1.7138,P=0.4345可以认为用药前两组方差齐,1=92=9,疗前两组差异比较t检验,t=0.94,P=0.3597可以认为两组具有可比性,=n1n22=18,甲药服药前后比较:,t=5.2372,P=0.0005可以认为甲药有降低血沉的作用。,=n-1=9,乙药服药前后比较:,t=5.3033,P=0.0005可以认为乙药亦有降低血沉的作用。,=n-1=9,两组服药前后差值相互比较:,t=1.6022,P=0.1265尚且不能认为两药降低血沉的效果有差别,=n1n22=18,综合结论,用药前两组具有可比性(t=0.481,P=0.637);服用甲药和乙药均有降低血沉的效果(t=5.2372,P0.001;t=5.3033,P,差异无统计学意义这种差异不排除偶然性。Nostatisticalsignificance.,Significant的意义,有意义的;意味深长的表明.的(of)重要的,重大的,值得注意的有效的,有影响的非偶然的(notbychance),大纲要求,掌握假设检验的基本思想、原理及步骤。掌握样本均数与总体均数比较的t检验。掌握成组设计与配对设计两样本均数比较的t检验。熟悉t检验的应用条件。,大纲要求,掌握两类错误的概念。熟悉检验效能的概念及影响因素。了解假设检验应注意的问题。了解区间估计和假设检验的关系。,练习7,10例男性矽肺患者的血红蛋白(g/L)的均数为125.9(g/L),标准差为16.3(g/L),已知男性健康成人的血红蛋白正常值为140.2(g/L),问矽肺患者的血红蛋白是否与健康人不同。,H0:140.2,矽肺患者的血红蛋白与健康人相同;H1:140.2,矽肺患者的血红蛋白与健康人不同。=0.05tt0.05,9=2.262P0.05按=0.05的水准,拒绝H0,接受H1,差别有统计学意义。认为矽肺患者的血红蛋白与健康人不同。,练习7区间估计,本例自由度=10-1=9,经查表得t0.05,9=2.262,则矽肺患者的血红蛋白总体均数的95%CI:(114.24,137.56)g/dl,不包括男性健康成人的血红蛋白的总体均数140.2(mg/dl),所以说矽肺患者的血红蛋白与健康人不同。,练习8,某医院用某新药与常规药物治疗婴幼儿贫血,将20名贫血患儿随机等分两组,分别接受两种药物治疗,测得血红蛋白增加量(g/L)如下,问新药与常规药物的疗效有无差别?,H0:12,新药与常规药物的疗效相同;H1:12,新药与常规药物的疗效不同。双侧=0.05。=n1n22=10102=18t0.20,18=1.330,tt0.20,18,P0.20,差别无统计学意义,故尚且不能认为新药与常规药物的疗效有所不同。,练习9,将20名某病患者随机分为两组,分别用甲、乙两药治疗,测得治疗前后(治后一月)的血沉(mm/小时)如下。试问:(1)甲乙两药是否均有效?(2)甲乙两药的疗效有无差别?,练习9,分析思路,疗前两组同质性比较,以分析可比性;各组疗前疗后差值比较,分别确定各自的疗效;两组疗前疗后差值相互比较,分析两组的效果是否相同?,两组药物降血沉效果(mm/小时)的比较,疗前疗后差值甲药8.702.415.503.103.201.93乙药9.601.844.601.965.002.98,疗前两组方差齐性检验,F=1.7138,P=0.4345可以认为用药前两组方差齐,1=92=9,疗前两组差异比较t检验,t=0.94,P=0.3597可以认为两组具有可比性,=n1n22=18,甲药服药前后比较:,t=5.2372,P=0.0005可以认为甲药有降低血沉的作用。,=n-1=9,乙药服药前后比较:,t=5.3033,P=0.0005可以认为乙药亦有降低血沉的作用。,=n-1=9,两组服药前后差值相互比较:,t=1.6022,P=0.1265尚且不能认为两药降低血沉的效果有差别,=n1n22=18,综合结论,用药前两组具有可比性(t=0.481,P=0.637);服用甲药和乙药均有降低血沉的效果(t=5.2372,P0.001;t=5.3033,P5样本率p的抽样分布近似正态分布。,总体率的区间估计(二),总体率(p)95%的可信区间为:总体率(p)99%的可信区间为:,例6.2,从某地人群中随机抽取144人,检查乙型肝炎表面抗原携带状况,阳性率为9.03%,求该地人群的乙型肝炎表面抗原阳性率的95%可信区间。95%可信限为:9.03%1.962.39%即该地人群的乙型肝炎表面抗原阳性率的95%可信区间为:4.35%13.71%。,样本率与总体率的比较,目的:推断该样本所代表的未知总体率与已知的总体率是否不等。n较大时,正态近似法n较小时,直接计算概率法,6.3两样本率的比较,目的:推断两总体率是否不等两样本率比较的u检验(utest)两样本率比较的2检验(chi-squaretest),Page391,两样本率的比较的u检验,正态近似法当n1,n2均较大,p1,p2,(1-p1),(1-p2)均不太小,如n1p1,n2p2,n1(1-p1),n2(1-p2)均大于5时,可用u检验。,两样本率比较的2检验,读作chi2:卡方2检验(chi-squaretest)是现代统计学的创始人KarlPearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法。,例6.5,某医师在用蛙王露口服液治疗贫血的临床试验中,将109名受试者随机分为两组,一组为试验组,接受蛙王露口服液的治疗,结果为有效43人,无效10人;另一组为对照组,接受复方阿胶浆的治疗,结果为有效40人,无效16人,问两组有效率有无差别?,例6.5,四格表(fourfoldtable),理论频数(theoreticalfrequence),如果两个样本来自同一总体,则两组有效率相同,则用合计的有效率作为总体率估计值。在这样的假设前提下,可以计算各组理论频数(theoreticalfrequency)T。,76.15,理论频数,40.36,理论频数的计算,理论频数,12.64,理论频数,理论频数,76.15,42.64,13.36,四格表的理论频数由下式求得:,式中:TRC为第R行C列的理论频数,nR为相应的行合计,nC为相应的列合计。,2检验的基本思想(1),通过构造A与T吻合程度的统计量来反映两样本率的差别!,实际数A理论数T,如果H0假设成立,则实际频数与理论频数应该比较接近。差值属于随机误差,用2统计量表示:,H0成立时,实际数与理论数的差别不会很大,出现较大2值概率很小。如果实际频数与理论频数相差较大,2检验统计量超出了界值,则拒绝H0。若P,则拒绝H0;若P,则尚无理由拒绝它。,2检验的基本思想(2),第一步:建立检验假设,H0:两总体有效率相等,即1=2;H1:两总体有效率不等,即12。,第二步:确定检验水准,=0.05(双侧检验),第三步:计算检验统计量,式中:A为实际频数(actualfrequency)T为理论频数(theoreticalfrequency),表6.2表6.1资料理论频数的计算,T11=5383/109=40.36;T12=5326/109=12.64T21=5683/109=42.64;T22=5626/109=13.36。,衡量理论数与实际数的差别,a+x,b-x,c-x,d+x,第四步:确定P值,下结论,第四步:确定P值,下结论,由于四格表资料为双边固定形式,即假设行合计与列合计均固定,所以四格表的自由度=1,自由度为1的2分布,0.0,0.1,0.2,0.3,0.4,0.5,自由度为2的2分布,2分布,0.0,0.1,0.2,0.3,0.4,0.5,自由度为1的2分布界值,0.0,0.1,0.2,0.3,0.4,0.5,由2界值表查得20.05,1=3.84,即理论上如果H0成立,则2有95%的可能在03.84之间,23.84的可能性只有0.05,是一小概率事件。,本例2=1.410.05。按=0.05水准不拒绝H0,差别无统计学意义。故尚不能认为两组总体有效率不相同。,基本思想概括,若H0成立,则四个格子的实际频数A与理论频数T之差异纯系抽样误差所致,故一般不会很大,2值也就不会很大;在一次随机试验中,出现大的2值的概率P是很小的。,因此,若根据实际样本资料求得一个很小的P,且P(检验水准),根据小概率原理,就有理由怀疑H0的真实性,因而拒绝它;若P,则没有理由拒绝H0,四格表资料2检验专用公式,四格表2的检验的应用条件:,n40,T5,用2;n40,但1T5,用校正2。n40,或T1,用Fisher精确概率计算法。,多(R)个率的比较,其基本数据有R行2列,构成R2表,用以表述R个率的基本数据。R2表的2检验用于推断R个样本率各自所代表的总体率是否相等。,6.4多组率或构成比的比较,多个样本率的比较的公式,【例6.8】某县防疫站观察三种药物驱钩虫的疗效,在服药后7天得粪检钩虫卵阴转率(%)如下,问三药疗效是否不同?,多个率比较的2检验,3个率比较的2检验步骤,H0:1=2=3H1:1,2,3不等或不全相等0.05。计算统计量:,v=2,自由度为2的2分布界值,P=0.05,所以按=0.05水准,不拒绝H0,差别无统计学意义。结论:Fisher精确概率法检验表明,根据现有资料尚不能认为两法疗效不等(P=0.2721)。,2检验的应用条件(1),四格表的分析方法选择条件:n40,T5,用2;n40,但140;20b+c40用校正2。b+c20,二项分布直接计算概率。,2检验的应用条件(2),RC表的分析方法选择条件:理论数不能小于等于1;理论数大于1小于等于5的格子数不超过总格子数的1/5。,如果以上条件不能满足,可采用:增加样本含量删去某行或某列合理地合并部分行或列Fisher精确概率法,2检验的应用条件(3),Manythanks,等级资料的秩和检验,柏建岭,DepartmentofBiostatistics,SchoolofPublicHealthNanjingMedicalUniversity,RankSumTestofRankedData,Biostatistics,443,资料的分类,数值变量资料分类资料,二分类多分类,无序多分类有序多分类(等级资料),Biostatistics,444,内容提要:,1医学研究中的等级资料2秩次与秩和3两样本比较的秩和检验4多样本比较的秩和检验5配对设计的秩和检验6秩和检验的正确应用,Biostatistics,445,1医学研究中的等级资料,疗效:痊愈、显效、有效、无效、恶化化验结果:、+、+体格发育:下等、中下、中等、中上、上等心功能分级:I、II、III文化程度:小学、中学、大学、研究生营养水平:差、一般、好,Biostatistics,446,等级资料的特点,既非呈连续分布的定量资料,也非仅按性质归属于独立的若干类的定性资料;比“定量”粗,而比一般的“定性”细;等级间既非等距,亦不能度量。,Biostatistics,447,2秩次与秩和,Wilcoxon在1945年首先提出了比较两个总体分布函数的秩和检验。秩和检验以及其它的秩检验法,都是建立在秩及秩统计量基础上的非参数方法。秩次(rank),秩统计量是指全部观察值按某种顺序排列的位序;秩和(ranksum)同组秩次之和。,Biostatistics,448,例1编秩,A组:、+、+、+、+B组:+、+、+、+、+、+,A:+B:+,123457689101112,124.54.54.58.54.58

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论