统计总结2008.doc_第1页
统计总结2008.doc_第2页
统计总结2008.doc_第3页
统计总结2008.doc_第4页
统计总结2008.doc_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

总体:按研究目的确定的研究对象中所有观察单位的总和。(是指按研究目的所确定的研究对象中所有观察单位某项指标取值的集合)有限总体无限总体样本:从研究总体中随机抽取的具代表性的部分观察单位的总和。(是指从研究总体中随机抽取具有代表性的部分观察单位某项指标取值的集合。)样本含量n 随机抽样同质(homogeneity)指观察单位具有相同的性质,对观察单位有影响的因素相同或相近。 同质是相对的,不是绝对的。变异(variation)同质事物间存在的差别(个体间存在的差别)就叫做变异。 参数(parameter):描述总体特征的有关指标。(总体参数) 总体平均数(m)、总体标准差(s)和总体率(p)。统计量(statistic):反映样本特征的有关指标。(样本统计量) 样本均数( )、样本标准差(s)和样本率(p)等。总体参数是固有、不变的,样本统计量随抽样的变化而变化,但分布有规律。用统计量去估计总体参数参数估计。 变量(variable) :反映总体中观察单位的特征资料(data):变量的测得值,也称变量值或观察值(指观察单位的原始记录,或从原始记录过录者。根据资料的性质,并根据研究目的,将其分为三类:定量资料:以定量值表达每个观察单位的某项观察指标。各观察单位间只有量的差别;数据间有连续性。定性资料:以定性方式表达每个观察单位的某项观察指标。各观察单位间或者相同,或者存在质的差别;有质的差别者之间无连续性。等级资料:以等级方式表达每个观察单位的某项观察指标。各观察单位间或者相同,或者存在质的差别;各等级间只有顺序,而无数值大小,故等级之间不可度量。 概率(probability)是随机事件发生可能性大小的度量,常用P来表示,取值范围为0P1。小概率事件 当某随机事件发生的概率小于或等于0.05时,统计学上称该事件为小概率事件,表示发生的可能性很小。小概率原理:在一次独立实验中小概率事件不可能发生。 统计推断的理论依据判断 正偏态:分布的尾部偏向数轴正侧又称右偏态。负偏态:分布的尾部偏向数轴负侧又称左偏态。定量资料的统计指标 集中趋势描述常见的平均数(average)有算术平均数、几何平均数和中位数。 算术均数的应用 1、反映平均水平,作为样本的代表值与其他样本进行比较。2、适用于描述单峰对称分布,尤其是正态分布或近似正态分布资料的集中趋势。3、描述正态分布的特征几何均数(G)的应用注意事项 1、几何均数常用于等比资料或对数正态分布资料。2、观察值中若有0或负值,则不能直接使用几何均数。3、观察值不能同时有正值和负值。若全是负值,计算时可先把负号去掉,得出结果后,再加上负号。4、同一组资料求得几何均数小于算术均数。中位数(median,M) 百分位数 位置指标 PX P50中位数 中位数的应用注意事项 1、中位数可用于各种分布的资料。2、中位数不受极端值的影响。3、适用于偏态分布资料、两端无确切值或分布不明确的资料。离散趋势的描述指标有:全距、四分位数间距、方差、标准差及变异系数,其中以标准差和变异系数最为常用。各自特点:全距虽简单,但不灵敏,不稳定;四分位数常与中位数一起描述不对称分布资料的特征。标准差和方差均反映个体变异,个体变异度越大,标准差和方差也越大,反之亦然。标准差直接地、总结地、平均地描述了变量值的离散程度。在同质的前提下,标准差越大表示变量值的离散程度越大,即变量值的分布分散、不整齐、波动较大。反之,标准差越小表示变量值的离散程度越小,即变量值的分布集中、整齐、波动较小。 变异系数派生于标准差,它的应用价值在于排除了平均水平的影响,而且消除了单位。三种平均数的特点 1、算术均数 根据全体观察值计算得到,其计算较为简单,通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端值(相对地说特大特小值)或资料呈偏态分布,算术平均数就变的不稳定而失去代表性。2、几何均数 根据全部观察值相乘后开n次方计算得到只适宜于等比资料或对数正态分布资料,此时用几何均数反映集中趋势比算术均数或中位数更合适。3、中位数 将全部观察值按由小到大的顺序排列后,取中间位置所对应的量值不受其前后其他数值(特别是极端值)的影响。因此在抗极端值的影响方面,中位数比均数具有较好的稳定性,但不如均数精确。当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。三者联系:对于正态分布资料,中位数等于均数;对于对数正态分布资料,中位数等于几何均数。定量资料(数值资料)用均数、标准差、中位数、百分位数等描述定性资料(无序分类)二项分类:男女、阳性阴性、正常异常多项分类:血型等级资料(有序分类):+、+、+、+ 分类资料的统计描述率、构成比和相对比等率(rate)又称频率指标。某现象实际发生数与可能发生总数之比。说明某现象发生的频率与强度。注意点:分母为同时期可能发生某现象的观察单位总数构成比(proportion) 又称构成指标。表示某一事物内部各组成部分所占的比重或频率,常以百分数表示。相对比(ratio) 简称比,是两个有关指标之比。说明甲指标是乙指标的几倍或几分之几。两个指标可以是绝对数,也可以是相对数或平均数;性质可以相同,也可以不同;可以是定量资料,也可以是定性资料。 应用相对数的注意事项1、计算相对数尤其是率时分母不宜过小 观察单位数过小,导致偶然性增大。计算相对数尤其是率时应有足够数量的观察单位数或观察次数。如果观察单位较少时(一般指30例以内),最好用绝对数表示。如果观察单位较少,又必须用率表示时,可同时列出其可信区间。2、分析时切不能以构成比代替率 构成比表示事物内部各组成部分所占的比重或分布。率表示某现象发生的频率或强度。易发生混用错误的两种情况:相同时期率的比较 不同时期率的动态比较 3、应分别将分子和分母合计求平均率 对观察单位数不等的几个率计算合计率或平均率时应分别将分子和分母合计求出合计率或平均率。4、相对数比较时应注意其可比性(一) 同质性 除了欲对比的研究因素外,其余的影响因素应尽可能的相同或相近,以确保资料的可比性。 观察对象要同质,影响研究结果的一些因素在要比较的各个组内部构成应该相同。比如,常要考虑性别、年龄、病情轻重、病程长短等方面的同质性。相对数比较时应注意其可比性(二)在同一地区不同时期资料的相对数比较时,还应注意其条件有无变化。例如,不同时期的发病率比较时,应注意不同时期疾病的登记制度、诊断水平以及平均人口数的变化。5、样本率或构成比进行比较时应作假设检验 由于样本率或构成比是样本指标,同样存在着抽样误差。在实际工作中,不能根据样本率或构成比等相对数的数值大小轻易作出结论,应进行样本率或构成比差异比较的假设检验率的标准化法 指选用统一的标准人口或标准人口构成作为参照,消除内部人口年龄、性别等混杂因素构成不同对总率产生的影响,以增强可比性。标准化法不但可以用于率的标准化,也可以用于均数的标准化。正态分布的特征 一般情况下,我们用N(m,s2)表示均数为m,方差为s2的正态分布。特征一 正态分布是一单峰分布,高峰位置在均数X=m 处。特征二 正态分布以均数为中心,左右完全对称。特征三 正态分布取决于两个参数,即均数m 和标准差s。m为位置参数,m 变大,则曲线沿横轴向右移动;m 变小,曲线沿横轴向左移动。s为形态参数,表示数据的离散程度,若s小,则曲线形态“瘦高”;s大,则曲线形态“矮胖” 。特征四 有些指标不服从正态分布,但通过适当变换后服从正态分布,如对数正态分布。特征五 正态分布曲线下的面积分布是有规律的。 标准化变换公式例、若由某项研究得某地婴儿出生体重为3100g,标准差为300g,试估计该地区当年出生低体重儿(出生体重2500g)所占比例。 认为当年该地区婴儿出生体重近似服从正态分布N(3100,3002),作标准化变换:查附表1,得F( -2.00)=0.0228得出结论,估计该地区当年出生低体重儿所占比例为2.28%。例、已知某地健康成年男子的红细胞计数是以=5.001012/L,=0.251012/L的正态分布,试问红细胞计数在4.501012/L至5.201012/L之间,占该地健康成年男子的百分之几?将变量值标准正态转换为u。 当x=4.50时, u1=(4.50-5.00)/0.25=-2.00 当x=5.20时, u2=(5.20-5.00)/0.25=0.80查附表1标准正态曲线下面积得 (u1)= (-2.00)=0.0228 (u2)= 1-(-0.80)=0.7881 D=(u2)- (u1)= 0.7881-0.0228=0.7653所以,该地健康成年男子中,估计有76.53%的人红细胞数在(4.505.20)1012/L范围内。医学参考值(reference value)是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数。也称正常值(normal value)。由于个体差异的存在,因此需要确定绝大多数正常人各种指标一定的波动范围,这个范围就叫做参考值范围(reference interval)又称正常值范围(normal range)参考值范围又称正常值范围。由于正常人的形态、功能、生化等各种指标的数据因人而异,而且同一个人的某些指标还会随着时间、机体内外环境的改变而变化。因此需要其波动范围,即正常值范围,简称正常值。参考值范围的估计方法方法一、正态分布法双侧 单侧 (高侧)(低侧)对于一个指标,随机抽取一个样本含量足够大的样本(一般认为应大于100例),可按下表利用正态分布法制定参考值范围。 例、某地调查正常成年男子200人的红细胞数得均数=55.261012/L,标准差S=0.381012/L,试估计该地区正常成年男子红细胞数的95%参考值范围。红细胞数过多或过少均为异常,故取双侧。该地区正常成年男子红细胞数的95%参考值范围为:下限:上限:例、某地调查了360名成年男子的平均血红蛋白 =13.45(g/100ml),标准差s=0.71 (g/100 ml),试估计该地成年男子血红蛋白95的参考值范围。根据前表得95参考值范围:下限: 1.96s=13.451.960.71=12.06(g/100ml)上限: 1.96s=13.451.960.71=14.84(g/100ml)例、某地调查120名健康成年男子的第1秒肺通气量得均数 =4.2L,标准差S=0.7L,试估计该地区健康成年男子的第1秒肺通气量的95参考值范围。解题,由于第1秒肺通气量仅过低属于异常,故取单侧下限。该地区健康成年男子的第1秒肺通气量的95参考值范围为:下限:方法二、百分位数法双侧 P2.5P97.5 单侧 (低侧) P5 ; (高侧) P95 方法三、对数正态分布法 x=lnX,经变换后的x分布服从正态分布。按正态分布法算出x值的参考值范围,再计算反对数,即得所求。 统计推断:用样本信息去推断总体的特征 参数估计 假设检验抽样误差 由于随机抽样引起的样本统计量与总体参数之间的差异称为抽样误差。抽样误差产生的条件抽样研究 只有对总体中的部分个体进行抽样研究,才可能导致样本指标与总体指标的不相等,而且在同一类型的研究中,样本例数越少,抽样误差可能会越大。个体变异 在抽样方法和样本含量不变的条件下,变异大的事物其抽样误差也大,反过来,变异小的事物其抽样误差也小。11时,F分布是t分布的平方,2时,F分布就是c2分布。参数估计有两种 点估计(point estimation),区间估计(interval estimation) 区间估计按一定的概率或可信度(1-a)用一个区间来估计总体参数的所在范围,该范围称作可信度为1-a 的可信区间(confidence interval, CI),又称置信区间。这种参数估计方法就叫做区间估计。 可信度为1-a 的可信区间的确切涵义 对总体进行随机抽样,每100个样本所算得的100个可信度为100(1-a)% 的可信区间,平均有100(1-a)个包含了总体参数。如取a=0.05,则每100个样本所算得的100个95可信区间,平均有95个包含总体参数在内,有5个不包含总体参数。 总体均数的100(1-)%可信区间的通式为: 或当n足够大(n100)时,t分布近似服从标准正态分布,即u分布,那么总体均数的100(1-)%可信区间的通式就简化为:l 已知,标准正态分布下, a0.10时,ua=1.64; a0.05时,ua=1.96; a0.01时,ua=2.58。 可信区间 与容许区间 的区别 (1)可信区间 用于估计总体参数,总体参数只有一个;而容许区间 用于估计变量值的分布范围,变量值可能很多甚至无限。 95容许区间指有95的变量值在该范围内。 95可信区间的涵义是指从总体中随机抽样,每100个样本所算得的100个95可信区间,平均有95个包含了总体参数。 (2)可信区间 所基于的t分布是统计量的抽样分布,一般可通用;而容许区间 所基于的正态分布是变量值的分布,只有当分布接近正态分布时方适用。两者有着本质的区别。 标准差和标准误的区别与联系 假设检验的基本思想问题本质:是否0 =0:抽样误差0:本质差别假设=0,反证法提出一个假设:同一总体,差别由抽样误差造成。如果假设成立,求出由于抽样误差得到现有样本的可能性,可能性很小(小概率事件),在一次试验中本不该得到,居然得到了,说明我们的假设有问题,拒绝之。有可能得到手头的结果,故根据现有的样本无法拒绝事先的假设(没理由)以确立的假设总体为依据,求出从假设总体中获得手头样本(含与总体参数偏离更大的样本)之概率,通过对此概率的界定来作出结论。 假设抽样误差的可能性可能性很小可能性较大拒绝原假设不拒绝原假设假设检验的一般步骤步骤1:建立假设在假设的前提下有规律可寻 零假设(null hypothesis),记为H0,表示目前的差异是由于抽样误差引起的。备择假设(alternative hypothesis),记为H1,表示目前的差异是由于本质上的差别引起的步骤2:确立检验水准(小概率标准)用于确定当检验统计量在什么范围内拒绝H0 。即此时样本统计量与参数的差别不是仅仅由抽样误差所能解释的。在假设检验时,如果错误地不拒绝零假设的后果很严重,就需要严格尺度,即选择一个较大的;否则要选择稍小的;一般选择=0.05。均数与已知总体均数0的比较目的H0H1双侧检验是否000单侧检验是否0是否00000均数1与2的比较目的H0H1双侧检验是否121212单侧检验是否12是否1212121212步骤3:计算检验统计量并求P值即计算样本与所假设总体的偏离 ;根据分析目的、设计类型,选用适当的检验方法,计算相应的统计量;根据检验统计量的分布求P值。P值就是指在H0所规定的总体中随机抽样,获得大于等于(或小于等于)现有样本统计量的概率。 步骤4:界定P值并作结论根据小概率原理作出推断(与检验水准比较);若Pa( a 0.05),根据抽样分布规律,在H0成立的前提下出现现有差别或更大差别的可能性P小于等于0.05,是小概率事件,根据小概率原理,是不可能发生的。然而不可能发生的事件在一次独立试验中居然发生了,即现有样本信息不支持H0。因此,拒绝H0,接受H1。若Pa ,说明在H0成立的前提下出现现有差别或更大差别的可能性P不是小概率事件,因此,没有理由拒绝H0。可见,抉择的标准为:当Pa 时,拒绝H0,接受H1,差异有统计学意义;当Pa 时,不拒绝H0,差异无统计学意义假设检验的正确应用1、实施假设检验的前提 确认指标或数据分布的意义金标准、等级划分标准 确认样本的随机化。 2、正确理解P值 P值的涵义:在H0所规定的总体中随机抽样,获得大于等于(或小于等于)现有样本统计量的概率。拒绝H0时:P值小,风险小,误差小;P值大,风险大,误差大。 3、Significant 的本义传统表述:“拒绝H0,接受H1”习惯上称为“显著”,英文“significant” ;“不拒绝H0”称为“不显著”,英文“non-significant”。Significant的本义:“有意义的”、“非偶然的” 建议:用“有、无统计学意义”来取代“显著与不显著”P a,拒绝H0,接受H1,差异有统计学意义;P a,不拒绝H0,差异尚无统计学意义4、a 水准在结论中的意义 按不超过多大的误差为条件而作结论:a = 0.05,得P a, 按误差不超过5的条件拒绝H0接受H1;a = 0.01,得P a,按误差不超过1的条件拒绝H0接受H1 ;采用更小的a 水准,当P值小于此水准时,说明所作结论的误差更小,所冒的风险更小。 型错误 (Type I Error)拒绝了实际上是成立的H0“弃真” ,假阳性,犯型错误的概率常用a表示。一般假设检验取检验水准a =0.05,理论上平均每100次抽样就有5次发生这样的错误。 型错误(Type II Error)不拒绝实际上是不成立的H0“存伪” ,假阴性,型错误发生的概率用b表示,通常当n固定时,a越小,b越大;反之,a越大,b越小。 在实际工作中,可根据研究要求适当控制a和b。若重点在于减少a,一般取a=0.01;若重点在于减小b,一般取a=0.05;若要同时减小a和b的唯一方法就是增加样本含量。 当P a 而拒绝H0接受H1,要注意第一类错误出现;当P a 而不拒绝H0,要注意第二类错误的出现。第二类错误率b 表示失去对真实H1作出肯定结论的概率,1b 就是对真实的H1作出肯定结论的概率,常被用来表达某假设检验方法的检验的功效。1-b称为检验效能(power of a test)统计学意义为:若两总体确实存在差别,按a水准能发现其差别的能力。例如1-b=0.9的理论含义是若两总体确实有差别,平均每100次抽样有90次能得出有差别的结论。检验效能越大,按检验水准拒绝H0,推断两总体均数确实有差别的把握就越大,所以检验效能又称把握度。 拒绝H0,接受H1 不拒绝H0H0真实 型错误(a ) 推断正确 (1a)H0不真实 推断正确 (1b) 型错误(b)t检验、u检验、秩和检验、四格表确切概率检验、等级相关检验等方法既可进行双侧检验,又可进行单侧检验。方差分析、c2检验等方法只能进行双侧检验。假设检验与可信区间的关系假设检验与可信区间估计是统计推断的两个部分,是从两个不同目的出发并有密切关联的分析方法。若假设检验结果为Pa,得出拒绝H0而接受H1的结论时,则其1-a可信区间必定不包括H0所规定的总体参数;反之,若假设检验结果为Pa,得出不拒绝H0的结论时,则其1-a可信区间必定包括了H0所规定的总体参数。假设检验与可信区间的作用是相辅的,结论的涵义是一致的,效果是等价的,都是基于抽样误差理论。 均数比较的假设检验 t检验、u检验 方差分析t 检验t 检验为定量资料分析中最常用的方法:总体参数未知,n较小(n100)且满足三个条件:正态性、独立性、方差齐性 t检验的应用条件独立性Normality:各观察值间相互独立不能相互影响。非遗传性、传染性 正态性Independence:样本取自正态总体。两均数比较时,要求均服从正态分布;配对设计时,要求差值服从正态分布。 正态性检验 方差齐性Homoscedascity:两样本代表的总体方差相等方差齐性检验 样本均数与总体均数比较的t检验;配对设计均数比较的t检验;成组设计两样本均数比较的t检验。样本均数与总体均数比较的t检验;检验统计量计算公式:例1测得25例某病女性患者的血红蛋白(Hb),其均数为150(g/L),标准差为16.5(g/L)。而该地正常成年女性的Hb均数为132(g/L)。问该病女性患者的Hb含量是否与正常女性Hb含量不同?建立检验假设: H0:0132(g/L); H1:0132(g/L)。确立检验水准:=0.05 ,双侧;计算检验统计量: 确定P值:查自由度为n-1=24的t界值表, t0.05,24=2.064t,则P0.05;根据a =0.05的检验水准下结论,不拒绝H0,差别无统计学意义。尚不能认为AZT可以延长AIDS患者的生存时间。例3某医生在一山区随机抽查了25名健康成年男子,求得其均数为74.2次/分,标准差为6.0次/分。根据大量调查,已知健康成年男子脉搏均数为72次/分,能否据此认为该山区成年男子的脉搏均数高于一般成年男子的脉搏均数?专业背景:一般高山缺氧,人群脉搏数高于常人。建立检验假设: H0:0,即山区男子平均脉搏数与一般人群相等; H1: 0,即山区男子平均脉搏数高于一般人群。确立检验水准:单侧=0.05。计算检验统计量: 确定P值:查自由度为n-1=24的t界值表, t0.05,24=1.711t,则Pt,则P0.05。结论:根据=0.05的检验水准不拒绝H0,差别无统计学意义,尚不能认为两种仪器检查的结果不同。例2某医生研究脑缺氧对脑组织中生化指标的影响,将乳猪按出生体重配成7对,一组为对照组,一组为脑缺氧模型组。试比较两组猪脑组织钙泵的含量有无差别。乳猪号对照组实验组差值d d 210.35500.27550.07950.00632020.20000.2545-0.05450.00297030.31300.18000.13300.01768940.36300.32300.04000.00160050.35440.31130.04310.00185860.34500.29550.04950.00245070.30500.28700.01800.000324合计0.30860.033211专业背景:生理试验已经证明,缺氧不会使乳猪脑组织钙泵含量增加。因此,选用单侧检验。建立检验假设 H0:md0,即两组乳猪脑组织钙泵含量相等; H1:md0,即对照组乳猪脑组织钙泵含量高于实验组。 确立检验水准:单侧 a =0.05。 计算检验统计量:已知 n=7, 差值的标准差为:则检验统计量:确定P值: 按n = n-1=7-1=6查t值表,得单侧t0.05,6=1.943t,则P0.05。结论:按单侧=0.05的检验水准拒绝H0,接受H1。差别有统计学意义,可以认为脑缺氧可造成钙泵含量的降低。例3为研究女性服用某避孕药后是否影响其血清总胆固醇含量,将20名女性按年龄体重、身高等因素配成10对。每对中随机抽取一人服用新药,另一人服用安慰剂。经过一定时间后,测得血清总胆固醇含量(mmol/L),结果如下表。问该药是否影响女性血清总胆固醇含量?配对号(1)新药组(2)安慰剂组(3)差值d(4)=(2)-(1)14.46.2-1.825.05.2-0.235.85.50.344.65.0-0.454.94.40.564.85.4-0.676.05.01.085.96.4-0.594.35.8-1.5105.16.2-1.1=-4.3建立检验假设 H0:md0,即该药对女性血清总胆固醇含量无影响; H1:md0,即该药对女性血清总胆固醇含量有影响。 确立检验水准:双侧 a =0.05。 计算检验统计量:已知 n=10, =-0.43 , Sd=0.8820 则检验统计量:确定P值: 按n = n-1=10-1=9查t值表,得双侧t0.05,9=2.262|t|,则P0.05。结论:按a=0.05水准,不拒绝H0,差异无统计学意义。尚不能认为该新药对女性血清总胆固醇含量有影响。成组设计两样本均数比较的t检验n=n1n22例1、某医生研究转铁蛋白对病毒性肝炎诊断的临床意义,测得12名正常人和15名病毒性肝炎患者血清转铁蛋白含量(mg/dl),结果见下表。问患者和正常人转铁蛋白含量是否有差异?正常人(X1)265.4271.5284.6291.3254.8275.9281.7268.6(n1=12)264.4273.2270.8260.5病毒性肝炎患者(X2)235.9215.4251.8224.7228.3231.1253.0221.7(n2=15)218.8233.8230.9240.7256.9260.7224.4建立检验假设 H0 :m1m2,正常人与病毒性肝炎患者的转铁蛋白含量相等; H1 :m1m2 ,正常人与病毒性肝炎患者的转铁蛋白含量不等。确立检验水准 双侧a=0.05。 确定P值 按自由度为25,查附表2的t界值表得t0.05,25=2.060t,则P0.05。结论 按a=0.05水准,拒绝H0,接受H1。差别有统计学意义,可以认为病毒性肝炎患者的转铁蛋白含量较低。 例2、为研究肥胖与脂质代谢的关系,在某地小学中随机抽取了肥胖儿童(肥胖组)和正常儿童(对照组)各30名,用改良八木国夫法测定两组儿童血中脂质过氧化物(LPO),结果如下表,能否认为肥胖与质脂代谢由关系? 表 两组儿童血液中LPO含量(mmol/L)分组n S肥胖组309.360.83对照组307.580.64建立检验假设 H0 :m1m2,即肥胖组和对照组LPO总体平均含量相等; H1 :m1m2 ,即肥胖组和对照组LPO总体平均含量不同。 确立检验水准 双侧a=0.05。 确定P值 按自由度为58,查附表2的t界值表得t0.05,60=2.000t,则P0.05。结论 按a=0.05水准,拒绝H0,接受H1,差别有统计学意义。认为肥胖组和对照组LPO总体平均含量不同。 例3、某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/l)如下,问该地区急性克山病患者与健康人的血磷值是否相同? 患 者:0.841.051.201.201.391.531.671.801.872.072.11健康人:0.540.640.640.750.760.811.161.201.341.351.481.561.87建立检验假设 H0:12,即克山病患者与健康人的血磷值一致; H1:12,即克山病患者与健康人的血磷值不同。确立检验水准 双侧a=0.05。确定P值 按自由度为22查附表2的t界值表得t0.05,22=2.074t,则P0.05。结论 按a=0.05水准,拒绝H0,接受H1,差别有统计学意义。认为克山病患者与健康人的血磷值不同。 u 检验 两样本均数比较时,两组的样本例数均100,t检验统计量的自由度逐渐增大,t分布逐渐逼近于标准正态分布,即可利用近似正态分布的原理进行u检验。按正态分布界定P值并作出推断结论。 例1、某市于1973年和1993抽查部分12岁男童对其发育情况进行评估,其中身高的有关资料如下,试比较这两个年度12岁男童身高均数有无差别。1973 年:n1=120 =139.9cm s1=7.5cm;1993 年:n2=153 =143.7cm s2=6.3cm。 建立检验假设 H0 :m1m2,即该市两个年度12岁男童平均身高相等; H1 :m1m2,即该市两个年度12岁男童平均身高不等。确立检验水准 双侧a=0.05。计算检验统计量:检验统计量u: 确定P值 uu0.05=1.96,则P0.05。结论 按a=0.05水准,拒绝H0,接受H1,差别有统计学意义。可认为该市1993年12岁男童平均身高比1973年高。 例2、某地抽查了2529岁正常人群的红细胞数,其中,男性156人,均数为4.65(1012/L),标准差为0.55(1012/L);女性74人,均数为4.22(1012/L),标准差为0.44(1012/L),问该人群男女红细胞数有无差别?建立检验假设 H0 :m1m2,即该人群男女红细胞数无差别; H1 :m1m2,即该人群男女红细胞数有差别。确立检验水准 双侧a=0.01。 计算检验统计量: 检验统计量u: 确定P值 uu0.01=2.58,则P0.01。结论 按a=0.01水准,拒绝H0,接受H1,差别有统计学意义。可认为该人群男女红细胞数有差别。 t 检验 当两总体的方差不齐时,t检验就不再适用,此时必须用t检验。t检验又称为近似t检验。目前t检验的方法有很多种,两大类:对自由度进行校正;对界值进行校正。目前,大多数计算机统计软件中使用的是Satterthwaite法,是一种对自由度进行校正的t检验方法。 Satterthwaite法t统计量计算公式为: 自由度校正后四舍五入取整例、由X光片上测得两组病人肺门横经右侧距R1值(cm),得到结果如下。已知两组的总体方差不等,问两组病人R1值是否不同?(已知方差不齐,故选用t检验。)肺癌病人: n1=10 =6.21cm s1=1.79cm;矽肺0期病人:n2=50 =4.34cm s2=0.56cm。 建立检验假设 H0 :m1m2,即两总体的R1值相同; H1 :m1m2,即两总体的R1值不同。确立检验水准 双侧a=0.05。 计算检验统计量: 确定P值 以自由度为9查附表2,a=0.05时t界值为2.2622时,q检验的检验功效高于q检验,因此,当实验研究按一个对照组与多个实验组均数比较而设计时,用q检验可得到较好的功效。 c2检验的基本思想 卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。卡方值越大,说明实际频数与理论频数的差别越明显。如果H0假设成立,则实际频数A与理论频数T应该比较接近。如果实际频数与理论频数相差较大,超出了抽样误差所能解释的范围,则可以认为H0假设不成立,即两样本对应的总体率不等。 根据H0假设求得的数据称为理论频数T。四格表资料公式c2分布是一种连续性分布,而两个或多个率比较的原始数据却属离散型分布资料,是不连续的。 因此,c2检验公式是一个近似计算公式。实际上,c2值公式在四格表的基础数据均不太小时,近似程度相当高。但是,只要四格表中的有一个基础数据出现较小值,此时求得的c2值往往偏大,相应的P值偏小,从而扩大了I型误差。为校正这种偏差,可采用校正c2,用cC2表示。其计算公式为: 对四格表专用公式的校正为:分析四格表资料时,不同公式的选择条件 1、当n40,且T5时,用基本公式计算c2值; 2、当n40,且1T5时,则用c2检验的连续性校正公式;3、当n40,或有T1时,不能用c2检验,应当用四格表的确切概率法。4、当c2检验所得P值接近检验水准a 时,最好使用四格表确切概率法。 例1、下表资料是单用甘磷酰芥(单纯化疗组)与复合使用争光霉素、环磷酰胺等药(复合化疗组)对淋巴系统肿瘤的疗效,问两组患者总体的完全缓解率有无差别? 例2、为观察甲、乙两药对治疗胃溃疡的疗效,将70名患者随机分成两组,一组30人服用甲药,另一组40人服用乙药。结果见下表。问两种药物的胃溃疡治愈率有无差别?u检验与c2检验的关系对两样本率的比较的双侧检验,u检验和c2检验是等价的。即自由度为1的c2=u2。因此,两样本率的比较,可以用u检验,也可以用c2检验。两者的应用条件是一样的。但若需进行单侧检验,则应选用u检验,因为c2检验理论上本身就是双侧检验。配对设计的两个率的比较配对c2检验1、当b+c40时,用非校正公式计算检验统计量:2、当20b+c40 时,用连续性校正公式来计算检验统计量:3、当b+c20时,用确切概率法计算。资料判断普通四格表资料完全随机设计配对四格表资料配对设计例1、某研究室用甲、乙两种血清学方法检查410例确诊的鼻咽癌患者,得结果如下表,问两种方法检出率有无不同? 例2、用两种检验方法对某食品作沙门氏菌检验,结果如下表,试比较两种方法的阳性结果是否有差别。 RC表资料卡方检验可用于多个样本率的比较、多个样本构成比的比较等等。 对于普通四格表资料,当n40或出现至少有一个T1时,因c2检验近似程度较差,易导致分析的偏性,c2检验不再适用,应当用四格表的确切概率法。四格表的确切概率法本身不属于c2检验范畴,只是作为四格表c2检验应用上的补充。 参数检验和非参数检验:参数检验(parametric test)以特定的总体分布(如正态分布、二项分布)作为前提,对总体的参数进行的假设检验。限制性条件:总体正态分布、总体方差齐性非参数检验(nonparamatric test)不依赖于总体的分布类型,不针对总体参数,只针对总体分布是否相同的检验方法。常用于解决总体分布未知的统计问题。秩次(rank) 全部观察值按某种顺序排列的位序或排序号秩和(rank sum) 指同组秩次之和 秩变换:将等级变成秩次,用秩次来反映等级的高低;用秩和来反映各组秩次的分布位置。秩和检验:用数据的秩次代替原始数据进行假设检验。实质上是通过秩次的排列求出秩和,从而对总体的分布进行假设检验。秩次排列顺序,从小到大和从大到小的检验结果相同。 秩和检验的优缺点:o 任何统计方法都有其适用范围,在适用范围内,优势得以显示出来;超出适用范围,缺点将暴露出来。o 秩和检验不依赖资料的分布类型,故适用范围广泛,尤其在等级资料的分析中具有较高的功效。 o 成组设计两样本比较时,如资料满足t检验的条件,应该用t检验进行分析。o 如果对这类资料用Wilcoxon秩和检验,实际上是将观察单位的具体数值舍弃不用,只保留了秩次的信息,使检验功效降低;尤其样本含量较小时,降低更加明显。o 反之,如果定量资料不满足t检验的条件而仍用t检验,则检验功效同样降低。o 有研究表明,样本含量较大时,对于均匀分布的资料

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论