版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学科研设计中的量化分析方法概述医学统计学应用概率论和数理统计的原理和方法,研究医学数据资料的收集、整理、分析的科学。它是进行医学科学研究所必需的重要手段。例1某医院大夫使用“乌贝散”治疗胃溃疡出血107例,有效101例,有效率为94.4%。那么别的医院大夫也使用“乌贝散”来治疗胃溃疡出血,其有效率会是多少?怎么求?例2某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中核抗体进行检测,免疫荧光法检测阳性23例,乳胶凝集法阳性13例,问两种方法的检测结果有误差别???怎么得出结论例3研究某种新药治疗某种疾病的效果治疗1例有效,有效率100%?治疗2例都有效,有效率为100%?治疗10例有8例有效,治疗有效率为80%?医学研究中的数据资料类型计量资料:用定量的方法对观察指标进行测定所得的资料的集合,亦称数值变量资料,一般有度量衡。计数资料:将观察对象的观察指标按性质或类别分组,然后计数各组该观察指标的数目所得的资料。又称无序分类变量,其观察结果是定性的。可分为二分类和多项分类。等级资料:将观察单位按某种属性的不同程度进行分组,然后计数各组中的例数。又称为有序分类变量,各组之间有量的差别。101名正常女子的血清总胆固醇测定结果(mmol/l)2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.502.704.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.354.803.414.123.955.084.533.923.583.914.154.353.514.063.073.551.233.574.833.523.844.503.964.503.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.803.933.783.994.484.284.065.265.253.985.033.513.863.023.704.333.293.254.154.364.863.003.26某地欲调查小学生的蛔虫感染率,在甲、乙小学中分别调查了250人和200人,粪检有蛔虫卵的人数分别是67人和60人。用统计图表上述结果。学校调查人数蛔虫卵阳性阴性甲25067183乙20060140粪便潜血试验结果-++++++++++病情的观察结果:轻、中、重需要特别指出的是:计量资料、计数资料和等级资料之间是能转化的,但只能由计量资料转化为计数资料和等级资料。统计分析资料
统计指标统计描述统计图
统计表
统计分析
参数估计
统计推断
假设检验
计量资料的统计分析一、集中趋势的描述含义
集中趋势是指计量资料中,所有观察值的中心位置。反映一组同质变量值的平均数量水平。常用指标
算术平均数、几何平均数、中位数1、算术均数(arithmeticmean)
简称均数(mean),用x及μ表示。适用范围
变量值呈对称分布,尤其是正态分布的计量资料计算方法直接法
变量值个数不多,直接相加除以变量值个数。加权法
变量值较多或频数表资料。组段组中值(X0)频数(f)fx125~1271127129~1314524133139283892141~143355005145~147273969149~151111661153~1554620157~1611591159合计12017172
表1120名12岁健康男孩身高的频数分布表2、几何均数(geometricmean,G)适用范围
变量值呈对数对称分布等比级数资料计算方法直接法
变量值个数不多,直接将其乘积开n次方。加权法
变量值较多或频数表资料。抗体滴度人数(f)滴度倒数(x)lgxflgx1︰2220.30100.60201︰41140.60216.62311︰81880.903116.25581︰1636161.204143.34761︰3222321.505133.11221︰648641.806214.44961︰12831282.10726.3216合计100120.7119
表4100名患者抗体滴度的频数分布表3、中位数(median,M)一组按大小顺序排列的变量值,位次居中的数值即中位数。适用范围
变量值呈偏态分布分布类型不清变量值的一端(或两端)无确定数值—开口型资料计算方法直接法变量值个数不多。频数表法变量值个数较多,先整理频数表。二、离散趋势的描述含义
离散趋势是指计量资料所有观察值偏离中心位置的程度,反映一组同质变量值相互之间参差不齐的程度,即离散度或变异度。常用指标
全距、方差、标准差、变异系数。1、全距(range,R)
又称极差,是一组变量值中最大值与最小值的差。优点
计算简单缺点
仅考虑了资料的最大值和最小值,不能反映组内其它数据的变异程度。2、百分位数(percentile)含义
又是一个位置指标,用Xp%。它表示在按照升序排列的数列中,其左侧(即小于Xp%侧)的观察值个数在整个样本中所占百分比为p%,其右侧(即大于Xp%侧)的观察值个数在整个样本中所占百分比为(100-p)%计算
式中:是百分位数,L是所在组段的下限,i是该组段的组距,fp是该组段的频数,n是总频数,∑fl是该组段以前的各组段的累计频数。组段组中值(X0)频数(f)fx125~1271127129~1314524133139283892141~143355005145~147273969149~151111661153~1554620157~1611591159合计12017172
表1120名12岁健康男孩身高的频数分布表
四分位数(quartile)四分位间距(quartilerange,Q)含义
统计学将3个特殊的分位数X25%、X50%、X75%统称为四分位数。X25%:记为Q1,称作第一四分位数;X50%
:记为Q2,称作第二四分位数;X75%:记为Q3,称作第三四分位数;并且将与差值称为四分位间距(quartilerange,Q)计算
Q=Q3﹣Q13、方差(variance)
用σ2和s2表示。离均差的和离均差的平方和方差
方差反映变量值变异程度的大小,方差越大,说明变量值的变异程度越大;方差越小,说明变异程度越小。优点
全面考虑了一组变量值中的每一个数据。缺点将变量值的单位进行了平方。4、标准差(standarddeviation,SD)
用σ和s表示。
计算方法
直接法加权法
标准差反映变量值变异程度的大小,。5、变异系数(coefficientofvariation,CV)
含义
是一个度量相对离散程度的指标。计算
例1:某地20岁男子身高均数为166.06cm,标准差为4.95cm,体重均数为53.72kg,标准差为4.96kg,试比较身高与体重的变异程度。
例2:该地新生男婴的平均身高为50cm,标准差为3.0cm,试比较该地20岁男子与新生男婴的变异程度。一、样本均数的抽样分布与抽样误差
抽样误差的概念由抽样而引起的样本均数与总体均数之间的差别。(抽样研究中不可避免,有两种表现形式)样本均数的抽样分布
从一个正态的总体中进行随机抽样:各样本均数未必等于总体均数;各样本均数间存在差异;样本均数的频数分布仍是以总体均数为中心的正态分布;样本均数的变异范围较原变量的变异范围小;随着样本量的增大,样本均数的变异范围逐渐缩小。
标准误的意义及其计算含义
样本均数的标准差即标准误。它表示样本均数间的离散程度,标准误越小,说明抽样误差越小,表示样本均数与总体均数较接近。反之,标准误越大,说明抽样误差大,表示样本均数距总体均数较远。影响抽样误差的因素样本含量总体内各个体间的离散程度即变异程度
计算公式
标准误的应用表示抽样误差的大小,说明样本均数的可靠性用以估计总体均数的可信区间应用标准误进行均数的假设检验二、区间估计1、可信区间的含义2、可信区间的计算
样本含量较大:样本含量较小第一节假设检验的概念
假设检验(hypothesistesting)的概念
也称显著性检验(significancetest),是判断样本均数与总体均数之间或样本均数之间的差别有无意义的一种统计分析方法。
假设检验的引入例:某年某地随机抽样调查了17岁男、女青年坐高,得资料如下表,问该地17岁男、女青年坐高是否有差别?性别人数均值标准差男4483.13.52女7680.22.33第二节假设检验的基本步骤
建立假设
H0:无效假设,零假设。是假设样本指标之间的差别是由单纯抽样的随机性所致即抽样误差,而不是真正两总体的差别。
H1:备择假设。是假设样本指标之间的差别不是单纯由于抽样误差所致,而是两总体均数存在本质差别。
确定检验水准
即显著性水准,用α表示。它是判断差别有无意义的概率水准(拒绝H1所允许犯错误的概率)。其大小应根据分析要求确定。通常取α=0.05或α=0.01。检验水准取双侧概率时记为
α/2。
选定检验方法和计算检验统计量
根据研究设计的类型和统计推断的目的要求选用不同的检验方法。确定概率P值
P值是指在H0所规定的总体中作随机抽样,获得等于及大于(或小于)现有统计量的概率。当求得统计量后,一般可根据有关统计用表查得P值。在α=0.05的检验水准上:
t<t0.05(υ)时,P>0.05,差别无统计学意义(差别无显著性)
t≥
t0.05(υ)时,则P≤0.05,差别有统计学意义(差别有显著性)
作出推断结论
若P>0.05,则接受H0
,拒绝H1
,认为两样本指标所代表的两总体指标间的差别无统计学意义,是由抽样误差所引起。若P<0.05,则接受H1
,拒绝H0
,认为两样本指标所代表的两总体指标间的差别有统计学意义,不可能由抽样误差所造成。
假设检验的基本思想:
1、反证法的思想:
事先对总体分布(通常是该分布的某个参数)作出某种假设,如果样本信息不支持该假设,则认为原假设不成立。
2、根据“小概率事件”原理
即小概率事件在一次试验中一般不会发生,用概率的思想决定是否拒绝原假设。两独立样本均数的t检验(成组t检验)
应用条件
两组数据均服从正态分布,且两样本的总体方差齐性。适用范围完全随机设计两独立样本均数的比较。检验目的
检验两独立样本均数所代表的未知总体均数是否有差别。
例8-4:为了解内毒素对肌酐的影响,将20只雌性中年大鼠随机分为甲组和乙组。甲组中的每只大鼠不给予内毒素,乙组中的每只大鼠则给予3mg/kg的内毒素。分别测得两组大鼠的肌酐见表8-3。问:内毒素是否对肌酐有影响?表8-3两组大鼠的肌酐(mg/L)结果甲组乙组甲组乙组6.28.56.17.33.76.86.75.65.811.37.87.92.79.43.87.23.99.36.98.2H0:μ1=μ2H1:μ1
≠μ2α=0.05检验界值t0.05/2,18=2.101,得P<0.05。按α=0.05的检验水准,拒绝H0,接受H1
,差别有统计学意义,可认为内毒素对肌酐有影响。
注意:
①两独立样本均数比较,当样本含量较大时,可采用近似u检验。
②若两总体方差不等,可采用数据变换、近似t检验(t,检验)或基于秩次的非参数检验。两样本的方差齐性检验常用方法及其应用条件:F检验:正态分布;两样本;Bartlett检验:正态分布;两个或多个样本;Levene检验:各种分布;两个或多个样本;两总体方差不等时均数比较的t′检验(近似t检验)常用方法及其校正方式:Satterthwaite法近似t检验:校正自由度;Welch法近似t检验:校正自由度;Cochran﹠Coxi法近似t检验:校正临界值;目前的统计软件中普遍使用Satterthwaite法。计数资料的统计描述绝对数(absolutenumber)在计数资料中,各组的观察数称为绝对数。它反映的是某事物(某性质)的实际水平,是用来进一步做统计分析的基础数据。如案例中流感发病人数。绝对数是不宜直接做比较。相对数(relativenumber)是两个有联系的指标的比;使比较资料的基数相同,适宜于资料的对比分析研究,是计数资料常用的统计描述指标。二、常用的相对数1、率(rate)说明某现象发生的频率或强度。通常近似地反映某事件出现的机会大小。常用100%、1000‰、万/万、10万/10万等作为比例基数比例基数的选用主要依据习惯,如治疗率,习惯上用百分率;出生率、死亡率,习惯上选用千分率。率的结果一般保留1~2位整数。如,甲地流感发病率为1200/30000×100%=4.00%乙地流感发病率为900/11000×100%=8.18%2、构成比(proportion)是说明某一事物内部各组成部分所占的比重,常用%来表示。构成比有两个特点:(1)各组成部分构成比总和为100%;(2)某一部分所占比重大,其它部分的比重会相应减少3、相对比(relativeratio)是两个有关指标之比,说明两者的对比水平。常用百分比或倍数表示。相对比有以下特点:1、甲、乙两个指标可以是相对数、绝对数或平均数;2、性质相同的资料,可以计算相对比,如性别比、时间比;性质不同的资料也可以计算相对比,如医院门诊人数与病床数之比;3、相对比的分子和分母,不一定有相同的量纲三、应用相对数注意事项1、计算率时分子和分母的选择
如计算麻疹、腮腺炎这样终生具有免疫力的传染病率的时候,分母不应该包括已患过麻疹和腮腺炎的那部分人。2、不要将构成比和率相混淆例某医院分析畸形儿与母亲分娩年龄关系,得出结论为:1、“母亲分娩年龄在24-29岁时,畸形儿最多,占总数的92.2%”2、“母亲分娩年龄在24-29岁时,畸形儿发生率最高”3、分母过小不宜计算相对数如:某人用某方法治疗某疾病的病人2例,有效2例,不宜记有效率为100%。4、对观察单位不等的几个率,不能直接相加求平均率。如,从某地抽查了300名成年人,其中:男性100,某病患病率为20%,女性200名,患病率为14%,则此地的平均患病率为(20+28)/300=16%5、注意资料的可比性(标化)6、对样本率或构成比的比较应进行假设检验五、总体概率的估计案例某高校欲了解大学生乙肝表面抗原携带情况,随即抽取1000名大学生进行检查,结果有52名乙肝表面抗原阳性者,阳性率为5.2%,如何运用该率推断该校大学生乙肝表面抗原阳性率?率的抽样误差(samplingerror
ofrate)从统一总体中,随机抽取观察数目相等的多个样本,样本率与总体率、各样本率之间往往会有差异,这种差异被称作率的抽样误。衡量抽样误差大小得指标——标准误。标准误越小说明抽样误差越小,样本率与总体率越接近。反之亦然。标准误大小式中:表示率的标准误理论值,表示总体率,n表示样本含量。当未知时,用样本率p来估计,则率的标准误为:
表示率的标准误估计值,p表示样本率,n表示样本含量。试计算案例中乙肝表面抗原阳性率的抽样误差。已知n=1000人,p=5.2%
总体率的估计点估计总体率的点估计是直接用随机样本的样本率p来代替。区间估计根据样本含量和样本率的大小,总体率的区间估计有两种常用方法:正态近似法,和查表法。(1)正态近似法当n较大(n>50)且p和1-p均不太小时,如np和n(1-p)均大于5时,样本率p抽样分布近似正态分布,可以采用正态近似法,公式为:P为样本率,为标准正态分布水平的双侧临界值,为标准误。试计算案例中总体样本率区间估计已知样本率p=5.2%,标准误=0.007,那么总体率95%可信区间:上限:下限:即该校大学生乙肝表面抗原阳性率的95%可信区间为(3.8%,6.6%)(2)查表法当样本量很小时,比如n≤50,需要查——百分数可信区间表。一、率的u检验和检验(一)率的u检验常用于样本率与总体率的比较以及两个样本率的比较。应用条件:1、n≥60;2、p或1-p均不接近于100%或0;3、np和n(1-p)均大于5当符合以上条件时,可以认为样本率p是以总体率为中心呈正态分布或近似正态分布的,因此,可以按正态分布的原理对两个率的差异进行假设检验,即为u检验。U检验的目的是为了推断样本所来自总体的总体率与已知总体率是否相同,即抽样所得到的总体率是否与真实的总体率一样。样本率和总体率u检验1、建立假设,确立检验水准
:样本率与总体率相同
:样本率与总体率不同=0.052、计算检验统计量u值P为样本率,为总体率,为率的标准误(3)查表确定p值,做出推断结论。案例二有研究者在某地对40岁以上成年女性进行有关高血压防治的健康教育干预研究,经健康教育两年后,进行效果评价,随即抽取该地40岁以上女性1000名,查出高血压49例,患病率4.9%,以往调查数据显示该地女性高血压患病率为8.1%。问题:能否下结论说经过健康教育后,该地40岁以上女性高血压患病率有所下降?(1)建立假设,确定检验水准
:p=8.1%,健康教育后高血压患病率与健康教育前相同
:p﹤8.1%,健康教育后高血压患病率低于健康教育前=0.05(2)计算u值=3.71(3)确定p值,做出推断结论p﹤0.01,按检验水准可以拒绝,接受差异有统计学意义,可以认为经健康教育后,该地成年女性高血压患病率有所下降。两样本率比较u检验对两个样本率进行检验的目的是推断两个总体率是否相同,原理与两样本均数检验类似,检验统计量计算公式为:式中pc为合体样本率,χ1和χ2分别是阳性例数案例三某地调查了50岁以上吸烟者200人中患慢性支气管炎者41人,患病率为20.5%,不吸烟者162人中患慢性支气管炎者15人,患病率为9.3%问题:据以上资料能否说吸烟者慢性支气管患病率高于不吸烟者?检验1、四格表资料的检验以案例三为例,列出四格表两个率的比较,用u检验和是等价的,对于同一资料,u2=分组患病人数未患病人数合计吸烟者41(a)159(b)200(a+b)不吸烟者15(c)147(d)162(c+d)
检验的基本公式A为实际频数,T为理论频数,理论频数计算公式为
值反映了实际频数和理论频数的吻合程度。
检验的自由度的计算公式为:
检验步骤(以案例三为例)(1)、建立假设,确立检验水准H0:吸烟者与不吸烟者慢性支气管炎总体患病率相同H1:吸烟者与不吸烟者慢性支气管炎总体患病率不同α=0.05(2)、计算理论T值(3)、计算值=…=8.65(4)、确定p值分组患病人数未患病人数合计吸烟者41(30.94)159(169.06)200不吸烟者15(25.06)147(136.94)162合计56306362四个表值的专用公式适用条件:n≥40,并且所有的T≥5当任一格子1≤T﹤5,并且n≥40时,需要使用校正公式:当任一格子T﹤1或n﹤40时,需要使用确切概率计算法。Fisher确切概率法案例四手术方式有合并症无合并症合计电切术11(8.4)74(76.6)85开放手术2(4.6)45(42.4)47合计13119132有一个格子T<5,n>40,应采用校正公式计算=1.686,=12、配对四个表资料的检验
案例某实验室分别乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见下表,问两种方法的检测结果有无差别?免疫荧光法乳胶凝集法合计+—+11(a)12(b)23—2(c)33(d)35合计134558计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。其特点是对样本中个观察单位分别用两种方法处理,然后观察两种处理方法的某两分类变量的计数结果。观察单位结果有四种情况,分别是上表中的a,b,c,d。其中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电磁兼容性仿真分析-第1篇
- 电商物流效率优化研究
- 纳米技术在战略管理中的微观化应用
- 铁路工程制图与CAD电子教案 任务4.1 绘制铁路线路平面图
- 2025年儿童暴发性心肌炎诊治专家建议课件
- 社交媒体对导游行业影响
- 2026年小区共有部分经营收益审计与财务公开要求专项试题
- 2026年针对不同专业领域的职业适应性测试要点解析
- 2026年高级工程师笔试建设工程竣工验收与后评价
- 输变电工程安全生产管理体系与实践
- 浙江省金华市(2026年)辅警协警笔试笔试真题(附答案)
- 2026年3年级竞赛试题及答案
- 养老护理员工作倦怠与应对
- 2026山西晋中市寿阳县国有资本运营有限公司及下属公司中高层管理人员招聘12人考试备考题库及答案解析
- 2026年3月15日九江市五类人员面试真题及答案解析
- (必练)攀枝花学院辅导员招聘笔试备考核心题库(含详解)
- GB/T 31002.1-2014人类工效学手工操作第1部分:提举与移送
- GB/T 14048.7-2016低压开关设备和控制设备第7-1部分:辅助器件铜导体的接线端子排
- 2022~2023血站上岗证考试题库及答案参考85
- 第五章-钢的热处理及表面处理技术课件
- 天然气加气站安全事故的案例培训课件
评论
0/150
提交评论