版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章绪论医学统计学目录医学统计学的概念及其作用1统计学中的基本概念2统计和计算机、统计软件的关系3学习统计学应注意的问题4医学统计学的概念及其作用一、医学统计学的定义医学统计学(medicalstatistics)就是运用概率论和数理统计学的原理和方法,研究医学数据的收集、整理、分析和推断,从而发现医学现象的内在规律,用以指导医学理论和实践的学科。二、医学统计学简史早在1812年,法国数学家PierreSimonLaplace在其重要的《概率分析理论》一书中就提出“医疗是概率论(probabilitytheory)应用的重要领域。随着观察数的增多,有效的治疗方法会充分地显示出来。”19世纪末,英国统计学家KarlPearson致力于生物统计与数理统计的研究,将统计学从描述性统计学改变为推断性统计学。在他极力推广下,人们越来越深信数据的统计分析能解答植物、动物和人类生命研究中的许多问题。他的努力为20世纪生物统计与数理统计的发展奠定了基础。二、医学统计学简史1937年,TheLancet的编辑认为有必要向医生们解释统计学方法,便邀请现代临床试验的主要推动者——英国流行病学家AustinBradfordHill撰写了一系列如何在医学研究中正确使用统计方法的文章。这些文章后来以书的形式正式出版,名为《医学统计学原理》系统介绍了医学统计学方法。我国医学界对生物统计方法的运用始于20世纪初。1948年,我国第一部医学统计方法的教科书——郭祖超教授编著的《医学与生物统计方法》正式出版。步骤
2收集资料根据统计设计的要求采集原始数据的过程三、医学统计工作的一般步骤步骤
1统计设计对数据收集、整理、分析全过程的设想与安排,影响到研究成败的关键环节步骤
3整理资料将原始数据按照统计要求进行清理、核查、归纳、分组的过程,以使其系统化、条理化,为后续统计分析奠定基础步骤
4分析资料基于整理好的数据,根据研究目的,计算有关统计指标,并进行合理与科学地分析目录医学统计学的概念及其作用1统计学中的基本概念2统计和计算机、统计软件的关系3学习统计学应注意的问题4一、同质与变异医学统计学的研究对象通常具有某种共性,即相同的状况或属性等,研究对象之间常常“大同小异”,具有同质性(homogeneity)。如所研究的对象处于相同的地区、年龄相近、服用同一种药物等。
对于同质的研究对象,其变量值之间的差异称为变异(variation)。二、观察单位、总体和样本无论用何种方式收集资料,都要根据研究目的确定观察单位(observationunit),又称个体(individual)。根据研究目的,所有同质的观察单位某项观测值的全体称为总体(population)。
来自于总体的部分观察单位的观测值称为样本(sample)。抽取的观察单位的个数称为样本含量(samplesize),记为n。三、参数与统计量总体中全部观测值所得的特征值称为参数(parameter)。参数是固定的常数,通常未知。由样本算得的统计指标称为统计量(statistic)。四、变量与资料医学研究绝大多数属于随机实验(randomexperiment),其属性为:可以在相同的条件下重复进行;每次实验的可能结果不止一个,并且能事先预计实验的所有可能结果;进行实验之前不能确定哪一个结果会出现。
随机实验结果的所有取值称为随机变量(randomvariable)或变量(variable),即取值不能事先确定的测量指标。四、变量与资料多个变量值汇总即构成资料(data)。通常将资料分成三种类型:计量资料、无序分类资料和有序分类资料。1.计量资料(measurementdata)是检测每个观察单位某项指标的汇总结果,表现为数值大小,具有度量衡单位。2.无序分类资料(unorderedcategoricaldata)是指变量值为某种属性,其取值无次序关系,相互独立。3.有序分类资料(ordinalcategoricaldata)是指变量值为某种属性,且其取值存在次序关系,具有半定量性质,表现为等级大小或程度。五、概率和频率在相同的条件下,独立地重复n次实验,随机实验的某一结果A出现m次,则称f=m/n为结果A出现的频率(frequency)。
当n逐渐增大时,频率f始终在一个常数左右微小摆动,称该常数为结果A出现的概率(probability),记为p。概率度量了随机事件(如治疗某病患者结果为有效)发生可能性的大小。六、误差误差(error)的一般定义是指测量值与真值之间的差异。
根据其性质和来源可分为随机误差(randomerror)和非随机误差(nonrandomerror)。随机误差由多种无法控制的因素造成,具有不恒定、随机变化、无法消除的特点,常见的有随机测量误差、抽样误差。非随机误差的产生原因可知或可掌握,具有恒定不变或遵循规律变化的特点,常见的非随机误差有系统误差。六、误差(一)系统误差(systematicerror)由一些固定因素造成,取值恒定或按一定规律变化,具有方向性。(二)随机测量误差(randomerrorofmeasurement)是指在测量中即使仪器设备已校准,操作过程已进行了标准化,但相同条件下对同一研究对象重复测量,也可能存在多次测量结果不完全相同的现象。(三)抽样误差(samplingerror)是指由于生物体的变异和抽样所引起的样本统计量与总体参数之间的差异。目录医学统计学的概念及其作用1统计学中的基本概念2统计和计算机、统计软件的关系3学习统计学应注意的问题4一、统计和计算机的关系医学统计学在实际应用时,会涉及到大量的计算。计算机的诞生和发展不仅可以帮助人们采集和存储数据,实现复杂、大量的计算过程,还能将运算结果以可视化的形式加以显示,促进了包括统计学在内的很多学科的发展与应用。二、统计和统计软件的关系统计软件的应用提高了统计运算的效率和准确性,使研究者不必在计算上花费大量时间和精力。会使用统计软件已经成为学好、用好医学统计学知识的重要技能之一。
但是,统计软件的合理使用是以扎实的统计知识为基础的,软件只是简化了繁琐的计算过程。不能主观地认为统计软件是万能的,只要有了数据,点点菜单、编编程序就能得到结果,而忽略了统计方法的学习。三、SPSS统计软件简介
SPSS是世界上最早的统计分析软件之一,由美国斯坦福大学的三位研究生于20世纪60年代末研制。SPSS是StatisticalPackagefortheSocialSciences首字母的缩写,意为“社会科学统计软件包”。SPSS最突出的特点就是操作界面友好,输出结果美观。是非专业统计人员的首选统计软件。三、SPSS统计软件简介图1.2数据编辑窗口三、SPSS统计软件简介图1.3结果输出窗口三、SPSS统计软件简介图1.4变量视图三、SPSS统计软件简介图1.5在变量视图中定义新变量图1.6定义变量值标签三、SPSS统计软件简介图1.710名患者的基本资料三、SPSS统计软件简介图1.8SPSS的分析菜单目录医学统计学的概念及其作用1统计学中的基本概念2统计和计算机、统计软件的关系3学习统计学应注意的问题4一、注重培养统计思维
统计思维是指统计学独特的逻辑思维方法,即从不确定性(概率)的角度来思考问题,分析医学研究的结果。生物变异普遍存在,根据样本特征推断总体特征时存在抽样误差,抽样误差是不可避免的,但具有规律性,这是统计推断的理论基础。在开始学习医学统计学时,就要牢固树立起变异和概率、抽样误差、统计结论具有不确定性等观念。二、掌握统计学的基本方法与技能医学统计学贯穿于医学科研的始末,在学习时要注重理解统计学术语,掌握统计学的基本方法与技能,区别不同方法的应用背景。
学习医学统计学要特别注意区别、识记方法的应用范围和适用条件。三、正确理解和表达统计分析结果正确理解统计结果首先要明确:所有的统计结果都是基于概率的原理给出的,用p值作为“结论正确”的概率保证,而不能将统计结果绝对化。另外,需要注意的是统计学只能帮助我们揭示隐藏在数据内部的规律性,并不能创造规律。
在获得统计学结论后只有结合医学实际,才能得到有价值的研究结论。三、正确理解和表达统计分析结果对于医学研究者而言,撰写论文报告研究结果常常是研究结束后公开成果的关键一步。但我国医学期刊的统计错误却值得关注。论文中对统计检验方法的使用有所增加,但错用仍然很多,特别是对统计结果的报告,包括一些基本统计方法的结果报告都存在错误。应遵循相应研究的报告规范。小结1.医学统计学是运用概率论和数理统计学的原理和方法,研究医学数据的收集、整理、分析和推断,从而发现医学现象的内在规律,用以指导医学理论和实践的学科。2.统计工作一般分为统计设计、收集资料、整理资料、分析资料四个步骤,每个步骤的工作质量都会影响到最终结论的正确性,而统计设计是后面三步的总体设想和安排,最为关键。小结3.医学研究对象具有的某种共性称为同质;同质研究对象变量值之间的差异称为变异。变异的存在,导致研究结果的判断存在不确定性。4.观察单位的研究特征称为变量(或指标),变量的观测结果称为变量值,多个变量值汇总后称为资料。常见的资料类型包括计量资料、无序分类资料、有序分类资料,不同类型的资料需采用不同的统计分析方法。小结5.同质的观察单位某项观测值的全体称为总体,来自于总体的部分观察单位的观测值称为样本。抽取的观察单位的个数称为样本含量。统计学的主要任务就是通过样本了解总体。6.总体中全部观测值所得的特征值称为参数。参数是固定的常数,通常未知。由样本算得的统计指标称为统计量。由抽样与变异引起的样本统计量与总体参数的差异,称为抽样误差。小结7.概率度量了随机事件发生可能性的大小。小概率事件是指在一次实验或观察中某结果发生的可能性很小,常取0.05或0.01作为小概率的标准。8.学习医学统计学的主要目的是培养统计思维,掌握基本的统计分析方法,能够借助统计软件分析数据,正确解释和表达分析的结果,准确理解学术期刊上发表的科研论文的统计结论。谢谢!第二章计量资料的统计描述医学统计学目录频数分布表与频数分布图1集中趋势的描述2离散趋势的描述3正态分布及应用4频数分布表与频数分布图频数分布表(frequencydistributiontable)简称频数表(frequencytable),当变量值个数较多时,对各变量值出现的频数列表表示,即为频数分布表。频数分布表的图形表示称为频数分布图(frequencydistributiongraph)。
例2.1表2.1是某医院产科某月100个顺产婴儿出生身长的资料(单位:cm),试列出频数分布表。48484742534945504852495746484642495150515642594948524249555351454747475048515153464757454651465147515547524748544754494453544548444842474850555053564950564153534944494845525246545044534947484551455053
表2.1某医院产科某月顺产婴儿出生身长(单位:cm)频数分布表与频数分布图48484742534945504852495746484642495150515642594948524249555351454747475048515153464757454651465147515547524748544754494453544548444842474850555053564950564153534944494845525246545044534947484551455053
频率分布表的编制步骤:计算极差(range,R):也称全距,即数据的最大值和最小值之差。最小值最大值R=59-41=18(cm)频数分布表与频数分布图频率分布表的编制步骤:计算极差(range,R):也称全距,即数据的最大值和最小值之差。
确定组段数与组距:一般取5~15个组段,本例取9个,组距≈全距/组段数。组距=18/9=2频数分布表与频数分布图频率分布表的编制步骤:计算极差(range,R):也称全距,即数据的最大之和最小值之差。
确定组段数与组距:一般取5~15个组段,组距≈全距/组段数。确定各组段的上、下限:下限(lowerlimit):每个组段的起点上限(upperlimit):每个组段的终点频数分布表与频数分布图合计
41~43~45~47~49~51~53~55~57~59
组段①第一组段包含最小值,最后一组包含最大值;②各组段不能重叠,每一组段均为左闭右开的区间,但最后一个组段同时写出上限和下限;③尽量取较整齐的数值作为组段的端点,便于表述;④组距以相等为宜。频数分布表与频数分布图频率分布表的编制步骤:计算极差(range,R):也称全距,即数据的最大值和最小值之差。
确定组段数与组距:一般取5~15个组段,组距≈全距/组段数。确定各组段的上、下限:下限:每个组段的起点上限:每个组段的终点列表频数分布表与频数分布图连续型变量的频数分布图
直方图(histogram)图2.1
100名顺产婴儿出生身长的频数分布图频数分布表与频数分布图对称分布数据分布大致以组段“47~”和“49~”为中心,左右对称。揭示资料的分布类型补图1
100名顺产婴儿出生身长的频数分布图频数分布表与频数分布图补图2某地居民238人发汞含量分布(µmol/kg)右侧拖尾频数分布表与频数分布图补图4120例健康成年男子血清铁含量分布(µmol/L)2.描述分布的集中趋势和离散趋势集中趋势离散趋势离散趋势频数分布表与频数分布图3.便于发现某些特大和特小的可疑值补图5100名健康成年男子发贡含量(µmol/kg)频数分布表与频数分布图平均数(average)指标:描述一组同质计量资料的集中趋势;反映一组观察值的平均水平。集中趋势的描述
一组参差不齐的数据具有相同的性质(如:年龄相近、性别相同、同为某病患者等)集中趋势(centraltendency):指某计量资料的大多数观察值所在的中心位置。(一)算术均数(Arithmeticmean)符号:总体均数样本均数意义:数据取值的平均数量水平。适用:对称分布,特别是正态分布计量资料集中趋势的描述。集中趋势的描述
例2.2从例2.1数据中随机抽取一行,计算均数。若取第2行数据,数值为:49,57,46,48,46,42,49,51,50,51(cm)。结论:10名婴儿的平均身长为48.9cm。集中趋势的描述
(二)几何均数(geometricmean)符号:G适用:等比数列资料,或原始观察值分布不对称,但经对数转换后呈对称分布的资料,如对数正态分布资料。正偏态分布正态分布集中趋势的描述
几何均数:变量对数值的算术均数的反对数几何均数:n个数值的乘积开n次方或者集中趋势的描述
符号:M
Md意义:总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。适用:任何分布类型计量资料集中趋势的描述。(三)中位数(median)集中趋势的描述
n为奇数时n为偶数时从小到大排列后,位置排在第(n+1)/2位将数值从小到大排列集中趋势的描述
离散趋势的描述变异(variation)指标:描述一组计量资料观察值之间参差不齐的程度,即变异程度或离散程度。极差(range)1四分位数间距(quartilerange)2方差(variance)标准差(standarddeviation)3变异系数(coefficientofvariation)4(一)极差(range)符号:R适用:适合于各种分布类型的资料,可以用于资料的粗略分析。样本量接近的同类资料比较时,极差越大意味着数据越离散。minmaxR=max-min离散趋势的描述(二)四分位数间距(quartilerange)
四分位数(quartile):下四分位数Q1=P25
中位数Md=P50
上四分位数Q3=P75min(P0)Q3(P75)Q1(P25)Md(P50)max(P100)Q1Q325%75%25%75%minmaxR=max-min离散趋势的描述(三)方差(variance)符号:总体方差样本方差
S2适用:对称分布计量资料离散程度的描述。离散趋势的描述计算公式:
总体样本数据变异程度越大,方差越大。离均差平方和SumofSquare离散趋势的描述(四)标准差(standarddeviation)总体标准差
样本标准差标准差的单位与原观测值相同;数据变异程度越大,标准差越大。离散趋势的描述正态分布曲线的数学函数表达式:自然对数的底(2.718)总体均数随机变量(-∞<X<+∞)如果随机变量的分布服从该密度函数,则称X服从正态分布,记作X~N(
,
2)。圆周率(3.14)总体标准差正态分布及其应用正态曲线下的面积分布有一定的规律,欲求其一定区间的面积,可通过对正态分布密度函数积分来实现,即:正态分布及其应用x=
50%50%在横轴上方呈钟形分布,两端与X轴永不相交,以x=
为对称轴,左右完全对称;在x=
时,曲线达到最高峰,即f()最大,随着x逐渐远离
,f(x)逐渐减小;正态分布及其应用在x=
±
处有拐点;曲线下面积为1;x=
x=+
x=-
正态分布及其应用正态分布的参数:位置参数
与形态参数
位置参数
增大,曲线右移
减小,曲线左移总体均数
越大,曲线越远离原点;
越小,曲线越接近原点。正态分布及其应用正态分布的参数:位置参数
与形态参数
形态参数
越小,曲线越陡峭越大,曲线越平坦总体标准差越大,变异程度越大,个体值越分散;总体标准差越小,变异程度越小,个体值越集中。正态分布及其应用
正态分布及其应用不同变量的正态分布曲线是不相同的(如:身高值和体重值);参数不同,正态分布的形状、位置都不同,为了便于比较,通过变量转换可将所有的正态分布曲线转化为一条通用的正态分布曲线—标准正态分布曲线(standardnormaldistribution)。正态分布及其应用标准正态分布:一种特别的正态分布位置参数μ为0,即以y轴作为对称轴;形态参数σ为1。
-2
-
z=0
2
正态分布及其应用标准正态密度函数图形正态分布及其应用第三章计数资料的统计描述医学统计学主要内容74医学统计学的概念及其作用1应用相对数指标的注意事项2动态数列的常用指标3辛普森悖论与率的标准化4常用相对数指标第一节常用相对数指标概念两个相关绝对数之比意义将比较基数不同的绝对数转换为基数相同的可比指标常用相对数指标结构相对数、强度相对数、相对比75一、结构相对数概念表示事物内部某一组成部分观察单位数与该事物各组成部分的观察单位数总数之比,用于说明事物内部各组成部分所占比重,又称构成比(proportion)。计算公式76
一、结构相对数表3.1某医院2006年和2010年住院病人五种疾病构成情况77疾病种类2006年2010年住院人数构成比(%)住院人数构成比(%)呼吸系统疾病366324.96543324.63循环系统疾病331222.57584126.48消化系统疾病323622.05437119.81损伤与中毒228315.55281912.78肿瘤218314.87359516.30合计14677100.0022059100.00特点:1、分子为分母的一部分,各部分构成比之和为100%2、各组成部分构成比相互影响二、强度相对数基本概念用以说明单位时间内某现象发生频率或强度,又称率(rate)。计算公式公式中K为比例基数,可取100%,1000‰,100000/万,100000/10万等。78
二、强度相对数如:某研究单位研究某种减肥药的疗效,筛选了240名单纯性肥胖患者进行双盲随机对照试验,将受试者随机分成两组(每组120人),一组服用该减肥药(试验组),另一组服用安慰剂(对照组),经过一段时间的观察,试验组中96人有效,对照组中80人有效,试计算两组的有效率?79
二、强度相对数特点当分母较大时,样本率近似等于总体率。如:2005年在中国进行了胃食管反流性病的流行病调查,共调查16078人,其中患胃食管反流性病的人数为496人,患病率为3.1%,低于西方国家人群的患病率(10%~20%)。分母不能包括不可能发生事件的研究对象。如:某年某幼儿园36名儿童得了腮腺炎,该幼儿园共有200名儿童(其中25名儿童以前患过),求该幼儿园2009年腮腺炎的发病率。80三、相对比概念两个有关联的指标A和B之比,用以说明两个指标间的比例关系。简称比(ratio)。计算公式公式中A和B两个指标可以是绝对数、相对数,也可以是平均数等。81
三、相对比例3.4某年某医院出生的新生儿中,男性新生儿为586人,女性新生儿为523人,求出生新生儿的性别比例。根据国际常用标准,新生儿男女性别比例一般在102%~107%,说明该医院该年男性新生儿相对较多。82
三、相对比特点用于相同性质指标的比较如:性别比用于说明不同性质指标的对比关系如:床护比83
医学中常见相对数指标84
第二节应用相对数的注意事项一、计算相对数应有足够的观察单位数如果观察例数太少,则相对数波动较大。如:如手术实施5例,只要出现1人成功,则手术成功率将波动20%。如果由于某因素导致观察单位数确实很少,建议采用绝对数直接表示。如:截止2013年4月15日,安徽确诊2例H7N9禽流感病人,1人死亡。85第二节应用相对数的注意事项二、正确计算合计率分组资料计算合并率时,不能简单地把各个率相加后取平均值,而应该用分子、分母的合计数进行计算。86医院名称治疗病人数治愈人数治愈率(%)甲医院100040040.00乙医院50030060.00合计1500700
补表1两所医院应用某药物治疗某病的治愈情况50.00
(错)第二节应用相对数的注意事项二、正确计算合计率87医院名称治疗病人数治愈人数治愈率(%)甲医院100040040.00乙医院50030060.00合计1500700
补表2两所医院应用某药物治疗某病的治愈情况46.47(对)第二节应用相对数的注意事项三、不能以结构相对数代替强度相对数结论:50~60岁的人群最容易患肿瘤?该错误被称为“以比代率”错误。88表3.3某地某年某肿瘤患病情况年龄(岁)患者数患者构成比(%)0~83.5430~219.2940~5323.4550~8437.1760~6026.55合计226100.00第二节应用相对数的注意事项三、不能以结构相对数代替强度相对数结论:60岁以上人群最容易患肿瘤。89表3.3某地某年某肿瘤患病情况年龄(岁)人口数患者数患者构成比(%)患病率(1/10万)0~101232183.540.7930~506534219.294.1540~5746375323.459.2250~5923408437.1714.1860~2017656026.5529.74合计2887597226100.007.83第二节应用相对数的注意事项四、注意资料的可比性除了对比因素以外,其他因素尽可能相同。如:某研究者观察比较新的疗法和激光疗法治疗尖锐湿疣的疗效。在收集的病人中,大多数采用新疗法的病人只有一个病灶,而采用激光治疗的病人病灶较多,则无法说明新疗法疗效优于激光疗法。90第二节应用相对数的注意事项五、样本相对数的比较应作假设检验样本率或样本构成比存在抽样误差;通过样本推断总体率或构成比有无差异,不能直接比较样本率或样本构成比,必须进行假设检验——
2检验(chi-squaretest)。91第三节动态数列(dynamicseries)概念是一系列按时间顺序排列起来的统计指标(可以是绝对数、相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。常用分析指标绝对增长值、发展速度与增长速度、平均发展速度和平均增长速度。92一、绝对增长值概念说明事物在一定时期增长的绝对值类型累计增长值:报告期指标与基线期指标之差,即an-a0如:与2001相比,2002年增长140人,2003年增长220人,以此类推。逐年增长值:报告期指标与前一期指标之差,即an-an-1如:2002年比2001年增长140人,2003年比2002年增长80人,以此类推。93表3.5某医院2010年至2018年门急诊人次动态变化年份
(1)指标符号
(2)年门急诊人次
(3)绝对增长量发展速度(%)增长速度(%)累计
(4)逐年
(5)定基比
(6)环比
(7)定基比
(8)环比
(9)2010a02295748------2011a12617498321750321750114.0114.014.014.02012a22939886644138322388128.1112.328.112.32013a33155126859378215240137.4107.337.47.32014a434119891116241256863148.6108.148.68.12015a535129171217169100928153.0103.053.03.02016a634319971136249-80920149.597.749.5-2.32017a73458798116305026801150.7100.850.70.82018a83479927118417921129151.6100.651.60.694二、发展速度和增长速度发展速度表示报告期指标的水平相当于基线期(或前一期)指标的百分之多少或若干倍。可以采用两种计算方法定基比:报告期指标与基线期指标之比,即an/a0;环比:报告期指标与前一期指标之比,即an/an-1。如:2015年的发展速度
定基比:3512917/2295748=153.0%,环比:3512917/3411989=103.0%。95二、发展速度和增长速度增长速度
表示净速度,即发展速度-100%。同样可以计算定基比和环比增长速度。如:2015年的增长速度定基比增长速度:153.0%-100%=53.0%环比增长速度:103.0%-100%=3.0%发展速度和增长速度均为相对比,说明事物在一定时期的速度变化。96表3.5某医院2010年至2018年门急诊人次动态变化97年份指标符号年门急诊人次绝对增长值发展速度(%)增长速度(%)累计逐年定基比环比定基比环比2010a02295748------2011a12617498321750321750114.0114.014.014.02012a22939886644138322388128.1112.328.112.32013a33155126859378215240137.4107.337.47.32014a434119891116241256863148.6108.148.68.12015a535129171217169100928153.0103.053.03.02016a634319971136249-80920149.597.749.5-2.32017a73458798116305026801150.7100.850.70.82018a83479927118417921129151.6100.651.60.6三、平均发展速度和平均增长速度
98三、平均发展速度和平均增长速度
99三、平均发展速度和平均增长速度
100表3.6某疾病在两个地区的发病情况101年龄组甲地乙地总人数发病人数发病率(%)总人数发病人数发病率(%)老年50001252.501000303.00中青年100050.505000300.60合计60001302.176000601.00结论:甲地某疾病的发病率高于乙地?第四节辛普森悖论与率的标准化辛普森悖论(Simpsonparadox)又译为辛普森诡论。由英国统计学家E.H.Simpson于1951年提出。定义:在某种条件下,在分组比较中都占优势的一方,在总体评价中却并不占优势。造成原因:不同组别之间某种内部结构不同。解决方案:率的标准化102率的标准化意义:消除不同组别之间某些内部结构不同对合计率评价的影响。基本思想:首先将不同组的内部结构进行标准化,即均转化为相同的标准构成;再在此标准化内部结构的基础上进行合计率的计算和比较。103率的标准化标准化率的计算可分为直接法和间接法两种方法的应用条件直接法:当获得的资料为内部结构及各内部结构的发生例数或率。间接法:当获得的资料只有内部结构及合计数,而不知道各内部结构具体的发生例数或率。(略)104率的标准化计算步骤(直接法)确定各内部结构的标准人数通常标准人数可参考有代表性的、较稳定的、数量较大的人群。WHO、国家发布的数据;本单位历年累计的数据;两组人群中任一组的人数;两组人群人数的合计。(最常用)105率的标准化计算步骤(直接法)按已知的各内部结构发生率和标准构成人数计算各内部结构的预期发生人数;根据各内部结构标准人数和预期发生人数计算标准化发生率。计算公式:p'=(N1p1+N2p2+……+Nkpk
)/N公式中p'为标准化率,N1,N2,……Nk为各内部结构标准化后的例数,p1,p2,……pk为各内部结构已知的发生率,N为总标准人数。106表3.7甲乙两地某疾病标准化发病率107年龄组甲地乙地总人数发病人数发病率(%)总人数发病人数发病率(%)老年60001502.5060001803.00中青年6000300.506000360.60合计120001801.50120002161.80结论:甲地某疾病的发病率低于乙地。应用标准化率的注意事项不同组别发生率的比较不仅要考虑总体情况,还需要考虑内部结构是否一致。选择不同的内部结构标准化人数,计算所得的标准化率也有所不同(直接法)。标准化率仅仅用于比较,不能代表实际发生的情况。108小结相对数的概念和意义常用相对数的类型及其计算公式(重点)结构相对数、强度相对数、相对比应用相对数的注意事项(重点、难点)动态数列的常用指标辛普森悖论和率的标准化直接法计算标准化率(难点)109110谢谢!第四章常用概率分布教材名称目录正态分布二项分布2Poisson分布3一、正态分布
1
2
3
4概念特征标准正态分布应用正态分布的概念最早由德国数学家高斯(C.F.Gauss)提出,也称为高斯分布(Gaussiandistribution)正态分布是统计学的基本理论分布之一,也是自然界最常见的分布之一如人体生化指标、身高、体重、测量误差等2016年某大学预防医学专业学生《医学统计学》考试成绩Page
115组段频数频率(%)44-4811.049-5355.054-5888.059-631111.064-681515.069-731919.074-781515.079-831111.084-8888.089-9355.094-9822.0合计100100.0学生成绩频率密度图及概率密度曲线正态分布概率密度曲线频数分布表和频率密度分布图中的数据呈中间频数多,两边频数渐少且近似对称将直条顶端中点连接起来形成频率密度折线若样本量增大,再将组距缩小,组段分细,直条宽度变窄,频率密度折线趋于一条光滑的曲线。正态分布的概念高峰位于中央,两侧逐渐下降并完全对称,两端永远不与横轴相交的钟形曲线称为正态分布曲线其概率密度函数和概率分布函数分别为其中,μ为总体均数,σ为总体标准差正态分布的概念如果连续型随机变量X具有如上概率密度函数,则称该连续型随机变量X服从参数为μ和σ2的正态分布(Normaldistribution),记为X~N(μ,σ2)正态分布概率密度曲线下面积P(X),可根据正态分布概率分布函数计算
正态分布的概率密度函数与概率分布函数示意图正态分布曲线下面积示意图正态分布的特征正态分布呈钟形,单峰,且关于X=μ
对称正态分布概率密度函数在X=μ
处最大,X=μ±σ
处有拐点正态分布有两个参数:位置参数μ
和形状参数(变异度参数)σ正态分布位置变换示意图正态分布形态变换示意图正态分布的特征任何正态分布N(μ,σ²),其概率密度曲线下的面积具有共同规律曲线下面积为1在区间(μ±σ)上的面积为68.27%;在区间(μ±1.64σ)上的面积为90.00%;在区间(μ±1.96σ)上的面积为95.00%;在区间(μ±2.58σ)上的面积为99.00%。正态分布的特征图4-7正态分布曲线下面积分布规律示意图标准化变换如果随机变量X服从正态分布N(μ,σ²),则将随机变量X进行如下变换u服从标准正态分布N(0,1)该变换称为标准化变换(standardizedtransformation)标准正态分布当μ=0,σ=1时,称为标准正态分布(standardnormaldistribution),记为u~N(0,1)。其概率密度函数和分布函数分别记为标准曲线下面积规律标准正态分布的概率密度曲线与分布函数示意图标准正态分布标准正态分布曲线下面积分布表-简化正态分布计算服从标准正态分布的随机变量在区间(-∞,Z)(Z≤0)上曲线下的面积,可直接查表标准正态分布例4-1设Z~N(0,1),计算(1)Z取值在区间(-1.96,1.96)内的概率;(2)Z取值在区间(-1.96,1.96)以外的概率。
标准正态分布例4-2已知某地20岁正常成年男性的脉搏数服从正态分布,抽样调查该地110名正常成年男性,得脉搏数的样本均数为76(次/分)、样本标准差为3.6(次/分),试估计该地20岁正常成年男性脉搏数介于70~80(次/分)之间的比例。标准正态分布故该地区20岁正常成年男性脉搏数介于70~80(次/分)之间的比例为81.90%。
正态分布的应用确定医学参考值范围质量控制统计学的重要基础理论之一正态分布的应用确定医学参考值范围医学参考值范围(medicalreferencerange),:特定的“正常人”的某项指标值(包括解剖、生理、生化指标及组织代谢产物含量等)数据中绝大多数个体的取值所在范围。“正常人”指排除了可能影响研究指标的因素或疾病的个体的同质的所有人。“绝大多数”:90%、95%、99%正态分布的应用具体步骤(1)确定“正常人”对象的范围,抽取足够样本量(2)统一测量标准(3)确定分组(4)确定医学参考值范围的单双侧(5)确定百分比范围(6)根据资料的分布类型,确定医学参考值范围制定方法正态分布的应用方法百分位数法:偏态分布、非对称分布/未知分布类型正态分布法:正态分布资料正态分布的应用
故该地20岁正常成年男性脉搏数的95%参考值范围为68.9~83.1(次/分)
正态分布的应用质量控制医学研究中很多指标都是围绕某个值随机波动,不存在某些影响较大的因素理论依据即正态分布曲线下的面积规律:若某指标值服从正态分布,对每一次测量落在(μ-3σ,μ+3σ)区域以外的概率几乎为0,可以认为是不可能事件。质量控制图控制图的横轴表示时间,纵轴上有七个特殊的点,分别延长形成七条水平线,其中μ所在的水平线为中心线,μ±2σ为上下警戒限,μ±3σ为上下控制限。某实验室采用某一标准品对仪器进行校正,连续测得20个数据,绘制质量控制图如图4-9图4-9同一标准品测定值控制图正态分布的应用统计学的重要基础理论之一很多统计推断是以正态分布为条件的,比如t检验,方差分析等大样本资料时非正态分布也可作正态近似处理二项分布和Poisson分布的正态近似二、二项分布
1
2
3概念特征应用二项分布的概念伯努利试验为医学研究中常用的一类试验伯努利试验特点:只有两种互斥结果独立重复试验中,条件相同,事件A发生的概率相同研究关心事件A发生次数二项分布的概念例4-4假设某校中学生的近视率为10%,随机从该校中学生中抽取3名学生,问3名学生中出现1名学生近视的概率是多少?用甲、乙、丙代表3名学生,则3名学生是否发生近视就是3重伯贝努利试验。故3名学生中任一名发生近视的概率为24.3%
二项分布的概念n重伯努利试验中,事件A的发生次数X服从的概率分布即二项分布,记为X~B(n,π)一种离散型概率分布。参数n称为离散参数,只能取正整数;参数π是每次“试验”事件A发生的概率。其概率函数为
二项分布的特征二项分布图形在π
为0.5时呈对称分布;样本量越大,图形越趋于对称分布二项分布的均数与标准差分别为
二项分布正态近似:nπ与n(1-π)均大于或等于5二项分布概率分布示意图当n很大时,二项分布逼近正态分布示意图二项分布的应用概率估计及累积概率计算。例4-5据报道,有10%的人接种某免疫疫苗后会出现不良反应。现有5人接种此疫苗,试求:(1)其中k个人出现不良反应的概率;(2)至多2人出现不良反应的概率;(3)有人出现不良反应的概率。二项分布的应用5人接种疫苗,即5重伯努利试验,不良反应人数X服从二项分布B(5,0.10)(1)其中k个人出现不良反应的概率;
X=k012345P(X=k)0.590490.328050.072900.008100.000450.00001(2)至多2个人出现不良反应的概率;
(3)有人出现不良反应的概率;
三、Poisson分布
1
2
3概念特征应用Poisson分布的概念Poisson分布也是一种离散型概率分布,用于描述在单位空间或时间内某稀有时间发生次数的概率分布情况。生物医学中,如人群中患病率很低的非传染性疾病患病数或死亡数、医院单位时间内的门诊就诊人数等Poisson分布产生机制设玻片上血细胞平均个数为μ,将玻片等分为n个小格子(n很大)每个小格子上只能有/无血细胞,不可能出现两个/更多血细胞每个小格子是否有血细胞概率相等各个格子之间是否出现血细胞相互独立Poisson分布的概念Poisson分布是二项分布的极限如果X~B(n,π),π很小,n很大,X近似服从μ=nπ的Poisson分布,记为X~Π(μ),μ为其唯一参数其概率函数为
μ>0,为某一常数;e=2.7182⋯为自然对数的底数Poisson分布的特征Poisson分布图形特征:μ值愈小,Poisson分布愈不对称;随着μ的增大,分布趋于对称Poisson分布正态近似:μ≥20Poisson分布总体均数与总体方差相等Poisson分布具有可加性
Poisson分布的概率分布示意图Poisson分布的特征例如,已知某地新生儿中罹患染色体异常的例数近似服从Poisson分布。设该地每年新生儿中罹患染色体异常的例数为0.5(假定每年该地新生儿出生人数大致相同),现考虑连续10年罹患染色体异常的新生儿例数的分布情况。Poisson分布的特征由于第i年罹患染色体异常的新生儿例数Xi~Π(0.5)(i=1,2,⋯,10),且各Xi互相独立,据Poisson分布的可加性,可得:即10年内罹患染色体异常的新生儿例数仍服从Poisson分布,且总体均数为5。
Poisson分布的应用应用条件:作为二项分布极限,适用二项分布应用条件
n很大,π很小n和π未知,已知总体均数μ即可Poisson分布的应用概率计算:例4-6某矿泉水公司为监测其水源地水质污染情况,从该水源地独立抽取水样400次,进行细菌培养后计数水样中的菌落数,结果如下菌落数0123合计频数f243120316400试分析该水源地水样中菌落数的分布是否服从Poisson分布。Poisson分布的应用每次水样中平均菌落数为0.500,方差为0.496,两者很接近,可以认为每次水样中菌落数服从Poisson分布,以样本均数代替总体均数,得
经计算,可得菌落数的概率分布菌落数的概率分布(Poisson分布)Page
159菌落数实际频数频率概率理论频数02430.60750.6065242.6011200.30000.3033121.322310.07750.075830.32360.01500.01445.76合计4001.00001.0000400.00可见菌落数的频率分布与μ=0.5的Poisson分布是相当吻合的;该水源地水样中菌落数的分布服从Poisson分布第五章统计表与统计图医学统计学目录统计表1统计图2案例讨论3第一节统计表一、统计表的结构二、统计表的种类三、编制统计表的注意事项四、常见统计表错误163统计表:是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。优点:避免冗长文字叙述
便于阅读
便于分析比较一统计表的结构164编制统计表的基本原则:
(1)重点突出(2)简单明了(3)层次清楚165
基本结构:标题、标目、线条、数字、以及备注等。(一)统计表的结构:表5.1三种疗法治疗流感的疗效比较组别例数有效数有效率(%)中药组30219965.89西药组30421972.04中西医结合组30625783.99166制表的基本要求:
1.标题(title)概括表的主要内容,位于表的上方,注明时间与地点。
2.标目(heading)包括横标目和纵标目,分别相当于表格的主语和谓语,有单位时要标明。横标目位于表的左侧,说明每一行数字的特征;纵标目位于表的右侧,说明每一列数字的含义。横、纵标目:连起来可以读成一句比较完整而通顺的话
1673.线条顶线、底线、纵标目下的横线,若有合计项则应在合计项上面加一横线。
4.数字阿拉伯数字无数字用“-”表示,数字缺失用“…”表示,数字为0时一定要填写为“0”,同一指标小数点位数要一致、位次要对齐。
5.备注需要时可添加备注在表内需说明处用“*”号标记位于表的下方。1681.简单表:统计表的主语只有一个层次
(二)统计表的种类表5.1三种疗法治疗流感的疗效比较组别例数有效数有效率(%)中药组30219965.89西药组30421972.04中西医结合组30625783.991692.组合表:统计表的主语有两个或两个以上层次年龄(岁)男性
女性调查人数患病人数患病率(%)
调查人数患病人数患病率(%)40~651624.62
771114.2950~32015548.44
2536626.0960~18911460.32
1977638.5870~21614165.28
1829351.10合计79042653.92
70924634.70表5.22010年上海市某社区各年龄段居民的膝痛患病率三、编制统计表的注意事项1.标题应概括表的主要内容,标题前面通常应加以编号,若表中的数值单位都一样时可把单位统一写在标题后面。2.标目应文字简明,层次清楚。三、编制统计表的注意事项3.线条不宜过多,特别是不能有竖线和斜线。4.表中不宜留空格。5.备注不为表的必备内容。四、常见统计表错误1.表中的内容太多、重点不突出、表达不清楚;2.标题不确切、不完善或不精练;3.纵横标目倒置、标目重复;4.表中有空格;5.表中有竖线、斜线,或有不必要的横线。修正前:年龄50~
60~
70~性别患病数患病率性别患病数患病率性别患病数患病率男6626.1905男7638.78男9351.38女15548.44女11460.32女14165.58表5.3高血压患病率例5.2:某研究人员欲了解某地的高血压患病情况,于2009年对该地50岁以上的人群进行了抽样调查,结果见表5.3。请对该表进行修改。年龄(岁)男性
女性
合计例数
患病数
患病率(%)
例数
患病数
患病率(%)
例数
患病数
患病率(%)50~2526626.19
32015548.44
57222138.6460~1967638.78
18911460.32
38519049.3570~1819351.38
21514165.58
39623459.09合计62923537.36
72441056.63
135364547.67表5.42009年某地1353名50岁以上人群的高血压患病率修正后:175第二节统计图
(statisticalgraph/chart)统计图:是用点的位置、线段的升降、直条的长短或面积的大小等形式表达统计资料的方法。优点:更形象、直观、生动缺点:对数量表达较粗略176一、统计图结构标题标目图域图例图域(7:5)横标目(单位)纵标目(单位)图号标题图例标题
简明扼要地说明图的主要内容,置于图的正下方并加以编号,一般需注明时间、地点。2.图域
纵横比例一般以5:7为宜。纵轴和横轴一般要有刻度,横轴尺度由左向右、纵轴尺度自下而上3.标目
包括纵标目和横标目,分别表示纵轴和横轴代表的指标,有度量衡单位时要标明。4.图例
对图中不同颜色或图案代表的事物进行说明。图例通常置于图的右上角或图的正下方。二、常用统计图的绘制1.直条图2.圆图和百分比条图3.线图4.直方图5.散点图6.箱式图1803)分类:单式条图→组别仅一个层次复式条图→组别多个层次1)直条图:用等宽直条的长短来表示各个相互独立的指标大小的图形。2)适用资料:相互独立的资料注意:纵轴坐标一定要从0开始。1.直条图图5.1三种疗法治疗流感的疗效比较182图5.1.1某年某地主要死因的死亡率(/10万)183图5.22010年上海市某社区各年龄段居民的膝痛患病率比较带误差条的误差条图图5.3不同分期糖尿病患者的肾小球滤过率比较()1851)圆图(piechart):是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例。2)适用资料:构成比资料。3)应用:描述各部分的百分构成。
2.饼图(圆图)和百分比条图图5.42005年某社区1499人的学历构成187
图5.4.1某年某地城市婴儿死因构成比(%)
1881)百分比条图(percentbarchart):是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。2)适用资料:构成比资料。3)应用:描述各部分的百分构成。
百分比条图图5.52005年某社区1499人不同性别的学历构成190
图5.5.120世纪70年代和80年代某地7常见恶性肿瘤发病构成比较
1913.线图(linechart)1)概念:用线段的升降来表示某事物随另一连续型变量变化而变化的情况,最常用于描述某统计量随时间变化而变化的趋势2)适用资料:连续性资料。3)
应用:反映事物的连续的动态变化规律。
1923.线图(linechart)图5.62006年~2010年全国执业(助理)医师人数的变化趋势193半对数线图
(semilogrithmiclinegraph)绘制要点:横坐标是算术尺度,纵坐标是对数尺度、没有0点应用:常用于两个或多个事物某一统计指标变化速度的比较194图5.72001年—2008年某地普通感冒和肺炎发病率的变化趋势(a)195图5.82001年—2008年某地普通感冒和肺炎发病率的变化趋势(b)1961)直方图:以直方面积的大小表示各组频数的多少,常用于表示连续型数值变量的频数分布。2)适用资料:连续变量的频数分布。3)绘制注意事项:
纵轴坐标要从0开始。
各直条间不留空隙。组距不等的资料先进行换算4.直方图(histogram)
197图5.92010年某社区498例膝骨关节炎患者的身高体重指数(BMI)分布198图5.9.11997年某地乙型病毒性脑膜炎病例的年龄分布
1995.散点图(scatterplot)散点图(scatterplot)用点的密集程度和趋势表示两个变量之间的相关关系与变化趋势。适用资料:双变量资料。反映两事物间的相关关系,主要用于相关回归分析。
200图5.1024例高血压患者治疗前后舒张压之间的关系2016.箱式图(boxplot)
箱式图:箱子的上端和下端表示上四分位数和下四分位数,箱子中间的横线表示中位数,箱子两端的连线端点分别是除异常值之外的最大值和最小值,此外若有异常值则用圆点或星号表示。202图5.11不同分期糖尿病患者的肾小球滤过率比较1.首先应根据资料的性质和研究目的,选择合适的统计图。2.比较不同事物时,要用不同的线条、图案或颜色表示,并用图例说明。3.同一个统计图中,线条和图案不宜过多。三、绘制统计图的注意事项4.条图、直方图的纵轴坐标应从0开始。5.绘制直方图时组距应相等。三、绘制统计图的注意事项。第三节案例讨论效果
总例数有效
无效小计痊愈好转例%例%例%例%28518966.311339.657626.79633.68表5.11糖尿病患者的疗效第三节案例讨论疗效例数百分比(%)痊愈11339.65好转7626.67无效9633.68合计285100.00表5.12285例糖尿病患者的疗效修改后:小结1.统计表:结构、制表原则
注意:标题、标目、线条、数字及备注的具体要求2.常用统计图:选用、绘制
注意:根据研究目的和资料的类型选择合适的统计图第六章参数估计医学统计学目录抽样误差1t分布2单个总体参数的置信区间3两总体参数之差的置信区间4目录抽样误差1t分布2单个总体参数的置信区间3两总体参数之差的置信区间4样本均数的抽样误差抽样误差(samplingerror)由于生物固有的个体变异的存在,从某一总体中随机抽取一个样本,所得样本统计量与相应的总体参数往往是不同的。这种由个体差异产生、随机抽样造成的样本统计量与总体参数间的差异,称为抽样误差。从同一总体中随机抽取若干份样本,所得样本统计量之间也不尽相同。由于生物个体的变异性客观存在,抽样误差是不可避免的,但抽样误差的分布具有一定的规律性,可据此作统计推断。样本均数的抽样误差变异:个体测量值之间不同、个体测量值与总体的平均水平不同。
衡量变异的指标:
对称分布、正态分布-方差、标准差
其它分布类型-R、Q
选取何种指标取决于样本的分布类型。抽样误差:统计量与参数,或统计量与统计量之间的差别。即统计量的变异程度。要选取合适的变异指标描述其变异就需要了解统计量的分布类型。均数的标准误(StandardErrorofmean,SEM或SE):样本均数的标准差。反映了抽样误差的大小。根据数理统计学原理,若随机变量X均数为
,标准差为
,则样本均数的均数仍为
,样本均数的标准差,即均数的标准误为:样本均数的抽样误差样本均数的抽样误差计算公式个体差异或自然变异造成,无法控制增大样本含量可减小标准误,即抽样误差控制方法、
、(为估计值)符号反映样本中个体值的变异程度反映样本均数的变异程度,反映抽样误差的大小意义样本的标准差均数的标准误均数的标准误与样本标准差的区别样本均数的抽样误差若原变量总体服从正态分布,则均数总体服从正态分布;若原变量总体不服从正态分布:
1)样本例数足够大,则均数总体近似服从正态分布;
2)样本例数较少,则均数总体为非正态分布。对于任意分布,在样本量足够大时,其样本均数的分布近似于正态分布,且样本均数的均数等于原分布的均数,样本均数的标准误是原总体标准差的。样本率的抽样误差样本频率的标准误与样本含量n的平方根成反比,说明增加样本量可减少样本频率的抽样误差。抽样误差1t分布2单个总体参数的置信区间3两总体参数之差的置信区间4目录t分布的概念戈塞特(WilliamSealeyGosset),英国现代统计方法发展的先驱,由他导出的统计学t检验广泛运用于小样本平均数之间的差别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑企业白名单制度
- 阳虚体质的姜枣茶饮用指南
- 小区雨污水管道专项施工方案
- 特发性癫痫的长期用药管理
- 新生儿窒息的后续康复
- 河南省郑州市2026届高三下学期二模试题 地理 含解析
- 2026泉州市教师招聘考试题库及答案
- 2026曲靖市辅警招聘考试题及答案
- 《用线条、色彩画感觉》教案-2025-2026学年岭南版小学美术五年级下册
- 安全库存设置保证生产顺畅
- 2026年燃气从业资格证试题预测试卷重点附答案详解
- 2026年山东省青岛市市北区中考英语一模试卷(含答案)
- 湖南省常德市澧县2024-2025学年七年级下学期期中语文试题(含答案)
- (2025)国家基层糖尿病防治管理指南课件
- 污水处理厂督查工作制度
- 党务基础知识题库(附参考答案)
- 工程机械服务管理
- 2026安徽省交控建设管理有限公司校园招聘5人笔试历年参考题库附带答案详解
- 河南省事业单位工勤(收银审核员高级技师)复习题(附答案)
- GB/T 31831-2025LED室内照明应用技术要求
- 静疗题库及答案400题
评论
0/150
提交评论