卫生统计学综合复习_第1页
卫生统计学综合复习_第2页
卫生统计学综合复习_第3页
卫生统计学综合复习_第4页
卫生统计学综合复习_第5页
免费预览已结束,剩余11页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学复习基本概念部分总体和样本观察单位随机样本和非随机样本的随机化变量、随机变量;变量的类型连续变量:有单位,理论上变量值可以充满区间。分类变量:属性。无序分类变量,虽可以用数值表示第几类,但数值无意义,只是代号。有序分类变量,虽可以用数值量化,但数值的大小无意义,意义在于数值之间的间距和顺序关系。计数变量:特点是离散、有序。某些情况下可以按连续变量处理。实际频数分布观察单位个数的分布。连续变量要按变量值分组段,总结各组段观察单位的个数。计数变量要按观察时间单位、面积单位总结计数变量值本身。分类变量要按类别总结观察单位的个数。实际上,后面两种变量在只有一次抽样时无法完成实际频数分布的刻画。数

2、据的集中趋势和离散趋势集中趋势连续变量对称分布:算术平均数(简称均数)+中位数。连续变量非对称分布:中位数。分类变量:具有所关心特征(类别)的观察单位的个数(频数)。百分构成(比例)、率、比。计数变量:单位时间、单位面积内所关心事件的发生数。求和问题。离散趋势:衡量距集中趋势远近的程度连续变量对称分布:离均差平方和、方差、标准差。连续变量非对称分布:百分位数间距。抽样变异和抽样分布抽样变异:反复抽样后,每个样本都是不同的。反复抽样指每次抽样的样本量相同。抽样分布:反复抽样后,样本集中趋势的分布。对于连续变量样本标准差当然也是有分布的,但本处不考虑。连续变量:样本均数的分布一按样本均数值分组段,

3、总结各组段样本的个数。分类变量:具有所关心特征(类别)的观察单位的个数(频数)的分布一按观察单位的个数总结样本的个数。计数变量:单位时间、单位面积内所关心事件的发生数的分布一按发生数总结样本的个数。抽样分布的集中趋势和离散趋势连续变量:反复抽样样本均数的均数一集中趋势;反复抽样样本均数的标准差(标准误)一离散趋势。分类变量:反复抽样样本具有所关心特征(类别)的观察单位的个数(频数)的均数一集中趋势;具有所关心特征(类别)的观察单位的个数(频数)的标准差(标准误)-离散趋势。计数变量:反复抽样样本单位时间、单位面积内所关心事件的发生数的均数一集中趋势;反复抽样样本单位时间、单位面积内所关心事件的

4、发生数的标准差(标准误)-离散趋势。相对频数分布和概率分布(请只考虑抽样分布)各组段样本数占总样本数的比例的分布。当反复抽样样本的样本量足够大时,相对频数分布逼近概率分布(理论分布)。各种各样的理论分布原始数据分布正态分布、对数正态分布、二项分布、泊松分布等等。抽样分布当样本量足够大时,任何原始数据分布的抽样分布均逼近正态分布(中心极限定理)C标准正态分布正态分布数据的标准化。对于连续变量还涉及t分布。正态分布(含标准正态分布和t分布)的性质样本信息对总体的统计推断(请只考虑集中趋势的推断)所有的推断均是基于抽样分布的。要求随机(大)样本区间估计连续变量:样本均数推断总体均数;利用样本均数的标

5、准差(标准误)构建总体均数的可信区间。分类变量:样本百分构成(比例)、率、比推断总体相应参数;利用标准误构建相应总体参数的可信区间。计数变量:样本单位时间、单位面积内所关心事件的发生数推断总体相应参数;利用标准误构建相应总体参数的可信区间。假设检验:评价样本来自于某参照总体的可能性。无效假设:用来推翻的假设。如:假设样本来自于某参照总体。备择假设:用来接受的假设,是与无效假设的对立的假设。如:假设样本不是来自于某参照总体。检验水准:评价上述可能性是大还是小的标准。如可能性小于检验水准则拒绝无效假设,接受备择假设。反之,则说明尚无足够证据推翻无效假设。检验水准有单侧和双侧之分。界值:对应于检验水

6、准的某分布上的百分位数。其他基本概念观察性研究和实验性研究、前瞻性研究和回顾性研究、纵向研究和横断面研究、定群研究和病例对照研究、对照、双盲;小概率事件、P值、I型错误和II型错误、检出力、多重检验问题;相关关系和因果关系、残差。基本计算部分连续变量的均数、离均差平方和、方差(含均方)、标准差、标准误、百分位数(含中位数)。二分类变量的百分构成及其标准误、RelativeRisk(RR,相对危险度)、Odds(比数)及OddsRatio(OR,比数比)统计推断中的计算总体均数(率)的可信区间的构建。正态法或正态近似法:大样本或满足某些条件时。对于连续变量还可以利用t分布。假设检验中检验统计量的

7、构建。正态法或正态近似法:大样本或满足某些条件时。u统计量或z统计量。对于连续变量还可以利用t分布。t统计量。其他:F统计量(含方差齐性检验用和方差分析用):两个方差之比。秩和。H统计量。(Pearson)片统计量。数据的统计分析策略部分研究设计类型比较研究(请只考虑平行设计)(无效假设的构建)连续变量(含参数法和非参数法)参数法是假设数据服从某种分布,而非参数法则无此要求。单样本数据:样本均数与参照总体均数的比较一判断该样本是否来自于该参照总体。两样本数据配对数据:差值的均数与0的比较一判断差值样本是否来自于均数为0的总体。独立数据:两样本均数的比较一判断两样本是否来自于同一总体。多样本数据

8、配伍组设计资料的方差分析。完全随机设计资料的方差分析。分类变量(请只考虑参数法)单样本二分类数据(请只考虑正态近似法):样本百分构成或率与参照总体百分构成或率的比较判断该样本是否来自于该参照总体。四格表资料配对数据:一致性分析。独立数据:两样本百分构成或率的比较一判断两样本是否来自于同一总体。请熟悉Fisher精确概率检验法。行父列表资料双向无序数据:检验行变量与列变量是否存在普遍关联。单向有序数据:评分,检验无序变量水平间平均分的差异。同方差分析。双向有序数据:评分,检验行变量与列变量之间是否存在相关。同两个连续变量之间的相关。相关与回归:研究一个变量(结果变量)和另一个变量(解释变量)或一

9、个变量和多个其他变量之间的相关性及确定他们之间的数量关系。相关要求变量为连续、正态变量。而回归只要求结果变量为连续、正态变量。回归系数熟悉估计方法;含义;检验方法;总体回归系数可信区间的构建。应用回归分析时应注意的问题。具体统计分析方法的适用条件(含校正问题)绪论 变异与变量变异变量许多医学现象的表现因人而异,称之为点示个体某种变异特征的量称为陵量的观察值称为I变量值度量一般分为三类:表1.1常见医学数据的定义、记录及其统计术语编数据定义数据记录统计术语号性别体重(kg)滴度XYZ,变量(名)01男=155+=1155102女=050-=0050003女=060+=20602变量值04男=16

10、5+=31653定量资料等级资料一变量类别 小概率事件的实际不可能性定量资料的统计描述 统计描述方法步骤:描述样本数据分布特征1 .频数表:较详细、较精确2 .频数图(直方图):较详细、较直观(频数大小用面积来衡量)3 .统计指标:概括性强、可借用理论分布作统计推论标准差可理解为“平均”差别据分布类型选用统计指标:1 .常见的生理指标服从或近似正态分布:X±S2 .常见的抗体滴度服从或近似对数正态分布:G3 .偏态分布资料如潜伏期、住院天数、住院费用:M,Q正态分布总体均数的估计和检验正态分布与统计应用:4大样本数据抽样试验均数假设检验基本思想:(框图)【例】由大量调查的结果得中国城

11、市12岁男孩身高的均数为145.28cm(当作总体均数冉=145.28),某市的样本均数及标准误分别为x=143.07(cm),S又=0.82(cm)问是否可认为该市12岁男孩身高(N=?)未达到全国的平均水准?解:在这里我们要考虑抽样误差,可用假设检验的方法来分析,其步骤和基本思想如下述。步骤1 .建立无效假设例:Ho口=0H1必&:=0.05(水准)2 .计算统计量例:选u检验X-u=2.695Sx3 .作出统计结论例:P<0.05,拒绝Ho,接受H14 .写出检验报告例:该市12岁男孩身高低于全国平均水平图3.3假设检验逻辑过程示意图H。,都会犯错误,结论是注意:上述检验过

12、程是概率意义下的反证法,不论是否拒绝相对的,千万不要绝对化(详见下节)。单侧双侧问题:单侧与双侧参考值范围:双侧:观察值过高或过低均属异常,如脉率单侧:|b知|分布在某一侧属正常,如血中毒物含量单侧与双侧可信区间:双侧:总体均数既可能在样本均数的左侧,又可能在右侧单侧:画总体均数一定在样本均数的某一侧(经验判断)或质量控制要求,不允许出现某一侧事件单侧与双侧检验:双侧:备择假设Hi为Nw与单侧:知|总体均数一定落在右侧(或左侧)(经验判断)note:只有对总体有所了解或特殊要求时,才能用单侧资料的统计分析方法(系统过程):三大步骤1,腼述样本数据:图表(可省)和统计描述指标正态(如生理指标):

13、X土S对数正态(如抗体滴度):G偏态(如住院天数或潜伏期):MQ2,估计总体参数:常可省略3.检验总体参数:注意对比类型、单侧双侧以上内容是统计基础(全面复习)。以上内容讲述了定量资料统计分析系统,其它类型资料的统计分析也是上述三大步骤。方差分析甲组(1月)乙组(3月)(6)3.34.14.44.23.65.0Xij3.64.24.44.74.45.54.33.33.44.25.14.7£均数X;3.8004.2174.7174.244(X)方差分析基本思想:1,离均差平方和分解(变异数分析),以及自由度分解2 .求方差(均方):计算组间和组内的“平均”变异程度3 .求F统计量:F=

14、MS组间/MS误差(Ho成立则F=1)方差分析基本步骤:1 .作检验假设:Ho:总体均数相等;Hi:总体均数不全相等2 .计算统计量F值:3,确定P值并作出结论:4,两两均数间比较(当PW0,05时)分类资料的统计描述分类资料的统计分析步骤:(一般用正态近似法)1 .统计描述:p,(或X)2 .参数估计:n±1.96Sp,(或二项分布、Poisson分布直接计算)3 .参数检验:u,黄,(或二项分布、Poisson分布直接计算概率) 标准化法基本思想:按标准人口构成来折算合计率 应用相对数的注意事项:n大小、频率与构成比的区别、内部构成是否一致等二项分布与Poisson分布及其应用

15、这2个分布是分类资料统计分析的基础2.丁检验 四格表与配对四格表(要熟记结构) 胃检验基本思想:H0成立时,可参照合计率计算理论数,其理论数与实际数的差别代表随机误差,一般不会很大。当*值大到一定程度,超过检验界值时,便可在支水准下拒绝Ho 片检验的条件:n与T要同时考虑秩和检验 秩和检验基本思想:1 .数值变换为秩次(d-t):配对设计为例差值d的变异度因分布不同而异,但秩次大小与分布无关2 .秩和(T=!2t+)的分布的规律可从理论上推导,作假设检验,一一0一,丁,一二二一秩和T的分布没有参数6唯一5例魏a.秩和(n=3,Nf=8)表n=3时的秩和T及其分布秩次t(名次)组合情况定义秩和T

16、=Et+理论频数fP=f/Ef0个正秩次:-1-2-3010.1251个正秩次:+1-2-3110.125-1+2-3210.125-1-2+332个正秩次:+1+2-3320.250+1-2+3410.125-1+2+3510.1253个正秩次:+1+2+3610.125合计8(Ef)1.000图秩和T的理论频频分布及其正态拟合曲线回归与相关两个关联变量资料的统计分析步骤:1 .统计描述:图表:频数表(大样本)、散点图(大或小样本)指标:回归系数b反映由x估计的y的平均水平相关系数r反映散点关于回归直线的离散程度(反面)2 .参数估计:回归直线的可信区间(双弧线、略)3 .参数检验:t检验、

17、方差分析note:要熟记散点图(包括回归直线)864208642Y,)J里活肺40424446485052545658体重(kg),X图9.1一年级女大学生体重与肺活量散点图常用统计图表 总则:简单明了、便于比较实验设计 要素、原则、对照、随机分组调查设计 4种常用的抽样方法 调查表设计项目(核对项目、分析项目)医学人口统计与疾病统计常用指标 人口金字塔、老年人口、总和生育率(现时年龄组生育率推算假象人群的生育水平)寿命表 原理:现时年龄组死亡率推算假象人群的平均寿命人年生存分析生存分析的基本概念1 .随访资料的记录(数据Z构):特点为(1)因变量有2个,即生存时间和结局(死亡与否);(2)生

18、存时间存在观察不完全的数据表17.15例肝癌随访记录序号姓名性别(男=1)处理组号开始日期终止日期生存天数结局(死=1)1马胜利1098-07-1298-11-2914002李三立0198-07-0198-12-0816013张先进1198-07-1498-12-3117004吴有权0098-08-2298-11-2999151198-10-2098-11-253612 .生存时间(完全数据、截尾数据)生存时间是指观察到的存活时间(1)完全数据:即死者的存活时间(2)截尾数据:由于失访等原因,使得部分病人不能随访到底,称之为截尾。尚存者的存活时间称为截尾数据4.生存率、生存曲线(1)生存率记为

19、S(tk),是指病人经历tk个单位时间之后仍存活的概率。若无截尾数据,则(17.3)_1某年活满一年人数p-"q某年年初人口数(3)生存曲线,各个时点的生存率连接在一起的曲线5.半数生存期又称中数生存期,即寿命的中位数17.2生存率及其标准误1.2.乘积极限法寿命表法0.80.60.40.20.090180270360450540t(day)1.0S图17.3乘积极限法生存曲线表17.4两组儿童横纹肌肉瘤治疗后复发时间t(year)图17.4寿命表法生存曲线(折线)(月教仲喉洞!复发7、)对照组:239101012+1515+1618+24+3036+40+45+处理组:912+16

20、1919+20+20+24+24+30+31+34+42+44+53+59+62+S(t)试题解答、单选题一找知识点一一在文字提问中找,通常一题一个知识点若提问的知识点较大,则一般每个备选答案是较小的知识点二找明确答案一一你认为显然对的,或显然错的三找可能答案一一你认为有可能对,但不全面的四选最佳答案一一比较“明确答案“与“可能答案”,作最终抉择注意:(1).留神“错误的是"(2) .最后考虑“以上都不是,或以上都是"、多选题类似单选题,将“可能对但并不全面”的答案都当作是“对”三、简答题三是知识点要全一一判卷按知识点计分三是概念清楚一一扼要讲出定义、意义等要点三是不必展开

21、论述【例1】反映计量资料的平均水平的指标有哪些?答:1 .算术均数:即观察值的总和除以例数,它反映正态分布资料的平均水平;2 .几何均数:即观察值的乘积开n(例数)次方,它反映对数正态分布的平均水平;3 .中位数:将观察值从小到大排队,位于正中位置的观察值称为中位数,它反映偏态分布的平均水平。四、论述题以简答题的“一、二”点为基础,展开论述,最好结合例题【例2】怎样描述一组计量资料的平均水平?答:首先制作频数表和频数图,以考察数据分布的形状、对称性等(图形特征)。然后根据分布类型计算适当的平均数,以反映数据分布的平均水平(数字特征)。平均数类型选用原则为:4 .若数据服从或近似正态分布,如儿童

22、身高,可计算均数。均数即观察值总和除以例数,它反映正态分布资料的平均水平。5 .若数据服从或近似对数正态分布,如血清抗体滴度,可计算几何均数。几何均数即观察值的乘积开n(例数)次方,它反映对数正态分布的平均水平。6 .若数据呈偏态(不包括对数正态)分布,如住院天数,可计算中位数。将观察值从小到大排队,位于正中位置的观察值称为中位数,它反映偏态分布的平均水平。五、计算题(应用题)首先分析:1 .数据类型一一定量、分类或等级资料2 .对比类型一一怎样分组比较,如配对比较还是成组比较3 .分布类型一一正态(如生理指标)、偏态(如住院天数或潜伏期)、对数正态(如抗体10滴度)然后计算:1 .统计描述一

23、一图表(常可省)、指标(x土s、MQ、p、,)2 .区间估1f95%置信区间,用正态法或百分位数法(可省略)3.假设检验一一步骤要完整(按步骤计分)11卫生统计学期末复习提要一、期末考试有关问题的说明一出题的指导思想、原则及题目类型出题的指导思想是:全面考核学生对本课程的基本概念、基本方法,基本技能的掌握情况,考核学生运用所学的知识和方法综合分析与解决实际问题的能力。出题的原则是:不超过教学大纲的内容,难度适中但覆盖面较广,基本知识占8090%,稍难或灵活的题目占1020%。凡自学的章节不考。题目的类型有:名词解释(15分),填空题(20分),选择题(20分),判断题(10分),简答题(10分

24、),计算分析题(25分)。二答题要求名词解释:要求按统计术语准确叙述概念。填空题:要求按划线的根数准确填写内容,不得似是而非。选择题:要求选择无误,每题只选一个最佳答案。判断题:要求对叙述只判断正确与否,不说明理由。问答题:根据问题的不同问法,一种是直接据问题所问进行叙述;另一种是据问题所问说明正确与否,若否,需说明错误所在及正确的解决办法。注意答出要点及答题的逻辑性。计算分析题:要求完整地写出计算步骤(包括计算公式)、用计算器计算出正确结果,并能对所得结果作出相应的分析结论。二、期末复习范围和重点绪言一重点复习的名词:计量资料、计数资料、总体、样本、变异、抽样误差、概率。二重点复习的问题:1

25、、根据计量、计数、等级资料的概念正确识别统计资料的类型。2、统计工作的步骤及搜集资料的来源和要求。3、抽样研究的原因及目的,产生抽样误差的原因。三一般复习的名词:等级资料、同质、参数、统计量、随机化抽样、样本含量。四一般复习的问题:1、卫生统计学的内容及学习卫生统计学的意义。2、统计工作各个步骤的基本内容和关系。集中趋势与离散趋势一重点复习的名词:频数分布表、中位数。二重点复习的问题:1、对频数分布特征的描述。2、平均指标:算术均数、几何均数、中位数的意义及应用条件,算术均数的计算。3、变异指标:全距、标准差、变异系数的意义及应用条件,标准差和变异系数的计算。4、正态分布的两个参数及正态曲线下

26、面积的分布规律。三一般复习的问题:1、除二4外,正态分布的其余特点。2、u变换的形式和作用。3、查阅标准正态曲线下面积表的方法。均数的抽样误差及标准误12一重点复习的名词:均数的抽样误差、标准误、总体均数的可信区间。二重点复习的问题:1、标准误的意义、计算及应用。2、标准差与标准误的区别与联系。3、总体均数可信区间的意义和计算。4、总体均数可信区间与正常值范围的区别。三一般复习的问题:1、抽样误差的规律。2、提高对总体均数可信区间估计精度的办法。均数的假设检验一重点复习的名词:检验假设H0,检验水准”,假设检验中的P值,可比性,第I类错误和第n类错误。二重点复习的问题:1、t值;t分布与标准正

27、态分布的关系。2、假设检验的基本思想和步骤。3、样本均数与总体均数比较的t检验。4、两大样本均数比较的u检验。5、配对设计三种形式的特点及t检验的H。、H1。6、假设检验时需注意的问题。(重点是可比性和犯第I类及第n类错误的含义与概率)三一般复习的名词:自由度、假设检验。四一般复习的问题:1、配对设计的t检验。2、两小样本均数比较的t检验。3、t检验的应用条件。方差分析一般复习的问题:1、方差分析的基本思想。2、完全随机设计的特点和方差分析法。3、配伍组设计的特点和方差分析法。4、多个样本均数的两两比较。相对数一重点复习的名词:构成比、率、相对比、动态数列。二重点复习的问题:1、构成比、率、相

28、对比、定基比、环比的计算。2、下述指标的意义及计算:死因构成,发病率,患病率,死亡率,病死率。3、动态数列的分析。4、应用相对数时需注意的问题。(重点是不能以比代率)三一般复习的名词:时期动态数列、时点动态数列、标准化法。四一般复习的问题:1、动态数列的分类。2、标准化法的意义及基本思想。3、标准化率的直接法和间接法计算。4、应用标准化法的注意事项。13二项分布及其应用一重点复习的问题:1、率的抽样误差概念。2、率的标准误的意义及计算。3、总体率可信区间的意义及计算。二一般复习的名词:二项分布三一般复习的问题:1、二项分布的概率函数与图形。2、二项分布的特点。3、样本率与总体率比较的u检验。4、两个样本率比较的u检验。Poisson分布及其应用一般复习的名词:Poisson分布二一般复习的问题:1、Poisson分布的概率函数及图形。2、Poisson分布的特点。3、总体均数可信区间的意义及计算。4、样本均数与总体均数比较的u检验。5、两样本均数比较的u检验。X2检验一重点复习的名词:理论频数二重点复习的问题:1、X2检验的基本思想。2、四格表资料X

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论