医学统计学总复习-liufen-sms_第1页
医学统计学总复习-liufen-sms_第2页
医学统计学总复习-liufen-sms_第3页
医学统计学总复习-liufen-sms_第4页
医学统计学总复习-liufen-sms_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、刘芬 首都医科大学 公共卫生与家庭医学学院 流行病与卫生统计学系,医学统计学总复习,一、概述. 科研统计工作的步骤,1)研究设计( research design): 根据研究的目的,从统计学的角度对各步提前做出的周密的计划和安排 调查设计 实验设计 (临床设计、 新药设计,科研设计,2)收集资料(data collection ) (3)整理资料(data sorting) (4)分析资料(data analysis,一、概述. 科研统计工作的步骤,统计分析,统计推断,参数估计,假设检验,点估计,区间估计,统计描述,均数、中位数、标准差 统计量 率、构成比 相关系数、回归系数等,统计表 编制

2、规则 统计图 条图、直方图、圆图、线图等,统计描述的方法,类型、适用条件,用样本的信息来推断总体的特征叫统计推断 统计分析的主要目的是由样本推断总体,故统计学的主体是统计推断,统计推断,统计推断,参数估计,假设检验,点估计,区间估计,参数,非参,z 检验 t 检验 F 检验 直线相关与回归,卡方检验 秩和检验 等级相关,资料类型,1)定量资料 计量资料(measurement data): 对每个观察单位用定量方法测定某项指标的数值大小所得的资料,2)定性资料 计数资料(enumeration data)按性质或类别进行分组,然后再清点各组数目所得的资料 等级资料(ranked data)将观

3、察单位按某项指标的等级顺序分组,再清点各组观察单位的个数所得的资料,资料类型,二、定量资料的基本统计方法,有个模块: 统计描述 区间估计 假设检验 相关与回归,1、统计描述统计指标,平均指标和变异指标分别反映资料的不同特征,常配套使用,根据资料类型不同有不同组合, 如 正态分布: 均数、标准差 偏态分布: 中位数、四分位数间距,描述集中趋势指标: 算术均数(简称均数)( ) 几何均数(G) 中位数(M,描述离散程度指标: 极差(R) 四分位数间距(Q) 方差(S2) 标准差(S) 变异系数(CV,1、描述偏态分布集中趋势(尿氟均值)的指标:中位数 2、比较几组量纲不同的资料的离散程度的指标:变

4、异系数,统计描述,1)统计表,组合表,简单表,2)统计图,条图 圆图 线图 直方图 散点图,类型、适用条件,1、统计描述统计表与统计图,例1 现有145例粪链球菌食物中毒病人, 其潜伏期分布如表1所示,属于不对称分布 表1 粪链球菌食物中毒潜伏期 潜伏期(小时) 频数(f) 累计频数 0 18 18 6 45 63 12 40 103 18 30 133 24 6 139 30 0 139 36 4 143 42 2 145,图 1 粪链球菌食物中毒潜伏期分布,表2 某地144名正常成年男子红细胞数频数表 组 段 频数 f 4.2 2 4.4 4 4.6 7 4.8 16 5.0 20 5.2

5、 25 5.4 24 5.6 22 5.8 16 6.0 2 6.2 5 6.46.6 1,直方图,图 2 144名正常男子红细胞计数的直方图,2、区间估计,正常值(参考值)范围(p21,总体均数的可(置)信区间(p69,正态分布(normal distribution) 可信区间(confidence interval, CI,注意: 95%CI与95%正常值范围区别,p70,单个样本(one sample) t 检验 配对资料 (paired sample)比较的t 检验 两独立样本(two independent sample)均数比较的检验 t 检验(当方差不齐时,3、假设检验(hyp

6、othesis test,t 检验,亦称students t 检验,应用t检验条件: 1)单因素两水平的定量效应指标 2)要求各组正态分布 3)要求方差齐性 如不满足条件,当满足正态性而方差不齐时可进行t检验,否则需采用变换或非参数方法作统计分析,t 检验,t 检验的类型,主要用于下列三种情况: (1) 样本均数与总体均数比较; (2) 配对数值变量资料的比较; (3) 两样本均数的比较,例2 应用克矽平治疗矽肺患者10名,治疗前、后血红蛋白的含量如表3所示,问该药是否引起血红蛋白含量的变化,表3 克矽平治疗矽肺患者治疗前后 血红蛋白含量(g/L) 编号 治疗前 治疗后 1 113 140 2

7、 150 138 3 150 140 4 135 135 5 128 135 6 100 120 7 110 147 8 120 114 9 130 138 10 123 120,表3 克矽平治疗矽肺患者血红蛋白量(克) 编号 治疗前 治疗后 治疗前后差数 1 113 140 27 2 150 138 -12 3 150 140 -10 4 135 135 0 5 128 135 7 6 100 120 20 7 110 147 37 8 120 114 -6 9 130 138 8 10 123 120 -3,解:.建立检验假设,确定检验水准 0:d=0,假设该药不影响血红蛋白的变化, 即治

8、疗前后总体差数为0。 1:d0 ,假设该药影响血红蛋白的变化, 即治疗前后总体差数不为0。 =0.05. 计算检验统计量值,1) 配对检验,3确定P值,做出统计推断 自由度 = n-1 = 10-1 = 9 , 查t 临界值(附表2)得: 0.883t = 1.3071.383, 0.20 0.40,按=0.05水准不拒绝H0,差异无统计学意义。 根据目前资料尚不能认为克矽平对血红蛋白含量有影响,两独立样本均数比较的 检验(two-independent sample t-test,其中,= n1 + n2 -2,例3 某克山病高发区测得11例急性克山病患者与该地13名健康人的血磷值(mg%)

9、 如表4所示,判定两组均数差异有否统计学意义,表4 急性克山病患者与健康者的血磷测定值(mg,患者编号 X1 健康者编号 X2 1 4.73 1 2.34 2 6.40 2 2.50 3 2.60 3 1.98 4 3.24 4 1.67 5 6.53 5 1.98 6 5.18 6 3.60 7 5.58 7 2.33 8 3.73 8 3.73 9 4.32 9 4.57 10 5.78 10 4.82 11 3.73 11 5.78 12 4.17 13 4.14,解: .建立检验假设,确定检验水准 0:1= 2 ,即克山病患者与当地健康者的血磷值的均数相同。 1:1 2 ,即克山病患者

10、与当地健康者的血磷值的均数不相同。 =0.05,计算检验统计量值,计算检验统计量值,3确定P值,做出统计推断 自由度 = n1 + n2 -2=11+13-2=22, 查t 临界值(附表2)得: t = 2.547 t0.05,22=2.047, 0.05,按=0.05水准拒绝H0,差异有统计学意义。 根据目前资料可认为克山病患者与当地健康者的血磷值的均数不相同,克山病患者的血磷值高于当地健康者,亦称方差分析,应用F检验条件: 1)单因素或多因素定量效应指标 2)要求各组正态分布 3)要求方差齐性 如不满足条件,需采用变换或非参数方法作统计分析,F 检验(analysis of varianc

11、e)ANOVA,F检验的类型,1) 完全随机设计的方差分析 (2) 配伍组设计的方差分析,三种“变异”之间的关系 离均差平方和分解,1) 总变异: 所有观察值之间的变异 (2) 处理间变异:处理因素随机误差 (3) 区组间变异:区组因素随机误差 (4) 误差变异: 随机误差,变异分解,4、线性相关与回归(linear correlation and regression,相关系数r (correlation coefficient) r的假设检验,线性相关,线性回归,回归方程 (regression equation) 其中a为截距(intercept);b为回归系数(coefficient

12、of regression,有个模块: 1、统计描述 2、区间估计 3、假设检验 4、相关与一致性分析,三、定性资料的基本统计方法,1、统计描述,率(rate,比(ratio,相对数,百分比(构成比,相对比,分类指标的统计量,率 用来说明随机事件发生的频率或强度大小 构成比 用来说明某一事物内部构成部分的比重 相对比 两个有关指标之比 注意应用相对数的注意事项,率与构成比的区别、率的标准化等,使用相对数应注意的问题,根据需要正确选择相对数。常见错误是以构成比代率。 计算观察单位数不等的几个率的平均率时,不能将几个率直接相加求平均率,分母应当足够大。分母小于20时可靠性较差。如果分母太小,宜用绝

13、对数表示 要注意其内部构成是否相同。若内部构成不同的资料,应先进行率的标准化后再比 根据样本数据计算的强度相对数,要考虑抽样误差的影响,使用相对数应注意的问题,2、区间估计(interval estimation,总体率的可信区间(置信区间)(confidence bound/confidence interval,CI,四格表资料 配对四格表 行列表,3、假设检验 (hypothesis test,检验,计数资料,Chi-square test,基本公式 专用公式 校正公式 确切概率法,差异性 一致性,基本公式 专用公式 确切概率法,卡方检验方法,卡方检验在不同的条件下有不同的计算方法,常用

14、的有Pearson卡方、校正的卡方和Fisher精确概率 当四格表中n40,但有1Tij5时,应选用校正卡方 当四格表中出现n40或Tij1两种情形之一时,需用Fisher的确切概率法,检验的基本公式,A:实际频数(actual frequency) T:理论频数(theoretical frequency) TRC : 第R 行C 列的理论频数 nR :相应的行合计,nC :相应的列合计 v:自由度=(行数-1)(列数-1,2检验的适用条件,二、配对 检验,配对 检验专用公式为,若b+c40,应该对上式进行校正,校正公式为,表5 复合氨基酸胶囊对改善实验室指标的效果 分组 改善 未改善 合计

15、 试验组 23 2 25 对照组 11 6 17 合计 34 8 42,例:某医生用复合氨基酸胶囊治疗肝硬化病人,观察其对改善实验室指标的效果,见表5。试对两组的改善及恢复正常率进行比较,1)建立检验假设和确定检验水准 H0: 1=2 ,即两总体恢复正常率相等; H1: 12 ,即两总体恢复正常率不等; =0.05 。 (2)计算统计量2 值 各位置上的理论值见表5,因为有理论数小于5,样本总例数大于40,所以使用四格表卡方检验的校正公式,解,3)确定P值,作出统计推断 自由度为:=1,查2 界值表得,P 0.05 按=0.05的水准不拒绝H0 ,尚不能认为用复合氨基酸胶囊对肝硬化病人实验室指

16、标的改善和恢复方面是有效的,行列表 检验,1)基本公式 (2)专用公式,专用公式条件:理论数小于5的格子数不能超过总格子数的1/5,表6 3种不同检验方法检出结核菌的比较 检验方法 阳性 阴性 合计 漂浮集菌法 30 10 40 沉淀集菌法 26 16 42 直接涂片法 11 24 35 合 计 67 50 117,例 某人用3种不同的检验方法检查结核杆菌(抗酸杆菌), 所得结果见表6。 问:3种方法的检出率有无差别,非参数检验,非参数方法应用的条件: 未加精确测量的资料(包括等级资料) 如“50mg”、“0.01mg”; 偏态分布且无法转化为正态分布的资料; 分布不清的资料。 需采用变换或非

17、参数方法作统计分析,非参数检验的类型,1)配对设计的wilcoxon符号秩和检验 (2)两样本的wilcoxon秩和检验 (3)多个样本的Kruskal-Wallis秩和检验,检验步骤】 1. 建立检验假设,确定检验水准 H0:两总体分布相同,即患者与正常人的尺骨骨矿含量总体分布相同 H1:两总体分布不同,即患者与正常人的尺骨骨矿含量总体分布不同 =0. 05,完全随机设计两样本资料的秩和检验,2.计算检验统计量T值 (1)统一编秩:两组数据由小到大统一编秩次。有相同数据时,取平均秩次。 (2)求秩和:两组分别求秩和,本例两组的秩和分别为130.5和79.5 (3)确定统计量T值:若两组例数相

18、等,则任取一组的秩和为统计量T,若两组例数不等,则以样本例数较小组的秩和为统计量T。本例,n1=n2=10,检验统计量T=130.5(表9-4,3.确定P值,做出统计推断 (1)查表确定P值:根据n1、n2-n1及统计量T查两样本比较的秩和检验T界值表,确定P值 T值在T界值范围内,P大于T界值范围相应的概率; T值等于T界位范围的下限或上限,P值等于T界值范围相应的概率; T值在T界值范围外,P小于T界值范围相应的概率,结合专业作出结论。 本例T=130.5,在双侧0.05对应的T值78132的范围内,又在0.10对应的T值82128的范围外,故0.10P0.05。按a=0.05检验水准,不

19、拒绝H0,差异无统计学意义,尚不能认为男性甲状腺机能减退症患者尺骨骨矿含量与正常人有差别,4、相关与一致性分析(correlation and consistency analysis,相关: 可采用spearman秩相关 适用于等级资料,直线相关与回归分析,应用条件: 研究两个定量变量间的相互关系或依存关系,y 。 。 。 。 。 。 。 。 。 X 散 点 图,线性相关,是用相关系数r来表示两个变量X,Y间的直线关系 相关系数r没有单位,在-1+1范围内波动 其绝对值愈接近1,两个变量间的直线相关愈密切,愈接近0,线性相关愈不密切,直线回归,当两变量间存在着性线关系时,不仅可以用相关系数r

20、表示变量Y与X线性相关的密切程度,还可以用一个二元一次方程来表示,回归方程的应用-预测与估计,应用最小二乘法求回归方程系数 求出回归方程后,如果方程拟合度好(决定系数R),可根据X的值来求Y预测值,统计方法选择的思路,统计方法选择的四级思维 资料类型 分布类型 设计类型 具体条件 统计分析的两个方面 统计描述(统计指标与图表) 统计推断,资料,资料,类型,数值变量,正态,非正态,X,G,S,参考值范围, 统计图表等,线性相关与回归,统计推断,r计算与检验,Y=a+bX,均数可信区间估计,假设检验: t与z检验 方差分析,M,QUQL, 参考值范围,统计图表等,秩和检验,等级相关,有序多分类变量

21、,构成比,中位数,两分类,无序多分类,二项分布,率,相对比,构成比,假设检验,两组率比较:z检验与卡方检验,多组率和两组或多组构成比比较:卡方检验,配对两分类资料卡方检验,参数估计,正态近似法,直接查表法,统计方法的流程图,统计方法应用条件和适用资料,集中趋势与离散趋势的统计指标 t检验与z检验 方差分析 2检验 非参数检验 线性相关与回归,集中趋势与离散趋势统计指标,集中趋势 离散趋势 正态分布 均数 方差、标准差 对数正态 几何均数 几何标准差 偏态等 中位数 四分位数间距 变异系数:在两组或多组资料变异度比较 组间单位不同 组间均数相差较大,t检验与z检验的应用条件,两组数值变量资料比较

22、; 小样本时用t检验,要求资料为随机样本并服从正态分布; 大样本时用z检验,仍要求资料为随机样本,但正态性条件可以放宽; 在两样本均数比较的t和z检验中,要求两组总体方差相等,即方差齐性; 组间要求具有均衡可比性,方差分析的应用条件,多组定量资料的比较 观察值为独立随机样本,并服从正态分布; 样本较大时正态性条件可以放宽; 方差齐性 组间可比性,2检验的适用资料,两组样本率的比较; 多组样本率的比较; 两组或多组构成比的比较; 配对设计下两分类资料检验,非参数检验的适用资料,有序多分类资料(双向有序,且分类属性相同); 极度偏态分布; 分布不规则和未知分布资料; 数据变异较大,方差不齐,线性相

23、关与回归的应用条件,散点图有线性趋势; 专业上要求分析两变量间关系密切程度 和变化方向,通过一个变量预测或控制另一变量; 两变量服从双变量正态分布,或X可以精确测量的,Y服从正态分布,几个基本概念,样本与总体 频率(样本)与概率(总体) 资料(变量)类型 相对数指标:构成比、率、相对比 统计工作步骤 假设检验的两类错误,几个容易混淆的基本概念,1、抽样误差与标准误 抽样研究才有抽样误差 抽样误差的概念 标准误是衡量抽样误差大小的指标 2、标准差与标准误关系 联系:离散度指标,计算上的联系 区别:描述对象不同,意义与应用不同 与n的关系不同( p67,几个容易混淆的基本概念,3、参考值范围与可信区间关系(p70) 联系:均为一个数值范围 区别:意义不同, 与 同一资料两范围的不同 4、假设检验的意义 是通过两组或多组间有差别的样本(均数或率),或样本与总体(均数或率)推断他们的总体(均数或率)是否相同(不能推断差别大小,几个容易混淆的基本概念,5、检验假设与检验结论(p72、73) 无效假设与备择假设(单双侧); 是对总体所作,H0假设总体相同或两者无关,检验方法建立于此; 对检验方法的H0与H1作总结; 检验结论有统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论