医学统计学基础_第1页
医学统计学基础_第2页
医学统计学基础_第3页
医学统计学基础_第4页
医学统计学基础_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医 学 统 计 学 基 础 延安市人民医院消化内科 左 文 革 60年代到80年代,国外医学杂志调查表明:20%72%的论文 有统计错误。 1984年对中华医学杂志、中华内科杂志、中华外 科杂志、中华妇产科杂志、中华儿科杂志595篇论文的调 查结果为: 相对数误用占 11.2%,抽样方法误用占15.9%,统计图表误用 占11.7% 1996年对4586篇论文统计(中华医学会系列杂志占6.9%), 数据分析方法误用达55.7%。 2001年中华预防医学杂志:中华医学会系列杂志误用约 54%(1995)。 1996年,有机构对申报科技成果的4586篇科研论文分 析,统计方法使用率为76%。 医学论文中统计运用错误,除了影响论文的科学性, 还可能导致严重的伦理学问题。 医学统计学基本名词 医学统计学(medical statistics) -是 以医学理论为指导,运用数理统计学的原 理和方法研究医学资料的搜集、整理与分 析,从而掌握事物内在客观规律的一门学 科。 统计学方法的特点: 用数量反映质量 医学统计学基本名词 概率(probability):是描述随机事件发生可能性 大小的量值。用英文大写字母P来表示。概率的 取值范围在01之间。当P0时,称为不可能事 件;当P1时,称为必然事件。 小概率事件:统计学上一般把P0.05或P0.01的 事件称为小概率事件。 小概率原理:小概率事件在一次试验中几乎不可 能发生。利用该原理可对科研资料进行假设检验 。 医学统计学基本名词 总体(population):是根据研究目的确定的同质研究单 位的全体。更确切地说是同质研究单位某种变量值的集合 。 样本(sample):是从总体中随机抽取的有代表性的部分 观察单位变量值的集合。样本的例数称为样本含量( sample size)。 注意: 1。总体是相对的,总体的大小是根据研究目的而确定的。 2。样本应有代表性,即应该随机抽样并有足够的样本含量。 图示:总体与样本 populationpopulation sample2sample2 sample1sample1 sample3sample3 sample4 sample4 sample5sample5 医学统计学基本名词 v参数(parameter):由总体计算或得到的统计指 标称为参数。总体参数具有很重要的参考价值。 如总体均数,总体标准差等。 v统计量(statistic):由样本计算的指标称为统 计量。如样本均数,样本标准差s等。 v抽样误差(sample error): 由于随机抽样所引 起的样本统计量与总体参数之间的差异以及样本 统计量之间的差别称为抽样误差。 医学统计学基本名词 计量资料:对每个观察单位用定量的方法测定某项指标量 的大小,所得的资料称为计量资料(measurement data )。其变量值是定量的,表现为数值大小,一般有度量衡 单位。如某一患者的身高(cm)、体重(kg)、红细胞计数 (1012/L)、脉搏(次/分)、血压(KPa)等 计数资料:将观察单位按某种属性或类别分组,所得的观 察单位数称为计数资料(count data)。其观察值是定性 的,表现为互不相容的类别或属性。如调查某地某时的男 、女性人口数;治疗一批患者,其治疗效果为有效、无效 的人数;调查一批少数民族居民的A、B、AB、O 四种血 型的人数等。 医学统计学基本名词 等级资料:将观察单位按测量结果的某种属性的 不同程度分组,所得各组的观察单位数,称为等 级资料(ordinal data)。如患者的治疗结果可分 为治愈、好转、有效、无效或死亡,各种结果既 是分类结果,又有顺序和等级差别,但这种差别 却不能准确测量;一批肾病患者尿蛋白含量的测 定结果分为 +、+、+等。 等级资料与计数资料不同:属性分组有程度差别 ,各组按大小顺序排列。 医学统计学基本名词 正态分布:概率论中最重要的一种分布, 也是自然界最常见的一种分布。该分布由 两个参数平均值和方差决定。概率密 度函数曲线以均值为对称中线,方差越小, 分布越集中在均值附近。 正态分布有两个参数(parameter),即位置参 数(均数)和变异度参数(标准差)。 高峰在均数处; 均数两侧完全对称。 正态曲线下的面积分布有一定的规律。 正态曲线下的面积分布规律 1 占正态曲线下面积的 68.27% 1.96 占正态曲线下面积的 95.00% 2.58 占正态曲线下面积的 99.00% 若n100,则可用 X 代替,用 s 代替。 - -2.58 -1.96 -1 +1 +1.96 +2.58 2.5% 1.0% 医学统计学基本名词 直线相关:又称线性相关,是指两列变量 中的一列变量在增加(或减少)时,而另 一列变量随之而增加(或减少),或这一 列变量在增加时,而另一列变量则相应地 减少。它们之间存在一种直线关系。直线 相关可用直线拟合。 医学统计学基本方法 多元线性回归:在回归分析中,如果有两个或两 个以上的自变量,就称为多元回归。事实上,一 种现象常常是与多个因素相联系的,由多个自变 量的最优组合共同来预测或估计因变量,比只用 一个自变量进行预测或估计更有效,更符合实际 。 1. 应变量Y为正态分布数值变量 多重线性回归 2. 应变量Y为二分类(或多分类)定性变量或等级变量 logistic回归 3. 应变量Y为二分类结局变量和生存时间 Cox回归 案例 抛硬币:连续抛一枚硬币次,记录出现正面 的次数下表列出了历史上一些科学家试验的结果: 实验者 投掷次 数 发生正面向上 的次数 频率 道蒙津 2046 10610.5186 蒲丰 4040 20480.5069 K.皮尔逊12000 60190.5016 K.皮尔逊24000120120.5005 证实:当试验次数逐渐增大时,频率值越来越稳定地接 近于某一固定值。 医学统计学基本方法 定量资料的描述 集中趋势: 算术均数 几何均数 中位数 百分位数 离散趋势: 极差 四分位数间距 标准差、方差 变异系数 某地140名成年男子红细胞数(1012/L)的频数分布表 红细胞数 组中值(X) 频 数( f ) f X 3.80 3.90 2 7.8 4.00 4.10 6 24.6 4.20 4.30 11 47.3 4.40 4.50 25 112.5 4.60 4.70 32 150.4 4.80 4.90 27 132.3 5.00 5.10 17 86.7 5.20 5.30 13 68.9 5.40 5.50 4 22.0 5.60 5.70 2 11.4 5.806.00 5.90 1 5.9 合 计 140(f) 669.8 (f x) X= f x f = 669.8 140 = 4.78 (1012/L) 滴度 例数(f) 滴度倒数(x) lgx flgx 1: 40 3 40 1.602 4.81 1: 80 22 80 1.903 41.87 1: 160 17 160 2.204 37.47 1: 320 9 320 2.505 22.55 1: 640 0 640 2.806 0.00 1:1280 1 1280 3.107 3.11 合计 52 109.79 麻疹患者恢复期血清麻疹病毒特异性荧光抗体滴度 =129.2 1:129 Lg 1 = f lgx f = Lg 1 109.79 52 G = 医学统计学基本方法 百分位数百分位数描述观察序列在百分位置的 水平,是分布的百分界值,可用于确 定医学参考值范围,适用于任何分布 。 v描述一组资料在某百分位置上的水平; v用于确定正常值范围; v计算四分位数间距。 X2 ( X ) 2 / n n 1 S = 5人收缩血压测定结果(mmHg): 162 145 178 142 186 X = 813 X2 = 133317 = 133317 (813)2/ 5 5 1 =19.49 mmHg 某地140名成年男子红细胞数(1012/L)的频数分布表 红细胞数 组中值(X) 频 数( f ) f X f X 2 3.80 3.90 2 7.8 30.42 4.00 4.10 6 24.6 100.86 4.20 4.30 11 47.3 203.39 4.40 4.50 25 112.5 506.25 4.60 4.70 32 150.4 706.88 4.80 4.90 27 132.3 648.27 5.00 5.10 17 86.7 442.17 5.20 5.30 13 68.9 365.17 5.40 5.50 4 22.0 121.00 5.60 5.70 2 11.4 64.98 5.806.00 5.90 1 5.9 5.90 合 计() 140 669.8 3224.20 fX2 ( fX ) 2 / n n 1 S = = 3224.20 (669.8)2/n 140 - 1 =0.38 标准差用途: 1. 表示同质变量值的离散程度, 用于两 组 变量值比较时,要求其性质相同,均数 相差不大. 2. 与均数结合,表示均数的代表性 (xs),同时描述正态分布特征 3. 与均数结合, 计算变异系数 4. 与样本含量(n)结合,计算标准误 例1:比较7岁男孩身高与体重的变异程度 身高:X1= 123.10 cm S1= 4.71cm 体重:X2=22.29 kg S2 = 2.26kg CV(%) = 100% S X CV1= 4.71/123.10 100% =3.83% CV2= 2.26/22.29 100% = 10.14% 用频数表法计算 L 中位数所在组组段的下限 iM 中位数所在组组段的组距 fM 中位数所在组的频数 fL 中位数所在组前一组的累计频数 M = L + ( - fL) iM fM n 2 某地630名正常女性血清甘油三酯(/dl)含量 甘油三酯 频数 累积频数 累计频率(%) 10 27 27 4.3 40 169 196 31.1 70 167 363 57.6 100 94 457 72.5 130 81 538 85.4 160 42 580 92.1 190 28 608 96.5 220 14 622 98.7 250 4 626 99.4 280 3 629 99.8 310 1 630 100.0 合计 630 M = L + ( - fL) iM fM n 2 = 70+30/167(630/2-196) = 91.4 /dl ix Px = L + (n x% fL ) fx 附:附:百分位数 Percentile,Px 描述变量值序列在某百分位位置的水平, 多个百分位数结合可更全面地描述变量值的分 布特征。 L Px 所在组组段的下限 ix Px 所在组组段的组距 fx Px 所在组的频数 fL Px 所在组前一组的累计频数 4. 四分位数间距 ( Quartile, Q) 四分位数间距为特定的百分位数,可 看作为中间1/2变量值的全距 Q = Qu QL, Qu = P75 (上四分位数) QL = P25(下四分位数) 用途:用于表示偏态分布资料的变 异程度,常与中位数配合使用 P25 P75 ABM 常用平均数的对比 名称 意 义 应 用 场 合 均数 平均数量水平 应用甚广,适用于对称 分布,尤其是正态分布 几何均数 平均增(减)倍数 等比资料;对数正态 分布 中位数 位次居中的观察值水平 偏态分布;分布不明; 分布末端无确定值。 三、离散趋势三、离散趋势 (tendency of dispersion)(tendency of dispersion) 描述变量值的离散趋势用变异指标 全距(极差) 四分位数间距 常用变异指标 方差 标准差 变异系数 百分位数法 离均差法 常用变异指标常用变异指标 2. 方差 (Variance) 和 标准差(Standard deviation) 定义公式 ( X ) 2 (X ) 2 2 = = N N ( X X) 2 ( X X) 2 S2 = S = n 1 n 1 为总体标准差 s 为样本标准差 3.标准误的计算公式 = : 总体标准误 n S S = S :样本标准误, n 为的估计值 4.标准误的意义 1)表示抽样误差的大小 2)与均数结合表示样本均数对总体均数的 代表性( xSx ) 标准差与标准误的区别 比较内容 标准差 标准误 意义表示个体观察值间 的变 异程度 表示样本均数间的变异程度或 样本率与总体率分散程度的指 标计 算方法 计算 应用表示一组观 察值之间 的变异程度 计算均数的标准误 计算参考值范围 表示抽样误 差的大小,说明 样本均数的可靠程度 估计总 体参数的可信区间 进行总体参数的假设检验 t检验的应用条件 n较小时(如n50),理论上要求样本取自 正态总体 两小样本均数比较时,要求两总体方差相 等 表4.4 新药组与安慰剂组血清总胆固醇含量(mmol/L ) 配对号新药组安慰剂组差值d 14.46.2-1.8 25.05.2-0.2 35.85.5 0.3 44.65.0-0.4 54.94.4 0.5 64.85.4-0.6 76.05.01.0 85.96.4-0.5 94.35.8-1.5 105.16.2-1.1 以|t|=|-1.542|=1.542,查附表2,t界值表的双尾概率0.1050且n250)时, u值可按下式计算: 两样本均数比较的两样本均数比较的u u检验检验 医学统计学基本方法 标准化率(standardized rate)亦称调整率( adjusted rate)。 常用的计算方法按已知条件有: 直接法:间接法:不讲。反推法:不讲。 2。选择标准人口的方法: 1)选择两地数据之一的人口数或构成比; 2)选择两地数据之和的人口数或构成比; 3)选择当地或全国的人口数或构成比; 4)国际间比较选用世界通用标准。 年龄 组 甲 地 乙 地 人口数死亡 人数 死亡率 人口数 死亡人 数 死亡率 09300532 57.2480034972.9 51220044 3.66600304.6 2019000101 5.3353002547.2 40760092 12.128003914.2 60190076 40.05002346.0 合 计 50000845 16.95000069513.90 年龄组标准人口数 甲 地 乙 地 (岁)(Ni)原死亡率pi预期死亡数 Npi 原死亡率pi预期死亡数Npi (1)(2)(3)(4)=(2 )(3) (5)(6)=(2)( 5) 01410057.2 80772.9 1028 5188003.6 684.6 86 20543005.3 2887.2 391 401040012.1 12614.2 148 60 240040.0 9646.0 110 合计100000(N)16.191385(Nipi ) 13.901763(Nipi) 医学统计学基本方法 检验目的: 推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别 多个样本率的多重比较 两个分类变量之间有无关联性 频数分布拟合优度的检验。 检验统计量: 应用:计数资料 甲乙两种疗法治疗肺癌生存率比较的四格表 疗法 生存 死亡 合计 n nC C 生存率 A T A T 甲 22(25.21) 24(20.79) 46 47.83 乙 35(31.79) 23(26.21) 58 60.34 合计 n nR R 57 47 104 n 54.81 基本公式: (A - T) (A - T) 2 2 2 2 = = T T n n R R n n C C T T RC RC = = n n A 实际值 T 理论值 = = (行(行-1-1) (列(列-1-1) = =(R-1R-1) (C-1C-1) 3. 2检验的种类 ( 1) 四格表资料的 2检验 ( 2 test for fourfold table) 目的:用于两个样本率或构成比的比较,推 断两个样本所代表的总体率(或总体 构成比)是否相等。 专用公式: ( ad - bc) ( ad - bc) 2 2 n n 2 2 = = (a + b)(c + d)(a + c)(b + d) (a + b)(c + d)(a + c)(b + d) 基本公式: (A - T) (A - T) 2 2 2 2 = = T T = 1 = 1 甲乙两种疗法治疗肺癌生存率比较的四格表 疗法 生存 死亡 合计 生存率 甲 22 24 46 47.83 乙 35 23 58 60.34 合计 57 47 104 54.81 (a)(b) (c)(d) (a+b) (c+d) (a+c)(b+d)(n) ( ad - bc) ( ad - bc) 2 2 n n 2 2 = = (a + b)(c + d)(a + c)(b + d) (a + b)(c + d)(a + c)(b + d) 2 2 = = (2223 - 24 35)(2223 - 24 35) 2 2 104104 46 58 574746 58 5747 = 1.62= 1.62 P 0.05P 0.05 医学统计学基本方法 T 1,或 n 40 时,需用确切概率法计算 。 确切概率计算法 (a + b)! (c + d)! (a + c)! (b + d)!(a + b)! (c + d)! (a + c)! (b + d)! P P = = a! b! c! d! n! a! b! c! d! n! (3) 配对资料的四格表 2 检验 ( 2 2 test of test of paired paired comparisioncomparision of enumeration data ) of enumeration data ) 用于配对设计的计数资料。 配对的方法: 1)同源配对:是通过两种不同的处理方法对同 一样品进行处理,从而推断两种 处理方法的结果有无差别。 2)异源配对:以一定的条件把观察对象配成对 子,研究某种因素的作用或影响。研究某种因素的作用或影响。 肺

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论