医学统计学-知识梳理_第1页
医学统计学-知识梳理_第2页
医学统计学-知识梳理_第3页
医学统计学-知识梳理_第4页
医学统计学-知识梳理_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、均数方差标准差均数标准差 /标准误样本X2 SS估计值 SX总体2X均数 2.58标准差:表示集中位置、离散程度均数 2.58标准误:表示平均水平、抽样误差大小 P75一、标准差的主要作用是估计正常值的范围实际应用中, 估计观察值正常值范围应该用标准差( s),表示为“ Mean SD”。此写法综合表达一组观察值的集中和离散特征的变 异情况,说明样本平均数对观察值的代表性。 s 的大或小说明数据取值的分散或集中。 s与样本均数合用 , 主要是在大样本调查研究中 , 对 正态或近似正态分布的总体正常值范围进行估计。如果不是为了正常值范围估计,一般不用。当数据与正态分布相差很大,或者虽为 正态分布

2、 , 但样本容量太小 (小于 30 或 100),也不宜用估计正常值范围。二、标准差还可用来计算变异系数( CV )当两组观察值单位不同 , 或两均数相差较大时,不能直接用标准差比较其变异程度的大小, 须用变异系数系数来做比较。:2.2 标准误的正确使用一、标准误用来衡量抽样误差的大小和了解用样本平均数来推论总体平均数的可靠程度。 在抽样调查中,往往通过样本平均数来推论 总体平均数,样本标准误 适用于正态或近似正态分布的数据 , 是主要描述小样本试验中,样本容量相同的同质的多个样本平均均数间 的变异程度的统计量。即如果多次重复同一个试验, 它们之间的变异程度用。显然它越小,样本平均数变异越小,

3、越稳定,用样本平均数估计总体均数越可靠。因此,为说明它的稳定性、可靠性或通过几个对几组数据进行比较(这是科研论文中最常见的 ),应当用描述数据。实际应用中应该写成“平均数标准误”或而英文表示为“ SE”M的ea形n式。二、标准误 还可以进行总体平均数的区间估计与点估计(置信区间)。根据正态分布原理, 与 合用还 可以给出正态总体平均数的可信区间估计即推论总体平均数的可靠区间 ,例如常用 (其中 t0.05 (n-1) 为 样本容量是 n 的 t 界值)表示总体均值的 95%可信区间 , 意指总体平均数有 95%的把握在所给范围内。三、标准误还可用来进行平均数间的显著性检验,从而判断平均数间的差

4、别是否是由抽样误差引起的。例如:某当地小麦良种的千粒重=34 克,现在从外地引入一新品种,通过多小区的田间试验得到千粒重的平均数=35.2 克,问新引进品种千粒重与当地良种有无显著差异?新引进品种千粒重与当地良种有无显著差异实质是判断与的差别是否是有田间试验是抽样误差引起,所以要进行显著性检验, 这里用 t 测验进行检验,而,由于,故,所以认为新引进品种千粒重与当地良种千粒重的不同是由于田间试验是抽样误差引起,因此他们之间无显著差异。所以在进行平均数间的显著性检验是必须用到。总之,标准差和标准误最常用的统计量,二者都是衡量样本变量(观察值 ) 随机性的指标,只是从不同角度来反映误差,二者在统计

5、推断和误差分析中都有重要的应用。如果没有标准差,人们就无法看出一组观察值间变异程度有多大,这些数字到底有无代表性,如果 没有标准误又很难看出我们的样本平均数是否可以代表总体平均数。所以二者都非常重要。精品定量资料的统计描述: 频数分布表:全距, R=最大值 -最小值;组距 =全距/ 组数,(组数 8-9人一组)频数分布图:直方图集中位置的描述:平均数 31. 算数均数: 总体均数, X 样本均数。适用定量资料,对称分布, 正态 或近似正态2. 几何均数: G,适用变量值呈 倍数 关系,偏态尤其对数变换后正态或近似正态3. 中 位 数: M ,各种分布( 不对称,两端无确切值,分布不明确 ),正

6、态等于算数均数,对数正态等于几何均数。离散程度描述: 51. 极差: R,同全距,各种分布,但一般 单峰、对称、小样本2. 四分位数间距: P75 P25,( 不对称,两端无确切值,分布不明确) , P25, P50,P75, 共三点将全部观察值分为四部分3. 方差:总体 2,样本 S2(计算时除以自由度 n-1)。单峰对称。4. 标准差:总体 ,样本 S。单峰对称 ,对数变换后正态或近似正态使用 几何标准差 。5. 变异系数: CV=S/ X *100%。适用不同计量单位(身高和体重),或均数相差很大正态分布及其应用: N( ,2)特征: 4横轴上方均数处最高;均数为中线,左右对称;位置参数

7、/总体均数,形态参数 /标准差 ;曲线下面积分布有一定规律,对称, 1.64590.00%,1.9695.00%,2.58 99.00%。6. 正态分布: N( , 2 )经标准化转换 Z X 为标准正态分布 /Z 分布: Z(0,1)7. 制定医学参考限值时,分双侧()、单侧,单侧又分只有下限(-)、只有上限( + )。定性资料描述: 分类/ 计数资料,性别,疾病感染情况,病情轻重.,相对数进行统计描述。相对数: 31. 率:频率(发病率、患病率), 0 到 1 之间;速率(肿瘤患者 5年生存率),分母乘以时间数( 125人追踪 2 年死亡 2 人,年死亡率 =2/125 *2 *100%)

8、0 到。精品2. 构成比 :3. 相对比:两个有关联的指标比值(变异系数,相对危险度,比值比.)应用注意:足够的观察单位数; 不能以构成比代替率,事物内部各组分所占比重不能说明某现象发生的频率或强度大小; 分别将分子和分母合计求 合计率 ; 相对数的比较注意可比性,其他的年龄、性别等相同或相近,可分层或标准化再比较; 样本率、样本构成比应做假设检验再比较(是比较其所代表的总体 有无差异)。率的标准化:标准化率: p= Ni pi (pi 被标化组死亡率, Ni 标准组年龄别人口, N 标准组总人口)N标准化死亡率比: SMR=被标化组实际死亡数 / 预期死亡数被标化组实际死亡数 = 本年龄组死

9、亡率 *标准组本年龄组人口(用被标化组年龄别死亡率去预测标准人口中可能死亡人数) 总体均数的估计:抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。样本均数的标准差 = 均数的标准误,其估计值: S S (进行一次抽样即可估计均数标准误)Xnt 分布 t X - X -,v n 1 (总体均数的区间估计, t 检验 .)SXS/ n ,t 分布特征:以 t=0 为左右对称的单峰分布;曲线形态取决于自由度大小, n 越小, SX 越大,样本 X 间差异越大, n, t 分布就是标准正态分布( Z 分布) 总体均数的估计: 点估计用 X 作为,无法评价可信程度。区间估计 :

10、2 1、单样本: n 不论大小,双侧( 1-)置信区间 X t /2,vSX (确切法)1.645 1.96 2.58) (正态近似法)n100,t 接近 Z ,双侧(1-)置信区间 X Z /2,vSX精品2、两样本:两均数之差的标准误: n1、n2 不论大小SX1X2SC2(n11 n12) (确切法) n1、n2 均较大时t 接近 Z,则 SX1X2正态近似法)两总体均数差值的置信区间: 1 2) 为 X1-X2 t /2,vSX1 X (t与Z根据条件可互换)t 检验 :Student s t 检验, 从样本均数推总体均数条件: t 检验,单样本中,n50,总体正态分布。 t 检验,两

11、小样本,总体正态分布,但两样本总体方差不等。公式好复杂,P96 Z 检验,两大样本,n 均 50,单峰、近似正态。1、单样本 t检验: 样本所代表的总体均数与已知总体均数 0比较X -0 X -0tSXS/ n , v n 12、配对 t 检验 :配对的两受试对象分别接受 2种不同处理;同一样品用两种方法或仪器检测;同一受试对象两不同部位测定数 据。H0为两总体均数相同,差值的样本均数d 所代表的总体均数 d 为 0,则d-0d,Sd/ n,vSd / nd -d Sdn 1(n 为对子数)3、两独立样本 /成组 t检验: 两样本分别正态分布,H0为两总体均数相等,则 n1、n2 不论大小,X

12、 1 X 2v n1(确切法)n2 2 n1、n2均50,t 接近 Z,X 1 X 2 (正态近似法)S12 S22n1 n24、两样本几何均数 t 检验:(抗体滴度等)不服从正态,但服从对数正态,公式同成组 t 检验正态性检验: 图示法: P-P 图法, Q-Q 图法精品统计检验法: W 检验( n 50),矩法检验(总体偏度、峰度), D 检验精品F S12(较大),v1 n1 1,v2 n2 1(进行假设检验, =0.10,查 F界值表)S(22 较小) 1 1 2 2多样本方差齐性检验: q 检验! Levene 检验(可两总体), Bartlett 检验。用于方差分析。方差分析ANO

13、VA/ F 检验:总体均数之间差别?方差齐性检验: 两总体方差齐性检验,判断两总体方差是否相等,F 检验多样本均数的比较,通过对 数据变异 的分析来推断 两个/ 多个样本均数所代表的总体均数是否有差别。应用条件:各样本是相互独立的随机样本,均服从 正态;各样本总体方差相等,即 方差齐 性。 总变异:数据的均方 MS 总,处理影响 +随机误差(个体差异 +测量误差) 组间变异: MS 组间,处理因素的影响 组内变异: MS 组内,随机误差的影响F MS组间(服从自由度分子 v1,分母 v2) MS组内1、完全随机设计资料: 成组设计 的多个样本 ,单因素两水平 /多水平方差分析。 3 变异同质的

14、受试对象 随机分配到各处理组,各组样本含量相等或不等。SS总=SS组间+SS 组内MS总X 2 CN1MS 组间SS组间v组间Xi)2/ni C,C ( X)2k 1 NV 总=V 组间 +V 组内v 总=N-1 V 组间 =k-1 V 组内 =N-kF MS组间(服从自由度分子 v1,分母v2) v1 组间,v2 组内 MS组内注意:总体均数不全相同,两两之间比较用另外的方法2、随机区组设计资料; 配伍组设计 ,两因素。 3 变异受试对象按照性质分成 b 个区组 /配伍组,每个区组随机分配到 k 个处理组。MS 总=MS 处理组 +MS 区组 +MS 误差MS =SSv 总=v 处理组 +v

15、 区组+v 误差 =(处理 -1)+(区组-1)+误差=N-1X)NF处理MS处理MS误差v处理F区组MS区组MS误差v区组同理:总体均数不全相同,两两之间比较用另外的方法。精品3、多个样本均数两两比较,即上面的“注意”、“同理”SNK 法, q 检验 Dunnett-t 检验精品4、交叉设计资料,分两阶段和多阶段()两阶段交叉设计:一、二组患者和A、B 处理方法,一患者服药顺序 AB,二组患者 BA5、析因设计资料6、重复测量资料2x2检验: 样本 率或构成比推总体率 /构成比之间两个及以上的比较1、独立样本列联表资料1)22列联表 (四格表) 成组连续性校正( Yates校正) 3 种2

16、(n 40, T 5) x2(ad bc) n(a b)(a c)(d b)(d c)( n40,1T5) x2(ad bc -n 2) n(a b)(a c)(d b)(d c)( n40,或 T1) x2确切概率法,以上均适用)A 实际频数, T 理论频数(总有效率乘以各组人数)2)R 行C 列 列联表资料多个样本率 / 两个或多个构成比2xnA21 v=(R-1)(C-1)nRnC注意:必须绝对数,不能相对数,因x2 与频数有关;理论频数太小1/5 以 上 格 子 的 理 论 频 数 5 , 或 一 个 格 子 理 论 频 数 1 。 或 计 算 最 小 理 论 频 数最小行、列对应的合

17、计 数的乘积 5总数 5可以计算;太小解决方法:增大样本含量;确切概率法;与邻近行或列合并;删去) 有序多分类变量用秩和检验 /Ridit 检验; 多个样本率(或构成比)拒绝无效假设时,只能说各总体率之间总的来说有差别,不能说明彼此之间有差别或两者之间有差 别。2、配对设计资料1)配对 22 列联表 配对设计且结果为“二分类”( 独立列联表数据相互独立,配对设计为研究对象先按某种方式配对,再按两 种属性统计,结果不是相互独立) 。又称 McNemar 检验, H 0成立: B=C连续性校正:精品2bc1,vbc x2 b c ,v 1 b+c40bc2)配对 RR 列联表 求统计量 T 服从

18、x2 分布,自由度 R-13、拟合优度的 4、先行趋势的 5、四格表的 Fisher 确切概率法,好复杂 P147秩和检验: 基于原始数据在整个样本中按大小排列所占的位次计算统计量, 总体分布不明,少量离群值小样本。1、符号秩和检验( Wilcoxon) 单一样本与总体中位数的比较,配对设计计量差值 的比较。1)配对设计两样本 差值 是否来自于 中位数为 0 的总体 ,进而推断两总体中位数有无差别顺序:求差值编秩分别求正、负秩和确定检验统计量T 查 T 界值表 编秩按 绝对值由小到大 ;差值“ 0”舍去不计, n 也减 1;差值绝对值等,求平均秩次,正负相同可顺次编秩; 正、负秩和 T+ +T

19、 -=n(n+1)/2 ,相等则秩和计算无误。 任取 T+ 或 T-作为统计量。 5,界值外 P50,近似正态分布, Z 检验,公式 P1522)单一样本与总体中位数 差值 = 健康人群指标样本数值 公式同上2、成组设计两样本的 两独立样本代表的 总体分布位置 是否有差别1)原始数据的两样本 两种处理方式的测量值统一从小到大排序例数较小者为 n1、 T 1, T1+T 2=N(N+1)/2n110且 n2-n110时,查 T 界值表n1n2时 T=T1, n1=n2时,T=T1或 T2n1 10或n2-n1 10时,计算 Z 值,查 t界值表2)等级资料的两样本 两种处理方法疗效的等级,秩次范

20、围:两组数据 按等级顺序(疗效 )统一从小到大排序(如痊愈的两种处理结果合计数, 1合计数;痊愈合计数 +1 显效 合计数,类推)。平均秩次:痊愈组 =1+痊愈合计数 /2 ,显效组 =痊愈合计数 +1+显效合计数 /2 ,类推。秩和:此处理组的此疗效原始数据此疗效平均秩次。精品例数较小者为 n1、 T1,n1 10且n2-n1 10时,查 T 界值表n1n2时 T=T1, n1=n 2时,T=T 1或 T2n1 10或n2-n1 10时,计算 Z 值,查 t界值表3、成组设计多样本 K-W H 秩和检验1)原始数据多样本 三种 (.)处理方式数据统一从小到大编秩。相同数据求平均秩次 求各组秩

21、和 R1R2R3 统计量 H 值12N N 1Ri2niN=n 1+n 2+. 组数 k=3 ,ni 5 时,查 H 界值表; 当 k、ni超出 H界值表,则使用 v=k-1,x2H 查x2界值表2)等级资料多样本 编秩、各疗效组平均秩次、秩和同两样本等级资料 组数 k=3 ,ni 5 时,查 H 界值表;体位置不同 当 k、ni超出 H界值表,则使用 v=k-1,x2H 查x2界值表3)多个独立样本间的 多重比较 K-W H 秩和检验 H1 仅得到各总体分布位置不全相同, 两两比较回答哪两个总H0 :任意两个处理组总体分布位置相同H1 :任意两个处理组总体分布位置 不同4、随机区组设计的 配

22、伍组1)多个相关样本比较的 Friedman M 检验 多区组、多剂量(处理)b k 1RiRRi 为各处理组秩和, b 为区组数, k 处理组数22)多个相关样本的两两比较双变量关联性分析 两随机变量的关联方向、密切程度1、直线相关 / 简单相关两随机变量之间呈 直线趋势 的关系1)直线相关系数 / Pearson积矩相关系数lxyl xxl yyxx yyxy x y n2 2 2 2 x x n y y n精品Lyy:离均差乘积和精品 r无单位, -1,1; 正、负号标示相关方向(正相关、负相关、零相关、散点为无相关); 绝对值大小表示相关密切程度。2)相关系数的统计推断对总体相关系数

23、是否为 0 做假设检验假设变量 x、y均服从正态, H0: =0 ,无直线相关关系 H1: 0,有直线相关关系t 检验trr0自由度 v=n-2Srn2注意:相关分析前先绘制散点图;要求变量 x、y 均服从正态 ; 出现 离群点 慎用相关(核实数据、重复观察); 相关关系不一定是因果关系; 分层资料不可盲目合并。2、秩相关 不服从正态,总体分布未知,存在极端值,原始数据用等级表示1)变量 x、y分别从小到达编秩, p为x的秩次,q为 y的秩次Spearman秩相关系数 / 等级相关系数pq2qn同样 -1,1,正相关、负相关2)假设检验n50,直接查等级相关系数界值表;n50,公式同直线相关,

24、做 t 检验3、分类变量的关联性统计量服从四格表 x2 分布,自由度为 1,有关联,求 Pearson列联系数4、RC 列联表的关联性x2确切概率公式,自由度为( R-1)(C-1),有关联,求 Pearson列联系数精品直线回归分析 一个变量 预测 另一个变量精品1、直线回归方程的建立1) y?随 x变化的方程为 直线回归方程 / 直线回归模型 y? a bxa 为直线截距, x 为 0 时 y 的平均估计值;b 为直线斜率 / 回归系数, x 每改变一个单位时 y 的平均改变量; 个体观察值不一定总等于其均数,散点图各点不会恰好都在回归直线上。2)方程的估计 b=lxy / lxx a y

25、 bx2、统计推断1)总体回归系数 =0 则无直线回归关系 方差分析( F 统计量)SS总:总离均差平方和,不考虑回归关系时 y 的总变异;SS回:回归平方和, y 的总变异中回归关系所解释的部分,越大回归效果越好; SS残:残差平方和,除回归关系外所有因素对 y 的变异作用。SS总 = SS回 + SS残 v 总=v 回+v 残 v 总=n-1 v 回=1 v残=n-2对应上式2y? y 22 y y?有无直线关系 F 检验 FMS回MS残SS回 v回SS残 v残t 检验 tb l xxSS残 n22)总体回归系数置信区间 bt 2 ,n 2Sb2 SS回3)决定系数 R2R取值 0,1,表

26、示回归贡献的相对程度。SS总生存分析 不仅关心结局,还关心发生这种结局所经历的时间1、特点:蕴含结局、时间两个信息;.),到某规定时间点截止;结局为两分类互斥事件; 一般通过随访收集,从某一时间点开始(确诊、入院、实施手术 常因失访造成研究对象生存时间数据不完整,分布类型复杂,通常不服从正态。精品2、基本概念死亡事件:失效事件 / 终点事件。生存时间:观察到的存活事件。完全数据:观察起点到死亡事件的时间。截尾数据:结尾值 /删失值 /终检值,除死亡事件的其他原因引起的截止(失访、退出、观察终止(“ +”表示)此时使用 校正人口数 = 年初观察例数 1/2 截尾例数。死亡概率:单位时段开始存活的

27、个体在该时段内死亡的可能性某年内死亡人数某年年初观察人数生存概率: 单位时段开始存活的个体到时段结束时仍存活的可能性p1q某年活满一年人数 某年年初观察人数有截尾,分母校正生存率:观察对象活过 tk时刻的概率, S?tkPT tktk时刻观仍察存总活例的数例数 (T 为观察对象存活时间,有截尾,分母 校正)。实为 累积生存概率 ,3 年生存率 = 第一年、第二年、第三年生存概率的连乘积 生存曲线:各时点生存率连接(阶梯形,标有截尾值)。 中位生存时间:半数生存期,生存率为 0.5 时对应的生存时间,表示 50%的观察对象可以活到此时。3、未分组资料的 每个观察单位的原始测得值组成的资料。 乘积

28、极限法 /Kaplan-Meier 法/K-M 法注意: 统计时间比 tk 时间少 1,如生存时间 t 为 4 月的生存率为 p1*p2*p2,t 为 5 月的生存概率为 1-d4/n 4 估计总体生存率的置信区间S?tk u /2 SES?tkSE为 S 的标准误4、分组资料的 将原始资料按照生存时间分组,再进行分析。 寿命表法5、生存曲线的比较 对数秩检验假定无效假设成立,两总体生存曲线位置相同,理论死亡数与实际死亡数相差应该不大 乘积极限法估计各组患者不同时点的生存率,绘制生存曲线;将两组患者按生存时间 统一从小到大排序 ,并标明组别2A T 2xT统计量计算v 组数 -1精品假设检验:

29、 检验水准,可能性 P 值,无效假设,备择假设 型错误: = ,弃真,假阳性,误诊。拒绝实际正确的 H0 。 样本量确定时,、呈反比型错误: = ,存伪,假阴性,漏诊。不拒绝实际错误的H0 。检验效能: = ( 1-),检验方法能发现 H 1成立的能力。【型错误、型错误 】1. 重点减少型错误:可取小,如 0.01;重点减少型错误:可取大,如 0.2。2. 越大,型错误越小,检验效能 1-越大。3. P拒绝H0时,只犯型错误; P不拒绝H0时,只犯型错误。4. 双侧检验 P,单侧必得 P;单侧检验 P,双侧必得 P。5. 单侧检验易犯型错误,双侧检验易犯型错误,单侧效能高于双侧。【t 检验】含

30、义一种以 t分布为基础,以 t 值为检验统计量的计量资料的假设检验方法。基本思想假设在 H0 成立的条件下做随机抽样,按照 t 分布的规律获得现有样本检验统计量 t 值的概率为 P,将 P 值与事先设定检验水准进行比较,判断是否拒绝 H0应用条件独立性;正态性 (可用正态性检验来确认 );方差齐性 (可由方差齐性检验来认定 )。单个 样本均数 与总体均数的比较;主要用途配对设计资料的差值均数与总体均数的比较;成组设计的两样本均数差异的比较。方差分析】含义一种以数据分析的变异为基础,以 F 值为统计量的计量资料的假设检验方法。基本思想将全部观察值之间的总变异按设计类型分解为两个或多个组成部分,通

31、过比较不同变异来源的均方,借 助 F 分布做出统计推断。应用条件独立性;正态性 (可用正态性检验来确认 );方差齐性 (可由方差齐性检验来认定 )。主要用途多个样本均数 的比较 (三个及三个以上 )精品x2 检验】含义一种以 x2 分布为基础,以 x2值为检验统计量的计数资料的假设检验方法。基本思想通过 x2值的大小反映实际频数 (A)和理论频数 (T)的符合程度,在 H0 成立时,实际频数 (A)和理论频数 (T) 的相差不应该很大,果实际频数 (A)和理论频数 (T)的相差很大,则 H0 成立的可能性很小。应用条件独立性;正态性 (可用正态性检验来确认 );方差齐性 (可由方差齐性检验来认定 )。推断两个或两个以上 总体率 (或构成比 )之间有无差别;主要用途两变量间有无相互关系;检验频数分布的拟合优度。2 2 表的 x2当 n 40且所有 T5时,用 22表 x2检验的基本公式或专用公式计算 x2值;检验的注意当 n 40但有 1 T 5时,需要用校正公式计算 x2 值;事项当 n 40或有 T1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论