医学统计学知识点汇总

上传人：m*** IP属地：贵州上传时间：2020-04-02 格式：DOC 页数：17 大小：482.50KB 积分：20 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

医学统计学总结医学统计学总结绪论绪论 1 随机现象在同一条件下进行试验一次试验结果不能确定而在一定数量的重复试验之后呈现统计规律的现象 2 同质统计学中对研究指标影响较大的可以控制的主要因素 3 变异同质基础上各观察单位某变量值的差异数值变量变量值是定量的由此而构成的资料称为数值变量资料或计量资料其数值是连续性的称之为连续型变量变量无序分类变量所分类别或属性之间无顺序和程度上的差异分类变量定性变量有序分类变量有顺序和程度上的差异 4 总体根据研究目的确定的同质研究对象中所有观察单位某变量值的集合可以分为有限总体和无限总体 5 样本是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合样本代表性的前提同质总体足够的观察单位数随机抽样统计学中描述统计学中描述样本样本特征的指标称为统计量描述特征的指标称为统计量描述总体总体特征的指标称为参数特征的指标称为参数 6 概率描述随机事件发生的可能性大小的一个度量若 P A 1 则称 A 为必然事件若 P A 0 则称 A 为不可能事件随机事件 A 的概率为 0 P 1 小概率事件若随机事件 A 的概率 P 则称随机事件 A 为小概率事件其统计学意义为小概率事件在一次随机试验中认为是不可能发生的统计描述统计描述 1 频数分布有两个重要的特征集中趋势和离散程度频数分布有对称分布和偏态分布之分后者是指频数分布不对称集中趋势偏向一侧如偏向数值小的一侧为正偏态分布如偏向数值大的一侧为负偏态分布 2 常用的集中趋势的描述指标有均数几何均数中位数等均数适用于正态或近似正态的分布的数值变量资料样本均数用表示总体均数用x 表示几何均数适用于等比级数资料和对数呈正态分布的资料注意观察值中不能有零一组观察值中不能同时有正值和负值中位数适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料 3 常用的离散程度的描述指标有全距四分位数间距方差标准差变异系数全距任何资料一组中最大值与最小值的差四分位数间距适用于偏态分布以及分布的一端或两端无确切数据资料方差和标准差正态分布资料标准差表示观察值的变异度的大小变异系数比较度量单位不同或均数相差悬殊的两组资料的变异度 4 标准正态分布对正态分布的 X 进行 u 的变换 u X 则正态分布变换为 0 1 的标准正态分布亦称 u 分布 u 被称为标准正态变量或标准正态离差两个参数是位置参数是形状参数用 N 0 1 表示标准正态分布常用估计医学参考值范围的方法有 1 正态分布方法适用于正态或近似正态分布的资料双侧界值 X u 2S 单侧上界 X u S 或单侧下界 X u S 2 对数正态分布方法适用于对数正态分布资料双侧界值 Lg 1 X lgx u 2S lgx 单侧上界 Lg 1 X lgx u S lgx 或单侧下界 Lg 1 X lgx u S lgx 3 百分位数法用于偏态分布资料以及资料中一端或两端无确切数值的资料双侧上界 P2 5和 P97 5 单侧上界 P95 或单侧下界 P5 常用的 u 值表 5 分类变量资料的统计描述常用相对数指标描述包括率构成比相对比率说明某现象发生的频率或强度病死率不等于死亡率构成比说明某现象内部组成部分所占的比重或分布常以百分数表示相对比亦称比是 A B 2 个有关指标之比说明 A 为 B 的若干倍或百分之几两个指标可以性质相同也可以性质不同应用相对数时的注意事项 1 计算相对数的分母不宜过小 2 分析时不能以构成比代替率 3 对观察单位数不等的几个率不能直接相加求其平均率 4 比较相对数时应注意其可比性 5 对样本率或构成比的比较应遵循随机抽样并做假设检验 6 标准化法标准化的目的在于消除混杂因素对结果的影响使资料更具有可比性其基本思想是将所比较的两组或多组资料的构成按统一的标准调整后计算标化率使其更具有可比性标准化率的计算方法亦称标化率直接法用于已知被标化组的年龄别率以及已知标准组的年龄别人口数或年龄别人口构成比时间接法用于已知被标化组的年龄别人口数与发病死亡总数但年龄别率未知以及已知标准组年龄别发病死亡率与总发病死亡率时通常可从下列 3 种方法选用标准组以两组资料中任一组的年龄别人口数或构成比作为标准组以两组资料合并的各年龄组的人口数或构成比作为标准组以公认的或便于与他人资料比较的标准作为标准组 7 统计表结构由标题标目线条和数字构成编制统计表的要求标题概括表的内容列于表的上方居中应注明时间和地点标目主语和谓语分别列于横纵标目文字简明层次清楚横标目列于表的左侧通常为被研究的事物纵标目列于表的上端为说明横标目的统计指标线条通常除表的顶线底线纵标目下以及合计上的横线外其余线条均省去顶线和底线应略粗些表的左上角不宜用斜线数字用阿拉伯数字表示同一指标的小数位数要一致并对齐数字暂缺或无数字者分别参考值范围单侧双侧 80 0 842 1 282 90 1 282 1 645 95 1 645 1 96 99 2 326 2 576 用或表示数字为 0 者要记作 0 不应空项为方便核实和分析应有合计备注一般不列入表内必要时可用标出列于表下 8 统计图条图用于相互对比关系的资料圆图与百分条图适用于百分构成比资料表示事物各组成部分所占的比重或构成线图用于连续性资料用于说明事物在时间上的发展变化或某现象随另一现象而变动的情况直方图表示连续性资料的频数分布散点图适用于直线相关分析说明两个变量间的数量关系和变化趋势抽样分布与参数估计抽样分布与参数估计抽样研究的目的是用样本信息来推断总体特征即统计推断包括两个内容一是总体参数的估计二是假设检验 1 抽样误差由于变异的存在抽样研究所造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异称为抽样误差常用标准误反映均数抽样误差的大小用率的标准误 p反映率的抽样误差的大小用 x Possion 计数的标准误反映其抽样误差的大小 2 中心极限定理和正态分布推理从正态分布 N 2 总体中以固定 n 随机抽取样本样本均数的分布仍服从正态分布即使是从偏态分布总体中随机抽样只要 n 足够大 x 的分布也近似正态分布样本均数的均数仍为样本均数的标准差为 x x 样本均数的抽样误差简称标准误是反映均数抽样误差大小的指标 x 用样本均数 S 作为的估计值则 x n x s n S 3 t 分布将看成变量值那么可将正态变量进行 u 变换 u 后也可将xx N 变换成标准正态分布 N 0 1 常用 s 作为的估计值统计量为 t 此分 2 x 布为 t 分布统计量 t t 曲线的形态变化与自由度 v 的大小有关 v 越小 t 值越分 x s x 散曲线越低平 v 逐渐增大时则 t 分布逐渐逼近正态分布当当 v v 无穷大时无穷大时 t t 分布即为分布即为 u u 分布分布 4 总体均数的估计有两种方法一种是点估计即用统计量估计总体均数二是区间估x 计亦称可信区间 1 未知且 n 小 t 2 v sx t 2 v sxxx 2 未知但 n 足够大 t 分布逼近 u 分布 u 2sx u 2sxxx 3 已知 u 2 x u 2 xxx 标准差和标准误的比较标准差标准误 S 1 2 n xx x s n s 表示观察值的变异程度大小估计均数的抽样误差大小计算变异系数 CV 100 估计总体均数可信区间 x s t 2 v sx t 2 v xx sx 确定医学参考值的范围进行假设检验计算标准误数值变量资料的假设检验数值变量资料的假设检验 1 假设检验的原理假设在一次抽样研究中得出了 u 1 96 则 P 0 05 此为小概率事件依据小概率事件在一次随机试验中认为是不可能发生的的定理可认为此样本不是来自该总体 2 步骤建立假设和确定检验水准假设有两种一种是检验假设常称无效假设或零假设记为 H0 假设样本所代表的总体参数与已知总体参数相等另一种是备择假设记为 H1 是与 H0相联系且对立的假设检验水准亦称显著性水准是判断拒绝或不拒绝 H0 也是允许犯型错误的概率通常用 0 05 选定检验方法和计算统计量确定 P 值做出推断结论 P 值是指从 H0所规定的总体中随机抽样时获得等于及大于现有样本统计量的概率 3 3 t t 检验检验适用于适用于样本均数与总体均数比较样本均数与总体均数比较未知且未知且 n n 5050 或或 n n 3030 成组设计成组设计的两小样本均数的比较的两小样本均数的比较 n n1 1 n n2 2均小于均小于 3030 或或 5050 配对设计的两样本均数比较配对设计的两样本均数比较应用条件应用条件当样本含量较小当样本含量较小 n n 5050 或或 n n 3030 时要求样本来自正态分布总体时要求样本来自正态分布总体用于成用于成组设计的两样本均数比较时要求两样本来自总体方差相等的总体组设计的两样本均数比较时要求两样本来自总体方差相等的总体 4 单样本 t 检验用于样本均数与已知总体均数的比较研究目的是推断样本所代表的总体均数与已知总体均数 0有无差别统计量 t v n 1 n s 0 x 5 配对 t 检验用于配对设计资料的两均数的两均数的比较其研究目的是推断某种处理有无作用或两种处理的效果有无差别配对设计类型有 3 种先将受试对象按配比条件配对然后用随机分组方法将各对中的 2 个受试对象分别分配到不同的处理组同一对象分别接受 2 种不同处理同一对象处理前后 t 是差值的样本均数 v n 1 n s d d d 6 两样本 t 检验用于完全随机设计的两样本均数的完全随机设计的两样本均数的比较两个样本来自两个总体其研究目的是推断两样本所分别代表的总体均数是否相等 t v n1 n2 2 21 21 xx S xx 11 21 2 21 nn s xx c 11 2 1 1 2121 2 2 21 2 1 21 nnnn nsns xx 7 单样本 u 检验用于样本均数与已知总体均数比较其研究目的同 t 检验研究目的是推断样本所代表的总体均数与已知总体均数 0有无差别其统计量 u n s 0 x 8 两样本的 u 检验用于完全随机设计的两样本均数的比较两个样本来自两个总体其研究目的是推断两样本所分别代表的总体均数是否相等其统计量为 u 21 21 xx s xx 2 2 21 2 1 21 nsns xx 9 正态性检验和方差齐性检验资料在做假设检验之前首先应该检验资料是否来自正态总体并且它们的方差是否齐 10 两类错误型错误拒绝了实际上成立的 H0 即样本来自 0的总体由于抽样的偶然性按 0 05 检验水准拒绝了 H0 接受 H1 这类在假设检验中拒绝了原本正确的 H0的错误称为型错误理论上犯型错误的概率为值得大小视研究目的而定通常设 0 05 型错误不拒绝了实际上不成立的 H0 即样本来自 0的总体由于抽样的偶然性按 0 05 检验水准不拒绝 H0 这类在假设检验中不拒绝原本不正确的 H0的错误称为型错误犯型错误的概率为它只有与特定的 H1结合起来才有意义同时减少和的方法是增加样本含量 1 称为检验效能或把握度即两总体确有差别时按水准能识别该差别的能力如 1 0 95 表示若两总体确有差别理论上平均 100 次抽样中有 95 次能得出两总体有差别的结论 11 假设检验时应注意的事项要有严密的抽样研究设计假设检验的前提正确选用检验方法完全随机的设计的两数值变量资料比较时若 n 小且方差齐则选用两样本 t 检验若方差不齐则选用 t 检验或成组设计的两样本比较的秩和检验若 n1 n2 均大于 50 则选用两样本 u 检验正确理解显著性的含义对差别有无统计学意义的判断不能绝对化方差分析方差分析 1 1 基本思想基本思想按研究目的和设计类型将总变异的离均差平方和按研究目的和设计类型将总变异的离均差平方和 SSSS 和自由度和自由度 v v 分别分解成分别分解成若干部分并求得各相应部分的变异其中的组内变异或误差主要反映个体差异或抽样误差若干部分并求得各相应部分的变异其中的组内变异或误差主要反映个体差异或抽样误差其它部分的变异与之比较得出统计量其它部分的变异与之比较得出统计量 F F 值由值由 F F 值的大小确定值的大小确定 P P 值并作出推断从而了解值并作出推断从而了解该因素对观测指标有无影响该因素对观测指标有无影响组内变异主要由个体差异所致组间变异可能由两种原因所致一是抽样误差二是由于接组内变异主要由个体差异所致组间变异可能由两种原因所致一是抽样误差二是由于接受的处理不同受的处理不同 2 总离均差平方和 SS 和自由度 v SS总 k i n j ij i xx 1 2 1 nxx 2 2 v总 n 1 3 组间离均差平方和 SS组间自由度 v组间和均方 MS组间 SS组间 v组间 k 1 MS组间 n x n x k i i n j ij i 2 1 1 2 组间组间 v SS 4 组内离均差平方和 SS组内自由度 v组内和均方 MS组内 SS组内 SS总 SS组间 v组内 n k MS组内 SS组内 v组内多样本均数比较的方差分析的应用条件各样本是相互独立的随机样本各样本来自正态分布总体各总体方差相等即方差齐 5 完全随机设计资料的方差分析亦称单因素的方差分析可用于完全随机设计的多个样本均数比较的资料研究目的是推断各个样本所代表的总体均数是否相等单因素方差分析的计算公式变异来源 SS v MS F 总变异 n 1Cx 2 组间变异 k 1 C n x k i i n j ij i 1 2 1 组间组间 v SS 组内组间 MS MS 组内变异 SS总 SS组间 n k SS组内 v组内 C 为校正系数 C nx 2 6 配伍组设计资料的方差分析亦称两因素的方差分析用于配伍组设计的多个样本均数比较的资料其研究目的是推断各样本所代表的总体均数是否相等但考虑了个体差异对试验效应的影响两因素方差分析的计算公式变异来源 SS v MS F 总变异 n 1Cx 2 处理组 k 1 SS处理 v处理 MS处理 MS误差C b x k i b j ij 1 2 1 配伍组 b 1 SS配伍 v配伍 MS配伍 MS误差C k x b j k i ij 1 2 1 误差 SS总 SS处理 SS配伍 k 1 b 1 SS误差 v误差 C 为校正系数 C b 为配伍组数nx 2 分类资料的假设检验分类资料的假设检验 1 二项分布应用条件应用条件各观察单位只能具有两种相互对立的结果各观察单位只能具有两种相互对立的结果已知发生某结果的概率为已知发生某结果的概率为其对立结果的概率为其对立结果的概率为 1 1 n n 次试验是在相同的条件下进行的次试验是在相同的条件下进行的性质 n 1n 若均数和标准差用率表示则 p p n 1 未知时用样本率 P 作为的估计值则 Sp npp 1 总体率的估计正态近似法当样本含量 n 足够大且样本率 p 或 1 p 均不太小如 np 与 n 1 p 均大于 5 时样本率 p 的抽样误差分布近似正态分布可信区间为 p u 2Sp p u 2Sp 2 Poisson 分布对于二项分类变量若某结果发生的概率很小如 0 05 时单位时间人群空间内阳性发生次数 x x 0 1 2 的概率可用 Poisson 分布概率函数来描述 P X x x e 递推公式 P 0 P x e x 1x P 应用条件 0 05 外其余同二项分布分布的性质 1 Poisson 分布式一种单参数的离散型分布其参数为表示单位时间人群空间内某事件平均发生的次数 2 Poisson 分布的方差与均数相等 2 3 Poisson 分布可以看成是二项分布的极限形式 4 Poisson 分布的极限形式也是二项分布一般当 n 20 时可按正态分布处理当 0 01 时二项分布可以当作 Poisson 分布来处理 5 Poisson 分布具有可加性总体均数的估计正态近似法 xx u 2 xx u 2 3 服从二项分布资料的假设检验 1 样本率和总体率的估计直接计算法最多有 k 例阳性的概率 P x k k xP 0 最少有 k 例阳性的概率 P x k 1 n k xP 1 0 k xP 正态近似法当不太靠近 0 或 1 且样本含量 n 足够大或 n 5 且 n 1 5 时 0 0 0 二项分布接近正态分布 u n1 00 0 P 1 00 0 n nx 2 两样本率的比较目的是推断两个样本各自代表的两总体率是否相等当两个样本率均满足正态近似条件时可用 u 检验其公式为 u 21 21 pp s pp 11 1 21 21 nn pp pp cc 为合并阳性率 x1 x2 n1 n2 x1 x2为两个样本的阳性例数 pcpc 4 服从 Poisson 分布的假设检验对于 Poisson 分布的假设检验对于总体均数可以用乘法将小单位化大也可以用除法将大单位化小对于样本均数只能用除法将大单位化小而不能用乘法将小单位化大 1 样本均数与总体均数的比较适用于 0 20 且样本阳性数 X 较小作单侧检验时直接计算法最多有 k 例阳性的概率 P x k k xP 0 最少有 k 例阳性的概率 P x k 1 n k xP 1 0 k xP 正态近似法当 20 时 Poisson 分布逼近正态分布 u 00 x 2 两样本阳性数的比较目的是推断两样本各自代表的两总体平均数是否相等当两样本阳性数 X1 X2均大于 20 时可用 u 检验其计算用两种情况两样本观察单位时间面积容积等相同时 u 21 21 xx xx 21 21 xx xx 两样本观察单位时间面积容积等不同时 u 2211 21 nxnx xx 5 检验是一种连续型分布 u 分布的平方即为分布对于同一份资料 2 2 22 u 检验的检验统计量为其基本公式为自由度 v 行数 1 列 2 2 T TA 2 2 数 1 式中 A 为实际频数 T 为理论频数理论频数 T 的计算公式为 n nn T CR RC 为第 R 行第 C 列的理论频数 nR为相应行的合计 nC为相应列的合计 n 为总例数自 TRC 由度 v R 1 C 1 反映了实际频数与理论频数的吻合程度只有考虑了自由度 v 的影响值才能正 2 2 确地反应实际频数 A 和理论频数 T 的吻合程度 6 四格表资料的检验最小理论频数的判断 R 行与 C 列中行合计数中的最小值 2 TRC 与列合计数中的最小值所对应的理论频数最小 1 四个表资料检验的专用公式 2 2 2 dbcadcba nbcad 2 四个表资料检验的校正公式 2 T TA 2 2 5 0 2 2 2 dbcadcba nnbcad c 在实际工作中对于四个表资料通常规定为 1 当 n 40 且所有的 T 5 时用检验的基本公式或四个表资料检验的专用公式 2 2 当 P 时改用四个表资料的 Fisher 确切概率法 2 当 n 40 但 1 T 5 时用四格表资料的检验的校正公式或改用四个表资料的 2 Fisher 确切概率计算法 3 当 n 40 或 T 1 时用四个表资料的 Fisher 确切概率法 4 连续性校正仅用于 v 1 的四格表资料尤其是 n 小时当 v 2 时一般不做校正 2 7 配对四个表资料的检验由于在抽样研究中抽样误差是不可避免的样本中的 b 和 2 c 往往不相等即 b c 为此需进行假设检验其检验统计量为 v 1 cb cb 2 2 条件为 b c 40 v 1 条件为 b c 40 cb cb 2 2 1 本方法只适用于样本含量不太大的资料它仅考虑了两种方法结果不一致的情况而未考虑样本含量 n 和两种方法一致的两种情况所以当 n 很大且 a 与 d 的数值也很大而 b 与 c 的数值相对较小时即使检验统计结果有统计学意义其实际意义也不大 8 行列表资料的检验只适用于多个样本率的比较两个或多个构成比的比较以及双 2 向无序分类资料的关联性检验其基本数据由三种情况多个样本率的比较时有 R 行 2 列称为 R 2 表两个样本的构成比比较时有 2 列 C 列称为 2 C 表多个样本的构成比比较以及双向无序分类资料关联性检验时有 R 行 C 列称为 R C 表以上三种可统称为行列表资料基本公式基本公式为 T TA 2 2 专用公式自由度 v 行数 1 列数 1 1 2 2 CRn n A n 注意事项一般人行列表资料中各格的理论频数不能小于 1 且 1T5 格子数不能超过总数的 1 5 如果出现以上情况可通过以下方法解决最好是增加样本含量使得理论频数增大根据专业知识考虑能否删去理论频数太小的行和列能否将理论频数太小的行和列于性质相近的邻行或邻列合并改用双向无序 R C 的 Fisher 确切概率计算法当多个样本率比较时所得统计推断为拒绝 H0 接受 H1时只能认为各样本率间总的来说有差别但不能说明任两个样本率间均有差别需要做多个样本率的多重比较对于有序的 R C 表资料不宜用检验对于 R C 表的资料要根据分类类型和研究目的选 2 用恰当的检验方法 9 双向无序分类资料的关联性检验对于此资料常常需要分析两个分类变量之间有无关系关系的密切程度如何进一步分析密切程度时可以用 Pearson 列联系数 rp 2 2 n rp 取值在 0 1 之间 0 表示完全不相关 1 表示完全相关愈接近于 0 关系愈不密切愈 rp 接近 1 关系愈密切 11 R C 表的分类及检验方法的选择分类双向无序单向有序双向有序属性相同和双向有序但属性不同四种双向无序 R C 表两个分类变量皆为无序分类变量对于该资料如果研究目的为两个样本率或构成比的比较可用行列资料的检验如果研究目的是分析两个分类变 2 量之间有无关联性以及关系的密切程度时可用行列表资料的检验以及 Pearson 列联系 2 数进行分析单向有序 R C 表有两种形式一种是 R C 表的分组变量是有序的而指标变量是无序的研究的目的通常是多个构成比的比较可用行列表资料的检验进行分析另一种是 2 R C 表中的分组变量是无序的而指标变量是有序的研究目的通常是多个等级资料的比较可用秩和检验或 Ridit 分析双向有序属性形同的 R C 表两个分类变量皆为有序且属性相同研究目的通常是分析两种检测方法的一致性此时宜用一致性检验或称 Kappa 检验也可用特殊模型分析方法双向有序属性不同的 R C 表两分类变量皆为有序的但属性不同对于该资料如果研究目的是分析不同年龄组患者疗效见有无差别可把它视为单向有序的 R C 表资料选用秩和检验如果研究目的是分析两个有序分类变量间是否存在相关关系可以用等级相关分析或 Pearson 积矩相关分析如果研究目的是分析两个有序分类变量是否存在线性变化趋势可以用有序分组资料的线性趋势检验非参数检验非参数检验非参数检验的统计推断基础是比较分布而不是比较参数所以不必考虑被研究对象的为何种分布以及分布是否已知在实际工作中对符合参数检验应用条件的资料或经变量变换后符合参数检验应用条件的资料应首选参数检验而不能满足参数检验应用条件的资料应选用非参数检验主要选择编秩的方法比较统计变量 T 而做出统计推断直线回归与相关分析直线回归与相关分析 1 直线相关如果两个随机变量中当其中的一个变量由大到小的变化时另一个变量也相应的由大到小后由小到大的变化并且相应变化的散点图在直角坐标系呈现直线趋势则称这两个随机变量存在直线相关相关分析是研究变量和变量集合之间数量协同变化关系的密切程度和方向的统计方法要求两个变量 X 和 Y 都服从正态分布严格说应服从双变量正态分布直线相关系数用于说明具有直线相关关系的两个变量间的相关关系的密切程度和相关方向亦称积差相关系数总体的为样本的为的方差的方差的协方差和 yx yx yyxx xy ll l yyxx yyxx 22 的取值在 1 1 之间其意义如下若则 X 与 Y 存在直线相关关系为正相关为负相关 0 0 0 越大说明两变量间的相关关系越密切越小说明两变量间的相关关系越不密切若为完全相关若则 X 和 Y 不存在相关关系 1 0 表示存在不同程度的线性相关关系为低度线性相关 10 4 00 为显著线性相关为高度显著线性相关 7 04 0 17 0 相关分析的步骤在 X 与 Y 均服从双变量正态分布的情况下绘制散点图呈线性趋势计算相关性呈曲线趋势进行曲线拟合无任何趋势不必分析根据上述公式计算的值相关系数的假设检验由于抽样误差的存在判断是否来自的总体常用 t 检验 0 公式或直接查 t 界值表 21 0 2 n s t 2 n 总体相关系数的区间估计当时从这样的总体中抽样计算出的不服从正态分布而进行反正切变换后 n0 较大时 Z 近似服从均数为 Z 方差为的正态分布 3 12 n 则 Z 的可信区间为对其进行 1 1 ln 2 1 3 n u 3 n u 的变换可以得出的可信区间 1 1 2 2 e e z z 直线相关分析的注意事项 1算相关系数时首先绘制散点图判断两变量是否存在线性趋势相关分析时要求 X Y 均为随机变量而不能用于事先界定 X Y 的资料相关分析时必须剔除异常点相关分析要有实际意义两变量相关并不一定存在联系可能是另外一种因素引起的分层资料不宜盲目的合并进行相关分析同时进行相关分析时如果不能确定各层研究对象具有同质基础不宜盲目合并不能将假设检验中显著性大小理解为两变量相关程度的大小后者是由相关系数的大小决定的 2 等级相关适用于不服从双变量正态分布或总体分布未知的资料还可用于等级资料的相关分析等级相关系数表示两个变量间相关系数的密切程度与相关方向 s 基本思想对于不符合正态分布的资料或等级资料将两个变量的原始观察值分别由小到大编秩然后利用量变量的秩次计算相关系数 3 直线回归处理两个变量间线性数量依存关系的一种统计分析方法回归方程为为应变量给定 x 的 y 的条件均数的估计值 b 为回归斜率表bxay y 示当自变量 x 每变化 1 个单位时应变量 y 平均变化 b 个单位 a 为截距表示没有自变量 x 时其他因素对 y 的平均影响线性回归模型的前提条件线性应变量 y 的总体均数与自变量 x 呈线性关系因此进行回归分析前应先绘制散点图独立任意两个观察单位之间相互独立正态性对任意给定 x 的值 y 均服从正态分布该分布的均数是回归直线上与 x 值相对应的那点的纵坐标等方差自变量 x 的取值范围内不论 x 取什么值 y 都具有相同的方差直线回归分析的步骤绘制散点图通过观察散点的形态来判断线性假设是否成立建立直线回归方程即求出回归参数 a 和 b 通常用最小二乘法估计参数即要求残差平方和达到最小 xx xy n i i n i ii l l xx yyxx b 1 2 1 n x xlxx 2 2 xbya n yx xylxy 绘制回归线注意不应超过 x 的实测值范围所绘制的直线必然通过直线的左端延长与纵轴的焦点必然是截距 a xy 回归方程的假设检验检验方法有方差分析和 t 检验方差分析基本思想将应变量 y 的总变异 SS总分解成 SS回归和 SS剩余两部分然后利用 F 检验来判断回归方程是否成立任意一点 P x y 的纵坐标被回归直线与均数截成 3 段 y 三部分的变异可以表示为 2 yy 2 yy 2 yy 即 SS总 SS回归 SS剩余各部分的意义 SS总即为 y 的总离均差平方和反映未考虑 x 和 y 的回归关系时的 y 的 yy l 2 yy 变异 SS回归即称回归平方和反映在 y 的总变异中由于 x 和 y 的直线关系而使 2 yy y 变异减小的部分即在总变异中可以用 x 解释的部分 SS回归越大说明回归效果越好即 SS总中可用 X 与 Y 线性关系解释的变异越多 SS剩余即残差平方和或剩余平方和反映 x 和 y 的线性影响之外的一切因素 2 yy 对 y 的变异的作用即在总变异中无法用 x 解释的部分该部分越小说明直线回归的估计值误差越小各部分的自由度为 n 1 1 n 2 总回归剩余总回归剩余各部分变异的计算公式为 SS总 2 yy n y y 2 2 xx xy xy l blSS l 2 回归 SS剩余 SS总 SS回归统计量 F 的计算公式剩余回归剩余剩余回归回归 MS MS SS SS F 回归系数的 t 检验基本思想通过样本回归系数 b 与总体均数回归系数进行比较来判断回归方程是否成立有关公式如下 b b s b t 2 n xx XY b l s s 剩余 MSsXY 为剩余标准差是指扣除了 x 因变量线性影响后离散程度 XY s 拟合效果评价回归模型的拟合优度假设检验检验回归方程对样本数据的拟合程度决定系数表示 R 2 2 2 2 yy yy R 总回归 SS SS R 2 r 22 R 总体回归系数的区间估计 b n stb 2 2 b n stb 2 2 回归方程的应用利用回归方程进行预报统计控制直线回归分析的注意事项回归分析要有实际意义注意变量之间的内在联系和规律两变量之间还必须是因果关系对资料的要求一般 y 来自正态总体的随机变量 x 可以是正态总体的随机变量也可以是精确测量和严密控制的值进行分析前应先绘制散点图必须剔除一些异常点回归方程的适用范围不能随意外延其适用范围一般以自变量取值范围为界直线相关和回归的区别与联系区别资料的要求不同相关要求两个变量呈双变量正态分布回归要求 y 服从正态分布而 x 可以是精确测量和严格控制的变量统计意义不同相关反映的是两变量间的伴随关系二者的关联程度如何而回归反映的是两变量间的依存关系即因果关系或从属关系分析的目的不同相关分析的目的是描述两个变量间的相互关系用 r 来反映这种关系的方向以及密切程度而回归分析的目的是描述两个变量间的数量依存关系从而进行统计预测和统计控制联系对于同一资料 r 和 b 的符号一致说明两变量间关系的方向相关系数与回归系数的假设检验是等价的对于同一样本实际应用中只检验其 tt br 中之一即可二者可以相互解释相关系数的平方和等于回归平方和占总平方和的比例即反映应变量 y 的总变异中归因于 x 的部分实验设计的概述实验设计的概述实验室研究以动物或标本为研究对象实验研究的分类临床试验以人为研究对象社区干预试验以社区人群为研究对象又称半试验性研究处理因素试验设计的基本因素受试对象实验效应 1 处理因素研究者根据研究目的确定的通过合理安排实验从而科学的考察其作用大小的因素非处理因素对正确的评价处理因素的作用有一定的干扰但研究者并不想通过本次实验考察其作用大小的因素注意事项要区分处理因素和非处理因素主要依据研究目的来确定抓住实验中的主要因素且因素的水平数不宜过多处理因素必须标准化即保证处理因素在整个实验过程中始终如一保持不变 2 实验效应通过观察指标来反映观察指标的基本原则客观性精确性包括准确度和精确度准确度是指测值与真实值的接近程度属系统误差而精确度是指对同一变量重复观测时观测值与平均值的接近程度灵敏性特异性 3 实验设计的基本原则实验设计的基本原则对照随机重复均衡对照随机重复均衡对照使实验组和对照组内的非处理因素基本一致从而使处理因素的效应得以显示对照组设计的三个条件专设同步对等对照的形式空白对照不给对照组施加任何处理因素临床试验中不宜用空白对照对照的形式空白对照不给对照组施加任何处理因素临床试验中不宜用空白对照实验对照不给对照组施加处理因素但施加某种实验因素实验对照不给对照组施加处理因素但施加某种实验因素标准对照与现有的标准法或常规方法公认的有效药物作对照标准对照与现有的标准法或常规方法公认的有效药物作对照自身对照对照与实验在同一受试对象上进行自身对照对照与实验在同一受试对象上进行相互对照不单独设立对照组而是相互对照不单独设立对照组而是2个或几个实验组相互对照个或几个实验组相互对照历史对照除了非处理因素影响较小的少数疾病外一般不宜用此种对照历史对照除了非处理因素影响较小的少数疾病外一般不宜用此种对照配对对照安慰剂对照配对对照安慰剂对照随机包括随机抽样与随机分配重复样本含量与四个因素有关且均呈反变的关系均衡各组的受试对象除接受的处理因素不同外其他影响实验的非处理因素要基本相同常用的实验设计方法常用的实验设计方法 1 完全随机设计完全随机设计亦称单因素实验设计不考虑个体差异的影响仅涉及亦称单因素实验设计不考虑个体差异的影响仅涉及1个处理因素但个处理因素但可以有可以有2个或个或2个以上的水平将受试对象随机分配到处理组合对照组中各组的例数可以个以上的水平将受试对象随机分配到处理组合对照组中各组的例数可以相等或不等分析方法同前相等或不等分析方法同前 2 配对设计和配伍组设计配对设计和配伍组设计先将受试对象按配比条件配成对子再按随机化的原则把每对中先将受试对象按配比条件配成对子再按随机化的原则把每对中的受试对象分配到实验组和对照组中通常以影响实验效应的主要处理因素为配对条件医的受试对象分配到实验组和对照组中通常以影响实验效应的主要处理因素为配对条件医学实验中的自身对照也是配对设计但容易产生混杂影响最好设立平衡对照配伍组设计学实验中的自身对照也是配对设计但容易产生混杂影响最好设立平衡对照配伍组设计亦称随机区组设计是配对设计的扩大亦称随机区组设计是配对设计的扩大分析方法分析方法配对设计如果各对的观察值的差值服从均数为配对设计如果各对的观察值的差值服从均数为0的正态分布用配对设计的的正态分布用配对设计的t检验否检验否则用配对设计的秩和检验则用配对设计的秩和检验配伍组设计满足方差分析条件的用方差分析不满足的经变量变换后也可以用仍达不配伍组设计满足方差分析条件的用方差分析不满足的经变量变换后也可以用仍达不到要求的用配伍组设计的秩和检验到要求的用配伍组设计的秩和检验 3 交叉设计是在自身配对设计基础上发展起来的双因素设计该设计考虑了 1 个处理因素此因素有两个水平 A B 并且还考虑了 2 个与处理因素无交互作用的非处理因素对实验效应的影响适用条件及应注意的问题处理因素只有 2 个水平 A B 且 2 个非处理因素实验阶段受试对象与处理因素之间无交互作用两个实验阶段之间要安排一定的间隔时间以便消除前一阶段治疗措施的残留效应保证两个阶段的起始条件一样两次观察的时间不能过长处理效应不能持续过久适用于病情较稳定病程可以分阶段短期治疗可见疗效的疾病为消除患者的心理作用或防止研究者的暗示一般多采用盲法分析方法符合方差分析条件的应用方差分析不符合的经变量变换后也可以用仍达不到要求的用秩和检验方差分析将总变异分为 4 部分受试者间阶段间处理间和误差 4 拉丁方设计拉丁方设计是按拉丁方阵的字母行和列安排实验的三因素等水平的设计考虑了是按拉丁方阵的字母行和列安排实验的三因素等水平的设计考虑了3个个因素对实验效应的影响因素对实验效应的影响基本要求基本要求必须是必须是3个因素的实验且个因素的实验且3个因素的水平数相等若不等以主要的处理因素的水平数个因素的水平数相等若不等以主要的处理因素的水平数为主其他为主其他2个进行调整个进行调整 3个因素是相互独立的均无交互作用个因素是相互独立的均无交互作用各行列和字母所得实验数据的方差齐各行列和字母所得实验数据的方差齐设计步骤设计步骤根据主要处理因素的水平数确定基本型拉丁方根据主要处理因素的水平数确定基本型拉丁方先将基本型拉丁方随机化然后按随机化后拉丁方阵安排实验随机化是通过拉丁方的任先将基本型拉丁方随机化然后按随机化后拉丁方阵安排实验随机化是通过拉丁方的任两行或任两列交换位置实现两行或任两列交换位置实现规定行列字母所代表的因素或水平通常用字母表示主要的处理因素规定行列字母所代表的因素或水平通常用字母表示主要的处理因素分析方法可用方差分析将总变异分为列间行间字母间和误差分析方法可用方差分析将总变异分为列间行间字母间和误差4部分部分 5 析因实验设计析因实验设计是一种将是一种将2个或多个因素的各水平交叉分组安排实验的设计不仅可以检个或多个因素的各水平交叉分组安排实验的设计不仅可以检验各因素内部不同水平间有无差异还可以检验验各因素内部不同水平间有无差异还可以检验2个或多个因素间是否存在交互作用个或多个因素间是否存在交互作用常用的设计模型有常用的设计模型有析因实验设计析因实验设计析因实验设计和析因实验设计和析因实验设计析因实验设计 22 222 2322 分析方法可以用方差分析分析方法可以用方差分析析因实验设计将总变异分为析因实验设计将总变异分为A间间 B间交互作用间交互作用和误差和误差4部分部分 22 BA 析因实验设计将总变异分为析因实验设计将总变异分为A间间 B间间 C间间 222 BA CA CB 和误差和误差8部分部分 CBA 回归系数的意义回归系数的意义 1 多元线性回归分析中偏回归系数的意义在其他自变量保持不变的条件下自变量 X 改变一个单位是因变量 Y 的平均该变量流行病学意义在其他因素不变的条件下某因素改变 1 个单位时疾病或死亡危险性的增加量 2 Logistic 回归分析中偏回归系数的意义在其他自变量固定的条件下第 j 个自变量每改变一个单位时 Logit p 的改变量流行病学意义

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

医学统计学知识点汇总

文档简介

温馨提示

最新文档

评论

医学统计学知识点汇总

文档简介

温馨提示

最新文档

评论

相关文档