医学统计学知识点汇总_第1页
医学统计学知识点汇总_第2页
医学统计学知识点汇总_第3页
医学统计学知识点汇总_第4页
医学统计学知识点汇总_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学总结医学统计学总结 绪论绪论 1 随机现象 在同一条件下进行试验 一次试验结果不能确定 而在一定数量的重复试验之 后呈现统计规律的现象 2 同质 统计学中对研究指标影响较大的 可以控制的主要因素 3 变异 同质基础上各观察单位某变量值的差异 数值变量 变量值是定量的 由此而构成的资料称为数值变量资料或计量资料 其 数值是连续性的 称之为连续型变量 变量 无序分类变量 所分类别或属性之间无顺序和程度上的差 异 分类变量 定性变量 有序分类变量 有顺序和程度上的差异 4 总体 根据研究目的确定的同质研究对象中所有观察单位某变量值的集合 可以分为有限 总体和无限总体 5 样本 是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合 样本代表 性的前提 同质总体 足够的观察单位数 随机抽样 统计学中 描述统计学中 描述样本样本特征的指标称为统计量 描述特征的指标称为统计量 描述总体总体特征的指标称为参数 特征的指标称为参数 6 概率 描述随机事件发生的可能性大小的一个度量 若 P A 1 则称 A 为必然事件 若 P A 0 则称 A 为不可能事件 随机事件 A 的概率为 0 P 1 小概率事件 若随机事件 A 的概率 P 则称随机事件 A 为小概率事件 其统计学意义为 小概率事件在一次随机试验中认为是不可能发生的 统计描述统计描述 1 频数分布有两个重要的特征 集中趋势和离散程度 频数分布有对称分布和偏态分布之分 后者是指频数分布不对称 集中趋势偏向一侧 如偏向数值小的一侧为正偏态分布 如偏向 数值大的一侧为负偏态分布 2 常用的集中趋势的描述指标有 均数 几何均数 中位数等 均数 适用于正态或近似正态的分布的数值变量资料 样本均数用表示 总体均数用x 表示 几何均数 适用于等比级数资料和对数呈正态分布的资料 注意观察值中不能有零 一 组观察值中不能同时有正值和负值 中位数 适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料 3 常用的离散程度的描述指标有 全距 四分位数间距 方差 标准差 变异系数 全距 任何资料 一组中最大值与最小值的差 四分位数间距 适用于偏态分布以及分布的一端或两端无确切数据资料 方差和标准差 正态分布资料 标准差表示观察值的变异度的大小 变异系数 比较度量单位不同或均数相差悬殊的两组资料的变异度 4 标准正态分布 对正态分布的 X 进行 u 的变换 u X 则正态分布 变换为 0 1 的标准正态分布 亦称 u 分布 u 被称为标准正态变量或标准正态离差 两个参数 是位置参数 是形状参数 用 N 0 1 表示标准正态分布 常用估计医学参考值范围的方法有 1 正态分布方法 适用于正态或近似正态分布的资料 双侧界值 X u 2S 单侧上界 X u S 或单侧下界 X u S 2 对数正态分布方法 适用于对数正态分布资料 双侧界值 Lg 1 X lgx u 2S lgx 单侧上界 Lg 1 X lgx u S lgx 或单侧下界 Lg 1 X lgx u S lgx 3 百分位数法 用于偏态分布资料以及资料中一端或两端无确切数值的资料 双侧上界 P2 5和 P97 5 单侧上界 P95 或单侧下界 P5 常用的 u 值表 5 分类变量资料的统计描述 常用相对数指标描述 包括 率 构成比 相对比 率 说明某现象发生的频率或强度 病死率不等于死亡率 构成比 说明某现象内部组成部分所占的比重或分布 常以百分数表示 相对比 亦称比 是 A B 2 个有关指标之比 说明 A 为 B 的若干倍或百分之几 两个指 标可以性质相同 也可以性质不同 应用相对数时的注意事项 1 计算相对数的分母不宜过小 2 分析时不能以构成比代替率 3 对观察单位数不等 的几个率 不能直接相加求其平均率 4 比较相对数时应注意其可比性 5 对样本率 或 构成比 的比较应遵循随机抽样 并做假设检验 6 标准化法 标准化的目的在于消除混杂因素对结果的影响 使资料更具有可比性 其基本 思想是 将所比较的两组或多组资料的构成按统一的 标准 调整后 计算标化率 使其更 具有可比性 标准化率的计算方法 亦称标化率 直接法用于已知被标化组的年龄别率 以及已知标准组 的年龄别人口数或年龄别人口构成比时 间接法用于已知被标化组的年龄别人口数与发病 死亡 总数 但年龄别率未知 以及已知标准组年龄别发病 死亡 率与总发病 死亡 率时 通常可从下列 3 种方法选用标准组 以两组资料中任一组的年龄别人口数或构成比作为标 准组 以两组资料合并的各年龄组的人口数或构成比作为标准组 以公认的或便于与他 人资料比较的标准作为标准组 7 统计表 结构 由标题 标目 线条和数字构成 编制统计表的要求 标题 概括表的内容 列于表的上方居中 应注明时间和地点 标目 主语和谓语分别列于横 纵标目 文字简明 层次清楚 横标目列于表的左侧 通 常为被研究的事物 纵标目列于表的上端 为说明横标目的统计指标 线条 通常 除表的顶线 底线 纵标目下以及合计上的横线外 其余线条均省去 顶线 和底线应略粗些 表的左上角不宜用斜线 数字 用阿拉伯数字表示 同一指标的小数位数要一致并对齐 数字暂缺或无数字者分别 参考值范围 单侧 双侧 80 0 842 1 282 90 1 282 1 645 95 1 645 1 96 99 2 326 2 576 用 或 表示 数字为 0 者要记作 0 不应空项 为方便核实和分析 应有合计 备注 一般不列入表内 必要时可用 标出 列于表下 8 统计图 条图 用于相互对比关系的资料 圆图与百分条图 适用于百分构成比资料 表示事物各组成部分所占的比重或构成 线图 用于连续性资料 用于说明事物在时间上的发展变化 或某现象随另一现象而变动 的情况 直方图 表示连续性资料的频数分布 散点图 适用于直线相关分析 说明两个变量间的数量关系和变化趋势 抽样分布与参数估计抽样分布与参数估计 抽样研究的目的是用样本信息来推断总体特征 即统计推断 包括两个内容 一是总体参数 的估计 二是假设检验 1 抽样误差 由于变异的存在 抽样研究所造成的样本统计量与总体参数之间的差异或各样 本统计量之间的差异称为抽样误差 常用标准误反映均数抽样误差的大小 用率的标准误 p反映率的抽样误差的大小 用 x Possion 计数的标准误反映其抽样误差的大小 2 中心极限定理和正态分布推理 从正态分布 N 2 总体中以固定 n 随机抽取样本 样本均数的分布仍服从正态分布 即使是从偏态分布总体中随机抽样 只要 n 足够大 x 的分布也近似正态分布 样本均数的均数仍为 样本均数的标准差为 x x 样本均数的抽样误差 简称标准误 是反映均数抽样误差大小的指标 x 用样本均数 S 作为 的估计值 则 x n x s n S 3 t 分布 将看成变量值 那么可将正态变量进行 u 变换 u 后 也可将xx N 变换成标准正态分布 N 0 1 常用 s 作为 的估计值 统计量为 t 此分 2 x 布为 t 分布 统计量 t t 曲线的形态变化与自由度 v 的大小有关 v 越小 t 值越分 x s x 散 曲线越低平 v 逐渐增大时 则 t 分布逐渐逼近正态分布 当当 v v 无穷大时 无穷大时 t t 分布即为分布即为 u u 分布 分布 4 总体均数的估计有两种方法 一种是点估计 即用统计量估计总体均数 二是区间估x 计 亦称可信区间 1 未知且 n 小 t 2 v sx t 2 v sxxx 2 未知 但 n 足够大 t 分布逼近 u 分布 u 2sx u 2sxxx 3 已知 u 2 x u 2 xxx 标准差和标准误的比较 标准差 标准误 S 1 2 n xx x s n s 表示观察值的变异程度大小 估计均数的抽样误差大小 计算变异系数 CV 100 估计总体均数可信区间 x s t 2 v sx t 2 v xx sx 确定医学参考值的范围 进行假设检验 计算标准误 数值变量资料的假设检验数值变量资料的假设检验 1 假设检验的原理 假设在一次抽样研究中得出了 u 1 96 则 P 0 05 此为小概率事件 依据 小概率事件在一次随机试验中认为是不可能发生的 的定理 可认为此样本不是来自 该总体 2 步骤 建立假设和确定检验水准 假设有两种 一种是检验假设 常称无效假设或零假 设 记为 H0 假设样本所代表的总体参数与已知总体参数相等 另一种是备择假设 记为 H1 是与 H0相联系且对立的假设 检验水准 亦称显著性水准 是判断拒绝或不拒绝 H0 也 是允许犯 型错误的概率 通常用 0 05 选定检验方法和计算统计量 确定 P 值 做出推断结论 P 值是指从 H0所规定的总体中随 机抽样时 获得等于及大于现有样本统计量的概率 3 3 t t 检验检验 适用于 适用于 样本均数与总体均数比较 样本均数与总体均数比较 未知且未知且 n n 5050 或或 n n 3030 成组设计成组设计 的两小样本均数的比较 的两小样本均数的比较 n n1 1 n n2 2均小于均小于 3030 或或 5050 配对设计的两样本均数比较 配对设计的两样本均数比较 应用条件 应用条件 当样本含量较小 当样本含量较小 n n 5050 或或 n n 3030 时 要求样本来自正态分布总体 时 要求样本来自正态分布总体 用于成用于成 组设计的两样本均数比较时 要求两样本来自总体方差相等的总体 组设计的两样本均数比较时 要求两样本来自总体方差相等的总体 4 单样本 t 检验 用于样本均数与已知总体均数的比较 研究目的是推断样本所代表的总体 均数 与已知总体均数 0有无差别 统计量 t v n 1 n s 0 x 5 配对 t 检验 用于配对设计资料的两均数的两均数的比较 其研究目的是推断某种处理有无作用 或两种处理的效果有无差别 配对设计类型有 3 种 先将受试对象按配比条件配对 然后用随机分组方法将各对中的 2 个受试对象分别分配到不同的处理组 同一对象分别接受 2 种不同处理 同一对象处理 前后 t 是差值的样本均数 v n 1 n s d d d 6 两样本 t 检验 用于完全随机设计的两样本均数的完全随机设计的两样本均数的比较 两个样本来自两个总体 其研究 目的是推断两样本所分别代表的总体均数是否相等 t v n1 n2 2 21 21 xx S xx 11 21 2 21 nn s xx c 11 2 1 1 2121 2 2 21 2 1 21 nnnn nsns xx 7 单样本 u 检验 用于样本均数与已知总体均数比较 其研究目的同 t 检验 研究目的是推 断样本所代表的总体均数 与已知总体均数 0有无差别 其统计量 u n s 0 x 8 两样本的 u 检验 用于完全随机设计的两样本均数的比较 两个样本来自两个总体 其研 究目的是推断两样本所分别代表的总体均数是否相等 其统计量为 u 21 21 xx s xx 2 2 21 2 1 21 nsns xx 9 正态性检验和方差齐性检验 资料在做假设检验之前首先应该检验资料是否来自正态总体 并且它们的方差是否齐 10 两类错误 型错误 拒绝了实际上成立的 H0 即样本来自 0的总体 由于抽样的偶然性 按 0 05 检验水准拒绝了 H0 接受 H1 这类在假设检验中拒绝了原本正确的 H0的错误称为 型错误 理论上犯 型错误的概率为 值得大小视研究目的而定 通常设 0 05 型错误 不拒绝了实际上不成立的 H0 即样本来自 0的总体 由于抽样的偶然性 按 0 05 检验水准不拒绝 H0 这类在假设检验中不拒绝原本不正确的 H0的错误称为 型错 误 犯 型错误的概率为 它只有与特定的 H1结合起来才有意义 同时减少 和 的方法是增加样本含量 1 称为检验效能或把握度 即两总体确有差别 时 按 水准能识别该差别的能力 如 1 0 95 表示 若两总体确有差别 理论上平均 100 次抽样中 有 95 次能得出两总体有差别的结论 11 假设检验时应注意的事项 要有严密的抽样研究设计 假设检验的前提 正确选用检验方法 完全随机的设计的两数值变量资料比较时 若 n 小且方差齐 则选用 两样本 t 检验 若方差不齐 则选用 t 检验或成组设计的两样本比较的秩和检验 若 n1 n2 均大于 50 则选用两样本 u 检验 正确理解 显著性 的含义 对差别有无统计学意义的判断不能绝对化 方差分析方差分析 1 1 基本思想 基本思想 按研究目的和设计类型 将总变异的离均差平方和 按研究目的和设计类型 将总变异的离均差平方和 SSSS 和自由度和自由度 v v 分别分解成分别分解成 若干部分 并求得各相应部分的变异 其中的组内变异或误差主要反映个体差异或抽样误差 若干部分 并求得各相应部分的变异 其中的组内变异或误差主要反映个体差异或抽样误差 其它部分的变异与之比较得出统计量其它部分的变异与之比较得出统计量 F F 值 由值 由 F F 值的大小确定值的大小确定 P P 值 并作出推断 从而了解值 并作出推断 从而了解 该因素对观测指标有无影响 该因素对观测指标有无影响 组内变异主要由个体差异所致 组间变异可能由两种原因所致 一是抽样误差 二是由于接组内变异主要由个体差异所致 组间变异可能由两种原因所致 一是抽样误差 二是由于接 受的处理不同 受的处理不同 2 总离均差平方和 SS 和自由度 v SS总 k i n j ij i xx 1 2 1 nxx 2 2 v总 n 1 3 组间离均差平方和 SS组间 自由度 v组间和均方 MS组间 SS组间 v组间 k 1 MS组间 n x n x k i i n j ij i 2 1 1 2 组间 组间 v SS 4 组内离均差平方和 SS组内 自由度 v组内和均方 MS组内 SS组内 SS总 SS组间 v组内 n k MS组内 SS组内 v组内 多样本均数比较的方差分析的应用条件 各样本是相互独立的随机样本 各样本来自正 态分布总体 各总体方差相等 即方差齐 5 完全随机设计资料的方差分析 亦称单因素的方差分析 可用于完全随机设计的多个样本 均数比较的资料 研究目的是推断各个样本所代表的总体均数是否相等 单因素方差分析的计算公式 变异来源 SS v MS F 总变异 n 1Cx 2 组间变异 k 1 C n x k i i n j ij i 1 2 1 组间 组间 v SS 组内 组间 MS MS 组内变异 SS总 SS组间 n k SS组内 v组内 C 为校正系数 C nx 2 6 配伍组设计资料的方差分析 亦称两因素的方差分析 用于配伍组设计的多个样本均数比 较的资料 其研究目的是推断各样本所代表的总体均数是否相等 但考虑了个体差异对试验 效应的影响 两因素方差分析的计算公式 变异来源 SS v MS F 总变异 n 1Cx 2 处理组 k 1 SS处理 v处理 MS处理 MS误差C b x k i b j ij 1 2 1 配伍组 b 1 SS配伍 v配伍 MS配伍 MS误差C k x b j k i ij 1 2 1 误差 SS总 SS处理 SS配伍 k 1 b 1 SS误差 v误差 C 为校正系数 C b 为配伍组数nx 2 分类资料的假设检验分类资料的假设检验 1 二项分布 应用条件 应用条件 各观察单位只能具有两种相互对立的结果各观察单位只能具有两种相互对立的结果 已知发生某结果的概率为已知发生某结果的概率为 其对立结果的概率为 其对立结果的概率为 1 1 n n 次试验是在相同的条件下进行的 次试验是在相同的条件下进行的 性质 n 1n 若均数和标准差用率表示 则 p p n 1 未知时 用样本率 P 作为 的估计值 则 Sp npp 1 总体率的估计 正态近似法 当样本含量 n 足够大 且样本率 p 或 1 p 均不太小 如 np 与 n 1 p 均大于 5 时样本率 p 的抽样误差分布近似正态分布 可信区间为 p u 2Sp p u 2Sp 2 Poisson 分布 对于二项分类变量 若某结果发生的概率很小 如 0 05 时 单位时间 人群 空间内 阳性 发生次数 x x 0 1 2 的概率可用 Poisson 分布概率函数来描 述 P X x x e 递推公式 P 0 P x e x 1x P 应用条件 0 05 外 其余同二项分布 分布的性质 1 Poisson 分布式一种单参数的离散型分布 其参数为 表示单位时间 人群 空间 内某事件平均发生的次数 2 Poisson 分布的方差与均数相等 2 3 Poisson 分布可以看成是二项分布的极限形式 4 Poisson 分布的极限形式也是二项分布 一般当 n 20 时 可按正态分布处理 当 0 01 时 二项分布可以当作 Poisson 分布来处理 5 Poisson 分布具有可加性 总体均数的估计 正态近似法 xx u 2 xx u 2 3 服从二项分布资料的假设检验 1 样本率和总体率的估计 直接计算法 最多有 k 例阳性的概率 P x k k xP 0 最少有 k 例阳性的概率 P x k 1 n k xP 1 0 k xP 正态近似法 当不太靠近 0 或 1 且样本含量 n 足够大 或 n 5 且 n 1 5 时 0 0 0 二项分布接近正态分布 u n1 00 0 P 1 00 0 n nx 2 两样本率的比较 目的是推断两个样本各自代表的两总体率是否相等 当两个样本率均 满足正态近似条件时 可用 u 检验 其公式为 u 21 21 pp s pp 11 1 21 21 nn pp pp cc 为合并阳性率 x1 x2 n1 n2 x1 x2为两个样本的阳性例数 pcpc 4 服从 Poisson 分布的假设检验 对于 Poisson 分布的假设检验 对于总体均数可以用乘法 将小单位化大 也可以用除法将大单位化小 对于样本均数 只能用除法将大单位化小 而 不能用乘法将小单位化大 1 样本均数与总体均数的比较 适用于 0 20 且样本阳性数 X 较小作单侧检验时 直接计算法 最多有 k 例阳性的概率 P x k k xP 0 最少有 k 例阳性的概率 P x k 1 n k xP 1 0 k xP 正态近似法 当 20 时 Poisson 分布逼近正态分布 u 00 x 2 两样本阳性数的比较 目的是推断两样本各自代表的两总体平均数是否相等 当两样本 阳性数 X1 X2均大于 20 时 可用 u 检验 其计算用两种情况 两样本观察单位 时间 面积 容积等 相同时 u 21 21 xx xx 21 21 xx xx 两样本观察单位 时间 面积 容积等 不同时 u 2211 21 nxnx xx 5 检验 是一种连续型分布 u 分布的平方即为分布 对于同一份资料 2 2 22 u 检验的检验统计量为 其基本公式为 自由度 v 行数 1 列 2 2 T TA 2 2 数 1 式中 A 为实际频数 T 为理论频数 理论频数 T 的计算公式为 n nn T CR RC 为第 R 行第 C 列的理论频数 nR为相应行的合计 nC为相应列的合计 n 为总例数 自 TRC 由度 v R 1 C 1 反映了实际频数与理论频数的吻合程度 只有考虑了自由度 v 的影响 值才能正 2 2 确地反应实际频数 A 和理论频数 T 的吻合程度 6 四格表资料的检验 最小理论频数的判断 R 行与 C 列中 行合计数中的最小值 2 TRC 与列合计数中的最小值所对应的理论频数最小 1 四个表资料检验的专用公式 2 2 2 dbcadcba nbcad 2 四个表资料检验的校正公式 2 T TA 2 2 5 0 2 2 2 dbcadcba nnbcad c 在实际工作中 对于四个表资料 通常规定为 1 当 n 40 且所有的 T 5 时 用检验的基本公式或四个表资料检验的专用公式 2 2 当 P 时 改用四个表资料的 Fisher 确切概率法 2 当 n 40 但 1 T 5 时 用四格表资料的检验的校正公式 或改用四个表资料的 2 Fisher 确切概率计算法 3 当 n 40 或 T 1 时 用四个表资料的 Fisher 确切概率法 4 连续性校正仅用于 v 1 的四格表资料 尤其是 n 小时 当 v 2 时一般不做校正 2 7 配对四个表资料的检验 由于在抽样研究中 抽样误差是不可避免的 样本中的 b 和 2 c 往往不相等 即 b c 为此 需进行假设检验 其检验统计量为 v 1 cb cb 2 2 条件为 b c 40 v 1 条件为 b c 40 cb cb 2 2 1 本方法只适用于样本含量不太大的资料 它仅考虑了两种方法结果不一致的情况 而未 考虑样本含量 n 和两种方法一致的两种情况 所以当 n 很大且 a 与 d 的数值也很大 而 b 与 c 的数值相对较小时 即使检验统计结果有统计学意义 其实际意义也不大 8 行 列表资料的检验 只适用于多个样本率的比较 两个或多个构成比的比较以及双 2 向无序分类资料的关联性检验 其基本数据由三种情况 多个样本率的比较时 有 R 行 2 列 称为 R 2 表 两个样本的构成比比较时 有 2 列 C 列 称为 2 C 表 多个样本的构成比比较以及双向无序分类资料关联性检验时 有 R 行 C 列 称为 R C 表 以上三种可统称为行 列表资料 基本公式 基本公式为 T TA 2 2 专用公式 自由度 v 行数 1 列数 1 1 2 2 CRn n A n 注意事项 一般人行 列表资料中各格的理论频数不能小于 1 且 1T5 格子数不能超过总数的 1 5 如 果出现以上情况 可通过以下方法解决 最好是增加样本含量 使得理论频数增大 根 据专业知识 考虑能否删去理论频数太小的行和列 能否将理论频数太小的行和列于性质相 近的邻行或邻列合并 改用双向无序 R C 的 Fisher 确切概率计算法 当多个样本率比较时 所得统计推断为拒绝 H0 接受 H1时 只能认为各样本率间总的来 说有差别 但不能说明任两个样本率间均有差别 需要做多个样本率的多重比较 对于有序的 R C 表资料不宜用检验 对于 R C 表的资料要根据分类类型和研究目的选 2 用恰当的检验方法 9 双向无序分类资料的关联性检验 对于此资料 常常需要分析两个分类变量之间有无关系 关系的密切程度如何 进一步分析密切程度时 可以用 Pearson 列联系数 rp 2 2 n rp 取值在 0 1 之间 0 表示完全不相关 1 表示完全相关 愈接近于 0 关系愈不密切 愈 rp 接近 1 关系愈密切 11 R C 表的分类及检验方法的选择 分类 双向无序 单向有序 双向有序属性相同和双向有序但属性不同四种 双向无序 R C 表 两个分类变量皆为无序分类变量 对于该资料 如果研究目的为两个 样本率 或构成比 的比较 可用行 列资料的检验 如果研究目的是分析两个分类变 2 量之间有无关联性以及关系的密切程度时 可用行 列表资料的检验以及 Pearson 列联系 2 数进行分析 单向有序 R C 表 有两种形式 一种是 R C 表的分组变量是有序的 而指标变量是无序 的 研究的目的通常是多个构成比的比较 可用行 列表资料的检验进行分析 另一种是 2 R C 表中的分组变量是无序的 而指标变量是有序的 研究目的通常是多个等级资料的比较 可用秩和检验或 Ridit 分析 双向有序属性形同的 R C 表 两个分类变量皆为有序且属性相同 研究目的通常是分析两 种检测方法的一致性 此时宜用一致性检验 或称 Kappa 检验 也可用特殊模型分析方法 双向有序属性不同的 R C 表 两分类变量皆为有序的 但属性不同 对于该资料 如果 研究目的是分析不同年龄组患者疗效见有无差别 可把它视为单向有序的 R C 表资料 选用 秩和检验 如果研究目的是分析两个有序分类变量间是否存在相关关系 可以用等级相关 分析或 Pearson 积矩相关分析 如果研究目的是分析两个有序分类变量是否存在线性变化 趋势 可以用有序分组资料的线性趋势检验 非参数检验非参数检验 非参数检验的统计推断基础是比较分布而不是比较参数 所以不必考虑被研究对象的为 何种分布以及分布是否已知 在实际工作中 对符合参数检验应用条件的资料 或经变量变 换后符合参数检验应用条件的资料应首选参数检验 而不能满足参数检验应用条件的资料 应选用非参数检验 主要选择编秩的方法 比较统计变量 T 而做出统计推断 直线回归与相关分析直线回归与相关分析 1 直线相关 如果两个随机变量中 当其中的一个变量由大到小的变化时 另一个变量也相 应的由大到小 后由小到大 的变化 并且相应变化的散点图在直角坐标系呈现直线趋 势 则称这两个随机变量存在直线相关 相关分析是研究变量和变量集合之间数量协同变化关系的密切程度和方向的统计方法 要求 两个变量 X 和 Y 都服从正态分布 严格说应服从双变量正态分布 直线相关系数 用于说明具有直线相关关系的两个变量间的相关关系的密切程度和相关方向 亦称积差相关系数 总体的为 样本的为 的方差 的方差 的协方差和 yx yx yyxx xy ll l yyxx yyxx 22 的取值在 1 1 之间 其意义如下 若则 X 与 Y 存在直线相关关系 为正相关 为负相关 0 0 0 越大 说明两变量间的相关关系越密切 越小 说明两变量间的相关关系越不密切 若为完全相关 若 则 X 和 Y 不存在相关关系 1 0 表示存在不同程度的线性相关关系 为低度线性相关 10 4 00 为显著线性相关 为高度显著线性相关 7 04 0 17 0 相关分析的步骤 在 X 与 Y 均服从双变量正态分布的情况下 绘制散点图 呈线性趋势 计算相关性 呈曲线趋势 进行曲线拟合 无任何趋势 不必分析 根据上述公式计算 的值 相关系数的假设检验 由于抽样误差的存在 判断是否来自的总体 常用 t 检验 0 公式 或直接查 t 界值表 21 0 2 n s t 2 n 总体相关系数的区间估计 当时 从这样的总体中抽样 计算出的 不服从正态分布 而进行反正切变换后 n0 较大时 Z 近似服从均数为 Z 方差为的正态分布 3 12 n 则 Z 的可信区间为 对其进行 1 1 ln 2 1 3 n u 3 n u 的变换 可以得出的可信区间 1 1 2 2 e e z z 直线相关分析的注意事项 1算相关系数时首先绘制散点图 判断两变量是否存在线性趋势 相关分析时要求 X Y 均为随机变量 而不能用于事先界定 X Y 的资料 相关分析时必须剔除异常点 相关分析要有实际意义 两变量相关 并不一定存在联系 可能是另外一种因素引起的 分层资料不宜盲目的合并 进行相关分析 同时进行相关分析时 如果不能确定各层研究 对象具有同质基础 不宜盲目合并 不能将假设检验中显著性大小理解为两变量相关程度的大小 后者是由相关系数的大小决 定的 2 等级相关 适用于不服从双变量正态分布或总体分布未知的资料 还可用于等级资料的相 关分析 等级相关系数表示两个变量间相关系数的密切程度与相关方向 s 基本思想 对于不符合正态分布的资料或等级资料 将两个变量的原始观察值分别由小到大 编秩 然后利用量变量的秩次计算相关系数 3 直线回归 处理两个变量间线性数量依存关系的一种统计分析方法 回归方程为 为应变量 给定 x 的 y 的条件均数的估计值 b 为回归斜率 表bxay y 示当自变量 x 每变化 1 个单位时 应变量 y 平均变化 b 个单位 a 为截距 表示没有自变量 x 时其他因素对 y 的平均影响 线性回归模型的前提条件 线性 应变量 y 的总体均数与自变量 x 呈线性关系 因此进行回归分析前应先绘制散点图 独立 任意两个观察单位之间相互独立 正态性 对任意给定 x 的值 y 均服从正态分布 该分布的均数是回归直线上与 x 值相对 应的那点的纵坐标 等方差 自变量 x 的取值范围内 不论 x 取什么值 y 都具有相同的方差 直线回归分析的步骤 绘制散点图 通过观察散点的形态来判断线性假设是否成立 建立直线回归方程 即求出回归参数 a 和 b 通常用最小二乘法估计参数 即要求残差平 方和达到最小 xx xy n i i n i ii l l xx yyxx b 1 2 1 n x xlxx 2 2 xbya n yx xylxy 绘制回归线 注意 不应超过 x 的实测值范围 所绘制的直线必然通过 直线的左端延长与纵轴的焦点必然是截距 a xy 回归方程的假设检验 检验方法有方差分析和 t 检验 方差分析 基本思想 将应变量 y 的总变异 SS总分解成 SS回归和 SS剩余两部分 然后利用 F 检验来判断回归方程是否成立 任意一点 P x y 的纵坐标被回归直线与均数截成 3 段 y 三部分的变异可以表示为 2 yy 2 yy 2 yy 即 SS总 SS回归 SS剩余 各部分的意义 SS总 即 为 y 的总离均差平方和 反映未考虑 x 和 y 的回归关系时的 y 的 yy l 2 yy 变异 SS回归 即 称回归平方和 反映在 y 的总变异中 由于 x 和 y 的直线关系而使 2 yy y 变异减小的部分 即在总变异中可以用 x 解释的部分 SS回归越大 说明回归效果越好 即 SS总中可用 X 与 Y 线性关系解释的变异越多 SS剩余 即 残差平方和或剩余平方和 反映 x 和 y 的线性影响之外的一切因素 2 yy 对 y 的变异的作用 即在总变异中无法用 x 解释的部分 该部分越小说明直线回归的估计值 误差越小 各部分的自由度为 n 1 1 n 2 总 回归 剩余 总 回归 剩余 各部分变异的计算公式为 SS总 2 yy n y y 2 2 xx xy xy l blSS l 2 回归 SS剩余 SS总 SS回归 统计量 F 的计算公式 剩余 回归 剩余剩余 回归回归 MS MS SS SS F 回归系数的 t 检验 基本思想 通过样本回归系数 b 与总体均数回归系数 进行比较来判 断回归方程是否成立 有关公式如下 b b s b t 2 n xx XY b l s s 剩余 MSsXY 为剩余标准差 是指扣除了 x 因变量线性影响后离散程度 XY s 拟合效果评价 回归模型的拟合优度假设检验 检验回归方程对样本数据的拟合程度 决 定系数表示 R 2 2 2 2 yy yy R 总 回归 SS SS R 2 r 22 R 总体回归系数的区间估计 b n stb 2 2 b n stb 2 2 回归方程的应用 利用回归方程进行预报 统计控制 直线回归分析的注意事项 回归分析要有实际意义 注意变量之间的内在联系和规律 两变量之间还必须是因果关系 对资料的要求 一般 y 来自正态总体的随机变量 x 可以是正态总体的随机变量 也可以 是精确测量和严密控制的值 进行分析前应先绘制散点图 必须剔除一些异常点 回归方程的适用范围不能随意外延 其适用范围一般以自变量取值范围为界 直线相关和回归的区别与联系 区别 资料的要求不同 相关要求两个变量呈双变量正态分布 回归要求 y 服从正态分布 而 x 可以是精确测量和严格控制的变量 统计意义不同 相关反映的是两变量间的伴随关系 二者的关联程度如何 而回归反映的 是两变量间的依存关系 即因果关系 或从属关系 分析的目的不同 相关分析的目的是描述两个变量间的相互关系 用 r 来反映这种关系的 方向以及密切程度 而回归分析的目的是描述两个变量间的数量依存关系 从而进行统计预 测和统计控制 联系 对于同一资料 r 和 b 的符号一致 说明两变量间关系的方向 相关系数与回归系数的假设检验是等价的 对于同一样本 实际应用中只检验其 tt br 中之一即可 二者可以相互解释 相关系数的平方和等于回归平方和占总平方和的比例 即反映应变量 y 的总变异中归因于 x 的部分 实验设计的概述实验设计的概述 实验室研究 以动物或标本为研究对象 实验研究的分类 临床试验 以人为研究对象 社区干预试验 以社区人群为研究对象 又称半试验性研究 处理因素 试验设计的基本因素 受试对象 实验效应 1 处理因素 研究者根据研究目的确定的 通过合理安排实验 从而科学的考察其作用大小 的因素 非处理因素 对正确的评价处理因素的作用有一定的干扰 但研究者并不想通过本次实验考 察其作用大小的因素 注意事项 要区分处理因素和非处理因素 主要依据研究目的来确定 抓住实验中的主要因素 且 因素的水平数不宜过多 处理因素必须标准化 即保证处理因素在整个实验过程中始终如 一 保持不变 2 实验效应 通过观察指标来反映 观察指标的基本原则 客观性 精确性 包括准确度和精确度 准确度是指测 值与真实值的接近程度 属系统误差 而精确度是指对同一变量重复观测时 观 测值与平均值的接近程度 灵敏性 特异性 3 实验设计的基本原则 实验设计的基本原则 对照 随机 重复 均衡 对照 随机 重复 均衡 对照 使实验组和对照组内的非处理因素基本一致 从而使处理因素的效应得以显示 对照组设计的三个条件 专设 同步 对等 对照的形式 空白对照 不给对照组施加任何处理因素 临床试验中不宜用空白对照 对照的形式 空白对照 不给对照组施加任何处理因素 临床试验中不宜用空白对照 实验对照 不给对照组施加处理因素 但施加某种实验因素 实验对照 不给对照组施加处理因素 但施加某种实验因素 标准对照 与现有的标准法或常规方法 公认的有效药物作对照 标准对照 与现有的标准法或常规方法 公认的有效药物作对照 自身对照 对照与实验在同一受试对象上进行 自身对照 对照与实验在同一受试对象上进行 相互对照 不单独设立对照组 而是相互对照 不单独设立对照组 而是2个或几个实验组相互对照 个或几个实验组相互对照 历史对照 除了非处理因素影响较小的少数疾病外 一般不宜用此种对照历史对照 除了非处理因素影响较小的少数疾病外 一般不宜用此种对照 配对对照 安慰剂对照配对对照 安慰剂对照 随机 包括随机抽样与随机分配 重复 样本含量与四个因素有关 且均呈反变的关系 均衡 各组的受试对象除接受的处理因素不同外 其他影响实验的非处理因素要基本相同 常用的实验设计方法常用的实验设计方法 1 完全随机设计 完全随机设计 亦称单因素实验设计 不考虑个体差异的影响 仅涉及亦称单因素实验设计 不考虑个体差异的影响 仅涉及1个处理因素 但个处理因素 但 可以有可以有2个或个或2个以上的水平 将受试对象随机分配到处理组合对照组中 各组的例数可以个以上的水平 将受试对象随机分配到处理组合对照组中 各组的例数可以 相等或不等 分析方法同前 相等或不等 分析方法同前 2 配对设计和配伍组设计 配对设计和配伍组设计 先将受试对象按配比条件配成对子 再按随机化的原则把每对中 先将受试对象按配比条件配成对子 再按随机化的原则把每对中 的受试对象分配到实验组和对照组中 通常以影响实验效应的主要处理因素为配对条件 医的受试对象分配到实验组和对照组中 通常以影响实验效应的主要处理因素为配对条件 医 学实验中的自身对照也是配对设计 但容易产生混杂影响 最好设立平衡对照 配伍组设计 学实验中的自身对照也是配对设计 但容易产生混杂影响 最好设立平衡对照 配伍组设计 亦称随机区组设计 是配对设计的扩大 亦称随机区组设计 是配对设计的扩大 分析方法 分析方法 配对设计 如果各对的观察值的差值服从均数为配对设计 如果各对的观察值的差值服从均数为0的正态分布 用配对设计的的正态分布 用配对设计的t检验 否检验 否 则用配对设计的秩和检验 则用配对设计的秩和检验 配伍组设计 满足方差分析条件的用方差分析 不满足的经变量变换后也可以用 仍达不配伍组设计 满足方差分析条件的用方差分析 不满足的经变量变换后也可以用 仍达不 到要求的用配伍组设计的秩和检验 到要求的用配伍组设计的秩和检验 3 交叉设计 是在自身配对设计基础上发展起来的双因素设计 该设计考虑了 1 个处理因素 此因素有两个水平 A B 并且还考虑了 2 个与处理因素无交互作用的非处理因素对实验 效应的影响 适用条件及应注意的问题 处理因素只有 2 个水平 A B 且 2 个非处理因素 实验阶段 受试对象 与处理因素 之间无交互作用 两个实验阶段之间要安排一定的间隔时间 以便消除前一阶段治疗措施的残留效应 保证 两个阶段的起始条件一样 两次观察的时间不能过长 处理效应不能持续过久 适用于病情较稳定 病程可以分阶段 短期治疗可见疗效的疾病 为消除患者的心理作用或防止研究者的暗示 一般多采用盲法 分析方法 符合方差分析条件的应用方差分析 不符合的经变量变换后也可以用 仍达不到 要求的用秩和检验 方差分析将总变异分为 4 部分 受试者间 阶段间 处理间和误差 4 拉丁方设计 拉丁方设计 是按拉丁方阵的字母 行和列安排实验的三因素等水平的设计 考虑了 是按拉丁方阵的字母 行和列安排实验的三因素等水平的设计 考虑了3个个 因素对实验效应的影响 因素对实验效应的影响 基本要求 基本要求 必须是必须是3个因素的实验 且个因素的实验 且3个因素的水平数相等 若不等 以主要的处理因素的水平数个因素的水平数相等 若不等 以主要的处理因素的水平数 为主 其他为主 其他2个进行调整 个进行调整 3个因素是相互独立的 均无交互作用 个因素是相互独立的 均无交互作用 各行 列和字母所得实验数据的方差齐 各行 列和字母所得实验数据的方差齐 设计步骤 设计步骤 根据主要处理因素的水平数确定基本型拉丁方 根据主要处理因素的水平数确定基本型拉丁方 先将基本型拉丁方随机化 然后按随机化后拉丁方阵安排实验 随机化是通过拉丁方的任先将基本型拉丁方随机化 然后按随机化后拉丁方阵安排实验 随机化是通过拉丁方的任 两行或任两列交换位置实现 两行或任两列交换位置实现 规定行 列 字母所代表的因素或水平 通常用字母表示主要的处理因素 规定行 列 字母所代表的因素或水平 通常用字母表示主要的处理因素 分析方法 可用方差分析 将总变异分为列间 行间 字母间和误差分析方法 可用方差分析 将总变异分为列间 行间 字母间和误差4部分 部分 5 析因实验设计 析因实验设计 是一种将 是一种将2个或多个因素的各水平交叉分组安排实验的设计 不仅可以检个或多个因素的各水平交叉分组安排实验的设计 不仅可以检 验各因素内部不同水平间有无差异 还可以检验验各因素内部不同水平间有无差异 还可以检验2个或多个因素间是否存在交互作用 个或多个因素间是否存在交互作用 常用的设计模型有常用的设计模型有析因实验设计 析因实验设计 析因实验设计和析因实验设计和析因实验设计 析因实验设计 22 222 2322 分析方法 可以用方差分析 分析方法 可以用方差分析 析因实验设计 将总变异分为析因实验设计 将总变异分为A间 间 B间 交互作用 间 交互作用 和误差 和误差4部分 部分 22 BA 析因实验设计 将总变异分为析因实验设计 将总变异分为A间 间 B间 间 C间 间 222 BA CA CB 和误差和误差8部分 部分 CBA 回归系数的意义回归系数的意义 1 多元线性回归分析中偏回归系数的意义 在其他自变量保持不变的条件下 自变量 X 改 变一个单位是因变量 Y 的平均该变量 流行病学意义 在其他因素不变的条件下 某因素改变 1 个单位时 疾病或死亡危险性的增 加量 2 Logistic 回归分析中偏回归系数的意义 在其他自变量固定的条件下 第 j 个自变量每改 变一个单位时 Logit p 的改变量 流行病学意义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论