




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
卫生统计学卫生统计学 统计工作基本步骤 统计设计 调查设计和实验设计 资料分析 收集资料 整理资料 分析资料 统计 描述和统计推断 参数估计和假设检验 统计推断 统计推断 是利用样本所提供的信息来推断总体特征 包括 参数估计和假设检验 a 参数估计是指 利 用样本信息来估计总体参数 主要有点估计 把样本统计量直接作为总体参数估计值 和区间估计 按预 先设定的可信度 1 来确定总体均数的所在范围 b 假设检验 是以小概率反证法的逻辑推理来判 断总体参数间是否有质的区别 变量资料可分为定性变量 定量变量 不同类型的变量可以进行转化 通常是由高级向低级转化 资料按性质可分为计量资料 计数资料和等级资料 定量资料的统计描述定量资料的统计描述 1 频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法 离散型离散型定量变量的频率分布图可 用直条图直条图表达 2 频率分布表 图 的用途 描述资料的分布类型 描述分布的集中趋势和离散趋势 便于发现一 些特大和特小的可疑值 便于进一步的统计分析和处理 当样本含量足够大时 以频率作为概率的估 计值 3 集中趋势和离散趋势是定量资料定量资料中总体分布的两个重要指标 1 1 描述集中趋势的统计指标 描述集中趋势的统计指标 平均数 算术均数 几何均数和中位数 百分位数 是一种位置参数 用于确定医学参考值范围 P50就是中位数 众数 算术均数 适用于对称分布资料 特别是正态分布资 料或近似正态分布资料 几何均数 对数正态分布资料 频率图一般呈正偏峰分布 等比数列 中位数 适用于各种分布的资料 特别是偏峰分布资料 也可用于分布末端无确定值得资料 2 2 描述离散趋势的指标 描述离散趋势的指标 极差 四分位数间距 方差 标准差和变异系数 四分位数间距 适用于各 种分布的资料 特别是偏峰分布资料 常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋 势 方差和标准差 都适用于对称分布资料 特别对正态分布资料或近似正态分布资料 常把均数和标准 差结合起来描述资料的集中趋势和离散趋势 变异系数 主要用于量纲不同时 或均数相差较大时变量间 变异程度的比较 标准差的应用 标准差的应用 表示变量分布的离散程度 结合均数计算变异系数 描述对称分布资料 结合样本 含量计算标准误 定性资料的统计描述 1 定性资料的基础数据是绝对数 描述一组定性资料的数据特征 通常需要计算相对数 定性变量可以通 过频率分布表描述其分布特征 2 常用相对数类型 频率型 强度型和相对比型指标 指标频率型指标强度型指标相对比型指标 概念近似反映某一时间出现概率单位时间内某现象的发生 频率 两个有关联的指标 A 和 B 之比 计算 公式 A B 有无 量纲 无有可有 可无 取值 范围 0 1 可大于 1无限制 本质大样本时作为概率近似值 分子式分母的一部分 频率强度 即概率强度的 近似 值 表示相对于 B 的一个单位 A 有多少个 单位 A 和 B 可以是绝对数 相对数和平均数 A 和 B 的量纲可相同也可不同 A 和 B 互不包含 相对比 A B 两指标可以是绝对数 相对数或平均数 最常见的相对比是人口学中的男女性别比 流行病 学中的相对危险度 RR P1 P0也是相对比指标 3 应用相对数应该注意 防止概念混淆 避免以比代率的错误现象 防止概念混淆 避免以比代率的错误现象 计算相对数时分母应有足够数量计算相对数时分母应有足够数量 如果例数较少会使相对数波动较大 应该使用绝对数 正确的计算频率 或强度 指标的合计值 正确的计算频率 或强度 指标的合计值 当分 组的资料需要合并起来估计频率 或强度 时 应将各组频率的分子相加作为合并估计的分子 各组的分 母相加作为合并估计的分母 频率型指标的解释要紧扣总体和属性 频率型指标的解释要紧扣总体和属性 相对数间比较要具备可比性 相对数间比较要具备可比性 要 注意观察对象是否同质 研究方法是否相同 观察时间是否一致 观察对象内部结构是否一致 对比不同 时期资料应注意客观条件是否相同 正确进行相对数的统计推断 正确进行相对数的统计推断 在随机抽样的情况下 从样本估计值 推断总体相对数应该考虑抽样误差 因此要进行参数估计和假设检验 4 医学人口统计资料主要来源为日常工作记录 报告单 卡 册 统计报表 人口调查 普查和抽样调查 5 描述人口学特征的常用指标一般有人口总数和反映人口学基本特征的某些指标 人口学的基本特征包括 性别 年龄 文化 职业等 最常用来描述人口结构的是性别和年龄 人口学特征指标 老年人口系数 少儿人口系数 负担系数 老少比 性别比 6 有关生育的常用指标有出生率 生育率和人口再生产指标 测量生育水平的统计指标 粗出生率 总生 育率 年龄别生育率 总和生育率 测量人口再生育的统计指标 自然增长率 粗再生率和净再生率 7 常用的死亡统计指标有 粗死亡率 年龄别死亡率 婴儿死亡率 新生儿死亡率 围生儿死亡率 死因 别死亡率 某病病死率和死因构成等 8 疾病统计资料主要来源于 疾病报告和报表材料 医疗卫生工作记录 疾病专题调查资料 9 标准化 两个率或多个率之间进行比较时 为消除内部构成不同的影响 采用统一的标准 对两组或 多组资料进行校正 调整 计算得到标准化率后再做比较的方法 称为 其目的是统一内部构成 消除 混杂因素 是资料具有可比性 应用标准化法的注意事项 标准化法的应用范围很广 当某个分类变量在两组中分布不同时 这两个分类变量就成为两组频率比 较 的混杂因素 标准化的目的是消除混杂因素标准化的目的是消除混杂因素 标准化后的标准化率 已经不再反映当时当地的实际水平 只表示相互比较的资料间的相对水平 标准化法实质是找一个标准 使两组得意在一个共同的平台上进行比较 选择不同的标准 算出的标 准 化率也会不同 比较的结果也未必相同 因此报告比较结果时必须说明所选用的标准和理由 两样本标准化率是样本值 存在抽样误差 比较两样本标准化率 当样本含量较小时 还应作假设检验 1010 常用的动态数列分析指标有 常用的动态数列分析指标有 绝对增长量 发展速度与增长速度 平均发展速度与平均增长速度 1 绝对增长量 是说明事物在一定时期增长的绝对值 可分为 累计增长量 报告期指标与基线期指 标之差 和逐年增长量 报告期指标与前一期指标之差 2 发展速度与增长速度 均为相对比 说明事物在一定时期的变化 可计算定基比 即报告期指标与 基线期指标的比 an a0 和环比 报告期指标与其前一期指标之比 an an 1 增长速度表示的是净增长 速度 增长速度 发展速度 100 3 平均发展速度与平均增长速度 用于概括某现象在一段时期中的平均变化 平均发展速度是发展速 度的几何平均数 平均发展速度 平均增长速度 平均发展速度 100 n a an 0 11 统计表和统计图是描述资料特征 呈现统计分析结果的重要工具 统计表结构标题 标目 线条 数字 和备注 12 常用统计图用途 条图 适用于相互独立的资料 资料有明确分组 不连续 百分条图 圆图适 用于构成比资料 线图适用于连续性资料 表达事物的动态变化 绝对差值 半对数线图适用于连续 性资料 表达事物的发展速度 相对比 直方图用于描述连续变量的频数分布 散点图适用于双变 量资料 用点的排列趋势和密集度表示两变量的相关关系 常用概率分布常用概率分布 1 1 正态分布 连续型随机变量的概率分布 正态分布 连续型随机变量的概率分布 1 正态概率密度曲线特点 关于 x 对称 在 x 处取得该概率密度函数的最大值 在 x 处有拐点 曲线下面积为 1 正态分布有两个参数 位置参数 决定曲线在横轴上的位置 和变异参数 决定曲线的形状 1 64 面积为 90 1 96 面积为 95 2 58 面 积为 99 2 Z 变换与标准正态分布 对于任意一个服从正态分布 N 2 的随机变量 可作 Z 变 Z 变换后的 z 值仍然服从正态分布 且其总体均数为 0 总体标准差为 1 称此为标准正态分布标准正态分布 用 x N 0 1 表示 z 为标准正态分布 Z 变量的累积面积 Z 的面积 即下侧累计面积下侧累计面积 3 正态分布的应用 确定医学参考值范围 是指特定的 正常 人群 排除了对所研究的指标有 影响的的疾病和有关因素的特定人群 的解剖 生理 生化指标及组织代谢产物含量等数据中大多数个体 的取值所在范围 习惯用该人群的 95 的个体某项医学指标的取值范围作为该指标的医学参考值范围 方方 法法 a 百分位数法 适用于任何分布类型的资料 b 正态分布法 质量控制图 如果某一波动仅仅由个 体差异或随机测量误差所致 那么观察结果服从正态分布 控制图共有 7 条水平线 中心线位于总体均数 处 警戒限位于 2 处 控制限位于 3 处 此外还有两条位于 处 4 确定医学参考值的步骤 从 正常人 总体中抽样 明确研究总体 用统一和准确的方法测 定相应的指标 根据不同的用途选定适当的百分界限 常用 95 根据此指标的实际意义 决定单侧 范围 还是双侧范围 根据此指标的分布决定计算方法 常用的计算方法 正态分布法 百分位数法 2 2 二项分布 二项分布 1 是一种离散型随机变量离散型随机变量的分布类型 如果每个观察对象阳性结果的发生概率为 阴性结果的发生概 率为 1 而且每个观察对象的结果是相互对立的 那么 重复观察 n 个人 发生阳性结果的人数 X 的概率分布为而二项分布 记作 B n 二项分布的概率函数 P X 1 n x x n C Xx n C n XnX 适用条件 每次实验只有两种互斥互斥的结果 各次实验互相独立独立 发生成功事件的概率恒定概率恒定 分布特征 二项分布的特征由二项分布的参数 以及观察的次数 n 决定 图形分布特征 二项分布图的高峰在 n 处或附近 0 5 时 图形对称 0 5 时 分布不对 称 且对同一 n 离 0 5 愈远 对称性愈差 对于同一 随着 n 的增大 分布趋于对称 当 n 时 只要 不太靠近 0 或 1 特别是当 n 和 n 1 均大于 5 时 二项分布趋于对称 二项分布的均数和标准差 若 X 服从二项分布 B n 则 X 的总体均数为 n 总体方差为 2 n 1 总体标准差为 若将出现阳性结果的频率记为 P 则样本率 P 的总体均数为 P 总体方差为 1n n X 总体标准差为 p p是频率 P 的标准差 又称频率的标准误 反映阳 2 p n 1 n 1 性频率的抽样误差大小 累积概率计算 二项分布出现阳性的次数至多为 k 次的概率为 P X k X X XnX n nx k 0 1 出现阳性的次数至少为 k 次的概率为 P X k X kX XnX n nx n 1 3 3 PoissonPoisson 分布 分布 是一种离散型随机变量离散型随机变量的分布类型 是二项分布的特例 用以描述单位时间 空间 面积等的罕见事件 发生次数的概率分布 一般记作 P 是是 PoissonPoisson 分布的唯一参数分布的唯一参数 总体均数为总体均数为 n n 前提条件 互斥 独立 恒定 概率函数为 P X e X 为观察单位内稀有事件的发生次数 e 2 71828 X X 分布特性 Poisson 分布是非对称的 总体参数 值越小 分布越偏 随着 分布趋于对称 当 20 时 Poisson 分布资料可按正态分布处理 Poisson 分布总体均数与总体方差相等 均为 Poisson 分布的观察结果可加性 即对于服从 Poisson 分布的 m 歌互相独立的随机变量 X1 X2 Xm 它们的和也服从 Poisson 分布 其均数为这个 m 随机变量的均数之和 4概率计算 如果稀有事件发生次数的总体均数为 有事件发生次数至多为 k 次的概率为 P X k 生次数至少为 k 次的概率 P X k 1 P X k 1 0 X e X k X 4 4 三种常用分布之间的关系 三种常用分布之间的关系 二项分布与 Poisson 分布的关系 当 n 很大 发生概率 或 1 很小 二项分布 B n 近似 于 Poisson 分布 P n 二项分布与正态分布的关系 当 n 较大 不接近 0 或 1 特别是当 n 和 n 1 均大于 5 时 二 项分布 B n 近似于正态分布 N n n 1 Poisson 分布与正态分布的关系 当 20 时 Poisson 分布渐进正态分布 N 5 5 二项分布与二项分布与 PoissonPoisson 分布的区别 分布的区别 相同点 都是离散型随机变量的常见分布 区别 a 取值不同 服从二项分布的随机变量有 n 1 个不同的取值 Poisson 分布的随机变量的可能去 只有无限多个 即非负整数 0 1 2 b 随机变量的概率不同 二项分布 P X k Poisson 分布 P X k e c 描述的随机变量不同 二项分布描述的是一次 k n 1 k knk n k k 试验只会出现两种对立的结果之一 n 次独立重复试验中某种结果出现次数的概率分布 Poisson 分布描 述的是在单位时间 面积 空间等范围中某种事件发生数的概率分布 联系 B n Poisson 分布 很大 很小n 参数估计参数估计 1 在服从正态分布的总体中进行随机抽样 样本均数的抽样分布特点 各样本均数未必等于总体均数 样本均数见存在差异 样本均数围绕总体均数 中间多 两边少 左右基本对称 呈近似正态分布 样本均数间的变异明显小于原始变量间的变异 2 2 标准误 标准误 均数的标准误的理论值 总体标准差 通常未知 需用样本标准差 S 来估计 均数标准误 X n 的估计值为 S 频率的标准误 若随机变量 X B n 则样本频率 P 的总体概率为 X n s n X 标准误是 p 频率标准误的估计值 SP 增加样本含 n 1 1 1 n pp n pp 1 量可以减少样本误差 3 3 标准差与标准误的区别与联系 标准差与标准误的区别与联系 区别 区别 标准差 S 意义 描述个体观察值变异程度的大小 标准差小 均数对一组观察值得代 表性好 应用 与结合 用以描述个体观察值的分布范围 常用于医学参考值范围的估计 与 n 的X 关系 n 越大 S 越趋于稳定 标准误 S 意义 描述样本均数变异程度及抽样误差的大 XX 小 标准误小 用样本均数推断总体均数的可靠性大 应用于结合 用以估计总体均数可能出现的X 范围以及对总体均数作假设检验 与 n 的关系 n 越大 S越小 X 联系 联系 都是描述变异程度的指标 由 S 可知 S与 S 成正比 n 一定时 s 越大 S越大 X n s XX 4 4 t t 分布 分布 当 X 服从均数为 的正态分布时 统计量服从自由度为 v n 1 的 t 分布 是小样本 ns X t 总体均数的区间估计及假设检验的理论基础 t 分布的图形特征 t 值得分布于自由度有关 t 分布只有一个参数即 v 特征 单峰分布 以 0 为中 心 左右对称 v 越小 t 值越分散 曲线的峰部越矮 尾部越高 随着 v 逐渐增大 t 分布逐渐接 近标准正态分布 当 v 趋向 时 t 分布趋近标准正态分布 故标准正态分布是 t 分布的特例 t 分布 是一簇曲线 t 界值表 在自由度相同时 值越大 t 分布的尾部概率越小 在 t 临界值相同时 双侧尾部面t 积概率为单侧尾部面积概率的两倍 5 5 参数估计 参数估计 包括点估计和区间估计 置信区间的两个要素 置信区间的两个要素 准确度 反映置信度 1 的大小 及区 间包括总体均数 的理论概率的大小 愈接近 1 越好 精密度 即区间的宽度 区间越窄越好 如样 本含量不变 将置信度由 95 提高到 99 则置信区间由窄变宽 估计的精度下降 6 6 总体均数及总体概率的区间估计 总体均数及总体概率的区间估计 1体均数的置信区间 t 分布法和正态近似法 I t 分布法 当 未知且 n 较小时 总体均数 的双侧 1 置信区间为 tS 单侧X v 2 X tS 或 tS X v X X v X II 正态近似法 当 已知时 总体均数 的双侧 1 置信区间为 Z 单侧 X v 2 X X Z 或 Z 当 未知但 n 足够大时 n 50 t 分布近似服从标准正态 v X X v X 分布 总体均数 的双侧 1 置信区间为 ZS 单侧 Z S 或 X v 2 X X v X Z S X v X 总体概率的置信区间 对于二项分布的样本资料 可根据样本含量 n 和样本频率 p 的大小 选用查表法 n 50 特别是 p 很接近 0 或 100 时 或正态近似法估计总体概率 的 1 置信区间 正态近似法 当 n 足够大 且 np 及 n 1 p 均大于 5 时 p 的抽样分布近似正态分布 总体概率 的双侧 1 置信区间等于 P ZSp 2 7 7 医学参考值范围与总体均数的置信区间的区别 医学参考值范围与总体均数的置信区间的区别 参考值范围 意义 绝大多数人某项指标的数值范围 计算 正态分布 双侧 ZS 单侧 Z S 或 Z S X v 2 X X 偏峰分布 双侧 PX P100 X 单侧 PX 或 P100 X 应用 判断某项指标正常与否 总体均数的置信区间 意义 按一定的置信度估计总体均数所在范围 计算 正态分布 未知 双侧 tS 单侧 tS 或 tS X v 2 X X v X X v X 已知 双侧 Z 单侧 Z 或 Z X v 2 X X v X X v X 正态分布或偏峰分布 未知但 n 足够大 双侧 ZS 单侧 Z S 或X v 2 X X v X Z S X v X 应用 估计总体均数所在范围 假设检验假设检验 1 1 假设检验的过程 假设检验的过程 建立检验假设 确定检验水准 计算统计量 确定 P 值并与给定的 比较 做出推断 结论 2 2 假设检验的基本逻辑 假设检验的基本逻辑 在 H0成立的条件下 处理因素不起作用 计算统计量和 P 值 把 不太可能出 现假阳性 当作 不可能出现假阳性 从而拒绝 H0 接受 H1 处理因素起作用 3 3 假设检验的两类错误 假设检验的两类错误 型和 型错误 见名解 实际情况 统计推断 拒绝 H0 有差异 不拒绝 H0 无差异 H0成立 无差异 第 类错误 假阳性 概率 正确 概率 1 H1成立 有差异 正确 该概率 1 第 类错误 假阴性 概率 4t4t 检验 检验 应用条件 随机样本 来自正态分布总体 均数比较时 要求两总体方差相等 方差齐性 单样本资料的单样本资料的 t t 检验 检验 实际上是推断该样本来自的总体均数 与已知的某一总体均数 0有无差别 检验假设 H0 0 H1 0 前提条件 样本来自正态总体 计算公式 自由 v ns X t 0 n 1 配对设计资料的配对设计资料的 t t 检验 检验 配对资料的分析着眼与每一对中两个观察值之差 这些差值构成一组资料 用 t 检验推断差值总体均数是否为 0 检验假设 H0 d 0 H1 d 0 前提条件 差值服从正态分布 计算公式 ns d ns d s d t ddd d 0 自由度 v n 1 n 是对子数 两独立样本资料的两独立样本资料的 t t 检验 检验 两样本均数的比较 检验假设 H0 H1 前提条件 两样本服从正态分布 且具有方差齐性 计算公式 1 2 1 2 代表两样本均数之差的标准误 S 为两样本联合估 21 21 XX S XX t 21 XX S 21 2 11 21 nn SS C XX 2 c 计的方差 自由度 2 11 21 2 22 2 112 nn SnSn Sc 2 21 2 22 2 11 nn XXXX 2 21 nn 5 5 检验 检验 前提条件 两小样本来自正态总体且方差不等 方差不齐 可采用的处理方式有 检验 基 t t 于秩次的非参数检验和数据变换 非正态分布 方差不齐 基于秩次的非参数检验和数据变换 检验假设 H0 H1 计算公式 自由度 1 2 1 2 2 2 2 1 2 1 21 n S n S XX t 11 2 4 1 4 2 22 21 21 n S n S SS XX XX 6 6 两组独立样本资料的方差齐性检验 两组独立样本资料的方差齐性检验 两组正态分布随机样本判断其总体方差是否齐同 当 H0 成立时 检验统计量 2 2 2 11 2 2 2 10 HH 较小 较大 2 2 2 1 S S F 1 1 2211 nn 当 F 3 时 方差不齐 7 7 大样本资料的大样本资料的 Z Z 检验 检验 u u 检验 检验 前提条件 样本足够大 两独立样本资料的 Z 检验 假定从两个正态 总 体 或非正态 总体随机抽取含量为 n1 和 n2 的样本 总体均数和方差分别为 当 n1 和 2 22 2 11 和 n2 均较大时 两样本均数的和与差的分布也服从 或近似服从 正态分布 21 XX 2 2 2 1 2 1 21 nn N 当 H0 成立时 这个统计量服从标准正态分布 210 H 2 2 2 1 2 1 21 n S n S XX Z t t 检验与检验与 Z Z 检验的比较 检验的比较 两样本均数比较的 t 检验适用条件为 样本含量小 两样本独立 来自正态总 体 且两总体方差相等 Z 检验是大样本情况下的 t 检验的近似 用于两总体方差已知 或总体方差未知但样 本 含量较大 n1 60 且 n2 60 的两样本均数的比较 样本量较大时 两种检验方法都可用 8 8 假设检验与区间估计的关系 假设检验与区间估计的关系 置信区间具有假设检验的主要功能 在 水准上可回答差别有无统 计 学意义 置信区间可提供假设检验没有提供的信息 根据置信区间上 下限的数值大小可判断差别是否 具有实际意义 假设检验可提供确切的 P 值 置信区间只能在预先确定的置信度 100 1 水平上 进行推断 没有精确的概率值 且有可能增大 类错误 置信区间推断量的大小 即推断总体均数范围 假设检验推断质的大小即推断总体均数是否存在不同 只有把置信区间和假设检验结合起来 互相补充才 是对问题比较的完整分析 9 假设检验的注意事项 根据研究目的 设计类型 变量类型及样本大小选择恰当的统计分析方法 权 衡两类错误的危害以确定 的大小 正确理解 P 值的意义 P 值很小时 拒绝 H0 接受 H1 不能把很 小的 P 值误解为总体参数间差异很大 拒绝 H0只是说差异不为 0 P 值小只是说犯一类错误的机会远小于 P 与 本质相同 都为概率 P 是根据当前实验计算的概率 是预先给定的概率 为检验水准 是 定 义了的小概率上限 实验设计实验设计 1 根据研究者是否认为地设置处理因素 即是否给予干预措施 可将医学研究分为调查研究和实验研究两 类 调查研究 又称观察性研究或非实验性研究 确切的说应是非随机化对比研究 它对研究对象不施加 任 何干预措施 是在完全 自然状态 下对研究对象的特征进行观察 记录 并对观察结果进行描述和对比 研究 实验研究 又称干预性研究 是对研究对象人为给予干预措施的研究 2 实验设计的基本要素 受试对象 处理因素 实验效应 受试对象 是处理因素作用的客体 根据受试对象不同 实验可以分为三类 动物实验 临床试验 现 场试验 处理因素 是研究者根据研究目的而施加的特定的实验措施 又称为受试因素 实验效应 是处理因素作用下 受试对象的反应或结局 它通过观察指标来体现 选择观察指标时 应当注意 a a 客观性 客观性 客观指标具有较好的真实性和可靠性 b b 精确性 精确性 包括准确度和 精密度两层含义 准确度准确度指观察值与真值的接近程度 主要受系统误差的影响 精密度精密度指相同条件下对同 一对象的同一指标进行重复观察时 观察值与其均数的接近程度 其差值受随机误差的影响 c c 灵敏性和灵敏性和 特异性 特异性 指标的灵敏度灵敏度反映其检出真阳性真阳性的能力 灵敏度高的指标能将处理因素的效应更好地显示出来 指标的特异度特异度反映其鉴别真阴性真阴性的能力 特异度高的指标不易受混杂因素的干扰 3 实验设计的基本原则 对照 随机化和重复 对照的形式 安慰剂对照 目的 在于克服研究者 受试对象等由心理因素导致的偏倚 空白对照 即对照组不接受任何处理 在动物实验和实验方法研究中最常见 常用于评价测量方法的准确度 评价实 验是否处于正常状态等 实验对照 标准对照 用现有标准方法或常规方法作为对照 自身对照 对照与实验在同一受试对象身上进行 a 随机化体现在三方面 随机抽样 随机抽样 总体中每一个体都有相同机会被抽到样本中来 随机分配 随机分配 每 个受试对象被分配到各组的机会相等 保证大量难以控制的非处理因素在对比组间尽可能均衡 以提高组 间的可比性 实验顺序随机 实验顺序随机 每个受试对象先后接受处理的机会相等 它使实验顺序的影响也达到均衡 b 在实验设计中常通过随机数来实现随机化 获得随机数的常用方法有 随机数字表和计算机的伪随机数 发生器 随机数字表常用于抽样研究及随机分组 c 常用的两种随机化分组的方法 完全随机化和分层随机化 配对随机化和区组随机化可看成是分层随机 化的实际应用 重复包括三种情形 整个实验的重复 用多个受试对象进行重复 同一受试对象的重复观察 重 复的主要作用 估计变异的大小 降低变异大小 4 常用的实验设计方案 完全随机设计完全随机设计 completely randomized design 又称简单随机设计 是最为常见的一种考察单因素 两水平或多水平效应的实验设计的方法 它是采用完全随机分组的方法将同质的受试对象分配到各处理组 观察其实验效应 配对设计配对设计 paired design 是将受试对象按一定条件配成对子 再将每对中的两个受试对象随机分 配到不同的处理组 据以配对的因素应为可能影响实验结果的主要混杂因素 配对设计主要有以下情形 将两个条件相同或相近的受试对象配成对子 通过随机化 使对子内个体分别接受两种不同的处理 同一受试对象的两个部分配成对子 分别速记地接受两种不同的处理 自身前后配对 即同一受试对象 接受某种处理之前和接受该处理后视为配对 交叉设计交叉设计 cross over design 是一种特殊的自身对照设计 它按事先设计好的实验次序 在各个 时期对受试对象先后实施各种处理 以比较处理组间的差异 基本前提 基本前提 个处理方式不能相互影响 即受 试对象在接受第二种处理时 不能有前一种处理的剩余效应 优点 优点 节约样本含量 能够控制个体差异和 时间对处理因素的影响 故效率较高 在临床试验中 每个受试对象均接受了各种处理 均等的考虑了每 个患者的利益 进行交叉设计应注意 进行交叉设计应注意 尽可能采用盲法 以提高受试对象的依从性 避免偏倚 不宜用于 具有自愈倾向或病程较短的疾病研究 在慢性病观察过程中 应尽量保持条件的可比性 随机区组设计 随机区组设计 又称单位设计 配伍组设计 实际上是配对设计的扩展 通常是将受试对象按性质相同 或相近分为 b 个区组 或称单位组 配伍组 再将每个区组中的 k 个受试对象随机分配到 k 个处理组 设计应遵循 区组间差别越大越好 区组内差别越小越好 的原则 析因设计 析因设计 factorialfactorial designdesign a a 是将两个或多个处理因素的个水平进行组合 对各种可能的组合都 进行实验 从而探讨个处理因素的主效应以及个处理因素间的交互效应 又称完全交叉分组实验设计 所 谓交互作用交互作用是指两个或多个处理因素间的效应互不独立 当某一因素取不同水平时 另一个或多个因素的 效应相应的发生变化 两因素间的交互作用为一阶交互作用 三因素间交互作用为二阶交互作用 b 当观察 k 个处理因素 每个因素均有 m 个水平时 共有 mk种组合 简记为 mk析因设计 c 可获得三方面的信息 各因素不同水平的效应 各因素间的交互作用 通过比较寻求最佳组合 5 样本含量的估算 确定样本含量的原则 在保证研究结论有一定可靠性的前提下 估算最少需要多少受试对象 假设检验所需样本含量取决于四个要素 假设检验所需样本含量取决于四个要素 第一类错误概率 的大小 越小 所需样本量越大 第二类错误概率 或检验功效 1 的 大小 第二类错误的概率越小 检验功效越大 所需样本含量越多 容许误差 即两总体参数的的差值 越大 所需样本含量越小 总体标准差 和总体概率 越大 所需样本含量越多 总体概率 越接近 50 变异性越大 所需样本含量越多 方差分析方差分析 1 1 基本思想 基本思想 把全部观察值间的变异按设计和需要分解成两个或多个组成部分 然后将各部分的变异与随 机误差进行比较 以判断各部分的变异是否具有统计学意义 2 2 应用条件 应用条件 各样本是相互独立的随机样本 各样本来自正态总体 各处理组总体方差相等 即方 差齐性 3 任何设计方案的 SS总和 v总算法均相同 即在不考虑数据按任何方向分组的情况下 将所有数据看成一 个整体计算 即 SS N 1 S2 v N 1 总 2 XX 总 几种设计方案中 SS和 v的分解 总总 设计方案 SS的分解 v 总总 完全随机设计 SS SS组间 SS组内 v v组间 v组内 总总 随机区组设计 SS SS处理 SS区组 SS误差 v v处理 v区组 v误差 总总 析因设计 SS SS处理 SS误差 v v处理 v误差 总总 SSA SSB SSAB SS误差 vA vB vAB v误差 重复测量设计 两因素 SS SS受试对象间 SS受试对象内 v v受试对象间 v受试对象内 总总 SS处理 SS个体间误差 v处理 v个体间误差 SS时间 SS处理与时间交互 SS个体内误差 v时间 v处理与时间交互 v个体内 误差 4 4 重复测量资料和随机区组设计资料的区别 重复测量资料和随机区组设计资料的区别 同一受试对象在不同时间点的数据高度相关 重复测量 资料中的处理因素在受试对象 看成区组 间为随机分配 但受试对象 看成区组 内的各时间点是固定 的 不能随机分配 随机区组设计资料中每个区组内的受试对象彼此独立 处理只在区组内随机分配 同 一区组内的受试对象接受的处理各不相同 5 5 重复测量资料方差分析的前提条件 重复测量资料方差分析的前提条件 各样本是相互独立的随机样本 各样本来自正态总体 各处 理组总体方差相等 即方差齐性 需满足协方差阵的球形性或复合对称性 6 6 多各样本均数的两两比较方法 多各样本均数的两两比较方法 未计划的每两个均数的事后比较 常用 SNK q 检验 计划好的某些 均数间的两两比较 常用 Dunnett t 检验 Bonferroni 法和 sidak 法适用于所有的两两比较 方差分析后不能作两两比较的 t 检验的原因 会增加犯一类错误的概率 如果比较次数为 k 每次检验水 准为 则犯一类错误的累积概率为 1 1 k 高于原有的 7 7 数据变换的目的 数据变换的目的 使各组达到方差齐性 使资料转换为正态分布 以满足方差分析和 t 检验的应用 条件 通常情况下 一种适当的函数转换可使上述两个目的同时达到 曲线直线化 常用于曲线拟合 常用的数据变换有对数变换 平方根变换 平方根反正弦变换 8 8 方差分析中的方差分析中的 F F 检验是单侧检验的原因 检验是单侧检验的原因 方差分析中检验统计量 F 的计算通常是用某部分的均方 如处 理因素 交互效应等 除以误差的均方 其中分母误差部分尽含随机因素作用 分子某部分的均方含有相 应处理因素或交互作用的效应 而且还含有随机因素的作用 因此得 F 值从理论上应 1 不会小于 1 所 以方差分析中 F 检验是单侧检验 检验检验 2 1 1 检验用途 检验用途 常用于分类变量资料的统计推断 主要用途包括 单样本分布的拟合优度 比较两 2 个或多个独立样本频率分布 比较配对设计两样本频率和两频率分布 推断两个变量或特征之间有无 关联性 2 检验的理论基础是 X2分布和拟合优度检验 2 分布 是一种连续型随机变量的概率分布 按分布的密度函数可给出自由度 1 2 3 的一簇一簇 2 分布曲线分布曲线 分布形状完全依赖于自由度 v 的大小 当 v 1 时 随着 v 的增加 曲线逐渐趋于对称 2 当自由度 v 趋于 时 分布逼近正态分布 2 拟合优度检验是根据样本的频率分布检验其总体分布是否等于给定的理论分布 3 3 X X2 2检验的基本思想是 检验的基本思想是 用统计量度量实际频数和理论频数之间的偏离程度 永远是正值 检验统计 2 量的基本公式是 v k 1 s s 是用样本估计量代替总体参数的个数 若假设成立 2 k i i ii T TA 1 2 则各格子的实际频数与理论频数相差不应该很大 因而算出的 X2值也不会很大 即出现较大值的概率 2 P 很小 若 P 则认为 A 与 T 的差别已超出了抽样误差允许的范围 拒绝 H0 若 P 不拒绝 H0 4 4 独立样本独立样本 2 22 2 列联表资料的列联表资料的检验 检验 2 H0 两总体率相等 H1 两总体率不等 n 40 且 Tmin 5 v 1 2 T TA 2 2 dbcadcba nbcad 2 n 40 且 1 T 5 校正公式 v 1 2 T TA 2 5 0 2 dbcadcba nnbcad 2 2 n 40 或 T 1 或 P 时 Fisher 精确概率法 5 5 独立样本独立样本 R CR C 列联表资料的列联表资料的检验 检验 多个独立样本率 独立样本频率分布的比较 2 H0 多个总体率相等 H1 多个总体率不等 n v R 1 C 1 2 1 2 CR RC mn A 要求 理论频数不宜太小 一般不宜有 1 5 以上的格子的理论频数小于 5 或不宜有一个理论频数小于 1 否则可能会产生偏性 如果不满足此要求 处理方法有 增加样本含量 首选 结合专业知识考 虑是否可以将该格所在行或列与别的行和列合并 要根据样本特性来确定 但会损失信息 改用 R C 表 Fisher 精确概率法 可以用计算机软件实现 R CR C 列联表的分割 列联表的分割 多个实验组间的两两比较 分析目的为k个实验组间 任两个率均进行比较时 须进行次独立的四 2 k 格表检验 再加上总的行 列表资料的检验 共次检验假设 故检验水准用下式估计 2 2 1 2 k 为样本率的个数 实验组与同一个对照组的比较 分析目的为各实验 1 2 k k 2 2 2 k k k 组与同一个对照组的比较 而各实验组间不须比较 其检验水准 用下式估计 1 2 k 6 6 配对设计资料的配对设计资料的 X X2 2检验 检验 配对 2 2 列联表资料的 X2检验 两种处理方法阳性率的比较 H0 两总体阳性率相等 H1 两总体阳性率不等 当 b c 40 时 v 1 当 b c50 用 Z 检验 注意事项 编秩时遇差值为 0 舍去 n 随之减小 遇有差值的绝对值相等 符号相同 仍按顺序编秩 符号不同 取其平均秩次 T T n n 1 2 4wilcoxon4wilcoxon 秩和检验 秩和检验 目的是推断连续型变量资料或有序变量资料的两个独立样本代表的两个总体分布是否有差别 方法要点 将两组数据由小到大同一编秩 以样本列数小者为 n1 其秩和为 T 查 T 界值表确定 P 值 正态近似法 当 n1 10 或 n2 n1 10 时 T 分布接近均数为 n1 N 1 2 方差为 n1 n2 N 1 2 的正态 分布 可用 Z 检验 注意事项 编秩中若有相同的数据在同一组则依次编秩 若相同数值在不同组内 求平均秩次 当 相持出现较多时 超过 25 需使用校正公式 基本思想 假设含量为 n1与 n2的两个样本 且 n1 n2 来自同一总体或分布相同的两个总体 则 n1样 本的秩和 T1 与其理论秩和 n1 N 1 2 相差不大 即 T n1 N 1 2 仅为抽样误差所致 当二者相差悬 殊 超出抽样误差可解释的范围时 则有理由怀疑该假设 从而拒绝 H0 5Kruskal Wallis5Kruskal Wallis H H 检验 检验 目的 用于推断定量变量或有序分类变量的多个总体分布有无差别 方法要点 先将 k 组数据由小到大同一编秩 求出各组秩和 Ri 计算检验统计量 H 当组数 k 3 且 各组例数 ni 5 时 查 H 界值表确定 P 值 若 k 3 或最小样本例数大于 5 则 H 统计量近似服从 v k 1 的 分布 2 注意事项 编秩中若有相同的数据在同一组则依次编秩 若相同数值在不同组内 求平均秩次 当 相持出现较多时 超过 25 需使用校正公式 当结论为拒绝 H0 认为多组处理效应不全相同时 常 需进一步作多个样本的两两比较的秩和检验 两变量关联性分析两变量关联性分析 1 1 相关系数的意义及计算 相关系数的意义及计算 相关系数 的方差的方差 的协方差和 YX YX 总体相关系数 若 0 称 X 和 Y 线性相关 若 0 则简称 X 和 Y 不相关 样本协方差是离均差 乘积在样本中的平均 离均差在总体中的平均就是总体协方差 样本相关系数 是两个随机变量之间线性相关强度和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文档编写与项目管理模板大全
- 工业自动化设备采购与使用协议
- 咨询流程自动化实施-洞察及研究
- 2025年股权激励合同在中国私募股权投资基金的产生、发展与特点
- 2025装饰材料常规购销合同(瓷砖地板类)
- 安保军事培训课件
- 以春节的作文一年级10篇
- 专四题目网站大全及答案
- 化工厂焊工安全培训课件
- 描写秋天的作文初一14篇范文
- 2025年部编版新教材语文九年级上册教学计划(含进度表)
- 食堂工作人员食品安全培训
- (高清版)DB11∕T 2440-2025 学校食堂病媒生物防制规范
- JJF1101-2019环境试验设备温度、湿度校准规范-(高清现行)
- 人教版新教材高中物理实验汇总及答案详解
- 中班语言《大狮子和小老鼠》课件
- TSG11-2020 锅炉安全技术规程
- 物业小区绿化服务程序
- 资助业务工作培训
- 《足球运动发展史》PPT课件
- IPQAM调制器操作说明书(共36页)
评论
0/150
提交评论