




已阅读5页,还剩84页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医药常用统计方法与统计图表 中国药科大学生物统计与计算药学研究中心 主要内容 统计基本概念 1 假设检验 2 常用统计方法 3 统计图表 4 一 统计基本概念 医学统计工作的内容统计工作贯穿医学研究中的全过程 医学研究中的统计工作包括 研究设计数据搜集数据整理数据分析 医学统计工作的内容 研究设计设计一般包括专业设计和统计设计 专业设计即确定调查题目 内容等 统计设计包括资料收集 整理与分析 实验三要素 处理因素 受试对象 实验效应设计四原则 对照 随机化 重复 盲法 搜集资料 按照设计要求 原则是及时 准确 完整地收集原始数据 数据来源 病历 日常医疗工作记录 临床检查与化验记录 疾病监测报表 专题研究数据整理 对数据进行清理 改错 数量化数据分析 统计描述 统计推断 一 统计基本概念 常用概念A 同质与变异在调查研究或实验研究中 除了直接关注的影响因素外 其他非研究因素也会影响研究结果 为了突出研究因素的作用 需要使各比较组之间非研究因素尽可能相同 即同质即使非研究因素控制在相同条件下 个体的观察值之间也会有所不同 这种差异叫做变异 B 总体与样本根据研究目的确定的同质研究对象的全体称为总体按随机化原则从总体中抽取的部分研究对象称为样本 C 抽样和抽样误差抽样是指从总体选取样本的过程 抽样的目的是用样本信息来推断总体特征由于抽样所造成的样本指标与总体指标的差异称为抽样误差 D 概率和小概率事件概率 probability 是反映某一事件发生的可能性的大小 常用符号P表示 其值在0和1之间 概率等于1的事件是必然事件 概率等于0的事件是不可能事件 随机事件的概率小于1 而大于0 小概率事件习惯上是指P 0 05的事件 E 变量类型定量变量也称数值变量 根据变量的取值之间有无缝隙 将定量变量分为连续变量和离散变量定性变量也称分类变量 根据变量类别之间是否有顺序 等级 大小关系 将定性变量划分成有序变量和名义变量 二 假设检验 在临床研究中常常需要判断两种疗效有无显著差异 从而选择临床最优治疗方案 需用到假设检验 亦称显著性检验基本思想对所估计的总体先提出假设 原假设 再用适当的统计方法确定假设成立的可能性大小 若可能性小 则认为假设不成立 若可能性大 不能认为假设不成立小概率事件在一次试验中基本不会发生 统计检验 假设检验 步骤 1 建立假设检验 确定检验水平H0 无效假设 即假设两个X所属总体相同 表达为 1 2H1 备择假设 即假设两个X所属总体不同 表达为 1 2 检验水平 通常取5 表达为 0 05 2 计算统计量t 当样本含量n 100时 或U 当样本含量n 100时 3 确定概率值 P值 通过t与t0 05 查表可得 比较 或U与1 96 U0 05 比较 4 根据统计推断结果 结合相应的专业知识 给出结论 假设检验分类 参数检验单样本t检验两独立样本t检验两配对样本t检验多样本均值检验非参数检验符号检验秩和检验Pearson检验Kolmogorov Smirnov检验 以单样本t检验为例例 正常人血清无机磷总体均数为4mg dl 某地随机抽取16个成人慢性肾炎患者 检查得血清无机磷均数为5mg dl 标准差为1 6mg dl 问该地成人慢性肾炎患者的血清无机磷是否与正常人有区别 即已知 4X 5S 1 6n 16 临床意义 证实慢性肾炎是否会导致血清无机磷含量的改变 即血清无机磷是否可以作为慢性肾炎的诊断指标或疗效观察指标 1 H0 0 慢性肾炎患者血清无机磷与正常人相同 H1 0 慢性肾炎患者血清无机磷与正常人不同 2 t X SX 2 53 n 1 16 1 15查t值表 得t0 05 15 2 131 t t0 05 15 P 0 054 可以认为慢性肾炎患者血清无机磷与正常人不同 配对样本t检验配对设计是将受试对象按一定条件配成对子 再随机分配每队中的两个受试者到不同的处理组数据形式 在假设检验中 对差值d是否为0做检验 其余计算类似于单样本t检验 两独立样本t检验用来比较两样本所来自的总体均数或总体分布是否相同当两样本均来自正态总体且方差齐性时 用t检验 当两样本来自正态总体但方差不齐时 用矫正的t检验 当两样本来自非正态总体或分布未知时 用秩和检验数据形式 多样本均值检验一般来说t检验仅适用于两个样本均值的检验 当检验涉及到三个或三个以上样本均值时 可利用方差分析要求数据正态 独立 方差齐性基本思想 按实验设计和分析目的把全部观察值之间的总变异分为两部分或更多部分 然后再作分析 三 常用统计方法 生存分析Logistic回归分析判别分析聚类分析Meta分析主成分分析 1 生存分析 医学研究中 为了了解某种疾病的预后 评价治疗方法的优劣或观察预防保健措施的效果等 常需对研究对象进行追踪观察 以获得必要的数据 这类资料都属于随访资料 其研究内容主要包括3个方面 对生存状况进行统计描述 生存概率 生存率 中位生存期等 寻找影响生存时间的 危险因素 和 保护因素 估计生存率和生存时间长短 进行预后评价 传统方法在分析随访资料时的困难1 时间和生存结局都成为了要关心的因如果将两者均作为变量拟合多元模型 因为时间分布不明 一般不呈正态分布 在不同情况下的分布规律也不同 拟合多元模型极为困难2 存在大量失访的资料 数据删失失去联系 病人搬走 电话号码改变 无法观察到结局 死于其他原因 研究截止 关于截尾或删失 失访失访研究截止时仍存活 1 非参数法 其特点是不论资料是什么样的分布形式 只根据样本提供的顺序统计量对生存率进行估计 常用的方法有乘积极限法和寿命表法 2 参数法 参数法的特点是假定生存时间服从于特定的参数分布 根据已知分布的特点对影响生存的时间进行分析 常用的方法有指数分布法 Weibull分布法 对数正态回归分析法和对数logistic回归分析法等 3 半参数法 半参数法兼有非参数法和参数法的特点 主要用于分析影响生存时间和生存率的因素 属多因素分析方法 典型方法为Cox模型分析法 生存分析的方法 乘积极限法 product limitmethod 非参数方法 是由Kaplan和Meier在1958年首先提出 故又称Kaplan Meier法 K M法 用于估计生存率主要适用于样本含量较小的资料 图16 2两种疗法治疗后白血病患者的生存率曲线 Cox比例风险回归模型在医学中 对病人治疗效果的考查 一方面要看治疗结局的好坏 另一方面还要看生存时间的长短 生存时间的长短不仅与治疗措施有关 还可能与病人的体质 年龄 病情的轻重等多种因素有关 如何找出其中哪些因素与生存时间有关 哪些与它无关呢 由于失访 试验终止等原因造成某些时间的不完全 不能用多元线性回归分析 1972年英国统计学家CoxDR 提出一种比例危险模型方法 能处理多个因素对生存时间影响的问题 设含有p个变量x1 x2 xp及时间T和结局C的n个观察对象 其数据结构为 编号X1X2 XPTC1x11x21 x1py112x21x22 x2py20 nxn1xn2 xnpyp COX模型 Cox模型的适用范围Cox模型适用于生存资料的统计分析 属半参数模型 对资料没有特殊的要求 也可以估计各因素的参数 并能做多因素的统计分析 该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响 找出影响生存时间的因素 根据各因素的参数估计出个体的生存率 另外 Cox模型能分析具有截尾数值的生存时间 Cox模型在临床流行病学分析中 使临床观察的定性指标又加上定量指标进行分析 提高了分析的效率 2 logistic回归模型 Logistic回归模型概念 研究因变量y取某个值的概率变量p与自变量x的依存关系模型 由于概率只能取0到1之间的值 为了把因变量扩展到整个实数范围 对p做logit变换 回归模型参数数学意义 0 常数项 所有影响因素均为0时 记作X 0 个体发生事件概率与不发生事件的概率之比的自然对数值 j的含义 某因素Xj改变一个单位时 个体发生事件概率与不发生事件的概率之比的自然对数值 优势比 oddsratio OR 或比数比优势 odds 是指某影响因素控制在某种水平时 事件发生率与事件不发生率的比值 即P 1 P 某影响因素的两个不同水平的优势的比值称为优势比 如某影响因素的一个水平为c1 另一个水平为c0 则这两个水平的优势比为 优势比 oddsratio OR OR表示影响因素对事件发生的影响方向和影响能力大小 OR 1表示该因素取值越大 事件发生的概率越大 又称危险因素 OR 1表示该因素取值越大 事件发生的概率越小 又称保护因素 OR 1表示该因素与事件的发生无关 OR与 的关系 0 OR 1 影响因素与事件的发生无关 0 OR 1 影响因素的取值越大 事件的发生的概率越大 0 OR 1 影响因素的取值越大 事件的发生的概率越小 优势比实例 吸烟与食管癌关系的病例对照调查结果 3 判别分析 在我们的日常生活和工作实践中 常常会遇到判别分析问题 即根据历史上划分类别的有关资料和某种最优准则 确定一种判别方法 判定一个新的样本归属哪一类 例如 某医院有部分患有肺炎 肝炎 冠心病 糖尿病等病人的资料 记录了每个患者若干项症状指标数据 现在想利用现有的这些资料找出一种方法 使得对于一个新的病人 当测得这些症状指标数据时 能够判定其患有哪种病 这些问题都可以应用判别分析方法予以解决 对相似性的刻画有不同的准则 最小距离准则 Fisher准则 平均损失最小准则 最小平方准则 最大概率准则等判别分析法距离判别法Fisher判别法逐步判别法Logistic回归判别法Bayes判别法 距离判别的思想和方法 例 两个总体的距离判别问题设有两个总体G1和G2 其均值分别是 1和 2 协方差矩阵为对于一个新的样品X 要判断它来自哪个总体一般的想法是计算新样品X到两个总体的距离D2 X G1 和D2 X G2 并按照如下判别规则进行判断 其中 对于多总体的判别 方法类似 都是从已知的数据出发 建立判别函数 由判别函数判断新样本所属类别当两总体靠的很近 无论用何种办法 判错概率都很大 这时做判别分析是没有意义的 因此只有当两个总体的均值有显著差异时 做判别分析才有意义 4 聚类分析 概念 统计学家常常采用聚类分析来完成分类的工作 聚类分析是用 物以类聚 的方法将客观世界中纷纭繁杂的事物加以分门别类 使之系统化和条理化的一种方法 聚类分析事先不知道客观事物的分类 需要根据各个样本或指标的数量表现来进行聚类种类样品聚类 基于样品间的距离将样本进行分类指标聚类 基于指标间的相关 旨在在每类指标中选择一个代表性较好的指标 达到指标精选的目的 聚类方法系统聚类法 首先将n个样品看成n类 然后将性质相近的两类合并为一个新类 得n 1类 再从n 1类中找出最接近的两类合并成n 2类 以此类推 最后将所有样品合并成一类分解法 系统聚类法的逆过程 首先将所有样品看成一类 然后用某种最优准则将其分成两类 再依次用相同的准则进一步裂分 直到每类只有一个样品为止加入法 假设已经存在一个分类系统 新样品进入时只能加入到聚类图中已存在的分类中 当新样本全部放入后 就得到新的聚类图有序样品聚类 将n个样品按照某种准则排序 在聚类的时候只有相邻的样品才能在一类中动态聚类法 开始将n个样品粗略的分为若干类 然后用某种最优准则对类别进行调整 直至不能调整为止 最优准则上述5种方法聚类时都需要某种最优准则 这些最优准则即为描述样品间接近程度的指标 接近程度可用p维空间点的距离来度量常用的定义类与类距离的方法有最短距离法最长距离法中间距离法可变距离法重心法类平均法 S1 S2 S3 S4 S5 S6 S1 S2 S3 S4 S5 S6 S1 S2 S3 S4 S5 S6 例 根据信息基础设施的发展状况 对世界20个国家和地区进行分类 5 Meta分析 Meta分析医学研究中 针对同一问题 不同研究者得到不一样的结论 例 阿司匹林是否能降低心肌梗死 为了对以往的研究结果综合评价 得到更加接近真实情况的结果可使用meta分析是一种基于文献资料的定量化综合评价多个同类独立研究结果的统计学方法 常用于临床试验 诊断试验和流行病学研究等方面的综合评价可以将针对同一问题的 多个独立的研究结果进行定量分析 Meta分析应用条件收集的资料要全面确定meta分析研究资料的入选标准及排除标准研究资料效应指标明确各研究的同质性 Meta分析步骤拟定研究计划收集资料根据入选标准选择合格的研究复习每个研究并进行质量评估提取信息 填写过录表 建立数据库计算各独立研究的效应大小异质性检验总结报告 计算各独立研究的效应大小通常两组间比较时连续变量平均差值率差 ratedifference 二分变量比值比 OR 相对危险度 RR 异质性检验 heterogeneity 重要性Meta分析重要的环节目的检查各个独立研究的结果是否具有可合并性产生异质性的原因研究设计不同 试验条件不同试验所定义的暴露 结局及其测量方法不同协变量的存在注意资料的 可合并性 研究结果 线宽表示其95 CI 研究结果点估计值 其大小代表该研究在Meta分析中的权重 无效应线 各个研究合并后的效应估计 总结报告 森林图 6 主成分分析 在实证问题研究中 为了全面 系统地分析问题 我们必须考虑众多影响因素 这些涉及的因素一般称为变量 因为每个变量都在不同程度上反映了所研究问题的某些信息 并且指标之间彼此有一定的相关性 因而所得的统计数据反映的信息在一定程度上有重叠 在用统计方法研究多变量问题时 变量太多会增加计算量和增加分析问题的复杂性 人们希望在进行定量分析的过程中 涉及的变量较少 得到的信息量较多 主成分分析正是适应这一要求产生的 是解决这类题的理想工具 主成分分析和聚类分析 都可以减少原有指标 样品 的个数 但主成分分析是从原有指标出发 寻找几个综合指标 或样品 来减少指标 或样品 个数 而聚类分析是先把原有指标 或样品 聚成几类 再在某一类指标 或样品 中各挑选一个典型指标 或样品 来减少指标 或样品 个数 两者是不同的 由于两者都可以减少指标 或样品 各数 因此两者都可以和其它统计分析方法 如判别分析 回归分析法 结合使用 四 常用统计图表 统计表 statisticaltable 和统计图 statisticalchart 是统计描述的重要工具 医学科学研究资料经过整理和计算各种必要的统计指标后 所得结果除了用适当文字说明以外 常用统计表和统计图表达分析结果 统计图表可以对于数据进行概括 对比或做直观的表达 统计表和统计图不仅便于阅读 而且便于分析比较 一 统计表 1 概念 指在科技报告中 常将统计分析的事物及其指标用表格列出 以反映事物的内在规律性和关联性 2 作用 1 避免繁杂的文字叙述2 便于计算3 便于事物间的比较分析 3 统计表的结构从外形上看 统计表由标题 标目 包括横标目 纵标目 线条 数字及必要的文字说明和备注5部分构成 其基本格式如表1 4 统计表的种类根据说明事物的主要标志 主语 的复杂程度 统计表可以分成简单表和复合表 l 简单表 只有一种主要标志 即主语按一个标志分组 2 复合表 有两种或两种以上的标志 即主语按多个标志分组 在安排上可以将部分主语放在表的上方与谓语配合起来 5 编制统计表的基本要求1 重点突出 简单明了 即一张表只包括一个中心内容 表达一个主题 2 主谓分明 层次清楚 即主谓语的位置准确 标目的安排及分组要层次清楚 符合专业逻辑 简单表只有一个分组标志 一般作为横标目 而纵标目就是统计指标名称 复合表有两个以上分组标志 一般把其中主要的和分项较多的一个作为横标目 而其余的则安排在纵标目上 3 数据准确 可靠 6 统计表的审查与修改统计表制作是否良好 可以从以下几方面检查 1 标题是否正确 2 主谓语的排列是否合适 标目是否组合重复 3 表线是否过多过密 某医院对麦牙根糖浆治疗急性慢性肝炎161例的疗效 资料如表 指出缺点并加以改进 缺点是 1 无标题 2 标目组合重复 3 主谓语排列不当 二 统计图 1 概念 利用点的位置 线段的升降 直条的长短和面积的大小等各种几何图形来表达统计资料和指标 2 作用 它将研究对象的特征 内部构成 相互关系 对比情况 频数分布等情况形象而生动地表达出来 更直观地反映出事物间的数量关系 更易于比较和理解 但对数量的表达较粗略 从图中不能获得确切数字 常用统计图 条形图barchart百分条图 percentagebarchart 饼图 piechart 线图 linediagram 直方图 histogram 散点图 scatterdiagram 箱形图boxplotQ QplotKaplan Meier生存曲线ROC曲线空间统计图 条形图 barchart 概念 用等宽直条的长短来表示各个相互独立的指标大小的图形 适用资料 相互独立的资料 资料有明确分组 不连续 分类 分为单式和复式两种 单式适用于只有一组观察资料 见图1 复式适用于有若干组观察资料应用 相互独立资料间的比较 百分条图 percentagebarchart 概念 以长条面积为100 用长条内各段面积所占的百分比来表示各部分在全体中所占的比例适用资料 构成比资料 应用 描述各部分的百分构成 饼图 piechart 概念 以一个圆面积为100 用圆内各扇形面积所占的百分比来表示各部分所占的构成比例适用资料 构成比资料 应用 描述各部分的百分构成 线图 linediagram 概念 以线段的上升或下降来表示事物在时间上的发展变化或一种现象随另一种现象变迁的情况适用资料 连续性资料 应用 反映事物的连续的动态变化规律 直方图 histogram 概念 以各矩形的面积来代表各组频数的多少 适用资料 连续变量的频数分布 应用 反应某一连续性变量的分布情况 散点图 scatterdiagram 概念 以点的密集程度和趋势来表示两种现象的相关关系 适用资料 双变量资料 应用 反映两事物间的相关关系 主要用于相关回归分析 箱形图boxplot 概念 一种用作显示一组数据分散情况资料的统计图 因形状如箱子而得名 适用资料 连续性变量应用 显示出一组数据的最大值 最小值 中位数 下四分位数 上四分位数和异常值 识别数据异常值 判断数据偏态 Q Qplot QQ图是一种通过画出分位数来比较两个概率分布的图形方法作用 用于直观验证一组数据是否来自某个分布 或者验证某两组数据是否来自同一 族 分布判断标准 散点落在参考直线附近则服从某一分布 如果被比较的两个分布比较相似 则其QQ图近似地位于y x上 如果两个分布线性相关 则QQ图上的点近似地落在一条直线上 但并不一定是y x这条线 适用资料 连续性变量 Kaplan Meier生存曲线 概念 以生存时间为横坐标 生存率为纵坐标绘制的阶梯状生存曲线描述 随时间的增加 该曲线一般呈下降趋势 平缓的生存曲线表示高生存率或较长生存期 陡峭的生存曲线表示低生存率或较短生存期适用资料 生存时间数据 ROC曲线 概念 受试者工作特征曲线 receiveroperatingcharacteristi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装饰企业联营方案(3篇)
- 单位房客厅改造方案(3篇)
- 集团搬迁计划方案模板(3篇)
- 肉类门店管理方案(3篇)
- 七年级数学教学内容分析报告
- 2025年预收账款长期挂账整改措施
- 2025年医院核心制度考试试题(附答案)
- 2025年药理学试题+参考答案2
- 2025年长期卧床病人并发症的预防和处理考核试题及答案
- 全康医疗牙科知识培训课件
- 2025-2030中国羽绒服行业市场发展分析及发展趋势与投资方向研究报告
- 黑龙江:用水定额(DB23-T 727-2021)
- 显微注射技术课件
- 医疗健康领域的数字化人才培养计划
- 汽车贴膜外包合同范本
- DB31/T 1341-2021商务办公建筑合理用能指南
- 综合门诊部管理制度
- 特岗服务协议书
- GB/T 10250-2025船舶电气与电子设备电磁兼容性金属船体船舶
- 2025年自动驾驶卡车在港口物流中的应用与挑战报告
- 菜籽饼供货合同协议
评论
0/150
提交评论