版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、医药常用统计方法与统计图表中国药科大学生物统计与计算药学研究中心主要内容统计基本概念1假设检验2常用统计方法3统计图表4一、统计基本概念 医学统计工作的内容统计工作贯穿医学研究中的全过程,医学研究中的统计工作包括:研究设计数据搜集数据整理数据分析医学统计工作的内容研究设计设计一般包括专业设计和统计设计。专业设计即确定调查题目、 内容等。统计设计包括资料收集、整理与分析。实验三要素:处理因素、受试对象、实验效应设计四原则:对照、随机化、重复、盲法搜集资料:按照设计要求,原则是及时、准确、完整地收集原始数据。 数据来源:病历、日常医疗工作记录、临床检查与化验记录、 疾病监测报表、专题研究数据整理:
2、对数据进行清理、改错、数量化数据分析:统计描述、统计推断一、统计基本概念常用概念 A. 同质与变异在调查研究或实验研究中,除了直接关注的影响因素外,其他非研究因素也会影响研究结果,为了突出研究因素的作用,需要使各比较组之间非研究因素尽可能相同,即同质即使非研究因素控制在相同条件下,个体的观察值之间也会有所不同,这种差异叫做变异 C. 抽样和抽样误差抽样是指从总体选取样本的过程,抽样的目的是用样本信息来推断总体特征由于抽样所造成的样本指标与总体指标的差异称为抽样误差 D. 概率和小概率事件概率(probability)是反映某一事件发生的可能性的大小,常用符号P表示。其值在0和1之间。概率等于1
3、的事件是必然事件,概率等于0的事件是不可能事件,随机事件的概率小于1,而大于0。小概率事件习惯上是指P 2 samplesInterval One way ANOVARepeated measured ANOVAOrdinalKruskal-Wallis testFriedman testNominalChi-square testCochrans Q test (dichotomous data only)三、常用统计方法生存分析Logistic回归分析判别分析聚类分析Meta分析主成分分析1、生存分析医学研究中,为了了解某种疾病的预后、评价治疗方法的优劣或观察预防保健措施的效果等,常需对研
4、究对象进行追踪观察,以获得必要的数据,这类资料都属于随访资料。 其研究内容主要包括3个方面: 对生存状况进行统计描述(生存概率、生存率、中位生存期等); 寻找影响生存时间的“危险因素”和“保护因素”; 估计生存率和生存时间长短,进行预后评价。传统方法在分析随访资料时的困难1、时间和生存结局都成为了要关心的因如果将两者均作为变量拟合多元模型,因为时间分布不明(一般不呈正态分布,在不同情况下的分布规律也不同),拟合多元模型极为困难2、存在大量失访的资料,数据删失失去联系(病人搬走,电话号码改变)无法观察到结局(死于其他原因)研究截止 关于截尾或删失随访开始事件失访失访研究截止时仍存活研究截止时点患
5、者进入期间删失的模式图乘积极限法(product-limit method)非参数方法,是由Kaplan和Meier在1958年首先提出,故又称Kaplan-Meier法(K-M法)。用于估计生存率主要适用于样本含量较小的资料。图16-2 两种疗法治疗后白血病患者的生存率曲线 设含有p个变量x1, x2,xp及时间T和结局C的n个观察对象. 其数据结构为: 编号 X1 X2 . XP T C 1 x11 x21 x1p y1 1 2 x21 x22 x2p y2 0 n xn1 xn2 xnp yp .COX模型:Cox模型的适用范围Cox模型适用于生存资料的统计分析,属半参数模型,对资料没有
6、特殊的要求,也可以估计各因素的参数,并能做多因素的统计分析。该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计出个体的生存率。另外,Cox模型能分析具有截尾数值的生存时间。Cox模型在临床流行病学分析中,使临床观察的定性指标又加上定量指标进行分析,提高了分析的效率。 2、logistic回归模型Logistic回归模型概念:研究因变量y取某个值的概率变量p与自变量x的依存关系模型:由于概率只能取0到1之间的值,为了把因变量扩展到整个实数范围,对p做logit变换回归模型参数数学意义0(常数项):所有影响因素均为 0 时(记作X=0),个体发
7、生事件概率与不发生事件的概率之比的自然对数值。j 的含义:某因素 Xj 改变一个单位时,个体发生事件概率与不发生事件的概率之比的自然对数值。优势比(odds ratio,OR)或比数比优势(odds)是指某影响因素控制在某种水平时,事件发生率与事件不发生率的比值,即P/(1-P)。某影响因素的两个不同水平的优势的比值称为优势比,如某影响因素的一个水平为c1,另一个水平为c0,则这两个水平的优势比为:优势比(odds ratio,OR)OR表示影响因素对事件发生的影响方向和影响能力大小。OR1表示该因素取值越大,事件发生的概率越大,又称危险因素。OR 0,OR 1,影响因素的取值越大,事件的发生
8、的概率越大。 0,OR 1,影响因素的取值越大,事件的发生的概率越小。优势比实例结果吸烟不吸烟合计食管癌患者309(a)126(b)435非食管癌患者208(c)243(d)451合计517(a+c)369(b+d)886吸烟与食管癌关系的病例对照调查结果3、判别分析在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记录了每个患者若干项症状指标数据。现在想利用现有的这些资料找出一种方法,使得对于一个新的病人,当测得这些症状指标数据时,能够
9、判定其患有哪种病。这些问题都可以应用判别分析方法予以解决。对相似性的刻画有不同的准则:最小距离准则、Fisher准则、平均损失最小准则、最小平方准则、最大概率准则等判别分析法距离判别法Fisher判别法逐步判别法Logistic回归判别法Bayes判别法距离判别的思想和方法 例:两个总体的距离判别问题 设有两个总体G1和G2,其均值分别是1和 2, 协方差矩阵为 对于一个新的样品X,要判断它来自哪个总体 一般的想法是计算新样品X到两个总体的距离 D2(X,G1)和D2(X,G2),并按照如下判别规则进行判断其中:对于多总体的判别,方法类似。都是从已知的数据出发,建立判别函数,由判别函数判断新样
10、本所属类别当两总体靠的很近,无论用何种办法,判错概率都很大,这时做判别分析是没有意义的。因此只有当两个总体的均值有显著差异时,做判别分析才有意义4、聚类分析概念:统计学家常常采用聚类分析来完成分类的工作。聚类分析是用“物以类聚”的方法将客观世界中纷纭繁杂的事物加以分门别类,使之系统化和条理化的一种方法。聚类分析事先不知道客观事物的分类,需要根据各个样本或指标的数量表现来进行聚类种类样品聚类:基于样品间的距离将样本进行分类指标聚类:基于指标间的相关,旨在在每类指标中选择一个代表性较好的指标,达到指标精选的目的聚类方法系统聚类法:首先将n个样品看成n类,然后将性质相近的两类合并为一个新类,得n-1
11、类,再从n-1类中找出最接近的两类合并成n-2类,以此类推,最后将所有样品合并成一类分解法:系统聚类法的逆过程,首先将所有样品看成一类,然后用某种最优准则将其分成两类,再依次用相同的准则进一步裂分,直到每类只有一个样品为止加入法:假设已经存在一个分类系统,新样品进入时只能加入到聚类图中已存在的分类中,当新样本全部放入后,就得到新的聚类图有序样品聚类:将n个样品按照某种准则排序,在聚类的时候只有相邻的样品才能在一类中动态聚类法:开始将n个样品粗略的分为若干类,然后用某种最优准则对类别进行调整,直至不能调整为止最优准则上述5种方法聚类时都需要某种最优准则,这些最优准则即为描述样品间接近程度的指标,
12、接近程度可用p维空间点的距离来度量常用的定义类与类距离的方法有最短距离法最长距离法中间距离法可变距离法重心法类平均法S1 .S2.S3 .S4 . .S5 .S6S1 .S2.S3 .S4 . .S5 .S6S1 .S2.S3 .S4 . .S5 .S6例:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。5、Meta分析Meta分析医学研究中,针对同一问题,不同研究者得到不一样的结论,例:阿司匹林是否能降低心肌梗死,为了对以往的研究结果综合评价,得到更加接近真实情况的结果可使用meta分析是一种基于文献资料的定量化综合评价多个同类独立研究结果的统计学方法,常用于临床试验、诊断试验和
13、流行病学研究等方面的综合评价可以将针对同一问题的,多个独立的研究结果进行定量分析。Meta分析应用条件收集的资料要全面确定meta分析研究资料的入选标准及排除标准研究资料效应指标明确各研究的同质性Meta分析步骤拟定研究计划收集资料根据入选标准选择合格的研究复习每个研究并进行质量评估提取信息,填写过录表,建立数据库计算各独立研究的效应大小异质性检验总结报告计算各独立研究的效应大小通常两组间比较时 连续变量 平均差值 率差(rate difference) 二分变量 比值比(OR)相对危险度(RR)异质性检验(heterogeneity)重要性 Meta分析重要的环节目的检查各个独立研究的结果是
14、否具有可合并性 产生异质性的原因 研究设计不同、试验条件不同 试验所定义的暴露、结局及其测量方法不同 协变量的存在注意 资料的“可合并性”研究结果(线宽表示其95%CI)研究结果点估计值,其大小代表该研究在Meta分析中的权重无效应线各个研究合并后的效应估计)总结报告(森林图) 6、主成分分析在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,
15、人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。主成分分析和聚类分析 都可以减少原有指标(样品)的个数,但主成分分析是从原有指标出发,寻找几个综合指标(或样品)来减少指标(或样品)个数;而聚类分析是先把原有指标(或样品)聚成几类,再在某一类指标(或样品)中各挑选一个典型指标(或样品)来减少指标(或样品)个数,两者是不同的。由于两者都可以减少指标(或样品)各数,因此两者都可以和其它统计分析方法(如判别分析、回归分析法)结合使用。 四、常用统计图表 统计表(statistical table)和统计图(statistica
16、l chart)是统计描述的重要工具。医学科学研究资料经过整理和计算各种必要的统计指标后,所得结果除了用适当文字说明以外,常用统计表和统计图表达分析结果。统计图表可以对于数据进行概括、对比或做直观的表达。统计表和统计图不仅便于阅读,而且便于分析比较。一、统计表1概念:指在科技报告中,常将统计分析的事物及其指标用表格列出,以反映事物的内在规律性和关联性。2作用:1)避免繁杂的文字叙述2)便于计算3)便于事物间的比较分析3. 统计表的结构 从外形上看,统计表由标题、标目(包括横标目、纵标目)、线条、数字及必要的文字说明和备注5部分构成。其基本格式如表1: 4.统计表的种类 根据说明事物的主要标志(
17、主语)的复杂程度,统计表可以分成简单表和复合表。 l)简单表:只有一种主要标志,即主语按一个标志分组。 2)复合表:有两种或两种以上的标志,即主语按多个标志分组。在安排上可以将部分主语放在表的上方与谓语配合起来。611843合计321418甲硝唑29425替硝唑合计未愈治愈分组表2-1 不同药物治疗急性冠周炎效果比较20010025751002575合计100501733501535B10050842501040A合计无效有效合计无效有效合计乙医院甲医院药物表2-2 A、B两种药物在甲、乙两医院的疗效5.编制统计表的基本要求 1)重点突出,简单明了。即一张表只包括一个中心内容,表达一个主题。
18、2)主谓分明,层次清楚。即主谓语的位置准确,标目的安排及分组要层次清楚,符合专业逻辑。简单表只有一个分组标志,一般作为横标目,而纵标目就是统计指标名称。复合表有两个以上分组标志,一般把其中主要的和分项较多的一个作为横标目,而其余的则安排在纵标目上。 3)数据准确、可靠。6.统计表的审查与修改 统计表制作是否良好,可以从以下几方面检查:1)标题是否正确。2)主谓语的排列是否合适,标目是否组合重复。3)表线是否过多过密。 某医院对麦牙根糖浆治疗急性慢性肝炎161例的疗效,资料如表,指出缺点并加以改进。32.95323.63843.57067.1108%例%例%例%例好转近期痊愈小计无效有效 效果总
19、例数缺点是:1)无标题。 2)标目组合重复。 3)主谓语排列不当。 100.0161合计43.570近期痊愈23.638好转32.953无效百分比(%)例数疗效表12-8 某年某医院麦芽根糖浆治疗急慢性肝炎的疗效观察二、统计图1. 概念:利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料和指标.2. 作用:它将研究对象的特征、内部构成、相互关系、对比情况、频数分布等情况形象而生动地表达出来,更直观地反映出事物间的数量关系,更易于比较和理解。但对数量的表达较粗略,从图中不能获得确切数字。 常用统计图条形图bar chart百分条图(percentage bar char
20、t)饼图(pie chart) 线图(line diagram) 直方图(histogram) 散点图(scatter diagram) 箱形图 box plotQ-Q plotKaplan-Meier生存曲线ROC曲线空间统计图条形图(bar chart) 概念:用等宽直条的长短来表示各个相互独立的指标大小的图形。适用资料:相互独立的资料(资料有明确分组,不连续)。分类:分为单式和复式两种。单式适用于只有一组观察资料(见图1),复式适用于有若干组观察资料 应用:相互独立资料间的比较。 百分条图(percentage bar chart) 概念:以长条面积为100%,用长条内各段面积所占的百分
21、比来表示各部分在全体中所占的比例 适用资料:构成比资料。应用:描述各部分的百分构成。饼图(pie chart) 概念:以一个圆面积为100%,用圆内各扇形面积所占的百分比来表示各部分所占的构成比例 适用资料:构成比资料。应用:描述各部分的百分构成。 线图(line diagram) 概念:以线段的上升或下降来表示事物在时间上的发展变化或一种现象随另一种现象变迁的情况 适用资料:连续性资料。应用:反映事物的连续的动态变化规律。 直方图(histogram) 概念:以各矩形的面积来代表各组频数的多少。适用资料:连续变量的频数分布。应用:反应某一连续性变量的分布情况散点图(scatter diagr
22、am) 概念:以点的密集程度和趋势来表示两种现象的相关关系。适用资料:双变量资料。应用:反映两事物间的相关关系,主要用于相关回归分析。 箱形图 box plot概念:一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。适用资料:连续性变量应用:显示出一组数据的最大值、最小值、中位数、下四分位数、上四分位数和异常值,识别数据异常值,判断数据偏态。Q-Q plotQQ图是一种通过画出分位数来比较两个概率分布的图形方法作用:用于直观验证一组数据是否来自某个分布,或者验证某两组数据是否来自同一(族)分布判断标准:散点落在参考直线附近则服从某一分布,如果被比较的两个分布比较相似,则其QQ图近似地位于y=x上。如果两个分布线性相关,则QQ图上的点近似地落在一条直线上,但并不一定是y=x这条线。适用资料:连续性变量Kaplan-Meier生存曲线概念:以生存时间为横坐标,生存率为纵坐标绘制的阶梯状生存曲线描述:随时间的增加,该曲线一般呈下降趋势,平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期适用资料:生存时间数据ROC曲线概念:受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线)是根据一系列不同的二分类方式,以真阳性率(灵
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿色建筑与节能技术基于2026年的建筑科技题库
- 2026年能源领域中的行政法律应诉处理题库
- 文学巨匠深度解析
- 网络安全运维与监控规范(标准版)
- 2026年网络安全合规考试模拟题信息保护与系统审计实践题
- 2026国家公务员考试行测备考练习题及解析
- 2026年网络安全与隐私保护技术发展研究题
- 心理健康实战案例分析与学习题库2026年版
- 2026年网络安全专业认证题库网络攻击与防御策略题库
- 2026年智能电网技术应用与发展趋势试题
- 医疗类产品设计
- 体系工程师工作年终总结
- 五年级上册小数四则混合运算100道及答案
- 3D小人素材13(共16)-金色系列
- 上腔静脉综合征患者的护理专家讲座
- 免责协议告知函
- 食物与情绪-营养对心理健康的影响
- 2023气管插管意外拔管的不良事件分析及改进措施
- 麻醉药品、精神药品月检查记录
- 蕉岭县幅地质图说明书
- 电梯控制系统论文
评论
0/150
提交评论