统计方法的分类与选择.ppt_第1页
统计方法的分类与选择.ppt_第2页
统计方法的分类与选择.ppt_第3页
统计方法的分类与选择.ppt_第4页
统计方法的分类与选择.ppt_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统 计 学 方 法 的 分 类 与 选 择 根据研究设计类型选择分析方法 (一)、成组比较的设计 在成组比较设计中,若是两组比较 需要应用t检验或X2检验。多组比较需 应用方差分析、行列表X2检验或分级 的分析方法。 (二)、配对(自身实验前后)设计 这种类型的设计需要按照配比的t检验 ,X2检验及配对的病例对照研究方法进行 数据分析。 (三)、重复测量的设计 这类设计方法是在给定一个处理因素后 在不同的时间重复测量某一效应变量的改 变情况。如欲评价生物制品接种后的免疫 学效果,在接种后的2周、4周、6周和8周 测定抗体滴度,即为此类设计类型。对于 这种设计类型的数据需应用重复测量的方 差分析方法进行数据的分析。 (四)、多因素设计 若在研究设计中有多个自变量,则可根 据因变量的性质选择合适的多因素分析方法 。如果自变量是数值变量,则可考虑应用多 元回归分析方法、协方差分析方法。如果是 分类变量,则可选择logistic回归分析方法、 判别分析方法及聚类分析方法等。 根据变量的类型选择分析方法 n区别与明确研究的因变量和自变量具有重要 的流行病学与生物统计学意义,首先它有助 于选择拟研究的变量,对调查表的设计具有 指导作用。 n其次数据分析阶段可以指导数据分析方法的 选择及模型的建立。若因变量是分类变量, 则常考虑应用分类变量的分析方法,如卡方 检验,logistic回归分析等。如果因变量是数 值变量,则考虑应用数值变量的分析方法如t 检验、方差分析,协方差分析、多元回归等 。同时明确自变量与因变量可以建立正确的 统计学分析模型。 n因变量应该放在模型的左侧,自变量则放在模型 的右侧。 n例如欲评价不同治疗方法(口服药物、注射胰岛 素及膳食控制)对糖尿病人的治疗效果(血糖水 平),在分析时要求调整病人的性别、年龄和病 程的影响。对本例的处理需要进行协方差分析, 在应用SAS进行分析时,要将血糖水平(因变量 )放在模型的左则,而治疗方法或其它协变量( covariate)即性别、年龄和病程放在模型的右侧 。又如分析脂蛋白(a)与冠心病发生的关系,则 冠心病是否发生为因变量,脂蛋白(a)则为自变 量,不可颠倒这种关系。 不同变量类型的数据分析方法选择 因变变量 自变变量 数值变值变 量分类变类变 量有序变变量 数值变值变 量 相关分析,多元回 归归分析 t检验检验 ,方差分析, 协协方差分析,多 元回归归分析 相关分析,多元回 归归分析 分类变类变 量 t检验检验 ,方差分析, logistic回归归分 析,判别别分析, 聚类类分析 c2检验检验 ,logistic 回归归分析 c2检验检验 有序变变量 方差分析,logistic 回归归分析,判别别 分析,聚类类分析 c2检验检验 ,logistic 回归归分析 相关分析,c2检验检验 生存时间时间 生存分析 不同研究设计和数据类型的数据分析方法选择 研究设计类设计类 型 变变量类类型两组组比较较 两组组以上比 较较 实验实验 前后比较较重复测测量两变变量间间的联联系 重复测测量的 方差分 析 线线性回归归,Pearson 相关系数 数值变值变 量 t检验检验方差分析配对对t检验检验 分类变类变 量 c2检验检验c2检验检验配对对c2检验检验 列联联表相关系数 有序变变量 Mann-Whitney 秩和检检 验验 Kruskal-Wallis分 析 Wilcoxon符号 秩和检验检验 Spearman相关系 数 生存时间时间生存分析 数据的分析程序 数据的转换 1 )非正态数据的变量转换 多数的统计学分析方法是建立在数据正态 分布的基础上的,若数据不符合正态分布 ,则不能够应用参数检验(parametric test)的方法,只能应用非参数检验(non- parametric test)的方法,而非参数的方法 不是对原始数据的检验,如秩和检验就是 非参数检验方法之一,它是对原始数据的 秩次(rank)进行检验,这样可能损失数据 信息,降低检验效率 n 在对数值变量进行分析时,需首先根据统计分 析方法/统计分析公式的限制性使用条件对数据 进行“条件”检验,如正态性检验和方差齐性检验 等。很多统计学软件具有方便的正态性检验、 方差齐性检验功能如SAS软件等 .若经过检验数 据不符合使用条件,就需要进行数据的变量变 换,变换后符合条件就可以应用参数检验的方 法,否则,只有应用非参数检验的方法。 n数据变量转换的方法很多,可以根据数据的分 布特征,选择合适的数据转换方法。常用的方 法有对数变换,平方根变换或倒数变换等。 2) 分类变量转换成哑变量 若分类变量是二分类尺度及顺序尺度,则可 直接应用其原有的数量化数值,但对于名义 尺度因为各类别间没有顺序关系,在进行不 同分析(包括多元分析、logistic回归、Cox 回归等)时,不能使用原始的计算机录入数 值,必经进行变量转换。即将该变量转换成 (水平数-1)个哑变量,再将这些新转换的 变量放入多因素模型中。 t检验的应用条件 n两组数据的比较 n1样本量比较小(n50) n2样本来自正态总体 n3两样本总体方差齐同 n当两样本方差不齐时可以采用t检验,变量 变换,或者秩和检验。 方差分析的应用条件 n两组以上数据的比较 n1各样本是相互独立的随机样本; n2各样本要来自正态总体; n3要求各个样本的总体方差齐同。 多个样本均数间的两两比较 nNewmanKeuls检验,亦称Student NewmanKeuls(SNK)检验,简称q检验 。 n最小显著性差距(LSD)t检验。 协方差分析 n定量分析中,进行两个样本或者多个样本 的均数比较时,不仅需要使用假设检验判 断其差异是否具有统计学差异,还应该考 虑他们之间是否存在混杂因素(协变量) 的影响。若存在协变量,则应该通过协方 差分析进行校正。协方差分析是定量变量 分析中控制混杂因素的重要手段 影响观察指标的其他非研究性因素(混杂因 素)在统计分析中又称之为协变量;考虑协变量 影响的方差分析即为协方差分析。协方差分析是 解决以上问题的分析方法,它将线性回归与方差 分析结合起来,检验2个或者多个修正均数之间有 无差别的假设检验方法。一般是先用直线回归的 方法找出各组因变量与协变量之间的数量关系, 求得修假定协变量相等时的修正系数,然后用方 差分析比较修正均数间的差别。 协方差分析的条件 1各个样本来自方差齐同的正态总体 2各组的总体直线回归系数相同,且都不为0。 协方差分析的判别步骤: n1正态性和方差齐性检验; n2判断协变量与因变量有无线性关系; n3判断各组回归直线是否平行。 直线回归与相关的区别与联系 区别直线相关直线回归 变量 地位 变量 x 变量 y 处于 平等的地位,彼此 相关关系 变量 y 称为因变量, 处在被解释的地位,x 称为自变量,用于预 测因变量的变化 变量 性质 所涉及的变量 x 和 y 都是随机变量, 要求两个变量服从 双变量正态分布 因变量 y 是随机变量 ,自变量 x 可以是随机 变量,也可以是非随机 的确定变量 实际 作用 主要是描述两个变 量之间线性关系的 密切程度(相关系数 无单位) 揭示变量 x 对变量 y 的影响大小(回归系数 有单位),还可以由回 归方程进行预测和控 制 多元线性回归的基本概念 事物间的相互联系往往是多方面的,在很多情 况下对应变量y 发生影响的自变量往往不止一个 。 多元线性回归的目的就是用一个多元线性回归方程 表示多个自变量和1个应变量间的关系。 标准偏回归系数表示其他自变量固定的情况下, xi改变一个单位,y平均改变bi个单位。 多元线性回归的应用条件: n1. 独立性:各观察对象间相互独立。 n2. 线性:自变量与应变量间的关系为线性。 n3. 正态性:自变量取不同值时,应变量的分 布为正态。 n4. 方差齐性:自变量取不同值时,应变量的 总体方差相等。 n5. 当不符合条件时,可对自变量进行变换。 如: n要比较各个自变量对于应变量的作用大小, 不能用偏回归系数,因为各偏回归系数的单 位不同。必须把偏回归系数标准化,化成没 有单位的标准偏回归系数. n消除不同单位的影响后,标准偏回归系数的 绝对值越大,该自变量对于应变量的作用越 大,但该差别是否有统计意义,也必须经过 检验。 (2) 对各偏回归系数的显著性检验: F检验与 t检验 1. 计算截距和各偏回归系数。 2. 多元回归方程的显著性检验: (1)整个方程的显著性检验:用方差分析。 STEPWISE REGRESSION n一逐步回归分析的基本概念 逐步回归分析的目的是建立“最优”回归方程 。 “最优”回归方程是指包含所有对y有显著 作用的自变量,而不包含对y作用不显著的 自变量的方程。 逐步回归分析的计算方法 n 在供选的自变量Xi中,按其对y的作用大小,由 大到小地把自变量逐个引入方程, 每引入一个自 变量就对它作显著性检验,显著时才引入,而当 新的自变量进入方程后, 对方程中原有的自变量也 要作检验,并把作用最小且退化为不显著的自变 量逐个剔出方程。因此,逐步回归的每一步(引 入一个变量或剔除一个变量都称为一步)前后都 要作显著性检验,以保证每次引入新变量前方程 中只包含作用显著的自变量。这样一步步进行下 去, 直至方程中所含自变量都显著而又没有新的作 用显著的自变量可引入方程为止。 逐步回归分析在医学研究中的应用 及需要注意的几个问题 n1方程“最优”问题,实际是精选自变量以求得拟和效果最好 的多元回归方程。最优子集回归是选择一种使回归方程拟 和最好的自变量,而逐步回归则选择对因变量作用有意义 的自变量。要根据研究目的选用适合方法。 n2逐步回归主要在医学中用于病因探索,临床疗效分析及 控制等。 n3线性回归模型要注意正态性,方差齐性和独立性,因变 量必须是随机变量等。 n4入选变量如果明显地与实际问题的专业理论不一致时, 首先检查数据是否有异常点,自变量间有无共线性存在, 数据输入是否有误等,要结合专业知识作出合理的解释。 n5逐步回归在对大量因素进行分析时,可以先进行聚类分 析,然后进行逐步回归。通常,观察单位取变量值的5 10倍为宜。 Logistic回归分析的基本思想 回忆: 线性回归分析对因变量的要求 因变量 y 连续型 服从正态分布 胆固醇含量 自变量 x 数值型 与Y呈线性关系 年龄 舒张压 医学研究中经常遇到分类型变量,例如: n二分类变量: 生存与死亡 有病与无病 有效与无效 感染与未感染 n多分类有序变量: 疾病程度(轻度、中度、重度) 治愈效果(治愈、显效、好转、无效) n多分类无序变量: 手术方法(A、B、C) 就诊医院(甲、乙、丙、丁) n这种回归分析问题不能借助于线性回归模 型,因为因变量的假设条件遭到破坏。 n能否找到一种其他形式的模型y=f(x)来描述 分类变量y和x之间依存关系呢? 因为从数学角度看,使得x取任意值而y仅 取1和0两个值的的函数不存在。 n转换为分析y取 某个值的概率 变量p与x的关系 不能直接分析 变量y与x的关系 Logistic回归模型 Logistic回归分析的分类 n按数据的类型: 非条件logistic回归分析(成组数据) 条件logistic回归分析(配对病例-对照数据) n按因变量取值个数: 二值logistic回归分析 多值logistic回归分析 n按自变量个数: 一元logistic回归分析 多元logistic回归分析 Logistic 回归分析 的数学模型 1、一元logistic回归模型 令y是1,0变量, x是一个危险因 素;p=p(y=1|x) ,那么,二值 变量y关于变量 x的一元logistic 回归模型是: 其中,和是未知参数或待估计的回归系数。该模 型描述了y取某个值(这里y=1)的概率p与自变量x之间的关系 2、 多元logistic回归模型 令y是1,0变量,x1,x2,xk是k个危险因素; p=p(y=1|x1,x2,xk),那么,变量y关于变 量x1,x2,xk的k元logistic回归模型是: Logistic 回归模型的另外一种形式 它给出变量z=logit(p)关于x 的线性函数。 参数估计的步骤 1数据结构 设有P个危险因素X1,X2,Xn及结果分 析变量Y,观察例数为n。进行logistic回归 时,应将原始资料进行整理,一般格式如 下 编号 因素 Y X1X2XP 1X11X12XP1Y1 2X21X22XP2Y2 nXn1Xn2Xn3XnPYn 2 参数的估计 Logsitc回归的参数估计常用最大似然估计 法。其基本思想是先建立似然函数和对数 似然函数,求似然函数或对数似然函数达 到极大值时参数的取值,即为参数的最大 似然估计值。可求出值。 3 假设检验 求得各个参数的估计值之后,并不意味着每个因 素都与因变量有联系,模型中应只保留对因变 量有影响 因素,因此要求对方程中的各变量逐 一进行检验,剔除对因变量无影响的因素,并 对拟和的模型进行检验。 即使用似然比检验法,通过逐步回归筛选自变量 ,最后得到具有统计学意义的logistic回归方程 。该过程很复杂,由计算机完成。 n医学中经常需要作配对病例-对照研究。所谓的配对病例- 对照研究指的是在病例-对照研究中,对每一个病例配以 性别、年龄或其它条件相似的一个(1:1)或几个(1:M)对照 ,然后分析比较病例组与对照组以往暴露于致病因素的经 历。 n分析配对病例-对照研究资料的统计分析方法一般采用条 件logistic回归分析。 n条件logistic回归分析的数学模型以及分析原理方法均和 非条件l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论