统计方法的分类与选择.ppt

上传人：B*** IP属地：四川上传时间：2019-01-13 格式：PPT 页数：49 大小：404.81KB 积分：15 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

统计学方法的分类与选择根据研究设计类型选择分析方法（一）、成组比较的设计在成组比较设计中，若是两组比较需要应用t检验或X2检验。多组比较需应用方差分析、行列表X2检验或分级的分析方法。（二）、配对（自身实验前后）设计这种类型的设计需要按照配比的t检验，X2检验及配对的病例对照研究方法进行数据分析。（三）、重复测量的设计这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果，在接种后的2周、4周、6周和8周测定抗体滴度，即为此类设计类型。对于这种设计类型的数据需应用重复测量的方差分析方法进行数据的分析。（四）、多因素设计若在研究设计中有多个自变量，则可根据因变量的性质选择合适的多因素分析方法。如果自变量是数值变量，则可考虑应用多元回归分析方法、协方差分析方法。如果是分类变量，则可选择logistic回归分析方法、判别分析方法及聚类分析方法等。根据变量的类型选择分析方法 n区别与明确研究的因变量和自变量具有重要的流行病学与生物统计学意义，首先它有助于选择拟研究的变量，对调查表的设计具有指导作用。 n其次数据分析阶段可以指导数据分析方法的选择及模型的建立。若因变量是分类变量，则常考虑应用分类变量的分析方法，如卡方检验，logistic回归分析等。如果因变量是数值变量，则考虑应用数值变量的分析方法如t 检验、方差分析，协方差分析、多元回归等。同时明确自变量与因变量可以建立正确的统计学分析模型。 n因变量应该放在模型的左侧，自变量则放在模型的右侧。 n例如欲评价不同治疗方法（口服药物、注射胰岛素及膳食控制）对糖尿病人的治疗效果（血糖水平），在分析时要求调整病人的性别、年龄和病程的影响。对本例的处理需要进行协方差分析，在应用SAS进行分析时，要将血糖水平（因变量）放在模型的左则，而治疗方法或其它协变量（ covariate）即性别、年龄和病程放在模型的右侧。又如分析脂蛋白（a）与冠心病发生的关系，则冠心病是否发生为因变量，脂蛋白（a）则为自变量，不可颠倒这种关系。不同变量类型的数据分析方法选择因变变量自变变量数值变值变量分类变类变量有序变变量数值变值变量相关分析，多元回归归分析 t检验检验 ,方差分析，协协方差分析，多元回归归分析相关分析，多元回归归分析分类变类变量 t检验检验 ,方差分析， logistic回归归分析,判别别分析，聚类类分析 c2检验检验，logistic 回归归分析 c2检验检验有序变变量方差分析，logistic 回归归分析,判别别分析，聚类类分析 c2检验检验，logistic 回归归分析相关分析，c2检验检验生存时间时间生存分析不同研究设计和数据类型的数据分析方法选择研究设计类设计类型变变量类类型两组组比较较两组组以上比较较实验实验前后比较较重复测测量两变变量间间的联联系重复测测量的方差分析线线性回归归，Pearson 相关系数数值变值变量 t检验检验方差分析配对对t检验检验分类变类变量 c2检验检验c2检验检验配对对c2检验检验列联联表相关系数有序变变量 Mann-Whitney 秩和检检验验 Kruskal-Wallis分析 Wilcoxon符号秩和检验检验 Spearman相关系数生存时间时间生存分析数据的分析程序数据的转换 1 )非正态数据的变量转换多数的统计学分析方法是建立在数据正态分布的基础上的，若数据不符合正态分布，则不能够应用参数检验(parametric test)的方法，只能应用非参数检验(non- parametric test)的方法，而非参数的方法不是对原始数据的检验，如秩和检验就是非参数检验方法之一，它是对原始数据的秩次(rank)进行检验，这样可能损失数据信息，降低检验效率 n 在对数值变量进行分析时，需首先根据统计分析方法/统计分析公式的限制性使用条件对数据进行“条件”检验，如正态性检验和方差齐性检验等。很多统计学软件具有方便的正态性检验、方差齐性检验功能如SAS软件等 .若经过检验数据不符合使用条件，就需要进行数据的变量变换，变换后符合条件就可以应用参数检验的方法，否则，只有应用非参数检验的方法。 n数据变量转换的方法很多，可以根据数据的分布特征，选择合适的数据转换方法。常用的方法有对数变换，平方根变换或倒数变换等。 2) 分类变量转换成哑变量若分类变量是二分类尺度及顺序尺度，则可直接应用其原有的数量化数值，但对于名义尺度因为各类别间没有顺序关系，在进行不同分析（包括多元分析、logistic回归、Cox 回归等）时，不能使用原始的计算机录入数值，必经进行变量转换。即将该变量转换成（水平数-1）个哑变量，再将这些新转换的变量放入多因素模型中。 t检验的应用条件 n两组数据的比较 n1样本量比较小（n50） n2样本来自正态总体 n3两样本总体方差齐同 n当两样本方差不齐时可以采用t检验，变量变换，或者秩和检验。方差分析的应用条件 n两组以上数据的比较 n1各样本是相互独立的随机样本； n2各样本要来自正态总体； n3要求各个样本的总体方差齐同。多个样本均数间的两两比较 nNewmanKeuls检验，亦称Student NewmanKeuls（SNK）检验，简称q检验。 n最小显著性差距(LSD)t检验。协方差分析 n定量分析中，进行两个样本或者多个样本的均数比较时，不仅需要使用假设检验判断其差异是否具有统计学差异，还应该考虑他们之间是否存在混杂因素（协变量）的影响。若存在协变量，则应该通过协方差分析进行校正。协方差分析是定量变量分析中控制混杂因素的重要手段影响观察指标的其他非研究性因素（混杂因素）在统计分析中又称之为协变量；考虑协变量影响的方差分析即为协方差分析。协方差分析是解决以上问题的分析方法，它将线性回归与方差分析结合起来，检验2个或者多个修正均数之间有无差别的假设检验方法。一般是先用直线回归的方法找出各组因变量与协变量之间的数量关系，求得修假定协变量相等时的修正系数，然后用方差分析比较修正均数间的差别。协方差分析的条件 1各个样本来自方差齐同的正态总体 2各组的总体直线回归系数相同，且都不为0。协方差分析的判别步骤： n1正态性和方差齐性检验； n2判断协变量与因变量有无线性关系； n3判断各组回归直线是否平行。直线回归与相关的区别与联系区别直线相关直线回归变量地位变量 x 变量 y 处于平等的地位，彼此相关关系变量 y 称为因变量，处在被解释的地位，x 称为自变量，用于预测因变量的变化变量性质所涉及的变量 x 和 y 都是随机变量，要求两个变量服从双变量正态分布因变量 y 是随机变量，自变量 x 可以是随机变量，也可以是非随机的确定变量实际作用主要是描述两个变量之间线性关系的密切程度（相关系数无单位）揭示变量 x 对变量 y 的影响大小（回归系数有单位），还可以由回归方程进行预测和控制多元线性回归的基本概念事物间的相互联系往往是多方面的，在很多情况下对应变量y 发生影响的自变量往往不止一个。多元线性回归的目的就是用一个多元线性回归方程表示多个自变量和1个应变量间的关系。标准偏回归系数表示其他自变量固定的情况下， xi改变一个单位，y平均改变bi个单位。多元线性回归的应用条件： n1. 独立性：各观察对象间相互独立。 n2. 线性：自变量与应变量间的关系为线性。 n3. 正态性：自变量取不同值时，应变量的分布为正态。 n4. 方差齐性：自变量取不同值时，应变量的总体方差相等。 n5. 当不符合条件时，可对自变量进行变换。如： n要比较各个自变量对于应变量的作用大小，不能用偏回归系数，因为各偏回归系数的单位不同。必须把偏回归系数标准化，化成没有单位的标准偏回归系数. n消除不同单位的影响后，标准偏回归系数的绝对值越大，该自变量对于应变量的作用越大，但该差别是否有统计意义，也必须经过检验。（2）对各偏回归系数的显著性检验： F检验与 t检验 1. 计算截距和各偏回归系数。 2. 多元回归方程的显著性检验：（1）整个方程的显著性检验：用方差分析。 STEPWISE REGRESSION n一逐步回归分析的基本概念逐步回归分析的目的是建立“最优”回归方程。 “最优”回归方程是指包含所有对y有显著作用的自变量，而不包含对y作用不显著的自变量的方程。逐步回归分析的计算方法 n 在供选的自变量Xi中，按其对y的作用大小，由大到小地把自变量逐个引入方程，每引入一个自变量就对它作显著性检验，显著时才引入，而当新的自变量进入方程后, 对方程中原有的自变量也要作检验，并把作用最小且退化为不显著的自变量逐个剔出方程。因此，逐步回归的每一步（引入一个变量或剔除一个变量都称为一步）前后都要作显著性检验，以保证每次引入新变量前方程中只包含作用显著的自变量。这样一步步进行下去, 直至方程中所含自变量都显著而又没有新的作用显著的自变量可引入方程为止。逐步回归分析在医学研究中的应用及需要注意的几个问题 n1方程“最优”问题，实际是精选自变量以求得拟和效果最好的多元回归方程。最优子集回归是选择一种使回归方程拟和最好的自变量，而逐步回归则选择对因变量作用有意义的自变量。要根据研究目的选用适合方法。 n2逐步回归主要在医学中用于病因探索，临床疗效分析及控制等。 n3线性回归模型要注意正态性，方差齐性和独立性，因变量必须是随机变量等。 n4入选变量如果明显地与实际问题的专业理论不一致时，首先检查数据是否有异常点，自变量间有无共线性存在，数据输入是否有误等，要结合专业知识作出合理的解释。 n5逐步回归在对大量因素进行分析时，可以先进行聚类分析，然后进行逐步回归。通常，观察单位取变量值的5 10倍为宜。 Logistic回归分析的基本思想回忆：线性回归分析对因变量的要求因变量 y 连续型服从正态分布胆固醇含量自变量 x 数值型与Y呈线性关系年龄舒张压医学研究中经常遇到分类型变量，例如： n二分类变量：生存与死亡有病与无病有效与无效感染与未感染 n多分类有序变量：疾病程度（轻度、中度、重度）治愈效果（治愈、显效、好转、无效） n多分类无序变量：手术方法（A、B、C）就诊医院（甲、乙、丙、丁） n这种回归分析问题不能借助于线性回归模型，因为因变量的假设条件遭到破坏。 n能否找到一种其他形式的模型y=f(x)来描述分类变量y和x之间依存关系呢？因为从数学角度看，使得x取任意值而y仅取1和0两个值的的函数不存在。 n转换为分析y取某个值的概率变量p与x的关系不能直接分析变量y与x的关系 Logistic回归模型 Logistic回归分析的分类 n按数据的类型：非条件logistic回归分析（成组数据）条件logistic回归分析（配对病例-对照数据） n按因变量取值个数：二值logistic回归分析多值logistic回归分析 n按自变量个数：一元logistic回归分析多元logistic回归分析 Logistic 回归分析的数学模型 1、一元logistic回归模型令y是1,0变量， x是一个危险因素；p=p(y=1|x) ，那么，二值变量y关于变量 x的一元logistic 回归模型是：其中，和是未知参数或待估计的回归系数。该模型描述了y取某个值（这里y=1)的概率p与自变量x之间的关系 2、多元logistic回归模型令y是1,0变量，x1,x2,xk是k个危险因素； p=p(y=1|x1,x2,xk)，那么，变量y关于变量x1,x2,xk的k元logistic回归模型是： Logistic 回归模型的另外一种形式它给出变量z=logit(p)关于x 的线性函数。参数估计的步骤 1数据结构设有P个危险因素X1,X2,Xn及结果分析变量Y，观察例数为n。进行logistic回归时，应将原始资料进行整理，一般格式如下编号因素 Y X1X2XP 1X11X12XP1Y1 2X21X22XP2Y2 nXn1Xn2Xn3XnPYn 2 参数的估计 Logsitc回归的参数估计常用最大似然估计法。其基本思想是先建立似然函数和对数似然函数，求似然函数或对数似然函数达到极大值时参数的取值，即为参数的最大似然估计值。可求出值。 3 假设检验求得各个参数的估计值之后，并不意味着每个因素都与因变量有联系，模型中应只保留对因变量有影响因素，因此要求对方程中的各变量逐一进行检验，剔除对因变量无影响的因素，并对拟和的模型进行检验。即使用似然比检验法，通过逐步回归筛选自变量，最后得到具有统计学意义的logistic回归方程。该过程很复杂，由计算机完成。 n医学中经常需要作配对病例-对照研究。所谓的配对病例- 对照研究指的是在病例-对照研究中，对每一个病例配以性别、年龄或其它条件相似的一个(1:1)或几个(1:M)对照，然后分析比较病例组与对照组以往暴露于致病因素的经历。 n分析配对病例-对照研究资料的统计分析方法一般采用条件logistic回归分析。 n条件logistic回归分析的数学模型以及分析原理方法均和非条件l

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计方法的分类与选择.ppt

文档简介

温馨提示

最新文档

评论

统计方法的分类与选择.ppt

文档简介

温馨提示

最新文档

评论

相关文档