SAS统计分析教程方法总结_第1页
SAS统计分析教程方法总结_第2页
SAS统计分析教程方法总结_第3页
SAS统计分析教程方法总结_第4页
SAS统计分析教程方法总结_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、对定量结果进行差异性分析1. 单因素设计一元定量资料差异性分析1.1. 单因素设计一元定量资料t检验与符号秩和检验T检验前提条件:定量资料满足独立性和正态分布,若不满足则进行单因素设计一元定量资料符号秩和检验。1.2. 配对设计一元定量资料t检验与符号秩和检验配对设计:整个资料涉及一个试验因素的两个水平,并且在这两个水平作用下获得的相同指标是成对出现的,每一对中的两个数据来自于同一个个体或条件相近的两个个体。1.3. 成组设计一元定量资料t检验成组设计定义:设试验因素A有A1,A2个水平,将全部n(n最好是偶数)个受试对象随机地均分成2组,分别接受A1,A2,2种处理。再设每种处理下观测的定量

2、指标数为k,当k=1时,属于一元分析的问题;当k2时,属于多元分析的问题。在成组设计中,因2组受试对象之间未按重要的非处理因素进行两两配对,无法消除个体差异对观测结果的影响,因此,其试验效率低于配对设计。T检验分析前提条件:独立性、正态性和方差齐性。1.4. 成组设计一元定量资料Wilcoxon秩和检验不符合参数检验的前提条件,故选用非参数检验法,即秩和检验。1.5. 单因素k(k=3)水平设计定量资料一元方差分析方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。方差分析的假定条件为: (1)各处理条件下的样

3、本是随机的。 (2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。(3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。(4)各处理条件下的样本方差相同,即具有齐效性。1.6. 单因素k(k=3)水平设计定量资料一元协方差分析协方差分析(Analysis of Covariance)是将回归分析与方差分析结合起来使用的一种分析方法。在这种分析中,先将定量的影响因素(即难以控制的因素)看作自变量,或称为协变量(Covariate),建立因变量随自变量变化的回归方程,这样就可以利用回归方程把因变量的变化中受不易控制的定量因素的影响扣除掉,从而,能够较合理地比较定性的影

4、响因素处在不同水平下,经过回归分析手段修正以后的因变量的样本均数之间的差别是否有统计学意义,这就是协方差分析解决问题的基本计算原理。在试验中,试验因素有时会受到某个重要的定量的非试验因素的影响,为了消除这种定量非试验因素对定量观测结果的影响和干扰。前提条件:一、要求各组定量资料(主要指观测结果)来自方差相等的正态总体;二、各组的总体回归斜率要相等且不等于零。1.7. 单因素k(k=3)水平设计一元定量资料Kruskal-Wallis秩和检验定量资料不满足参数检验的前提条件时,则可选择秩和检验2. 单因素设计一元生存资料差异性分析生存分析(Survival Analysis)是将重点事件的出现与

5、否和达到终点所经历的时间结合起来的一种统计分析方法,其主要特点就是考虑了每个观察对象达到终点所经理的时间长短。终点事件不限于死亡,可以是疾病的发生、一种处理(治疗)的反映、疾病的复发等。生存分析可用于生存曲线估计、生存曲线比较、影响因素分析和生存预测。生存分析有一套完整的方法:统计描述(包括求生存时间的分位数、中位生存期、平均数、生存函数的估计、判断生存时间分布的图示法)、非参数检验(检验分组变量各水平所对应的生存曲线是否一致)、COX模型(半参数)回归分析、参数模型回归分析。研究者比较k条生存曲线之间是否有显著差别时,SAS软件提供了3种常用的方法:对数秩检验(log-rank Test)、

6、威尔考克森(Wilcoxon Test)和似然比检验(Likelihood Ratio Test)。当生存时间的分布为Weibull分布或属于比例风险比模型时,Log-Rank检验效率较高;当生存时间的分布为对数正态分布时,Wilcoxon检验效率较高;因似然比检验是建立在指数分布模型上的,故当资料偏离此模型时,其结果不如前两种检验方法稳健。非参数法估计生存率有乘积极限法(Product-Limit Method,PL)和寿险法(Life Table Method),其中乘积极限法又称为Kaplan-Meier法(简称KM法)。前者适用于小样本或大样本未分组资料,后者适用于观察倒数较多的分组资

7、料。3. 多因素设计一元定量资料差异性分析3.1. 随机区组设计一元定量资料方差分析与Friedman秩和检验随机区组设计(Randomized block design),亦称完全随机区组设计(random complete block dsign)。这种设计的特点是根据“局部控制”的原则,将试验地按肥力程度划分为等于重复次数的区组,一区组安排一重复,区组内各处理都独立的随机排列。参数检验前提条件:独立性、正态性和方差齐性若不满足参数检验的前提条件,采用秩和检验。3.2. 双因素无重复实验设计一元定量资料方差分析有两个试验因素,全部试验条件由两因素各水平全面组合而成,在每个条件下获得定量资料

8、的均值数据。3.3. 平衡不完全随机区组设计一元定量资料方差分析所谓平衡不完全随机区组试验(Balanced Incomplete Block Design,简称BIB试验)就是试验方案因受地块限制,不能把试验处理全部安置在试验区组内的情况下,所进行的试验设计。其缺点是:区组数必须严格按规定数目设立,缺一不可,否则各处理之间的比较将失去均衡性。BIB试验设计需满足如下条件:N=b*k=*=(k-1)-1其中N为试验小区总数;为任两处处理在同一区组中出现的次数;是每个处理的重复数;b是不完全随机区组数;k是每区组内的小区数。3.4. 拉丁方设计一元定量资料方差分析拉丁方设计(Latin squa

9、re design)使研究人员得以在统计上控制两个不相互作用的外部变量并且操纵自变量。每个外部变量或分区变量被划分为一个相等数目的区组或级别,自变量也同样被分为相同数目的级别。拉丁方以表格的形式被概念化,其中行和列代表两个外部变量中的区组,然后将自变量的级别分配到表中各单元中。简单的说就是某一变量在其所处的任意行或任意列中,只出现一次。假设我现在要做一个实验,被试一共要进行5个小测试,并且需要重测多次,因此对这5个测试的排序就需要列入变量控制之内,不可能多次都一样的顺序,因此为了平衡这种顺序效应,采取拉丁方设计,先命名5个小测试分别为1,2,3,4,5。那么对其的排序就是这样的: 第一组测试顺

10、序:1,2,5,3,4 第二组测试顺序:2,3,1,4,5 第三组测试顺序:3,4,2,5,1 第四组测试顺序:4,5,3,1,2 第五组测试顺序:5,1,4,2,3 其顺序是这样确定的,横排:1,2,n,3,n-1,4,n-2(n代表要排序的量的个数) 竖排:1,2,3,4,5 再轮回。3.5. 二阶段交叉设计一元定量资料方差分析在医学研究中,要将A、B两种处理先后施加于同一批试验对象,随机地使半数受试者先接受A后接受B,而另一半受试者正好相反,即先接受B再接受A。由于两种处理在全部试验过程中交叉进行,这种设计称为交叉设计(cross-over design)。在交叉设计中,A、B两种处理先

11、后以同等的机会出现在两个试验阶段中,故又称为两阶段交叉设计。试验效应受到3个因素的影响,一个是处理因素,一个是处理顺利因素,还有一个是试验阶段因素,而且必须保证这3个因素之间没有交互作用。虽然交叉试验的处理是单因素,但影响试验结果的因素还有非人为控制的受试者的个体差异和试验阶段这两个因素。因此,该设计不仅平衡了处理顺序的影响,而且能把处理方法间的差别、时间先后之间的差别和受试者之间的差别分别进行分析。3.6. 析因设计一元定量资料方差分析析因设计是一种多因素的交叉分组设计。它不仅可检验每个因素各水平间的差异,而且可检验各因素间的交互作用。两个或多个因素如存在交互作用,表示各因素不是各自独立的,

12、而是一个因素的水平有改变时,另一个或几个因素的效应也相应有所改变;反之,如不存在交互作用,表示各因素具有独立性,一个因素的水平 有所改变时不影响其他因素的效应。3.7. 含区组因素的析因设计一元定量资料方差分析3.8. 嵌套设计一元定量资料方差分析试验中涉及两个或多个试验因素,且依据专业知识可以认为各试验因素对观测指标的影响有主次之分,主要因素各水平下嵌套着次要因素,次要因素各水平下又嵌套着更次要的因素,这样的试验设计称为嵌套设计。此类设计有两种情形:第一种情形是,受试对象本身具有分组再分组的各种分组因素,处理(即最终的试验条件)是各因素各水平的全面组合,且因素之间在专业上有主次之分(如年龄与

13、性别对心室射血时间的影响,性别的影响大于年龄);第二种情形是,受试对象本身并非具有分组再分组的各种分组因素,处理(即最终的试验条件)不是各因素各水平的全面组合,而是各因素按其隶属关系系统分组,且因素之间在专业上有主次之分(如研究不同代次不同家庭成年男性的身高资料,不同家庭之间的差别大于同一个家庭内部不同代次之间的差别)。3.9. 裂区设计一元定量资料方差分析试验因素分两阶段进入试验过程,通常由先进入试验的试验因素(设为A)构成单因素多水平设计或由先进入试验的试验因素(设为A)与区组因素(设为B)构造出含m次独立重复试验的随机区组设计;再把接受因素A各水平处理或接受因素A与因素B各组合水平处理的

14、m个受试对象随机地分配给在第二阶段进入试验的试验因素C的m个水平,这样安排试验因素的方法称为裂区设计或分割设计。结合实际问题,当试验研究过程自然形成2个或多阶段(有时称为工序),各阶段涉及的试验因素彼此不同,但需要等整个试验过程结束后,才能观测定量指标的结果,就需要用到此设计。3.10. 正交设计一元定量资料方差分析正交试验设计(Orthogonal experimental design)是研究多因素多水平的又一种设计方法,它是根据正交性从全面试验中挑选出部分有代表性的点进行试验,这些有代表性的点具备了“均匀分散,齐整可比”的特点,正交试验设计是分析因式设计的主要方法。是一种高效率、快速、经

15、济的实验设计方法。正交表是一整套规则的设计表格,每个因素的每个水平与另一个因素各水平各碰一次,这就是正交性。进行c因素t水平n次试验的正交表为Lntc,其中,L为正交表的代号,n为试验的次数,t为水平数,c为列数,也就是可能安排最多的因素个数。3.11. 重复测量设计一元定量资料方差分析重复测量设计指将一组或多组被试者先后重复地施加不同的实验处理, 或在不同场合和时间点被测量至少两次的情况。重复测量设计大体有两类. 一类是对每个人在同一时间不同因子组合间测量; 另外一类是对每个人在不同时间点上重复. 前者常见于裂区设计,而后者常见于经典试验设计即包括前测,处理,一次或几次后测的情况. 后者比前

16、者要多见。3.12. 常见多因素实验设计一元定量资料协方差分析试验中存在极为重要的非试验因素,需进行协方差分析,判断其对主要因素的影响。3.13. 多个单因素两水平设计定量资料Meta分析Meta分析是指用统计学方法对收集的多个研究资料进行分析和概括,以提供量化的平均效果来回答研究的问题.其优点是通过增大样本含量来增加结论的可信度,解决研究结果的不一致性。meta分析是对同一课题的多项独立研究的结果进行系统的、定量的综合性分析。它是文献的量化综述,是以同一课题的多项独立研究的结果为研究对象,在严格设计的基础上,运用适当的统计学方法对多个研究结果进行系统、客观、定量的综合分析。基本分析步骤: (

17、1)明确简洁地提出需要解决的问题。 (2)制定检索策略,全面广泛地收集随机对照试验。 (3)确定纳入和排除标准,剔除不符合要求的文献。 (4)资料选择和提取。 (5)各试验的质量评估和特征描述。 (6)统计学处理。 a异质性检验(齐性检验)。 b统计合并效应量(加权合并,计算效应尺度及95的置信区间)并进行统计推断。 c图示单个试验的结果和合并后的结果。 d敏感性分析。 e通过“失安全数”的计算或采用“倒漏斗图”了解潜在的发表偏倚。 (7)结果解释、作出结论及评价。 (8)维护和更新资料。4. 单因素设计多元定量资料差异性分析4.1. 单因素设计定量资料多元方差和协方差分析在某试验设计之下,若

18、每次只分析一个或多个定性影响因素对一个定量指标的影响,常采用一元方差分析;若每次用参数法同时分析一个或多个定性影响因素对两个或者两个以上在专业上有一定联系的定量指标的影响时,就称为多元方差分析(Multivariate Analysis of Variance, MANOVA)。做方差分析时,影响因素都是定性的。当除了定性的影响因素之外还有定量的影响因素存在(或者不可忽略)时,要分析各影响因素对定量指标的影响,则需要采用另外一种统计学分析方法,即协方差分析(Analysis of Covariance)才能达到目的。5. 多因素设计多元定量资料差异性分析5.1. 多因素设计定量资料多元方差分析

19、和协方差分析对定性结果进行差异性分析6. 单因素设计一元定性资料差异性分析6.1. 单组设计一维表资料统计分析groupcount19782226.2. 配对设计四格表资料统计分析1.先将实验对象配对后随机安排到两个不同处理组,所得的二分类结果的资料。2.同一批对象两个时间点(或两个部位)的测定,或同一对象用两种方法(或两种仪器、两名化验员、两种条件)的测定,所得的二分类(如阳性、阴性)结果的资料。6.3. 配对设计扩大形式的方表资料统计分析配对设计扩大形式的方表形式甲乙-+合计-1502320+2191224+1317021+02068合4. 成组设计横断面研究四格

20、表资料统计分析性 别人数通过未通过合计男413273女43851合计8440124该表设计上属于结果变量为二值变量的成组设计定性资料,列联表分类上属于横截面研究设计四格表资料。6.5. 成组设计队列研究四格表资料统计分析血压情况例数患者未患病合计偏好196180正常20465485合 计39526565该资料是成组设计队列研究四格表资料。队列研究设计是通过对不同暴露水平的对象进行追踪观察,随访观察疾病发生情况,从而判断该因素与发病之间有无关联。6.6. 成组设计病例对照研究四格表资料统计分析喂养方式例数患龋未患龋合计母乳3781118人工或混合6676142合 计103157260该表是成组设

21、计病例对照研究四格表资料。病例对照设计是以确诊的患者作为病例,以不患该病但具有可比性的个体作为对照,收集以往危险因素的暴露史,用统计学方法比较两组中危险因素的暴露比例,从而判断因素与疾病之间是否存在统计学关联。6.7. 成组设计结果变量为多值有序变量的2C表资料统计分析6.8. 成组设计结果变量为多值名义变量的2C表资料统计分析6.9. 单因素多水平设计无序原因变量R2表资料统计分析6.10. 单因素多水平设计有序原因变量R2表资料统计分析6.11. 单因素多水平设计双向无序 RC表资料统计分析6.12. 单因素多水平设计有序结果变量RC表资料统计分析6.13. 单因素多水平设计双向有序RC表

22、资料统计分析7. 多因素设计一元定性资料差异性分析7.1. 用加权x2检验处理结果变量为二值变量的高维列联表资料在三维列联表中,通常有两个原因变量和一个结果变量,不同的研究目的决定了选用不同的统计分析方法。对于结果变量为二值变量的高维列联表,可选用加权x2检验、CMHx2检验、多重logistic回归、对数线性模型等。若不想用复杂的对数线性模型模型或logistic回归模型来分析三维列联表资料,并且资料又不合适采用简单“合并”方式处理时,就可采用加权x2检验(消除掉一个原因变量对结果变量的影响,考察另一个原因变量与结果变量之间是否独立)、CMHx2检验(消除掉一个原因变量对结果变量的影响,计算

23、优势比OR或相对危险度RR,并对其进行假设检验)。这两种检验方法都无法回答被合并掉的那个原因变量对结果变量的影响作用有多大,只是对其进行分层计算,即评价另一个原因变量对结果变量的影响时将其对结果变量的影响扣除掉。7.2. 用CHMx2检验处理结果变量具有3种性质的高维列联表资料结果变量为二值变量的三维列联表,可以选用加权x2检验,CMHx2检验、logistic回归和对数线性模型。CMH统计分析(Cochran Mantel Haenszel Statics)是在MH统计分析方法的基础上发展并提出来的,现在统称为扩展的MH卡方统计量,也统称为MH检验,用于分层分析即控制混杂因素后对二维列联表资

24、料的统计处理。结果变量为多值有序变量的高维列联表资料,可以选用CMHx2检验(即CMH校正的秩和检验)和有序变量logistic回归分析进行处理。对数线性模型无法利用资料的有序性,因此不宜选用。若采用有序变量多重logistic回归分析,应注意结合原因变量是否存在多值名义变量或多值有序变量而决定对原因变量的赋值方法。结果变量为多值无序变量的高维列联表资料,可以采用CMHx2检验、扩展的logistic回归分析和对数线性模型。注,CMHx2检验包含三种检验方法:(1)非零相关检验(适合于原因变量与结果变量都是多值有序变量)(2)行平均得分检验(仅考察原因变量全部水平组之间在结果上的差别是否具有统

25、计学意义,结果变量必须是多值有序变量)。(3)一般关联性检验(适合于原因变量和结果变量都是名义变量)。这里所提及的“原因变量”是指在多个原因变量中被保留下来的那个原因变量。7.3. 用Meta分析分别合并处理多个成组设计定性资料7.4. ROC方法分析诊断试验资料8. 多因素设计一元定性资料对数线性模型分析8.1. 用对数线性模型分析列联表资料对数线性模型是分析高维列联表行之有效的方法,最先由Yule、Bartlett利用Yule(1900年)定义的交叉乘积比分析三维交互作用,然后由Kullback(1968年)引入方差分析的思想发展而来。对数线性模型把各分组变量(包括自变量和因变量)水平组合

26、下期望(理论频数)的自然对数表示为各组变量及其交互作用的线性函数,通过迭代计算求得模型中参数的估计值,进而运用方差分析的思想检验各主效应和交互作用的效应大小。对定量结果进行预测性分析9. 两变量简单线性回归分析9.1. Pearson线性相关分析当两个变量取值之间出现一个增大,另一个也增大(或减小)的情况时,则称这种现象为共变,也就是说这两个变量之间有“相关关系”。简单线性相关关系是描述两定量变量间是否含有直线关系以及直线关系的方向和密切程度的分析方法。此分析方法主要通过计算相关系数的大小并对其进行假设检验以及结合专业知识来评价得到的相关系数是否有实际意义来完成。前提条件:两变量需满足正态分布

27、。9.2. Spearman秩相关分析在做Pearson相关分析时,要求两变量服从正态分布,然而当得到的原始数据并不服从正态分布或其总体分布未知,有时3数据中还存在所谓“超限值”(如限于仪器的灵敏度,仅知道血样某物质浓度小于0.001ug/ml),甚至数据本身就是等级材料。此时,宜采用等级相关或称秩相关来分析两变量的线性联系程度与方向。这类方法是利用两变量的秩次大小做线性相关分析,对原变量分布不做要求,属非参数统计分析方法。9.3. 简单线性回归分析简单线性回归分析是用直线回归方程表示两个定量变量间依存关系的统计分析方法。此分析方法主要由三部分组成:(1)计算反映两定量变量依赖关系的直线回归方

28、程,即计算直线回归方程的截距a、斜率b。(2)根据样本截距a、斜率b,检验样本所抽自的总体截距是否为0、总体斜率是否为0。(3)结合专业知识,评价此直线回归方程是否有实用价值。前提条件:线性(linear):即X和Y之间的关系为线性关系;独立(independent):即n个个体的观察资料间必须是独立的;正态(normal):即给定X后,Y为正态分布,且Y的均数就是回归线上对应于X值的点;等方差(equal variance):即不同X值对应的Y的分布具有相同的方差,换句话说Y的方差与X无关。9.4. 加权线性回归分析此方法未弄明白。10. 两变量可直线化曲线回归分析10.1. 对数函数、幂函

29、数和双曲函数曲线回归分析1.对数函数对数函数:y=a+b*lg(x) 变化方法:x=lg(x) 直线化结果:y=a+b*x2.幂函数幂函数:y=axb 变换方法:y=lny, x=lnx直线化结果:y=lna+b*x3.双曲线函数双曲线函数:1y=a+bx (a0) 变换方法:y=1y, x=1x直线化结果:y=a+b*x10.2. 指数函数曲线回归分析指数函数:y=aebx 变换方法:y=lgy直线化结果:y=lna+b*x10.3. Logistic函数曲线回归分析Logistic曲线:y=L+K1+aebx 变换方法:y=lnK-(y-L)y-L直线化结果:y=lna+b*x11. 各种

30、复杂曲线回归分析11.1. 多项式曲线回归分析二项式的可能曲线形式有:三项式的可能曲线形式有:11.2. Logistic曲线回归分析11.3. Gompertz曲线回顾分析Gompertz曲线方程:y=Le-ae-bx,L为上渐近线。11.4. 二项型指数曲线回归分析二项式指数曲线:y=A*e-x+B*e-x11.5. 三项型指数曲线回归分析三项式指数曲线: y=N*e-kax+L*e-x+M*e-x12. 多重线性回归分析多重线性回归是指因变量为一个、自变量为多个的线性回归分析。前提条件:1、自变量与因变量之间存在线性关系;2、各观测间相互独立;3、残差服从正太分布;4、方差齐性。需要注意

31、的是,在回归方程中,不能直接根据各自变量回归系数绝对值的大小来评价该自变量的作用大小,因为自变量的单位不尽相同,回归系数的大小要收到单位的影响。如果要比较各自变量的作用大小,应消除自变量单位的影响,这就需要求标准化的回归系数。标准化回归系数没有量纲,统计学上常用它的绝对值大小来衡量自变量对因变量影响的相对重要性,标准化回归系数的绝对值越大,说明该自变量对隐变量的作用越大。13. 主成分回归分析主成分回归分析是将多个彼此相关、信息重叠的指标通过适当的线性组合,使之成为彼此独立而又提取了原指标变异信息并带有特定专业含义的综合潜变量,即主成分,建立潜变量和因变量间的线性回归方程,再将回归方程中的潜变

32、量转换为原自变量的一种统计学方法。多重线性回归分析和主成分回归分析都是用于分析单因素设计多元定量资料的统计学方法。基本步骤:(1)进行多重线性回归分析,并进行共线性诊断;(2)如果自变量之间存在共线性,则可选择进行主成分分析,以解决由于共线性的影响,造成回归结果不合理或无法解释的问题。(3)用主成分分析求自变量的主成分和主成分得分,将贡献率小的主成分舍弃。(4)将因变量对保留的主成分得分进行回归分析。(5)将主成分的表达式回代,最后得到因变量与原始变量的回归模型,并给予专业解释。14. 岭回归分析用REG过程进行多重线性回归分析,在进行参数估计时常用最小二乘法。该方法在数据满足GM(Gauss

33、-Markov)定理时,保证了在线性无偏估计类中的方差最小。如果进一步假设误差服从正态分布,那么最小二乘法还具有更多更好的性质。但是,在实际应用中,许多应用实践证明,有些情况在运用最小二乘法时并不是很理想,在个别情况下可能不是很好。自20实际50年代特别是60年代以来,许多统计学家做了很多努力,试图改进最小二乘法估计。Stein于1955年证明了:当维数大于2时,能够找到另外一个估计,它在某种意义下一致优于最小二乘法估计。据此,在后来的发展中,统计学家提出了许多新的估计方法,主要有岭估计、主成分估计以及特征根估计等。这些估计的一个共同特点是有偏性。单组设计多元定量资料,可能的分析方法有多重共线

34、性回归分析、响应曲面回归分析、岭回归分析、病态数据回归分析等。哪一种方法最好或者比较好呢?正确的分析方案将是:分别用不同的回归分析方法对此资料进行分析,然后对不同回归分析方法得出的结果进行比较,哪一种方法得到的结果最符合专业实际,也就是最好或者比较好的方法。当然也有可能用现有的各种方法所得到的结果不具有推广应用的价值,如果是这样,则需要寻找别的方法。15. Poisson回归分析Poisson回归属于广义线性模型,专门适用于响应变量是计数资料的情形,可以定量地分析多个响应因素与计数的响应变量之间的关系。Poisson分布是由法国数学家S.D.Possion作为二项分布的近似而引入的,常用于描述

35、单位时间、平面或空间中罕见“质点”数的随机分布规律。Poisson回归是基于Poisson分布,用于单位时间、单位面积或单位空间内某时间发生数(事件的发生服从Poisson分布)的响应因素分析的一种方法。前提条件:要求事件的发生是独立的。小结:Poisson回归用于描述结果变量服从Poisson分布的资料。Poisson回归模型与logistic回归模型均属于广义线性模型,在建模的过程中除了连接函数不同外,主要的不同之处在于数据服从何种分布,适合于用何种方法建模。Poisson回归一般用于单位时间、单位面积、单位空间内某时间发生数的影响因素的探讨,时间的发生服从Poisson分布。当结果变量是

36、二分类或多分类时,应根据数据的分布情况看数据是满足Poisson分布还是可通过logit变化进行logistic回归分析。16. 负二项回归与Probit回归分析Poisson回归分析是以计数资料为响应变量的标准回归模型。但是在Poisson回归分析中要求均数和方差相等,实际数据往往并不符合这一假定,方差有时会大于均数,也就是所谓的过离散(Overdispersion),这将导致模型参数估计值的标准误差偏小,参数wald检验的假阳性率增加。这种情况的出现可能是由于观测之间不独立导致的;而在医学研究中,很多事件的发生是非独立的。对于这类资料,可以采用负二项回归分析。过离散在理解负二项回归分析中居

37、于中心地位,负二项回归的每一个应用几乎都与Poisson回归中发现过离散有关。统计学分析的目的都是建立观测个体产生某种响应的概率与各自变量水平的关系,以便通过某观测个体各自变量的水平取值来预测其产生某种影响的概率。这可以通过logistic回归分析来间接实现,也可以通过probit回归分析来直接实现。Probit回归分析与logistic回归分析的最大不同点在于:probit回归分析中的响应变量不再是二值变量(取值为0或1,如是否罹患心脏病),而是0-1之间的百分比变量。17. 生存资料COX模型回归分析目前,对生存资料的多因素分析最常用的方法是COX比例风险回归模型(Proportional

38、 Hazards Regression Model),简称COX模型。该模型是一种多因素的生存分析法,它可同时分析众多因素对生存期的影响,分析带结尾生存时间的资料,并且不要求估计资料的生存分布类型。COX模型属比例风险模型簇,其基本假定之一是比例风险假定(简称PH假定)。只有在满足该假定前提条件下,基于此模型的分析预测才是可靠有效的。正像我们所熟知的t检验中的正态分布假定一样,当使用比例风险模型时,比例风险假定应看成一个基本前提。检查某斜变量是否满足PH假定,最简单的方法是观察按该变量分组的Kaplan-Meier生存曲线。若生存曲线交叉,则提示不满足PH假定。第2种方法是绘制按该变量分布的l

39、n(-lnS(t)对生存时间t的图,曲线应大致平行或等距。如各斜变量均满足或近似满足PH假定,可直接应用基本COX模型。18. 生存资料参数模型回归分析生存资料参数模型回归分析的一个重要内容是拟合或分布拟合。描述生存时间分布的模型通常有指数分布、Weibull分布、对数正态分布、Gamma分布等。常见生存时间分布的概率密度函数f(t)、生存函数S(t)和风险函数h(t)如下表。实际对生存数据作分布拟合时,可用上述模型分别进行拟合,根据拟合优度检验的结果选择适当的模型。有时,对于一批生存数据,事先不知道生存时间分布的总体趋势,也不好判断用什么样的模型最合适,许多研究者一般直接采用非参数方法或半参

40、数法。但是如果一批数据确实符合某特定的参数模型,由于非参数方法的精度一般低于参数方法,因此,按照非参数方法进行的分析就不能有效地利用和阐述样本数据所包含的信息,同时它对样本量的要求也高于参数方法。常见生存时间分布的概率密度函数f(t)、生存函数S(t)和风险函数h(t)分 布f(t)S(t)h(t)指数分布exp(-t)exp(-t)weibull分布t-1exp-texp-(t)t-1gamma分布t-1exp(-t)()1-I(t,r)f(t)s(t)对数正态分布exp-12(lnt-)2t21-lnt-f(t)S(t)对数logistic分布(tr)-11+(t)211+(t)t-11+

41、(t)广义gamma分布kt-1exp(-t)(k)1-I(t,)f(t)S(t)19. 时间序列分析按某种(相等或不想等)的时间间隔对客观事物进行动态观察,由于随机因素的影响,各次观察的指标x1,x2,x3,xi都是随机变量,这种按时间顺序排列的随机变量的一组实测值称为时间序列。时间序列中每一时期的数值,都是由许多不同的因素共同作用的结果,而这些因素往往交织在一起,这样就增加了分析时间序列的困难。因此,时间序列分析通常对各种可能发生作用的因素进行分类,如长期趋势、季节变动、循环变动和不规则变动。时间序列分析的目的是利用所拟合的模型对某研究领域的动态数据的未来状况进行预测。时间序列分析大致包括

42、三方面的内容:(1)选择模型并进行参数估计;(2)模型的适用性检验;(3)预测预报。19.1. 指数平滑法指数平滑(Exponential Smoothing)是由Brown等(Brown和Meyers于1961年;Brown于1972年)发展起来的计算模式,它拟合一种使用平滑方案的时间趋势模型。通式是St=axt+(1-a)St-1,式中St为第t期平滑值(t0),a为平滑系数(取值范围0a1),xt为第t期实际观测值,系数a和(1-a)都是表示权重。在此方案中,权重大小随着时间的向后推移而呈现几何级数下降。所以对于事物未来发展的回评,新近的观测值比早期的观测值的预测价值更大,所以在预测时,

43、新近观测值应比早期观测值具有更大权重。作为一种预测方法,指数平滑预测效果的好坏取决于对这个序列选择一个怎样的平滑系数a。a值为0-1。一般来说,平滑系数a的取值大小应当视预测对象的特点及预测周期的长短而定。a取值偏低时,预测结果主要取决于历史情形,不能及时跟踪数据新的变化趋势;a取值偏高时,预测模型具有较高的灵敏度,能够迅速跟踪新数据的变化,但对历史数据的信息利用较少。在实际应用中,通常采用多个水平的a值进行试算比较,选择其中的最优值做为平滑系数,原则是使预测误差平方和(SSE)、平均平方误差(MSE)或平均绝对误差(MAE)最小。在根据上述原则进行优选后,还应该对根据预测结果所得到的参数的合

44、理性进行检验。19.2. ARIMA模型19.3. 谱分析应用时间序列分析的目的是进行预测和控制。时域分析是,通过建立时间序列模型对时间数据样本进行预测和估计,展现数据内在的特性。频域数据则是从频率角度展现时间序列数据的特点和规律,其中最主要的任务是通过谱分析来获得时间数据的周期性特点,这一特点对于了解数据变化的规律来说是一个关键点。时间序列研究对数据的要求是比较高的。最关键的是,数据必须是平稳序列。首先要进行时间序列分析,对序列的长度是有要求的,长度不能太短,应该是大样本;但是也不能太长,至少是周期的2倍以上。当然,时间序列的频域研究同样也要求测量的时间间隔为等间隔。另外,若欲表达时间序列中

45、周期值为T的信息成分,则采样间隔不能大于T/2,该采样定理就是Nyquist采样定理。在进行谱分析之间要先进行数据的去趋势化,可以通过回归过程求剩余残差实现,也可以通过选项ADJMEAN来实现。SAS软件的SPECTRA过程中是不允许缺失数据出现的,缺失数据将无法参与分析,被自动排除于分析之外。如果分析变量中出现缺失值时,程序自作主张将变量中没有缺失值的最长的连续数据部分作为分析变量。在分析要注意检查缺失数据,也可以通过补充缺失数据来实现。19.4. X12方法X12过程是根据美国人口普查局X-12-ARIMA季节调整程序改编的,用于调整月度或季度时间序列数据。该过程包含了X-11过程、X-1

46、1-ARIMA/88模型以及一些新的特征。X12过程较X11的一个主要提高是应用regARIMA模型带有ARIMA(Autoregressive Integrated Moving Average)误差的回归模型,利用该模型进行移动假日、月份长度、交易日效应等固定效应的调整。X-12-ARIMA模型包含了美国人口统计局和加拿大统计局开发的季节调整模型的主要特征。对序列进行季节调整是基于这样的假定:季节性波动可以由原始序列(Qt,t=1,n)中测得,并能与趋势起伏、交易日及不规则波动分离开:这一时间序列的季节成分(St)定义为年内的变动,从一年到一年之间恒定地取值或缓慢地变化;趋势起伏项(Ct)

47、包含由长期趋势,经济起伏及其他长期起伏因素引起的变化;交易日成分(Dt)是由历史交易日位置变化引起的;不规则成分(It)是残余的变化量。对定性结果进行预测性分析20. 非配对设计定性资料多重logistic回归分析在生物医学研究中最常见的问题之一是探索各种影响因素(自变量X)与疾病或健康(响应变量Y)之间的关系。在许多情况下,疾病和健康状况属于分类变量,包括二值变量、多值有序变量和多值名义变量。当响应变量为分类变量时,就不适合使用线性回归进行分析,这时可以考虑采用多重logistic回归。按照因变量的类型可以将logistic回归分为三类:因变量为二值变量的logistic回归;因变量为多值有

48、序变量的logistic回归,称为累积logistic回归模型或序次logistic回归模型;因变量为多值名义变量的logistic回归,称为多项logit模型。按照设计类型可以将logistic回归模型分为非条件logistic回归和条件logistic回归,其中非条件logistic回归就是指一般的logistic模型,适用于成组设计资料;条件logistic回归则是针对配对设计资料。20.1. 二值变量的多重logistic回归分析20.2. 多值有序变量的多重logistic回归分析20.3. 多值名义变量的多重logistic回归分析21. 配对设计定性资料多重logistic回归分

49、析配对设计能够改善两组研究对象的齐同性,提高研究效率。配对的因素一般是年龄、行呗等重要的混杂因素。最常见的配对形式是每个匹配组中有一个病例和若干个对照,称为1:m配对设计;当然,不同匹配组中病例和对照的人数也可以是任意的,也就是说不同匹配中病例数与对照数的比例可以不相等,称为m:n配对设计。讨论此类问题时,因关心的是在某一给定的条件下某事件发生的概率,这一概率称为条件概率,故将此类logistic回归称为条件logistic回归,将非配对设计资料的logistic回归称为非条件logistic回归。21.1. 1:1配对设计定性资料的多重logistic回归分析21.2. m:n配对设计定性资

50、料的多重logistic回归分析22. 原因变量为定量变量的判别分析根据明确分类的受试对象(或样品)的多个定量指标的取值建立一个或多个关系式(判别函数式,通常具有一定程度的出错概率),再根据某种或某些规则,基于已建立的判别函数式实现对归属尚不明确的哪些新个体的分类或判别,这样一种研究方法被称为判别分析。很显然,判别分析中的结果变量为分类变量(二分类变量或多分类变量)。小结:适于处理定量资料的判别分析方法比较多,其中又分为参数法和非参数法。参数法通常要求定量资料服从多元正态分布,最好类与类之间方差和协方差矩阵相等。但是,SAS软件中并没有提供检验定量资料是否服从多元正态分布的方法,故只能假定该条

51、件满足。在多元正态分布的假定成立的前提下,若方差和协方差矩阵相等,则将各类资料合并求方差和协方差矩阵,进而计算线性判别函数的系数;否则,采用各类资料的方差和协方差矩阵计算二次型判别函数的系数。有时,非参数判别法的效果很好,它可以通过改变其待定系数的值,来获得比较满意的判别结果。例如,可以改变K最近邻判别法中的K值或改变核密度判别法中的两个选项,即改变R值或和核密度的形式(共有正态核密度、均匀核密度等5中选项)。在采用参数法和非参数法对定量资料进行判别分析之前,最好采用逐步判别分析方法进行变量筛选,以便淘汰掉无区分能力的定量变量,有利于提供判别的效果。而且,对于原因变量为定量变量的判别分析,宜先

52、采用逐步判别分析法筛选变量,再对保留下来的定量变量采用参数法和非参数法进行判别分析,并尽可能将可变系数或选项取遍各种可能的情况,从中选择从中选择使交叉验证的误判率最低的方法。SAS中的典型判别分析并太常用,因为它没有提供回代判别和交叉验证的结果,只能借用FREQ过程间接实现回代判别。另外,尽量不要采用多重logistic回归分析来间接实现判别分析,因为常得不到方程中参数的最大似然估计值,有时即便得到了参数估计值,也只能用FREQ过程得到回代判别结果,没有交叉验证结果,而且一般情况下误判率比较高;虽然用二值线性回归分析间接实现判别分析比较简单,但其误判率一般也比较高,并且只能用FREQ过程间接实

53、现回代判别。23. 原因变量为定性变量的判别分析结果变量是定性的,原因变量也是定性的,对这类资料进行判别分析时,所用的方法叫做原因变量为定性变量的判别分析。适于处理这种资料的判别分析方法很少,一般只有最大似然判别法和贝叶斯公式判别法。24. 决策树分析25. 神经网络分析多变量间相互与依赖关系分析26. 主成分分析主成分分析(principal components analysis),它是将多个变量(或指标)化为少数几个互不相关的综合变量(指标)的统计分析方法。主成分实际上就是由原变量X1Xm线性组合出来的m个互不相关且未丢失任何信息的新变量,也称为综合变量。多指标的主成分常被用来需找判断某

54、种十五或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。对于单组设计多元定量资料,根据不同的研究目的,可有多种不同的统计统计分析方法供选用。目的一:希望以互不相关的较少的综合指标(这些综合指标是不能直接测量的)来反映原始指标所提供的大部分信息时,即希望找出“幕后”操纵原变量取值规律的隐变量时,可选用主成分分析。目的二:希望用较少的互相独立的公共因子反映原有变量的绝大部分信息,即希望以最少的信息丢失将众多原有变量浓缩成少数几个具有一定命名解释性的公共因子,可选用探索性因子分析。主成分分析是将主成分表示为原始变量的线性组合,而因子分析是将原始变量表示为公共因子和

55、特殊因子的线性组合。探索性因子分析比主成分分析更强调隐变量的实际意义,并且由于因子分析允许特殊因子的存在将得到较主成分分析更为精确的结果。一般而言,仅想把现有变量缩减为少数几个新变量而从进行后续的分析,采用主成分分析即可。小结:1、主成分是原变量的线性组合,是对原变量信息的一种提取,主成分不增加总信息量,也不减少总信息量,只是对原信息进行了重新分配。当变量之间的相关性较小时,应用主成分分析是没有意义的。2、主成分个数的确定依赖于主成分的贡献大小。3、主成分分析本身往往并不是目的,而是达到目的的一种手段;可用于多重回归分析,主要解决自变量间的共线性问题;可用于因子分析、聚类分析、判别分析等,主要

56、目的是减少变量个数(统计上成为降维)等。27. 探索性因子分析因子分析最早由Charles Spearman在1904年提出,其基本思想是通过对原始变量(或样品)的相关系数矩阵(对样品而言)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系。但这几个随机变量是不可观测的,通常称为公共因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间的相关性(或相似性)较高,而不同组的变量相关性(或相似性)较低。由于各变量存在一定的相关关系,因此,有可能用较少的不相关的公共因子来综合存在于变量中的各类信息。同时,提取出的公共因子保持了相互独立的良好特性,有效地克服了变量间可能存在的多重共线性问题。从全部计算过程来看,对同一批观测数据,R型因子分析和Q型因子分析是一样的,只不过出发点不同,R型从相关系数矩阵出发,Q型从相似系数矩阵出发。小结:1、因子分析是用较少的互相独立的公共因子反映原有变量的绝大部分信息的多元统计分析方法,即研究如何以最少的信息丢失将众多原有变量浓缩成少数几个具有一定命名解释性的公共因子。2、因子载荷aij是第i个变量xi与第j个公共因子fj的相关系数,即表示xi依赖fj的份量(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论