SAS统计分析教程方法总结_第1页
SAS统计分析教程方法总结_第2页
SAS统计分析教程方法总结_第3页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、对定量结果进展差异性分析1. 单因素设计一元定量资料差异性分析1.1.单因素设计一元定量资料t检验与符号秩和检验T检验前提条件:定量资料满足独立性和正态分布,假设不满足那么进 展单因素设计一元定量资料符号秩和检验。12配对设计一元定量资料t检验与符号秩和检验配对设计:整个资料涉及一个试验因素的两个水平,并且在这两个水 平作用下获得的一样指标是成对出现的,每一对中的两个数据来自于同一 个个体或条件相近的两个个体。1.3.成组设计一元定量资料t检验成组设计定义:设试验因素A有A1,A2个水平,将全部nn最好是偶数个受试 对象随机地均分成2组,分别承受A1,A2,2种处理。再设每种处理下观 测的定量

2、指标数为k,当k=1时,属于一元分析的问题;当k >2时,属于 多元分析的问题。在成组设计中,因2组受试对象之间未按重要的非处理因素进展两两 配对,无法消除个体差异对观测结果的影响,因此,其试验效率低于配对 设计。T检验分析前提条件:独立性、正态性和方差齐性。14成组设计一元定量资料Wilcox on秩和检验不符合参数检验的前提条件,应选用非参数检验法,即秩和检验。1.5. 单因素k k>=3丨水平设计定量资料一元方差分析方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了 显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因 素方差分析。方差分析的假定条件为:

3、1各处理条件下的样本是随机的。2各处理条件下的样本是相互独立的,否那么可能出现无法解析的输出 结果。3各处理条件下的样本分别来自正态分布总体,否那么使用非参数分析。4各处理条件下的样本方差一样,即具有齐效性。16单因素k k>=3水平设计定量资料一元协方差分析协方差分析(Analysis of Covarianee)是将回归分析与方差分析结合起来使用的一种分析方法。在这种分析中,先将定量的影响因素(即难以控制的因素)看作自变量,或称为协变量(Covariate),建立因变量随自变量变化 的回归方程,这样就可以利用回归方程把因变量的变化中受不易控制的定 量因素的影响扣除掉,从而,能够较合理

4、地比拟定性的影响因素处在不同 水平下,经过回归分析手段修正以后的因变量的样本均数之间的差异是否 有统计学意义,这就是协方差分析解决问题的根本计算原理。在试验中,试验因素有时会受到某个重要的定量的非试验因素的影响,为了消除这种定量非试验因素对定量观测结果的影响和干扰。前提条件:一、要求各组定量资料主要指观测结果来自方差相等的正态总体;二、各组的总体回归斜率要相等且不等于零。1.7. 单因素k k>=3水平设计一元定量资料 Kruskal-Wallis 秩和检验定量资料不满足参数检验的前提条件时,那么可选择秩和检验2. 单因素设计一元生存资料差异性分析生存分析Survival Analysi

5、s丨是将重点事件的出现与否和到达终点所 经历的时间结合起来的一种统计分析方法,其主要特点就是考虑了每个观 察对象到达终点所经理的时间长短。终点事件不限于死亡,可以是疾病的 发生、一种处理治疗的反映、疾病的复发等。生存分析可用于生存曲 线估计、生存曲线比拟、影响因素分析和生存预测。生存分析有一套完整的方法:统计描述包括求生存时间的分位数、中位生存期、平均数、生存函数的估计、判断生存时间分布的图示法 、非 参数检验检验分组变量各水平所对应的生存曲线是否一致、COX模型半 参数回归分析、参数模型回归分析。研究者比拟k条生存曲线之间是否有显著差异时,SAS软件提供了 3 种常用的方法:对数秩检验log

6、-rank Test、威尔考克森Wilcoxon Test 和似然比检验Likelihood Ratio Test 。当生存时间的分布为Weibull分布或属于比例风险比模型时,Log-Ra nk检验效率较高;当生存时间的分布为对数正态分布时, Wilcox on 检验效率较高;因似然比检验是建立在指数分布模型上的,故当资料偏离 此模型时,其结果不如前两种检验方法稳健。非参数法估计生存率有乘积极限法Product-Limit Method ,PL和 寿险法Life Table Method,其中乘积极限法又称为 Kaplan-Meier 法简称KM法。前者适用于小样本或大样本未分组资料,后者适

7、用于观察 倒数较多的分组资料。3. 多因素设计一元定量资料差异性分析3.1.随机区组设计一元定量资料方差分析与Friedman秩和检验随机区组设计Randomized block design,亦称完全随机区组设计random plete block dsign 。这种设计的特点是根据“局部控制的原 那么,将试验地按肥力程度划分为等于重复次数的区组,一区组安排一重 复,区组各处理都独立的随机排列。参数检验前提条件:独立性、正态性和方差齐性假设不满足参数检验的前提条件,采用秩和检验。32双因素无重复实验设计一元定量资料方差分析有两个试验因素,全部试验条件由两因素各水平全面组合而成,在每个条件下获

8、得定量资料的均值数据。3.3.平衡不完全随机区组设计一元定量资料方差分析所谓平衡不完全随机区组试验(Balaneed Inplete Block Design,简称 BIB试验)就是试验方案因受地块限制,不能把试验处理全部安置在试验区组 的情况下,所进展的试验设计。其缺点是:区组数必须严格按规定数目设立, 缺一不可,否那么各处理之间的比拟将失去均衡性。BIB试验设计需满足如下条件:N=b*k=Y*v.Y (I一 1)X= y-1其中N为试验小区总数;为任两处处理在同一区组中出现的次数;是F 每个处理的重复数;b是不完全随机区组数;k是每区组的小区数。34拉丁方设计一元定量资料方差分析拉丁方设计

9、Latin square design丨使研究人员得以在统计上控制两 个不相互作用的外部变量并且操纵自变量。每个外部变量或分区变量被划 分为一个相等数目的区组或级别,自变量也同样被分为一样数目的级别。拉丁方以表格的形式被概念化,其中行和列代表两个外部变量中的区 组,然后将自变量的级别分配到表中各单元中。简单的说就是某一变量在 其所处的任意行或任意列中,只出现一次。假设我现在要做一个实验,被试一共要进展5个小测试,并且需要重测屡次,因此对这5个测试的排序就需要列入变量控制之,不可能屡次都 一样的顺序,因此为了平衡这种顺序效应,采取拉丁方设计,先命名 5个 小测试分别为1,2,3,4,5。那么对其

10、的排序就是这样的:第一组测试顺序:1,2,5,3,4第二组测试顺序:2,3,1,4,5第三组测试顺序:3, 4 , 2 , 5, 1第四组测试顺序:4, 5 , 3, 1 , 2第五组测试顺序:5, 1 , 4, 2, 3其顺序是这样确定的,横排:1 , 2, n, 3, n-1 , 4 , n-2 n代表要排序的量的个数竖排:1, 2 , 3 , 4 , 5再轮回。3.5. 二阶段穿插设计一元定量资料方差分析在医学研究中,要将A、B两种处理先后施加于同一批试验对象, 随机 地使半数受试者先承受 A后承受B,而另一半受试者正好相反,即先承受B 再承受A。由于两种处理在全部试验过程叉进展,这种设

11、计称为穿插设计cross-over design 。在穿插设计中,A、B两种处理先后以同等的时机 出现在两个试验阶段中,故又称为两阶段穿插设计。试验效应受到3个因素的影响,一个是处理因素,一个是处理顺利因 素,还有一个是试验阶段因素,而且必须保证这3个因素之间没有交互作用。虽然穿插试验的处理是单因素,但影响试验结果的因素还有非人为控 制的受试者的个体差异和试验阶段这两个因素。因此,该设计不仅平衡了 处理顺序的影响,而且能把处理方法间的差异、时间先后之间的差异和受 试者之间的差异分别进展分析。3.6. 析因设计一元定量资料方差分析析因设计是一种多因素的穿插分组设计。它不仅可检验每个因素各水 平间

12、的差异,而且可检验各因素间的交互作用。两个或多个因素如存在交 互作用,表示各因素不是各自独立的,而是一个因素的水平有改变时,另一个或几个因素的效应也相应有所改变;反之,如不存在交互作用,表示 各因素具有独立性,一个因素的水平有所改变时不影响其他因素的效应。3.7. 含区组因素的析因设计一元定量资料方差分析38嵌套设计一元定量资料方差分析试验中涉及两个或多个试验因素,且依据专业知识可以认为各试验因素 对观测指标的影响有主次之分,主要因素各水平下嵌套着次要因素 ,次要因 素各水平下又嵌套着更次要的因素,这样的试验设计称为嵌套设计。此类设计有两种情形:第一种情形是,受试对象本身具有分组再分组的 各种

13、分组因素,处理(即最终的试验条件)是各因素各水平的全面组合,且因素 之间在专业上有主次之分(如年龄与性别对心室射血时间的影响,性别的影响大于年龄);第二种情形是,受试对象本身并非具有分组再分组的各种分组 因素,处理(即最终的试验条件)不是各因素各水平的全面组合,而是各因素按 其隶属关系系统分组,且因素之间在专业上有主次之分(如研究不同代次不 同家庭成年男性的身高资料,不同家庭之间的差异大于同一个家庭部不同代 次之间的差异)。3.9. 裂区设计一元定量资料方差分析试验因素分两阶段进入试验过程,通常由先进入试验的试验因素设 为A丨构成单因素多水平设计或由先进入试验的试验因素设为A与区组因素设为B构

14、造出含m次独立重复试验的随机区组设计;再把承受 因素A各水平处理或承受因素 A与因素B各组合水平处理的m个受试对象随机地分配给在第二阶段进入试验的试验因素C的m个水平,这样安排试验因素的方法称为裂区设计或分割设计。结合实际问题,当试验研究过程自然形成2个或多阶段有时称为工序各阶段涉及的试验因素彼此不同,但需要等整个试验过程完毕后,才 能观测定量指标的结果,就需要用到此设计。3.10. 正交设计一元定量资料方差分析正交试验设计(Orthogonal experimental design)是研究多因素多水平的又一种设计方法,它是根据正交性从全面试验中挑选出局部有代表性 的点进展试验,这些有代表性

15、的点具备了均匀分散,齐整可比的特点,正交试验设计是分析因式设计的主要方法。是一种高效率、快速、经济的 实验设计方法。正交表是一整套规那么的设计表格,每个因素的每个水平与另一个因 素各水平各碰一次,这就是正交性。进展 c因素t水平n次试验的正交表 为其中,L为正交表的代号,n为试验的次数,t为水平数,c为列 数,也就是可能安排最多的因素个数。3.11. 重复测量设计一元定量资料方差分析重复测量设计指将一组或多组被试者先后重复地施加不同的实验处理:或在不同场合和时间点被测量至少两次的情况。重复测量设计大体有两类.一类是对每个人在同一时间不同因子组合 间测量;另外一类是对每个人在不同时间点上重复.前

16、者常见于裂区设计:而后者常见于经典试验设计即包括前测,处理,一次或几次后测的情况.后者比前者要多见3.12. 常见多因素实验设计一元定量资料协方差分析试验中存在极为重要的非试验因素,需进展协方差分析,判断其对主 要因素的影响。3.13. 多个单因素两水平设计定量资料 Meta分析Meta分析是指用统计学方法对收集的多个研究资料进展分析和概括 以提供量化的平均效果来答复研究的问题.其优点是通过增大样本含量来增 加结论的可信度,解决研究结果的不一致性。meta分析是对同一课题的多项独立研究的结果进展系统的、定量的综合性分析。它是文献的量化综述,是以同一课题的多项独立研究的结果为 研究对象,在严格设

17、计的根底上,运用适当的统计学方法对多个研究结果 进展系统、客观、定量的综合分析。根本分析步骤:(1) 明确简洁地提出需要解决的问题。(2) 制定检索策略,全面广泛地收集随机对照试验。(3) 确定纳入和排除标准,易I除不符合要求的文献。(4) 资料选择和提取。(5) 各试验的质量评估和特征描述。(6) 统计学处理。a .异质性检验齐性检验。b .统计合并效应量加权合并,计算效应尺度及95 %的置信区间并进展统计推断c .图示单个试验的结果和合并后的结果。d .敏感性分析。e .通过 失平安数的计算或采用 倒漏斗图了解潜在的发表偏 倚。(7) 结果解释、作出结论及评价。(8) 维护和更新资料。4.

18、 单因素设计多元定量资料差异性分析4.1. 单因素设计定量资料多元方差和协方差分析在某试验设计之下,假设每次只分析一个或多个定性影响因素对一个 定量指标的影响,常采用一元方差分析;假设每次用参数法同时分析一个 或多个定性影响因素对两个或者两个以上在专业上有一定联系的定量指标 的影响时,就称为多元方差分析Multivariate Analysis of Varianee,MANOVA。做方差分析时,影响因素都是定性的。当除了定性的影响因 素之外还有定量的影响因素存在或者不可忽略时,要分析各影响因素 对定量指标的影响,那么需要采用另外一种统计学分析方法,即协方差分 析An alysis of Co

19、varia nee 才能到达目的。5. 多因素设计多元定量资料差异性分析5.1. 多因素设计定量资料多元方差分析和协方差分析对定性结果进展差异性分析6. 单因素设计一元定性资料差异性分析6.1. 单组设计一维表资料统计分析groupcou nt197822262配对设计四格表资料统计分析1. 先将实验对象配对后随机安排到两个不同处理组, 所得的二分类结果 的资料。2. 同一批对象两个时间点或两个部位的测定,或同一对象用两种方 法或两种仪器、两名化验员、两种条件的测定,所得的二分类如阳性、阴性结果的资料。表2T3配对设计四格表形式ip令计4*1A十林fJ卄6.3.配对设计扩大形式的方表资料统计分

20、析配对设计扩大形式的方表形式乙甲-+合计-1502320+2191224+1317021+02068合计182420117364成组设计横断面研究四格表资料统计分析性别人数通过未通过合计男413273女43851合计8440124该表设计上属于结果变量为二值变量的成组设计定性资料,列联表分 类上属于横截面研究设计四格表资料。6.5.成组设计队列研究四格表资料统计分析血压情况例数患、者未患病合计偏好196180正常20465485合计39526565该资料是成组设计队列研究四格表资料。队列研究设计是通过对不同 暴露水平的对象进展追踪观察,随访观察疾病发生情况,从而判断该因素 与发病之间有无关联。

21、66成组设计病例对照研究四格表资料统计分析rtffl工亠一例数喂养方式患龋未患龋合计母乳3781118人工或混合6676142合计103157260该表是成组设计病例对照研究四格表资料。病例对照设计是以确诊的 患者作为病例,以不患该病但具有可比性的个体作为对照,收集以往危险 因素的暴露史,用统计学方法比拟两组中危险因素的暴露比例,从而判断 因素与疾病之间是否存在统计学关联。6.7. 成组设计结果变量为多值有序变量的2 XC表资料统计分析6.8. 成组设计结果变量为多值名义变量的2 XC表资料统计分析6.9. 单因素多水平设计无序原因变量RX2表资料统计分析6.10. 单因素多水平设计有序原因变

22、量 RX2表资料统计分析6.11. 单因素多水平设计双向无序 RXC表资料统计分析6.12. 单因素多水平设计有序结果变量RXC表资料统计分析6.13. 单因素多水平设计双向有序 RXC表资料统计分析7. 多因素设计一元定性资料差异性分析27.1. 用加权龙检验处理结果变量为二值变量的高维列联表资料在三维列联表中,通常有两个原因变量和一个结果变量,不同的研究 目的决定了选用不同的统计分析方法。对于结果变量为二值变量的高维列 联表,可选用加权 检验、CMH检验、多重logistic回归、对数线性模 型等。假设不想用复杂的对数线性模型模型或logistic回归模型来分析三维列联表资料,并且资料又不

23、适宜采用简单“合并方式处理时,就可采 用加权以检验消除掉一个原因变量对结果变量的影响,考察另一个原因变量与结果变量之间是否独立、CMH”检验消除掉一个原因变量对结果变 量的影响,计算优势比 OR或相对危险度RR,并对其进展假设检验。这 两种检验方法都无法答复被合并掉的那个原因变量对结果变量的影响作用 有多大,只是对其进展分层计算,即评价另一个原因变量对结果变量的影 响时将其对结果变量的影响扣除掉。7.2. 用CHM 检验处理结果变量具有3种性质的高维列联表资料结果变量为二值变量的三维列联表,可以选用加权 X-检验,CMH”检 验、logistic 回归和对数线性模型。CMH统计分析Cochra

24、n Mantel Haenszel Statics丨是在MH统计分析方法的根底上开展并提出来的,现 在统称为扩展的MH卡方统计量,也统称为 MH检验,用于分层分析即控 制混杂因素后对二维列联表资料的统计处理。结果变量为多值有序变量的高维列联表资料,可以选用CMH :检验即CMH校正的秩和检验和有序变量logistic回归分析进展处理。对数 线性模型无法利用资料的有序性,因此不宜选用。假设采用有序变量多重 logistic回归分析,应注意结合原因变量是否存在多值名义变量或多值有序 变量而决定对原因变量的赋值方法。结果变量为多值无序变量的高维列联表资料,可以采用CMH :检验、扩展的logisti

25、c回归分析和对数线性模型。注,CMH*检验包含三种检验方法:1非零相关检验适合于原因变量与结果变量都是多值有序变量2行平均得分检验仅考察原因变量全部水平组之间在结果上的差异是否具有统计学意义,结果变量必须是多值有序变量。3丨一般关联性检验适合于原因变量和结果变量都是名义变量。这里所提及的“原因变量是指在多个原因变量中被保存下来的那个原因 变量。73用Meta分析分别合并处理多个成组设计定性资料74 ROC方法分析诊断试验资料8. 多因素设计一元定性资料对数线性模型分析8.1. 用对数线性模型分析列联表资料对数线性模型是分析高维列联表行之有效的方法,最先由Yule、Bartlett利用Yule

26、1900年定义的穿插乘积比分析三维交互作用,然后 由Kullback 1968年引入方差分析的思想开展而来。对数线性模型把各分组变量包括自变量和因变量水平组合下期望 理论频数的自然对数表示为各组变量及其交互作用的线性函数,通过 迭代计算求得模型中参数的估计值,进而运用方差分析的思想检验各主效 应和交互作用的效应大小。对定量结果进展预测性分析9. 两变量简单线性回归分析9.1. Pearson线性相关分析当两个变量取值之间出现一个增大,另一个也增大或减小的情况 时,那么称这种现象为共变,也就是说这两个变量之间有“相关关系。 简单线性相关关系是描述两定量变量间是否含有直线关系以及直线关系的 方向和

27、密切程度的分析方法。此分析方法主要通过计算相关系数的大小并 对其进展假设检验以及结合专业知识来评价得到的相关系数是否有实际意 义来完成。前提条件:两变量需满足正态分布。92 Spearman秩相关分析在做Pearson相关分析时,要求两变量服从正态分布,然而当得到的 原始数据并不服从正态分布或其总体分布未知,有时3数据中还存在所谓“超限值如限于仪器的灵敏度,仅知道血样某物质浓度小于 0.001ug/ml ,甚至数据本身就是等级材料。此时,宜采用等级相关或称 秩相关来分析两变量的线性联系程度与方向。这类方法是利用两变量的秩 次大小做线性相关分析,对原变量分布不做要求,属非参数统计分析方法。93简

28、单线性回归分析简单线性回归分析是用直线回归方程表示两个定量变量间依存关系的 统计分析方法。此分析方法主要由三局部组成:1计算反映两定量变量依赖关系的直线回归方程,即计算直线回归 方程的截距a、斜率b。2根据样本截距a、斜率b,检验样本所抽自的总体截距。是否为0、 总体斜率是否为0。3结合专业知识,评价此直线回归方程是否有实用价值。前提条件: 线性(linear):即X和丫之间的关系为线性关系; 独立(independent):即n个个体的观察资料间必须是独立的; 正态(normal):即给定X后,Y为正态分布,且Y的均数就是回归 线上对应于X值的点; 等方差(equal varianee):即

29、不同X值对应的Y的分布具有一样的方差,换句话说Y的方差与X无关94加权线性回归分析此方法未弄明白。10. 两变量可直线化曲线回归分析10.1. 对数函数、幕函数和双曲函数曲线回归分析1. 对数函数对数函数:y = n + b*lg(x)变化方法:丸=居(尤)t直线化结果:2. 幕函数幕函数:变换方法:直线化结果:工“ '0<h<l3. 双曲线函数1bI .1 r 1双曲线函数:亍=口+a>0丨变换方法:$ = y, X =-直线化结果: 二 '汇右1八、詁102 指数函数曲线回归分析指数函数:'变换方法::10.3. Logistic函数曲线回归分析L

30、,_ T 丄KILogistic 曲线:变换方法:直线化结果:"1 1 |; yV=J.+K0一卡V厂y=I.工>(a>0Fb>0)x11. 各种复杂曲线回归分析11.1. 多项式曲线回归分析二项式 EZ严J的可能曲线形式有:三项式尸"+沪士屮十代的可能曲线形式有:11.2. Logistic曲线回归分析11.3. Gompertz 曲线回忆分析,L为上渐近线。Gompertz 曲线方程:厂反"1232-】:12315-0.5114二项型指数曲线回归分析二项式指数曲线:人(111.5.三项型指数曲线回归分析三项式指数曲线:y = N * e_M

31、+ L+12. 多重线性回归分析多重线性回归是指因变量为一个、自变量为多个的线性回归分析。前提条件:1、自变量与因变量之间存在线性关系;2、各观测间相互独立;3、残差服从正太分布;4、方差齐性。需要注意的是,在回归方程中,不能直接根据各自变量回归系数绝对 值的大小来评价该自变量的作用大小,因为自变量的单位不尽一样,回归 系数的大小要收到单位的影响。如果要比拟各自变量的作用大小,应消除 自变量单位的影响,这就需要求标准化的回归系数。标准化回归系数没有 量纲,统计学上常用它的绝对值大小来衡量自变量对因变量影响的相对重 要性,标准化回归系数的绝对值越大,说明该自变量对隐变量的作用越大。13. 主成分

32、回归分析主成分回归分析是将多个彼此相关、信息重叠的指标通过适当的线性 组合,使之成为彼此独立而又提取了原指标变异信息并带有特定专业含义 的综合潜变量,即主成分,建立潜变量和因变量间的线性回归方程,再将 回归方程中的潜变量转换为原自变量的一种统计学方法。多重线性回归分析和主成分回归分析都是用于分析单因素设计多元定量资料的统计学方 法。根本步骤:1进展多重线性回归分析,并进展共线性诊断;2如果自变量之间存在共线性,那么可选择进展主成分分析,以解 决由于共线性的影响,造成回归结果不合理或无法解释的问题。3用主成分分析求自变量的主成分和主成分得分,将奉献率小的主 成分舍弃。4将因变量对保存的主成分得分

33、进展回归分析。5将主成分的表达式回代,最后得到因变量与原始变量的回归模型, 并给予专业解释。14. 岭回归分析用REG过程进展多重线性回归分析,在进展参数估计时常用最小二乘法。该方法在数据满足 GM Gauss-Markov定理时,保证了在线性无偏 估计类中的方差最小。如果进一步假设误差服从正态分布,那么最小二乘 法还具有更多更好的性质。但是,在实际应用中,许多应用实践证明,有 些情况在运用最小二乘法时并不是很理想,在个别情况下可能不是很好。自20实际50年代特别是60年代以来,许多统计学家做了很多努力,试 图改良最小二乘法估计。Stein于1955年证明了:当维数大于2时,能够 找到另外一个

34、估计,它在某种意义下一致优于最小二乘法估计。据此,在 后来的开展中,统计学家提出了许多新的估计方法,主要有岭估计、主成 分估计以及特征根估计等。这些估计的一个共同特点是有偏性。单组设计多元定量资料,可能的分析方法有多重共线性回归分析、响 应曲面回归分析、岭回归分析、病态数据回归分析等。哪一种方法最好或 者比拟好呢?正确的分析方案将是:分别用不同的回归分析方法对此资料 进展分析,然后对不同回归分析方法得出的结果进展比拟,哪一种方法得 到的结果最符合专业实际,也就是最好或者比拟好的方法。当然也有可能 用现有的各种方法所得到的结果不具有推广应用的价值,如果是这样,那 么需要寻找别的方法。15. Po

35、isson 回归分析Poisso n回归属于广义线性模型,专门适用于响应变量是计数资料的 情形,可以定量地分析多个响应因素与计数的响应变量之间的关系。Poisson分布是由法国数学家作为二项分布的近似而引 入的,常用于描述单位时间、平面或空间中罕见“质点数的随机分布规 律。Poisson回归是基于Poisson分布,用于单位时间、单位面积或单位 空间某时间发生数事件的发生服从Poisson分布的响应因素分析的一种方法。前提条件:要求事件的发生是独立的。小结:Poisson回归用于描述结果变量服从 Poisson分布的资料。Poisson 回归模型与logistic回归模型均属于广义线性模型,在

36、建模的过程中除了 连接函数不同外,主要的不同之处在于数据服从何种分布,适合于用何种方法建模。Poisson回归一般用于单位时间、单位面积、单位空间某时间 发生数的影响因素的探讨,时间的发生服从Poisson分布。当结果变量是二分类或多分类时,应根据数据的分布情况看数据是满足Poisson分布还是可通过logit变化进展logistic回归分析。16. 负二项回归与 Probit回归分析Poisso n回归分析是以计数资料为响应变量的标准回归模型。但是在Poisson回归分析中要求均数和方差相等,实际数据往往并不符合这一假 定,方差有时会大于均数,也就是所谓的过离散Overdispersion

37、,这将 导致模型参数估计值的标准误差偏小,参数wald检验的假阳性率增加。这种情况的出现可能是由于观测之间不独立导致的;而在医学研究中,很多 事件的发生是非独立的。对于这类资料,可以采用负二项回归分析。过离 散在理解负二项回归分析中居于中心地位,负二项回归的每一个应用几乎 都与Poisson回归中发现过离散有关。统计学分析的目的都是建立观测个体产生某种响应的概率与各自变量 水平的关系,以便通过某观测个体各自变量的水平取值来预测其产生某种 影响的概率。这可以通过logistic回归分析来间接实现,也可以通过probit 回归分析来直接实现。Probit回归分析与logistic回归分析的最大不同

38、点 在于:probit回归分析中的响应变量不再是二值变量取值为0或1,如是否罹患心脏病,而是0-1之间的百分比变量。17. 生存资料COX模型回归分析目前,对生存资料的多因素分析最常用的方法是 COX比例风险回归模 型Proportional Hazards Regression Model,简称 COX 模型。该模型是一种多因素的生存分析法,它可同时分析众多因素对生存期的影响,分 析带结尾生存时间的资料,并且不要求估计资料的生存分布类型。COX模型属比例风险模型簇,其根本假定之一是比例风险假定简称 PH假定。只有在满足该假定前提条件下,基于此模型的分析预测才是可 靠有效的。正像我们所熟知的t

39、检验中的正态分布假定一样,当使用比例风 险模型时,比例风险假定应看成一个根本前提。检查某斜变量是否满足PH假定,最简单的方法是观察按该变量分组的 Kaplan-Meier生存曲线。假设生存曲线穿插,那么提示不满足PH假定。第2种方法是绘制按该变量分布的对生存时间t的图,曲线应 大致平行或等距。如各斜变量均满足或近似满足PH假定,可直接应用根本 COX模型。18. 生存资料参数模型回归分析生存资料参数模型回归分析的一个重要容是拟合或分布拟合。描述生存时间分布的模型通常有指数分布、 Weibull分布、对数正态分布、Gamma 分布等。常见生存时间分布的概率密度函数 f(t)、生存函数S(t)和风

40、险函数 h(t)如下表。实际对生存数据作分布拟合时,可用上述模型分别进展拟合, 根据拟合优度检验的结果选择适当的模型。有时,对于一批生存数据,事 先不知道生存时间分布的总体趋势,也不好判断用什么样的模型最适宜,许多研究者一般直接采用非参数方法或半参数法。但是如果一批数据确实 符合某特定的参数模型,由于非参数方法的精度一般低于参数方法,因此, 按照非参数方法进展的分析就不能有效地利用和阐述样本数据所包含的信 息,同时它对样本量的要求也高于参数方法。常见生存时间分布的概率密度函数 f(t)、生存函数S(t)和风险函数h(t)f(t)S(t)指数分布weibull 分布gamma 分布对数正态分布对

41、数logistic 分布广义gamma 分布Xexp ( - At)- *exp -(盘)尸W-1 exp (-At)1 fnt fj.叭断exp ( - At)cxpT-1 (At,r) int -uI iI1 + (肚)Fh(t)入丽1 + (久卯/(019. 时间序列分析按某种相等或不想等的时间间隔对客观事物进展动态观察,由于随机因素的影响,各次观察的指标x1,x2,x3,xi都是随机变量,这种按时 间顺序排列的随机变量的一组实测值称为时间序列。时间序列中每一时期的数值,都是由许多不同的因素共同作用的结果,而这些因素往往交织在一起,这样就增加了分析时间序列的困难。因此, 时间序列分析通常

42、对各种可能发生作用的因素进展分类,如长期趋势、季 节变动、循环变动和不规那么变动。时间序列分析的目的是利用所拟合的模型对某研究领域的动态数据的未来状况进展预测。时间序列分析大致包括三方面的容:1选择模型并进展参数估计;2模型的适用性检验;3预测预报。19.1.指数平滑法指数平滑Exponential Smoothing 丨是由 Brown 等Brown 和Meyers于1961年;Brown于1972年开展起来的计算模式,它拟合一 种使用平滑方案的时间趋势模型。通式是Si = t+(1-a)%",式中为第 t期平滑值t>0,a为平滑系数取值围0<a<1,川为第t期实

43、际观测 值,系数a和1-a都是表示权重。在此方案中,权重大小随着时间的向 后推移而呈现几何级数下降。所以对于事物未来开展的回评,新近的观测 值比早期的观测值的预测价值更大,所以在预测时,新近观测值应比早期 观测值具有更大权重。作为一种预测方法,指数平滑预测效果的好坏取决 于对这个序列选择一个怎样的平滑系数 a。a值为0-1。一般来说,平滑系 数a的取值大小应当视预测对象的特点及预测周期的长短而定。a取值偏低时,预测结果主要取决于历史情形,不能及时跟踪数据新的变化趋势;a取值偏高时,预测模型具有较高的灵敏度,能够迅速跟踪新数据的变化, 但对历史数据的信息利用较少。在实际应用中,通常采用多个水平的

44、a值 进展试算比拟,选择其中的最优值做为平滑系数,原那么是使预测误差平 方和SSE平均平方误差MSE或平均绝对误差MAE丨最小。在根 据上述原那么进展优选后,还应该对根据预测结果所得到的参数的合理性 进展检验。192 ARIMA 模型193谱分析应用时间序列分析的目的是进展预测和控制。时域分析是,通过建立 时间序列模型对时间数据样本进展预测和估计,展现数据在的特性。频域 数据那么是从频率角度展现时间序列数据的特点和规律,其中最主要的任 务是通过谱分析来获得时间数据的周期性特点,这一特点对于了解数据变 化的规律来说是一个关键点。时间序列研究对数据的要比拟高的。最关键的是,数据必须是平稳序 列。首

45、先要进展时间序列分析,对序列的长度是有要求的,长度不能太短, 应该是大样本;但是也不能太长,至少是周期的2倍以上。当然,时间序列的频域研究同样也要求测量的时间间隔为等间隔。另外,假设欲表达时 间序列中周期值为T的信息成分,那么采样间隔不能大于 T/2,该采样定 理就是Nyquist采样定理。在进展谱分析之间要先进展数据的去趋势化, 可以通过回归过程求剩余残差实现,也可以通过选项ADJMEAN来实现。SAS软件的SPECTRA过程中是不允许缺失数据出现的,缺失数据将无法 参与分析,被自动排除于分析之外。如果分析变量中出现缺失值时,程序 自作主将变量中没有缺失值的最长的连续数据局部作为分析变量。在

46、分析要注意检查缺失数据,也可以通过补充缺失数据来实现。194 X12方法X12过程是根据美国人口普查局 X-12-ARIMA 季节调整程序改编的, 用于调整月度或季度时间序列数据。该过程包含了 X-11过程、 X-11-ARIMA/88 模型以及一些新的特征。X12过程较X11的一个主要提 高是应用 regARIMA 模型带有 ARIMA(Autoregressive IntegratedMovi ng Average)误差的回归模型,利用该模型进展移动假日、月份长度、 交易日效应等固定效应的调整。X-12-ARIMA 模型包含了美国人口统计局 和加拿大统计局开发的季节调整模型的主要特征。对序

47、列进展季节调整是基于这样的假定:季节性波动可以由原始序列Qt, t=1 ,,n中测得,并能与趋势起伏、交易日及不规那么波动别 离开:这一时间序列的季节成分St定义为年的变动,从一年到一年之 间恒定地取值或缓慢地变化;趋势起伏项Ct包含由长期趋势,经济起伏及其他长期起伏因素引起的变化;交易日成分Dt丨是由历史交易日位置变化引起的;不规那么成分It是剩余的变化量。对定性结果进展预测性分析20. 非配对设计定性资料多重logistic回归分析在生物医学研究中最常见的问题之一是探索各种影响因素自变量X与疾病或安康响应变量Y之间的关系。在许多情况下,疾病和安康状况 属于分类变量,包括二值变量、多值有序变

48、量和多值名义变量。当响应变量为分类变量时,就不适合使用线性回归进展分析,这时可以考虑采用多重logistic 回归。按照因变量的类型可以将logistic回归分为三类:因变量为二值变量的logistic回归;因变量为多值有序变量的logistic回归,称为累积logistic 回归模型或序次logistic回归模型;因变量为多值名义变量的logistic回归, 称为多项logit模型。按照设计类型可以将logistic回归模型分为非条件 logistic回归和条件logistic回归,其中非条件logistic回归就是指一般的 logistic模型,适用于成组设计资料;条件logistic回归

49、那么是针对配对设 计资料。20.1.二值变量的多重logistic回归分析202 多值有序变量的多重logistic回归分析20.3. 多值名义变量的多重logistic回归分析21. 配对设计定性资料多重 logistic 回归分析配对设计能够改善两组研究对象的齐同性,提高研究效率。配对的因 素一般是年龄、行呗等重要的混杂因素。最常见的配对形式是每个匹配组 中有一个病例和假设干个对照,称为1 : m配对设计;当然,不同匹配组中病例和对照的人数也可以是任意的,也就是说不同匹配中病例数与对照 数的比例可以不相等,称为m: n配对设计。讨论此类问题时,因关心的是在某一给定的条件下某事件发生的概率,

50、这一概率称为条件概率,故将 此类logistic回归称为条件logistic回归,将非配对设计资料的logistic回 归称为非条件logistic回归。21.1.1:1配对设计定性资料的多重logistic回归分析21.2.m : n配对设计定性资料的多重logistic回归分析22.原因变量为定量变量的判别分析根据明确分类的受试对象或样品的多个定量指标的取值建立一个 或多个关系式判别函数式,通常具有一定程度的出错概率,再根据某种 或某些规那么,基于已建立的判别函数式实现对归属尚不明确的哪些新个 体的分类或判别,这样一种研究方法被称为判别分析。很显然,判别分析 中的结果变量为分类变量二分类变

51、量或多分类变量。小结:适于处理定量资料的判别分析方法比拟多,其中又分为参数法和非参 数法。参数法通常要求定量资料服从多元正态分布,最好类与类之间方差和 协方差矩阵相等。但是,SAS软件中并没有提供检验定量资料是否服从多 元正态分布的方法,故只能假定该条件满足。在多元正态分布的假定成立 的前提下,假设方差和协方差矩阵相等,那么将各类资料合并求方差和协 方差矩阵,进而计算线性判别函数的系数;否那么,采用各类资料的方差 和协方差矩阵计算二次型判别函数的系数。有时,非参数判别法的效果很好,它可以通过改变其待定系数的值, 来获得比拟满意的判别结果。例如,可以改变 K最近邻判别法中的K值或 改变核密度判别

52、法中的两个选项,即改变 R值或和核密度的形式共有正 态核密度、均匀核密度等5中选项。在采用参数法和非参数法对定量资料进展判别分析之前,最好采用逐 步判别分析方法进展变量筛选,以便淘汰掉无区分能力的定量变量,有利 于提供判别的效果。而且,对于原因变量为定量变量的判别分析,宜先采 用逐步判别分析法筛选变量,再对保存下来的定量变量采用参数法和非参 数法进展判别分析,并尽可能将可变系数或选项取遍各种可能的情况,从 中选择从中选择使穿插验证的误判率最低的方法。SAS中的典型判别分析并太常用,因为它没有提供回代判别和穿插验 证的结果,只能借用FREQ过程间接实现回代判别。另外,尽量不要采用 多重logis

53、tic回归分析来间接实现判别分析,因为常得不到方程中参数的 最大似然估计值,有时即便得到了参数估计值,也只能用FREQ过程得到回代判别结果,没有穿插验证结果,而且一般情况下误判率比拟高;虽然 用二值线性回归分析间接实现判别分析比拟简单,但其误判率一般也比拟 高,并且只能用FREQ过程间接实现回代判别。23. 原因变量为定性变量的判别分析结果变量是定性的,原因变量也是定性的,对这类资料进展判别分析 时,所用的方法叫做原因变量为定性变量的判别分析。适于处理这种资料 的判别分析方法很少,一般只有最大似然判别法和贝叶斯公式判别法。24. 决策树分析25. 神经网络分析多变量间相互与依赖关系分析26.

54、主成分分析主成分分析principal ponents analysis 它是将多个变量或指标化为少数几个互不相关的综合变量指标的统计分析方法。主成分实际 上就是由原变量'线性组合出来的m个互不相关且未丧失任何信息的新变量,也称为综合变量。多指标的主成分常被用来需找判断某种十五或 现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地 提醒事物在的规律。对于单组设计多元定量资料,根据不同的研究目的,可有多种不同的 统计统计分析方法供选用。目的一:希望以互不相关的较少的综合指标这些综合指标是不能直 接测量的来反映原始指标所提供的大局部信息时,即希望找出“幕后 操纵原变量取值规律

55、的隐变量时,可选用主成分分析。目的二:希望用较少的互相独立的公共因子反映原有变量的绝大局部 信息,即希望以最少的信息丧失将众多原有变量浓缩成少数几个具有一定 命名解释性的公共因子,可选用探索性因子分析。主成分分析是将主成分表示为原始变量的线性组合,而因子分析是将 原始变量表示为公共因子和特殊因子的线性组合。探索性因子分析比主成 分分析更强调隐变量的实际意义,并且由于因子分析允许特殊因子的存在 将得到较主成分分析更为准确的结果。一般而言,仅想把现有变量缩减为 少数几个新变量而从进展后续的分析,采用主成分分析即可。小结:1、主成分是原变量的线性组合,是对原变量信息的一种提取,主成分不增加总信息量,也不减少总信息量,只是对原信息进展了重新分配。当 I 变量之间的相关性较小时,应用主成分分析是没

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论