




免费预览已结束,剩余131页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SPSS学习笔记之常用统计方法的选择汇总(2012-10-13 17:17:26) 因变量Y个数因变量Y性质自变量X个数自变量X性质检验方法用途参数非参数1连续或等级1单样本t单样本非参数检验比较连续或等级1二分类(独立)两独立样本t检验Mann-WhitneyU秩和检验比较连续或等级1二分类(配对)两配对样本t检验Wilcoxon符号秩检验比较连续或等级1多分类(独立)单因素方差分析Cruskal-Wallis秩和检验比较连续或等级1多分类(相关)单因素重复测量方差分析Friedman检验比较连续2+多分类(独立)多因素方差分析比较连续2+多分类(相关)多因素重复测量方差分析比较连续2+连续+分类协方差分析比较连续或等级1连续或等级Pearson相关系数Spearman等级相关相关无序分类1无序分类卡方检验相关有序分类1有序分类有序变量相关分析一致性检验连续1连续一元线性回归回归连续2+连续多元线性回归回归二分类2+连续或分类二项logistic回归回归无序多分类多项logistic回归有序多分类有序logistic回归配对配对logistic回归回归2+连续1+分类(独立)多元方差分析比较生存资料寿命表生存分析Kaplan-MeierCox回归检验ROC曲线检验评价SPSS学习笔记之多相关样本的非参数检验(Friedman检验)(2012-10-13 16:44:50) 转载标签: spssfriedman检验教育一、案例2010年世博会期间,参观人数众多,为了比较各个时间段的入园人数有无差别,收集了以下的数据:日期:统计的日期a:该日12-14点的入园人数b:该日14-16点的入园人数c:该日16-18点的入园人数d:该日18-20点的入园人数目的是分析上述四个时间段的入园人数有无差异。显然,四组数据并不独立,不能满足普通方差分析的条件,可以使用重复测量的方差分析。但考虑到入园人数波动大,存在极端值,这里采用非参数检验的方法,即Friedman检验。二、操作步骤菜单的选择主对话框:进入“字段”选项卡,选入四个时间点字段:进入“设置”选项卡,选择Friedman检验,多重比较选择“逐步降低”(类似SNK法):四、结果解读这是模型的统计摘要,P0.001,可见各个时间点的入园人数有统计学差异。双击该图标,进入模型查看界面:两两比较:在上图下方的“视图”下拉菜单中选择“齐性子集”,进入下图:可见,四组数据被分成3个子集,12-14点、16-18点入园人数最多,14-16点次之,18-20点最少。这也与实际情况相符。SPSS学习笔记之Kaplan-Meier生存分析(2012-10-13 14:45:27) 转载标签: spss生存分析kaplan-meier分类: SPSS 一、概述关于生存分析的相关概念,请参见 /s/blog_44befaf601016m9j.htmlKaplan-Meier用于估计生存函数,允许有一个分组变量进行生存率的组间比较,还容许一个分层变量。若不考虑其他混杂因素下生存分析的常用方法。二、实例要研究某种新药治疗相对于常规药物治疗对生存率有无改善,收集以下数据:months:生存时间(单位月),为连续变量。group:1=治疗组,2=对照组status:0=出现结局,1=失访,2=实验结束时仍存活三、操作步骤菜单选择:主对话框:按图设置点击状态框下方的“定义事件”按钮,如下图:填入代表事件发生的“0”回答主对话框,点击“选项”按钮,设置如下:回到主对话框,点击“比较因子”按钮,设置如下:回到主对话框,点击“确定”输出结果。四、结果输出这是个案处理摘要。这是生存表的均值及中位数及四分位数这就是两组的生存函数,可以看出治疗组和对照组有较大区别,但仍需检验。这就是假设检验的结果,有三种统计量,结果基本一致,pt),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。二、生存分析的方法1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。下面用一个例子来说明SPSS中Cox回归模型的操作方法。例题要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:操作步骤:SPSS变量视图菜单选择:点击进入Cox主对话框,如下,将time选入“时间”框,将代表删失的censor变量选入“状态”框,其余分析变量选入“协变量”框。其余默认就行。点击“状态”框下方的“定义事件”,将事件发生的标志设为值0,即0代表事件发生。在主对话框中点击“分类”按钮,进入如下的对话框,将所有分类变量选入右边框中。在主对话框中点击“绘图”按钮,进入如下的对话框,选择绘图的类型,这里只选择“生存函数”。由于我们关心的主要变量是trt(是否放疗),所以将trt选入“单线”框中,绘制生存曲线。在主对话框中点击“选项”按钮,进入如下的对话框,设置如下,输出RR的95%置信区间。回到主界面,点击“确定”输出结果。结果输出这是案例处理摘要,有一个删失数据。这是分类变量的编码方式。这是对拟合模型的检验,原假设是“所有影响因素的偏回归系数均为0”,这里可以看出P=0.0320.05拒绝原假设,认为有偏回归系数不为零的因素,值得进一步分析。这是多元回归结果,第二列B为偏回归系数,最后三列为OR值及其置信区间。由P值可以看出,在0.5的显著水平下,只有trt有统计学差异,OR为2.265。这是协变量的平均值。这是总体的生存函数,即累积生存率函数。这是在控制了其他变量后,有无放疗组的生存函数对比,可以看出,术中放疗患者的生存情况优于不放疗的患者。SPSS学习笔记之多个独立样本的非参数检验(Cruskal-Wallis秩和检验)(2012-09-17 15:24:44) 转载标签: spss统计非参数检验秩和检验cruskal-wallis检验分类: SPSS 一、概述 Cruskal-Wallis秩和检验类似于方差分析,用于检验各个样本的总体是否相同,当正太假设和方差齐性不能满足时,可用该检验。二、问题 某人搜集了三大公司股票每股所能获利的钱数,是比较三家公司所挣的钱是否相同。 SPSS版本为20。三、统计操作SPSS变量视图SPSS数据视图选择菜单:进入如下的对话框,该选项卡不需要手动设置进入“字段”选项卡,将“获利”选入“检验字段”框,将“公司”选入分组进入“设置”选项卡,选择“Kruskal-Wallis单因素ANOVA(k样本)”检验,在下方“多重比较”下拉菜单中,可选“所有成对比较”(类似于方差分析多重比较中的LSD),也可选“逐步降低”(类似于S-N-K法),这里选择“逐步降低”。点击运行即可。四、结果解读上表是主要输出结果,拒绝原假设,认为三个公司的获利能力有统计学差异。双击该表,可获得更多的信息,如下图:在下方的“视图”下拉菜单中选择“逐步降低”,可进入下面的多重比较界面:这类似于方差分析中多重比较的S-N-K法,将样本分为几个子集,同一子集内的样本无统计学差异,不同子集内的样本有统计学差异。本题中,药品公司与计算机公司、服务公司这两个公司之间有统计学差异,计算机公司、服务公司之间无统计学差异。SPSS学习笔记之两独立样本的非参数检验(Mann-WhitneyU秩和检验)(2012-09-17 14:57:08) 转载标签: spss秩和检验非参数检验独立样本mann-whitney分类: SPSS 一、概述 Mann-Whitney U 检验是用得最广泛的两独立样本秩和检验方法。简单的说,该检验是与独立样本t检验相对应的方法,当正态分布、方差齐性等不能达到t检验的要求时,可以使用该检验。其假设基础是:若两个样本有差异,则他们的中心位置将不同。二、问题为了研究某项犯罪的季节性差异,警察记录了10年来春季和夏季的犯罪数量,请问该项犯罪在春季和夏季有无差异。下面使用Mann-Whitney U检验进行分析。SPSS版本为20。三、统计操作SPSS变量视图:SPSS数据视图:进入菜单如下图:点击进入如下的界面,“目标”选项卡不需要手动设置进入“字段”选项卡,将“报警数量”选入“检验字段”框,将“季节”选入“组”框中。再进入“设置”选项卡,选中“自定义检验”单选按钮,选择“Mann-Whitney U(二样本)”检验。点击“运行”即可。四、结果解读这是输出的主要结果,零假设是“报警数量的分布在季节类别上相同”,其P=0.0090.05,故拒绝原假设,认为报警数量在季节上有统计学差异。双击该表格,可以得到更多的信息,不再叙述。SPSS学习笔记之两配对样本的非参数检验(Wilcoxon符号秩检验)(2012-08-24 16:17:49) 转载标签: spss非参数检验配对资料wilcoxon分类: SPSS 一、概述非参数检验对于总体分布没有要求,因而使用范围更广泛。对于两配对样本的非参数检验,首选Wilcoxon符号秩检验。它与配对样本t检验相对应。二、问题为了研究某放松方法(如听音乐)对于入睡时间的影响,选择了10名志愿者,分别记录未进行放松时的入睡时间及放松后的入睡时间(单位为分钟),数据如下笔。请问该放松方法对入睡时间有无影响。本例可以采用配对样本t检验,但由于样本量少,数据可能不符合正太分布,所以考虑用非参数检验。三、统计操作数据视图菜单选择打开如下的对话框该对话框有三个选项卡,第一个选项卡会根据第三个选项卡的设置自动设置,故一般不用手动设定。点击进入“字段”选项卡。将“放松前”、“放松后”均选入右边“检验字段”框中。点击进入“设置”对话框,选择检验方法,切换为“自定义检验”,选择“Wilcoxon匹配样本对符号秩(二样本)”复选框。“检验选项”可以设定显著性水平。点击“运行”按钮,输出结果四、结果解读这就是输出结果。原假设示放松前好放松后差值的中位数等于0,P=0.0151说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。还应计算OR的置信区间,若区间跨1,一般说明该因素无意义。关联强度大致如下:- OR值联系强度 - 0.9-1.0 1.0-1.1 无 0.7-0.8 1.2-1.4 弱(前者为负关联,后者为正关联) 0.4-0.6 1.5-2.9 中等(同上) 0.1-0.3 3.0-9.0 强(同上) 0.110.0以上 很强(同上)- RR:相对危险度(relativerisk)的本质为率比(rateratio)或危险比(riskratio),即暴露组与非暴露组发病率之比,或发病的概率之比。但是病例对照研究不能计算发病率,所以病例对照研究中只能计算OR。当人群中疾病的发病率或者患病率很小时,OR近似等于RR,可用OR值代替RR。不同发病率情况下,OR与RR的关系图如下:当发病率1时,OR高估了RR,当OR1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。还应计算OR的置信区间,若区间跨1,一般说明该因素无意义。关联强度大致如下:- OR值联系强度-0.9-1.0 1.0-1.1无0.7-0.8 1.2-1.4 弱(前者为负关联,后者为正关联)0.4-0.6 1.5-2.9 中等(同上)0.1-0.3 3.0-9.0 强(同上) 0.110.0以上 很强(同上)-RR: 相对危险度(relativerisk)的本质为率比(rateratio)或危险比(riskratio),即暴露组与非暴露组发病率之比,或发病的概率之比。但是病例对照研究不能计算发病率,所以病例对照研究中只能计算OR。当人群中疾病的发病率或者患病率很小时,OR近似等于RR,可用OR值代替RR。不同发病率情况下,OR与RR的关系图如下:当发病率1时,OR高估了RR,当OR 0.05接受0假设,认为该模型能很好拟合数据。H-L检验的随机性表,比较观测值与期望值,表中观测值与期望值大致相同,可以直观的认为,该模型拟合度较好。这个是最终模型的预测结果列联表。在700例数据中进行预测,在未拖欠贷款的478+39=517例中,有478例预测正确,正确率92.5%;在91+92=183例拖欠贷款的用户中,有92例预测正确,正确率50.3%。总的正确率81.4%。可以看出该模型对于非拖欠贷款者预测效果较好。这是最终拟合的结果,四个变量入选,P值均0.05。列“B”为偏回归系数,“S.E.”为标准误差,“Wals”为Wald统计量。“EXP(B)”即为相应变量的OR值(又叫优势比,比值比),为在其他条件不变的情况下,自变量每改变1个单位,事件的发生比“Odds”的变化率。如工龄为2年的用户的拖欠贷款的发生比(Odds)是工龄为1年的用户的0.785倍。最终的拟合方程式:logit(P) = -0.791 - 0.243*employ - 0.081*address + 0.088*detbinc + 0.573*creddebt。用该方程可以做预测,预测值大于0.5说明用户可能会拖欠贷款,小于0.5说明可能不会拖欠贷款。这是不在方程中的变量,其P均大于0.05,没有统计学意义。这是预测概率的直方图。横轴为拖欠贷款的预测概率(0为不拖欠,1为拖欠),纵轴为观测的频数,符号“Y”代表拖欠,“N”代表不拖欠。若预测正确,所有的Y均应在横轴0.5分界点的右边,所有的N均应该在0.5分界点的左边,数据分布为“U”型,中间数据少,两头数据多。可以直观的看出,本模型对于不拖欠贷款的预测较好,对于拖欠贷款的预测相对较差。SPSS学习笔记之重复测量的多因素方差分析(2012-08-14 22:30:39) 转载标签: spss方差分析统计杂谈分类: SPSS 1、概述 重复测量数据的方差分析是对同一因变量进行重复测量的一种试验设计技术。在给予一种或多种处理后,分别在不同的时间点上通过重复测量同一个受试对象获得的指标的观察值,或者是通过重复测量同一个个体的不同部位(或组织)获得的指标的观察值。重复测量数据在科学研究中十分常见。分析前要对重复测量数据之间是否存在相关性进行球形检验。如果该检验结果为P0.05,则说明重复测量数据之间不存在相关性,测量数据符合Huynh-Feldt条件,可以用单因素方差分析的方法来处理;如果检验结果P0.05,则说明重复测量数据之间是存在相关性的,所以不能用单因素方差分析的方法处理数据。在科研实际中的重复测量设计资料后者较多,应该使用重复测量设计的方差分析模型。球形条件不满足时常有两种方法可供选择:(1)采用MANOVA(多变量方差分析方法);(2)对重复测量ANOVA检验结果中与时间有关的F值的自由度进行调整。2、问题新生儿胎粪吸入综合征(MAS)是由于胎儿在子宫内或着生产时吸入了混有胎粪的羊水,从而导致呼吸道和肺泡发生机械性阻塞,并伴有肺泡表面活性物质失活,而且肺组织也会发生化学性炎症,胎儿出生后出现的以呼吸窘迫为主,同时伴有其他脏器受损现象的一组综合征11。血管内皮生长因子(vascular endothelial growth factor,VEGF)是一种有丝分裂原,它特异作用于血管内皮细胞时,能够调节血管内皮细胞的增殖和迁移,从而使血管通透性增加。而本实验旨在通过观察分析给予外源性肺表面活性物质治疗前后胎粪吸入综合征患儿血清中VEGF的含量变化,评价药物治疗的效果。将收治的诊断胎粪吸入综合症的新生儿共42名。将患儿随机分为肺表面活性物质治疗组(PS组)和常规治疗组(对照组),每组各21例。PS组和对照组两组所有患儿均给予除用药外的其他相应的对症治疗。PS组患儿给予牛肺表面活性剂PS 70mg/kg治疗。采集PS组及对照组患儿0小时,治疗后24小时和72小时静脉血2ml,离心并提取上清液后保存备用并记录血清中VEGF的含量变化情况。结果如下:3、统计分析建立数据文件变量视图:数据视图:菜单选择:首先进入如下对话框,在“被试内因子名称”中输入“time”,“级别数”输入3,因为每个患者重复测量了3次。后点击“添加”按钮。此时下方“定义”按钮变为可用,点击进入下列对话框:将“group”选入“因子列表”框,t1-t3分别选入“全体内变量(time)”框内,如下图所示:点击右上角“模型”按钮,进入以下对话框,选择“设定”,将“time”选入“全体内模型”框,“group”选入“群体间模型”框,“构建项”选择“主效应”。下方的平方和选“类型III”,这是对于平衡数据。如果两组样本量不等,则选择“类型IV”。点击“继续”返回,点击“绘制”按钮。进入下面对话框:将“time”选入“水平轴”,group选入“单图”,然后点击“添加”按钮,下面框中会显示“time*group”。点击“继续”返回,点击“两两比较”按钮,将group选入右侧“两两比较检验”框中,选中复选框“LSD”。点击“继续”返回,点击“选项”按钮,进入下面对话框:将time选入“显示均值框”,选中“比较主效应”复选框,选中下方“描述统计”复选框。下方显著性水平设为0.05。点击“继续”返回,点击“确定”输出结果。4、结果解读: 这是一个关于各个时间点的两组数据描述性统计。这是球形检验结果,p=0.0010.05,所以不满足球形分布假设,需要进行多变量方差分析或者自由度调整,SPSS接下来会给出以上两种结果。这是进行多变量方差分析的结果,给出了4种统计量,它们的检验结果一致,time的P0.05,说明时间和分组无交互作用,说明时间因素(即0小时、24小时、72小时)的作用不随分组(即治疗组和对照组)的不同而不同。所谓“主体内”,即是重复测量的各个时间点。上表是用各个时间点进行分组的方差分析表,给出4种统计量,第一种为满足球星假设的情况,后三种对自由度进行了校正,本题目中不满足球形分布假设,只能看下面的三种检验方法。结果解释同上一个表。这是对分组的方差分析,对变量进行如下的变换:y=(t1+t2+t3)/sqrt(3)。P=0.0430.05,说明有治疗组与对照组之间有统计学差异。这个图可以直观地看出测量指标随时间的变化趋势。治疗组与对照组两组资料随时间变化的趋势大致相同,治疗组血清中VEGF的含量较对照组呈下降趋势,说明治疗组的效果优于对照组。我们还可以给出在每个时间点上两个分组之间的比较,需要用到多变量方差分析:操作步骤如下:跟之前操作类似,不赘述,看图就行。结果输出每个时间点上两组之间的比较(即分别比较0小时、24小时及72小时时对照组和治疗组的数据)结果显示0小时时P0.05,治疗组和对照组之间没有统计学差异,而24小时和72小时时P0.05,治疗组和对照组两组间有显著的统计学差异。SPSS学习笔记之协方差分析(2012-08-12 14:00:41) 转载标签: spss协方差分析统计教育分类: SPSS 1、分析原理协方差分析是回归分析与方差分析的结合。在作两组和多组均数之间的比较前,用直线回归的方法找出各组因变量Y与协变量X之间的数量关系,求得在假定X相等时的修正均数,然后用方差分析比较修正均数之间的差别。要求X与Y的线性关系在各组均成立,且在各组间回归系数近似相等,即回归直线平行;X的取值范围不宜过大,否则修正均数的差值在回归直线的延长线上,不能确定是否仍然满足平行性和线性关系的条件,协方差分析的结论可能不正确。对于协变量的概念,可以简单的理解为连续变量,多数情况下,连续变量都要作为协变量处理。2、问题欲了解成年人体重正常者与超重者的血清胆固醇是否不同。而胆固醇含量与年龄有关,资料见下表。正常组超重组年龄胆固醇年龄胆固醇483.5587.3334.6414.7515.8718.4435.8768.8444.9495.1638.7334.9493.6546.7425.5656.4404.9396.0475.1527.5414.1456.4414.6586.8565.1679.23、统计分析(1) 建立数据文件变量视图:建立3个变量数据视图:先要分析两组中年龄与胆固醇是否有线性关系,且比较回归洗漱是否相等,比较粗略的做法是画散点图,选择菜单:图形 -旧对话框 -散点图,如图:进入图形对话框:将胆固醇、年龄、组分别选入Y轴、X轴、设置标记:点击确定开始画图可以看出,大致呈直线关系。更为精确的作法是检验年龄与分组之间是否存在交互作用,即年龄的作用是否受分组的影响。接下来开始协方差分析,首先进入菜单:进入对话框将胆固醇选入“因变量”,组选入“固定因子”,年龄选入“协变量”,见图:点击右边“模型”按钮,在“构建项”下拉菜单中选择“主效应”,将“组”和“年龄”选入右边框中,然后在“构建项”下拉菜单中选择“交互”,同时选中“组”和“年龄”,一并选入右边的框中,见图:点击“继续”按钮回到“单变量”主界面:单击“选项”按钮,进入如下对话框:选中“描述性分析”:点击“继续”按钮回到主界面,单击“确定”即可。4、结果解读这是各组的描述性统计分析。这是主要的统计分析结果,一个典型的方差分析表,解释一下:1、表格的第一行“校正模型”是对模型的检验,零假设是“模型中所有的因素对因变量均无影响”(这里包括分组、年龄及他们的交互作用),其P0.001,拒绝零假设,说明存在对因变量有影响的因素。2、表格的第二行是回归分析的常数项,通常无实际意义。3、表格的第三行、第四行是对组和年龄的检验,P均0.05,说明分组和年龄无交互作用,也就是说,年龄对胆固醇的影响不随分组的不同而不同,这也是协方差分析的基本条件之一。这里是满足的SPSS学习笔记之多因素方差分析(2012-08-11 15:06:47) 转载标签: sps
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银行招聘测试题及答案
- 银行员工招聘试题及答案
- 银行业笔试题库及答案
- 保洁专业试题及答案
- 机械专业试题及答案
- 湖北省武汉市部分学校2026届高三上学期九月调研考试化学(含答案)
- 河北省衡水市桃城区2025-2026学年高二上学期暑假开学考试地理试卷
- 安徽省九师联盟2026届高三9月开学联考物理(含答案)
- 电力电子专业试题及答案
- 项目管理专业试题及答案
- 专业技术职务聘任呈报表(初级,双面打印)
- 肉牛养殖屠宰深加工项目建议书
- GB/T 40733-2021焊缝无损检测超声检测自动相控阵超声技术的应用
- 物业项目服务进度保证措施
- GB/T 18690.2-2017农业灌溉设备微灌用过滤器第2部分:网式过滤器和叠片式过滤器
- 河北省特种设备检验收费标准
- 集成电路技术导论课件
- 交管12123学法减分试题库带答案
- 培育和践行社会主义核心价值观的课件
- 交通标志牌工程施工组织设计(标准版)
- 全区建设工程质量检测人员岗位考试考核实施细则
评论
0/150
提交评论