




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、数据库建立的一般原则与方法 数据库的建立方法统计工作分为研究设计、收集资料、整理资料和分析资料四个步骤,资料的收集是科研工作的基础。现代医学的发展使得医学科研方法日趋多元化,医学科研工作中的数据越来越呈现大型化的趋势,即收集的样本含量和研究的变量数越来越多,如大规模的流行病学调研或多中心临床对照试验等。随着计算机应用技术的发展和普及,统计分析方法的不断深化,医学科研数据的分析处理越来越依赖于计算机完成。从上世纪60年代起,大型的统计软件如SAS、SPSS、STATA等以其强大的功能,便捷的操作,日趋完善的性能,给人们进行数据处理带来了很大的方便,使过去很长时间才能完成的计算在瞬间就能实现。因此,使用统计软件进行分析之前,保证将原始数据规范、准确、完整的录入数据库,是资料分析过程中的重要环节。医学科研的原始数据大多可用一种统一的数据结构表达,如表1所示。在表1中,每一行称为一个记录(record)或一个观察单位(case),记录每一个研究个体的各研究指标;每一列称为一个变量(variable),表示研究中的各研究指标。横向的纪录和纵向的变量构成了常见的二维数据方阵。表1 某地2005年630例65岁以上老年人健康体检纪录编号姓名性别年龄(岁)民族体重(kg)身高(cm)高血压糖尿病1刘天宇男78汉族76.52169有无2王顺义男82汉族66.72175无无3苗凤兰女70其他55.10160无无4马志华男71回族85.63182有有5周淑宏女77汉族48.45154有无630赵晓曼女66汉族58.36164无有原始数据中,变量一般分为标识变量和分析变量。标识变量用于数据的识别、核对和修改,是数据管理和质量控制不可或缺的变量,如上表中的“编号”、“姓名”即为识别变量,在数据处理时不纳入分析,只用于数据的审核和修改。其余变量如“年龄”等均为分析变量。分析变量根据数据的类型可分为数值变量和分类变量两种,数值变量又可细分为连续型变量和非连续型(离散型)变量。数据录入的过程,应遵循方便录入、便于核查、易于转换、利于分析的原则。方便录入是指在录入过程中尽可能减少录入的工作量,将原始数据中的分类变量或非连续型变量量化,如表1中的性别、民族、高血压、糖尿病的患病情况等皆为分类变量,在原始数据中表现为字符的形式,可根据实际情况将其数量化,比如,对于“性别”变量,将“男性”赋值为“1”,“女性”赋值为“2”;对于糖尿病的患病情况,将“有”赋值为“1”, “无”赋值为 “0”,这样既可以节省录入时间,又将原始指标转化为可被统计分析软件识别和运算的量化指标形式。便于核查是指一定要有标识变量,以便数据的核查校对。易于转换是指录入数据时要考虑不同软件的要求,如一些软件不能识别中文,一些软件的变量名要求不能超过8个字符等,因此,在录入数据时,变量名一般尽可能用英文,不超过8字符,数据尽可能用数值表示,这样数据库被分析软件读入时,就不易丢失数据和出现差错。利于分析是指收集的资料尽可能录成一个数据库文件,而不要分解成多个数据文件,且录入的格式应满足多种统计分析方法的需要。表2 由原始数据库转化的分析数据库格式numbernamesexaagenationalitybweightheightHBPcdiabetesd1刘天宇178176.52169102王顺义182166.72175003苗凤兰270355.10160004马志华171285.63182115周淑宏277148.4515410630赵晓曼266158.3616401注:a:1男、2女;b:1汉族、2回族、3其他;c:0无、1有;d: 0无、1有数据的质量控制数据录入时,要注意数据的录入质量,保证录入数据的准确性和真实性。在大型数据库的录入时,建议使用专门的数据库软件如FoxPro、Access、EpiInfo、EpiData等,因为这些数据库软件具有较完善的数据管理、查询、修改功能,还可根据需要建立与录入表格一致的屏幕格式,便于录入,同时还可以在建立数据库时根据实际需要人为设定逻辑核查格式,便于控制数据的录入质量。在数据的计算机录入完成后,应该对数据的质量进行检查,如利用数据间本身存在的逻辑关系,对数据进行逻辑核查;对原始数据的编号和数据库的数据序号进行核对,看有无缺漏;利用统计分析软件列出变量的频数表或散点图,观察其频数分布有无异常或有无离群值的出现;对变量进行描述性统计,观察其样本含量、最大值、最小值是否与原始数据吻合;对分类变量或等级资料,列出交叉列联表,观察变量间的交互频数是否符合实际情况。 变量的设置将分类变量或非连续型变量量化处理后,才能被计算机识别并运算,其设置方式较为灵活,应综合考虑研究目的、资料类型、变量的分布形式以及采用的统计分析方法的应用条件。缺失值的处理在资料的收集整理过程中,缺失值的产生是不可避免的。为保证资料的质量,应尽量减少缺失值,如有缺项,尽可能的补齐。一般认为,缺失值不能超过数据记录总量的10%。在数据录入的过程中,注意把“0”和缺失值区分开来。在一般的数据库中,缺失值一般用“.”表示。当资料不可避免的产生缺失值后,而该纪录仍有统计分析的价值或删除该纪录后样本例数太少,不能保证分析结果的可靠性时,可以采用一些统计学方法对缺失值进行填补,如指标内插法、回归模型估计法,具体方法可参考相关的文献。离群数据的处理在实验数据的分析时,可能会遇到一些偏离数据主体分布,超出数据通常变化范围的特大或特小的观测值,会使统计分析结果出现较大的偏差,这类观测值称为离群值(outlier)。发现离群值可以通过观察值的频数表或绘制箱式图、散点图来判断。当数据近似正态分布时,可用来粗略判断,如观测值超出此范围值外,可以视之为离群值。当出现离群值时,要慎重处理,如条件允许,可以在离群值附近多次抽样,以了解真实的数据结构,判断是否是源于过失误差造成的。若排除过失误差的可能,可将离群值删除前后各做一次统计分析,若前后结果不矛盾,可将该异常值保留,如前后结果矛盾,则应考虑采用的统计分析方法是否合理,可采用一些其它统计学方法来减少离群点对结果的影响如非参数统计方法等;若属于过失误差,可找到观察对象进行重新测量,无法实现时,将该离群值删除。统计分析方法的选择常用的统计分析方法有很多,使用时要根据研究的目的、设计的方案、资料的性质、样本的大小,并结合相关的专业知识,选择和应用适当的方法,切不可生搬硬套。统计分析方法的选择可以按照以下步骤进行:判断反应变量是单变量、双变量还是多变量;确定资料的类型:属于定量资料、无序分类还是等级资料;判断试验的设计方法:单因素设计还是多因素设计;判断影响因素是单因素还是多因素;确定分组变量:单一样本、两样本还是多样本;注意采用统计分析方法的应用条件是否和资料符合。二 SPSS11.5基本操作入门本教程是以SPSS11.5为蓝本,介绍如何利用该软件完成常用统计分析数据的输入1.1SPSS界面打开SPSS后,展现在我们面前的界面如图1.1所示。窗口顶部显示为“SPSS Data Editor”,表明现在所看到的是SPSS数据编辑窗口。这是一个典型的Windows软件界面,有菜单栏和工具栏。工具栏下方为数据栏,由若干行和列组成,每行对应一条记录,每列则对应了一个变量。图1.1 SPSS的数据编辑窗口SPSS共有三个主要窗口:数据编辑窗口、程序编辑窗口和结果浏览窗口;另有两个不常用的窗口:结果草稿浏览窗口和VBs宏程序编辑窗口。在三个主要窗口中,数据编辑窗口是最重要也是应用最为频繁的一个,是SPSS的基本操作平台。初次进入SPSS系统时会出现一个导航对话框,请单击右下方的Cancel按钮,即可进入上面的主界面。1.2定义变量在数据编辑窗口界面的左下方两个标签:“Data View”和“Variable View”,分别是数据视图和变量视图。进入数据编辑窗口后,系统默认数据编辑窗口,分别单击这两个按钮可以进行两种视图的切换。现在单击“Variable View”,程序切换到变量视图窗口,如图1.2所示。变量视图窗口的操作界面和FoxPro等数据库非常相似,每一行代表了对一个变量的定义,每一列则代表定义该变量时用到的某种属性。图1.2 SPSS的变量视图窗口图1.3 变量值标签对话框 name栏:设置变量名,在8位以内,推荐使用英文变量名。 Type栏:选择该框时,右侧会出现形如的按钮,单击它会弹出变量类型对话框,用于设置变量类型,相应的可以在右侧更改变量运算宽度等格式。常用变量类型为Numeric(数值型)、Data(日期型)、String(字符型)三种,一般默认数值型即可。 Width栏:设置变量运算宽度,如数值型默认为8位,一般不用更改 Decimals栏:设置小数位,默认为2位。 Label栏:定义变量名标签,在结果输出中出现,方便阅读。 Values栏:定义变量值标签。用于将数据中的分类变量或非连续型变量量化,应用时非常有用。定义变量后,单击Value框右侧,弹出变量值标签对话框如图1.3所示。分别在其中输入变量的赋值和变量标签,如分别输入“1”和“男”,单击add,该变量标签就会被加入下方的标签框中,再分别键入“2”和“女”,最后单击OK,变量标签设置完成。 Missing栏:定义变量缺失值。SPSS中默认缺失值用“.”表示,如所用数据集中还有其它表示方法,则用该框来定义。 Collumns栏:定义显示列宽。 Align栏:定义显示对齐方式。 Measure栏:定义变量的测量尺度,在绘制交互式统计图等方面非常有用。1.3数据录入回到数据视图窗口,在数据栏中输入数据,可以通过Enter按照变量纵向输入或Tab按照记录横向输入。修改或补漏某个数据,只需将光标移动至相应单元格,键入相应数值,回车即可。 读入其它类型的数据文件SPSS有很好的兼容性,能将DBASE、FOXBASE、FOXPRO、EXCEL、LOTUS、SYLK、SAS以及纯文本格式的数据文件读入并进行统计分析。SPSS提供了几种方法打开其它格式的数据文件: 直接打开:或直接单击快捷工具栏中的“”按钮,系统就会弹出Open File对话框,单击“文件类型”列表框,选择所需的文件类型,选中所要打开的文件即可。 使用数据库查询打开:SPSS提供了利用通用的数据库ODBC接口读取数据的方法,可读取支持ODBC规范的数据库。 使用导入向导读入文本文件:选择菜单Fileread text data即可实现数据的读入。保存数据文件选择菜单Filesave,对于从未保存过的数据库,将会弹出Save Data As对话框,通过下方的保存类型列表框,可选择保存数据文件的类型;若文件曾经存储过,系统会自动按原文件名保存数据。亦可通过热键“Ctrl S”实现文件的保存。选择Save Data As对话框中的Variables钮可选择需要保存的变量。保存新的数据文件可选择菜单Filesave as。如果在运行过程中产生统计分析的结果,可把Output窗口当作当前窗口,使用上述方法进行存储,其文件名的后缀应为.spo。第九章 数值变量资料的统计分析一、t检验和u检验单组设计资料的t检验单组设计资料的表现形式:总体均数已知(已知的理论值或经大量观测所得到的稳定值),推断样本所代表的未知总体均数与已知总体均数是否有差别。例9-15 已知某样品中含CaCO3的真值是20.7mg/L。现用某法重复测定该小样本15次,测得含量如下表所示。问该法测得的均数与真值有无差异?(数据见“例9-15.sav”)操作方法:AnalyzeCompare MeansOne-Sample T TestTest Variable(s)::caco3 分析的变量为caco3Test Value::键入20.7 已知总体均数为20.7mg/LOK 结果见“例9-15.spo”结果解释:T-TestOne-Sample T Test过程的输出比较简单,由描述性统计表和t检验表组成,输出结果如下:所分析变量的基本情况描述,有样本量、均数、标准差和标准误。上表为单样本t检验表,第一行注明了总体均数为20.7mg/L,下面从左向右依次为t值(t)、自由度(df)、P值(Sig.2-tailed)、两均数的差值(Mean Difference)、差值95%的可信区间。由上表可知,t=1.700,P=0.1110.05,不拒绝H0,尚不能认为该法测得的均数与真值不同。配对资料的比较配对设计均数的假设检验有三种情况: 自身比较 同一对象用两种方法检测 成对设计的两受试对象分别给予两种处理需要注意的是:在配对设计中,每对数据间都存在一定的相关,如果采用成组资料的t检验,就无法利用这种关系,割裂了资料的原始设计过程,浪费了大量的信息。例9-16 应用某药治疗8例高血压患者,观察患者治疗前后舒张压的变化情况,如下表所示,问该药是否对高血压患者治疗前后舒张压的变化有影响?(数据见“例9-16.sav”)病人编号舒张压(mmHg)差值d治疗前治疗后1 9688 82112108 43108102 6410298 45 98100-2610096 47106102 4810092 8操作方法:AnalyzeCompare Meanspaired-Sample T TestPaired Variables:lqsz、lhsz 先后单击变量名即可成对入选OK 结果见“例9-16.spo”结果解释:T-Test配对变量的各自统计描述,此处只有一对变量,故只显示Pair 1。此处进行配对变量的相关性分析。等价于AnalyzeCorrelateBivariate过程。配对t检验结果,可见P=0.005,按照=-0.05水准,拒绝H0,接受H1,可以认为该药有降低舒张压的作用。两样本均数的比较两样本均数的比较要求两样本来自的总体服从正态分布,还要求两总体的方差相同。若这些应用条件不满足,情况较轻者可采用校正t检验结果,否则就就应采用变量变换使之满足条件,或可以采用非参数检验的方法。例9-18 两组雄性大鼠分别饲以高蛋白和低蛋白饲料,观察每只大鼠在实验第28天到84天之间所增加的体重,如下表所示,问两种不同饲料喂养大鼠后,体重的增加有无差别?(数据见“例9-18.sav”)按照分析要求,数据库建立时应有两个变量,group用于区分比较的两个组,weight为大鼠体重增加的克数。操作方法:DataSplit FileCompare Groups:group 按照所选变量拆分文件,使得分析结果放在一起便于比较OKAnalyzeNonparametric TestsOne-Sample K-S Test 非参数检验Test variable List::weightTest Distribution: Normal 对体重进行正态性检验OKDataSplit FileAnalyze all cases, do not create groups 取消文件拆分OKAnalyzeCompare MeansIndependent-Samples T TestTest Variable(s):weight 要分析的变量是增加的体重Grouping Variable:group 定义检验的两个独立样本选中变量group:Define GroupsGroup 1:键入1 分别定义分组变量的数值Group 2:键入2 分别定义分组变量的数值ContinueOK 分析结果见“例9-18.spo”结果解释:NPar Tests正态性检验的结果,比较的两组P都大于0.05,可以认为两样本皆服从正态分布,可以采用两独立样本t检验的方法进行分析。T-Test上表给出了两组变量的基本情况描述。独立样本t检验的结果可以分为两大部分:Levenes方差齐性检验,用于判断比较的两组总体方差是否齐同。这里给出的检验结果F=0.015,P=0.905,可见本例中的方差是齐同的;总体均数的t检验,在方差齐同或不齐时分别给出相应的检验统计量和P值。本例方差为齐性,故t=1.891,P=0.076,尚不能拒绝H0,不能认为两组饲料喂养后大鼠体重的增加是不同的。二、方差分析方差分析的应用条件为:各样本为彼此独立的随机样本;各样本都来自于正态总体;各样本总体方差相等。方差分析不仅可用于两个或两个以上的样本均数的比较,还可以分析两个或多个因素的交互作用。完全随机设计资料的方差分析完全随机设计资料的方差分析用于成组设计多个样本均数的比较。完全随机设计是采用完全随机化的分组方法,将全部的受试对象分配到几个处理组当中去,每组分别接受不同的处理,各组的样本含量可以相同也可以不同。通过各组均数之间的比较,评价由某种因素引起的变异是否具有统计学意义。例9-19 用四种不同的饲料喂养大白鼠,每组四只,然后测定其肝重的比值,如下表所示,试比较四组肝/体比值之间有无差异。(数据库见例9-19.sav)按照方差分析的格式建立数据库,分组变量为feeder,用于分类4种不同的饲料,结果变量为ratio,用于记录实验对象的肝/体比值。由于方差分析要求方差齐同,分析时进行方差齐性检验。同时为了更深层次的解释实际问题,方差分析结果若有意义,可进一步采用SNK法进行两两比较。操作方法:AnalyzeCompare MeansOne-Way ANOVADependent List:ratio 要分析的结果变量是肝体比值Factor:feeder 定义分组变量“饲料”Options:Homogeneity-of-variance 进行方差齐性检验Means Plot 作均数图ContinuePost Hoc:S-N-K 两两比较采用SNK法ContinueOK 结果见例9-19.spo结果解释:Oneway上表为方差齐性检验结果,Levene统计量为1.530,在当前自由度下,P=0.257,可以认为各样本来自的总体方差齐同。这实际为一个典型的方差分析表。给出了单因素方差分析结果,可见统计量F=10.242,P=0.001,因此可以认为四种饲料喂养后四组均数不全相同。上表为S-N-K法的两两比较结果,在表格的纵向上,各组均数按照大小顺序排列,在横向上表格又被分为若干亚组,各亚组间P值小于0.05,而同一亚组内的各均值比较则无统计学差异。从上表可见饲料A、B与饲料C、D分别分在不同亚组中,因此可以认为饲料A、B与饲料C、D间肝体比值有差异,A和B无差异,C和D间无差异。Means Plots图形往往能提供更形象、直观的信息,上图即为根据样本均数绘制的均数图。随机区组设计的方差分析该设计是配对设计的扩大,将性质相同或相近的对象分为一个区组,每个区组的例数等于处理组数,再将区组内的实验对象随机分配到不同处理组中去。随机区组设计按照处理和区组两个方向分组。例9-17 在抗癌药物筛选实验中,拟用20只小白鼠按照体重相近者归为一个区组,共分为五个区组,每个区组中有四只小白鼠。分别观察四种药物对小白鼠移植性肉瘤的抑瘤效果,如下表所示,问四种药物的抑瘤效果有无差别?(数据库见例9-20.sav)根据统计分析要求,我们建立包含三个变量的数据库:drug代表药物,block代表区组,effect代表抑瘤效果。在配伍组数据中,每个格子中只有一个元素(不含重复数据),因此交互作用和方差齐性都无法检验,只做主效应分析即可。操作方法:AnalyzeGeneral Lineal MOdelUnivariateDependent List:effect 要分析的结果变量是抑癌效果Fixed Factor:drug、block 定义分组变量“药物”和“区组”Model:Custom 要求自定义方差分析模型Build Terms下拉列表:Main effects 模型只准备纳入主效应Model:引入drug、block 模型只分析drug、block的主效应ContinuePost Hoc Test For:group 对group作两两比较S-N-K 两两比较采用SNK法ContinueOK 结果见例9-20.spo结果解释:Univariate Analysis of Variance上表为分析因素的取值情况列表,可见本例药物共四水平,各有五次测量;区组五水平,各有四次测量。上表为两因素方差分析表,首先是所用模型的检验,F值为4.112,在现有自由度下,P=0.016,因此模型有统计学意义;其次为截距,分析中无实在意义;第三、四行分别为分析的变量,二者都有统计学意义;下面是误差项。上表的内容可以整理为下表的形式: 变异来源III 型方差SS自由度均方MSFP校正的模型.5237.0754.112.016截距2.82812.828155.565.000DRUG.4113.1377.535.004BLOCK.1124.0281.545.251误差.21812.018合计3.56920校正的合计.74119Post Hoc Tests药物Homogeneous SubsetsSNK法两两比较结果,B、C、D三药间抑瘤效果无差别,都与A药有差别。第十章 分类变量资料的统计分析分类变量资料的记录经常采用频数表格式和列举格式(一个观察对象对应一条记录)两种,SPSS对两种录入格式都能识别,但对频数表格式,需要使用Weight Cases过程指定频数变量。 图 分类变量资料录入的列举格式和频数表格式示例一、四格表资料的卡方检验不校正的情况例10-9 某医生欲比较用甲、乙两种药物治疗动脉硬化的疗效,甲药治疗71例,有效52例, 乙药治疗42例,有效39例,结果见表10-7。问两种药物的有效率是否有差别?(数据库见例10-9.sav)表10-7 甲、乙两种药物治疗动脉硬化的疗效比较药 物有 效无 效合 计有效率(%)甲 药52197173.24乙 药39 342 92.86合 计912211380.53此处分类变量资料为频数表资料,在建立数据集时可输入三个变量药物、疗效和频数。先用Weight Cases过程指定频数变量,再调用Crosstabs过程进行c2检验。操作方法:DataWeight casesweight Cases by:Frequency Variable:freq 定义频数变量freqOKAnalyzeDescriptive StatisticsCrosstabsRows:drugcolumns:effectStatistics:Chi-squareContinue 要求进行卡方检验Cells:expectedContinue 在结果中输出理论频数OK结果解释:Crosstabs首先是处理记录缺失值的情况,113例都有效。上面为根据题意列出的四格表,同时给出了理论频数。对于上表中给出的结果,只需要在Pearson Chi-Square、Continuity Correction、Fishers Exact Test之间选择即可,其余选项用处不大。选择并取定统计量的依据是:当n40且T都5时,选择Pearson Chi-Square;当n40且1T5时,选择Continuity Correction;当n40或T1时,使用Fishers Exact Test。校正四格表的卡方检验例10-10 某医生研究比较A、B两种药物对急性细菌性肺炎的疗效,有关资料见表10-8,问两种药物的疗效差别有无统计学意义?(数据库见例10-10.sav)表10-8 A、B两药治疗急性细菌性肺炎的疗效比较处 理有 效无 效合 计有效率(%)A 药4024295.24B 药1662272.73合 计5686487.50操作方法:DataWeight casesweight Cases by:Frequency Variable:freq 定义频数变量freqOKAnalyzeDescriptive StatisticsCrosstabsRows:drugcolumns:effectStatistics:Chi-squareContinue 要求进行卡方检验Cells:expectedContinue 在结果中输出理论频数OK 结果见“例10-10.spo”结果解释:Crosstabs由上表可知,本例最小理论频数为2.75,需要用连续性校正的结果,c2=4.789,P=0.029,可以认为两种药物的有效率差别具有统计学意义。配对设计分类变量资料的卡方检验例10-11 用两种血清学方法对100例肝癌患者进行检测,有关检测结果见表10-9,问两种血清学方法检测结果有无差别?(数据库见例10-11.sav)表10-9 两种血清学方法对肝癌检测的结果比较甲法乙 法合 计+-+50(a)32(b) 82-15 (c)3(d) 18合 计6535100操作方法:DataWeight casesweight Cases by:Frequency Variable:freq 定义频数变量freqOKAnalyzeDescriptive StatisticsCrosstabsRows:a 甲法columns:b 乙法Statistics:Chi-squareMcnemar 要求进行配对卡方检验Continue Cells:expected Continue 在结果中输出理论频数OK 结果见“例10-11.spo”结果解释:Crosstabs主要分析结果如上,给出的卡方分析表不仅有配对卡方检验的结果(Mcnemar Test),还给出了成组卡方的结果,成组卡方用于反映两种方法的诊断有无关系。配对卡方P值为0.019,显示两法诊断结果是不同的,乙法较甲法更易出现阳性结果。行列表资料的卡方检验例10-13 某研究者欲了解白内障发病是否与ABO血型有关,收集有关资料见表10-11,问白内障组与对照组ABO血型分布有无差别?(数据库见例10-13.sav)表10-11 白内障组与对照组ABO血型分布组别ABOAB合计白内障组 113 88 91 33325对照组1123101310754603671合计1236110111664933996操作方法:DataWeight casesweight Cases by:Frequency Variable:freq 定义频数变量freqOKAnalyzeDescriptive StatisticsCrosstabsRows:groupcolumns:bloodtypeStatistics:Chi-squareContinue 要求进行卡方检验Cells:expectedContinue 在结果中输出理论频数OK 结果见“例10-13.spo”结果解释:Crosstabs分析结果显示,c2=3.25,P0.355,尚不能认为白内障组与对照组的ABO血型分布不同。第十一章 秩和检验常用的统计推断方法要求总体的分布类型已知,在这种假设的基础上对总体参数进行估计或检验,这些方法都属于参数检验方法。但有些情况下参数检验方法无法使用:总体分布非正态分布,也无法通过适当的变量变换达到正态分布或分布类型未知的资料。无法精确测量的数据,或开口资料等级资料一、配对资料的符号秩和检验与之对应的参数检验方法:配对t检验Wilcoxon符号秩和检验的基本思想:如果两个总体的分布相同,每个配对数值的差应服从以0为中心的对称分布。也即是将差值按照绝对值的大小编秩(排顺序)并给秩次加上原来差值的符号后,所形成的正秩和与负秩和在理论上是相等的(满足差值总体中位数为0的假设),如果二者相差太大,超出界值范围,则拒绝原假设。例11-1 某医院组织病人对护理质量进行评价,同时对护士进行再培训,见下表所示,问培训前后的评分结果有无显著性差异?(数据库见“例11-1.sav”)操作方法:AnalyzeNonparametric Tests2 Related SamplesTest Pairs List:pxq、pxh 先后单击变量即可成对入选OK 结果见“例11-1.spo”结果解释:NPar TestsWilcoxon Signed Ranks Test下表为秩和检验中的编秩情况表,采用培训后评分-培训前评分的差值进行分析,可见负秩和较低,即培训后可能评分高于培训前,即培训发挥了作用。但有无统计学意义还要看下面的检验结果。上表为秩和检验结果,给出了统计量Z和P值,两组间有统计学差异,培训后评分高于培训前。二、两样本比较的秩和检验(Wilcoxon两样本比较法)与之对应的参数检验方法:独立样本t检验或独立样本u检验Wilcoxon符号秩和检验的基本思想:假定样本含量分别为n1和n2的两个样本,来自同一个总体(分布相同的两个总体),则样本含量为n1样本秩和T与平均秩和一般不会相差很大,若超出了界值范围,则拒绝原假设。列表型资料例11-2 为比较甲、乙两种香烟的尼古丁含量,对两种香烟分别进行测定,数据见下表,问两种香烟的尼古丁含量有无差别?(数据库见“例11-2.sav”)操作方法:AnalyzeNonparametric Tests2 Independent SamplesTest Variable List:nicotine 要分析的变量是尼古丁含量Grouping Variable:group 定义分组变量选中变量group:Define GroupsGroup 1:键入1 分别定义分组变量的数值Group 2:键入2 分别定义分组变量的数值ContinueOK 分析结果见“例11-2.spo”结果解释:NPar TestsMann-Whitney Test秩和检验中的编秩情况表,乙种香烟的尼古丁含量高于甲种香烟。,上表为检验结果,共给出了Mann-Whitney U、Wilcoxon W、Z值,下方则给出了近似法计算出来的P值和确切概率法计算出来的P值。二者结论一致,尚不能拒绝H0。频数表型资料例11-3 某药治疗不同病情的老年慢性支气管炎患者,疗效见表,此药对两种病情的老年慢性支气管炎患者的疗效有无差别?(数据库见“例11-3.sav”)操作方法:DataWeight casesweight Cases by:Frequency Variable:freq 定义频数变量freqOKAnalyzeNonparametric Tests2 Independent SamplesTest Variable List:effect 要分析的变量是疗效Grouping Variable:group 定义分组变量选中变量group:Define GroupsGroup 1:键入1 分别定义分组变量的数值Group 2:键入2 分别定义分组变量的数值ContinueOK 分析结果见“例11-3.spo”结果解释:NPar TestsMann-Whitney Test本例结果为尚不能拒绝H0。三、多个样本比较的秩和检验相当于方差分析的非参数分析方法,适用于有序分类资料和方差分析条件不能满足的数值变量资料。编秩原则:将各组观察值按照从小到大顺序统一编秩,若大小相等的观察值不在同一样本内,取其平均秩次,在同一样本内时则可顺序编秩。分别计算各组的秩和Ri。各组秩和Ri之和应为。列表型资料例11-4 某医院外科用三种手术方法治疗肝癌患者15例,每组5例,进入各组的患者用随机方法分配,每例术后生存月数如表所示,问三种疗法效果是否有差别?(数据库见“例11-4.sav”)操作方法:AnalyzeNonparametric Testsk Independent SamplesTest Variable List:months 要分析的变量是术后生存月数Grouping Variable:group 定义分组变量选中变量group:Define GroupsGroup 1:键入1 分别定义分组变量的数值Group 2:键入3 分别定义分组变量的数值ContinueOK 分析结果见“例11-4.spo”结果解释:NPar TestsKruskal-Wallis Test上表结果表明三种不同方法术后生存月数不同,还需要进行两两比较。遗憾的是,包括SAS、SPSS在内的权威统计软件均未能提供该功能。实际应用时,我们可以采取:利用修正检验水准法分别进行两两非参数检验当各组例数较多时,采用秩变换分析。频数表型资料例11-5 某研究者调查了分娩时孕周与乳量的关系,比较分娩时二者的关系。(数据表见“例11-5.sav”)操作方法:DataWeight casesweight Cases by:Frequency Variable:freq 定义频数变量freqOKAnalyzeNonparametric Tests2 Independent SamplesTest Variable List:yz 要分析的变量是孕周Grouping Variable:rl 定义分组变量乳量选中变量group:Define GroupsGroup 1:键入1 分别定义分组变量的数值Group 2:键入3 分别定义
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国广电抚州市2025秋招综合管理类专业追问清单及参考回答
- 酒泉市中石化2025秋招面试半结构化模拟题及答案炼油设备技术岗
- 甘肃地区中石化2025秋招笔试行测50题速记
- 韶关市中储粮2025秋招面试专业追问题库安全环保岗
- 成都市中储粮2025秋招笔试粮食政策与企业文化50题速记
- 2025年防汛调度考试题及答案
- 国家能源阜新市2025秋招心理测评常考题型与答题技巧
- 国家能源松原市2025秋招财务审计类面试追问及参考回答
- 中国联通内蒙古地区2025秋招心理测评常考题型与答题技巧
- 中国移动资阳市2025秋招技能类专业追问清单及参考回答
- 施工现场安全监理危险源清单一览表
- GB/T 233-2000金属材料顶锻试验方法
- FZ/T 74003-2014击剑服
- 颈椎DR摄影技术-
- 功能材料概论-课件
- 一点儿有点儿课件
- 眼视光技术专业技能考核题库-眼镜定配技术模块
- 体育测量与评价-第二章-体育测量与评价的基础理论课件
- 超清地质年代表
- 铺轨工程监理规划及工作内容
- 女生青春期生理卫生知识讲座(课堂PPT)
评论
0/150
提交评论