SPSS在医学统计学中的应用讲课文档_第1页
SPSS在医学统计学中的应用讲课文档_第2页
SPSS在医学统计学中的应用讲课文档_第3页
SPSS在医学统计学中的应用讲课文档_第4页
SPSS在医学统计学中的应用讲课文档_第5页
已阅读5页,还剩144页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS在医学统计学中的应用第1页,共149页。简介SPSS(StatisticalProductandServiceSolutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatisticalPackagefortheSocialSciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。之后推出了一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务,有Windows和MacOSX等版本。第2页,共149页。SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生NormanH.Nie、C.Hadlai(Tex)Hull和DaleH.Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。第3页,共149页。2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。如今SPSS已出至版本22.0,而且更名为IBMSPSS。第4页,共149页。1.基本特点2.主要窗口及功能3.运行环境一、SPSS的概述第5页,共149页。1.操作简便SPSS软件基本操作通过点击鼠标就可以完成,有一定的统计学基础、熟悉Windows的基本操作就可以自学使用,除了数据录入需要使用键盘,常见的统计分析方法完全可以通过菜单、对话框的操作来完成,不需要编程。基本特点第6页,共149页。2.数据管理功能强大SPSS集成了数据录入、转换、检索、统计分析、作图、制表及编程功能,也可以从外部导入数据,如通过Excel表格、txt文本读入数据库。7第7页,共149页。3.统计分析方法比较全面SPSS统计过程包括了常用的、较为成熟的统计分析方法,提供了从简单的描述统计到复杂的多因素统计分析方法,例如数据的探索性分析、一般统计描述、简单列联表分析、均数比较、一般线性模型、混合模型、相关回归、对数线性模型、聚类和判别、因子和对应分析、非参数检验以及生存分析等等等等。第8页,共149页。SPSS主要由三大窗口:数据编辑窗口(data

editor)

结果输出窗口(vieweditor)

程序编辑窗口(syntax

editor)主要窗口及其功能第9页,共149页。数据编辑窗口:

在“数据视图”中可以输入变量;“变量视图”中可以设定不同变量的属性。第10页,共149页。1.数值:标准数值型变量,系统默认

2.逗号:带逗点的数值型变量,千进位用逗号分隔

3.点:圆点数值型变量,小数与整数间用圆点分隔

4.科学计数法

5.日期型变量

6.带美元符号的数值型变量

7.自定义型

8.字符型变量11第11页,共149页。变量值标签的添加方法第12页,共149页。语法编辑窗口:

编辑语法、运行由语法组成的过程文件。第13页,共149页。二、数据文件的建立、导入与导出第14页,共149页。结果输出窗口:

输出程序运算结果及各种操作的记录第15页,共149页。通过数据编辑窗口输入数据第16页,共149页。文件的建立、调用和保存可以在文件菜单的指引下操作。第17页,共149页。第18页,共149页。.sav-数据文件-数据编辑.spo-输出结果文件-结果编辑.sps-命令程序文件-语法编辑SPSS主要的存储类型第19页,共149页。1.数据编辑2.数据搜索3.变量的插入与删除4.观察单位的插入与删除5.观测值排序6.数据文件的拆分与合并7.变量加权三、数据文件整理

第20页,共149页。数据操作在数据编辑窗口中的“Data

View”视窗下进行。可以对选定的操作对象进行剪切、拷贝、粘贴等操作。可以直接用鼠标右键进行操作,也可以用“编辑”下拉菜单中的选项进行操作,还可以用键盘上的快捷键来完成操作“control”+“X”(剪切)、“control”+“C”(拷贝)、“control”+“V”(粘贴)1.数据编辑第21页,共149页。1.搜索指定的记录编号:从“编辑”菜单中选择“转至个案”,只要在弹出的“个案数”中键入欲搜索的记录编号,光标就会自粽跳到该记录上。2.搜索指定变量中的指定数据的单元格:打开数据文件,光标移到变量所在的任意单元格,单击,然后从“编辑”菜单中选择“查找”,在弹出的对话框中键入需要查找的数据,然后点击“查找下一个”,光标会自动跳入该值所在的单元格。2.数据搜索第22页,共149页。3.变量的插入与删除4.观察单位的插入与删除5.观测值排序以上三项操作均可以通过在选定变量或个案后,点击鼠标右键来完成操作第23页,共149页。在进行数据的处理时,经常要对文件中的观察单位进行分组分析,例如,按男性、女性计算“年龄”的平均值,因此在进行分析计算是要对数据文件进行拆分。注意:此处的“拆分”并不是物理结构上,将数据库拆分为两个数据文件,仅为运算形式上的拆分。6.数据文件的拆分与合并第24页,共149页。第25页,共149页。2.增加变量:从外物数据文件增加变量到当前数据文件,成为横向合并或追加变量,合并后的数据文件包含相同的观察量。第26页,共149页。数据文件的合并包括两种方式:1.增加观察单位:从外部数据文件中增加观察单位到当前数据文件中,称为纵向合并或追加观察单位,这种合并方式要求两个数据文件中的变量相同。第27页,共149页。统计分析中经常要用到变量加权,如计算加权平均数,在选择加权变量时,应该注意:加权变量中含有零、负整数、或者缺失值的记录将会被排除在外;分数值有效;一旦对数据进行了加权处理,那么在以后的分析中加权处理一直有效,直到关闭加权处理过程或者选择其他的加权变量进行加权处理。操作步骤:“数据”→“加权个案”→“频率变量”8.变量加权第28页,共149页。1.新变量的建立2.变量的重新赋值3.观察单位的排秩4.缺失值的替代四、数据转换第29页,共149页。在医学科研实践中,仅使用原始数据新型分析处理往往是不够的,应根据统计分析的需要,对原始数据进行转换,生成新的变量或进行重新编码等。SPSS的数据转换功能主要通过“转换”菜单来实现。第30页,共149页。SPSS提供了14类180多种函数,用户可以根据需要,利用这些函数建立一些新的变量,常用函数如下:1.算数函数2.统计函数3.缺失值函数4.字符型函数5.日期、时间函数6.逻辑函数7.分布函数1.新变量的建立第31页,共149页。操作步骤:“转换”→“计算变量”第32页,共149页。以年龄分组为例:将数据文件中的年龄分成几个年龄组,以5岁为一组,将分组后的各组相应的赋值为1,2,3,4,5……菜单选择:“转换”→“重新编码为不同变量”2.变量的重新赋值第33页,共149页。第34页,共149页。第35页,共149页。第36页,共149页。某些统计分析过程需要对变量的秩进行分析,例如秩和检验,需要先对变量进行排秩。SPSS提供了该功能菜单选择:“转换”→“个案等级排序”3.观察单位的排秩第37页,共149页。第38页,共149页。SPSS的某些统计过程会因为数据文件带有缺失值而无法执行,例如在进行时间系统的统计分析时,要求相邻观测量中的变量值是在相等的时间间隔内测得,不能将带有缺失值的观测量排除掉,SPSS提供了多种方法估计并替换缺失值。菜单选择:“转换”→“替换缺失值”。4.缺失值的替代第39页,共149页。第40页,共149页。1.频数分布分析2.描述性统计分析3.探索性分析五、统计描述第41页,共149页。统计分析包括两个方面:统计描述;统计推断。统计描述指选用恰当的统计指标,通常称为统计量,选用合适的统计表与统计图,对资料的数量特征及其分布规律进行测定和描述。SPSS中用于统计描述的统计量主要由以下几类:1.描述集中趋势的指标:算数均数、几何均数、中位数2.描述离散趋势的指标:极差、四分位数间距、方差、标准差3.百分位数指标4.描述数据分布的统计量:偏度系数、峰度系数第42页,共149页。SPSS中的“描述统计”菜单可以完成上述各种统计量并可以绘制统计图表,主要包含以下几大模块:“频率”过程:主要用于产生频数表;“描述”过程:对变量进行描述性统计分析,计算统计指标;“探索”过程:对变量进行更为深入的描述性统计分析。第43页,共149页。频数分布分析可以产生详细的频数表,并可以按要求给出条图、直方图以及集中趋势和离散趋势的各种统计量,描述数据的分布特征。以书后练习2.1为例1.建立数据文件1.频数分布分析第44页,共149页。2.统计分析:“分析”→“描述统计”→“频率”→“statistic”/“图表”→“确定”第45页,共149页。第46页,共149页。第47页,共149页。3.主要输出结果第48页,共149页。描述性统计分析主要用以描述集中趋势和离散趋势的各种统计量,还有一个特殊功能,就是可以对变量进行标准化处理。以书后练习2.1为例1.打开数据文件2.描述性统计分析第49页,共149页。2.统计分析:“分析”→“描述统计”→“描述”→“选项”→“确定”第50页,共149页。第51页,共149页。3.主要输出结果第52页,共149页。标准差与标准误的区别:标准差能反映一个数据集的离散程度。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。第53页,共149页。探索性分析的目的是对数据进行初步检查,判断有无奇异值和极端值;判断变量是否服从正态分布;对数据进行初步考察。以书后练习2.1为例1.打开数据文件3.探索性分析第54页,共149页。2.统计分析:“分析”→“描述统计”→“探索”→“statistic”第55页,共149页。3.主要输出结果第56页,共149页。1.单样本均数比较2.配对设计均数比较3.完全随机设计两均数比较六、两个均数比较的t检验

第57页,共149页。SPSS在“分析”菜单中的“比较均值”选项提供的t检验方法过程有单样本t检验、配对样本t检验、独立样本t检验。单样本均数比较的t检验即已知样本均数与已知总体均数的比较。本法是检验单个样本均数所代表的未知总体均数与已知总体均数是否有差别的参数检验方法过程。1.单样本均数比较第58页,共149页。例:某医生测得36名男性矿工的血红蛋白含量为:112,137,129,126,88,90,105,178,130,128,126,103,172,116,125,90,96,62,157,151,135,113,175,129,165,171,128,128,160,110,140,163,100,129,116,127(g/L),问,这36名矿工的血红蛋白含量与正常男性(平均值为140g/L)有无不同?1.建立数据库建立数据库文件时,产生一个变量“Hb”,类型为数值型,共36行1列。(ex---6.2)第59页,共149页。统计分析:“分析”→“比较均值”→“单独样本T检验”第60页,共149页。不要忘记第61页,共149页。统计量t=-2.596,自由度df=35,双侧检验p=0.014,差值的均数为-11.944,95%可信区间为(-21.29,-2.6),按α=0.05水准,可认为矿工的血红蛋白与正常男性有差别,结合本例,可认为矿工的血红蛋白比正常男性低。第62页,共149页。配对设计均数比较简称配对t检验,使用与:1.量同质收拾对象配成对子分别接受两种不同的处理;2.同一受试对象分别接受两种不同处理;3.同一受试对象接受(一种)处理前后。2.配对设计均数比较第63页,共149页。建立数据文件时,产生两个反应变量x1正常组,x2缺乏组,均为数值型。以书后练习6.2为例,首先建立数据文件第64页,共149页。第65页,共149页。两组相关系数的假设检验p=0.129,说明两组的差别没有统计学意义。第66页,共149页。完全随机设计两组均数比较的t检验又称成组t检验,适用于完全随机设计两样本均数的比较。两组完全随机设计是将受试对象完全随机分配到两个不同处理组。3.完全随机设计两均数比较第67页,共149页。建立数据文件时,取两个变量,一个为分组变量group,字符型,1=新药组,2=常规药组;一个为反应变量X,数值型,共20行2列。以书后练习6.3,首先建立数据文件第68页,共149页。第69页,共149页。方差齐性检验F=1.697,p=0.209,可认为方差为齐性,选择“采用相等变异系数”时的值,t=1.019,自由度df=18,双侧检验p=0.321,按α=0.05水准,不能认为新药和常用药有差别。第70页,共149页。1.完全随机设计资料的方差分析2.随机区组设计资料的方差分析七、多个均数比较的方差分析第71页,共149页。方差分析多用于多个样本均数的比较,其应用条件为:1.各样本均是相互独立的随机样本;2.均服从正态分布;3.各样本的总体方差相等。第72页,共149页。完全随机设计是采用完全随机化的分组方法,将全部试验对象分配到n个处理组,各组接受不同的处理,实验结束后比较各组均数的差别有无统计学意义,以推断处理因素的效应。1.完全随机设计资料的方差分析以书后练习6.4为例,首先建立数据文件数据文件包含两个变量,分组变量group:1=A组,2=B组,3=C组,变量类型为数值型;反应变量zsl,变量类型为数值型。共3列21行。第73页,共149页。第74页,共149页。第75页,共149页。第76页,共149页。本例Levene

p=0.360,认为三组方差齐性;F=1.05,p=0.370,按照α=0.05的水准,接受H0,拒绝H1,认为三组间的差异无统计学意义。SNK的分析结果,认为三组间,两两均无差异。第77页,共149页。随机区组设计又称为配伍组设计,在进行统计分析时,将区组变异离均差平方和从完全随机设计的组内离均差平方和中分离出来,从而减小组内平方和,提高了统计检验效率。2.随机区组设计资料的方差分析

以书后练习6.5为例,首先建立数据文件数据文件包含3个变量,分组变量year,数值型,1=三年,2=四年,3=五年;配伍组变量block,数值型,1=大花叶,2=无光叶,3=小花叶;结果变量weight第78页,共149页。第79页,共149页。第80页,共149页。第81页,共149页。第82页,共149页。第83页,共149页。本例结果显示时间因素year对黄连的产量有影响,F=21.782,p=0.007<0.05,区组因素block对黄连的产量也有影响,F=10.138,p=0.027<0.05。第84页,共149页。1.四格表(2×2表)的x2检验2.配对四格表x2检验3.行×列表x2检验八、率和构成比的比较第85页,共149页。x2检验是一种用途广泛的假设检验,本章介绍应用x2检验推断两个或两个以上总体率或构成比之间有无差别,以及两个分类变量之间有无关联。第86页,共149页。四格表资料的x2检验可推断两个总体率之间有无差别。各实际频数排列用符号表示如下:1.四格表(2×2表)的x2检验第87页,共149页。以书后练习7.2为例,整理四格表:建立数据库建立数据文件时,取3个变量:处理组别“treat”变量:1=case,2=control;疗效变量“effect”:1=有效,2=无效;频率变量“freq”。第88页,共149页。第89页,共149页。统计分析:“数据”→“加权个案”→“分析”→“描述统计”→“交叉表格”→“statistic”,点选“卡方”选项。第90页,共149页。第91页,共149页。第92页,共149页。第93页,共149页。本例选择Pearson

x2=6.930,p=0.008,按α=0.05水准,拒绝H0,接受H1,认为两组差别有统计学意义。第94页,共149页。计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。其特点是样本中每个个体分别接受两种方法的处理,观察两种处理方法的二分类变量的技术结果。配对四格表的样本资料表示如下表:2.配对四格表x2检验第95页,共149页。建立数据文件,建立数据文件时,取3个变量,一个为“正常体重”,变量标示:1=“发生”,2=“未发生”;一个为“肥胖”,变量标示:1=“发生”,2=“未发生”;一个为“freq”,表示各指标的发生频率。以书后练习7.5为例,整理四格表:第96页,共149页。第97页,共149页。统计分析:“数据”→“加权个案”→“分析”→“描述统计”→“交叉表格”→“statistic”,点选“McNemar”选项。第98页,共149页。第99页,共149页。第100页,共149页。第101页,共149页。本例p=0.143,按α=0.05水准,不能拒绝H0,认为两组差别没有统计学意义。第102页,共149页。行×列表资料的卡方检验用于多个率或多个构成比的比较。以书后习题7.3为例讲解。首先整理表格:3.行×列表x2检验第103页,共149页。第104页,共149页。建立数据文件第105页,共149页。第106页,共149页。第107页,共149页。本例选择Pearson

x2=146.175,p=0.000,按α=0.05水准,拒绝H0,接受H1,认为各组差别有统计学意义。第108页,共149页。1.两独立样本非参数检验2.多个独立样本非参数检验3.两相关样本非参数检验4.多个相关样本非参数检验九、非参数检验第109页,共149页。非参数检验的方法很过,常用的有秩和检验,非参数检验方法的应用范围主要包括:1.不满足正太和方差齐性条件的小样本计量资料;2.分布不知是否正态的小样本资料;3.一端或者两端为不确定数值资料;4.等级资料。第110页,共149页。两独立样本非参数检验过程是检验两个独立样本所在总体分布是否有差别的方法。1.两独立样本非参数检验以书后练习8.2为例,首先建立数据文件建立数据文件时,产生两个变量,一个为分组变量group:1=铅作业组,2=非铅作业组;一个为反应变量Pb。第111页,共149页。第112页,共149页。第113页,共149页。Mann-Whitney

U检验的统计量为4.500,Wilcoxon

W检验统计量为59.500,两种检验的Z值为-2.980,双侧检验p=0.003,确切概率检验p=0.001,因为Z分布为对称分布,单侧检验p=0.0015<0.05,认为两组的血铅值含量差异有统计学意义。第114页,共149页。练习8.3,建立数据文件,数据文件包含3个变量:(1)分组变量,赋值:1=一般组,2=重症组。(2)反应变量,即总胆红素的含量,编秩。(3)频数变量,即人数第115页,共149页。1.对数据进行加权:数据→加权个案第116页,共149页。2.对两独立样本进行秩和检验第117页,共149页。Z=-5.576,双侧检验P=0.000;按α=0.05水准,可认为两组患肝炎婴儿的血清总胆红素有差别,第118页,共149页。多个独立样本非参数检验过程是检验多个独立样本所在的总体分布是否有差异的方法。2.多个独立样本非参数检验以书后练习8.5为例,首先建立数据文件数据文件包含两个变量,分组变量group:1=正常人,2=单纯性肥胖,3=皮质醇增多型;反应变量X,表示血浆总皮质醇的浓度。第119页,共149页。第120页,共149页。第121页,共149页。本例Chi-Square统计量为18.130,自由度为df=2,p=0.000,按α=0.05水准可认为三组人的血浆总皮质醇含量有差异。第122页,共149页。练习8.3,建立数据文件,数据文件包含3个变量:(1)分组变量,赋值:1=单纯型,2=喘息型,3=单纯型合并肺气肿,4=喘息型合并肺气肿。(2)反应变量,即疗效,编秩。(3)频数变量,即人数第123页,共149页。1.对数据进行加权:数据→加权个案第124页,共149页。第125页,共149页。卡方检验统计量为2.113,自由度df=3,概率p=0.549,按照α=0.05水准尚不能认为四种药物的疗效有差别。第126页,共149页。1.直线相关2.直线回归十、双变量相关与回归分析第127页,共149页。在医学科研的过程中,经常会遇到分析两个变量之间的关系,例如,体重与肺活量,年龄与血压,身高与体表面积之间的关系,此时,经常用相关与回归分析来解决。在进行相关与回归分析之前必须先做散点图,判断量变量之间是否存在线性趋势,当两变量间存在线性趋势时,才考虑做相关或者回归。第128页,共149页。直线相关是研究两个变量之间线性关系的一种常用统计方法,分析的是两变量之间是否存在直线相关关系,以及相关的方向和程度。作直线相关分析要求资料服从双变量正态分布。对于不符合双变量正态分布的资料,不能直接计算相关系数,可用非参数统计方法。1.直线相关第129页,共149页。例2.某地研究了8名正常儿童的尿肌酐含量Y(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论