版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SPSS在医学统计学中的应用公共卫生学院流行病与卫生统计教研室刘艳梅 常用的统计软件SAS(Statistics Analysis System),最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。R语言 主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman 开发(也因此称为R),现在由“R开发核心团队”负责开发。SPSS(Statistical Product and Service Solutions)简介SPSS(Statistical Product an
2、d Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(Solutions Statistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。之后推出了一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务,有Windows和Mac OS X等版本。SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生Norman
3、H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。
4、如今SPSS已出至版本22.0,而且更名为IBM SPSS。1.基本特点2.主要窗口及功能3.运行环境一、SPSS的概述 1.操作简便 SPSS软件基本操作通过点击鼠标就可以完成,有一定的统计学基础、熟悉Windows的基本操作就可以自学使用,除了数据录入需要使用键盘,常见的统计分析方法完全可以通过菜单、对话框的操作来完成,不需要编程。基本特点82.数据管理功能强大SPSS集成了数据录入、转换、检索、统计分析、作图、制表及编程功能,也可以从外部导入数据,如通过Excel表格、txt文本读入数据库。3.统计分析方法比较全面SPSS统计过程包括了常用的、较为成熟的统计分析方法,提供了从简单的描述统
5、计到复杂的多因素统计分析方法,例如数据的探索性分析、一般统计描述、简单列联表分析、均数比较、一般线性模型、混合模型、相关回归、对数线性模型、聚类和判别、因子和对应分析、非参数检验以及生存分析等等等等。SPSS主要由三大窗口:数据编辑窗口(data editor) 结果输出窗口(view editor) 程序编辑窗口(syntax editor)主要窗口及其功能数据编辑窗口:在“数据视图” 中可以输入变量;“变量视图” 中可以设定不同变量的属性。12 1.数值:标准数值型变量,系统默认2.逗号:带逗点的数值型变量,千进位用逗号分隔3.点:圆点数值型变量,小数与整数间用圆点分隔 4.科学计数法 5
6、.日期型变量 6.带美元符号的数值型变量 7.自定义型8.字符型变量变量值标签的添加方法语法编辑窗口:编辑语法、运行由语法组成的过程文件。二、数据文件的建立、导入与导出结果输出窗口:输出程序运算结果及各种操作的记录通过数据编辑窗口输入数据文件的建立、调用和保存可以在文件菜单的指引下操作。.sav-数据文件-数据编辑.spo-输出结果文件-结果编辑.sps-命令程序文件-语法编辑SPSS主要的存储类型1.数据编辑2.数据搜索3.变量的插入与删除4.观察单位的插入与删除5.观测值排序6.数据文件的拆分与合并7.变量加权三、数据文件整理数据操作在数据编辑窗口中的“Data View”视窗下进行。可以
7、对选定的操作对象进行剪切、拷贝、粘贴等操作。可以直接用鼠标右键进行操作,也可以用“编辑”下拉菜单中的选项进行操作,还可以用键盘上的快捷键来完成操作“control”+“X”(剪切)、“control”+“C” (拷贝)、“control”+“V” (粘贴)1.数据编辑1.搜索指定的记录编号:从“编辑”菜单中选择“转至个案”,只要在弹出的“个案数”中键入欲搜索的记录编号,光标就会自粽跳到该记录上。2.搜索指定变量中的指定数据的单元格:打开数据文件,光标移到变量所在的任意单元格,单击,然后从 “编辑”菜单中选择“查找”,在弹出的对话框中键入需要查找的数据,然后点击“查找下一个”,光标会自动跳入该值
8、所在的单元格。2.数据搜索3.变量的插入与删除4.观察单位的插入与删除5.观测值排序以上三项操作均可以通过在选定变量或个案后,点击鼠标右键来完成操作在进行数据的处理时,经常要对文件中的观察单位进行分组分析,例如,按男性、女性计算“年龄”的平均值,因此在进行分析计算是要对数据文件进行拆分。注意:此处的“拆分”并不是物理结构上,将数据库拆分为两个数据文件,仅为运算形式上的拆分。6.数据文件的拆分与合并2.增加变量:从外物数据文件增加变量到当前数据文件,成为横向合并或追加变量,合并后的数据文件包含相同的观察量。数据文件的合并包括两种方式:1.增加观察单位:从外部数据文件中增加观察单位到当前数据文件中
9、,称为纵向合并或追加观察单位,这种合并方式要求两个数据文件中的变量相同。统计分析中经常要用到变量加权,如计算加权平均数,在选择加权变量时,应该注意:加权变量中含有零、负整数、或者缺失值的记录将会被排除在外;分数值有效;一旦对数据进行了加权处理,那么在以后的分析中加权处理一直有效,直到关闭加权处理过程或者选择其他的加权变量进行加权处理。操作步骤:“数据”“加权个案”“频率变量”8.变量加权1.新变量的建立2.变量的重新赋值3.观察单位的排秩4.缺失值的替代四、数据转换在医学科研实践中,仅使用原始数据新型分析处理往往是不够的,应根据统计分析的需要,对原始数据进行转换,生成新的变量或进行重新编码等。
10、SPSS的数据转换功能主要通过“转换”菜单来实现。SPSS提供了14类180多种函数,用户可以根据需要,利用这些函数建立一些新的变量,常用函数如下:1.算数函数2.统计函数3.缺失值函数4.字符型函数5.日期、时间函数6.逻辑函数7.分布函数1.新变量的建立操作步骤:“转换” “计算变量”以年龄分组为例:将数据文件中的年龄分成几个年龄组,以5岁为一组,将分组后的各组相应的赋值为1,2,3,4,5菜单选择:“转换” “重新编码为不同变量”2.变量的重新赋值某些统计分析过程需要对变量的秩进行分析,例如秩和检验,需要先对变量进行排秩。SPSS提供了该功能菜单选择:“转换” “个案等级排序”3.观察单
11、位的排秩SPSS的某些统计过程会因为数据文件带有缺失值而无法执行,例如在进行时间系统的统计分析时,要求相邻观测量中的变量值是在相等的时间间隔内测得,不能将带有缺失值的观测量排除掉,SPSS提供了多种方法估计并替换缺失值。菜单选择:“转换” “替换缺失值”。4.缺失值的替代1.频数分布分析2.描述性统计分析3.探索性分析五、统计描述统计分析包括两个方面:统计描述;统计推断。统计描述指选用恰当的统计指标,通常称为统计量,选用合适的统计表与统计图,对资料的数量特征及其分布规律进行测定和描述。SPSS中用于统计描述的统计量主要由以下几类:1.描述集中趋势的指标:算数均数、几何均数、中位数2.描述离散趋
12、势的指标:极差、四分位数间距、方差、标准差3.百分位数指标4.描述数据分布的统计量:偏度系数、峰度系数SPSS中的“描述统计”菜单可以完成上述各种统计量并可以绘制统计图表,主要包含以下几大模块:“频率”过程:主要用于产生频数表;“描述”过程:对变量进行描述性统计分析,计算统计指标;“探索”过程:对变量进行更为深入的描述性统计分析。频数分布分析可以产生详细的频数表,并可以按要求给出条图、直方图以及集中趋势和离散趋势的各种统计量,描述数据的分布特征。以书后练习2.1为例1.建立数据文件1.频数分布分析2.统计分析:“分析”“描述统计”“频率”“statistic”/“图表”“确定”3.主要输出结果
13、描述性统计分析主要用以描述集中趋势和离散趋势的各种统计量,还有一个特殊功能,就是可以对变量进行标准化处理。以书后练习2.1为例1.打开数据文件2.描述性统计分析2.统计分析: “分析”“描述统计”“描述”“选项”“确定”3.主要输出结果标准差与标准误的区别:标准差能反映一个数据集的离散程度。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。探索性分析的目的是对数据进行初步检查,判断有无奇异值和极端值;判断变量是否服从正态分布;对数据进行初步考察。以书后练习2.1为例1.打开数据文件3.探索性分析2.统计分析:“分
14、析”“描述统计”“探索”“statistic”3.主要输出结果1.单样本均数比较2.配对设计均数比较3.完全随机设计两均数比较六、两个均数比较的t检验SPSS在 “分析”菜单中的“比较均值”选项提供的t检验方法过程有单样本t检验、配对样本t检验、独立样本t检验。单样本均数比较的t检验即已知样本均数与已知总体均数的比较。本法是检验单个样本均数所代表的未知总体均数与已知总体均数是否有差别的参数检验方法过程。1.单样本均数比较例:某医生测得36名男性矿工的血红蛋白含量为:112,137,129,126,88,90,105,178,130,128,126,103,172,116,125,90,96,6
15、2,157,151,135,113,175,129,165,171,128,128,160,110,140,163,100,129,116,127(g/L),问,这36名矿工的血红蛋白含量与正常男性(平均值为140g/L)有无不同?1.建立数据库建立数据库文件时,产生一个变量“Hb”,类型为数值型,共36行1列。(ex-6.2)统计分析:“分析”“比较均值”“单独样本T检验”不要忘记统计量t=-2.596,自由度df=35,双侧检验p=0.014,差值的均数为-11.944,95%可信区间为(-21.29,-2.6),按=0.05水准,可认为矿工的血红蛋白与正常男性有差别,结合本例,可认为矿工
16、的血红蛋白比正常男性低。配对设计均数比较简称配对t检验,使用与:1.量同质收拾对象配成对子分别接受两种不同的处理;2.同一受试对象分别接受两种不同处理;3.同一受试对象接受(一种)处理前后。2.配对设计均数比较建立数据文件时,产生两个反应变量x1正常组,x2缺乏组,均为数值型。以书后练习6.2为例,首先建立数据文件两组相关系数的假设检验p=0.129,说明两组的差别没有统计学意义。完全随机设计两组均数比较的t检验又称成组t检验,适用于完全随机设计两样本均数的比较。两组完全随机设计是将受试对象完全随机分配到两个不同处理组。3.完全随机设计两均数比较建立数据文件时,取两个变量,一个为分组变量gro
17、up,字符型,1=新药组,2=常规药组;一个为反应变量X,数值型,共20行2列。以书后练习6.3,首先建立数据文件方差齐性检验F=1.697,p=0.209,可认为方差为齐性,选择“采用相等变异系数”时的值,t=1.019,自由度df=18,双侧检验p=0.321,按=0.05水准,不能认为新药和常用药有差别。1.完全随机设计资料的方差分析2.随机区组设计资料的方差分析七、多个均数比较的方差分析方差分析多用于多个样本均数的比较,其应用条件为:1.各样本均是相互独立的随机样本;2.均服从正态分布;3.各样本的总体方差相等。完全随机设计是采用完全随机化的分组方法,将全部试验对象分配到n个处理组,各
18、组接受不同的处理,实验结束后比较各组均数的差别有无统计学意义,以推断处理因素的效应。1.完全随机设计资料的方差分析以书后练习6.4为例,首先建立数据文件数据文件包含两个变量,分组变量group:1=A组,2=B组,3=C组,变量类型为数值型;反应变量zsl,变量类型为数值型。共3列21行。本例Levene p=0.360,认为三组方差齐性;F=1.05,p=0.370,按照=0.05的水准,接受H0,拒绝H1,认为三组间的差异无统计学意义。SNK的分析结果,认为三组间,两两均无差异。随机区组设计又称为配伍组设计,在进行统计分析时,将区组变异离均差平方和从完全随机设计的组内离均差平方和中分离出来
19、,从而减小组内平方和,提高了统计检验效率。2.随机区组设计资料的方差分析以书后练习6.5为例,首先建立数据文件数据文件包含3个变量,分组变量year,数值型,1=三年,2=四年,3=五年;配伍组变量block,数值型,1=大花叶,2=无光叶,3=小花叶;结果变量weight本例结果显示时间因素year对黄连的产量有影响,F=21.782,p=0.0070.05,区组因素block对黄连的产量也有影响,F=10.138,p=0.0270.05。1.四格表(22表)的x2检验2.配对四格表x2检验3.行列表x2检验八、率和构成比的比较x2检验是一种用途广泛的假设检验,本章介绍应用x2检验推断两个或
20、两个以上总体率或构成比之间有无差别,以及两个分类变量之间有无关联。四格表资料的x2检验可推断两个总体率之间有无差别。各实际频数排列用符号表示如下:1.四格表(22表)的x2检验以书后练习7.2为例,整理四格表:建立数据库建立数据文件时,取3个变量:处理组别“treat”变量:1=case,2=control; 疗效变量“effect”:1=有效,2=无效;频率变量“freq”。统计分析:“数据”“加权个案”“分析”“描述统计”“交叉表格”“statistic”,点选“卡方”选项。本例选择Pearson x2=6.930, p=0.008,按=0.05水准,拒绝H0,接受H1,认为两组差别有统计
21、学意义。计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。其特点是样本中每个个体分别接受两种方法的处理,观察两种处理方法的二分类变量的技术结果。配对四格表的样本资料表示如下表:2.配对四格表x2检验建立数据文件,建立数据文件时,取3个变量,一个为“正常体重”,变量标示:1=“发生”,2=“未发生”;一个为 “肥胖”,变量标示:1=“发生”,2=“未发生”;一个为“freq” ,表示各指标的发生频率。以书后练习7.5为例,整理四格表:统计分析:“数据”“加权个案”“分析”“描述统计”“交叉表格”“statistic”,点选“McNemar”选项。本例p=0.143,按=0.05水准
22、,不能拒绝H0,认为两组差别没有统计学意义。行列表资料的卡方检验用于多个率或多个构成比的比较。以书后习题7.3为例讲解。首先整理表格:3.行列表x2检验建立数据文件本例选择Pearson x2=146.175, p=0.000,按=0.05水准,拒绝H0,接受H1,认为各组差别有统计学意义。1.两独立样本非参数检验2.多个独立样本非参数检验3.两相关样本非参数检验4.多个相关样本非参数检验九、非参数检验非参数检验的方法很过,常用的有秩和检验,非参数检验方法的应用范围主要包括:1.不满足正太和方差齐性条件的小样本计量资料;2.分布不知是否正态的小样本资料;3.一端或者两端为不确定数值资料;4.等
23、级资料。两独立样本非参数检验过程是检验两个独立样本所在总体分布是否有差别的方法。1.两独立样本非参数检验以书后练习8.2为例,首先建立数据文件建立数据文件时,产生两个变量,一个为分组变量group:1=铅作业组,2=非铅作业组;一个为反应变量Pb。Mann-Whitney U检验的统计量为4.500,Wilcoxon W检验统计量为59.500,两种检验的Z值为-2.980,双侧检验p=0.003,确切概率检验p=0.001,因为Z分布为对称分布,单侧检验p=0.00150.05,认为两组的血铅值含量差异有统计学意义。练习8.3,建立数据文件,数据文件包含3个变量:(1)分组变量,赋值:1=一
24、般组,2=重症组。(2)反应变量,即总胆红素的含量,编秩。(3)频数变量,即人数1.对数据进行加权:数据加权个案2.对两独立样本进行秩和检验Z=-5.576,双侧检验P=0.000;按=0.05水准,可认为两组患肝炎婴儿的血清总胆红素有差别,多个独立样本非参数检验过程是检验多个独立样本所在的总体分布是否有差异的方法。2.多个独立样本非参数检验以书后练习8.5为例,首先建立数据文件数据文件包含两个变量,分组变量group:1=正常人,2=单纯性肥胖,3=皮质醇增多型;反应变量X,表示血浆总皮质醇的浓度。本例Chi-Square统计量为18.130,自由度为df=2,p=0.000,按=0.05水
25、准可认为三组人的血浆总皮质醇含量有差异。练习8.3,建立数据文件,数据文件包含3个变量:(1)分组变量,赋值:1=单纯型,2=喘息型,3=单纯型合并肺气肿,4=喘息型合并肺气肿。(2)反应变量,即疗效,编秩。(3)频数变量,即人数1.对数据进行加权:数据加权个案卡方检验统计量为2.113,自由度df=3,概率p=0.549,按照=0.05水准尚不能认为四种药物的疗效有差别。1.直线相关2.直线回归十、双变量相关与回归分析在医学科研的过程中,经常会遇到分析两个变量之间的关系,例如,体重与肺活量,年龄与血压,身高与体表面积之间的关系,此时,经常用相关与回归分析来解决。在进行相关与回归分析之前必须先
26、做散点图,判断量变量之间是否存在线性趋势,当两变量间存在线性趋势时,才考虑做相关或者回归。直线相关是研究两个变量之间线性关系的一种常用统计方法,分析的是两变量之间是否存在直线相关关系,以及相关的方向和程度。作直线相关分析要求资料服从双变量正态分布。对于不符合双变量正态分布的资料,不能直接计算相关系数,可用非参数统计方法。1.直线相关例2.某地研究了8名正常儿童的尿肌酐含量Y(mmol/24h),使计算尿肌酐的含量与其年龄的相关系数。建立数据文件,取两个变量,X:年龄;Y:尿肌酐含量。两变量均为数值型。散点图的制作结果显示年龄和尿肌酐含量的相关系数为0.882,p=0.004,有统计学意义。Pearson相关:极距相关系数,系统默认项,主要用于符合双变量正态分布资料的相关分析。Kendalls tau-b:Kendalls等级相关系数,是反映两个分类变量一致性的指标。Spearman:spearman相关系数是非参数相关分析,即秩相关分析。补充:医学研究中常要定量刻画应变量Y对自变量X在数量上的依存关系,常常将易于测量的变量作为X,另一个随机变量作为Y。直线回归分析的使用条件:对于每个X相应的Y要服从正态分布,X可以是正态随机变量也可以是能精确测量或严格控制的非随机变量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店三级检查制度
- 2026重庆市潼南区教育事业单位面向应届高校毕业生考核招聘30人笔试备考题库及答案解析
- 2027届高三生物一轮复习课件:第8单元 第26讲 第二课时 神经冲动的产生、传导和传递及相关实验探究
- 商铺租赁补充协议
- 2026年度山东第二医科大学附属医院公开招聘人员(49人)笔试模拟试题及答案解析
- 数字化解决方案设计师岗前技术突破考核试卷含答案
- 煤焦车司机成果评优考核试卷含答案
- 2026江苏南京市雨花台区市场监督管理局招聘编外人员1人笔试备考题库及答案解析
- 2026年及未来5年市场数据中国双极晶体管行业发展前景预测及投资战略咨询报告
- 工程机械维修工岗前管理综合考核试卷含答案
- 深度强化学习在机器人控制中的应用-深度研究
- 2025年01月侵华日军第七三一部队旧址公开招聘10人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 人工智能导论-第2版-全套课件
- 2025年山东中烟工业有限责任公司招聘笔试参考题库含答案解析
- 《智慧物流与供应链》课件-项目八 智慧物流与供应链管理的运作模式
- 英语六级词汇表
- 【MOOC】结构力学(上)-西安建筑科技大学 中国大学慕课MOOC答案
- 2024年部编版高考语文一轮复习必背重点:古代文化常识
- GB/T 4706.27-2024家用和类似用途电器的安全第27部分:风扇的特殊要求
- DL∕T 1965-2019 回转式翻车机系统运行维护导则
- 生态经济学(南昌大学)智慧树知到期末考试答案章节答案2024年南昌大学
评论
0/150
提交评论