湘雅卫生统计spss课件.ppt_第1页
湘雅卫生统计spss课件.ppt_第2页
湘雅卫生统计spss课件.ppt_第3页
湘雅卫生统计spss课件.ppt_第4页
湘雅卫生统计spss课件.ppt_第5页
已阅读5页,还剩222页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,SPSS 13.0 for Windows 在医学科研统计中的应用 中南大学公共卫生学院 卫生统计教研室 虞仁和,数据处理的一般原则,医学数据的统计处理涉及到医学专业知识、统计专业知识、处理数据的经验和技巧等各个方面,是一门很高超的艺术。在数据处理过程中,原始数据的采集和录入,数据的管理,恰当选用统计方法,熟练使用统计软件等,都是必须重视的关键环节。,原始数据的记录形式,原始数据的记录形式,原始数据中,变量分为标识变量和分析变量两种。 1.标识变量主要用于数据管理,包括数据的核对与增删等,是研究记录中不可缺少的内容,如上表中的“病人编号”和“病案号”即为标识变量。 2.分析变量则是数据分析的主要内容,上表中除上述2个标识变量外,其它9个变量均为分析变量。 分析变量又被分为反应变量(response variable)和解释变量(explanatory variable)。 反应变量是表示试验效应或观察结果大小的变量或指标。 解释变量又称指示变量(indicator)、分组变量(grouping variable) 、分类变量(categorical variable) 、协变量等。 根据研究目的以及变量间的相互关系,各变量的作用并非一成不变。,原始数据的录入,在进行统计分析前,原始数据需录入计算机。录入的文件类型大致有: 1.数据库文件,如dBASE、FoxBASE、Lotus、EPI info等;Excel文件; 2.文本文件,如word文件、WPS文件等; 3.统计应用软件的相应文件,如SPSS数据文件、SAS数据文件、STATA数 据文件等。 目前,上述文件类型绝大多数都可以相互转换。 录入数据时,应遵循便于录入,便于核查,便于转换,便于分析的原则。便于录入是指尽可能地减少录入工作量,例如,下图是前表原始数据录入为SPSS数据文件(数据.sav)的形式,录入时,用数值变量取代了字符变量(如图中的“性别”,“肾毒性”,“黄疸”,“昏迷”),可以大大节约录入的时间和费用。(如将性别标记为1=“男”,0=“女”)。,原始数据的录入,数据处理中的几个基本问题,1数据核查 数据录入后,首先须对录入的数据进行核查,以确保录入数据的准确性和真实性。核查准确性可分两步进行。第一步逻辑检查,通过运行统计软件中的基本统计量过程,列出每个变量的最大和最小值,如果某变量的最大或最小值不符合逻辑,则数据有误。例如,在SPSS数据“数据.sav”文件中,当变量“年龄”的最大值为“300”时,一定有误。利用软件的查找功能可立即找到该数据,然后根据该数据对应的标识值找出原始记录,更正该数据。如本例可查到该数据对应的 “病人编号”为“27”,查原始记录的年龄为“30”。第二步数据核对,将原始数据与录入的数据一一核对,错者更正。有时,为慎重起见,采用双份录入的方式,然后用程序作一一比较,不一致者一定是录错的数据。 数据核查的另一项任务是对数据的真实性做出初步判断。,数据处理中的几个基本问题,2离群数据的处理 当个别数据与群体数据严重偏离时,被称为离群数据(outlier)或极端数据(extreme value)。统计软件一般都有判断离群数据的方法。判断离群数据有多种方法,例如,SPSS软件对其的定义为:观察值距箱式图(box plot)的箱体底线(第25百分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距)的1.5倍至3倍时被视为离群点;观察值距箱体底线或顶线的距离超过3倍的箱体高度时被视为极端值。 若有离群数据出现,可分为两种情况处理: 一种是,如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。例如,若某一数据中某病例的身高变量为“1755”cm,且原始记录亦如此,又无法再找到该病例时,显然这是一个错误的记录,只能删除。 另一种是,若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,并需要剔除,必须给以充分合理的解释,例如用何种方法确定偏离数据,该数据在实验中何种干扰下产生等。,数据处理中的几个基本问题,3统计方法前提条件的检验: 应用参数方法进行假设检验往往要求数据满足某些前提条件,如两个独立样本比较t检验或多个独立样本比较的方差分析,均要求方差齐性,因此需要做方差齐性检验。 如果要用正态分布法估计参考值范围,首先要检验资料是否服从正态分布。 在建立各种多重回归方程时,常需检验变量间的多重共线性和残差分布的正态性。,统计方法选择的基本思路,数据处理中,正确选择统计方法至关重要。选择统计方法可以沿着以下思路进行。 第一个层面,看反应变量是单变量、双变量还是多变量。 对于前者,第二个层面看属于三种资料类型中的哪一种; 第三个层面看单因素还是多因素; 第四个层面看单样本、两样本或多样本; 第五个层面看是否是配对或配伍设计; 第六个层面看是否满足检验方法所需的前提条件。,单变量计量资料的分析,1样本均数与总体均数比较 分析思路为:反应变量为单变量计量资料单因素样本均数与总体均数比较如果服从正态分布,选用样本均数与总体均数比较的t检验(one-sample t-test);如果不服从正态分布,则考虑用非参数检验方法。 2两个相关样本均数的比较 分析思路为:反应变量为单变量计量资料单因素两个相关样本均数比较(因为是配对设计)。如果差值服从正态分布,选用配对t检验(paired t-test);如果差值不服从正态分布,选用单样本秩和检验(Wilcoxon one-sample test)。 3两个独立样本均数比较 分析思路为:反应变量为单变量计量资料单因素两个独立样本均数比较。如果方差齐性,且两样本均服从正态分布,选用两样本t检验(two-sample t-test);如果方差不齐,但两样本均服从正态分布,选用t检验,或两样本秩和检验(Wilcoxon two-sample test / Mann-Whitney test);如果方差不齐,且两样本不服从正态分布,选用两样本秩和检验。本例选两样本t检验。,单变量计量资料的分析,4多个样本均数比较 应变量为单变量,又属计量资料时,多个样本均数比较分为单因素和多因素两种情形。而重复测量资料则被视为多个反应变量的类型。 (1) 单因素方差分析:若方差齐性,且各样本均服从正态分布,选单因素方差分析(one-way ANOVA);若方差不齐,或某样本不服从正态分布,选Kruskal-Wallis 秩和检验(Kruskal-Wallis test)。若方差分析或秩和检验结果显著,需进一步做多重比较,如SNK法,LSD法,扩展t检验等。 (2) 两因素方差分析但不分析交互作用:主要是随机区组设计资料,涉及2个因素,即1个处理因素和1个区组因素。如果满足方差齐性和正态分布两个条件,选用两因素方差分析(two-way ANOVA),如果不满足上述两个条件,选用随机区组设计资料的Friedman秩和检验(Friedman test)。,单变量计量资料的分析,(3) 三因素方差分析但不分析交互作用: 主要有拉丁方设计和二阶段交叉设计两种资料类型。对于拉丁方设计资料,涉及3个因素,即1个处理因素和2个区组因素;对于二阶段交叉设计资料,3个因素分别为处理因素、受试者和试验阶段。如果满足方差齐性和正态分布两个条件,拉丁方设计可选用三因素方差分析(three-way ANOVA),如例4-5;二阶段交叉设计可选用广义线性模型的方差分析,如例4-6。如果不满足上述两个条件,选用非参数方法(参见有关文献)。 若对处理因素的方差分析或秩和检验结果显著,均需进一步做多重比较。,单变量计量资料的分析,(4) 多因素方差分析且分析交互作用: 此类资料包括析因设计资料(例11-2),正交设计资料(例11-4),嵌套设计资料(例11-6),裂区设计资料(例11-7)等。 (5) 重复测量资料: 单因素重复测量只有1个重复测量因素,如表12-3的数据。多因素重复测量除有1个重复测量因素外,至少还有1个其它处理因素,可分析交互作用,如例12-3。,单变量计数资料的分析,单变量等级资料的分析,若为两组配对等级资料的比较,选Wilcoxon单样本秩和检验; 若为两组独立样本等级资料的比较,选Wilcoxon两样本样本秩和检验; 若为多组独立样本等级资料的比较,选Kruskal-Wallis秩和检验。,双变量资料的分析,1简单相关分析 分析两变量的相关关系时,若两变量满足二元正态分布,可选Pearson积矩相关分析(Pearson correlation);若两变量不满足二元正态分布,可选Spearman秩相关分析(Spearman correlation)。 2线性回归分析 分析两变量的回归关系时,若两变量关系呈线性趋势,可选简单线性回归分析(linear regression)。 3曲线回归分析 分析两变量的回归关系时,若两变量关系呈曲线趋势,可按曲线类型选指数曲线,多项式曲线,生长曲线,Logistic曲线等。也可选用非线性回归分析方法。,多变量资料的分析,1有应变量的多元分析 若应变量Y为数值型随机变量,且服从正态分布,自变量满足多元正态分布,可选多元回归分析或多元逐步回归分析 因变量Y为分类变量(二分类或多分类),且以判别分类为主要目的,自变量满足多元正态分布,可选判别分析或逐步判别分析。 若因变量Y为生存时间,并含有截尾数据,可选Cox模型做生存分析, 若因变量Y为二分类变量或多分类变量,且以分析危险因素为主要目的,如果为配比设计,选条件Logistic回归;如果无配比设计,选非条件Logistic回归。,多变量资料的分析,2. 无因变量的多元分析 欲将变量或观察单位划分为性质相近的k类,可选用聚类分析。 3. 相关分析 若分析1个变量与1组变量的相关关系,可选多重线性相关分析;若分析1组变量与另1组变量的相关关系,可选典型相关分析。,SPSS for Windows 概述,SPSS(Statistics Package for Social Science)社会科学用统计软件包,是目前世界上最优秀统计分析软件之一。随着产品服务领域的扩大和服务深度的增加,其英文全称已于2000年更改为“Statistics Product and Service Solutions” 统计产品与服务解决方案。,SPSS for Windows 概述,SPSS由来自于美国斯坦福大学三位不同专业知识背景的研究生Norman H. Nie, C. Hadlai Hull and Dale H. Bent研发于1968年。 1984年SPSS公司推出用于个人电脑的SPSS/PC+,其最初的几个版本是基于DOS环境。SPSS/PC+虽然功能强大,但在用户界面、输入、输出环境等方面并不十分理想。 1992年SPSS公司推出Windows版本,即最初的4.0版本。通过对操作平台的升级、数据交换与管理功能的升级、输出结果的升级和统计分析功能的升级,SPSS到现在已经演进到16.0版本。 按照约定,凡是DOS环境支持的4.0及其低版本统称为SPSS/PC+;凡是Windows环境支持的5.0及以后版本统称为SPSS。SPSS for Windows是SPSS/PC+的Windows版本。,SPSS for Windows 概述,SPSS与其它国际权威软件相比, 虽然也可以通过编辑程序来运行,但他最显著的特点是菜单和对话框操作方式,绝大多数操作过程仅靠点击鼠标即可完成。因而,它以易于操作而成为最受欢迎的统计软件包之一。,SPSS for Windows的特点,1操作简便 SPSS软件基本操作可通过点击鼠标来完成,有一定统计基础且熟悉Windows一般操作的应用者参考它的帮助系统基本上可以自学使用;除了数据录入及部分命令程序等少数输入工作需要使用键盘键入外,对于常见的统计分析方法完全可以通过对“菜单”、“对话框”的操作完成,无需编程。,SPSS for Windows的特点,2数据管理功能强大且操作直观 SPSS软件在其基本界面上集成了数据录入、转换、检索、统计分析、作图、制表及编辑等功能;采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。,SPSS for Windows的特点,3统计分析方法比较全面 SPSS 软件的统计过程包括了常用的、较为成熟的统计分析方法,提供了从简单的描述统计到复杂的多因素统计分析方法。比如数据的探索性分析、一般统计描述、简单列联表分析、均数比较、一般线性模型、混合模型、相关回归、对数线性模型、聚类和判别、因子和对应分析、多维标度、信度分析、非参数检验、时间序列、生存分析及缺失值估计等。,SPSS for Windows的特点,4功能模块组合灵活 SPSS 软件由Base、Advance Models、Tables、Trends、Categories 、Regression Models、Conjoint、Exact Tests、Missing Value Analysis和Maps等功能模块组成,其中SPSS Base为基本模块,其余为扩展模块,分别用于完成某一方面的统计分析功能。用户可根据自己的分析工作需要和计算机设备的实际配置情况选择和装配模块。,SPSS for Windows的特点,总之,SPSS for Windows界面清晰、形象直观、易学易用。只要掌握一定的Windows操作技能,懂得统计分析基本原理和方法,就可使用该软件为特定的科研服务。,SPSS的启动与退出,(一) SPSS for Windows的启动 1、双击(或单击)程序的桌面快捷方式图标启动SPSS。 2、 通过“开始”菜单的“程序”运行方式启动SPSS。 (二) SPSS for Windows的退出 1、单击主菜单中的“File”,在下拉菜单中单击“Exit”,可退出SPSS。 2、单击主菜单右上角控制框中的关闭按扭,可退出SPSS。,主界面(数据编辑窗)简介,一、数据编辑窗,在数据编辑窗中,有标题栏、菜单栏、工具栏、状态栏和数据表视窗及变量表视窗。数据编辑窗主要有建立新的数据文件、编辑和显示已有数据文件等功能。,数据编辑窗组成,数据编辑窗由Data View(数据表视窗)和Variable View(变量表视窗)两个视窗组成,两个视窗切换单独显示。数据表视窗用于显示和编辑变量值;变量表视窗用于定义、显示和编辑变量特征。在SPSS过程中,一次只能打开和显示一个数据文件。,1标题栏,标题栏位于窗口顶部,左边为控制菜单图标和窗口名称,右边为窗口控制按钮。,2菜单栏,标题栏下面是一行由10个菜单项组成的主菜单,其内容为: File 文件操作 Edit 文件编辑 View 视图 Data 建立数据与数据整理 Transform 数据转换 Analyze 统计分析 Graphs 绘图 Utilities 实用程序 Windows 窗口信息与控制 Help 帮助,3工具栏,为了方便用户,SPSS把一些常用的命令以图标按钮的形式组成一个常用工具栏置于菜单条下面。,4状态栏,状态栏位于窗口的底部,显示SPSS工作的当前状态。当执行Analyze菜单项中过程时,状态栏中显示正在执行的相应过程名称。,5数据表视窗 (Data ditor),数据表视窗用于数据输入、编辑、显示。视窗中为一个可扩展的平面二维表格,表格的顶部为变量名,表格的左边是观察单位序号。一个变量名和一个观察单位序号就对应了二维表格中的一个单元格(Cell)。视窗的工具栏下面有一个条形栏,它的左边为窗口状态栏,显示输入数据的记录号和变量名,右边为输入数据栏,显示从键盘输入的变量值。当用户选定某个单元格位置,它就被圈为黑框,用户从数据输入栏输入数据,单击该单元格或回车后,数据就以隐含格式进入黑框。,6变量表视窗(Variable View),变量表视窗用于定义、显示变量和编辑变量特征,视窗中有一个平面二维表格,表格的顶部为变量特征,表格的左则是变量序号,一行可定义一个变量。定义变量有如下内容:变量名(Name),变量类型(Type),变量宽度(Width),保留小数位(Decimal),变量标签(Label),变量值标签(Values),缺失值(Missing),变量显示(Columns),对齐方式(Align),变量类型(Measure)。,二、结果输出窗(Viewer),SPSS 软件包对数据进行分析后,把统计分析的结果自动地写到结果输出窗口中。 该窗口由左右两框组成:左框主要显示输出的标题,为右框的内容提供了一大纲视图,右框主要显示统计图、表以及一些文字说明(输出统计分析结果)。移动该窗口的垂直与水平滚动条便可看到输出结果的全部内容,或可用鼠标单击左框中的标题直接转入相应的输出结果。 左框和右框的宽窄可通过移动两框架间的纵线调节。双击左框架所选内容的标题图标可在右框架中显示或隐藏该内容,还可以通过移动左框中的选项来改变输出结果的顺序。,二、结果输出窗(Viewer),二、结果输出窗(Viewer),打开结果输出窗有以下几种方式:在第一次产生分析结果的SPSS过程后,结果输出窗被自动打开;打开新的结果输出窗,从菜单选择File / New / Output。 根据输出结果的3种形式,即文本、图形和表格,结果输出窗相应地设有3个编辑器,即文本编辑器、统计图编辑器和统计表编辑器,输出结果可通过激活这些编辑器进行编辑。,三、程序编辑窗(Syntax Editor),程序编辑窗口用于建立、编辑命令文件和其它文本文件。命令文件由若干条SPSS命令组成。,用SPSS实现其统计分析过程,1启动SPSS 2. 数据文件的建立或读入 (1)制定数据文件结构 (2)录入数据 (3)编辑数据文件 3数据的统计处理 4结果输出 5保存文件,数据文件的建立,SPSS所处理的数据文件有两种来源: 一是在SPSS环境下新建数据文件; 二是从SPSS外部调用已建立的数据文件。 在SPSS环境下新建数据文件,一般来说,包括三个步骤: 定义变量, 录入数据, 保存数据。,一、定义变量,定义变量名 定义变量类型 定义变量长度(小数点) 定义变量标签 定义变量值标签 定义变量显示格式(宽度、对齐方式),定义变量步骤,(一) 首先启动SPSS for Windows,进入SPSS的主画面 数据编辑窗口。 数据编辑窗口被分为两个视窗:“Data View(数据表视窗)”和“Variable View(变量表视窗)”。 (二) 单击数据编辑窗口底部的“Variable View”标签切换到变量定义界面。此时,电子表格中的行为变量,列依次为变量名、变量类型、变量长度、小数点位数、变量标签、变量值标签、缺失值、变量宽度、对齐方式和数据量度十个选项。,定义变量步骤,(三) 定义变量名 在定义变量对话框中的“Name”下面输入要定义的变量名。 系统按变量定义顺序给出的变量名默认值为:VAR00001、VAR00002、VAR00003,依此类推。,定义变量名应遵循如下原则:,1. 首字符必须是英文字母或汉字,不能以下划线“”或圆点“.”结尾。 2. 变量名不能使用SPSS的保留字。所谓“保留字(Reserved Word)”就是在程序语言或操作系统内已经指定用途的字句。SPSS的保留字有:ALL、AND、BY、OR、NOT、EQ、GE、GT、LE、LT、NE、TO、WITH等。 3. 变量名中不能有空格或某些特殊符号,如“!”、“?”和“”等。 4. 系统中不区分变量名中的大小写字符。例如WANG与wang、waNg被认为是同一变量。 5. 变量名称最好以能够代表该数据意义的文字来命名,如此可提高变量的可读性。,定义变量步骤,(四) 定义变量类型 在 “Type”下的单元格,单击定位后,单元格右方出现按钮 。单击该按钮,弹出定义变量类型(Define Variable Type)对话框。系统默认为数值型Numeric。 对话框中出现八种可供选择的变量类型,分别是:,八种可供选择的变量类型,“Numeric” 标准数值型变量,系统默认 “Comma” 带逗点的数值型变量:千进位用逗号分隔, 小数与整数间用圆点分隔 “Dot” 圆点数值型变量:千进位用圆点分隔,小数 与整数间用逗号分隔 “Scientific notation” 科学计数法 “Date” 日期型变量 “Dollar” 带美元符号的数值型变量 “Custom currency” 自定义变量 “String” 字符型变量,定义变量类型,若选了“Numeric”,则用户可在定义变量类型(Define Variable Type)对话框中部的“Width”、“Decimal”文本框中键入相应的数值型的宽度(长度)及小数位数。其默认值为宽度:8,小数位数:2。应该注意,数值型的宽度应该大于该变量的数据的“整数位数+小数位数+”。 若选了“String”,则用户可在定义变量类型(Define Variable Type)对话框“Width”文本框中键入字符串的长度。,(五) 定义变量名的标签,简称变量标签(Variable Label),定义变量标签是对该变量名所表示的数据项内涵的进一步说明。有时变量名不足以表示该变量的内涵,这时需要定义变量的标签。而变量标签最多可由256个字符组成。在统计分析过程的输出中会在变量名对应的位置显示该变量的标签,有助于理解输出结果。变量标签为可选项(option),可以定义,也可以不定义。 单击定义变量对话框中的“Labels”按钮,键入“”即可,(六)定义变量值标签,每个变量名对应一个数据项,每个变量取不同的值,表示数据项中的不同信息。有时为了更好理解统计分析过程中的输出结果,要给变量的取值(简称变量值)赋以标签。那么在输出结果的相应位置上就会出现该标签,使读者一目了然。 并不是所有变量值都要取标签,一般来说离散变量才给变量值定义标签。 例如: 变量名 变量标签 变量值 变量值标签 sex 性别 1 男 2 女,(六)定义变量值标签,单击定义变量对话框中的“Values”按钮,弹出变量值标签对话框 在“Value Labels”区域用户可键入变量值标签:首先在“Value:”后的文本框内键入变量值,再在“Value Label”后的文本框内键入该变量值的标签,然后用单击“Add”按钮。重复此操作,直到全部变量值及其标签都输完为止。 例如sex变量,应先在“Value:”中键入1,再在“Value Label”中键入“男”,然后击“Add”按钮。类似的,继续在“Value:”中键入2, 在“Value”中键入“女”,然后再单击“Add”。至此,所有变量值都已赋以标签,按“OK”钮,返回到定义变量对话框。,(七) 定义变量缺失值,在SPSS中缺失值有两类,即系统缺失值和用户缺失值。前者不需定义,系统自动生成。只有用户缺失值才需定义。 在变量表视图中的“Missing”下的单元格中,单击定位后,单元格右方出现按钮 。单击该按钮,弹出缺失值定义(Missing Values)对话框。 若无缺失值,可选 “No missing values”。,(八) 定义变量的显示宽度,变量表视图的“Columns”表示列宽,用于调整数据表中各列的显示宽度。系统默认为8位。 “Columns”下的单元格中,单击定位后,单元格右方出现按钮 ,点击可增加或减少位数,或直接在方格中填入数字。列宽位数要大于该变量中Width选项的位数,否则在数据表中,数据显示不完整。,(九) 定义变量显示的对齐方式,在变量表视图“Align”下的单元格中,单击定位后,单元格右方出现按钮 , 点击该按钮,在下拉列表框选择对齐方式。三个选项“Left”、“Right” 、“Center”分别为左对齐、右对齐、居中。系统默认为右对齐。,(十)定义变量的度量类型,在变量表视图“Measure”下的单元格中,单击定位后,单元格右方出现按钮 , 点击该按钮,在下拉列表框中选择度量类型。 变量类型为Numeric时,度量类型默认值为Scale,变量类型为String时,其默认值为Nominal。 Scale:定量变量,如身高、体重、血压等测量值。 Ordinal:等级变量(半定量,有序分类) 如疗效记录: 治愈、显效、 好 转、无效。 Nominal:定性变量,如血型记录:A型、B型、AB型、O型。,二、数据录入,完成变量定义后,单击数据编辑窗口左下方的”Data View”标签,切换到数据表视图,此时,电子表格中的列为变量,行为个案。数据录入方法主要有以下三种: 1.按变量输入数据 把光标移到要输入的该变量名对应的一列的顶部,即序号为1的单元格并单击之,使该单元格为当前操作的单元格,输入该变量的第一个值,回车。此时,序号为1的单元格接受该数值,并且当前操作单元格下移到序号为2的单元格。输入第二个值,回车。如此一直到把该变量的数值输完为止。 2.按观察序号输入数据 先把光标移到第一个变量和第一个观察单位序号的交叉单元并单击之,使之成为当前操作单元格。输入第一个观察单位序号的第一个变量值,按“Tab”键,该单元格接受该数据,同时激活右边一个单元格(即成为当前操作单元格)。接着,输入第一个观察单位序号的第二个变量,按“Tab”键;。直到输完第一个观察序号的最后一个变量值。 3.按全屏幕任意单元格输入数据 要想输入某个观察序号的某个变量值,可以移动光标到二维数据表格中的相应的单元格并单击之,使之成为当前操作单元格。键入变量值,回车即可。,三、数据文件的存储,(一)数据存储 SPSS for Windows提供两种数据保存方式: 1.保存为SPSS for Windows数据文件中 2.保存为其他格式的数据文件 选主菜单“File”中的“Save”或“Save as”,弹出保存文件(Save Data As)对话框,选择保存路径,键入文件名,确定数据类型,单击保存。 SPSS的文件类型 l数据文件:扩展名为.sav l结果文件:扩展名为.spo l图形文件:扩展名为.cht l Syntax命令文件:扩展名为.sps l SaxBasic脚本语言文件:扩展名为.sbs,SPSS能够保存的数据文件格式有:,调用已建立的数据文件,选择“File”/“Open/Data”,打开文件(Open File) “文件类型”下拉列表框中选择相应的文件类型。 SPSS (*.sav) SPSS for Windows建立的数据文件 SPSS/PC+ (*.sys) SPSS for DOS建立的数据文件 SPSS Portable (*.por) 其他软件生成的ASCII文件 EXCEL (*.xls) EXCEL建立的数据文件 DBASE (*.dbf) dBASE、FOXBASE、FOXPRO产生的数据文件 Lotus (*.w*) 用Lotus 1.2.3产生的数据文件 选定文件,单击打开(O)按钮,选定的文件就被读入。,数据文件整理,数据整理是对原始数据中的变量或观察单位进行编辑、增加、删除、排序、转置、合并和加权等处理。数据文件的整理主要是通过主菜单的“Edit”和“Data”两个菜单项来实现,其主要功能分别见下表。,“Edit”菜单项说明,“Data”菜单项说明,一、数据编辑,数据编辑操作在数据编辑窗口中的“Data View”视图下进行。 (一) 选择操作对象 1.选择某个变量:将光标定位于选定的变量名上,单击鼠标左键,则该变量名所在列全部反白显示。 2.选择某个观察单位:将光标定位于选定的观察单位序号上,单击鼠标左键,则该观察单位所在行全部反白显示。 3.选择连续的若干个变量:将光标定位于第一个变量名上,单击鼠标左键不要松开,向右移动鼠标,直到要选的列全部反白显示,再松开鼠标左键。 4.选择连续的若干个观察单位:将光标定位于第一个观察单位序号上,单击鼠标左键不要松开,向下移动鼠标,直到要选的行全部反白显示,再松开鼠标左键。,一、数据编辑,5.选择不连续的若干个变量:用鼠标左键单击要选的第一个变量名,然后按下ctrl键不要松开,再用鼠标左键单击其他变量名,最后松开ctrl键。 6. 选择不连续的若干个观察单位:用鼠标左键单击要选的第一个观察单位序号,然后按下ctrl键不要松开,再用鼠标左键单击其他观察单位序号,最后松开ctrl键。 7.选择某个变量的若干个连续单元格:如要选择某个变量的第二个至第九个的变量值,可将光标定位于该变量的第二个变量值上,按下鼠标左,向下拖动鼠标一直到第九个变量值再松开鼠标左键,使选中的单元格全部反白显示。 8.选择某观察单位中的若干个连续单元格:将光标定位于开始的单元格,按下鼠标左键,向右横向拖动鼠标,直到选中的单元格全部变为反白显示时,松开鼠标左键。,一、数据编辑 (二) 数据剪切、拷贝和粘贴,1.剪切包含两种状态:一种是单纯剪切,相当于删除;另一 种在原处剪切,转移粘贴到另一处适当的地方。 剪切的方法有: 方法一:选定要剪切的内容,再从 “Edit”菜单项中选择“Cut” 。 方法二:选定要剪切的内容,点鼠标右键,从快捷菜单中选择“Cut”。 方法三:选定要剪切的内容,用鼠标左键单击工具栏的图标按钮 。 方法四:选定要剪切的内容,同时按下Ctrl和 X 键。 以上四种方法都会使选定的内容从数据编辑器中消失,并且暂时转存到假想的剪贴板上保存起来。,一、数据编辑 (二) 数据剪切、拷贝和粘贴,2.拷贝是要把选中的内容复制到另一适当的位置,而其原来的内容还在原来的位置上。 拷贝的方法有: 方法一:选定要复制的内容,再从“Edit”菜单项中选择“Copy”。 方法二:选定要复制的内容,点鼠标右键,从快捷菜单中选择“Copy”。 方法三:选定要复制的内容,用鼠标左键单击工具栏的图标按钮 。 方法四:选定要复制的内容,同时按下Ctrl和 C 键。 以上四种方法的结果是原来选定的内容不变,而其相同内容存储到剪贴板上。,一、数据编辑 (二) 数据剪切、拷贝和粘贴,3.粘贴是把剪切操作或拷贝操作存入剪贴板的内容粘贴到新的适当的地方。 拷贝和粘贴一个变量 按 (一)的方法选择一个变量; 按剪切或拷贝操作,把它转存到剪贴板上; 按后述插入变量的方法,在适当位置上插入一个空变量; 第4步有四种方法: 方法一: 从“Edit”主菜单项中选择“Paste”。 方法二:点鼠标右键,从快捷菜单中选择“Paste”。 方法三:用鼠标左键单击工具栏的图标按钮 。 方法四:同时按下Ctrl和 V 键。,一、数据编辑 (二) 数据剪切、拷贝和粘贴, 拷贝和粘贴一个观察单位 按一、(二)选择一个观察单位; 用剪切拷贝操作,将其存入剪贴板上; 按后述插入观察单位的方法,在适当的位置上插入一个空观察单位; 按情况(1)的四种方法。,二、数据的搜索,(一) 搜索指定的记录编号 1.从“Data” 主菜单中选择“Go To Case”; 2.弹出“Go To Case”对话框,见下图,此时,只要在“Case Number”右边的矩形框中键入欲搜索的记录编号,光标就会自动跳到该记录上。应该指出此处的序号是指系统自动给出的观察单位序号,不是读者自定义的病例号。,二、数据的搜索,(二) 搜索指定变量中的指定数据的单元格 例如,我们要搜索某数据文件中的变量“年龄”中的变量值为32的单元格,其操作为: 1.打该数据文件。 2.光标移到变量名为“年龄”所在列的任意单元格,单击鼠标左键。 3.从“Edit”菜单项中选择“Find”,弹出“Find Data in Variable AGE”的对话框,见下图。 4.在“Find”后矩形框内键入32,按“Find Next”钮,如果找不到则会出现 “Not found”。如果找到了,光标自动跳到该值所在的单元格,读者可以进 行编辑。 在“Find Data in Variable AGE ”的对话框中,“Match case”表示忽略字符中的大小 写的区别。,三、变量的插入与删除,(一) 插入一个变量 1. 选定“Variable View”,单击该按钮; 2. 把光标定位于新的变量要占据的那一行的变量名序号的位置上,右击鼠标键, 展开快捷菜单; 3.在快捷菜单中选择“Insert Variable”并单击鼠标左键。 结果在选定的位置上插入一个变量名为“Var0000n”的变量,其原来占此行的变量 及其下侧的变量全部下移。读者可以对插入变量进行变量及其属性的定义。 (二) 删除一个变量 1.将光标移至待删除的变量名处,单击鼠标键。被选中的变量占有列的全部单 元格都被反白显示; 2.右击鼠标键,展开快捷菜单; 3.在快捷菜单中单击“Cut”项,选中的变量(整个列)暂时消失(存入剪贴板),还可用 Paste恢复;如果鼠标单击“Clear”,则为不可恢复的删除。结果被选中的变量消失,其 后的变量左移一列。,四、观察单位的插入与删除,(一) 插入一个观察单位 1.用光标置于要插入的那一行的最左边的序号单元格中,单击鼠标键; 2.点按鼠标右键,弹出快捷菜单 3.在快捷菜单中选择“Insert Case”,单击鼠标键。结果在选中的一行上增加一个 空行,可以在此空行上输入该观察单位的各变量值。而原来在此行的观察单位及其 以下的观察值都自动下移一行。 (二) 删除一个观察单位(个案) 1.用光标置于选定的观察单位的序号上,单击鼠标键。则该观察单位全部单元 格都反白显示; 2.点按鼠标右键,弹出快捷菜单 3.在快捷菜单中选择“Cut”项,单击鼠标键,选中的观察单位暂时消失(存入剪贴 板),尚可用Paste恢复;如果鼠标单击“C1ear”,则为不可恢复的删除。结果,被选 定的观察单位消失,其下面的各观察值都自动上移。,五、观测值排序,(一)先打开某个数据文件。 (二)在主菜单中单击“Data”菜单项,展开下拉菜单。 (三)在下拉菜单中选择“Sort Cases”并单击之,则弹出“Sort Cases”的对话框。 在对话框中上部,有“Sort by:”,读者事先要想好根据哪一个或哪些变量的值 对观测量进行排序,这些变量我们可称之为BY变量。在左边源变量框中选择这 些变量,并通过单击向右箭头按钮将选中的BY变量移到右面的Sort by下面的矩 形框中。应该注意,如果选择了两个以上BY变量,观测量排序的结果与BY变 量在栏内的顺序有关。列在首位的称之为第一BY变量,其后的顺序称之为第 二BY变量、第三BY变量。把某变量调入其下面的对话框。 (四)在对话框中下部有“Sort Order”,读者可选择其中之: Ascending表示按所选变量的升序排序 Descending表示按所选变量的降序排序 (五)单击对话框中的“OK”钮,则实现了对观测量进行排序的操作。,六、数据文件的转置,数据文件的转置就是将数据文件的行列互换,原来的行变成列,原来的列变成行;即原来的记录变成变量,变量变成记录。转置后的新文件中出现一个其值为原来变量名的新变量CASE_LBL。 操作步骤如下: 1.打开用于行列转置的数据文件 2.从“Data”菜单项选择“Transpose”,弹出Transpose对话框。 3. 在“Variable(s) ”放入要进行转置的变量。若未将全部变量移入该栏,则转置后的数据文件会将末选择变量的值全部丢失。若将字符型变量送入该栏,则转置后其变量值变为系统缺失值。 4.在左边的源变量框中选择一个变量,通过向右箭头按钮送入Name Variable栏,应用其值作为转置后新的变量名。 5.以上对话框定义好后,点OK按钮。,七、数据文件的拆分与合并,(一)数据文件的拆分 在进行数据的处理时,经常要对文件中的观察单位进行分组分析。比如,要求分别按男性、女性计算“年龄”的平均值等。因此,在进行分析计算之前要对数据文件进行拆分。应该注意,此处的“拆分”并不是物理结构上分成两个数据文件,而只是在进行该项运算时,作形式上的拆分。,七、数据文件的拆分与合并 (一)数据文件的拆分,操作步骤为: (一)在主菜单中,单击“Data”菜单项,展开下拉菜单。 (二)选择“Split File”,鼠标单击之,弹出对话框“Split File”。 (三)在对话框的中上部,激活“Compare groups”项(根据所选分组变量的不同值对原数据进行分组,利用分组得到拆分数据)或“Organize output by group”项(按分组变量的值将数据文件拆分为若干个组,对各分组单独进行完整的统计分析 )。 。 (四)从变量表中,选择变量“性别”调入对话框的中间的“Groups Based on:”下的矩 形框。其含义就是按性别分组进行统计分析。有时,在该矩形框中可以调人多个变量,那么,以后的统计分析将按所选的变量值的组合分组来执行。 (五)指明数据文件的当前状态 由于在数据文件进行拆分时,如果“Group Based on:”下的变量,已经排序,则运算速度会很快,否则拆分的时候会很慢。为此,需指明数据文件的当前的状态。在对话框中间的下部分,有两个选择项: Sort the file by grouping variables File is already sorted 读者在上述两个选择中选择一个,让计算机明确如何计算。 (六)在对话框中,单击“OK”钮,执行数据文件拆分过程。,七、数据文件的拆分与合并,(二)数据文件的合并 1.增加观察单位(Add Cases) 其功能是从外部数据文件中增加观察单位到当前 数据文件中,称为纵向合并或简称追加观察单位。 在这种合并中,要求合并的数据文件应该有相同的 变量。 从“Data”菜单项中选择“Merge Files”,弹出三级 菜单,从中选择“Add Cases”,弹出“Add Cases: Read File”对话框,通过人机对话读入外部数据文件 。,七、数据文件的拆分与合并,(二)数据文件的合并 2.增加变量(Add Variables) 从外部数据文件增加变量到当前数据文件,称为 横向合并或简称追加变量。合并后的数据文件中包 含相同的观察量。 增加变量的操作步骤为: (1)数据窗口中打开一个数据文件 (2)从“Data”主菜单项中选择“Merge File”并单 击之,弹出三级菜单,从中选取“Add Variables” 打开读入外部数据文件的对话框,按对话框的要求读 入外部数据文件。,八、变量加权,变量加权是指对变量,特别是频数变量赋 以权重,常用于计数频数表资料,如列联表和 等级资料频数表,加权后的变量被说明成频 数。 从菜单选择Data / Weight Cases,弹出 Weight Cases(变量加权)对话框。 选择Weight Cases by ,从左边源变量 名称框中选择频数变量送入Frrequency 。 单击OK按钮即可,数据转换(Transform),在医学科研实践中,仅使用原始数据进行分析处理往往是不够的,应根据统计分析的需要,对原始数据进行转换,生成新的变量或进行重新编码等。例如做线性相关分析时,如果发现变量X与Y之不存在线性相关关系,可令Z=lgY ,那么此时X与Z之间可能存在线性相关关系。SPSS的数据转换功能主要通过“Transform”菜单项来实现。,“Transform”菜单项说明,一、新变量的计算产生(Compute),(一)常用SPSS函数 SPSS提供了14类180多种函数,我们可以根据需要,利用这些函数建立一些新变量。 现将部分常用函数简述如下: ABS(数值表达式): 数值型函数,返回一个数值表达式的绝对值。 ARSIN(数值表达式):数值型函数,返回数值表达式的反正弦值。 ARTAN(数值表达式):数值型函数,返回数值表达式的反正切值。 COS(数值表达式): 数值型函数,返回余弦值(弧度单位)。 EXP(数值表达式): 数值型函数,返回以e为底的数值表达式的 幂值。 LG10(数值表达式): 数值型函数,返回以10为底的对数值。 LN(数值表达式): 数值型函数,返回以e为底的对数值。 SIN(数值表达式): 数值型函数,返回正弦值(弧度单位)。 SQRT(数值表达式): 数值型函数,返回一个正数的平方根。 MISSING(Variable): 逻辑型函数。返回1或true,如果变量具有缺失 值。,一、新变量的计算产生(Compute),(二)操作步骤 1单击主菜单中“Transform”,展开下拉菜 2在下拉菜单中选择“Compute”,用鼠标单击,出现“Compute Variable”主对话框。 3在对话框的左上角的“Target Variable:”下的矩形框中键入目标变量,即新变量。 有的 时候也可用已经存在的旧变量,但是,其结果将把旧变量的内容冲掉。 4在对话框的右上角的“Numeric Expression:”下的矩形框中,建立合理的表达式。 其方法如下: (1)在对话框的左下方的矩形框中选择原始变量的变量名,单击之,再单击向右箭头 按钮,可以使选中的原始变量名出现在右上角的表达式矩形框中。 (2)对话框中央的计算器板(Calculator Pad)包括了数字、加减乘除各种关系符号等, 读者可以像使用计算器那样,用鼠标进行操作,组成各种表达式。 (3)在对话框的右边中部,“Function”矩形框中,都是一系列SPSS的函数,可以操作 滚动棒,选择所需的函数,并用其上的向上箭头,单击之,调入上面的表达式矩形框内。 (4)移动光标,到上述函数的括号内,然后选择适当的自变量调入括号内,必要时 计算新变量的对话框还可以键人其他符号。 5.单击“OK”,表示对主对话框中确定的“Numeric Expression”计算新变量值。,二、变量的重新赋值(recode),在练习题中的“年龄”最小值为24,最大值为52。现要把它分成几个年龄组,比如5岁为一个年龄组,即24,28、29,33、34,38、39,43、44,48、49,53 6个组,将这6个组相应地赋值为1、2、3、4、5、6,并将新赋值存为新变量“年龄分组”。 此时可用Recode重新编码方法建立新的变量,把各对象按年龄分配到各个年龄组中。,二、变量的重新赋值(recode),1.菜单选择 Transform Recode Into Same Variable/ Into Different Variables “Into Same Variables.” 表示不保存原变量; “Into ifferent Variables. ” 表示生成新变量, 原变量还是存在。 此处可选则“Into Different Variables”,出现“Recode into Di

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论