数据管理分析课件_第1页
数据管理分析课件_第2页
数据管理分析课件_第3页
数据管理分析课件_第4页
数据管理分析课件_第5页
已阅读5页,还剩475页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学研究数据管理与统计分析

Datamanagement&analysis

1搜集资料整理与分析资料调查(研究)项目分析表(指标)研究目的回答统计分析步骤调查研究步骤研究设计思路与数据管理分析步骤解释、呈现结果2☉确定调查和研究的目的是选定研究指标的依据

☉研究指标又是研究目的的具体体现一、明确调查和研究的目的了解参数,用以说明总体。研究变量间的关系,通过确立统计学联系来探索病因或验证疗效等。…3二、确定研究对象和观察单位

研究对象:对象来源-总体是什么?抽样方法:如何抽样?代表性?观察单位:个体?群体?4三、研究设计类型的选择

根据研究目的选择合适的设计类型:描述疾病的或健康状况的三间分布探讨病因验证预防和控制措施的效果评价疫苗的效果新药上市前临床试验56四、确定研究项目,拟定调查表(问卷)

调查和研究项目的确定:分析项目、备选项目调查表和原始数据记录表的设计7根据研究设计类型确定所需样本量计算公式。相关参数:一类错误的概率α:即检验水准,α越小所需样本含量越多,对于相同的检验水准,双侧检验比单侧检验所需的样本含量更大,α通常取0.05。把握度(power)

1-β,一般0.8-0.9单侧检验还是双侧检验,单侧检验所需样本量小,双侧检验所需样本量大。五、样本含量的估计8常用样本含量的估计软件:EpiCalc20009常用软件:EPIINFO10常用软件:OPENEPI11

①直接观察法②采访法包括面访、调查会及信访、电话访问等

③…

六、原始资料的收集☉原始资料的收集方式12七、调查和研究的质量控制

真实性(效度)可靠性(信度)偏倚及其如何控制?如何评价?13①录入前的核对②录入计算机,建立数据库(database)→

Excel、Access、EpiData、STATA、SPSS、SAS软件等③录入后的核对和整理☉逻辑检查、核对→排序(sorting)☉建立新变量☉数据的编码和转换☉缺失值的处理八、数据资料的整理14Dbase,FoxBase,VisualFoxPro,Lotus数据录入和管理软件15用Epidata构建调查表数据库1617用Epidata录入调查表统计分析常用软件18让我们从一个简单的调查开始..研究目的:了解本班同学姓名、性别、身高、出生日期等信息。Step1:建立调查表

文本编辑软件:Word1920调查表

编号:□□□□姓名:______性别:(1)男(2)女身高:____.__CM出生日期:______年____月____日为何不写成性别:____Step2:调查表数据录入21EpiData软件概述一、EpiData的设计设计者:丹麦的JensM、MichaelBruus和英国的MarkMyatt编程者:丹麦的MichaelBruus开发思路和原理:基于EpiInfo6.0二、软件下载和登记注册下载地址:http://www.epidata.dk/download.htm三、版本信息

EpiData1.5(2001年2月22日);EpiData2.1a(2002年)

EpiData3.02(2004);EpiData3.10(NOW)22EpiData软件概述EpiData软件安装如同拷贝程序文档一样简单。例如,它可以从U盘运行,并且占用内存很小(<2.5M)。由于捐助和志愿者的工作,软件免费发布。23EpiData程序下载与安装http://www.epidata.dk/24EpiData程序下载与安装25数据录入EpiData软件EpiData软件是在吸收DOS版的EpiInfo6.0软件优点基础上开发研制的Windows版软件。26EpiData软件它一方面吸收了EpiInfo软件的长处,同时又极具自身特色。与视窗版EpiInfo软件相比,占用空间小,更加简单易学,且界面友好,可以很方便的对数据进行储存、核对和管理等,27•用EpiData软件进行数据录入和管理,将产生三种基本的文件.(1)调查表文件:后缀为.QES。通过建立调查表文件,系统根据特定规则自动定义数据文件的结构,包括变量名、变量类型和长度等,用于数据录入。(2)数据文件:后缀为.REC。数据文件包含录入的数据信息以及已经定义好的编码,用于数据的统计分析。(3)核对文件:后缀为.CHK。通过建立核对文件,系统将定义数据录入的有效性规则。文件组成28EpiData

Entry的特点调查表设计便捷

数据核查功能强大且实现简便

与调查表形式一致的可视数据录入界面数据转换功能强大

29讲了半天,EpiData究竟长什么样?30请打开电脑上EpiData主程序为何我的电脑上没有‘欢迎使用EpiData’?31EpiData软件的窗口介绍32编辑过程工具条工具栏数据表预览粘贴字段编辑器编码编辑器33建立调查表文件(.QES)建立调查表文件是建立数据库、实现数据录入和管理的第一步。34建立调查表文件有以下几种方法:第一种:在菜单中,点击“文件”(File)→“生成调查表文件QES文件”第二种:在工作栏的工作流程中,点击“1.打开文件”(1.DefineData)→“建立新QES文件”第三种:在按钮栏中,点击,这时窗口中会在工作区显示一个空白的文档,你可以在此文档中键入调查表内容和框架,编辑完成后,将调查表文件保存,文件的扩展名统一为.QES。35假定现有一调查表如下,如何建立.QES文件?调查表姓名:______性别:(1)男(2)女身高:____.__CM出生日期:______年____月____日36如果按原调查表格式直接建立数据库,结果会怎样?37必须定义字段名和字段类型字段类型字段编码自动ID号<IDNUM>数字######.###文本___________加密字段<E>大写文本<A>逻辑(是/否)<Y>日期<dd/mm/yyyy><mm/dd/yyyy><yyyy/mm/dd>自动插入日期<today-dmy><today-mdy><today-ymd>声音提示<s>38调用字段编辑器:第一种方法:直接按CTRL-Q键。第二种方法:在编辑器工具条上点击字段编辑器图标。手工输入或使用字段编辑器39字段类型介绍①数值型字段:##,###.##…;仅接受数字和空格,不输按空格处理,分析时作缺失值处理,以“.”显示。数字位数由“#”个数决定,小数位数由小数点右边的“#”个数确定。最长可达14位,小数点按1个字符计算。40②文本型字段:包括三种。一种是常用的文本(或下划线、或底线)型字段:________;该型字段由连续下划线来定义,长度由下划线字符个数决定,最大值为80,空白字段(字段内容空缺)时,数据管理时将按缺失值处理。另一种为大写文本型字段:<A>。41③日期型字段:包括两种。一种为常用日期字段:<MM/DD/YYYY>、<DD/MM/YYYY>,分美式、英式两种,输入时即进行合法性检验;只需输入日期,系统自动插入斜杠。另一种为自动日期型字段:<Today-DMY>、<Today-MDY>;储存或修改数据时该字段自动输入系统日期,如系统日期正确,也即当天日期。42④自动ID号型字段:<IDNUM>;这是一种专用字段,用作记录识别号,文件的第一个记录为1,以后记录自动赋值顺次较前增加1,并自动保证编号的唯一性。输入数据时光标跳过此字段。如需使第一个记录号大于1,则可在“文件”菜单“选择项”中的“高级设置”中设置。⑤逻辑型字段(即布尔函数型字段):<Y>;只接受Y、N、空格或回车键。后两者作缺失值处理。Y、N字符输入后即转为大写字母。43我们按照这些要求重新建立数据库,这次应该成功了吧?先预览一下44怎么会这样?45定义字段名(FieldNames)以调查表中字段的第一个词命名(Firstwordinquestionisfieldnames)使用{}内的内容自动添加字段名(Automaticfieldnames)46软件安装后默认是第一种命名方式,建议大家安装软件后立即修改选项!定义字段名(FieldNames)“文件”(File)→“选项”(Option)→“生成REC文件”(Createdatafile)→在“如何生成字段名”(Howtogeneratefieldnames)中选择字段的命名方式。47“更新问题为实际文件名”如果未勾选48预览显示的并非真实的字段名如“姓名”,真实的字段名是Field14950按{}命名规则修改调查表,然后预览生成REC文件51别忘了修改“选项”否则…会是这样的52•制作调查表文件可用EpiData编辑器进行。•也可用Word或其它文本编辑器编写。注意,必须以纯文本格式存盘,文件后缀名必须是“.qes”。•也可在其它文本编辑器编写,再粘贴到EpiData编辑器窗口。如何编写调查表文件53编写调查表文件注意事项(一)①编写过程中及时保存文件,文件类型为.qes文件。②系统只会根据“特殊符号”来定义一个输入字段(包括类型和长度),并根据符号前的字符给字段命名。建议在编写过程中利用“字段快速清单”插入“特殊符号”,即:选择字段类型,定义好长度后,按“插入”图标,可避免由于“特殊符号”输入错误而不能产生有效的输入字段。③调查表用中文编写时,可用定界符(“{}”)将字段名定义为英文字符(英文字母或英文字母+阿拉伯数字),有利于数据库的管理和其他软件的统计分析。注意:“{}”必须为半角型,而不能是全角型(“{}”)。54④尽可能把字段定义数值型,有利于统计分析。如糖尿病史“dmhis”可定义为数值型字段,“1”表示“有”,“0”表示“无”。⑤调查表文件格式尽可能和原调查表一致,有利于直观录入数据。⑥如果用其他文本编辑器编写.qes文件,在运行EpiData后,打开该.qes文件即可编辑。⑦调查表文件的编写是否符合要求,可通过“数据表预览”来查看。编写调查表文件注意事项(二)55数据文件的产生和修改①主菜单→选择数据导入/导出菜单→“根据QES文件生成REC文件”②在工作过程工具条按第二个按钮“生成REC文件”③在编辑器菜单→REC文件菜单→选择“生成REC文件”56生成REC文件5758请大家根据EPIDATA建立调查表库data.qes,生成数据库,保存为data.rec59调查表姓名:______性别:(1)男(2)女身高:____.__CM出生日期:______年____月____日现在我们已经有了两个文件:*.QES调查表文件*.REC数据文件*.REC文件是根据QES文件生成的,用于数据录入万一我的QES文件丢了怎么办?60数据文件结构的修改61调查表结构重新修改后怎么办?数据库建立后,录入了一部分分数据,发现漏掉了一个字段,于是重新修改调查表,这里可以根据修改后的QES文件更新REC文件。62我一边QQ聊天,一边录入数据,万一录错了,软件会通知我吗?63嗨!有第3种人吗?核对文件的建立核对文件:CHECK文件或.CHK文件

范围/合法值(Range/Legal)跳转(Jumps)必须输入(MustEnter)重复输入(Repeat)6465光标悬停,会提示你命令格式66录入错误时,软件会弹出警告67关键字段的定义以编号code2为例,这个编号具有唯一性,为避免重复输入,可在CHK文件中定义:code2

KEYUNIQUE1

MUSTENTEREND68练习请大家根据下列调查表内容,利用EPIDATA建立调查表数据库,保存为data1.qes,并生成data1.rec用于录入资料。69调查表1.地区:_______

2.调查表编号:□□□□3.录入ID号:□□□□4.姓名:__________5.性别:(1)男

(2)女6.你吸烟吗?(1)否[跳问7](2)是[续问6.1]6.1你多在年龄开始吸烟的?____岁6.2平均每天吸烟支数?____支7.身高:____.__CM8.血压值(收缩压/舒张压):_____/_____mmHg9.出生日期:____月____日______年10.你是否具有下列症状?如有请在相应症状前打勾。

⑴咳嗽⑵咳痰⑶发热⑷胸痛⑸呼吸困难⑹咯血11.调查表录入日期:____月____日______年70录入时自动编码请大家根据data1.rec数据库,建立CHK文件,保存为data1.chk要求:(1)地区号自动录入(2)编号、姓名必须录入(3)性别只能填1或2(4)是否吸烟只能填1、2或9(5)是否吸烟能够实现跳转(6)平均每天吸烟支数的范围在1-40之间或填99并请尝试录入3-5份调查表,存盘。71记录删除此处仅是在记录加上删除标记,彻底删除需至“工具””清理REC文件”点击72如果研究对象是(1)男性,而我却录成了(2)女性,软件好象不会弹出警告嘛!73双录入核对doubleentry为了确保录入质量,可以采用双人录入法进行核对。首先利用工具->复制REC文件结构,复制已建立好的数据库(包括CHK文件),另存为一新库,但已录入的数据不会被复制。74双录入核对doubleentry如需要,可不复制字符型变量因为家庭住址、工作单位等很少有人愿意录入两次。75两次录入的一致性检验双轨录入完成后可进行一致检验比较两次录入不同的地方注意选择两数据库中的匹配字段用于比较767778调查表录入两次,比较后发现错误再修改,好象太麻烦!有没有边录入边比较的方法?79双录入实时校验先点击工具->准备双录入实时校验80与双录入一致性检验比较,使用较少双录入实时校验指定第1次已录入的REC文件创建1新的REC文件,用于双录入81双录入实时校验82应注意录入调查表的顺序显示数据83浏览数据库其它一些常用功能打印调查表(在数据录入窗体下)文件->打印数据表84将数据库存档工具->创建压缩文件可以将指定目录下所有文件、仅EPIDATA文件或单个文件压缩、打包和保存。(ZIP)需要的时候再利用“工具->解压缩文件”解压缩85描述数据86简单描述和分析数据数据文件的导出和导入87数据库的纵向追加与横向合并88数据库的纵向追加(头-尾)一般用于追加记录,如同学甲录了50份,同学乙录入了60份,现将两数据库合并成1个库,共110份记录。注意选项89数据库的横向合并(肩-肩)如一份调查表包括两部分,同学甲录了Part1,同学乙录入Part2,现将两数据库合并成1个库,包含Part1和Part2。选择关键字段用于匹配,一般用记录号NO作为关键字段,注意需保证其唯一性90请大家将数据库data3与data4合并,保存为data34.rec请大家将数据库data5与data6合并,保存为data56.rec请大家将数据库data5与data7合并,保存为data57.rec比较异同点91Data3

+data492追加记录(注意变量是否增加)Data5

+data693追加变量Data5+data794追加变量及记录EpiData软件的工具菜单95EpiData软件的选项96有了数据库,那就得考虑如何分析了统计描述统计推断97资料分析(dataanalysis)98(1)统计描述(descriptivestatistic)指用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行描述。(2)统计推断(inferentialstatistic)指如何由样本信息推断总体特征问题。资料的分类99

计量资料分类资料

二分类多分类无序多分类有序多分类(等级资料)100统计资料的描述指标描述

集中位置:算术均数、几何均数、中位数、百分位数

离散程度:极差、标准差、方差、四分位数间距图形描述

频数分布图 趋势图……计量资料集中趋势的描述算术均数几何均数中位数百分位数101计量资料集中趋势的描述算术均数几何均数中位数百分位数102mean最适于对称分布资料,特别是正态分布资料;对于偏态资料,均数不能较好地反映其集中趋势。计量资料集中趋势的描述算术均数几何均数中位数百分位数103geometricmean1.等比资料,如抗体平均滴度2.对数正态分布资料

flgx

fG=lg-1计量资料集中趋势的描述算术均数几何均数中位数百分位数104Median

将一组数据按从小到大的顺序排列,位置居中的数即是中位数。中位数常用于描述偏态资料,开口资料,有不确定值的资料的集中趋势;中位数和均数在对称分布上理论上是相同的。计量资料集中趋势的描述算术均数几何均数中位数百分位数105Percentile用于描述某个观察序列在某百分位置上的水平。常用于确定参考值范围,亦称正常值范围。50%分位数就是中位数25%,75%分位数称四分位数(quartile)X%

PX

(100-X)%计量资料106均数应用时的注意事项均数适用于:单峰对称分布的资料几何均数适用于:对数变换后单峰对称的资料中位数适用于:任何分布资料,有不确定值的资料计量资料107极差/全距(range)四分位数间距(inter-quartilerange)

方差(variance)标准差SD

(standarddeviation)变异系数CV

(coefficientofvariation)

描述离散程度的指标:计量资料108极差/全距四分位数间距方差标准差变异系数

描述离散程度的指标:极差(全距),描述数据分布的范围。极差大,说明数据分布较分散。方法简单明了。不灵敏。不稳定。计量资料109极差/全距四分位数间距方差标准差变异系数

描述离散程度的指标:四分位数

(quartile)QU-QL下四分位数即第25百分位数,常用QL表示;上四分位数即第75百分位数,常用QU表示计量资料110极差/全距四分位数间距方差

标准差变异系数

描述离散程度的指标:方差是实际值与期望值之差平方的平均值,而标准差是方差的平方根。一般情况下,总体均数未知,需用样本均数估计计量资料111极差/全距四分位数间距方差标准差变异系数

描述离散程度的指标:变异系数CVcoefficientofvariation计量资料112集中趋势+离散趋势共同描述均数±标准差(min,max)中位数±四分位数间距(min,max)变异度小,则均数代表性好!变异度大,数据分散,则均数代表性差!平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!计量资料假设检验-两组或多组均数比较⊙样本均数与总体均数比较⊙成组设计两样本均数比较(成组t检验)⊙配对设计资料均数比较(配对t检验)

t检验(两组比较)方差分析⊙成组设计多个样本均数的比较(one-wayANOVA)⊙配伍组设计多个样本均数比较(two-wayANOVA)⊙多个样本均数的两两比较(q检验,Student-Newman-Keuls法)⊙多个实验组和一个对照组均数间的两两比较(LSD法和Duncan法)(两组或多组比较)113计量资料定量数据差别的统计意义检验小结114计量资料两连续变量间的关系分析直线回归和多元线性回归

相关分析回归分析Pearson相关,Spearman相关115计量资料分类资料统计分析统计分析统计描述统计推断参数估计假设检验Example分类资料率、比、构成比总体率的可信区间χ2检验、u检验分类资料分类资料统计描述常用的相对数率Rate构成比Proportion比Ratio117分类资料比值比(OR)联系强度病例对照研究队列研究相对危险度(RR)118分类资料统计推断☉数据类型的转换①定量数据转换为定性数据一般比较简单,但从名义变量、等级数据转换为定量数据,则比较繁琐且损失数据信息。②对两组或多组研究单项的某项指标进行统计学检验时,数据从定量转换为定性或等级数据时,统计学的效率会下降。119①以正常参考值或临床诊断标准作为分组依据。②某些定量指标尚无公认的正常参考值,可根据均数、中位数或三分位、四分位间距值,将其分为两组或多组。③根据数据的分布特点和研究需要,自行确定,但要能对统计分析结果做出合理的解释。定量数据转换为定性或等级数据-分组切割值确定方法120数据类型计量资料?计数资料?分布类型是否正态分布?→数据转换研究设计成组?配对?配伍组?其他?统计分析方法和指标的选择取决于121

常用的数据转换类型及方法数据类型转换方法举例Poisson分布平方根转换水中细菌数、单位时间放射性计数等二项分布反正弦函数转换非传染病患病率、白细胞百分数、淋巴细胞转换率等标准差与均数呈正比关系对数转换发汞含量122检验方法正态性用直方图或正态概率纸进行观察用矩法、W法或D法进行统计检验两组方差齐性F检验多组方差齐性Bartlett检验常用正态性及方差齐性检验的方法123常用非参数统计方法小结设计方法参数统计方法非参数统计方法配对比较配对t检验符号检验*、符号等级检验(Wilcoxon法)两组比较成组比较t检验两样本等级秩和检验(WilcoxonMannandWhitney法)、中位数检验*配伍组比较随机区组ANOVAM检验(Friedman法)多组比较完全随机设计ANOVAH检验(KruskalandWallis法)124医学数据统计分析方法选择-流程图125(三组及以上均数比较)126医学数据统计分析方法选择-流程图(定性数据:R×C表资料分析)127医学数据统计分析方法选择-流程图统计学分析结果如何呈现?

统计量和概率为斜体:t,F,P<0.05;

不是统计表一般为三线表

统计图、表的标注要清楚P值:应尽可能给出具体的P值(如:P=0.023),但目前大多数的文献中都只用P<0.05等说明。文字、统计表和统计图相结合128统计检验结论的表达129由于统计检验不能得出差别的大小,因而结论不能说“有明显差异”或“有显著差异”,也不能说“差异非常显著”,更不能说“差异明显”。正确的说法应当是“差异有统计意义”或“差异有高度统计意义”两组有显著差异两组差异有统计学意义×关联有统计学意义常见统计学错误辩析(1)某文献关于统计分析方法方面写道:“测量参数以

表示。根据性别及骨密度(2.5s为界)分组,用两样本均数t检验对组间各形态计量参数进行统计分析(SPSS8.0软件)。样本均数与总体均数用t检验比较形态计量学参数与正常参考值之间的差异”130存在的问题:由数据可以看到标准差是平均数的1/2以上,甚至接近和超过平均数。这就提示数据严重偏离了正态分布。因为,当数据不可能为负值(如日数),且样本不是过小的时候,按正态分布规律,平均数减3个标准差仍应是正数。131Noticet检验和方差分析是一种所谓“稳建的”(robust)统计方法。就是说,当分布偏离正态分布不大时,对其结果的影响不大。但对于计量数据还是应当先做正态性检验。如果正态性检验结果认为数据不服从正态,可以进行数据转换,但比较麻烦。简单的方法是用非参数统计,常用的有秩和检验和符号秩和检验等。132常见统计学错误辩析(2)某文献关于燃煤型砷中毒患者皮肤组织中P53mt阳性表达在不同组别的差异A:癌;B:癌前病变;C:一般患者133存在的问题:在多组计量资料的组间两两比较时不可以用“一揽子比较”。所谓“一揽子比较”是进行多组比较时进行所有的两两比较。在进行两组间比较时我们确定了第Ⅰ类错误的概率α。一般我们用α=0.05。如果做一揽子比较,α就会扩大,也即第Ⅰ类错误的概率扩大了。我们就会得到过多的假阳性结果。134Notice正确的做法应当是先做总的检验,然后再做多重比较。本例还有各组间方差不齐的问题。不宜用方差分析,而需用非参数统计方法来处理。135常见统计学错误辩析(3)在表3这个假设的例子中,Pearsonχ2

检验得到差别有高度统计意义的结果。是否可认为A药好于B药?136存在的问题:2组有效率的比较,用四格表χ2检验或Fisher精确检验法是可以的。但是,如按疗效分成多个等级,如痊愈、显效、进步、无效4个疗效等级,则目前常用的χ2

(Pearsonχ2

)不能说明疗效的好坏。如果我们对表3中任何两列进行对换,Pearsonχ2

的数值也不会有变化。137138常用统计软件SASSTATASPSS139常用统计软件SASSTATASPSSSPSS公司成立于1968年,总部在芝加哥。在纳斯达克上市的股票代码为SPSS。它在全球100多个国家和地区有分支机构或合作伙伴,直属员工超过2000人。140141SPSS软件简介SPSS原为StatisticalPackagefortheSocialSciences的简称,意为“社会科学统计软件包”。2002年SPSS公司正式将英文全称更改为StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”。近年来版本不断更新。SPSS

社会科学统计软件包(Statistical

Packageforthe

Social

Sciences)SPSS

统计产品与服务解决方案(Statistical

Productand

Service

Solutions)142SPSS13菜单式操作易学易用143PASW(SPSS18)Between2009and2010thepremiersoftwareforSPSSwascalledPASW(PredictiveAnalyticsSoftWare)Statistics.2009年4月9日美国芝加哥SPSS公司宣布重新包装旗下的SPSS产品线,定位为预测统计分析软件(PredictiveAnalyticsSoftware)PASW.ThecompanyannouncedJuly28,2009thatitwasbeingacquiredbyIBMforUS$1.2billion.AsofJanuary2010,itbecame"SPSS:AnIBMCompany".IBM于2009年7月28日宣布以12亿美元收购SPSS公司,SPSS正式成为IBMInformationManagement产品线下品牌。

144PASW

Statistics18中文版界面PASWStatisticsFamily的每个模块都可以独立安装和运行,或者是几个模块组合在一起,每个模块都拥有数据访问、数据管理和绘图功能。IBMSPSSStatistics20145多国语言可以切换功能更强大146SPSS软件简介SPSSforWindows是一个集数据整理、分析功能于一身的组合式软件包。SPSS的基本功能:数据管理、统计分析、图表分析、输出管理等早期SPSS是DOS版的147

基本窗口

TheFourWindows:

Dataeditor

(主窗口,数据管理)

Outputviewer

(输出窗口)Syntaxeditor

(命令编辑)Scriptwindow

(脚本)我们应用SPSS时接触最多的两个窗口148TheFourWindows:DataEditorDataEditor

数据编辑 Spreadsheet-likesystemfordefining,entering,editing,anddisplayingdata.Extensionofthesavedfilewillbe“.sav”149TheFourWindows:OutputViewerOutputViewer

结果输出 Displaysoutputanderrors.Extensionofthesavedfilewillbe“spo”(SPSS13);spv(SPSS16-)150TheFourWindows:SyntaxeditorSyntaxEditor Texteditorforsyntaxcomposition.Extensionofthesavedfilewillbe*.sps例如:我们对年龄进行统计描述,菜单式操作背后的命令语句是这样的,执行该语句可获得相同结果151TheFourWindows:ScriptWindowScriptWindow Providestheopportunitytowritefull-blownprograms,inaBASIC-likelanguage.Texteditorforsyntaxcomposition.Extensionofthesavedfilewillbe“.sbs”152STEP1:让我们先打开SPSS程序153STEP1:让我们先打开SPSS程序改变界面语言154155SPSS数据录入与管理ThedefaultwindowwillhavethedataeditorTherearetwosheetsinthewindow:1.Dataview(录入或浏览记录)

2.Variableview(定义变量,包括字段名称、字段类型、长度、标签等)ClickClick156数据的录入157单击变量视图数据录入和分析前,我们需先定义字段(变量,),有两种方法可进入变量定义状态:在数据视图下双击变量158数据录入:Name(变量名)Thefirstcharacterofthevariablenamemustbealphabetic.Variablenamesmustbeunique.SpacesareNOTallowed.定义变量名不同版本对于变量名的限制不同但变量名应尽量简化虽然SPSS支持,但不建议使用中文作为变量名159数据录入:Type定义变量类型160数据录入:Width宽度determinethenumberofcharactersSPSSwillallowtobeenteredforthevariable定义变量长度161数据录入:DecimalsNumberofdecimals(小数位数)定义数值变量的小数点位数对于字符型和日期型变量该选项无效162数据录入:Labelspecifythedetailsofthevariable(标签)定义变量标签,提示你变量的含义,有利于统计分析163数据录入:Values(1)suggestwhichnumbersrepresentwhichcategorieswhenthevariablerepresentsacategory(变量值标签)Click别忘了点添加

定义变量值标签,例如:数据录入时我们一般以数值型变量表示性别,如(1)男,(2)女。通过设置标签值就可让软件知道1=男,2=女164数据录入:Values(2)Click点击该按钮用于让软件知道是显示原始数值?还是显示标签值?165Practice1姓名性别1=男;2=女年龄工作时间张三1201990.1.20王五1301991.2.21赵六2401992.3.22钱七2301994.4.23试建立SPSS数据库,录入下列资料,并保存为test1.sav不建议用中文作为变量名166Openanexistingdatabase

打开一个已有数据库SPSS数据库格式*.sav

167SPSS(*.sav)SPSS数据文件EXCEL(*.xls)EXCEL数据文件SAS(*.sd2)SAS数据文件dBase(*.dbf)dBase系列数据文件Text(*.txt)纯文本格式的数据文件data(*.dat)纯文本格式的数据文件

SPSS软件常用数据库类型168文本数据的读入使用文本导入向导读入文本类型的数据*.txtNotice:支持EXCEL文件直接copy/paster但请注意变量句和类型的修正169可直接打开EXCEL文件170使用数据转换软件进行多种文件格式间的互转如Stata/Transfer常用编辑菜单快捷菜单中有类似功能键171172InsertVariables/Cases

“插入变量”或“插入记录”

将光标置于不同位置,点击右键,快捷菜单会弹出相应的“插入变量”或“插入记录”选项插入变量插入记录变量属性的定义外部文件格式(如Excel或文本文件)读入的数据,缺乏某些有用的变量属性,包括:•

描述值标签的定义(例如:0=

Male

和1=

Female)。•

缺失值代码的标识(例如:99=

缺失值)。•

指定测量级别(名义、有序或刻度)。变量属性可在数据编辑器的“变量视图”中指定。还可以使用其它程序,如:

173174数据的管理文件级别的管理变量级别的管理175文件级别的管理常用命令:查找重复的记录排序将多个文件合并为1个文件将1个文件拆分,分别输出结果选择记录分析加权176SortCase...排序将数据库按某一个或多个变量排序升序Accednding降序Decending177SortCase...排序在某一变量名上点击鼠标右键同样可进行排序操作178转置Transpose...将数据库的行列,列行179大家还记得EPIDATA中的纵向追加记录和横向合并字段吗?纵向合并横向合并MergeFiles...数据库合并180AddCases...添加个案原则:两个待合并的SPSS数据文件,其内容合并是有实际意义的;为方便SPSS数据文件的合并,在不同数据文件中,数据含义相同的列,最好起相同的文件名,变量类型和变量长度也要尽量相同,这样方便SPSS对变量的自动对应和匹配。181AddVariables...添加变量原则:如果不是按照记录号对应的规则进行合并,则两个数据文件必须至少有一个变量名相同的公共变量,这个变量是两个数据文件横向对应合并的依据,称为关键变量;如果是使用关键变量进行合并的对应,则两个数据文件都必须事先按关键变量进行排序,否则会出错;为方便SPSS数据文件的合并,在不同数据文件中,数据含义不同的列,变量名不应该取相同的名称。182AddVariables添加变量合并数据A与数据B,以no为关键变量183184*横向合并一定要按照关键变量进行排序185选择不同的合并方式,合并后的数据库不同186Practice2姓名身高(CM)体重(Kg)张三17060王五16070赵六16580钱八17590试建立SPSS数据库,录入下列资料,并保存为test2.sav试将test1与test2两个数据库横向合并,产生一新数据库,命名为test12,保存于桌面。NOTICE187实际应用中尽量使用数值型变量为识别(KEY)变量,如记录号ID,便于数据库合并,且需唯一。注意SORT。188Practice3姓名性别年龄工作时间李一2501950.1.20孙二1401961.2.21刘三1401962.3.22马四2601944.4.23试建立SPSS数据库,录入下列资料,并保存于桌面,文件名test3.sav性别:1=男;2=女试将test1与test3两个数据库合并,产生一新数据库,命名为test13,保存于桌面。比较一下两种合并方式的异同。189SplitFile...例如:我们欲分别比较男性和女性的某些特征,可以采用文件分割功能,按性别分割,结果将会按性别分层分别输出。拆分文件190SelectCases...对于前例我们也可以采用selectcases功能按性别进行统计分析,与Split不同的是,该选项无法实现男性和女性的结果同时输出,需分别select

ifsex=1(男);ifsex=2(女)选择个案191SelectCases...选择个案分析所有的记录,没有select只分析满足条件的记录(常用)删除(慎用)过滤未被选中的记录将从数据库中删除,谨慎操作192WeightCases...加权个案请思考一下,如何录入下列数据?性别人数男5女10性别:1=男;2=女一种录入方法193假如不是15例,而是100例、1000例…呢?194加权WeightCases...另一种方法通过weight,告诉SPSS该变量是频数,f=5表示有5条记录以example.sav为例,假定我们错误地将id(198)录入两次,id(199)录入了三次,如何利用SPSS正确识别出来?*有几种方法?195记录重复的识别196记录重复的识别识别变量是否产生新变量,用于指示记录197常用命令:计算变量重新编码日期和时间向导变量级别的管理198Compute...计算变量(可以根据现有变量或直接)生成一新变量。例如:收缩压共测量了三次,我们需产生一新变量sbp,等于三次的平均值。可使用函数功能进行计算Sbp=(sbp1+sbp2+sbp3)/3可定义条件1991、计算平均的收缩压和舒张压:2、计算BMI:Practice4分析数据库example.sav,200Recode...重新编码重新产生一新变量,原变量不变(建议使用)对变量自身赋值,将改变原变量数值对变量进行赋值,可以将连续性变量分类化。例如:年龄可以通过该命令划分为不同的年龄组。201IntoSameVariables重新编码为相同变量1.先确定需赋值的变量对变量自身赋值,将改变原变量数值2.点击旧值和新值3.选择原变量相应的赋值规则4.定义新值,别忘了点添加

202IntoDifferentVariables重新编码为不同变量定义新变量名后,别忘了点‘更改’重新产生一新变量,原变量不变1.先确定需赋值的变量2.定义新变量名3.点击oldandnewvariables4.选择原变量相应的赋值规则5.定义新值,别忘了点Add变量赋值规则(以年龄为例)203以年龄为例某一具体年龄值某年龄范围,如15-25岁从最小值至某一年龄,如=<25岁从某一年龄至最大值,如>=25岁204练习:1、IntoSameVariables

将性别变量编码(1=男;2=女)修改为2=男;1=女2、IntoDifferentVariables

根据计算出来的BMI分组,产生新变量obesity,变量赋值1:BMI<25(正常),2:25-29(超重),3:>=30(肥胖)Practice5分析数据库example.sav205Date/time与时间有关变量的便捷处理方法例如:已知调查日期和出生日期,可利用此功能计算研究对象的年龄(=调查日期-出生日期)206Date/time(以计算年龄为例)207统计资料的描述指标描述

集中位置:算术均数、几何均数、中位数、百分位数

离散程度:极差、标准差、方差、四分位数间距图形描述

频数分布图 趋势图……计量资料集中趋势的描述算术均数几何均数中位数百分位数208计量资料209极差/全距(range)四分位数间距(inter-quartilerange)

方差(variance)标准差SD

(standarddeviation)变异系数CV

(coefficientofvariation)

描述离散程度的指标:计量资料210基本描述统计分析SPSS的许多模块均可以完成统计描述的任务。除了各种可以用于统计推断的过程会附带进行相关的统计描述外,SPSS还专门提供了几个用于统计描述的过程,均集中在描述统计子菜单中。常用命令211频率requencies…能计算各种百分位数,描述数据的分布特征,既可以描述连续性变量,又可以描述分类变量是否显示频数表集中趋势百分位数离散趋势正态检验212

结果输出窗口中文显示不正确,可在编辑>选项中修改字体。213可以调整SPSS结果中表格的输出格式

如是否需竖线、是否三线表等

编辑>选项214描述Descriptives…类似频率过程可描述的统计指标与“频率”命令有些不同215探索Explore…判断有无离群点或极端值提示数据转换方法了解组间差异的特征给出统计量、正态检验和描述性统计图,包括茎叶图、直方图及箱图该过程用于对连续性资料分布状况不清楚时的探索性分析,可以计算许多描述统计量,给出各种统计图,并进行简单的参数估计216探索Explore…需分析的变量,可选1个或多个分组变量。如有多个分组变量,则分别分组描述记录标签,如ID编号,可不填仅统计图仅统计描述217缺失值处理绘制图形描述统计量218探索Explore…最大、最小极端值一般描述百分位数:5%、25%、50%、75%、90%、95%219探索Explore…茎叶图直方图正态检验图探索过程不仅具有统计描述的功能,还能绘制统计图散布-层次图;组间方差齐性检验,如未指定分组变量,该选项无效220Exercise:(1)对example.sav中研究对象的身高分布进行描述,填写下表(2)仅分析男性(3)按男女性分别描述变量合计男女变量合计男女调查人数标准差均数

最小值

中位数

最大值

众数

极差

10%位数

思考一下有几种方法?分类变量的描述率比构成比病例(%)对照(%)不吸烟100(10)500(50)吸烟900(90)500(50)221例如:对于分类变量,我们常用这种R*C表格表示,这在SPSS中如何实现呢?222交叉表Crosstabs…行列分层变量交叉表,是分类资料统计分析常用的命令之一,不仅具有描述功能,还可以进行卡方检验、精确检验、分层分析等223如何在格子中显示百分比呢?可以点击在“编辑〉选项”更改显示变量名还是标签;显示变量标签的真实值还是标签值?224统计构成比225Exercise例:对example.sav中男性与女性文化程度的差异列表进行描述性别小学或以下(%)初中或以上(%)男女226一、均数的计算方法计量资料的均数和标准差计算可采用上节课介绍的分析→描述统计→***如果分组(如按性别)计算均数和标准差可以:(1)拆分文件或(2)选择个案或(3)

分析→描述统计→探索还有什么方法吗?227均数与均数间的比较一、均数的计算方法分析Analyze→比较均值CompareMeans→均值Means试采用多种方法计算example.sav中,男性和女性的平均年龄与标准差。分组变量可选的统计量可再添加分组变量228均数与均数间的比较上例仅是对男女性年龄的均数和标准差进行了描述,那么男性和女性的年龄差异是否存在统计学意义呢?这类资料应该采用何种统计学检验方法?性别MeanStd.Deviation男55.109.991女54.579.500Total54.909.787age229均数间的比较一、t检验

1、样本均数与总体均数的比较

2、完全随机设计(成组设计)的两样本均数的比较

3、配对设计的两样本均数比较二、方差分析

1、完全随机设计(成组设计)的单因素方差分析

2、随机区组设计(配伍设计)的两因素方差分析三、协方差分析230样本均数与已知总体均数的比较231样本均数与已知总体均数的比较例:通过大量调查,已知某地正常男婴体重为3.26Kg,某医生随机抽取20名难产男婴,测得出生体重如下:问,该地难产男婴体重是否不同于本地正常男婴?3.53.53.23.53.33.03.33.23.42.73.43.63.52.83.42.93.53.54.04.0

SPSS分析命令:分析Analyze→比较均值CompareMeans→单样本t检验One-SampleTTest…数据库:onesampleTtest.sav232样本均数与已知总体均数的比较总体均数233样本均数与已知总体均数的比较结论:不能认为难产男婴的出生体重与正常男婴不同。P

值自由度t值234

成组比较t检验需注意:个体之间相互独立两组资料均取自正态分布的总体满足方差齐性235完全随机设计(成组设计)两个样本均数的比较例:某医生测得12名正常人和13名病毒性肝炎患者血清转铁蛋白含量(g/L)结果如下:问肝炎患者和正常人血清转铁蛋白含量有无差异?病毒性肝炎患者:2.342.472.222.312.362.382.152.572.192.252.282.312.42正常人:

2.612.712.732.642.682.812.762.552.912.852.712.64Q:此类数据如何录入?数据库:IndependentSamplesTTest.sav236完全随机设计(成组设计)两个样本均数的比较分析变量分组变量237完全随机设计(成组设计)两个样本均数的比较统计描述方差齐性检验结论:病毒性肝炎患者与正常人血清转铁蛋白含量差异有统计学意义。238239配对t检验240配对设计的两个样本均数比较(配对t检验)例:为比较某新药与常规药降血脂的效果,将性别相同、血清总胆固醇水平相近的高血脂患者配成对子,每对中随机抽取一个人服用新药,另一个人服用常规药。服用一段时间后,测得血清总胆固醇含量(mmol/L)如下:问新药与常规药降血清总胆固醇效果是否相同?新药:6.576.466.276.896.217.617.607.046.687.42常规药:6.006.835.977.286.306.647.387.006.037.22

SPSS分析命令:Q:此类数据如何录入?paired-sampleTtest.sav241配对设计的两个样本均数比较选中欲比较的两个因素,再点击◥242配对设计的两个样本均数比较结论:不能认为新药与常规药降低血清总胆固醇的效果不同。配对差值243Q:能否采用我们前面学过的单样本T检验(样本均数与已知总体均数比较)比较新药与常规药降血清总胆固醇效果是否相同?244Compute计算产生一新变量d,d=group1-group2检验d=02452组均数比较可采用t-test

多组均数如何比较?246方差分析AnalysisofVariance,ANOVA方差分析的目的:推断两个或多个总体均数是否相等方差分析的使用条件:各处理组样本来自正态总体各样本是相互独立的随机样本各处理组的总体方差相等,即方差齐性247方差分析的结果解释:方差分析的F检验,当P<0.05,可以认为各组总体均数不等或不全相等,但并不可认为任意两组总体均数都有差别。需要进一步作两两比较才能知道哪些组间有差别。多个样本均数间的两两比较当样本组数大于2时,不宜再用前述的t检验分别作两两比较,否则会增大犯第一类错误的概率。方差分析与t检验的联系

t检验可以看作时方差分析的特例:方差分析的注意事项248完全随机设计方差分析

(成组设计)249250完全随机设计(成组设计)的单因素方差分析1个因素,k个水平例:某社区随机抽取30名糖尿病患者、糖耐量减低(IGT)者和正常人进行载脂蛋白(mg/dl)测定,结果如下:问三种人载脂蛋白水平有无差别?糖尿病患者:85.70105.20109.5096.00115.2095.30110.00100.00125.60111.00106.50IGT异常者:96.00124.50105.1076.4095.30110.0095.2099.00120.00正常人:144.00117.00110.00109.00103.00123.00127.00121.00159.00115.00

方法一:Q:此类数据如何录入?One-wayANOVA.sav251完全随机设计(成组设计)的单因素方差分析1个因素,k个水平分组变量分析变量252方差齐性检验输出描述统计量253完全随机设计(成组设计)的单因素方差分析1个因素,k个水平结论:可以认为三种人血清载脂蛋白水平有差别。但哪两组间有区别呢?254两两比较假定方差齐时假定方差不齐时255两两比较256两两比较每两个均数进行比较AB、AC、BCABC257两两比较分别与对照组进行比较AC、BCABC(对照)258前述的方差分析还可以通过一般线性模型实现Analyze→GeneralLinearModel→Univariate…因变量分组变量协变量259组间变异组内变异总变异除了方差分析表不同以外,方法一和方法二的其他输出结果是一致的:260

SPSS分析命令:Analyze→GeneralLinearModel→Univariate…随机区组设计(配伍组设计)资料的方差分析(1个研究因素a个水平,1个配伍组因素b个水平)例:为探索丹参对肢体缺血再灌注损伤的影响,将30只纯种新西兰实验用大白兔,按窝别相同、体重相近划分为10个区组。每个区组3只大白兔随机采用A、B、C三种处理方案,即在松止血带前分别给予丹参2ml/kg、丹参1ml/kg、生理盐水2ml/kg,在松止血带前及松后1小时分别测定血中白蛋白含量(g/L),算出白蛋白减少量。问三种方案的处理效果是否不同?GLMUnivariate.sav261白蛋白减少量A、B、C三种处理方案区组因素(配伍组)262分组变量分析变量263分析主效应或交互作用分析所有主效应和交互作用264随机区组设计资料的方差分析组间区组组内结论:认为10个区组的总体均数相同。但是,A、B、C三种方案的处理效果不全相同,即三个总体均数中至少有两个不同。至于三个总体均数中哪些不同,同样需要进行多个均数间的两两比较。265随机区组设计资料的方差分析结论:认为A、B种方案的处理效果没有差异,但均与C种处理方案的效果有差异,松止血带前给予丹参能使血中白蛋白含量降低。SNK法两两比较266协方差分析AnalysisofCovariance,ANCOVAANCOVA的目的将协变量对因变量的影响从自变量中分离出去,可以进一步提高实验精确度和统计检验灵敏度ANCOVA的适用条件各处理组样本来自正态总体各样本是相互独立的随机样本各处理组的总体方差相等,即方差齐性各组的回归斜率相等,即回归齐性267一元协方差分析例:研究镉作业工人暴露于烟尘的年数与肺活量的关系。按暴露年数将工人分为两组:甲组暴露≥

10年,乙组暴露<10年。两组工人的年龄未经控制。测得两组年龄及肺活量如下,问两组暴露于镉作业工人平均肺活量是否相同?ancova.sav268SPSS操作步骤:先检验是否满足回归齐性的假定;若满足回归齐性的假定,则可以采用ANCOVA。1、检验回归齐性的方法作图法检验研究因素与协变量的交互作用2、ANCOVA方法2691、检验回归齐性的方法作图法:对两组X、Y分别作散点图,并拟合回归直线,观察组间回归直线是否平行。若平行,则满足回归齐性的假定。简单直观,但具有主观性。270Doubleclick图片

打开图片编辑器,添加趋势线按分组变量显示不同颜色的点2712722731、检验回归齐性的方法检验研究因素与协变量的交互作用274275交互作用项276结论:研究因素与协变量的交互作用无统计学意义(P>0.05),满足回归齐性的假定,因此可以采用ANCOVA。交互作用项2772、ANCOVA方法278结论:扣除了年龄对肺活量的影响后,不能认为甲、乙两组工人的肺活量有差别。279分类变量的统计分析

1、成组设计的两样本率比较

2、配对设计的两样本率比较

3、完全随机设计的多个样本率比较280完全随机设计两个样本率的比较例1:某中药在改变剂型前曾在临床观察152例,治愈129例,未治愈23例;改变剂型后又在临床观察130例,治愈101例,未治愈29例,能否得出新剂型疗效与旧剂型不同的结论?疗效合计治愈未治愈新剂型12923152旧剂型10129130合计23052282crosstabs1.sav281完全随机设计两个样本率的比较282完全随机设计两个样本率的比较283SPSS分析命令:→DescriptiveStatistics→Crosstabs…284行变量列变量285286287288例2:某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮炎,本生产季节开始,随机抽取15名车间工人穿上新防护服,其中1名患皮炎,其余28名工人仍穿旧防护服,其中10名患皮炎。生产一段时间后,检查两组工人皮炎患病率,问两组工人皮炎患病率有无差异?皮炎患病情况合计患病未患病新防护服11415旧防护服101828合计113243crosstabs2.sav289290例3:某医师A药治疗9例病人,治愈7人;用B药治疗10例病人,治愈1人,问两药疗效是否有差别?疗效合计治愈未治愈A药729B药1910合计81119crosstabs3.sav291292配对设计两个样本率的比较例1:分别用反向血凝法和酶标法对200名献血员进行HBsAg检测,结果如下,问两种检验方法检出率有无差异?反向血凝法合计+-酶标法+-3018482150152合计32168200pair-crosstab.sav293方法一:交叉表Crosstabs294295296方法二:非参数检验NonparametricTest297非参数检验NonparametricTest298非参数检验NonparametricTest精确概率法299完全随机设计的多个样本率的比较例:某省从水氟含量不同的地区随机抽取10-12岁儿童,进行第一恒齿患病率的调查,问3个地区第一恒齿患病率是否不同?地区患病数合计高氟区4571干预区3146低氟区4348合计119165300完全随机设计的多个样本率的比较资料整理地区患病数未患病数合计高氟区452671干预区311546低氟区43548合计11946165crosstabs4.sav301SPSS分析命令:Analyze→DescriptiveStatistics→Crosstabs…完全随机设计的多个样本率的比较crosstabs4.sav302结论:3个地区第一恒齿患病率不同或不全相同。303分层分析与混杂偏倚混杂偏倚(confoundingbias)是指暴露因素与疾病发生的相关(关联)程度受到其他因素的歪曲或干扰。由于一个或多个外来因素的存在,掩盖或夸大了研究因素与疾病(或事件)的联系,从而部分或全部地歪曲了两者之间的真实联系304混杂偏倚ConfoundingExposure

OutcomeThirdvariable(Confounder)混杂因素具有下述三项特点:

(1)混杂因素必须与所研究疾病的发生有关,是该疾病的危险因素之一。(2)混杂因素必须与所研究因素有关。(3)混杂因素必须不是研究因素与疾病病因链上的中间环节或中间步骤。305混杂偏倚的控制在设计阶段:可以通过配比、随机化分配或限制进入(选择混杂因素的某个层的对象)等方法来控制。在统计分析阶段:可采用标准化率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论