SPSS教案完整版可编辑_第1页
SPSS教案完整版可编辑_第2页
SPSS教案完整版可编辑_第3页
SPSS教案完整版可编辑_第4页
SPSS教案完整版可编辑_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计软件应用教案主讲教师张静教学目的和要求:通过本课程的学习,使学生进一步熟悉各种常用的统计方法,并学会将统计原理与SPSS统计分析软件的应用相结合。本课程偏重统计软件的实际“应用”,而非复杂的计算机原理。教学重点和难点:数据管理,包括数据录入、变量级别的数据管理、文件级别的数据管理;单变量描述性统计,内容为分类变量的描述统计、离散性变量的描述统计;均值比较;双变量描述性统计,内容为相关分析与回归分析。教法特点说明:讲授与上机操作相结合,通过课堂实例讲解以及实际操作练习加深学生的印象。教材和参考书目:1、阮桂海主编,《数据统计与分析——SPSS应用教程》,北京大学出版社,2006年版。2、张文彤、闫洁,《SPSS统计分析基础教程》,高等教育出版社,2004年版。3、章文波、陈红艳,《实用数据统计分析及SPSS12.0应用》,人民邮电出版社,2006年版。4、卢纹岱,《SPSSforWindows统计分析》,电子工业出版社,2000年版。

第一章何为SPSS教学目的和要求:通过本章的学习使学生了解什么是SPSS,掌握SPSS的安装与简单操作,牢记SPSS中的两种主要窗口类型。教学重点和难点:重点是SPSS的两种主要窗口类型——数据编辑窗口和结果输出窗口;难点是SPSS中的运行环境参数设置。教学方法:讲授与上机操作相结合教学内容:第一节SPSS概述一、关于SPSS常用的统计软件:SPSS、SAS、LISREL、STATPACStatisticalPackagefortheSocialSciences——社会科学统计软件包美国斯坦福大学三位研究生20世纪60年代末[SYSTAT\BMDP]二、SPSS软件的特点1、功能强大2、兼容性好3、简单易用第二节SPSS的安装过程两种安装方法:光盘安装;网络下载安装程序第三节SPSS操作入门一、SPSS软件的启动与退出Windows开始菜单——程序——SPSSIncRunthetutorial——运行操作指南Typeindata——在数据编辑窗口录入数据Runanexistingquery——运行一个已经存在的查询文件[.sqp]CreatnewqueryusingDatabaseWizard——使用数据库向导建立新文件Openanexistingdatasource——打开一个已经存在的数据文件[.sav]Openanothertypeoffile——打开其他类型的文件圆形图案——单选项方形图案——复选项二、SPSS运行时的窗口类型1、数据编辑窗口标题栏、工具栏、编辑栏、状态栏窗口切换标签栏[DataView数据视图、VariableView变量视图]变量:具有一个以上取值的概念。例如性别、职业、收入等数据视图:显示各个变量的取值情况,用于输入编辑数据一行代表一条记录[一个样本,一份问卷]一列代表一个变量变量视图:对变量进行定义和编辑一行代表一个变量;一列代表变量的一个属性2、结果输出窗口索引区[为内容区设置索引目录]、内容区3、语法编辑窗口三、SPSS运行环境参数设置[菜单栏中的View选项]View——视图[用于控制窗口的外观]Statusbar状态栏Toolbars工具栏[DataEditor数据编辑窗口Customize自定义]MenuEditor菜单栏编辑器Gridlines网格线Fonts字体Valuelabels变量值标签Variables切换变量视图CustomizeVariableView自定义变量视图

第二章数据管理教学目的和要求:通过本章的学习使学生了解问卷编码的方式,学会在SPSS中录入数据资料,掌握变量级别及文件级别的数据管理知识,能够熟练地对SPSS数据文件中的数据资料进行整理、转换。教学重点和难点:重点是如何在SPSS窗口中输入数据、变量的重新赋值、数据的运算与新变量的生成。难点是数据文件的纵向合并与横向合并。教学方法:讲授与上机操作相结合教学内容:第一节SPSS数据的输入法直接在SPSS窗口中输入数据在word或excel中进行数据输入,再将其转化为SPSS格式一、编码编码是指赋予每一个问题及其答案一个数字作为它的代码。从资料处理的角度看,编码就是用阿拉伯数字代替问卷中每一个问题的回答。1、答案代码的确定单选题、填空题、多选题(不限选项的多选题、排序题及限定选项的多选题)缺失值的处理2、问题代码的确定为了将问题代码与答案代码区分开来,我们可以以英文字母来代表不同的问题。例如:A1、A2、A3注意多选题的问题代码要如何设定3、问题栏码的确定即指定该问题答案的编码值共几位,以及它们在整个数据文件中所处的位置(相当于日常生活中指定教室的几排几号)栏码的指定方法是从问卷的第一个问题或项目开始,先根据每一个项目或问题答案代码的位数,来确定该项目或问题所占有的宽度,再根据前后顺序来确定其在整个数据排列中所处的位置,这样从头依次往后排列。也就是我们表1-1中的栏位。数据登录表城区个案号A1A2A3A4A5A61A6212-567-8910111213个案12038723932211个案24044124123410个案33102415025221个案46003612837100个案51018923041100个案63081624416221

二、直接在SPSS窗口中输入数据1、数据的录入格式:一行代表一个个案,它反映了一个调查对象的情况,即代表了一份问卷;一列则代表了一个变量,即问卷中的一个问题。“一个个案占一行,一个变量占一列”2、建立新的数据文件:方法一,“开始”菜单—程序—SPSSINC—SPSS16.0—typeindata方法二,打开一个已有的数据文件。选择菜单栏中的File—New—Data。3、输入数据第一步:定义变量变量视图——每一行代表一个变量,每一列表示的是变量的某一个属性。Name-变量名(问题代码)同一个数据文件中不能有相同的变量名Type-变量类型基本的变量类型:数值型、字符型和日期型数值型:标准数值型(Numeric)、含逗号的数值型(Comma,即整数部分每3位数加一逗号)、圆点数值型(Dot,即整数部分每3位数加一小点,可以定义小数位置,但显示0,且小数点用逗号表示)、科学计数法(ScientificNotation,同时定义数值宽度和小数位数,以科学计数的形式显示)、美元数值型(Dollar,其显示形式前有美元标记$)、用户自定义型(CustomCurrency,我们可以根据需要进行设置。如果没有定义,则自动显示为标准数值型)。日期型:Date字符型:StringWidth-变量宽度Decimals-小数位数Label-变量标签(对变量的进一步描述和说明)Values-变量值标签(答案代码)Missing-缺失值Nomissingvalues,表示没有缺失值,也就是不专门设置缺失值Discretemissingvalues,离散式缺失值Rangeplusoneoptionaldiscretemissingvalues,连续型缺失值外加一个离散型缺失值。用户缺失值、系统缺失值(计算机默认的缺失方式)Columns-栏码(变量在表格区的显示宽度)Align-变量显示时的对齐方式Measure-变量的测量层次(定类Nominal、定序Ordinal、定比Scale)多选题的变量设置方式:多重分类法(限定选项的多选题及排序题)多重二分法(未限定选项的多选题)A、B、C、D、E五个学校的毕业生就业率分别是85%、90%、80%、92%、96%三、在Word中输入数据一行代表一个个案或一份问卷只录入答案代码即可[也可在第一行录入变量名]。转化为SPSS可读的数据文件的方法:File-ReadTextData/Opendata—文件打开对话框-文本导入向导对话框四、Excel数据的输入与转化输入:第一行录入变量名第二行开始录入数据,一行代表一个个案转化:Open-Data

数据的编辑整理:1.变量级别的数据管理2.文件级别的数据管理第二节变量级别的数据管理(Transform)一、变量的重新赋值(对变量进行重新定义和编辑)Transform—RecodeIntoSameVariables(它表示对变量自身重新赋值,也就是说改变原变量的取值情况)/RecodeIntoDifferentVariables…(它是指依据原有变量的取值生成新变量并对它进行赋值,借助新变量来表示分组情况)例题1:在练习1.sav中有变量grade,记录了某班学生上次考试的平均成绩。要求根据该变量生成新变量grade1,当上次考试平均成绩grade小于60时取值为“不及格”,大于等于60且小于70为“及格”,大于等于70且小于80为“较好”,大于等于80为“优秀”。“Transform-RecodeIntoDifferentVariable”选择等待重新赋值的变量grade进入中间的文本框InputVariable→OutputVariable——设置新变量的变量名grade1和变量标签,点击change按钮——变量重新赋值(系统默认新生成变量是数值型,如果要将新值设置为字符型,必须选择复选框Outputvariablesarestrings),点击continue,返回上一级对话框——if按钮(用于设置条件表达式,仅对符合条件的个案进行重新赋值)Ok-设置完成;Cancel-设置取消;Help-寻求系统帮助;Reset-重新进行设置;Paste-将当前对话框所有设置转化为SPSS的特有命令语句。例题2:根据变量grade1生成新变量grade2,要求将优秀、较好、及格三个等级合并为一个等级“pass”,将“不合格”转化为“nopass”。二、数据的运算与新变量的生成Transform—Compute例题:在学生成绩表.sav中记录了14名学生的语文、数学、英语、化学、物理、历史及政治成绩。现在,要求生成一个新变量,该变量用于记录每一个学生的总成绩。TargetVariable——目标变量;NumericExpression编辑框——选择参与计算的变量,结合中间的算术运算符或右侧列表框中的函数设定计算公式。Recode和Compute均可产生新变量,但是前者不能进行运算,它只能根据某个变量的值进行转换,而后者可以根据多个变量的组合完成新变量的计算。三、变量组段划分Transform—VisualBander如果需要进行的分组是较有规律的,比如等距分组、或者等样本量分组(即各组样本数相等),使用Recode进行操作就显得有些麻烦了。这时我们可以选取Transform中的另一子菜单VisualBander。这一方式主要适用于对连续性变量的分组,而且它具有可视性,我们可以看到分组前后的图形。例题:在学生成绩表.sav中,希望按照变量math对学生进行分组,60分以下的为第一组,60分以上的按照等间距的方式分为4组(各组的组距相同)。设置分组方法——Makecutpoints三种分组方法:1、EqualWidthIntervals——等距分组。第一个断点(FirstCutpointLocation,即第一个组段的上限)组段数目(NumberofCutpoints)组距(Width)最后一个断点(LastCutpointLocation)。一般,我们只设定第一个断点和组距,其他两项系统会自动计算填写。2、EqualPercentileBasedonScannedCases——等样本数分组(各个组段中包含的个案数相同)Numbers—用于设定断点个数(组段个数=断点个数+1)Width则是每个组段包含的样本数占总样本数目的百分比值。这二者任意设定一个即可。3、利用变量的均值和标准差来进行分组。两个复选框分别表示均值加减一个标准差和均值加减两个标准差。四、样本计数某个变量的取值中是否出现了某个值,它可以是单个数值,也可以是某个区间。例题:以学生成绩表.sav为例,我们想了解是否有人的英语成绩在70-80分之间,也就是想要考察,变量English的取值中是否出现了70-80之间的数值。Transform——Countvalueswithincases-TargetVariable[用于计数的新变量count,用来记录某个变量值是否出现]/TargetLabel[新变量的变量标签]——选择需要进行计数的变量进入右侧的编辑框[English]——DefineValues[进入变量值定义窗口,根据计数要求设置变量值70-80之间]。设置完成后,系统生成新变量count。如果某条个案其英语成绩位于70-80之间,则count变量取值为1,否则取值为0。五、缺失值的替代填充(为了充分利用数据,我们需要对缺失值进行填充替代,以便形成完整的数据序列,方便进行统计分析。)Transform-ReplaceMissingValues…缺失值的填充替代结果并没有出现在原变量,而是生成了一个新的变量记录填充结果。Method确定填充替代的方法Seriesmean,采用该变量所有非缺失值的均值进行填充;Meanofnearbypoints,采用缺失值相邻点的非缺失值的均值进行填充,用户可以自行选择相邻点的个数。Medianofnearbypoints利用缺失值相邻点的非缺失值的中数进行填充Linearinterpolation,利用线性内插法进行填充Lineartrendatpoint,采用的是线性拟和方式确定填充值。

第三节文件级别的数据管理一、数据的增删1、变量的增删变量的增加:Edit—InsertVariable变量的删除:Edit-Clear2、个案的增删个案的增加:Edit—InsertCases个案的删除:Edit-Clear以上操作可以通过右击弹出快捷菜单完成。二、个案的排序例题:数据文件金融.sav。该数据文件中包括五个变量,月份month、综合指数收益index、股票收益率stock、工业总产值增长率industry和消费品销售量consume。我们要按照股票收益率对个案进行升序排列。Data—SortCases。要求个案首先按消费品销售量增长率升序排列,对于消费品销售量增长率相同的,再按工业总产值增长率降序排列。三、个案的加权处理为了简化文件,避免麻烦,我们可以采用频数格式录入数据,即相同取值的个案只录入一次,另加一个频数变量用于记录同类个案共出现的次数。Data-WeighCases一旦进行了加权处理,它在以后的统计分析中都会起作用,除非我们取消加权。何谓加权:学校食堂吃饭,吃三碗的有x人,吃两碗的有y人,吃一碗的有z人,平均每人吃多少?(3x+2y+z)/(x+y+z)。这里的3、2、1就是所谓的权重。加权实际就是考虑到不同取值在总体中的比例份额。四、数据的分类汇总例题:数据文件练习.sav中记录了某班学生的各科成绩,现在要求分析不同性别学生的平均英语成绩。Data-AggregateBreakVariables分组变量-性别AggregatedVariables汇总变量Function-汇总函数汇总函数共五类:1、SummaryStatistics常用的求和统计函数2、SpecificValues特定值3、Numberofcases个案数(Weighed根据加权统计个案数量、Weighedmissing根据加权统计数据存在缺失的个案数、Unweighted统计个案数、Unweightedmissing统计数据存在缺失的个案数)3、Percentages百分比Above表示计算大于该数值的所有个案占总个案数的百分比。Below则表示计算小于该数值的所有个案占总个案数的百分比。Inside是求取数值在区间范围内的个案数占总个案数的百分比Outside则是数值在区间范围外的个案数占总个案数的百分比。5.Fraction是求取分数。它和百分比的情况是一一对应的。Numberofcases——是否需要将分组变量每组的个案数存放在某个变量当中,如果需要,在旁边编辑框中输入新变量名称即可。Save用于确认分组汇总结果的存储方式Addaggregatedvariablestoactivedataset——即将分组汇总变量添加到当前的数据文件中。Creatanewdatasetcontainingonlytheaggregatedvariables,表示创建一个新的数据集存储分类汇总结果。数据集类似于一个excel文件中的工作表sheet。[如果选择这一项,系统会自动打开一个新的数据编辑窗口,其中包含了三个变量gender\english-mean-1\N-BREAK]。需要及时予以保存,否则一旦数据编辑窗口关闭,数据就丢失了。Writeanewdatafilecontainingonlytheaggregatedvariables,创建一个新的数据文件用于存储分类汇总结果。该数据文件同样包括三个变量gender\english-mean-1\N-BREAK,但不会自动打开。OptionsforVeryLargeDatasets——主要是针对大型的数据文件Filesisalreadysortedonbreakvariables——文件已按分组变量排序Sortfilebeforeaggregating——在汇总前对文件进行排序。五、个案的筛选问题Data-SelectCases例题:打开练习.sav。要求只对编号为10以上的个案进行统计分析。筛选方式:Allcases全选Ifconditionissatisfied按条件表达式筛选变量number≥10Randomsampleofcases按所需的个案数随机抽取Basedontimeorcaserange按时间或个案序号抽取Usefiltervariable使用筛选指示变量(只要该变量取值非0即可被选中)。Output——如何处理未选中记录Filteroutunselectedcases在未选中记录的记录号上加斜线以示区别[选择该选项的话,数据文件中会出现一个新的变量,该变量用于记录筛选结果。0表示未选,1表示选中]Copyselectedcasestoanewdataset将被选中的记录复制到一个新的数据集中Delete将未选中记录删除。六、文件的合并(一)纵向合并1、含义:将一个SPSS数据文件的内容追加到数据编辑窗口中当前数据的后面实质是合并个案2、两个条件:第一,两个待合并的SPSS数据文件,其内容合并是有实际意义的;第二,为方便SPSS数据文件的合并,在不同数据文件中,含义相同的变量,最好起相同的变量名,变量类型、宽度等的设置也要尽量相同。这样,将方便SPSS对变量的自动对应和匹配。3、例题:数据文件练习.sav中存储了某班30名学生的性别、身高以及语文、数学、外语成绩、上次平均成绩。而数据文件练习1.sav中记录了该班其余20名学生的各项情况。对这两个数据文件进行合并,以获得该班全体学生的情况。步骤:打开数据文件练习.sav——选择Data-MergeFile-AddCases——弹出打开对话框,选择待合并的数据文件练习1.sav——纵向合并对话框Selectadatasetfromthelistofopendatasetsorfromafiletomergewiththeactivedataset。从打开的数据集中或一份数据文件中选择一个数据集,和当前打开的数据集合并。[Anopendataset——打开的数据集,实际就是已打开的数据编辑窗口。AnexternalSPSSdatafile——一个外部的SPSS数据文件,实际就是未打开的数据文件]unpairedvariables——不匹配变量(指那些并非两个数据文件所共有的变量。变量名后面会跟有*或+。*表示该变量名是当前数据编辑窗口中的变量,而+则表示该变量是外部数据文件即待合并数据文件中的变量。对于不匹配变量应该如何处理?第一,使用Pair按钮进行强行配对,如果两个变量分属不同的数据文件,其表示的数据含义相同,例如都表示性别,只是使用的变量名不同。则可以选中两个变量后,进行强行配对。第二,如果变量名是两个数据文件所共有的,只是属性设置存在差异,那么可以返回原来的数据文件进行修改,第三,指定某个变量,不经任何对应匹配,强行选入右侧的列表框中)rename——修改不匹配变量的变量名variablesinnewactivedataset——合并后新数据文件中的变量。两个待合并的数据文件中共有的变量会自动对应匹配,并出现在该对话框中。注意,所谓共有变量不仅要求变量名相同,而且要求其他变量属性也相同。Indicatecasesourceasvariable——是否在新生成的数据文件中生成一个新的变量用于记录每条个案来自于合并前的哪个数据文件。如果选择是的话,那么合并后的数据文件中会自动出现名为source01的变量,它的取值为0或1。0表示该条个案来自当前窗口已打开的文件。1表示该条个案来自外部数据文件。(二)横向合并1、含义:将一个已有的SPSS数据文件中的若干个变量加到当前数据编辑窗口的数据中。实质是合并变量。2、例题:练习.sav记录了某班学生的语数外成绩等,而练习2.sav中则存储了该班学生的物理、代数、生物、地理、历史等成绩。现在我们希望能在同一个数据文件中看到学生各门科目的成绩。横向合并的条件:第一,如果不是按照记录号对应的规则进行合并,则两个数据文件必须至少有一个变量名相同的公共变量,这个变量是两个数据文件横向对应合并的依据,称为关键变量。如学号、职工号等,关键变量可以是多个;第二,如果是使用关键变量进行合并对应,则两个数据文件都必须事先按关键变量进行排序。第三,为方便SPSS数据文件的合并,在不同数据文件中,数据含义不相同的变量,切不可取相同的变量名。步骤:打开数据文件练习.sav——选择Data-MergeFile-AddVariables——选择待合并的数据文件练习2.sav——横向合并对话框ExcludedVariables——排除在外的变量。即外部数据文件与当前数据文件中重复的变量,也就是练习.sav与练习2.sav中共有的变量NewActiveDataset——新数据文件中的变量。一般来说,两个待合并数据文件中的所有变量名均会出现在右侧NewActiveDataset列表框中。设置关键变量的方法——首先选中左侧列表框下方的复选框。Matchcasesonkeyvariablesinsortedfiles.即“在新文件中依据关键变量匹配个案”;其次,从ExcludedVariables框中选择关键变量送入KeyVariables列表框。因为关键变量必须是两个数据文件所共有的。还有一点需要大家注意,我们前面说了,如果要依据关键变量进行个案的匹配,那么两个数据文件都必须事先按关键变量进行排序。合并后文件中的数据按哪种方式提供:Bothfilesprovidecases——由待合并的两个数据文件中的个案共同组成新的数据文件。如果两个数据文件中的个案是逐条对应的话,那么我们就选择此项。Non-activedatasetiskeyedtable——新的数据文件中仅包括已打开文件中的个案。也就是说合并后的个案数与当前数据编辑窗口的个案数相同。如果外部数据文件根据关键变量无重复个案,而当前数据文件根据关键变量存在重复个案,则选择此项。Activedatasetiskeyedtable——合并后文件仅包括外部数据文件中的个案,即合并后的个案数目与外部数据文件中的个案数目相同。如果当前数据文件根据关键变量无重复个案,而外部数据文件根据关键变量存在重复个案的话,那么就选择此项。简单来说,就是哪个数据文件中的个案数多,我们就以哪个数据文件为准,由它来提供数据。附:数据清理一、重复个案的识别问题重复个案是指所有变量取值完全相同的个案。IdentifyingDuplicateCases对话框左侧是变量列表框Definematchingcasesby——设定匹配变量的列表框。我们可以从左侧的变量列表框中选择一个或多个变量进入中间的列表框,将其作为判断重复个案的标准。Sortwithinmatchinggroupsby——指定排序变量。完成识别重复个案的分析后,彼此重复的个案会自动排列在一起,我们可以通过指定排序变量来决定重复个案之间的排序。Variablestocreat——生成新变量Indicatorifprimarycases——生成一个新变量,用于保存该条个案的重复情况。如果个案是独一无二的,那么新变量的取值为1,如果存在重复个案,那么只有判定首要个案的取值为1,其他的取值为0。至于哪条个案为首要个案,用户可以自行选择。可以是一组重复个案中的第一个或最后一个。如果选择了复选框“FilterbyIndicatorvalues”那么系统会为那些重复个案(即新变量取值为0的个案)设置特殊标记。Sequentialcountofmatchingcasesineachgroup——生成一个新变量,用于记录每一组重复个案的顺序号,无重复个案取值为0。Movematchingcasestothetopofthefile——将重复个案置于数据文件的顶部Displayfrequenciesforcreatedvariables——对新建变量进行频率分布的统计分析。例子:针对数据文件上海1951-1969年的年降水.sav,进行重复个案的识别。二、有效范围清理变量值超出了它的有效范围。步骤:1.进行频数分析2.利用Edit-Find查找存在错误的个案三、逻辑一致性清理1、相倚问题——在前后两个(或多个)相连的问题中,被调查者是否应当回答后一个(或后几个)问题,要由他对前一个问题的回答结果来决定。例如,“你是否有孩子?”“你孩子的年龄?”首先选择Data-Selectcase进行个案的筛选(这里要挑选出那些没有孩子的个案)(选择IF按钮,A1=2)筛选完成后,针对后一个变量进行频数统计。(针对A2进行频数分析)利用Find子菜单,查抄存在问题的个案2、定距变量的逻辑检验在一项有关青少年家庭教育的社会调查中,涉及到父母的年龄(变量名为A1、A2),以及最大子女的年龄(变量名为A3)。我们可以利用其中的变量A1母亲的年龄与变量A3构成一个新变量(A4=A1-A3)来进行逻辑检验。我们可以对新变量进行频数统计,来看一下它所对应的值有哪些,如果值过小,仅为10或15等,我们就需要找出该个案并对其进行核查了。操作步骤:利用COMPUTE子菜单生成新变量,之后针对新变量进行频数统计这种涉及两个变量的数据清理,可称为逻辑一致性清理,其基本思路是依据问卷中的问题相互之间存在的某种内在的逻辑联系,来检查前后数据之间的合理性。

第三章连续性变量的描述统计分析教学目的和要求:通过本章的学习使学生进一步熟悉不同层次变量所适用的描述统计分析方法,并学会如何在SPSS中对连续性变量进行相应的描述统计分析,熟练掌握Frequency过程的使用。教学重点和难点:重点是Frequency过程的使用,难点是Explore过程的使用。教学方法:讲授与上机操作相结合教学内容:连续性变量——变量可能取某一区间内所有的值。例如,年龄、收入等。只有定距以上层次的变量才有可能是连续性变量。第一节连续性变量的描述统计分析方法一、统计描述中可用于连续性变量的方法1、各种初步汇总描述方法:将原始数据按照其大小进行分组汇总,计算各组的频次大小,最终汇总成相应的分组频次表。2、各种统计描述指标:针对数据的某种特征进行精确的数字呈现的一系列指标/以某一个数值反映资料的某种特征。如集中趋势测量法和离散趋势测量法。对于样本而言,这些统计描述指标可以被称为统计量。如均值、标准差、四分位差等。3、统计表:按照一定的排列方式将统计指标组织为一张表格。4、统计图:直方图、箱图等。二、统计描述指标1、集中趋势的描述指标集中趋势测量法是指找出一个数值来代表变量的资料分布,以反映资料的集结情况。(1)均值:将变量的各个数值相加起来,求取一个平均的数值。根据原始资料计算均值n是样本容量表示各个个案数值之和根据频次分布表计算均值f表示每个变量值出现的次数,x表示变量的各个取值,n是样本容量根据分组资料计算均值f表示每组的次数表示组中点n是全部个案数目均值的意义在于它高度浓缩了数据,使大量的原始数据转变为一个代表性数值。用均值作为变量的集中值不仅考虑到变量值的频次、次序,而且还考虑到它的大小。数据资料中任何频次、次序和数值大小的变化都会引起均值的变化。因此,它是灵敏的,也是对资料所提供信息运用得最为充分的。但是它也掩盖了各个个案之间的差异性,而且由于均值对个别极端值反应比较灵敏,因而均值在某些情况下可能具有一定的欺骗性,难以传递准确的信息。例子:假设某单位有6个人,5个员工,1个经理。员工的月收入分别为:360元,380元,400元,420元,440元,经理的月收入为4000元。那么该单位的平均月收入是多少?在正态分布中,利用均值作为集中趋势的统计值才是合理的。对于存在极端值,严重偏态的分布,均值不合适。再者,当分组资料中的极端组没有组限时,也无法求取均值,比如存在这样的分组,5岁以下或70岁以上。(2)中位值中位值是指在一个序列的中央位置之值,即高于此值的有50%的个案,低于此值的也有50%个案。Md位置=n是个案数目如果n为奇数,则对应位置数为中位值如果n为偶数,则将位于中央的两个数值的平均值作为中位值中位值不受极端值的影响,在具有极端值的严重偏态分布中,中位值比均值更具有代表性。不过,由于中位值只考虑中间位置,其他变量值的情况无法反映出来,所以,利用中位值分析定距以上层次的变量会损失很多信息。当样本量较小时,中位值不太稳定,也不是一个好的选择。因此,对于对称分布的资料,分析这往往优先考虑使用均值,仅仅是对均值不能使用的情况下才用中位值加以描述。(3)众值——出现次数最多的值。面对不同的变量,如何选取合适的统计值,以及不同统计值所具有的意义。2、离散趋势的描述指标离散趋势测量法是指求出一个数值来表示个案与个案之间的差异情况。(1)极差——一组数据中最大值与最小值之差。R=Xmax-Xmin极差反映的是变量分布的变异范围或离散幅度。极差计算简单、含义直观,运用方便。但它也有两点不足:一是它仅仅取决于两个极端值的水平,不能反映其总体的变量分布情况,提供的信息太少;二是它容易受个别极端值的影响,不符合稳定性的要求。一般情况下,极差只适用于预备性检查,目的是大体上了解数据的分布范围,以便确定随后分析的方法。(2)标准差和方差——定距变量专用的离散值标准差(S)即将各数值(x)与其均值之差的平方和除以全部个案数目(n),然后取其平方根。离均差:——离均差之和:(某地五户干部家庭的人数分别是:7,3,11,10,4)——离均差绝对值之和:——离均差平方和——S2=(方差相当于平均了每个数据的离均差的平方值,从而克服了离均差平方和受个案数量影响的缺点。所以,方差可用于不同容量样本数据分布离散程度的比较。方差越大,数据分布离散程度越大。例子:调查三名学生的身高,分别为1.58米,1.65米和1.70米,请大家告诉我,原始数据的单位是什么?那么计算出的方差的单位是什么?)——标准差S(标准差反映均值的代表性。也就是说,如以均值来估计或预测各个个案的数值,所犯的错误平均是S,它可以直接地、概括地、平均地描述数据变异的大小。对于同质的数据来说,标准差越小,表明数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越大,表明数据的变异程度越大,即数据越参差不齐,分布越分散。)标准差和方差的适用范围也是正态分布。(3)百分位数、四分位数与四分位差由于极差只由数据中的两个极端值来决定,其余数据都不起作用,所以极差的数据不可靠。为了尽量减少极差的缺点,人们又提出了分位差。它实际是对极差指标的一种改进,是从变量数列中剔除了一部分极端值之后重新计算的类似于极差的指标。社会统计学中讲的四分位差即是其中一种。另外,还有十分位差和百分位差。百分位数:一种位置指标,用Px表示。一个百分位数Px将一组变量值分为两部分,理论上有x%的变量值比它小,(100-x)%的变量值比它大。四分位数:将全部个案按变量值的大小等分为四部分的三个数值,分别是P25、P50、P75分位数,也可以分别记作Q1、Q2、Q3。四分位差Q=—十分位差、百分位差(它们的作用都是排除了少数极端值对分布变异范围的异常影响。分位的程度越高,分位差所排除的极端值的比例就越小,保留的信息就越多。实际分析时,可以根据具体情况和要求选择使用。)百分位数在统计分析时偶尔也会使用,而且它不仅可以用于描述离散趋势,而且可以对数据的集中趋势等其他特征进行描述,而多个百分位数联合起来,实际上就可以完整地反映整个数据的分布规律。但是它要求样本量足够大。3、分布特征指标研究者常常会提出假设,认为该数据所在的总体应当是服从某种分布的,如二项分布、正态分布、泊松分布等(我们主要学习和应用的是正态分布)。针对每一种分布类型,都可以由一系列的指标来描述数据偏离分布的程度。正态分布:偏度系数——用来测量分布偏离对称的程度。(偏度系数>0,表示数据呈正偏态分布,既图形向右边倾斜,右尾伸展较长;偏度系数<0,表示数据呈负偏态分布,既图形向左边倾斜,左尾伸展较长;偏度系数=0,表示数据呈正态分布)峰度系数——描述分布尖峰的程度。(峰度系数=0,表示图形呈正态分布时的正态峰;峰度系数>0,表示数据分布呈现尖峰;峰度系数<0,表示数据分布呈现扁平峰)卢淑华《社会统计学》第三章概率4、其他指标:统计描述中还有许多其他指标,如可以同时反映集中趋势和离散趋势的百分位数、描述数据是呈单峰还是双峰分布,数据的分布是对称的还是偏态的,专门针对存在异常值的数据进行描述的M统计量、极端值列表等。三、SPSS中的相应子菜单Analyze-DescriptiveStatistics1.Frequencies。借助它我们可以获得原始数据的频次或频率统计表。而且利用其中的Statistics对话框,可以计算集中值、离散值、百分位数和分布指标等。而Charts对话框则可以用来生成统计图。2、Descriptive。它主要用于进行一般性的描述统计分析。相对于Frequencies子菜单,它不能绘制统计图,所能计算的统计量也较少。但使用频率却是最高的。而且它主要适用于对服从正态分布的连续性变量进行描述。3、Explore。主要用于对分布状况不清楚的连续性变量进行探索性分析。它可以计算许多描述性统计指标,绘制统计图,还可以进行简单的参数估计。4.Ration。这个子菜单的功能比较简单,它用于对两个连续性变量计算相对比指标,它可以计算出一系列非常专业的相对比描述指标,但是使用面较窄。第二节操作步骤简介一、Frequencies(频数分析)Analyze-DescriptiveStatistics-FrequenciesDisplayfrequencytables——显示频数分布表Statistics—计算统计指标PercentileValues——百分位数。(Quartiles四分位数,cutpointsforequalgroups,选择这项的话,大家看到,后面的编辑框会被激活,从中,我们可以确定将数据分为几等分,这里我们把它分为10等份。其实就是计算十分位数。Percentile则是百分位数选项,我们同样可以根据需要确定究竟是百分之多少。在没有选择这项的时候,它后面的文本框是灰色的,表示不可用,如果选中它以后,它也会被激活,显示为可用的。百分位数选项下方还有三个按钮,借助它们,我们可以对键入文本框的数值进行添加、修改和删除。这说明百分位数可以选择不止一个。我们可以选择P5、P25、P85、P95甚至更多。)CentralTendency——集中趋势Dispersion——离散趋势(S.E.mean表示均值的标准误差,即均值抽样分布的标准差。所谓均值抽样分布,是指从总体中不断抽取随机样本,而每个样本的样本容量是相同的,如果在每个样本中都计算一个均值就会得到许多不同的样本均值,其中有些可能会重复出现,如果把每个均值的出现次数统计一下,就可以得到样本均值的次数分布情况,即均值抽样分布。标准误差指的就是它的标准差。其计算公式是:σ总体标准差,n样本容量。在总体标准差未知的情况下,可以以样本标准差代替。所以其公式又可以写作)Distribution——分布特征描述指标(Skewness偏度系数,Kurtosis峰度系数)Charts——绘制统计图None-不绘制图形。BarCharts-条形图PieCharts-饼状图Histograms-直方图Withnormalcurve添加正态曲线Format-格式对话框(用于对输出结果的格式设置。所谓输出结果是指频数分布表。)Orderby针对频数分布表的排序问题(AscendingValues,根据变量值升序排列。DescendingValues,根据变量值降序排列,AscendingCounts,根据频数升序排列,DescendingCounts,根据频数降序排列。)MultipleVariables(同时对多个变量进行频数分析,应该如何安排?Comparevariables是列在同一个表中以便进行比较,而Organizeoutputbyvariables,则是按照变量分别生成统计表。)Suppresstableswithmorethanncategories(控制频数分布表的输出范围。可以在后面的编辑框中设定一个最大数值,一旦频数分布表的分组数或变量值个数大于该数值,则禁止它在结果中输出,这样就可以避免巨型表格的产生)频数分布表中的相关内容:N代表样本容量,其中Valid表示有效样本数。Missing表示缺省值的个数(除缺省值外,其余均为有效样本。)ValidPercent(有效百分比。在输入问卷的过程中,可能会存在缺省值,缺省值是被排除在有效值范围之外的,因此,有效百分比是根据有效样本的个数进行计算的,即各个变量值在有效的样本总量中所占的百分比。)CumulativePercent(累加百分比——有效百分比的累加)二、Descriptive子菜单Descriptive就是描述性统计分析,因此,这一子菜单主要用于计算并列出一系列描述性统计量指标。这和之前的频数分析过程基本一致,但是它可以将原始数据转化成标准值并以新变量的形式存入数据库,以供进一步的分析。标准值代表的是每个变量值在标准正态分布上的数值。而标准正态分布则是一种特殊的正态分布,其均值为0,标准差为1。它的对称轴是y轴。如果要将正态分布转化为标准正态分布,首先要将变量值x转化为标准值。对应的公式:。其中σ表示变量的标准差,μ表示变量的平均值。表示变量值x的标准值或标准分。标准值可以用于不同总体间取值的比较,也可以用于不同总体间综合指标的比较。它的作用类似于名次。Savestandardizedvaluesasvariables——对原变量进行标准化,并且在数据窗口中产生相应的新变量,即我们之前提到的将原变量值转化为标准化变量。系统生成的新变量的名称为相应原变量名加前缀Z。我们可以根据统计分析的需要确定是否对变量进行标准化。如果新生成的变量值为负数,则表示该年的年降水量低于1951-1969的年平均降水量。如果有其他地区1951-1969年的年降水量数据,我们也可以利用生成的标准值进行横向的比较。DisplayOrder——指定变量输出顺序(Variablelist-变量列表顺序,也就是数据文件中的顺序;Alphabetic-字母顺序;Ascendingmeans-均值升序;Descendingmeans-均值降序)。三、Explore子菜单(探索分析子菜单)Explore子菜单能够对变量进行更为深入、详尽的描述性统计分析。它除了可以提供一般描述性统计指标外,还增加了有关数据文字与图形描述,如枝叶图和箱图等,这使得它的分析更加细致与全面,有助于对数据进行进一步的统计分析。再者,借助这一过程,可以根据某种方式分组进行统计。DependentList-因变量(分析变量)FactorList-分组变量(依据某个变量对分析变量进行分组。分组变量可以选择多个,系统会自动根据它们的取值进行交互分组)LabelCasesby-设置标识变量,方便查找数据的位置。Display-用于设置输出结果的类型(Statistics,描述性统计指标;Plots,统计图;Both,描述性统计指标和统计图)Statistics设置统计指标(Descriptives,描述性统计指标,它包括了我们之前介绍的一系列指标:集中值、离散值、分布特征值。在描述性统计指标下,我们还可以计算均值的置信区间。后面的编辑框用于设置置信度;M-estimators,M统计量,同样与参数估计有关;Outerliers,极端值。该选项用于输出5个最大值和最小值;Percentiles,百分位数。需要说明的是,该选项用于输出5%、10%、25%、50%、75%、90%、95%的百分位数。)Plots-设置统计图Boxplots——箱图。其下方的单选钮用于设置箱图的绘制方式。“Factorlevelstogether”单选钮,表示分析变量根据组别,即根据冬季气温和夏季气温分组绘制箱图;“Dependentstogether”则是不考虑分组,直接为分析变量绘制箱图。“None”表示不绘制箱图。Descriptive——描述性统计图,主要包括两种:茎叶图(Stem-and-leaf)和直方图(Histogram)。Normalityplotswithtest——正态分布图,而且选择它可以对变量进行是否合乎正态分布的检验。它主要用于参数估计之中。Spreadvs.LevelwithLeveneTest——散布-层次图(如果选择了分组变量,可以使用该图形。使用这一统计图,我们可以进行组间方差齐性检验,不过需要设置绘图时变量的转换方式。)Options-用于设置缺省值的处理方式Excludecaseslistwise——剔除变量中含缺省值的记录后再进行分析。只要任一变量存在缺省值,即剔除该条记录。Excludecasespairwise——表示的是分析计算过程中遇到含缺省值的记录时,将剔除该变量上是缺省值的记录。即只剔除分析变量为缺省值的记录。Reportvalues——是要将分组变量中的缺省值单独分为一组,输出时作相应的报告。关于输出结果:95%ConfidenceIntervalforMean—当置信度为95%时,均值的置信区间。置信度是和置信区间相对应的。置信区间由上下限所组成。5%TrimmedMean—截尾均值。两端各去除5%的数据,之后计算得出的均值。截尾均值可以消除极端值对数据的影响。Interquartilerange—四分位差M-Estimators——有关M估计的结果。其中包含四种M估计量。这个我们放在参数估计的内容中,有机会再介绍。Percentiles——记录了百分位数的情况。这里,在计算百分位数时分别采用了两种算法,当数据量较大,且基本无重复值时,两种方法的结果相同,反之,则两种方法的结果有所出入。ExtremeValues——极端值列表。表格中输出了五个最大值和五个最小值以及这些数值对应的记录号和年份的取值。从两侧极值的大小可以发现,无论是冬季气温还是夏季气温,在最大、最小两个方向上并没有特别明显的异常值,这表示数据分布基本对称。输出图形简介茎叶图(Stem-and-leaf)——根据冬季气温、夏季气温做了两个茎叶图。茎叶图可以直观地描述数据的频数分布情况。从左向右包括频数(Frequency)、茎(Stem)、叶(Leaf)3部分。茎叶合起来表示的是变量值。茎表示的是变量值的整数部分,叶表示的是其小数部分。每行茎叶组成的数字再乘以茎宽(下方的StemWidth)就是实际的变量值。Eachleaf:1cases表示每个叶代表1个观测值,即变量值。NormalQ-QPlot——冬季气温和夏季气温的正态概率图。图中实线是正态分布的标准线,而散点是实际数据的分布。散点分布越接近直线,说明数据分布越接近正态。DetrendedNormalQ-QPlot剔除了趋势后的正态概率图。箱图——中间的方箱为四分位间距的范围。其中的黑粗线为均值,上下两个细线为最大值和最小值。

第四章分类变量的描述统计分析教学目的和要求:通过本章的学习使学生了解分类变量所适用的描述统计分析方法,并学会如何在SPSS中对分类变量进行相应的描述统计分析,熟练掌握列联表的使用。教学重点和难点:重点是列联表分析,难点是针对多选题进行描述统计。教学方法:讲授与上机操作相结合教学内容:离散性变量:取值范围是有限个值或者是一个数列构成的变量。表示分类情况的离散变量又被称为分类变量。有序分类变量(定序变量、离散性定距变量)分类变量无序分类变量(定类变量)第一节分类变量的描述统计概述一、分类变量的描述性统计指标1、频数分析统计软件一般都只按类别编码从小到大进行频次和频率的累加。以民族变量为例,我们列了五个取值:汉族、回族、藏族、苗族、其它,在编辑变量时,它们分别对应的是1.2.3.4.5。借助统计软件进行累计频次或频率计算时,它只会按照1.2.3.4.5由小到大的顺序进行向上累加。所以,借助它,我们只能直接求出汉族和回族共有多少人,占多大比例,汉族、回族、藏族共有多少人,占多大比例,汉族、回族、藏族、苗族共有多少人,占多大比例。而无法直接获得汉族、苗族共有多少人,占多大比例或者汉族、藏族共有多少人,占多大比例。如果想要获得这一数据,我们要么自己动手,根据频次分布表进行计算,要么重新进行编码。2、集中趋势、离散趋势尽管我们可以利用众值反映资料分布的一般水平。但它只反映频次最多的类别的情况,而忽视了其它所有的类别。如果另一类别的频次仅少一例,使用众值描述的话就会被完全忽视掉。因此,只有集中趋势显著的时候,才能用众值作为总体的代表值。实际上,当分类变量的变量值不多时,原始频次分布表的观察并不复杂,此时众值的使用价值并不高。根据变量的测量层次不同,我们也可以选用中位值和均值。3、分类变量的联合描述同时依据两个变量的值,将所研究的个案进行分类。也可以同时依据三个甚至更多的变量进行交互分类。借助列联表,我们可以较为深入地描述样本资料的分布状况和内在结构,其所提供的信息非常地全面、详细。三、SPSS中的相应功能(Analyze-DescriptiveStatistics)1、Frequencies子菜单2、Crosstabs子菜单:对两个或多个分类变量进行联合描述,并计算相应的行、列百分比、合计百分比以及行、列汇总指标等等。此外,我们也可以借助它完成对分类变量的统计推论。第二节操作步骤简介Crosstabs(列联表分析)患病状况.sav记录了两组个体流感疫苗试验的数据文件。在该文件中共有三个变量,group(记录了个人的组别,一共分为两组,一组和二组,分别用1.2来表示),disease(记录了个人的患病情况,0表示未患病,1表示患病),count(计数,记录了每一类个体的频数)。题目要求我们计算两组个体患病率有无差别。其实就是要看一看变量个体组别是否会影响他们的患病率,二者之间是否有关系。Analyze-DescriptiveStatistics-Crosstabs列联表中有行变量和列变量。我们一般将自变量作为列变量,将因变量作为行变量。计算两组个体患病率有无差别。Rows—行变量(disease)Columns—列变量(group)Layer1of1—用于定义层控制变量(即第三、四、五个参与列联表分析的变量。涉及多变量分析的详析模式)Displayclusteredbarcharts—是否显示各个变量不同交叉取值下的条形图Suppresstables—是否显示列联表Statistics—选择输出各类相关系数,并进行统计检验Chi-square——x2检验(适用于两个定类变量)Correlations——相关系数(可以计算Pearson相关系数和Spearman相关系数,并对它们进行假设检验。前者适用于两个定距变量,后者适用于两个定序变量)Norminal—定类变量(Contingency—列联系数,又称为C系数;PhiandCramer’sV—V系数;Lambda;Uncertaintycoefficient—不确定系数)Ordinal—定序变量NominalbyInterval—定类变量-定距变量(相关比率,即eta平方系数)Cochran’sandMantel-Haenszelstatistics—一种假设检验的方法Kappa—内部一致性系数McNemanr—一种非参数检验的方法Risk—相对危险度,也是一种假设检验方法。Cells——输出结果类型Counts—设置输出频次(Observed—实际观测数,反映的是样本中的实际分布情况;Expected—期望频次,即如果在总体中两个变量没有关系的话,列联表中每个单元格对应的次数,它是以两变量无关为前提的,该数值是一个理论上的数值)Percentages—设置输出频率(Row—行百分比;Column—列百分比;Total—合计百分比)由于,我们借助列联表是要了解自变量对依变量的影响,所以应该计算在不同的自变量情况下,依变量的变化如何,所以,一般情况下,我们按照自变量的方向计算百分率。刚才我们说了常常把自变量作为列变量,所以一般计算列百分比。如果大家在设置行变量和列变量时,将自变量设置为了行变量,则需要计算行百分比了。当然,如果两个变量间的关系是对称的,没有自变量、依变量之分,我们也可以同时依据两个方向计算百分率。Residuals—选择输出残差。(用于反映实际观测值与理论值之间关系的一组数值。Unstandardized,表示非标准化残差,即实际数与理论数的差值。第二个Standardized,表示标准化残差,即实际数与理论数的差值除以理论数。第三个Adjustedstandardized,表示调节标准化残差,它是对标准化残差的进一步修正。)NonintegerWeights—在计算频数之前或之后,进行舍位取值还是四舍五入取整。Format—行变量是升序还是降序排列。Exact——精确度检验输出结果:1、Crosstabulation——列联表区分清楚行百分比(以行所对应的边缘次数为分母)、列百分比(以列所对应的边缘次数为分母)和合计百分比(以总次数为百分比)。ExpectedCount——期望频次。期望频次等于它所对应的两个边缘次数的乘积除以总次数。2、Chi-SquareTests——卡方检验(适用于两个定类变量相关关系的假设检验)Value-统计值df-自由度Asymp.sig(2-sided)-双边检验近似显著度ExactSig(2-sided)-双边检验精确显著度ExactSig(1-sided)-单边检验精确显著度PearsonChi-Square-皮尔逊卡方值H0:变量“组别”与变量“患病”之间是无关的H1:变量“组别”与变量“患病”之间是有关的X2=6.591,自由度为1,显著度α为0.10,大于0.05,未达到显著度要求,所以应该接受H0,拒绝H1。需要说明的一点是,只有当显著度的取值小于0.05时,才能够拒绝H0,接受H1。3、DirectionalMeasures——定向测量,记录了部分相关系数(区分自变量与因变量)NominalbyNominal—两个定类变量的相关系数Lambda(Symmetric-分析对称关系的λ系数。后两个是用于分析非对称关系的λ系数。患病Dependent-以患病为自变量组别Dependent-以组别为自变量。Value统计值;AsympStdError近似标准误差;ApproxT近似T值;Approx.sig-近似显著度)GoodmanandKruskaltau——古德曼、古鲁斯卡的τ系数二、多选题的统计描述多选题录入的两种方法:多重二分法(根据选项定义变量。每一个选项对应一个变量。所有变量均有两个取值。1.选中,2.未选)和多重分类法(根据限定的答案数量设置变量。每个变量的取值是由题目的选项决定的)1、多选题集的设置Tables-MultipleReponseSets或MultipleReponse-DefineSets(这两个过程均可用于设定多选题变量集,所不同的是,MultipleReponse中的DefineSets过程定义多选题变量集的信息不能在SPSS数据文件中保存,关闭数据文件后相应信息就会丢失,如果再次使用,必须重新加以定义;而Tables-MultipleReponseSets可以保存定义的信息)实例分析:打开数据文件多选题分析.sav,其中有7个变量,第一个变量是有关性别的变量,后六个变量实际上对应的是同一道多选题。即:请问促使你购买保健品的主要原因是(可多选):1.广告宣传;2.自己需要;3.家人需要;4.看望亲友;5.朋友推荐;6.其它。操作步骤:MultipleReponse-DefineSetsSetDefinition-列出了数据文件中所有的变量VariablesinSet-用于选择需要加入同一个多选题变量集的所有变量(对于多重二分法录入的多选题,必须保证所有变量都是二分变量,并按照相同的方式来编码。对于多重分类法录入的多选题,必须保证所有变量共用一套变量值和值标签)。VariablesAreCodedAs——用于选择变量的编码方式。Dichotomies-多重二分法Countedvalue-用哪个数值表示选中Categories-多重分类法Rangethrough-用于设定变量值取值范围Name-定义多选题变量集的名称Label-为相应的多选题变量集定义一个变量名标签。全部设置完成后,就可以添加到MultResponseSets下方的列表框中2、多选题的描述指标体系由于在对多选题进行录入时,我们是将一道题拆分为几个变量来进行的,因此,如果要对多选题进行分析,我们可以分别对每一个变量进行统计描述,但这样做是不全面的,因为这些变量实际上回答的是同一个问题,将问题割裂开来可能会导致不正确的分析结果,而且无法计算一些汇总指标。在分析多选题时,比较特别的描述指标有以下4个(1)应答人数:选择了本选项的人数。比如在200人中有178人选择了种花养草。(2)应答人数百分比:选择该选项的人占总人数的比例。比如200人中有178人选择了种花养草,则种花养草的应答人数百分比为178/200,即89%。应答人数百分比可以反映该选项在人群中的受欢迎程度。(3)应答人次:选择本选项的人次。一般情况下,应答人次和应答人数是相同的,但是在有的时候是不同的。例如,您最近买的几管牙膏的品牌分别是什么?这种问题就可能同一个人回答同一个答案多次,因为同一个品牌他买了两管。因此,此类多选题就会有可能出现选择某答案的人数不等于选择某答案的次数的情况,因而Count与Response就有可能不等。Count-人数,Response-人次(4)应答次数百分比:在做出的所有选择中,选择该项的次数占总次数的比例。比如200名个案对4种高血压控制方式分别选择了178、120、134、160次,则总的应答次数为178+120+134+160=592人次,而调理饮食的应答次数百分比为178/592,即30.07%。应答次数百分比可以用于不同选项受欢迎程度的比较。和录入时一样,SPSS中的Tables和MultipleReponse菜单都可以对多选题变量集进行统计描述,但前者生成的是标准的结果表格,可以进行各种复杂编辑,而后者生成的是纯文本表格,功能上也要简单一些。3、分析实例(1)多选题的频数分析Analyze-MultipleResponse-Frequencies操作步骤:Analyze-MultipleResponse-Frequencies选择需要进行分析的多选题集MissingValues-缺省值处理方式。两个复选框分别对应了两种编码,不能同时使用。Excludecaseslistwisewithindichotomies-在多重二分法中排除缺省值。Excludecaseslistwisewithincategories-在多重分类法中排除缺省值。输出结果:Responses-人次N-应答人次Percent-应答次数百分比PercentofCases-应答人数百分比(较常使用的百分数,不过各个百分数的和大于100%)(2)多选题的列联表分析——将多选题变量集和其他分类变量进行交叉描述。操作步骤:Analyze-MultipleResponse-Crosstabs1DefineRanges-为分类变量设置取值范围Options-选择输出CellPercentages-用于设置输出行百分比、列百分比还是总和百分比。Matchvariablesacrossresponsesets-根据多选题集匹配变量PercentagesBasedon-用于设置计算百分比的基数,是应答人数(cases),还是应答人次(responses)

第五章均值比较教学目的和要求:通过本章的学习使学生熟练掌握如何利用Means过程对数据进行描述统计分析,明确假设检验的相关理论,知道如何在SPSS中进行单样本总体均值t检验。教学重点和难点:重点是Means过程的使用,难点是单样本总体均值t检验。教学方法:讲授与上机操作相结合教学内容:第一节描述统计(Means)Analyze-CompareMeans-Means(功能类似于之前介绍的Descriptives过程,可以用于对数据进行描述性统计分析。不过,与Descriptives过程相比,Means过程可以分组计算描述统计指标,直接输出不同组别的比较结果,从而便于对不同组别进行相互比较。)例题:利用Means过程计算该班不同性别学生上次考试的平均成绩,同时比较该班不同性别学生上次考试成绩的差异。DependentList-选择分析变量IndependentList-选择分组变量Layer1of1-分组的多个层次,可以同时根据多个变量进行分组Options-用于选择描述性统计指标Statistics——列出了可选的描述性统计指标GroupedMedian-频数表资料中位值,即根据频次分布表计算得出的中位值HarmonicMean-修正均值GeometricMean-几何均值PercentofTotalSum-总和百分比PercentofTotalN-样本数百分比CellStatistics-列出了需要计算的描述性统计指标StatisticsforFirstLayer-是否对第一层次的分组进行方差分析(Anovatableandeta)和线性检验(Testforlinearity)第二节单样本总体均值t检验一、假设检验的基本知识所谓假设检验,就是先成立一个有关总体情况的假设,继而抽取一个随机样本,以样本的统计值来验证该假设是否成立。假设一般包括两部分:虚无假设H0(又称原假设或解消假设。它常常是根据已有的资料,或根据周密考虑后确定的)和研究假设H1(又称为备择假设。刚才,我们提到,虚无假设在研究中往往是稳定的、保守的,难以被推翻的。但另一方面也并不表示它永远不会被否定,否则也就失去研究的意义了。当经过抽样调查,有充分根据否定虚无假设H0时,就产生了需要接受的研究假设,它是虚无假设的逻辑对立面)。无论是虚无假设还是研究假设都是针对总体情况作出的。假设检验的基本原理:小概率原理(一是可以认为小概率事件在一次观察中是不可能出现的。二是如果在一次观察中出现了小概率事件,那么,合理的想法,是否定原有事件是小概率事件的说法。)经过抽样获得一组数据,即一个来自总体的随机样本,如果根据样本计算的某个统计量(或几个统计量,如均值、百分数等)表明在虚无假设H0成立的条件下几乎是不可能发生的,就拒绝或否定这个虚无假设,并继而接受它的对立面——研究假设。反之,如果在虚无假设H0成立的条件下,根据样本所计算的某个统计量,发生的可能性不是很小的话,那么就接受虚无假设。二、单样本总体均值t检验(Z检验实际是t检验的一个特例。)假设检验的步骤:第一步,建立假设。一般来说,一个完整的假设应该包括两部分:虚无假设H0和研究假设H1。虚无假设H0是统一的,μ=μ0。研究假设H1则根据研究的实际需要,有三种不同的写法,双边检验:μ≠μ0;右侧单边检验μ〉μ0;左侧单边检验μ<μ0。第二步,选择显著度α。一般设置为α=0.05。当根据实际抽样结果计算得出的统计量出现的概率大于0.05时,则接受虚无假设H0,称“没有显著差异”。若小于0.05,则拒绝虚无假设H0,称“差异显著”。至于差异是否显著应该如何理解,这个我们下面会给大家介绍。一般情况下,此时应该进一步与0.01比较,若算出的概率也小于0.01,则称“差异极其显著”,这个时候否定虚无假设H0就有了更大的把握。这个过程是针对SPSS来说的。我们在统计学中所介绍的是,将计算得出的样本统计量与否定域的临界值进行比较,从而决定是否接受虚无假设H0。但是在SPSS中进行操作时,它不会列出否定域的临界值,只会给出统计量所对应的显著度。在学习统计学时,我们曾经说过,显著度实际反映的是小概率的标准。若计算得出的统计量达到了预先设置的显著度,实际反映其出现的概率是很小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论