SPSS统计分析数据转换与整理课件_第1页
SPSS统计分析数据转换与整理课件_第2页
SPSS统计分析数据转换与整理课件_第3页
SPSS统计分析数据转换与整理课件_第4页
SPSS统计分析数据转换与整理课件_第5页
已阅读5页,还剩261页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS统计分析数据转换与整理本章主要内容第一节 数据的排序第二节 变量计算第三节 数据选取第四节 计数第五节 分类汇总第六节 数据分组第七节 数据处理的其他功能第八节 统计图7/18/20222 SPSS数据排序的基本操作步骤 (1)选择菜单DataSort Cases (2)将主排序变量从左边的列表中选到Sort by框中,并在Sort Order框中选择按该变量的升序还是降序排序。 (3)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。2.数据排序的基本操作7/18/20225在左边的源变量框中选择排序变量进入Sort by框。如果选择2个以上的变量,观测量的排序结果与排

2、序变量在Sort by框中的顺序有关。列于首位的为第一排序变量。在Sort Order 栏内选择排序方式升序与降序7/18/20226 1、数据排序是整行数据排序,而不是只对某列变量排序; 2、多重排序中指定排序变量的次序很关键。先指定的变量优先于后指定的变量。多重排序可以在按某个变量值升序(或降序)排序的同时再按其他变量值降序(或升序)排序; 3、数据排序后,原有数据的排序次序必然被打乱。说明7/18/20227031 数据排序应用举例利用居民存款调查数据,通过数据排序功能分别找到城镇户口和农村户口储户一次存款金额的最大值和最小值。7/18/20228第二节 变量计算数据的转换处理是在原有数

3、据的基础上,计算产生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业保险、奖金等数据,计算实际月收入,这些新变量具有更直观更有效的特点。7/18/202291. 变量计算的目的SPSS变量计算是在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。 (1)变量计算是针对所有个案或指定的部分个案的,每个个案都有自己的计算结果。 (2)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类型相一致。 在变量计算过程中涉及到几个概念:SPSS算术表达式、SPSS条件表达式和SPSS函数。7/18/202210指

4、出按照什么方法计算变量;SPSS算术表达式(Numeric Expression)是由常量、变量、算术运算符、圆括号、函数等组成的式子。字符型常量应当用引号括起来变量是指那些已存在于数据编辑窗口中的原有变量算术运算符主要包括、*、/、*(乘方)在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算 2.SPSS算术表达式7/18/202211在变量计算中通常要求对不同的个案分别按照不同的方法进行计算,于是就需要通过一定的方式来指定个案;SPSS条件表达式是一个对条件进行判断的式子。其结果有两种取值:如果判断条件成立,则结果为真;如果判断条件不成立,则结果为假。条件表达式包括简单条件表达

5、式和复合条件表达式。3.SPSS条件表达式7/18/202212(1)简单条件表达式 由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括、。(nl35)(2)复合条件表达式 又称逻辑表达式,是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。其中,逻辑运算符号包括&或AND(并且)、|或OR(或者)、或NOT(非)。NOT的运算优先级最高,其次是AND,最低是OR。可以通过圆括号改变运算的优先级。(nl=35)and not (zc3)7/18/202213SPSS函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为函

6、数名。执行这些程序段得到的计算结果称为函数值。 函数书写的具体形式为:函数名(参数)4.SPSS函数7/18/202214 其中,函数名是SPSS已经规定好的,参数可以是常量(字符型常量应用引号括起来),也可以是变量或算术表达式。参数可能是一个,也可能是多个,各参数之间用逗号分隔。 SPSS函数大致可以分成八大类:算术函数、统计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其他函数。7/18/202215(1)选择菜单TransformCompute,弹出Compute Variable对话框如下:5.变量计算的基本操作7/18/202216(2)在Target框中输入存放计算结

7、果的变量名。该变量可以是一个新变量,也可以是已经存在的变量。如果指定存放计算结果的变量为新变量,SPSS会自动创建它;如果指定产生的变量已经存在,SPSS会提问是否以计算结果覆盖原有值。新的变量默认为数值型,用户可以根据需要单击Type&Label按钮修改,还可以对新变量加变量名标签。(3)在Numeric Expression框给出SPSS算术表达式。可以手工输入,也可以按窗口的按钮以及函数下拉菜单输入。7/18/202217(4)如果希望对符合一定条件的个案进行变量计算,则单击If按钮,出现下面的窗口,选择Include if case satisfies condition选项,然后输入

8、条件表达式。对不满足条件的个案,将不进行变量值计算,对新变量取值为系统缺失值。7/18/202218 利用职工基本情况数据,依据职称级别计算实发工资,再按职称1至4将实发工资分别上调50,30,20,10。03-2 变量计算的应用举例7/18/202219第三节 数据选取数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为抽样。 SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。7/18/202220(1)选取全部数据(All cases)(

9、2)按指定条件选取( If condition is satisfied ) SPSS要求用户以条件表达式给出数据选取的条件,SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断为真的个案将被自动选取出来,而那些条件判断为假的个案则不被选中。1. 数据选取的基本方式7/18/202221(3)随机抽样( Random sample of cases ),即对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方式: 第一,近似抽样(Approximately) 近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个

10、案。 注:由于SPSS在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差,因而称为近似抽样。7/18/202222 第二,精确抽样(Exactly) 精确抽样要求用户给出两个参数。第一个参数是希望选取的个案数,第二个参数是指定在前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。7/18/202223(4)选取某一区域内的样本( Based on time or case range ),即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案号码。这种抽样方法适用于时间序列数据。(5

11、)通过过滤变量选取样本( Use filter variable ),即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失值的个案。7/18/202224说明: (1)完成数据选取后, SPSS以后的分析操作仅针对那些被选中的个案,直到用户再次改变数据的选取为止。 (2)采用指定条件选取和随机抽样方法进行数据选取后,SPSS将在数据编辑窗口中自动生成一个名为filter_$的新变量,取值为1或0。1表示本个案被选中,0表示未被选中。该变量是SPSS产生的中间变量,如果删除它则自动取消样本抽样。7/18/202

12、225(1)选择菜单DataSelect cases(2)根据分析需要选择数据选取方法(3)Unselected cases are指定对未选中个案的处理方式Filtered表示在未被选中的个案号码上打一个“/”标记;Deleted表示将未被选中的个案从数据编辑窗口中删除。 2. 数据选取的基本操作7/18/202226Select Cases对话框7/18/202227 利用021居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样:(1)如果只希望分析城镇储户的情况,可以通过数据选择功能采用指定条件的抽样方法进行抽样;(2)如果只希望对其中的70的数据进行分析,可通过数据选择功能

13、采用随机抽样中的近似抽样方法进行抽样。数据选取的应用举例7/18/202228第四节 计数1. 计数目的 SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若干变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量中的过程。例如对大学毕业班学生的成绩进行综合测评时,可以依次计算每个学生的若干门课程中有几门课程得了优,有几门课程得了良,有几门课程不及格。 SPSS实现计数的关键步骤是:指定哪些变量参与计数,计数的结果存入哪个新变量中指定计数区间(尤为关键) 7/18/202229 SPSS中的计数区间可以有以下几种描述形式:单个变量值(Value)系统缺失值(System-mi

14、ssing)系统缺失值或用户缺失值( System or user-missing)给定最大值和最小值的区间(n through m)小于等于某指定值的区间(Lowest through n)大于等于某指定值的区间(n through highest)2. 计数区间7/18/202230 上述后三个计数区间很容易理解。例如评价学生成绩,成绩为优的计数区间可以指定为90 through highest,成绩为良的计数区间指定为80 through 89,不及格的计数区间指定为Lowest through 59。 前三个计数区间实际上是一些离散的数据点,严格讲并不是区间,但SPSS仍将其归在广义区

15、间的范畴内,目的是方便一些其他的应用。7/18/202231(1)选择菜单TransformCount,出现如下窗口:3. 计数的基本操作7/18/202232(2)将参与计数的变量选到Variables框中(3)在Target Variable框中输入存放计数结果的变量名,并在Target Label框中输入相应的变量名标签(4)单击Define Values按钮定义计数区间,出现如下图窗口:7/18/202233 通过单击Add、Change、Remove按钮完成计数区间的增加、修改和删除。7/18/202234(5)如果仅希望对满足某条件的个案进行计数,则单击If按钮并输入相应的SPSS

16、条件表达式。否则,本步可略去。7/18/202235利用02-1居民储蓄调查数据分析储户收入的总体状况。我们认为如果储户收入今年比去年增加了,且认为今后收入仍会增加,则认为收入状况较好。试分析有多少个储户的收入状况较好。计数的应用举例7/18/202236第五节 分类汇总1. 分类汇总的目的 分类汇总是按照某分类变量进行分类汇总计算。 例如:某企业希望了解本企业不同学历职工的基本工资上是否存在较大差距。最简单的做法就是分类汇总,即将职工按学历进行分类,分别计算不同学历职工的平均工资,然后可对平均工资进行比较。7/18/202237 再例如,某商厦希望分析假日周内不同职业和不同年龄段的顾客对某商

17、品的“打折促销”反应是否存在较大差异,用以分析不同消费群体的消费心理。最初步的分析可以是分别计算不同职业中不同年龄段顾客的平均消费金额和平均消费金额差异程度(标准差),并对它们进行比较。这个过程也可以通过分类汇总过程完成。7/18/202238 SPSS实现分类汇总涉及两个主要方面:按照哪个变量(如上例中的学历、职业和年龄段)进行分类对哪个变量(如上例中的基本工资、消费金额)进行汇总,并指定对汇总变量计算哪些统计量(如上例中的平均工资、平均消费金额和标准差)7/18/202239(1)选择菜单DataAggregate,出现如下所示的窗口:2. 分类汇总的基本操作7/18/202240(2)将

18、分类变量选到Break Variable(s)框中(3)将汇总变量选到Summaries of Variable(s)框中(4)单击Function按钮,指定对汇总变量计算哪些统计量。SPSS默认计算均值。7/18/202241(5)指定将分类汇总结果保存到何处。有三种选择: 第一,Add Aggregated Variables to working data file,表示将结果存放到当前数据编辑窗口中。 第二,Create new data file,表示将结果存放到一个新建立的SPSS数据文件中,可以单击File按钮,重新指定文件名; 第三,Replace working data f

19、ile,表示用分类汇总结果覆盖数据编辑窗口中的数据。 一般选择第二种方式,结果比较清晰。7/18/202242(6)单击Name&Label按钮,重新指定结果文件中的变量名或添加变量名标签。SPSS默认的变量名为原变量名后加_统计量名称(如a_mean)。(7)如果希望在结果文件中保存各分类组的个案数,则选择Number of case选项。于是,SPSS会在结果文件中自动生成一个默认名为N_Break的变量,可以修改该变量名。7/18/202243说明:分类汇总中的分类变量可以是多个,此时的分类汇总称为多重分类汇总。如上述不同职业和不同年龄段顾客消费的例子即是多重分类汇总的应用。类似于数据的

20、排序,在多重分类汇总中,指定多个分类变量的前后次序是很关键的。第一个指定的分类变量为主分类变量(如职业),其他的依次为第二(如年龄段)、第三分类变量等,它们决定了分类汇总的先后次序。7/18/202244 例:利用02-1居民储蓄调查数据,分析城镇储户和农村储户的一次平均存(取)款金额是否有显著的差异。可进行的最初步的分析是按照户口类型对存(取)款金额进行分类汇总。其中分类变量是户口,汇总变量是存(取)款金额,且计算其均值。分类汇总的应用举例7/18/202245第六节 数据分组1. 数据分组的方法 数据分组就是根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。在数据分组的基础上进行

21、的频数分析更能够概括和体现数据的分布特征。 为适用于不同的统计分析需要,SPSS提供了以下几种数据分组方法: 单项式分组(单变量值分组) 组距分组7/18/202246 居民家庭按人口数单项式分组 按家庭人口数分组(人)居民户数(户)12345人及以上合计 离散型变量如果变量值的变动范围不大,可以将一个变量值作为一组,称单项式分组或单变量值分组。如右表:单项式分组7/18/202247 在连续型变量或离散型变量值较多的情况下,可采用组距式分组形式。 组距式分组就是把全部变量值划分为几个区间,每一区间的变量值作为一组。如右表:按日产零件数分组(个)工人数(人)506060707080809090

22、以上合计组距式分组7/18/202248a.组距:区间的距离即为组距。b.组数:组数的多少以分组后能恰当反映总体内部的分布特征和规律为好。c.确定组距的方法:(最大值-最小值)组数。 d.根据组距各组的组距是否相等,又可以分为等距分组和不等距分组两种方式。 e.组限:组距两端的数值称为组限,每组的最大值称为上限,用U(Upper limit)表示,每组的最小值称为下限,用L(Lower limit)表示。 统计数据时,注意“上组限不在内”法则。另外,极端组可采用开放式组距。f.组中值:每组上、下限之间的中点数值。即:组中值=(上限十下限)2。在组距式分组中涉及到了几个关键点:7/18/2022

23、49SPSS单项式分组的基本操作步骤:(1)选择菜单TransformAutomatic Recode(2)将分组变量选择到VariableNew Name框中(3)在New Name框后输入存放分组结果的变量名,并单击Add New Name按钮(4)在Recode Starting from框中选择单变量值分组按升序还是按降序进行。Lowest value表示升序;Highest value表示降序。2. SPSS的单项式分组7/18/2022507/18/202251单项式分组应用举例: 1、利用03-2职工数据按职工的基本工资升序进行分组。 2、按职工的职称升序进行分组。7/18/20

24、2252 组数和组距确定后,便可实施分组操作了,在分组操作时应:指定分组变量定义分组区间(注意遵循“不重不漏”原则)指定存放结果的变量 SPSS对分组结果有两种存放策略,一种是用分组变量值覆盖原变量(Into Same Variables),另一种是将分组结果存到一个新变量中(Into Different Variables)。相应的操作也略有差异。通常采用第二种策略。3. SPSS的组距式分组7/18/2022531、 Into Same Variables分组操作(1)选择菜单TransformRecode Into Same Variables。(2)在出现的窗口中将分组变量选择到Var

25、iables框中。(3)单击Old and New Values按钮进行分组区间定义。(4)在分组区间定义窗口中指定分组区间的下限和上限,并在New Value框中给出该区间对应的分组值。单击Add按钮确认分组区间并加到OldNew框中。单击Change和Remove按钮来修改和删除分组区间。(5)如果仅对符合一定条件的个案分组,则单击If按钮并输入SPSS条件表达式。否则,本步可略去。7/18/2022542、 Into Different Variables分组操作(1)选择菜单TransformRecode Into Different Variables。(2)在出现的窗口中将分组变量

26、选择到Input Variable Output Variable框中。(3)在Output Variable后输入存放分组结果的变量名,并单击Change按钮确认。可以在Label后输入相应的变量名标签。(4)单击Old and New Values按钮进行分组区间定义(方法与前面相似)。(5)如果仅对符合一定条件的个案分组,则单击If按钮并输入SPSS条件表达式。否则,本步可略去。7/18/2022557/18/2022567/18/202257 利用03-2职工数据按职工基本工资分别采用Into Same Variables和Into Different Variables两种方式进行如

27、下分组:按工资分组(元)频数(人)频率()850以下531.3850900531.390095016.39501000212.51000以上318.6组距式分组的应用举例7/18/202258第七节 数据处理的其他功能1. 数据转置 SPSS的数据转置就是将数据编辑窗口中数据的行列互换。基本操作步骤如下: (1)选择菜单DataTranspose。 (2)指定数据转置后应保留哪些变量,将它们选入Variables框中,未被选中的变量将在新文件中缺失。 (3)指定转置后数据文件中各变量如何取名。7/18/202259 应选择一个取值唯一的变量(如职工号)作为标记变量并放到Name Variabl

28、e框中。转置后数据各变量取名为K_标记变量值(如K_001、K_002、K_003等)。如果略去本步,则转置后数据各变量名默认为VAR001,VAR002,VAR003等。 同时,SPSS还会自动产生一个名为CASE_LBL的新变量,用来存放原数据文件中的各变量名。7/18/202260例:对03-2职工数据进行转置操作。7/18/2022612. 加权处理 统计分析中的加权处理是极为常见的,如计算加权平均数等。 例如,希望掌握菜市场某天蔬菜销售的平均价格。如果仅用各种蔬菜销售单价的平均数作为平均价格就很不合理,还应考虑到销售量对平均价格的影响。因此,以蔬菜的销售量为权数计算各种蔬菜销售单价的

29、加权平均数,就能够较准确地反映平均价格水平。7/18/202262 (1)选择菜单DataWeight Cases。 (2)选择Weight Cases by选项,并将某变量作为加权变量选到Weight Cases by框中。 注意的是一旦指定了加权变量,那么以后的分析处理中加权是一直有效的,直到取消加权为止。取消加权应选择Do not weight cases选项。 SPSS中指定加权变量的操作步骤是:7/18/202263例:根据03-3蔬菜数据对各蔬菜价格进行加权计算。7/18/202264 SPSS的数据拆分与数据排序很相似,但有一个重要的不同点,即数据拆分不仅是按指定变量进行简单排序

30、,更重要的是根据变量对数据进行分组,为以后的分组统计分析提供便利。3. 数据拆分7/18/202265SPSS数据拆分的基本操作步骤:1)选择菜单DataSplit File,出现窗口7/18/2022662)将拆分变量选到Groups Based on框中3)拆分会使后面的分组统计产生两种不同格式的结果。其中,Compare groups表示将分组统计结果输出在同一表格中,以便于不同组之间的比较;Organize output by groups表示将分组统计结果分别输出在不同的表格中。通常选择第一种输出方式。4)如果数据编辑窗口中的数据已经事先按所指定的拆分变量进行了排序,则可以选择Fil

31、e is already sorted项,可以提高拆分执行的速度;否则,选择Sort the file by grouping variables项。 7/18/202267说明:1)数据拆分将对后面的分析一直起作用,即无论进行哪种统计分析,都将按拆分变量的不同组别分别分析计算。如果希望对所有数据进行整体分析,则需要重新执行数据拆分,在数据拆分窗口中选择Analyze all cases项。2)对数据可以进行多重拆分,类似于数据的多重排序。多重拆分的次序决定于选择拆分变量的前后次序。7/18/202268数据拆分应用举例: 利用03-2职工数据选择职称和(或)性别变量进行数据拆分并计算各组的基

32、本工资。7/18/202269 大量的缺失值会给数据分析带来极大的影响,这就需要采用科学的方法对缺失值进行插补。操作步骤如下: (1)选择菜单Transformreplace missing values (2)将需要插补的变量单击按钮送到New Variables框中,该变量自动会生成一个新的变量,变量名为原变量名_1 (3)在Method中选择插补方法。 4. SPSS缺失值处理7/18/202270 Series mean :该变量所有非缺失值的均值 Mean of nearby points:该变量相邻非缺失值的均值 Median of nearby points:该变量相邻非缺失值的

33、中位数 Linear interpolation:线性内插法(用缺失值前后两点的中点值做替代,如果前后值有一个是缺失值,则得不到替换值 ) Linear trend at point:用线性拟合方式确定替代值,自变量为1-n的数值。 7/18/202271 数据排秩是根据某变量观测值的大小,按一定的顺序排秩,生成一个代表其秩次的新变量,但原始观测值本身顺序不发生改变。操作步骤如下: (1)选择菜单Transformrank cases (2)将需要排秩的变量单击按钮送到 Variables框中,该变量自动会生成一个新的变量,变量名为R+原变量名;可选择分类变量到By框中,如果选择,系统将按照此

34、变量的不同组别分别进行排秩。 (3)选择Assign Rank 1 to下面的复选框选择排秩的顺序。 (4)在Rank Types 对话框中选择排秩方式;在Ties对话框中选择相同观测值排秩方式。5. 数据排秩7/18/202272求变量的秩7/18/202273SPSS变量集是存放许多SPSS变量名的集合。SPSS变量集包括: 系统变量集和用户变量集两大类。系统变量集 SPSS事先定义好的变量集,它包括两个集合:ALLVARIABLES和NEWVARIABLES。其中ALLVARIABLES变量集中存放数据编辑窗口中的所有变量名, NEWVARIABLES变量集中存放数据编辑窗口中所有尚未存

35、盘的新定义的变量名。这两个系统变量集有时包含的变量名是完全相同的。6. SPSS变量集7/18/202274用户变量集 是用户根据实际需要自己定义的变量集,可以有若干个。如果用户仅希望对SPSS众多变量中的某几个变量进行相同的处理及分析,则可以先将这几个变量定义到一个用户变量集中,然后再指定使用这个变量集。于是,在数据处理或分析时,SPSS仅显示指定变量集中的变量名,进而大大减少了显示变量的个数,加快了变量选择的操作速度。7/18/202275(1)定义用户变量集 SPSS定义用户变量集的操作步骤如下: 1)选择菜单UtilitiesDefine Variable Sets 2)在Set Na

36、me框中输入用户变量集的名称。 3)选择若干变量单击小箭头按钮将它们送到Variables in Set框中,表示用户变量集将包含这些变量。 4)单击Add Set按钮将定义的用户变量集加到SPSS变量集中。Change Set按钮可对已定义的用户变量集做修改。Remove Set按钮可从SPSS变量集中删去某个用户变量集。7/18/202276(2)变量集的使用 SPSS有许多变量集,用户应告知将使用哪个变量集。系统默认使用的变量集是系统变量集。使用SPSS变量集的基本操作步骤如下: 1)选择菜单UtilitiesUse Variable Sets 2)单击小箭头按钮将需使用的变量集选到Se

37、t in Use框中。还可将不需使用的变量集从Set in Use框中剔出。需要说明的是,在SPSS运行过程中应至少有一个变量集正在被使用,因此在Set in Use框中应至少有一个变量集。7/18/202277 我们往往很难从一大堆离散数据中体会到它们的含义,而用数据画出图形却能使我们用视觉器官直接感受到数据的许多内在本质。SPSS可以绘制一般的科技绘图软件所能绘制的几乎所有图形。 在SPSS中,各种统计图既可由相应的统计过程产生,也可直接用“Graphs”菜单项绘制。第八节 统计图7/18/2022781. 条形图 条形图的绘制步骤1)单击Graphs Bar菜单,打开条形图窗口。对话框的

38、上半部分用于选择条形图类型,下半部分用于定义条形图中数据的类型。 7/18/202279 Simple:简单条形图,用于表现单个指标的大小; Clustered:分组条形图,用于表现两个或多个指标,比如同时比较男、女生身高和体重; Stacked:分段条形图,用于表现每个指标各取值的构成情况。 在以上三种样式中,用鼠标单击相应的图标,则选中了相应的样式。 “Data in Chart Are”框用于选择条形图中数据的类型:Summaries for groups of cases按同一变量取值不同做分组汇总,条形图中每一直条代表变量的一个分类;Summaries of separate var

39、iables按不同变量汇总,条形图中每一直条代表一个变量,至少需要两个或两个以上变量生成相应的条形图;Values of individual cases 反映个体观测值,条形图中每一直条代表一个观测值。7/18/2022802)通过选择三个图标和条形图中数据的类型,可以生成9种条形图,选中Simple和Summaries for groups of cases项时,单击“Define”按钮,将打开如下页所示窗口,该窗口用于定义图形参数。7/18/2022817/18/202282该窗口的设置可以分为以下几步: 第1步,“Bars Represent”框用于选择条形图中的条代表的统计量:N o

40、f cases:按照分类变量分类后各类的观测量数(频数) of cases:按照分类变量分类后各类的观测量数占总观测量数的比例(频率)Cum. N of cases:累计频数Cum. of cases:累计百分比7/18/202283Other summary function:当要绘制的统计量不在前面四项中时,选择该项。从左边的源变量框中选择分析变量进入该页下边的“Variable”框中,单击“Change Statistics”按钮,打开如下窗口,该窗口用于选择统计量:7/18/202284 在“Change Statistics”框中共有17个选项,各项的意义分别为:Mean of va

41、lues:均值Median of values:中位数Mode of values:众数Number of cases:不含缺失值的观测量数Sum of values:变量值的和Standard deviation:标准差Variance:方差Minimum value:最小值Maximum value:最大值Cumulative sum:累积变量值的和7/18/202285Percentage above:观测量中大于设定值的百分比Percentage below:观测量中小于设定值的百分比Percentile:百分位数Number above:大于设定值的观测量数Number below:

42、小于设定值的观测量数Percentage inside:变量值在设置区间内的观测量的比例,High和Low框分别用于输入设置区间的上下限Number inside:变量值在设置区间内的观测量数 7/18/202286 第2步,“Category Axis”框用于选择分类变量。绘制条形图以前会按照分类变量的值把所有观测量分组,条形图中条形的长度代表各组统计量的值。 第3步,“Template”框用于选择特定的图形模板文件。该项为可选项,利用该项选定某图形模板文件后,绘制的条形图将按照模板文件的格式形成。7/18/202287 第4步,单击“Titles”按钮,打开如下窗口,该窗口用于输入图形的标

43、题和脚注。7/18/202288 第5步,单击“Option”按钮,出现如下窗口,该窗口用于定义与缺失值有关的选项。7/18/202289 1.missing value单选框组:定义对缺失值的处理方法,只有在要汇总的变量有两个或两个以上时才可用,提供了两种处理缺失值的方法:Exclude cases listwise:如果汇总变量中任何一个含有缺失值则排除整个纪录。Exclude cases variable by variable:对哪个变量计算统计量则排除该变量有缺失值得记录。 2.Display groups defined by missing values:是否把分组变量的缺失值作

44、为一个组显示出来,只有分组变量是分类变量时才可用。 3.Display chart with case labels:显示有观测值标签的图,只有主对话框中为变量指定了标签时才可用。7/18/2022903)当选择simple和Summaries of separate variables 时,单击Define按钮,打开如下窗口:7/18/202291 Bars Represent框用于选择要绘制的变量,默认状态是对各变量求均值,单击该对话框下面的change statistics按钮,可以改变其统计函数。 Bars Represent框中至少应选入两个以上的变量,所选的变量可以是不同变量,也可

45、以是同一变量的不同统计函数。 7/18/2022924)选中simple和Values of individual cases选项,单击Define按钮,出现如下窗口:7/18/202293 Bars Represent框用于选择要绘制的变量。 Category Labels框用于选择分类轴显示的内容。其中各项分别为: Case number:显示观测量序号来标注观测量; Variable:指定相应的变量标注观测量。7/18/202294分组条形图和分段条形图分组条形图是指两条或两条以上小直条组成条组的条形图,各条组之间有间隙,组内小条之间无间隙。分段条形图是以条形的全长代表某个变量的整体,各

46、分段的长短代表各组成部分在整体中所占比例的统计图,每一段之间没有间隙,并用不同线条或颜色表示。与简单条形图相比,这两种条图多了一个分组因素或分段因素,定义对话框中就相应多了一个变量选项框。7/18/2022952. 线图 线图是采用曲线的升降说明现象的变动情况。线图绘制的步骤 打开数据文件,选择菜单GraphsLine,出现绘制线图的窗口:Simple:单线图Multiple:多线图Drop-line:垂线图7/18/202296 用鼠标单击相应的图标,则选中了相应的样式。Data in Chart Are框用于选择统计量描述模式Summaries for groups of cases:线图

47、中每个数据点代表观测量的一个分类(观测量分类模式) Summaries of separate variables:线图中每个数据点代表一个变量(变量模式)Values of individual cases:线图中每个数据点代表一个观测值(观测值模式)7/18/202297 通过选择三个图标和统计量的描述模式,可以生成9种线图。 绘制线图的其他步骤和条形图类似,在此不再赘述。下面举例说明。7/18/2022983. 面积图 面积图用线段下面的阴影表示现象的变化。面积图绘制的步骤 面积图的绘制步骤和线图、条形图相似。单击GraphsArea项,出现窗口:7/18/202299 用鼠标单击相应的

48、图标,则选中了相应的样式。Simple:简单面积图Stacked:累积面积图Data in Chart Are框用于选择统计量描述模式:Summaries for groups of cases:每一个面积图代表观测量的一个分类Summaries of separate variables:每一个面积图代表一个变量Values of individual cases:每一个面积图代表一个观测值7/18/2022100 通过选择两个图标和三个统计量的描述模式,可以生成六种面积图。由于面积图和线图的操作步骤类似,在此也不再赘述,现举例说明。7/18/20221014.饼图 饼图采用扇面的大小表示数

49、值的大小。操作步骤 1)选择菜单GraphsPie项,将打开窗口:7/18/2022102 上面的窗口用于选择和当前数据文件相符的数据组织方式,其中,Summaries for groups of cases:观测量分类模式Summaries of separate variable:变量模式Values of individual cases:观测值模式 2)单击Define按钮,将打开设置对话框,Define Slices项用于选择分类变量 3)提交各项设置,饼图将绘制在输出窗口中。7/18/20221035. 箱图 箱图是一种描述数据分布情况的统计图。从箱图上可以看到数据的中位数、四分位

50、数以及极值等。 单击GraphsBoxplot项,出现窗口:Simple:简单箱图Cluster:分组箱图7/18/2022104 Data in Chart Are框用于选择数据组织方式:Summaries for groups of cases:观测量分类模式Summaries of separate variables:变量模式 通过选择两个图标和两种数据组织方式,共有四种情况。7/18/20221056. 散点图 散点图又称相关图。根据散点图中数据的分布走向和密集程度,可以大致判断变量之间的相关关系。 单击GraphsScatter项,打开窗口7/18/2022106Simple Sc

51、atter:简单散点图,只能在图上显示一对相关变量Matrix Scatter:矩阵散点图,在矩阵中显示多个相关变量Overlay Scatter:重叠散点图,在图上显示多对相关变量3-D Scatter:三维散点图,显示三个相关变量 下面分别介绍各种散点图。7/18/20221071)简单散点图 单击Define按钮,打开窗口7/18/2022108Y Axis:选择Y轴要绘制的变量X Axis:选择X轴要绘制的变量Set Markers by:选择分组变量,SPSS根据该变量的值将观测量分成几组,每组采用不同的符号标注Label Cases by:观测量标签变量 仍以学生成绩为例,分别选择

52、中文、英语和性别进入Y Axis、 X Axis、 Set Markers by框中。7/18/20221092)矩阵散点图 在矩阵散点图中,将图形分成多个方格,在每个方格中单独绘制某两个变量的数据。 在散点图窗口中选择矩阵散点图,单击Define,在出现的窗口中,依次选择英语、中文、铁饼和标枪进入Matrix框中,选择性别进入Set Markers框中。7/18/20221103)重叠散点图 在重叠散点图中,在一个坐标系中绘制多个不同的变量对。 在散点图窗口中选择重叠散点图,单击Define,在出现的窗口中,选择变量中文、英语对和铁饼、标枪对进入Y-X Pairs框中。7/18/202211

53、14)三维散点图 三维散点图在三维坐标系中绘制三个变量的数据。 在散点图窗口中选择三维散点图,单击Define,在出现的窗口中,分别选择中文、英语和标枪为Y轴变量、X轴变量、Z轴变量。7/18/20221127. 直方图 相比而言,在SPSS中直方图最简单。单击GraphsHistogram项,出现窗口7/18/2022113 Variable框用于选择要分析的变量。选中Display normal curve项可绘制正态曲线,以便比较。 仍以学生成绩为例,选择中文为分析变量,选中Display normal curve项。7/18/20221148. p-p图和Q-Q图 正态分布在许多统计分

54、析中起着重要的作用,这也是我们为什么常要检查数据服从正态分布的原因。 p-p图和Q-Q图可用于直观表示数据分布是否符合正态分布。(1)p-p概率图 p-p概率图是根据变量的累积概率对应于所指定的理论分布累计概率绘制的散点图,它可以直观的检测数据是否与某个概率分布的统计图形一致。如果被检验的数据符合所指定的分布,数据的点应当成对角线分布。 打开数据文件,选择菜单AnalyzeDescriptive Statistics P-P Plots,出现绘制p-p图的窗口: 将被检测的数值型变量选入variable框中,可以依次选入多个。其他采用默认选项即可。 如果数据呈正态分布,则图中数据点应和理论直线

55、重合。去势p-p图是按照正态分布计算的理论值和实际值之差的分布情况,即分布的残差图。如果数据分布为正态分布,则数据点应较均匀的分布在y=0这条直线上下。 7/18/2022115 (2) Q-Q概率图 Q-Q图和p-p图的原理基本一致,所不同的是它采用的是变量数据分布的分位数与所指定分布的分位数之间的曲线来进行检验。7/18/20221169. 交互式创建图表 SPSS提供了交互式作图的快捷方式,能够根据数据信息,绘制初步图形,用户可以根据自己的需要,再做精细修改。通过这种方式创建的图表包括:条形图、线形图、饼图、直方图、箱图、散点图等。 交互式作图在GraphsLegacy Dialogs

56、Interactive菜单中。7/18/2022117优点:交互式作图产生的图形比传统方式产生的图形容易修改,并且可以随时修改目标变量,而不再是传统方式只是图形本身的修改。缺点:只能作一些简单的图形,如条形图、线形图、饼图等,而对于其他一些比较复杂的图形,这种方式难以胜任。7/18/2022118(1)条形图的交互式创建条形图是利用宽度相同的条形的高度表示数值大小的统计图。基本步骤:1)单击Graphs InteractiveBar菜单,在出现的窗口中主要是定义坐标轴,以及图形的形状(二维或三维)。 2-D Coordinate选项定义图表的类型,即2-D Coordinate(平面二维图)、

57、3-D Effect(立体二维图)、3-D Coordinate(三维图)。7/18/2022119内置变量定距变量分类变量分配变量设置直条形状误差条选项标题和脚注改善图形输出效果7/18/2022120 “Legend”选项是指定图形的样式。Color子选项,定义方框中所选变量的颜色;Style子选项,定义方框中所选变量的风格类型; Color和Style选项都有分组(Cluster)和分段(Stack)模式可供选择;Panel子选项,定义统计图面板中统计图的分类变量。 。 “Bars Represent”选项是定义Y轴变量的哪种统计结果,如果Y轴用了定距变量则会出现下拉列表用于指明所代表的

58、指标类型。 “Display Key”选项指是否在结果中指明Y轴所代表的汇总指标名称。7/18/20221217/18/20221222)单击“Bar Chart Options”选项卡打开的窗口中,主要用于设置直条的形状等指标。 “Bar Shape”子选项是定义图形的形状; “Bar Labels”子选项是定义图形的标签; “Bar”子选项是图形的起始位置,按照设定的数值,大于它的直条向上,小于它的直条向下。通常采用“Automatic”模式。7/18/20221233)单击“Error Bars”选项卡,打开的窗口主要是定义误差图的基本属性。当Y轴是定距变量并且均值作为汇总变量时,可以在

59、条上添加误差线,在这里可以指定置信区间的大小、误差线的方向、形状和外观。 “Display Error Bar”是否显示误差图,默认为置信度为95%的置信区间。可以更改为标准差或标准误的倍数,下方的滑块和框用于指定区间范围或倍数; “Confidence Interval”置信区间; “Shape”选择误差条的形状,CAP指的是误差线上面的短线的长度占直条宽度的百分数; “Direction”选择误差条的方向,在正负两个方向、只在正向、只在负向和只在外侧四个选项中选择。7/18/20221247/18/20221254)单击“Titles”选项卡,打开的窗口主要是定义图形的标题、脚注等。 “C

60、hart Title”统计图的标题 “Chart Subtitle”统计图的描述,即副标题 “Caption”统计图的脚注5)单击“Options”选项卡,打开的窗口主要是定义SPSS进行绘图运算的一些参数,比如改变分类轴的排序、Y轴的范围、选择喜欢的图形模板、坐标轴的长短等。7/18/20221267/18/2022127 “Categorical Order”:定类变量的排序方式。“Variable”指定变量,“Order”指定排序标准,“Sort”指定排序的方向,“Exclude empty categories”指定是否排除没有数据的空类。 “Scale Range”:定距变量的范围。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论