版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、7/22/2020,SPSS-数据的预处理课件,1,SPSS统计分析方法及应用第三章,SPSS 数据的预处理,7/22/2020,SPSS-数据的预处理课件,2,1 数据的排序,数据文件建立完成之后,为了方便统计分析,需要对数据进行初步的处理,如对数据进行排序,将一列数据扩大一个倍数,多列数据的求和等等。,数据集中的数据是按照录入的先后排列的,并没有规律可言,不便于数据的分析。数据排序有什么好处呢? a) 经过排序的数据,有助于了解数据的取值状况、缺失值的数量等。 b) 经过数据的排序,方便的找出了变量的最大、最小值,计算出数据的全距,了解数据的离散程度。,1) 数据排序的目的,7/22/20
2、20,SPSS-数据的预处理课件,3,2) 数据排序的规则,c) 通过排序,可以快速发现异常值,以便及时对其进行处理。,a) 排序分为升序与降序,可以同时对数据集中的多个变量进行排序。 b) 排序的规则是:按第一个变量排序,第一个变量相同时按第二个变量排序,余此类推。 c) 排序后是个案位置的改变,未排序的变量数据随排序变量的位置同时改变。,3) 数据排序的操作,7/22/2020,SPSS-数据的预处理课件,4,3) 数据排序例,b) 选择排序变量并移入 Sort by列表框中,指定该变量的数据是升序(Ascending)还是降序(Descending)的单选按钮. c) 如果是多重排序,用
3、同样的方法指定第二、第三排序变量。按第一个变量先排序;第一个变量相同,按下一个变量排序;余类推。,对居民储蓄存款调查数据,利用排序的方法找出城镇居民和农村居民一次性存款的最大值和最小值。 操作:户口,升序;存款额,升序。,a) 选择菜单Data Sort Cases。这时,数据集所有变量出现在排序对话框左侧的列表中。,7/22/2020,SPSS-数据的预处理课件,5,2 变量的计算,在统计分析过程中,为了更有效的反映事物的本质,有时需要对变量的数据进行加工整理,产生新变量和计算结果。 比如计算一个变量的倍数,计算几个变量的和、差,计算变量的绝对值、平方等等。 因此,变量的计算是日常工作中经常
4、遇到的(51-57页不讲),对职工的基本情况的数据(41页)表2-5进行处理,依据职称级别计算实发工资,满足:职称14的工资分别上浮5%、3%、 2%、1%。 用例子演示变量计算的基本操作(58页)。,变量计算的例(58页),7/22/2020,SPSS-数据的预处理课件,6,1) 进入变量计算对话框,首先将数据加工(职工数据).sav数据集打开。 选择菜单 Transform (变换) Compute Variable(计算变量),弹出算术表达式编辑窗口。,a) 在Target Variable(目标变量)的编辑框中输入生成的新变量名称,这时的变量可以是新变量,也可以是原有变量。 b) 如果
5、输入的变量名在数据文件中已经存在,满足条件个案新变量的值将替换旧变量对应的值,其它值不变。 c) 新变量的数据类型默认为数值型,点击Type&Label按,2) 定义结果变量,7/22/2020,SPSS-数据的预处理课件,7,图3-3 变量计算窗口,7/22/2020,SPSS-数据的预处理课件,8,3) 算术表达式及运算符的定义,对于我们的例子,新变定义量名 实发工资为:sfgz,选择默认数据类型。见图3-3。,a) 算术表达式(Numeric Expression) 定义:将常数、变量用算术运算符和函数组合起来的式子。 b) 算术表达式的元素。变量可以从左侧的变量列表中选择;数字、运算符
6、号可以在软键盘中选择;函数可以从右侧选择,这些也都可以直接用键盘输入。 c) 逻辑运算符及意义 逻辑与:& 等价于 AND 逻辑或: | 等价于 OR,钮,在弹出的对话框中可以定义新变量的数据类型和标签。,7/22/2020,SPSS-数据的预处理课件,9,4) 条件语句编辑,单击 if 按钮,进入条件语句编辑框,有两个单选按钮。 a) Include all cases :对所有个案进行计算,默认选项。 b) Include if cases satisfied condition:仅对满足条件的个案进行计算。选择这一单选按钮后,编辑框激活。,c) 在这里可以输入筛选条件。需要说明的是,每次
7、只能编辑一个筛选条件,不能同时编辑多个筛选条件。 对应工资上浮5%的条件是职称值等于1,高级工程师。在编辑框输入表达式:zc=1,逻辑非: 等价于 NOT,在算术表达式编辑框输入:(sr-bx)*1.05,7/22/2020,SPSS-数据的预处理课件,10,5) 条件语句编辑编辑例,这时高级工程师的个案的sfgz变量都有了数据,其它职称个案的sfgz的值为缺失值。 重复同样的方法,分别设置: 表达式 条件 (sr-bx)*1.03 zc=2 工程师,(sr-bx)*1.02 zc=3 助理工程师 (sr-bx)*1.01 zc=4 无职称 这时变量sfgz所在的列将不再有缺失值。,点击条件语
8、句编辑窗口的Continue按钮,退回到表达式编辑框,点击OK按钮,高级工程师的实发工资计算完成。,7/22/2020,SPSS-数据的预处理课件,11,6) 计算方法的不足,变量的计算,无法一次将不同条件的表达式集中编写,只能一个条件表达式运行一次。,7/22/2020,SPSS-数据的预处理课件,12,3 数据抽样(选取),在实际的工作中,往往需要对满足一定条件的数据进行分析。如研究储蓄存款时,将储户分成城镇储户和农村储户,这时的数据更具有相同的特征,研究也更具有针对性。 因此,要对数据进行筛选,在统计学中也称之为抽样。 抽样的步骤如下:打开居民储蓄调查数据(存款).sav 菜单 Data
9、 Select cases,弹出抽样对话框见图3-4-1。左边为变量列表,右边显示抽样方法,有5个单选按钮。,不进行抽样,所有的个案均参与统计分析。,1) 抽样方法的选择,(1) All cases,7/22/2020,SPSS-数据的预处理课件,13,图3-4-1 数据抽样,7/22/2020,SPSS-数据的预处理课件,14,(2) If condition is satisfied,抽样得到的数据集是全部数据的一个子集,符合抽样条件的个案才参与统计分析操作。这一选项表示不进行抽样,也用于删除在此之前设置的抽样条件。,筛选条件满足时抽取。 例:抽取所有城镇储户的数据信息。 a) 在抽样界面
10、,点击 If condition is satisfied单选按钮。 b) 点击If 按钮,弹出Select cases If 对话框。 操作:在编辑框输入等式:a13=1,抽取城镇户口客户. c) 点击Continue按钮,完成条件抽样。不符合条件的打上删除标记 注意:这里的筛选条件的值不能是变量的值标签。 (查看设置界面的当前状态、数据编辑窗口个案的删除标记、筛选变量),7/22/2020,SPSS-数据的预处理课件,15,A) Approximately(近似),为了真实模拟社会现象,有时需要采用随机抽样。 选择Random sample of cases单选按钮,这时Sample按钮激
11、活,点击后进入Select cases:Random sample定义抽样范围对话框。有两个单选按钮。,在文本框中输入一个大于0小于100的数,按百分比抽取。,(3) Random sample of cases,7/22/2020,SPSS-数据的预处理课件,16,C) 随机数种子发生器,精确抽样:从前 n 个个案中随机抽取 m 个个案。 由于具体抽取多少个个案是事先知道的,因此称为精确抽样。这时需要mn。 经过随机抽样后,未抽取数据的个案号打上了斜线。 演示大概抽样。随机抽取30%的个案(查看状态标记变量)。,随机性的实现是由随机数种子控制的。在随机数发生器,B) Exactly,例子将随
12、机抽取总数的30%的个案构成一个数据集。抽样设置是百分数而非确切数值,因此称为大概抽样。,7/22/2020,SPSS-数据的预处理课件,17,图3-5 随机数种子设置窗口,与版本12兼容,7/22/2020,SPSS-数据的预处理课件,18,(4) Based on time or case range,a) Rendom:每次抽取,都产生一个随机数作为开设置. b) Fixed Value:在下边的文本框中填入一个大于0小于的具体数值作为种子。,在指定的范围内,顺序抽样,更适于时间序列数据。 点击Range按钮,弹出Select cases:Range对话框。,在初始化发生器(active
13、 Generator Initialization )模块,设置开始点(Set starting point),有两个选项:,的设置菜单:Transform Random Number Generator ,弹出设置随机数对话框见图3-5。,7/22/2020,SPSS-数据的预处理课件,19,(5) Use filter variable,使用过滤器过滤变量。要求指定一个变量作为过滤变量,抽样从非缺失值的个案中抽取。这种方法主要用于排除含有系统缺失值的个案。,在选择了抽样方式以后,Select Cases对话框右下角的Output模块中的单选按钮变为激活状态,从而可以进行抽样的输出选择。这里
14、有3个单选按钮。,抽样从第m个个案开始,到第n个个案结束。,2) 抽样数据集的输出,7/22/2020,SPSS-数据的预处理课件,20,(2) Copy selected cases to a new dataset,过滤掉没有选择的个案。这时未被选中的个案上打上斜线作为删除标记。默认选项。,删除没有被选择的个案。由于虽然此次没有抽取,但以后仍可能用到,一般不采取删除的方式处理方式。,将选择了的个案存储到一个新的数据集中,这时需要在其后的文本框中输入要存储数据集的名字。,(3) Delete unselected cases,(1) Filter out unselected cases,7
15、/22/2020,SPSS-数据的预处理课件,21,(4) 几点说明,A) 统计分析时,不对打上删除标记的个案进行分析,直到删除抽样设置为止。,B) 采用指定条件抽样和随机抽样这两种方法进行抽样,系统将在编辑窗口中自动生成一个变量名为filter_$的新变量,取值为0或1。 1表示个案被抽取,0表示数据未被抽取。这样的变量称为中间变量,作为筛选条件时使用。 如果删除这一变量,抽样设置自动消除。如果删除了筛选条件,这一变量也会自动删除。演示随机抽样查看生成变量。 C) 对数据集不能同时设置两种抽样方式,设置一种抽样方式,在此之前设置的抽样方式将自动取消。,7/22/2020,SPSS-数据的预处
16、理课件,22,4. 计数,在实际工作当中,需要对调查问卷的答案进行分析。 例1:居民储蓄调查(存款).sav中有如下两个指标: 收入情况、未来收入情况,取值分别为:1,增加;2,基本不变;3,减少。 如果想了解在每一个个案中,选3(减少)的变量有几个,如何用SPSS快速的给出答案?,例子特点:多个变量中 ,取同一值的变量有多少个? 例2:中考成绩(计数63).sav :要统计出每一考生语文、英语、数学、物理和化学5科成绩,落在某一区间(如70,79)的有几科?,7/22/2020,SPSS-数据的预处理课件,23,1) 计数的功能,计数是统计出在一个个案中,多个变量取同一个值或在同一个区间取值
17、的变量个数的方法。 因此,处理这样的问题需要关注两个问题: A) 考察哪几个变量? B) 同时取什么值,在哪一个区间取值?,选择菜单 Transform Count value within cases,进入计数选择对话框。,例子特点:多个变量,取值在同一个区间的有多少个? 以上问题,如果通过SPSS软件实现?,2) 计数的步骤,7/22/2020,SPSS-数据的预处理课件,24,(2) 确定统计所关注的变量值,计数变量用于存储统计结果。步骤如下: a) Target Variable:在下面的文本框填入目标变量,用于存储计数的值。 操作:在文本框中输入 s b) Target Label
18、:在下面的文本框中输入变量的标签,作为目标变量的说明,可选。操作:堪忧。 c) Numeric Variables :将要计数的变量输入。 操作:收入情况、未来收入情况,变量一般取多个值,我们只关心多个变量同时取的某个,(1) 确定计数变量,7/22/2020,SPSS-数据的预处理课件,25,A) 值设置,例子:收入情况未来收入情况这两个变量取3的有几个? 点击【 Define Values 】按钮,将选择的一个或多个变量与指定的值建立关系对话框。 对话框分成两个区域:左边的区域是值定义,右边是值存储及修改。,可以用3种方式定义值:单一数值、一个闭区间、一个开区间。步骤如下。 A) Valu
19、e:默认选项,这时测试指定的一个或多个变量与文本框中给定的值是否相等。,值的个数。这里是定义几个变量要取的那个固定的值。,7/22/2020,SPSS-数据的预处理课件,26,操作:5门成绩中不及格的数量。,B) System_missing、 System or User_missing。统计几个变量中系统缺失值、用户定义缺失值的数量。,操作:5门成绩中,位于80,89的数量。,操作:在文本框内输入3。,7/22/2020,SPSS-数据的预处理课件,27,B) 值的显示与修改,说明:每次只能定义一个取值方式,并定义一个用于存储统计结果的目标变量。,操作:5门成绩中良以上的数量。,7/22/
20、2020,SPSS-数据的预处理课件,28,5 分类汇总,根据高考总分,分析学生智力水平是否和性别有关,即按性别计算出高考总分的平均值、最高分和最低分。 这两个例子的计算有如下特点:需要对数据进行分类,计算出每一类的某一经济指标。用SPSS如何实现呢?,A) 按照哪个变量进行分类(如:区域、性别)。 B) 对哪个变量进行汇总(如:职工工资、高考总分)。 C) 计算哪些指标(如:平均值、最大值和最小值)。,经济工作者根据工资数据,研究各县市职工的生活水平差异,需要计算各县市工资的平均工资。,1) 分类汇总关注的问题,7/22/2020,SPSS-数据的预处理课件,29,2) 分类汇总的基本操作,
21、A) 打开汇总菜单 点击:Data Aggregate(总计、汇总),弹出分类汇总对话框。 B) 选择分类变量,从左边的变量列表框选择分类变量到Break(破裂) Variable框中。操作:职业。 C) 选择汇总变量 汇总变量Aggregate Variable模块。,例:利用居民储蓄调查数据.sav数据集,分析职业与存款数额之间的关系。,7/22/2020,SPSS-数据的预处理课件,30,操作:存款金额,D) 确定计算什么统计量。 点击【 Function 】按钮,弹出选择对话框,可供选择的统计量包括: 均值、求和、最大值、最小值等20个选项,默认选项是均值,每次只能计算一个统计量。默认
22、是均值。 【 Name&Lable 】按钮为计算的统计量定制标签。 操作:均值(注意观察汇总变量的取值随着选择的改变而改变),E) 输出每一类中包含的个案数。 选择框 Number of cases,若选择将生成一个每一类中所含个案数的变量,变量名为N_BREAK。,7/22/2020,SPSS-数据的预处理课件,31,E) 指定计算的统计量保存到何处。有3中选择。,a) Add aggregated variables to active dataset。将统计量的计算结果存储到当前数据集。 b) Create a new dataset containing only the aggreg
23、ated variables 。创建一个只含指定统计量作为变量的新数据集。 这时需在下面的文本框给出数据集的名字。 c) Write a new data only the aggregated variables。将计算的统计量存储到一个默认名称为agg.sav,的新文件中。文件类型可以不是SPSS的文件类型。,F) Options for very large datasets 大数据集选项。 a) already sorted break variable 在计算分类统计量之前已经关于分类变量排序。,7/22/2020,SPSS-数据的预处理课件,32,G) 多重分类汇总,分类变量可以多
24、于一个,这时的汇总称为多重分类汇总。第一个分类变量称为主分类变量。 分类变量的指定顺序决定了汇总的先后顺序。 例如,主分类变量是职业,第二分类变量为年龄。略。,引子:统计分析,经常要将数据进行分组,研究一类数据的共性。对于各种各样的数据,如何用SPSS实现分组呢?,b) Sort aggregating 在执行分类汇总前,系统先执行关于分类变量排序。,通过分类统计可以看出,随着职业的不同,存款数量的平均值也不同。查看数据集。,7/22/2020,SPSS-数据的预处理课件,33,6 数据分组,数据分组是根据统计研究的需要,按照一定的特征将总体区分为若干个性质不同而又存在联系的部分的一种方法。这
25、些部分称为这一统计总体的组。,数据分组对总体而言是“分”,即把总体划分为性质相异的若干组; 对个体而言是 “合”,即把性质相同的个体合为一组。,1) 数据分组的意义,(1) 为什么要数据分组,(2) 数据分组的原则,7/22/2020,SPSS-数据的预处理课件,34,另一方面,差异很大时的两个事物看成相同的类,将抹杀事物质的区别与特征,混淆事物的优劣,不能正确的评价出事物的好坏将不利于相关工作的开展。,(3) 分类原则的总结,一次性存款数量为1000元与1020元,虽然数量存在差异,未必有什么质的差别。 考试成绩84分与88分的学生,虽然分数不同,但学生的基本素质可能没有本质的差别。,统计分
26、组的原则,是保证组间各个单位具有差异性,组内的各个单位具有同质性。,7/22/2020,SPSS-数据的预处理课件,35,2) 组距分组(重赋值 Recode),对于定距变量,由于数值型变量的连续性与稠密性,为了研究的需要,有时需将数据进行分组。 分组既要体现出组之间的差异,又不能分组太多,需要确定合适的分组区间。,将变量的变化范围依次分成若干个满足包容性和互斥性的数值区间。什么叫包容性与互斥性呢?,(1) 组距分组的定义,用文字表示的品质变量,如性别、职称、民族等等,这样的变量相当于利用变量的不同取值,自然的进行了分组。,7/22/2020,SPSS-数据的预处理课件,36,按照组距分组的定
27、义,用组的区间作为组的名称直观,但如果组区间数值很大或很复杂,研究问题不是很方便。 将各个区间重新赋予一个值作为组的名称,这样的分组称为组距分组,也称为重赋值(Recode),每一个变量的值,必须属于其中的某一组是包容性;且只能属于一组,不能同时属于两个以上的组是互斥性。,例子:某个企业的职工小区,人均可支配收入见下表。,(2) 分组数目的确定,7/22/2020,SPSS-数据的预处理课件,37,(3) 组距的确定,分组过多时,容易将具有相同特征的数据分到了两个组,使问题复杂化;分组过少,会将具有不同特征的数据归为一组,淡化了数据的差异。 数据应分成多少组,没有统一的方法与模式,通常根据数据
28、本身的特点、数据的个数及研究问题的具体需要具体分析后确定。,定义:组距是数据的上限(最大值)与数据的下限(最小值)之差除以组数,即,组距式分组的特点,平抑各组数据内部的区别,突出各组之间的差异,以方便观察数据的分布特征。,7/22/2020,SPSS-数据的预处理课件,38,(4) 组距分组的实现,确定组数、组距的原则:组数一定是整数且不宜过多,组距一般是5或10的整数倍。 例:数据加工(职工数据).sav数据集中 最大值=1044,最小值=824,幅度=1044824=220。 根据数据变化的幅度及确定组距的原则,取组距为50;根据数据的分布特点,确定分组分为5组(开口组): 850,851
29、900,901950,9511000, 1001,操作:数据加工(职工数据).sav,组距=(最大值-最小值) 组数,A) 打开要分组的数据文件。,7/22/2020,SPSS-数据的预处理课件,39,菜单Trasform Recode Into Different Variable:对数据进行分组,对每个组的名称重编码存入一个不同的变量,这时弹出变量选择设置窗口。,在左边变量的列表框中选择分组变量,将其移入右边的Input Variable Output Variable列表框. 例:sr(工资),在Name下面的文本框中,给出输出变量的名字,用于存储各个组的名字。,B) 打开数据分组对话框
30、,C) 选择分组变量。,D) 为输出变量命名。,7/22/2020,SPSS-数据的预处理课件,40,E) 建立新旧组名的对应关系。,进入条件表达式设置对话框,进行条件表达式的设置。,3个按钮,对新值进行设置并建立新旧值之间的对应关系、对建立的关系进行修改及将建立的关系删除等操作。,可在下面的Lable的文本框为输出变量定义一个标签。点击【 change 】按钮完成输出变量的定义。 例:s,F) 设置筛选条件,7/22/2020,SPSS-数据的预处理课件,41,G) 总结,说明:a) 这里举的例子是等距分组,从设置过程可以看出,也可以进行非等距分组。 b) 这里讲解的是将离散型、连续型的变量
31、的值分成若干组,将每一组构成的区间和一个新变量的值建立了关系,执行的操作是: Recode Into Different Variable。,有时建立了新变量之后,旧的值已经没有用了,可以用新生成的变量将原数值替换掉,这时需要选择的操作是: Recode Into Same Variable,理论与方法基本相同,略。,演示例子,建立每一个值与区间变量的关系。,7/22/2020,SPSS-数据的预处理课件,42,7 预处理的其他功能,数据处理是对变量进行,而变量在数据集中都是按列存放的。如果得到的变量数据是按行存放,则需要将行变量转化成列变量。将数据行列互换,即矩阵的转置。,1) 数据的转置,
32、7/22/2020,SPSS-数据的预处理课件,43,(1) 选择变量,点击菜单Data Transpose,弹出转置设置对话框。数据集的所有变量出现在对话框左侧的列表框中。将要转置的变量移至变量窗口。操作:将xb,nl,sr,zc,xl,bx移入.,行数据转化成了新数据集的列,每一列需要确定变量的名称。有两种方法。,(2) 确定新数据集变量的名称,将要转置的数据集打开。操作:数据加工(职工数据).sav,A) 原数据集存在取唯一值的变量,如果原数据集存在一个取值唯一的变量,如学号、职,7/22/2020,SPSS-数据的预处理课件,44,B) 原数据集无唯一标示行数据的变量(值标签转置后将无效),将取唯一值的变量移至Name Variable标签下的文本框内,如果该变量的取值具有形式:xxx,生成的新数据集自动生成的变量名称为:K_xxx
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026河北邯郸市易成人力资源有限公司招聘工作人员30名笔试备考试题及答案详解
- 2026南昌市劳动保障事务代理中心招聘2名西湖就业之家见习生笔试备考题库及答案详解
- 2026江苏宿迁市钟吾人才科技集团有限公司招聘1人笔试备考题库及答案详解
- 监事会企业合规监督协议
- 年会策划与舞台搭建协议
- 2026四川川交路桥有限责任公司招聘26人笔试备考题库及答案详解
- 线上学习曲线教学资源合同
- 2026宁夏哈纳斯液化天然气有限公司招聘笔试备考试题及答案详解
- 2026浙江杭州市志愿者工作指导中心招聘编外工作人员1人笔试备考题库及答案详解
- 吉安江旅航空服务有限公司2026年招聘派遣人员笔试参考题库及答案详解
- 第十五届全国电力行业职业技能竞赛(碳排放管理员)考试题库(含答案)
- (高清稿)DB46 483-2024 农村生活污水处理设施水污染物排放标准
- T1HBSEA 001-2024 石油天然气在役井口采油(气)树定期检验规范
- 2024年哈密中小学教师招聘真题
- JT-T-810-2011集装箱涂料行业标准
- (完整版)100以内加减法竖式计算题
- 偏光片不良分析报告
- 更年期女性养生
- 吉安市2022-2023学年小升初考试数学试卷含答案
- 民航概论全套课件
- GB/T 4622.2-2008缠绕式垫片管法兰用垫片尺寸
评论
0/150
提交评论