第四章数据的预处理副_第1页
第四章数据的预处理副_第2页
第四章数据的预处理副_第3页
第四章数据的预处理副_第4页
第四章数据的预处理副_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据的预处理副第一页,共四十八页,编辑于2023年,星期五为什么要进行数据的预处理在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:第二页,共四十八页,编辑于2023年,星期五

数据的排序变量计算数据选取数据分组数据预处理的其他功能:转置、加权、数据拆分等。预处理的内容第三页,共四十八页,编辑于2023年,星期五3.1数据的排序SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列。这里的变量也称为排序变量。排序变量只有一个时,排序称为单值排序。排序变量有多个时,排序称为多重排序。多重排序中,第一个指定的排序变量称为主排序变量,其他依次指定的变量分别称为第二排序变量、第三排序变量等。第四页,共四十八页,编辑于2023年,星期五数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等;通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会对分析产生重要影响提供帮助。3.1.1数据排序的作用第五页,共四十八页,编辑于2023年,星期五SPSS数据排序的基本操作步骤(1)选择菜单Data-SortCases

(2)将主排序变量从左边的列表中选到Sortby框中,并在SortOrder框中选择按该变量的升序还是降序排序。(3)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。3.1.2数据排序的基本操作第六页,共四十八页,编辑于2023年,星期五在左边的源变量框中选择排序变量进入Sortby框。如果选择2个以上的变量,观测量的排序结果与排序变量在Sortby框中的顺序有关。列于首位的为第一排序变量。在SortOrder栏内选择排序方式——升序与降序第七页,共四十八页,编辑于2023年,星期五1、数据排序是整行数据排序,而不是只对某列变量排序;

2、多重排序中指定排序变量的次序很关键。先指定的变量优先于后指定的变量。多重排序可以在按某个变量值升序(或降序)排序的同时再按其他变量值降序(或升序)排序;

3、数据排序后,原有数据的排序次序必然被打乱。说明第八页,共四十八页,编辑于2023年,星期五数据排序应用举例利用数据1,通过数据排序功能分别找到总分1和总分2的最大值和最小值第九页,共四十八页,编辑于2023年,星期五3.2变量计算数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业保险、奖金等数据,计算实际月收入,这些新变量具有更直观更有效的特点。第十页,共四十八页,编辑于2023年,星期五3.2.1变量计算的目的SPSS变量计算是在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。(1)变量计算是针对所有个案(或指定的部分个案)的,每个个案都有自己的计算结果。(2)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类型相一致。在变量计算过程中涉及到几个概念:SPSS算数表达式、SPSS条件表达式和SPSS函数。第十一页,共四十八页,编辑于2023年,星期五指出按照什么方法计算变量;SPSS算术表达式(NumericExpression)是由常量、变量、算术运算符、圆括号、函数等组成的式子。字符型常量应当用引号括起来变量是指那些已存在于数据编辑窗口中的原有变量算术运算符主要包括+、-、*、/、**(乘方)在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算3.2.2SPSS算术表达式第十二页,共四十八页,编辑于2023年,星期五在变量计算中通常要求对不同的个案分别按照不同的方法进行计算,于是就需要通过一定的方式来指定个案;SPSS条件表达式是一个对条件进行判断的式子。其结果有两种取值:如果判断条件成立,则结果为真;如果判断条件不成立,则结果为假。条件表达式包括简单条件表达式和复合条件表达式。3.2.3SPSS条件表达式第十三页,共四十八页,编辑于2023年,星期五(1)简单条件表达式由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括>、<、=、~=(不等于)、>=、<=。(nl<35)(2)复合条件表达式又称逻辑表达式,是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。其中,逻辑运算符号包括&或AND(并且)、|或OR(或者)、~或NOT(非)。NOT的运算优先级最高,其次是AND,最低是OR。可以通过圆括号改变运算的优先级。(nl<=35)andnot(zc<3)第十四页,共四十八页,编辑于2023年,星期五SPSS函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为函数名。执行这些程序段得到的计算结果称为函数值。函数书写的具体形式为:函数名(参数)3.2.4SPSS函数第十五页,共四十八页,编辑于2023年,星期五

其中,函数名是SPSS已经规定好的,参数可以是常量(字符型常量应用引号括起来),也可以是变量或算术表达式。参数可能是一个,也可能是多个,各参数之间用逗号分隔。

SPSS函数大致可以分成八大类:算术函数、统计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其他函数。第十六页,共四十八页,编辑于2023年,星期五(1)选择菜单Transform-Compute,弹出ComputeVariable对话框如下:3.2.5变量计算的基本操作第十七页,共四十八页,编辑于2023年,星期五(2)在Target框中输入存放计算结果的变量名。该变量可以是一个新变量,也可以是已经存在的变量。如果指定存放计算结果的变量为新变量,SPSS会自动创建它;如果指定产生的变量已经存在,SPSS会提问是否以计算结果覆盖原有值。新的变量默认为数值型,用户可以根据需要单击Type&Label按钮修改,还可以对新变量加变量名标签。(3)在NumericExpression框给出SPSS算术表达式。可以手工输入,也可以按窗口的按钮以及函数下拉菜单输入。第十八页,共四十八页,编辑于2023年,星期五(4)如果希望对符合一定条件的个案进行变量计算,则单击If按钮,出现下面的窗口,选择Includeifcasesatisfiescondition选项,然后输入条件表达式。对不满足条件的个案,将不进行变量值计算,对新变量取值为系统缺失值。第十九页,共四十八页,编辑于2023年,星期五利用数据1,计算当数据为男生数据时,新变量总分3为总分1和2的和。3.2.6变量计算的应用举例第二十页,共四十八页,编辑于2023年,星期五3.3数据选取数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为抽样。

SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。第二十一页,共四十八页,编辑于2023年,星期五(1)选取全部数据(Allcases)(2)按指定条件选取(Ifconditionissatisfied

SPSS要求用户以条件表达式给出数据选取的条件,SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断为真的个案将被自动选取出来,而那些条件判断为假的个案则不被选中。3.3.1数据选取的基本方式第二十二页,共四十八页,编辑于2023年,星期五(3)随机抽样(Randomsampleofcases

),即对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方式:第一,近似抽样(Approximately)近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。

注:由于SPSS在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差,因而称为近似抽样。第二十三页,共四十八页,编辑于2023年,星期五

第二,精确抽样(Exactly)精确抽样要求用户给出两个参数。第一个参数是希望选取的个案数,第二个参数是指定在前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。第二十四页,共四十八页,编辑于2023年,星期五(4)选取某一区域内的样本(Basedontimeorcaserange

),即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案号码。这种抽样方法适用于时间序列数据。(5)通过过滤变量选取样本(Usefiltervariable

),即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失值的个案。第二十五页,共四十八页,编辑于2023年,星期五说明:(1)完成数据选取后,以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止。(2)采用指定条件选取和随机抽样方法进行数据选取后,SPSS将在数据编辑窗口中自动生成一个名为filter_$的新变量,取值为1或0。1表示本个案被选中,0表示未被选中。该变量是SPSS产生的中间变量,如果删除它则自动取消样本抽样。第二十六页,共四十八页,编辑于2023年,星期五(1)选择菜单Data—Selectcases(2)根据分析需要选择数据选取方法(3)Unselectedcasesare指定对未选中个案的处理方式Filtered表示在未被选中的个案号码上打一个“/”标记;Deleted表示将未被选中的个案从数据编辑窗口中删除。3.3.2数据选取的基本操作第二十七页,共四十八页,编辑于2023年,星期五SelectCases对话框第二十八页,共四十八页,编辑于2023年,星期五

利用数据1:(1)如果只希望分析男性被试的情况,可以通过数据选择功能采用指定条件的抽样方法进行抽样;(2)如果只希望对其中的70%的数据进行分析,可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。3.3.4数据选取的应用举例第二十九页,共四十八页,编辑于2023年,星期五3.4数据分组3.4.1数据分组的方法数据分组就是根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。在数据分组的基础上进行的频数分析更能够概括和体现数据的分布特征。为适用于不同的统计分析需要,SPSS提供了以下几种数据分组方法:

单变量值分组

组距分组第三十页,共四十八页,编辑于2023年,星期五

居民家庭按人口数单项式分组

按家庭人口数分组(人)居民户数(户)12345人及以上合计

离散型变量如果变量值的变动范围不大,可以将一个变量值作为一组,称单项式分组。如右表:单项式分组第三十一页,共四十八页,编辑于2023年,星期五

在连续型变量或离散型变量值较多的情况下,可采用组距式分组形式。组距式分组就是把全部变量值划分为几个区间,每一区间的变量值作为一组。如右表:按日产零件数分组(个)工人数(人)50~6060~7070~8080~9090以上合计组距式分组第三十二页,共四十八页,编辑于2023年,星期五在组距式分组中涉及到了几个关键点:a.组距:区间的距离即为组距。b.组数:组数的多少以分组后能恰当反映总体内部的分布特征和规律为好。c.组距=(最大值-最小值)÷组数。d.根据组距各组的组距是否相等,又可以分为等距分组和不等距分组两种方式。e.组限:组距两端的数值称为组限,每组的最大值称为上限,用U(Upperlimit)表示,每组的最小值称为下限,用L(Lowerlimit)表示。统计数据时,注意“上组限不在内”法则。另外,极端组可采用开放式组距。f.组中值:每组上、下限之间的中点数值。即:组中值=(上限十下限)÷2。第三十三页,共四十八页,编辑于2023年,星期五SPSS单变量值分组的基本操作步骤:(1)选择菜单Transform-AutomaticRecode(2)将分组变量选择到Variable-NewName框中(3)在NewName框后输入存放分组结果的变量名,并单击Add

NewName按钮(4)在RecodeStartingfrom框中选择单变量值分组按升序还是按降序进行。Lowestvalue表示升序;Highestvalue表示降序。3.4.2SPSS的单项式分组第三十四页,共四十八页,编辑于2023年,星期五单变量值分组应用举例:利用数据1对总分1升序和降序进行分组。第三十五页,共四十八页,编辑于2023年,星期五

组数和组距确定后,便可实施分组操作了,在分组操作时应:指定分组变量定义分组区间(注意遵循“不重不漏”原则)指定存放结果的变量

SPSS对分组结果有两种存放策略,一种是用分组变量值覆盖原变量(IntoSameVariables),另一种是将分组结果存到一个新变量中(IntoDifferentVariables)。相应的操作也略有差异。通常采用第二种策略。3.4.3SPSS的组距式分组第三十六页,共四十八页,编辑于2023年,星期五1、IntoSameVariables分组操作(1)选择菜单Transform-Recode-IntoSameVariables。(2)在出现的窗口中将分组变量选择到Variables框中。(3)单击OldandNewValues按钮进行分组区间定义。(4)在分组区间定义窗口中指定分组区间的下限和上限,并在NewValue框中给出该区间对应的分组值。单击Add按钮确认分组区间并加到Odd→New框中。单击Change和Remove按钮来修改和删除分组区间。(5)如果仅对符合一定条件的个案分组,则单击If按钮并输入SPSS条件表达式。否则,本步可略去。第三十七页,共四十八页,编辑于2023年,星期五2、IntoDifferentVariables分组操作(1)选择菜单Transform-Recode-IntoDifferentVariables。(2)在出现的窗口中将分组变量选择到InputVariable→OutputVariable框中。(3)在OutputVariable后输入存放分组结果的变量名,并单击Change按钮确认。可以在Label后输入相应的变量名标签。(4)单击OldandNewValues按钮进行分组区间定义(方法与前面相似)。(5)如果仅对符合一定条件的个案分组,则单击If按钮并输入SPSS条件表达式。否则,本步可略去。第三十八页,共四十八页,编辑于2023年,星期五

利用数据1对总分1别采用IntoSameVariables和IntoDifferentVariables两种方式进行如下分组:1-10、11-20、20-30.

3.4.4组距式分组的应用举例第三十九页,共四十八页,编辑于2023年,星期五3.5数据预处理的其他功能3.5.1数据转置

SPSS的数据转置就是将数据编辑窗口中数据的行列互换。基本操作步骤如下:(1)选择菜单Data-Transpose。(2)指定数据转置后应保留哪些变量,将它们选入Variables框中,未被选中的变量将在新文件中缺失。(3)指定转置后数据文件中各变量如何取名。第四十页,共四十八页,编辑于2023年,星期五

应选择一个取值唯一的变量(如职工号)作为标记变量并放到NameVariable框中。转置后数据各变量取名为K_标记变量值(如K_001、K_002、K_003等)。如果略去本步,则转置后数据各变量名默认为VAR00001,VAR00002,VAR00003等。同时,SPSS还会自动产生一个名为Case_lbl的新变量,用来存放原数据文件中的各变量名。第四十一页,共四十八页,编辑于2023年,星期五3.5.2加权处理统计分析中的加权处理是极为常见的,如计算加权平均数等。第四十二页,共四十八页,编辑于2023年,星期五

SPSS中指定加权变量的操作步骤是:(1)选择菜单Data-WeightCases。(2)选择WeightCasesby选项,并将某变量作为加权变量选到WeightCasesby框中。注意的是一旦指定了加权变量,那么以后的分析处理中加权是一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论