




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1.数据分析方法及软件应用数据分析方法及软件应用授课教师:杨小宝授课教师:杨小宝 副教授副教授2013.092.SPSS入门入门-22.1 SPSS简介2.2 SPSS数据的管理2.3 SPSS数据的预处理3.为什么要进行数据的预处理 在数据文件建立之后,通常还需要对分析在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。分析过程中必不可少的一个关键步骤。 数据的预加工处理服务于数据分析和建模,数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:主要包括以下几个问题:4. 1. 数据的排序数据的排
2、序 2. 变量计算变量计算 3. 数据选取数据选取 (重点重点) 4. 分类汇总分类汇总 (重点重点) 5. 数据分组数据分组(重点重点) 6. 数据拆分数据拆分(重点重点) 7. 数据预处理的其它功能数据预处理的其它功能(自学自学):计数、转置计数、转置、加权、缺失值处理、数据排秩、定义变量集等、加权、缺失值处理、数据排秩、定义变量集等2.3 SPSS数据的预处理数据的预处理5. 数据排序的目的 数据排序的基本操作2.3.1 数据的排序6. 数据排序便于数据的浏览,有助于了解数数据排序便于数据的浏览,有助于了解数据的据的取值状况取值状况、缺失值缺失值数量的多少等;数量的多少等; 通过数据排序
3、能够快捷的找到数据的最大通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的值和最小值,进而可以计算出数据的全距全距,初步把握和比较数据的初步把握和比较数据的离散程度离散程度; 通过数据排序能够快捷地发现数据的通过数据排序能够快捷地发现数据的异常异常值值,为进一步明确它们是否会对分析产生,为进一步明确它们是否会对分析产生重要影响提供帮助。重要影响提供帮助。1) 数据排序的目的7. SPSS数据排序的基本操作步骤:数据排序的基本操作步骤: (1)选择菜单)选择菜单数据数据Data个案排序个案排序Sort Cases (2)将主排序变量从左边的列表中选到)将主排序变量从左边的列表中
4、选到排序排序依据依据Sort by框框中,并在中,并在排序顺序排序顺序Sort Order框框中选择按该变量的升序还是降序排序。中选择按该变量的升序还是降序排序。 (3)如果是多重排序,还要一次指定第二、)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。第三排序变量及相应的排序规则。2) 数据排序的基本操作8.在左边的在左边的源变量框源变量框中选中选择排序变量进入择排序变量进入Sort by框框。如果选择。如果选择2个以上的个以上的变量,观测量的排序结变量,观测量的排序结果与排序变量在果与排序变量在Sort by框中的顺序有关。列于框中的顺序有关。列于首位的为第一排序变量。首位
5、的为第一排序变量。在在Sort Order 栏栏内选择排序方式内选择排序方式-升序与降序升序与降序数据加工(职工数据).sav数据排序举例数据排序举例9.按基本工资升序和职称降序排序的结果按基本工资升序和职称降序排序的结果数据加工(职工数据).sav10. 变量计算的目的 SPSS算术表达式 SPSS条件表达式 SPSS函数 变量计算的应用举例2.3.2 变量计算11. SPSS变量计算是变量计算是在原有数据的基础上,根据用户在原有数据的基础上,根据用户给出的给出的SPSS算术表达式以及函数,对所有个案或算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。满足条件的部分个
6、案,计算产生一系列新变量。 1)变量计算是针对所有个案(或指定的部分个案)变量计算是针对所有个案(或指定的部分个案)的,每个个案都有自己的计算结果。的,每个个案都有自己的计算结果。 2)变量计算的结果应保存到一个指定变量中,该)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类型相一致。变量的数据类型应与计算结果的数据类型相一致。 在变量计算过程中涉及到几个概念:在变量计算过程中涉及到几个概念:SPSS算算数表达式、数表达式、SPSS条件表达式和条件表达式和SPSS函数函数。1) 变量计算的目的12.计算下表中的职工实际收入计算下表中的职工实际收入数据加工(职工数据).
7、sav13.原有数据中会原有数据中会增加新的一列增加新的一列数据加工(职工数据).sav2) SPSS算术表达式14.选择出年龄不大于选择出年龄不大于3535岁且职称不低于岁且职称不低于3(3(讲师讲师) )的老师的老师3) SPSS条件表达式SPSS函数函数15. SPSS函数是事先编好并存储在函数是事先编好并存储在SPSS软件中,能软件中,能够实现某些特定计算任务的一段计算机程序。够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为这些程序都有各自的名字称为函数名函数名。执行这。执行这些程序段得到的计算结果称为些程序段得到的计算结果称为函数值函数值。 SPSS函数大致可以分成
8、八大类:函数大致可以分成八大类:算术函数、统算术函数、统计函数、分布函数、逻辑函数、字符串函数、计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其他函数缺失值函数、日期函数和其他函数。4) SPSS函数16.1、利用职工基本情况数据,依据职称级别计、利用职工基本情况数据,依据职称级别计算实发工资。假设职称算实发工资。假设职称1至至4职工的工资分职工的工资分别上调别上调5,3,2,1。 5) 变量计算的应用举例17.在在计算变量计算变量:If个案个案对话框中依次输入条件表达式对话框中依次输入条件表达式,并在并在数学表达式数学表达式框中输入相应公式框中输入相应公式,分别计算可得分别计
9、算可得结果结果数据加工(职工数据).sav18. 数据选取的目的 数据选取的方式 数据选取的应用举例2.3.3 数据选取抽样19.1) 提高数据分析效率提高数据分析效率:可以依据一定的抽样可以依据一定的抽样方法从总体中抽取少量样本方法从总体中抽取少量样本,后面的分析只后面的分析只针对样本进行针对样本进行,这样会大大提高分析的效率这样会大大提高分析的效率。2) 检验模型的需要检验模型的需要:为了验证模型一般可依为了验证模型一般可依据一定的抽样方法只选择部分样本参与数据据一定的抽样方法只选择部分样本参与数据建模建模,剩余的数据用于模型检验剩余的数据用于模型检验。1) 数据选取的两个目的20.2)
10、数据选取的方式1) 选取全部数据选取全部数据(All cases)2) 按指定条件选取按指定条件选取( If condition is satisfied)3) 随机抽样随机抽样(Random sample of cases): 近似抽样和精确抽样近似抽样和精确抽样4) 选取某一区域内的样本选取某一区域内的样本(Based on time or case range)5) 通过过滤变量选取样本通过过滤变量选取样本( Use filter variable)21. 利用居民储蓄调查数据,根据不同的分利用居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样:析要求采用不同的数据选取方法抽
11、样:1) 如果只希望分析城镇储户的情况,可以通如果只希望分析城镇储户的情况,可以通过数据选择功能采用指定条件的抽样方法过数据选择功能采用指定条件的抽样方法进行抽样;进行抽样;2) 如果只希望对其中的如果只希望对其中的70的数据进行分析,的数据进行分析,可通过数据选择功能采用随机抽样中的近可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。似抽样方法进行抽样。3) 数据选取的应用举例22.1)1)只希望分析城镇储户的情况只希望分析城镇储户的情况结果结果居民储蓄调查数据.sav23.2)2)只希望对其中的只希望对其中的70%70%数据进行分析数据进行分析结果结果居民储蓄调查数据.sav24.1
12、) 完成数据选取后,以后的完成数据选取后,以后的SPSS分析操作仅分析操作仅针对那些被选中的个案直到用户再次改变针对那些被选中的个案直到用户再次改变数据的选取为止。数据的选取为止。2) 采用指定条件选取和随机抽样方法进行数采用指定条件选取和随机抽样方法进行数据选取后,据选取后,SPSS将在数据编辑窗口中自动将在数据编辑窗口中自动生成一个名为生成一个名为filter_$的新变量,取值为的新变量,取值为1或或0。1表示本个案被选中,表示本个案被选中,0表示未被选中。表示未被选中。该变量是该变量是SPSS产生的中间变量,如果删除产生的中间变量,如果删除它则自动取消样本抽样。它则自动取消样本抽样。说明
13、说明25. 分类汇总是分类汇总是按照某分类变量进行分类汇总计算。按照某分类变量进行分类汇总计算。 例如,某商厦希望分析假日周内不同职业和不例如,某商厦希望分析假日周内不同职业和不同年龄段的顾客对某商品的同年龄段的顾客对某商品的“打折促销打折促销”反应反应是否存在较大差异,用以分析不同消费群体的是否存在较大差异,用以分析不同消费群体的消费心理。最初步的分析可以是分别计算不同消费心理。最初步的分析可以是分别计算不同职业中不同年龄段顾客的平均消费金额和平均职业中不同年龄段顾客的平均消费金额和平均消费金额差异程度(标准差),并对它们进行消费金额差异程度(标准差),并对它们进行比较。这个过程也可以通过分
14、类汇总过程完成。比较。这个过程也可以通过分类汇总过程完成。2.3.4 分类汇总26. SPSS实现分类汇总涉及两个主要方面:实现分类汇总涉及两个主要方面:按照哪个变量按照哪个变量(如上例中的学历、职业和年(如上例中的学历、职业和年龄段)龄段)进行分类进行分类对哪个变量对哪个变量(如上例中的基本工资、消费金(如上例中的基本工资、消费金额)额)进行汇总,并指定对汇总变量计算哪些进行汇总,并指定对汇总变量计算哪些统计量统计量(如上例中的平均工资、平均消费金(如上例中的平均工资、平均消费金额和标准差)额和标准差)27.例1:根据职工情况数据研究不同学历的职工的工资水平是否存在差异? 思路:先按学历对数
15、据进行排序,再利用分类汇总功能计算不同学历职工的平均工资,然后进行比较。选择文化程度为分类变量,基本工资为汇总变量。分类汇总的应用举例1) 选择菜单选择菜单数据数据Data分类汇总分类汇总aggregate,出现如下所示的窗口:出现如下所示的窗口:28.结果结果数据加工(职工数据).sav指定对汇总变量指定对汇总变量计算哪些统计量计算哪些统计量29.自己练习自己练习例例2 2:利用居民储蓄调查数据,分析城镇储利用居民储蓄调查数据,分析城镇储户和农村储户的一次平均存(取)款金额户和农村储户的一次平均存(取)款金额是否有显著的差异。可进行的最初步的分是否有显著的差异。可进行的最初步的分析是按照户口
16、类型对存(取)款金额进行析是按照户口类型对存(取)款金额进行分类汇总。其中分类变量是户口,汇总变分类汇总。其中分类变量是户口,汇总变量是存(取)款金额,且计算其均值和标量是存(取)款金额,且计算其均值和标准差。准差。30. 数据分组的目的 SPSS的单变量值分组 SPSS的组距分组2.3.5 数据分组31. 数据分组就是数据分组就是根据统计研究的需要,将数根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。据按照某种标准重新划分为不同的组别。 数据分组的基础上进行的频数分析更能够数据分组的基础上进行的频数分析更能够概括和体现数据的分布特征。概括和体现数据的分布特征。 为适用于不同的统计
17、分析需要,为适用于不同的统计分析需要,SPSS提供提供了以下几种数据分组方法:了以下几种数据分组方法: 单变量值分组单变量值分组 组距分组组距分组1) 数据分组的目的32. 居民家庭按人口数单项式分组居民家庭按人口数单项式分组 按家庭人口数分组按家庭人口数分组(人)(人)居民户数居民户数(户)(户)12345人及以上人及以上合计合计离散型变量如果变量离散型变量如果变量值的变动范围不大,值的变动范围不大,可以将可以将一个变量值一个变量值作作为一组,称单项式分为一组,称单项式分组。如右表:组。如右表:单变量值分组单变量值分组33. 在连续型变量或离散在连续型变量或离散型变量值较多的情况型变量值较多
18、的情况下,可采用组距式分下,可采用组距式分组形式。组形式。 组距式分组组距式分组就是把全就是把全部变量值划分为几个部变量值划分为几个区间,每一区间的变区间,每一区间的变量值作为一组。如右量值作为一组。如右表:表:组距分组组距分组按工资分组按工资分组(元)(元)频数频数(人)(人)频率频率()()850850以下以下5 531.331.38508509009005 531.331.39009009509501 16.36.3950950100010002 212.512.510001000以上以上3 318.618.634.SPSS单变量值分组的基本操作步骤:单变量值分组的基本操作步骤:1)选择
19、菜单)选择菜单转换转换Transform自动重新编码自动重新编码Automatic Recode2)将分组变量选择到)将分组变量选择到变量变量-新名称新名称Variable-New Name框框中中3)在)在新名称新名称New Name框框后输入存放分组结果后输入存放分组结果的变量名,并单击的变量名,并单击添加新名称添加新名称Add New Name按钮按钮4)在)在重新编码的起点重新编码的起点Recode Starting from框框中选择单变量值分组按升序还是按降序进行。中选择单变量值分组按升序还是按降序进行。最低值最低值Lowest value表示升序;表示升序;最高值最高值Highe
20、st value表示降序。表示降序。2) SPSS的单变量值分组35.结果结果数据加工(职工数据).sav单变量值分组应用举例单变量值分组应用举例: : 利用职工情况利用职工情况数据按职工的基本工资升序进行分组。数据按职工的基本工资升序进行分组。36.组距分组中的关键问题有两个组距分组中的关键问题有两个:1) 分组数目的确定分组数目的确定 可参考可参考Sturges提出的经验公式提出的经验公式2) 组距的确定组距的确定 组距组距=(最大值最大值-最小值最小值)/组数组数3) SPSS的组距式分组37. 组数和组距确定后,便可实施分组操作了,组数和组距确定后,便可实施分组操作了,在分组操作时应:
21、在分组操作时应:指定分组变量指定分组变量定义分组区间(注意遵循定义分组区间(注意遵循“不重不漏不重不漏”原则)原则)指定存放结果的变量指定存放结果的变量 SPSS对分组结果有两种存放策略,一种是用分对分组结果有两种存放策略,一种是用分组变量值覆盖原变量(组变量值覆盖原变量(Into Same Variables),),另一种是将分组结果存到一个新变量中(另一种是将分组结果存到一个新变量中(Into Different Variables)。相应的操作也略有差异。)。相应的操作也略有差异。通常采用第二种策略。通常采用第二种策略。38.1) 选择菜单转换选择菜单转换Transform重新编码为重新
22、编码为相同变量相同变量Recode Into Same Variables2) 在出现的窗口中将分组变量选择到在出现的窗口中将分组变量选择到数数字变量字变量Variables框框中。中。3) 单击单击旧值和新值旧值和新值Old and New Values按按钮钮进行分组区间定义。进行分组区间定义。1、Into Same Variables分组操作分组操作39.4) 在分组区间定义窗口中指定分组区间的在分组区间定义窗口中指定分组区间的下限和上限,并在下限和上限,并在新值新值New Value框框中给中给出该区间对应的分组值。单击出该区间对应的分组值。单击添加添加Add按按钮确认分组区间并加到钮
23、确认分组区间并加到旧旧-新新Odd-New框框中。单击中。单击更改更改Change和和删除删除Remove按按钮来修改和删除分组区间。钮来修改和删除分组区间。5) 如果仅对符合一定条件的个案分组,则如果仅对符合一定条件的个案分组,则单击单击如果如果If按钮按钮并输入并输入SPSS条件表达式。条件表达式。否则,本步可略去。否则,本步可略去。40.数据加工(职工数据).sav结果结果41.2.Into Different Variables分组操作分组操作(自学自学)1)选择菜单)选择菜单Transform重新编码为不同变重新编码为不同变量量Recode Into Different Variab
24、les 。2)在出现的窗口中将分组变量选择到)在出现的窗口中将分组变量选择到数字变数字变量量-输出变量输出变量Input Variable - Output Variable框框中。中。3)在)在输出变量输出变量Output Variable框的名称框的名称Name中中输入存放分组结果的变量名,并单输入存放分组结果的变量名,并单击击更改更改Change按钮确认。可以在按钮确认。可以在标签标签Label中中输入相应的变量名标签。输入相应的变量名标签。42. 利用职工数据按职工基本工资采用利用职工数据按职工基本工资采用Into Different Variables方式进行如下分组:方式进行如下分
25、组:按工资分组(元)按工资分组(元)频数(人)频数(人)频率()频率()850以下以下531.3850900531.390095016.39501000212.51000以上以上318.6自己练习自己练习数据加工(职工数据).sav43. SPSS的数据拆分与数据排序很相似,但的数据拆分与数据排序很相似,但有一个重要的不同点,即数据拆分不仅有一个重要的不同点,即数据拆分不仅是按指定变量进行简单排序,更重要的是按指定变量进行简单排序,更重要的是根据变量对数据进行分组,为以后的是根据变量对数据进行分组,为以后的分组统计分析提供便利分组统计分析提供便利。2.3.6 数据拆分44.1、SPSS数据拆分的基本操作步骤:数据拆分的基本操作步骤:1)选择菜单)选择菜单数据数据Data拆分文件拆分文件Split Fil
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 法律语言的特点与应用试题及答案
- 软件性能调优试题及答案
- 2025届广东省东莞市翰林学校八下数学期末学业水平测试模拟试题含解析
- 社交平台的安全防范机制计划
- 软件设计师考试难点攻克经验试题及答案
- 如何进行精准的品牌定位分析计划
- 法学概论教师选用教材比较试题及答案
- 信息系统工程师考试题目及答案
- 2024年浙商银行上海分行招聘笔试真题
- 数字化转型对财务工作的影响计划
- 2025年小升初语文第一次全真模拟试卷(1)(统编版+含答案解析)
- 厂区保安培训试题及答案
- 2025年消防设施操作员(中级)职业技能鉴定参考试题库(500题含答案)
- 购销库尔勒香梨合同协议
- 2025年山东交通技师学院招聘笔试试题(附答案)
- (三模)豫西北教研联盟 (平许洛济)2024-2025学年高三第三次质量检测英语试卷(含答案)
- 2025年海淀高三二模语文试题及答案
- 2025年智能型低压电器、智能型低压开关柜项目可行性研究方案
- 三方合伙开店协议合同
- 《紧急多发伤的临床救治》课件
- 2025年危险品水路运输从业资格考试复习题库-上(单选题)
评论
0/150
提交评论