版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据文件的建立和管理数据文件的建立和管理1 数据分析基础与实践数据分析基础与实践 w导论导论 SPSS统计分析软件简介统计分析软件简介 w第第1章章 数据文件的建立和管理数据文件的建立和管理 w第第2章章 数据预处理数据预处理 w第第3章章 描述性统计分析描述性统计分析 w第第4章章 SPSS中图形的绘制中图形的绘制 w第第5章章 SPSS中表格的绘制中表格的绘制 w第第6章章 SPSS中输出的使用中输出的使用 w第第7章章 问卷分析问卷分析 w第第8章章 参数检验参数检验 w第第9章章 相关分析相关分析 w第第10章章 回归分析回归分析 数据文件的建立和管理数据文件的建立和管理2 导言导言
2、SPSS统计分析软件简介统计分析软件简介 w一、一、 SPSS统计分析软件的发展统计分析软件的发展 wSPSS最初是最初是statistical package for the social sciences 的缩写,即社会统计学软件包。的缩写,即社会统计学软件包。 w2000年年SPSS 公司正式将英文全称更改为公司正式将英文全称更改为statistical products and service solutions,意为意为“统计产品与服务解统计产品与服务解 决方案决方案”,标志着,标志着SPSS的战略方向作出了重大调整。的战略方向作出了重大调整。 w2009年,年, SPSS 公司将四
3、大产品(公司将四大产品(statistics family, modeling family, data collection family, deployment family)整合到一个综合平台,把四类产品统一加上)整合到一个综合平台,把四类产品统一加上PASW 前缀(前缀(Predivtive Analysis Software),喻意),喻意SPSS的发的发 展方向为预测分析领域。展方向为预测分析领域。 数据文件的建立和管理数据文件的建立和管理3 wPASW18.0是目前较新的中文版本是目前较新的中文版本 wSPSS是世界上最早的统计分析软件,由美是世界上最早的统计分析软件,由美 国斯
4、坦福大学的三位研究生(国斯坦福大学的三位研究生( Norman Nie 、 Bent、Hull)于)于20世纪世纪60年代末开发出来的,年代末开发出来的, 并由其中的两位创始人并由其中的两位创始人Norman Nie和和 Hull于于1975年在芝加哥成立年在芝加哥成立SPSS公司。公司。 w目前,目前,SPSS已有已有40多年的历史,全球约有多年的历史,全球约有 25万家用户,分布于通信、医疗、银行、证万家用户,分布于通信、医疗、银行、证 券、保险、制造、商业、市场研究、科研教券、保险、制造、商业、市场研究、科研教 育等多个领域,是世界上最广泛的专业统计育等多个领域,是世界上最广泛的专业统计
5、 分析软件之一。分析软件之一。 数据文件的建立和管理数据文件的建立和管理4 二、SPSS版本与授权 SPSS 18.0 于于2009年年8月发布(尽管官方已经更名为月发布(尽管官方已经更名为IBM SPSS Statistics,但软件发行早于新名称,因此,仍然沿,但软件发行早于新名称,因此,仍然沿 用用PASW Statistics名称)名称) wSPSS 17.0.2 于于2009年年3月发布月发布 wSPSS 17.0.1 于于2008年年12月发布月发布 wSPSS 16.0.2 于于2008年年4月发布月发布 wSPSS 15.0.1 于于2006年年11月发布月发布 wSPSS 1
6、4.0 于于2005年发布年发布 wSPSS 13.0 于于2004年发布年发布 wSPSS 12.0 于于2003年发布年发布 wSPSS 11.0 于于2001年年11月发布月发布 w虽然产品的名称历经变迁,但是软件自身的统计分析功能变虽然产品的名称历经变迁,但是软件自身的统计分析功能变 化不大。化不大。 数据文件的建立和管理数据文件的建立和管理5 三、三、SPSS统计分析软件的特点统计分析软件的特点 wSPSS是世界上最早采用图形菜单驱动界面是世界上最早采用图形菜单驱动界面 的统计软件,其最突出的特点是操作界面友的统计软件,其最突出的特点是操作界面友 好,输出结果美观。使用好,输出结果美
7、观。使用windows窗口展示窗口展示 出各种管理和分析数据的功能,以对话框方出各种管理和分析数据的功能,以对话框方 式展示出各种功能选择项。用户只要掌握一式展示出各种功能选择项。用户只要掌握一 定的定的windows操作技能,粗通统计分析原理,操作技能,粗通统计分析原理, 就可以使用该软件为特定的科研工作服务,就可以使用该软件为特定的科研工作服务, 或者进行企业级的数据分析。或者进行企业级的数据分析。 wSPSS的主要特点如下:的主要特点如下: 数据文件的建立和管理数据文件的建立和管理6 w(1)操作简单(菜单、按钮、对话框)操作简单(菜单、按钮、对话框) w(2)无需编程)无需编程 w(3
8、)功能强大)功能强大 w(4)方便的数据接口)方便的数据接口 w能够读取及输出多种格式的文件,如能够读取及输出多种格式的文件,如.dbf文件、文件、.xsl文文 件、件、.txt文件、文件、PDF文件、文件、word文件、文件、Power Point 文件等。文件等。 w(5)灵活的功能模块组合)灵活的功能模块组合 wSPSS for windows 软件分为若干功能模块。用户可以根据软件分为若干功能模块。用户可以根据 自己的分析需要和计算机的配置灵活选择。自己的分析需要和计算机的配置灵活选择。 w(6)与其他程序的无缝结合)与其他程序的无缝结合 wSPSS统计分析可以调用开源统计分析软件统计
9、分析可以调用开源统计分析软件R或者开源高级或者开源高级 程序语言程序语言python的功能模块,实现关联分析等功能。的功能模块,实现关联分析等功能。 数据文件的建立和管理数据文件的建立和管理7 第第1章章 数据文件的建立和管理数据文件的建立和管理 w开始开始SPSS w默认情况下,首先弹出默认情况下,首先弹出SPSS开始界面对话开始界面对话 窗口。窗口。 w左边有左边有【打开现有数据源打开现有数据源】【】【打开其他文件打开其他文件 类型类型】两栏两栏 w右边有右边有【运行教程运行教程】【】【输入数据输入数据】【】【运行现运行现 有查询有查询】【】【使用数据库向导创建新查询使用数据库向导创建新查
10、询】四四 个选项个选项 w可以选择可以选择【取消取消】直接进入数据编辑窗口直接进入数据编辑窗口 数据文件的建立和管理数据文件的建立和管理8 wSPSS数据编辑窗口数据编辑窗口 标题栏 菜单栏菜单栏 工具栏 编辑栏编辑栏 变量名称栏变量名称栏 内容区内容区 窗口切换标签栏窗口切换标签栏 状态栏状态栏 数据文件的建立和管理数据文件的建立和管理9 w菜单栏中的选项及功能:菜单栏中的选项及功能: w文件文件-有关文件的建立、打开、存储、显示和替换有关文件的建立、打开、存储、显示和替换 等。等。 w编辑编辑-有关文本内容的选择、剪切、复制、粘贴、有关文本内容的选择、剪切、复制、粘贴、 查找和替换等。查找
11、和替换等。 w视图视图-有关状态栏、工具条、网络线是否显示,以有关状态栏、工具条、网络线是否显示,以 及数据显示的字体类型、大小等设置。及数据显示的字体类型、大小等设置。 w数据数据-有关数据变量定义、观察对象的选择、排序、有关数据变量定义、观察对象的选择、排序、 加权、数据文件的转换、连接和汇总等。加权、数据文件的转换、连接和汇总等。 w转换转换-有关数值的计算、变量组段的划分、重新赋有关数值的计算、变量组段的划分、重新赋 值和缺失值替代等。值和缺失值替代等。 w分析分析-有关统计分析方法的应用。有关统计分析方法的应用。 w图形图形-有关统计图表的制作。有关统计图表的制作。 w实用程序实用程
12、序-有关用户对软件的应用和设置等。有关用户对软件的应用和设置等。 w窗口窗口-有关窗口的排列、选择和显示等。有关窗口的排列、选择和显示等。 w帮助帮助-有关帮助文件的调用、查找和显示等有关帮助文件的调用、查找和显示等 数据文件的建立和管理数据文件的建立和管理10 SPSS的结果输出窗口的结果输出窗口 w结果输出窗口是显示和管理结果输出窗口是显示和管理SPSS统计分析统计分析 结果、报表及图形的窗口,由标题栏、菜单结果、报表及图形的窗口,由标题栏、菜单 栏、工具栏、内容区和状态栏组成栏、工具栏、内容区和状态栏组成 数据文件的建立和管理数据文件的建立和管理11 数据文件的建立和管理数据文件的建立和
13、管理12 1、数据文件的建立和数据录入、数据文件的建立和数据录入 w首先从一个简单的例题入手首先从一个简单的例题入手 w例题例题1-1 下表是某保险机构收集的车险投保下表是某保险机构收集的车险投保 人数据,请根据数据特点建立人数据,请根据数据特点建立SPSS数据文数据文 件,命名为例题件,命名为例题1-1 数据文件的建立和管理数据文件的建立和管理13 性别性别年龄年龄交通事交通事 故故 性别性别年龄年龄交通事交通事 故数故数 男男232女女251 男男351女女243 男男261女女311 男男250女女260 男男282女女260 男男311女女290 男男231女女222 男男313女女2
14、55 数据文件的建立和管理数据文件的建立和管理14 w市场调查收集到的数据资料,在正式录入到市场调查收集到的数据资料,在正式录入到 SPSS软件之前,需完成统计变量的定义。软件之前,需完成统计变量的定义。 变量定义在变量定义在SPSS的变量视图中完成,内容的变量视图中完成,内容 包括:包括: w变量名称、变量类型、变量宽度、小数位数、变量名称、变量类型、变量宽度、小数位数、 变量标签、值标签、缺失值、列宽度、对齐变量标签、值标签、缺失值、列宽度、对齐 方式和测量精度方式和测量精度 数据文件的建立和管理数据文件的建立和管理15 w第一步,进入第一步,进入SPSS,越过导航框(点击,越过导航框(点
15、击 【取消取消】,或者点击,或者点击【输入数据输入数据】),进入),进入 软件数据编辑器窗口。软件数据编辑器窗口。 w第二步,点击左下角的第二步,点击左下角的【变量视图变量视图】标签,标签, 定义文件的数据结构定义文件的数据结构 w第三步,录入数据第三步,录入数据 w注意:在建立数据文件时,好的习惯是先定注意:在建立数据文件时,好的习惯是先定 义数据结构,再输入数据义数据结构,再输入数据 wSPSS数据格式每行是一个记录,每列是一数据格式每行是一个记录,每列是一 个变量。个变量。 数据文件的建立和管理数据文件的建立和管理16 w1.1 数据文件结构数据文件结构 w单击变量视图,在此界面中定义变
16、量,每一单击变量视图,在此界面中定义变量,每一 行代表一个变量。行代表一个变量。 w名称名称必须以英文字母开头,其他部分可必须以英文字母开头,其他部分可 以是英文字母、数字和下划线,但不推荐使以是英文字母、数字和下划线,但不推荐使 用中文作为变量名,尽量避免和用中文作为变量名,尽量避免和SPSS已有已有 的关键字重复,如的关键字重复,如sum等,最长等,最长64个英文字个英文字 母或母或32个汉字,变量名不区分大小写。个汉字,变量名不区分大小写。 w类型类型一共一共8种,一般使用数值型(注意:种,一般使用数值型(注意: 字符串变量不能用字符串变量不能用SPSS进行分析,且区分进行分析,且区分
17、大小写)大小写) 数据文件的建立和管理数据文件的建立和管理17 w1.数值型数值型常用的有尺度、序号、名义三常用的有尺度、序号、名义三 种类型,要定义数据总宽度和小数的位数,种类型,要定义数据总宽度和小数的位数, 默认宽度默认宽度8,小数为,小数为2。 w逗号逗号即整数部分用逗号分割的数值,在即整数部分用逗号分割的数值,在 整数部分,从个位算起,每三位数用一个逗整数部分,从个位算起,每三位数用一个逗 号。小数点仍然为号。小数点仍然为“.”。 w点点即整数部分用点分隔的数值。在整数即整数部分用点分隔的数值。在整数 部分,从个位算起,每三位数用一个点分隔,部分,从个位算起,每三位数用一个点分隔,
18、小数点为小数点为“,”。 w日期日期日期型数据。日期型数据。 数据文件的建立和管理数据文件的建立和管理18 w美元美元数据前有美元符号。可以选择具体数据前有美元符号。可以选择具体 数据的呈现形式。数据的呈现形式。 w设定货币设定货币选用客户设定的货币格式。在选用客户设定的货币格式。在 应用该选项前,需要预先在选项中设置(选应用该选项前,需要预先在选项中设置(选 择择【编辑编辑】-【选项选项】,然后选择货币标签),然后选择货币标签), 否则该格式不起作用。否则该格式不起作用。 w字符串字符串如果变量或者属性属于字符型数如果变量或者属性属于字符型数 据,则需将变量定义为字符型。据,则需将变量定义为
19、字符型。 数据文件的建立和管理数据文件的建立和管理19 w列宽度列宽度即数据窗口显示的变量宽度,该即数据窗口显示的变量宽度,该 数值决定了你能输入的字符串长度。用户定数值决定了你能输入的字符串长度。用户定 义的窗口显示列宽度应大于或等于设定的变义的窗口显示列宽度应大于或等于设定的变 量宽度,若变量宽度大于列宽度,则输入的量宽度,若变量宽度大于列宽度,则输入的 数值显示时可能被截去尾数或无法正常显示;数值显示时可能被截去尾数或无法正常显示; 若变量名称长度大于列宽度,则变量名称在若变量名称长度大于列宽度,则变量名称在 数据窗口中显示不完全。数据窗口中显示不完全。 数据文件的建立和管理数据文件的建
20、立和管理20 w标签标签作用巨大,实质是变量的含义,要养成给作用巨大,实质是变量的含义,要养成给 变量加标签的习惯。变量加标签的习惯。 w值值对于分类变量,通常用数字代表类别,如例对于分类变量,通常用数字代表类别,如例 子中的性别变量用子中的性别变量用1代表男,代表男,2代表女代表女 w度量标准度量标准有三种有三种 w度量(度量(scale,尺度数据)尺度数据)数据有大小之分,并数据有大小之分,并 且数值的差代表差异程度,如且数值的差代表差异程度,如“年龄年龄”、“交通事交通事 故次数故次数”等等 w序号(序号(ordinal,顺序数据)顺序数据)取值有大小之分,取值有大小之分, 但变量值仅表
21、示顺序,差值不代表差异程度,如职但变量值仅表示顺序,差值不代表差异程度,如职 称高低,学历高低等称高低,学历高低等 w名义(名义(nominal,名义数据)名义数据)变量取值没有大小变量取值没有大小 之分,如用之分,如用1和和2代表男和女代表男和女 数据文件的建立和管理数据文件的建立和管理21 w缺失值缺失值在实际的调查和研究中,往往会在实际的调查和研究中,往往会 因为某些原因导致记录的数据失真或者没有因为某些原因导致记录的数据失真或者没有 调查到实际数据,这些称为缺失值。对数值调查到实际数据,这些称为缺失值。对数值 型变量,默认的缺失值为零;对字符型变量,型变量,默认的缺失值为零;对字符型变
22、量, 默认的缺失值为空格。用户可以自定义缺失默认的缺失值为空格。用户可以自定义缺失 值的标记。定义为缺失值的数字,虽然仍会值的标记。定义为缺失值的数字,虽然仍会 显示在对应的变量中,但不参与统计分析。显示在对应的变量中,但不参与统计分析。 w变量角色变量角色SPSS18.0开始引入的一个数据开始引入的一个数据 属性,用来指定该变量在在建模中的角色属性,用来指定该变量在在建模中的角色 (输入、目标或不进入建模等)。(输入、目标或不进入建模等)。 数据文件的建立和管理数据文件的建立和管理22 w1.2 数据录入数据录入 w在数据视图窗口录入数据,每一行代表一个在数据视图窗口录入数据,每一行代表一个
23、 个案,每一列代表一个变量。个案,每一列代表一个变量。 w按单元格输入数据按单元格输入数据要输入某个观测量的要输入某个观测量的 某个变量值,可以将鼠标指针移动到相应单某个变量值,可以将鼠标指针移动到相应单 元格,单击鼠标,被定位的单元格边框加黑元格,单击鼠标,被定位的单元格边框加黑 显示,也可用键盘的方向键将加黑的单元格显示,也可用键盘的方向键将加黑的单元格 移到相应的位置,输入数据。移到相应的位置,输入数据。 w按变量输入数据按变量输入数据定义了一个变量,可以定义了一个变量,可以 马上输入该变量的数值。一般是从第一个变马上输入该变量的数值。一般是从第一个变 量值开始输入。将输入单元格定位于该
24、变量量值开始输入。将输入单元格定位于该变量 与第一个观测量的交叉点单元格,输入变量与第一个观测量的交叉点单元格,输入变量 的第一个值,然后按回车键或者向下箭头。的第一个值,然后按回车键或者向下箭头。 数据文件的建立和管理数据文件的建立和管理23 w按观测量输入数据按观测量输入数据首先将观测量最首先将观测量最 左边的单元格启动,输入该观测量的第左边的单元格启动,输入该观测量的第 一个变量值,然后按一个变量值,然后按Tab键或者向右箭头,键或者向右箭头, 启动右边第一个单元格。启动右边第一个单元格。 w网格线显示设置网格线显示设置用户可以根据自己用户可以根据自己 的习惯显示或隐藏数据编辑窗口中的单
25、的习惯显示或隐藏数据编辑窗口中的单 元格网格线。选择元格网格线。选择“视图视图”下拉菜单中下拉菜单中 的的“网格线网格线”,当前面带有,当前面带有“时,显时,显 示网格线,否则隐藏网格线。示网格线,否则隐藏网格线。 数据文件的建立和管理数据文件的建立和管理24 w数据录入的一些技巧:数据录入的一些技巧: w复制和粘贴复制和粘贴 w在在excel或其他数据库文件,可以直接在或其他数据库文件,可以直接在 excel中使用复制,在中使用复制,在SPSS第一个单元格,第一个单元格, 使用粘贴,注意要补充定义变量结构使用粘贴,注意要补充定义变量结构 wWord文件格式中,也可以使用复制和粘贴,文件格式中
26、,也可以使用复制和粘贴, 不过必须全部是数值,否则不过必须全部是数值,否则SPSS会编织成会编织成 系统缺失值。系统缺失值。 数据文件的建立和管理数据文件的建立和管理25 第第1次作业次作业 w本章练习:本章练习:13 w将作业发送到,并自行保存该文件,留待以将作业发送到,并自行保存该文件,留待以 后作业用。后作业用。 w邮件名称为邮件名称为“姓名(第一次作业)姓名(第一次作业)”,例如,例如 “孙伟(第一次作业)孙伟(第一次作业)” w邮件有发送时间,以本次课的时间为准邮件有发送时间,以本次课的时间为准 数据文件的建立和管理数据文件的建立和管理26 1.3数据的编辑数据的编辑 w1.3.1
27、数据的定位数据的定位 w选择选择“编辑编辑”“转至个案转至个案”,在对话框中输入要查找,在对话框中输入要查找 的观测量序号,或选择要转向的变量名称,即可定位于的观测量序号,或选择要转向的变量名称,即可定位于 相应的单元格或列相应的单元格或列 w1.3.2 数据的增加数据的增加 w1)插入一列)插入一列 w用鼠标左键单击某一列的变量名,即可选中这一列,然用鼠标左键单击某一列的变量名,即可选中这一列,然 后选择后选择“编辑编辑”“插入变量插入变量”(或单击鼠标右键,选(或单击鼠标右键,选 择插入变量),系统将自动在这一列前插入一个新的变择插入变量),系统将自动在这一列前插入一个新的变 量列。量列。
28、 w2)插入一行)插入一行 w用鼠标左键单击某一行的序号,即可选中这一行,然后用鼠标左键单击某一行的序号,即可选中这一行,然后 选择选择“编辑编辑”“插入个案插入个案”(或单击鼠标右键,选择(或单击鼠标右键,选择 插入个案),系统将自动在这一行前插入一个新的记录插入个案),系统将自动在这一行前插入一个新的记录 行。行。 数据文件的建立和管理数据文件的建立和管理27 w1.3.3 数据的删除数据的删除 w1)删除一列)删除一列 w用鼠标左键单击需要删除列的变量名,即可选中这用鼠标左键单击需要删除列的变量名,即可选中这 一列,然后选择一列,然后选择“编辑编辑”“清除清除”(或单击鼠标(或单击鼠标
29、右键选择清除,或按右键选择清除,或按Delete键),该列即被删除。键),该列即被删除。 w2)删除一行)删除一行 w用鼠标左键单击需要删除行的序号,即可选中这一用鼠标左键单击需要删除行的序号,即可选中这一 行,然后选择行,然后选择“编辑编辑”“清除清除”(或单击鼠标右(或单击鼠标右 键选择清除,或按键选择清除,或按Delete键),该行即被删除。键),该行即被删除。 w1.3.4 数据的排序数据的排序 w选择选择“数据数据”“排序个案排序个案”,在对话框中选择要,在对话框中选择要 排序的变量,然后选择升序或降序;或者选中一列排序的变量,然后选择升序或降序;或者选中一列 后,单击右键选择升序排
30、序或降序排序,即可实现后,单击右键选择升序排序或降序排序,即可实现 各观测量按选定变量值重新排序。各观测量按选定变量值重新排序。 数据文件的建立和管理数据文件的建立和管理28 w例题:数据文件例题:数据文件1-1.sav中,记录了车险投保中,记录了车险投保 人的数据,要求了解如下情况:人的数据,要求了解如下情况: w(1)车险投保人交通事故的大体情况;)车险投保人交通事故的大体情况; w(2)不同性别、不同年龄的车险投保人交通)不同性别、不同年龄的车险投保人交通 事故大体情况。事故大体情况。 w操作:打开数据操作:打开数据1-1,选择,选择【数据数据】-【排序排序 个案个案】,将,将accid
31、s(交通事故数)选入右边(交通事故数)选入右边 排序变量框,选择升序,单击排序变量框,选择升序,单击【确定确定】 w当排序变量只有一个时,可以直接选中要排当排序变量只有一个时,可以直接选中要排 序的变量,右键选择序的变量,右键选择【升序排序升序排序】实现实现 数据文件的建立和管理数据文件的建立和管理29 w第第2个问题涉及多个变量排序,操作和第一个个问题涉及多个变量排序,操作和第一个 问题相似,将性别,年龄,交通事故三个变问题相似,将性别,年龄,交通事故三个变 量依次选入排序变量框,注意顺序不能交换量依次选入排序变量框,注意顺序不能交换 (SPSS首先按第首先按第1个变量排序,变量相同时个变量
32、排序,变量相同时 按第按第2个变量排序,个变量排序,.),点击),点击【升序升序】按按 钮,点击钮,点击【确定确定】 数据文件的建立和管理数据文件的建立和管理30 w1.3.5 数据的转置数据的转置 wSPSS可以将数据编辑器中打开的数据实现行列转可以将数据编辑器中打开的数据实现行列转 换。换。 w操作过程为:选择操作过程为:选择【数据数据】【转置转置】,将原来的,将原来的 数据文件进行行列转置,转置后将生成一个新的数数据文件进行行列转置,转置后将生成一个新的数 据文件据文件 w数据转置时需注意以下几点:数据转置时需注意以下几点: w(1)原文件的行变成新文件的列,原文件的列变)原文件的行变成
33、新文件的列,原文件的列变 成新文件的行。成新文件的行。 w(2)原文件中未被选择的变量将在新文件中遗漏。)原文件中未被选择的变量将在新文件中遗漏。 w(3)原文件中各列顶部的变量名称被转到新文件)原文件中各列顶部的变量名称被转到新文件 中的第一列,并成为中的第一列,并成为CASE_LBL中的数据。中的数据。 数据文件的建立和管理数据文件的建立和管理31 w(4)原文件中的字符型变量和日期型变量将)原文件中的字符型变量和日期型变量将 变为数值型变量。变为数值型变量。 w(5)在新文件中,)在新文件中,SPSS将依据选择的将依据选择的“名名 称变量称变量”自动为变量命名。自动为变量命名。 数据文件
34、的建立和管理数据文件的建立和管理32 w1.3.6 变量重赋值变量重赋值 w变量重赋值也可称为变量分组,处理的对象主要是变量重赋值也可称为变量分组,处理的对象主要是 尺度变量(另外两种用的比较少),依据一定的规尺度变量(另外两种用的比较少),依据一定的规 则,将尺度变量进行分组重新赋值,形成一个新的则,将尺度变量进行分组重新赋值,形成一个新的 顺序尺度变量,再基于此进行其他数据分析顺序尺度变量,再基于此进行其他数据分析 w例题:将数据例题:将数据2-1.sav进行分组,要求按年龄段分组,进行分组,要求按年龄段分组, 其中其中30岁以下为第岁以下为第1组,组,3040岁为第岁为第2组,组,405
35、0 为第为第3组,组,50岁以上为第岁以上为第4组。组。 w步骤:打开数据文件步骤:打开数据文件2-1.sav w选择选择【转换转换】-【重新编码为不同变量重新编码为不同变量】 w将变量将变量age通过箭头选入重赋值变量框中,将右边通过箭头选入重赋值变量框中,将右边 输出变量框下名称中输入输出变量框下名称中输入ageint,标签为,标签为“投保人投保人 年龄段年龄段”,点击,点击【更改更改】 数据文件的建立和管理数据文件的建立和管理33 w单击单击【旧值和新值旧值和新值】,在对话框右边,在对话框右边【值值】 框中填写框中填写1,左边选择从无穷小到,左边选择从无穷小到29,单击,单击 【添加添加
36、】.,最后,最后【确定确定】 w定义定义ageint的变量结构,调整的变量结构,调整 “值值”和变量和变量 结构。结构。 数据文件的建立和管理数据文件的建立和管理34 w1.3.7 数据的分类汇总数据的分类汇总 w当全部记录分为不同组别时,可对每组记录的各数当全部记录分为不同组别时,可对每组记录的各数 值求取指定的描述统计量。值求取指定的描述统计量。 w操作过程为:选择操作过程为:选择【数据数据】【分类汇总分类汇总】, 其结其结 果将存入一个新的文件果将存入一个新的文件 w例题例题2: 利用车险投保交通事故数据利用车险投保交通事故数据2-1,根据性别,根据性别 和年龄段,对交通事故数进行分类汇
37、总并计算每类和年龄段,对交通事故数进行分类汇总并计算每类 的均值。的均值。 w按性别分类汇总:选择按性别分类汇总:选择【数据数据】【分类汇总分类汇总】,将将 性别选入性别选入“分组变量框分组变量框”,将交通事故数选入,将交通事故数选入“汇汇 总变量框总变量框”,单击,单击【函数函数】进入下一步,选择均值,进入下一步,选择均值, 单击单击【继续继续】返回,可以点击返回,可以点击【变量名标签变量名标签】为汇为汇 总变量加变量名标签,若勾选总变量加变量名标签,若勾选【个案数个案数】,则会在,则会在 结果中汇总分类数据的总数结果中汇总分类数据的总数 数据文件的建立和管理数据文件的建立和管理35 w对话
38、框下半部分选择文件储存方式,共三种,对话框下半部分选择文件储存方式,共三种, 不推荐第一种,可以选择后两种。不推荐第一种,可以选择后两种。 w第一种存储方式,将汇总变量加入当前数据第一种存储方式,将汇总变量加入当前数据 集,会导致汇总后的数据结果和当前大不相集,会导致汇总后的数据结果和当前大不相 同,甚至会出现错误,所以不推荐使用。同,甚至会出现错误,所以不推荐使用。 w第二种存储方式,汇总结果保存在新形成的第二种存储方式,汇总结果保存在新形成的 数据文件中,需要给新形成的数据文件命名,数据文件中,需要给新形成的数据文件命名, 这个数据文件是打开的。本题选择这一项,这个数据文件是打开的。本题选
39、择这一项, 并命名为并命名为agg1 w第三种存储方式和第二种相似,不同的是新第三种存储方式和第二种相似,不同的是新 形成的数据文件是关闭的,需要另行打开。形成的数据文件是关闭的,需要另行打开。 数据文件的建立和管理数据文件的建立和管理36 w结果分析结果分析:从新生成的文件从新生成的文件agg1,可以看出,可以看出 平均交通事故次数男性平均交通事故次数男性1.98大于女性大于女性1.47 w按年龄段汇总数据的做法和刚才按性别汇总按年龄段汇总数据的做法和刚才按性别汇总 的操作类似,将性别变量换为年龄段变量,的操作类似,将性别变量换为年龄段变量, 其他相同,学生自己实验。其他相同,学生自己实验。
40、 数据文件的建立和管理数据文件的建立和管理37 w1.3.8 根据已有变量建立新变量根据已有变量建立新变量 w在进行数据的分析处理时,往往需要根据已在进行数据的分析处理时,往往需要根据已 经存在的变量建立新变量,这一项工作可以经存在的变量建立新变量,这一项工作可以 直接通过直接通过SPSS 的的“计算变量计算变量”功能得以实功能得以实 现。现。 w操作:选择操作:选择【转换转换】 【计算变量计算变量】,在对,在对 话框中输入目标变量的名称及数学表达式,话框中输入目标变量的名称及数学表达式, 即可求取新变量即可求取新变量 w例题例题3:数据:数据2-2记录了某银行客户的家庭收记录了某银行客户的家
41、庭收 入负债数据,请基于此数据计算储户的信用入负债数据,请基于此数据计算储户的信用 得分,假设信用得分得分,假设信用得分=净收入净收入+工作年限工作年限*3+ 居住年限居住年限-是否违约是否违约*30 数据文件的建立和管理数据文件的建立和管理38 w步骤步骤1:打开数据文件:打开数据文件2-2.sav w步骤步骤2:选择:选择【转换转换】-【计算变量计算变量】 w步骤步骤:3:完成变量相关设置:完成变量相关设置 w 输入目标输入目标【变量名称变量名称】,并为其添加,并为其添加【标签标签 与类型与类型】,在利用函数表达式计算目标变量。,在利用函数表达式计算目标变量。 数据文件的建立和管理数据文件
42、的建立和管理39 w1.3.9 数据的计数数据的计数 w计算若干变量中有那几个变量的值落在指定计算若干变量中有那几个变量的值落在指定 区间内。区间内。 w例题:数据例题:数据2-2中对年龄、受教育程度、收入中对年龄、受教育程度、收入 违约情况进行计数,年龄计数的区间是违约情况进行计数,年龄计数的区间是 3545,受教育程度的计数区间是大专以上,受教育程度的计数区间是大专以上, 收入的计数区间是收入的计数区间是100以上,违约情况的计以上,违约情况的计 数区间是无违约。数区间是无违约。 数据文件的建立和管理数据文件的建立和管理40 w操作操作: 打开数据文件打开数据文件2-2,选择,选择【转换转
43、换】-【对个案中对个案中 的值计数的值计数】 w建立计数结果变量建立计数结果变量“countnumber”,标签为,标签为“计计 数结果变量数结果变量” w分别将年龄、教育水平、家庭收入、是否曾经违约分别将年龄、教育水平、家庭收入、是否曾经违约 四个变量选入计数变量框。四个变量选入计数变量框。 w单击单击【定义值定义值】,指定计数期间,指定计数期间 w由于由于“年龄年龄”变量取值为变量取值为3545,因此计数区间为,因此计数区间为 第第4种类型,在两个框中填写种类型,在两个框中填写35、45,单击,单击“添加添加” 按钮,就将计数区间指定好了;同理,可以指定按钮,就将计数区间指定好了;同理,可
44、以指定 “受教育程度受教育程度”的计数区间为第的计数区间为第4种类型的种类型的3到到5, 选定选定“收入收入”的计数区间为第的计数区间为第6种,种,100到无穷,指到无穷,指 定定“是否违约是否违约”为第为第1种类型,取值为种类型,取值为0。 数据文件的建立和管理数据文件的建立和管理41 w【注意注意】要保证计数期间是互不相交的,因要保证计数期间是互不相交的,因 为为SPSS在计数时,对于每个变量都要依次在计数时,对于每个变量都要依次 检验是否满足指定的计数区间,因此,务必检验是否满足指定的计数区间,因此,务必 保证每个变量最多只能满足一个计数区间,保证每个变量最多只能满足一个计数区间, 例如
45、,例如,“受教育程度受教育程度”就不能指定为就不能指定为3到无穷到无穷 大,如果这样指定,年龄就会满足这个计数大,如果这样指定,年龄就会满足这个计数 区间,此时,计数就会比实际多一次。区间,此时,计数就会比实际多一次。 w如果变量之间的计数期间有可能重合,可以如果变量之间的计数期间有可能重合,可以 定义几个计数变量,再通过变量计算求和。定义几个计数变量,再通过变量计算求和。 数据文件的建立和管理数据文件的建立和管理42 w1.3.10 数据文件的拆分数据文件的拆分 w数据拆分将数据分成几个部分,拆分后,整数据拆分将数据分成几个部分,拆分后,整 体文件变成若干个体文件变成若干个“子文件子文件”,
46、操作将按,操作将按 “子文件子文件”分别显示分析结果。拆分文件的分别显示分析结果。拆分文件的 关键是选择关键是选择“拆分变量拆分变量”, “拆分变量拆分变量”必必 须是名义或序号变量。须是名义或序号变量。 w例题:将数据例题:将数据2-1,按年龄段进行数据拆分,按年龄段进行数据拆分, 计算交通事故数的均值,标准差和中位数。计算交通事故数的均值,标准差和中位数。 数据文件的建立和管理数据文件的建立和管理43 w操作:打开数据文件操作:打开数据文件2-1.sav w选择选择【数据数据】-【拆分文件拆分文件】 w在分割文件对话框中,选择在分割文件对话框中,选择【比较组比较组】,将投保人,将投保人 年
47、龄段年龄段ageint变量通过箭头选入拆分变量框变量通过箭头选入拆分变量框 w注意:注意:“分析所有个案,不创建组分析所有个案,不创建组”表示数据文件表示数据文件 不用拆分,这是默认选项;不用拆分,这是默认选项; w“比较组比较组”表示拆分后各组的分析结果输出到同一表示拆分后各组的分析结果输出到同一 表格中,便于不同结果的比较;表格中,便于不同结果的比较; w“按组组织输出按组组织输出”表示将拆分后各组的分析结果输表示将拆分后各组的分析结果输 出到不同的表格中,这样便于存储。这里选择出到不同的表格中,这样便于存储。这里选择“比比 较组较组” 数据文件的建立和管理数据文件的建立和管理44 w选择
48、对话框下方的有序选项,如果拆分前数据已经选择对话框下方的有序选项,如果拆分前数据已经 按照拆分变量取值大小排序,则选择按照拆分变量取值大小排序,则选择“文件已排文件已排 序序”,如果没有排序,则选择第一项。,如果没有排序,则选择第一项。 w点击点击【确定确定】 w选择选择【分析分析】-【描述统计描述统计】-【频率频率】选择要统计选择要统计 的变量的变量 “事故数事故数”,点击对话框右边的,点击对话框右边的【统计量统计量】, 勾选均值、标准差、中位数三个统计量,点击勾选均值、标准差、中位数三个统计量,点击【确确 定定】 w输出对话框中将出现文件拆分后各统计量的结果。输出对话框中将出现文件拆分后各
49、统计量的结果。 w如果要取消数据拆分,只需要重新选择数据拆分,如果要取消数据拆分,只需要重新选择数据拆分, 在对话框中选择在对话框中选择“分析所有个案,不创建组分析所有个案,不创建组”,点,点 击击“确定确定”后即可。后即可。 数据文件的建立和管理数据文件的建立和管理45 w1.3.11 数据的选取数据的选取 w主要目的是选出部分数据进行分析主要目的是选出部分数据进行分析 w例题:对数据文件例题:对数据文件2-1.sav进行选取,进行选取,1.选取年龄在选取年龄在 3545岁的保险人;岁的保险人;2. 随机选取随机选取20%的数据;的数据;3.选选 取第取第120号到号到220号的数据。号的数
50、据。 w操作:第操作:第1问,打开数据文件问,打开数据文件2-1.sav ,选择,选择【数据数据】 -【选择个案选择个案】,单击对话框选择第,单击对话框选择第2个选项个选项“如果如果 条件满足条件满足”,单击,单击【如果如果】,在新出现的对话框中,在新出现的对话框中 输入输入age=35&age=45,单击,单击【继续继续】,返回后,返回后 单击单击【确定确定】,则原文件中出现变量,则原文件中出现变量“filter_$”,被,被 选中的个案标记为选中的个案标记为“selected”,其余标记为其余标记为“not selected”,被删除的个案的序号也有体现,出现,被删除的个案的序号也有体现,
51、出现 斜线。斜线。 数据文件的建立和管理数据文件的建立和管理46 w第第2问,问,【数据数据】-【选择个案选择个案】,单击对话,单击对话 框选择第框选择第3个选项个选项“随机选择样本随机选择样本”,单击,单击 【样本样本】,选第一个选项,填入选第一个选项,填入 “20” %,单,单 击击【继续继续】,返回后单击,返回后单击【确定确定】,原文件,原文件 中出现随机选择的结果。中出现随机选择的结果。 w第第3问,问, 【数据数据】-【选择个案选择个案】,单击对话,单击对话 框选择第框选择第4个选项个选项“基于时间或个案全距基于时间或个案全距”, 单击单击【范围范围】,在对话框中输入,在对话框中输入
52、120和和220, 单击单击【继续继续】,返回后单击,返回后单击【确定确定】。 w变量视图中的变量视图中的“filter”变量,取值为变量,取值为0表示被表示被 过滤掉的案例;反之,取值为过滤掉的案例;反之,取值为1。 数据文件的建立和管理数据文件的建立和管理47 w对未选中的案例的处理,有对未选中的案例的处理,有3种选择,推荐使用第种选择,推荐使用第 一种一种 (默认选项)。(默认选项)。 w第一种,第一种,“过滤掉未选定的个案过滤掉未选定的个案”:对未选中的案:对未选中的案 例过滤,即保留未选中案例在数据中,但以后的分例过滤,即保留未选中案例在数据中,但以后的分 析将不涉及未选中案例,直到
53、取消数据选取为止析将不涉及未选中案例,直到取消数据选取为止 (在(在“选择个案选择个案”对话框中,选择对话框中,选择“全部个案全部个案”)。)。 w第二种,第二种,“将选定个案复制到新数据集将选定个案复制到新数据集”,原文件,原文件 保持不变,此时需要指定新数据集文件的名称。保持不变,此时需要指定新数据集文件的名称。 w第三种,第三种,“删除未选中案例删除未选中案例”,由于数据一旦删除,由于数据一旦删除, 就不能恢复,除非肯定未被选中的案例不再被使用就不能恢复,除非肯定未被选中的案例不再被使用 时,才能选择这一项。时,才能选择这一项。 数据文件的建立和管理数据文件的建立和管理48 1.4 数据
54、文件的合并数据文件的合并 w对于数量较大的数据,通常可以选择分两份对于数量较大的数据,通常可以选择分两份 (或几份)录入,如果变量不多且排列顺序(或几份)录入,如果变量不多且排列顺序 一致,可以同时打开两个数据文件,使用复一致,可以同时打开两个数据文件,使用复 制和粘贴实现文件的合并。制和粘贴实现文件的合并。 w但是,如果变量很多,且在两个文件中的排但是,如果变量很多,且在两个文件中的排 列顺序不同,则可以利用列顺序不同,则可以利用SPSS文件合并的文件合并的 功能。这里,分纵向合并与横向合并两种功能。这里,分纵向合并与横向合并两种 w纵向合并纵向合并添加个案添加个案 w例题例题:打开数据文件
55、打开数据文件1-1-1.sav和和1-1-2.sav, 合并两个文件合并两个文件 数据文件的建立和管理数据文件的建立和管理49 w先打开一个文件先打开一个文件1-1-1,点击,点击【数据数据】-【合合 并文件并文件】-【添加个案添加个案】选择需要合并的文件选择需要合并的文件 1-1-2(分已打开和没打开两种)点击(分已打开和没打开两种)点击【继继 续续】。当两个文件中的变量名一致时,。当两个文件中的变量名一致时, SPSS会自动配对;会自动配对; w当变量名称不一致时(将当变量名称不一致时(将1-1-2中的中的gender 改为改为sex),需要按),需要按ctrl键选中左边框中的非键选中左边
56、框中的非 成对变量,点击成对变量,点击【对对】,则,则SPSS就自动将就自动将 两个变量视为一个变量,名称默认为第一个两个变量视为一个变量,名称默认为第一个 文件中的变量名文件中的变量名gender。 数据文件的建立和管理数据文件的建立和管理50 w添加个案第添加个案第1个步骤中,选择要添加的文件个步骤中,选择要添加的文件 w在添加个案第在添加个案第2个步骤中的对话框中,左栏表个步骤中的对话框中,左栏表 示两个数据文件不匹配的变量,(示两个数据文件不匹配的变量,(*)表示来)表示来 自当前活动数据文件中的变量,(自当前活动数据文件中的变量,(+)表示要)表示要 和当前数据文件合并的数据文件中的
57、变量和当前数据文件合并的数据文件中的变量 w右栏表示两个数据文件都有的变量右栏表示两个数据文件都有的变量 w勾选勾选【将个案源表示为变量将个案源表示为变量】的默认值,即的默认值,即 选中该选项,表示在合并后的文件中生成一选中该选项,表示在合并后的文件中生成一 个新的变量,新变量中个新的变量,新变量中0表示当前文件,表示当前文件,1表表 示被合并文件中的变量。示被合并文件中的变量。 w点击点击【确定确定】 数据文件的建立和管理数据文件的建立和管理51 w例如,第一个文件中用例如,第一个文件中用gender表示性别,第表示性别,第 二个文件用二个文件用sex表示性别,则全部选中后,表示性别,则全部
58、选中后, 点击点击【对(对(A)】配对后形成配对后形成gender&sex变变 量量,变量名将默认为第一个文件中的变量名变量名将默认为第一个文件中的变量名 gender。 w或者利用或者利用【重命名(重命名(E)】将将sex改为改为 gender后,再合并。后,再合并。 数据文件的建立和管理数据文件的建立和管理52 w文件合并中的横向合并文件合并中的横向合并-添加变量添加变量 w例题:合并文件例题:合并文件1-1-3和和1-1-4 w操作中的关键操作中的关键,是要找到两个文件中相同的变量,即是要找到两个文件中相同的变量,即 关键变量,并且按照升序排序。个案之间是一一对关键变量,并且按照升序排序
59、。个案之间是一一对 应的,否则取系统缺失值。应的,否则取系统缺失值。 w打开两个需要合并的文件,找到两个文件中的关键打开两个需要合并的文件,找到两个文件中的关键 变量,并按升序排好序(变量,并按升序排好序(【数据数据】-【排序个案排序个案】) w首先,打开文件首先,打开文件1-1-3和和1-1-4,找到关键变量,找到关键变量“ID”, 按升序排序按升序排序 w以以1-1-3为当前文件,选择为当前文件,选择【数据数据】-【合并文件合并文件】- 【添加变量添加变量】选择要添加变量的文件选择要添加变量的文件1-1-4,单击,单击 【继续继续】 数据文件的建立和管理数据文件的建立和管理53 w在新窗口
60、中,首先勾选左边第在新窗口中,首先勾选左边第2项项【按照排序按照排序 文件中的关键变量匹配个案文件中的关键变量匹配个案】,选择关键变,选择关键变 量量ID,并且确定这个关键变量是按升序排序,并且确定这个关键变量是按升序排序 的,右边的,右边“新的活动数据集新的活动数据集”框中是合并后框中是合并后 新文件中将出现的变量,左边新文件中将出现的变量,左边“已排除的变已排除的变 量量”框中是剔除的变量。框中是剔除的变量。 w点击点击【确定确定】,完成文件的横向合并。,完成文件的横向合并。 数据文件的建立和管理数据文件的建立和管理54 2.从其它文件导入数据从其它文件导入数据 w2.1 读入读入exce
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026春部编版(五四制)小学语文四年级下册第9课《短诗三首》课堂笔记
- 排水管网改造工程的施工方案设计
- 项目部施工准备工作内容
- 植树节活动宣传标语100句
- 《认识10》数学课件教案
- 2026年软件需求说明书需求变更控制策略研究
- 进出口贸易合同模板
- 航发科技首次覆盖报告:航发赛道长坡厚雪零部件龙头迎风直上
- 第5章 用户认证与授权
- 2026年吉林辽源中小学教师招聘考试试题题库及答案
- (贵州一模)贵州省2026年4月高三年级适应性考试物理试卷(含标准答案)
- 2026年西北大学学生就业创业指导服务中心招聘备考题库(3人)含答案详解(满分必刷)
- 智能电网与能源互联网协同发展研究
- 安全仪表系统管理制度
- 2026年内蒙古联通校园招聘笔试备考试题及答案解析
- 蔬菜采购市场询价制度
- 2026四川泸州产城招引商业管理有限公司人员招聘4人笔试参考题库及答案解析
- 2025年山东档案职称考试《档案工作实务》考试题库(浓缩500题)
- 背负式风力灭火机的操作与使用
- 桥梁的基本组成和分类-课件
- 病情评估及ADL评分
评论
0/150
提交评论