SPSS数据分析与挖掘实战案例精粹第四章_第1页
SPSS数据分析与挖掘实战案例精粹第四章_第2页
SPSS数据分析与挖掘实战案例精粹第四章_第3页
SPSS数据分析与挖掘实战案例精粹第四章_第4页
SPSS数据分析与挖掘实战案例精粹第四章_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 SPSS操作进阶,第四章 SPSS操作进阶,4.1案例背景 4.2问卷的录入 4.3问卷质量校验 4.4问卷数据的分析 4.5项目的总结与讨论,4.1.1项目背景,互联网技术发展,网上购物盛行。我们的客户是做数码产品实体店的店主,想搭建一个购物网站。在搭建网站之前,需要对网站的建立进行详细规划,包括网购的产品种类、配送方式、支付方式等等,为了让网站更贴近顾客喜好,这就产生了调查问卷。让这个客户的实体店里的会员填写调查问卷。,4.1.2分析思路,对纸质调查问卷进行录入(4.2问卷的录入) 对录入数据质量检验(4.3问卷质量校验) 分析问卷,提出建议(4.4 问卷数据的分析) (4.5项目

2、的总结与讨论),4.2.1开放题录入,字符型变量不能参与运算,且区分大小写,一般作为记录的标识。,宽度为该变量的长度,一个汉字两个宽度单位,一个字母或数字或小数点都是一个宽度单位,4.2.2单选题录入,(6)值:1代表“男”,2代表“女”。,数据视图中录入性别的两种方式 (1) 使用数字1,2来录入性别 (2)选定工具栏的“显示值标签”,通过下拉框的方法来录入,注释:当选择男或女时,实际在数据文件中保存的是数字1或2。,4.2.3多选题录入,对于多选题,每个被调查者可能会选择多项,无法用单一变量录入,则考虑用多个变量来结合定义。为什么无法使用单一变量录入? 举例:你经常使用的搜索引擎是哪几个?

3、 A百度;B谷歌;C雅虎;D360;E其他,字符型变量不能参与运算,不能统计A多少B多少,数值型变量,使用值标签,只能多选一,4.2.3多选题录入-多重响应,多重响应:几个变量是一个多选题的选项,并设定一个变量名。有两大类:二分法和多重分类法。P52,二分类法:每个变量代表一个选项,每个选项具有两个可能值(1选中,0没选中),第一个受访者22岁,浏览器选了百度、360和其他。 第二个受访者33岁,浏览器选了谷歌和其他,第一个受访者22岁,浏览器选了百度、360和其他。 第二个受访者33岁,浏览器选了谷歌和其他,多重分类法:受访者的答案代表一个变量,变量数少于或等于总选项数。(百度1谷歌2雅虎3

4、3604其他5),当选项少时,两者皆可 当选项多,答案少的时候,选择多重分类法是比较轻松的,实操:录入 二分类中代表每个选项的变量,在录入时应该保持一致 多重分类中代表每个答案的变量,在录入时应该保持一致,请问您目前已经拥有的数码产品有哪些?,二分法、计数值1,选中为1,没选中为0,把数值为1的计数一下,即统计选中情况。,请问你未来打算优先购买的数码产品有哪些?(最多选三项),表示这里使用多重分类法,4.3.1去除重复记录,该变量取值相同则为重复数据,一组变量的取值全相同则为重复数据,在匹配组内的排序标准框中定义排序顺序,便于在查找出来的多条重复记录中指定主个案和重复个案。,把定义匹配个案的依

5、据设为第一顺序,把在匹配组内的排序标准设为第二顺序。,基本个案指示符中基本个案用1表示,重复个案用0表示。 每组中最后一个个案为基本个案:同一重复数据组的最后一例是主要数据,其他是重复数据。 每组中的第一个个案为基本个案:同一重复数据组的第一例是主要数据,其他是重复数据。 根据指示符(新变量)的值进行筛选:0过滤,1保留,连续计算每个组合中匹配个案(0=非匹配个案):同一重复数据组中包括基本个案和重复个案组内编号,0表示没有重复数据。,显示已创建变量的显示频率,是根据基本个案指示符(基本个案1表示,重复个案0表示)中1和0的个数来进行统计描述的。,4.3.2发现异常值,.,可以在缺失值中,离散

6、缺失值3和7 在选择个案中过滤掉未选定个案,4.3.3逻辑校验,B3:您是否有过网上购物的经历? B4:您平均每月网络购物的消费额大致是? B5:您在网上购物时采用什么样的支付方式?,MISSING(B4),若变量缺失,则返回1,否则为0,这里的MISSING (B4)等同于MISSING(B4)=1,也就是标记B4的缺失值。而是SPSS中非的运算符MISSING(B4)等同于MISSING(B4)=0,标记B4的非缺失值。选出B3=否不是缺失值的4不是缺失值的5 (B3 = 0 & ( MISSING(B4) | MISSING(B5_1) | MISSING(B5_2) | MISSING

7、(B5_3) | MISSING(B5_4) | MISSING(B5_5),4.4.1问卷加权,实体店的会员男女比例6:4,调查问卷里男女比例7:4,人口特征与实际分布并不一致。,第二段:男女比例和受教育水平这两个因素可能对分析结果有较大的影响,会员中男女之比为6:4,教育水平是2:2:4:2,实际分布如下图,为了使问卷中的人口特征与实际相符,应该使问卷中数据赋予一定权重,让加权后的数据符合实际比例。,第一步:计算出问卷中男女及教育的比例,首先计算出在不同性别的不同教育水平的人数,分类计数,然后,计算总人数,最后得出不同水平的比例,汇总总人数,转换成比例,第二步:问卷中的比例*权重=实际比例,最后,转换:权重=实际比例/问卷中比例,得到权重后,还需要将权重导入活动数据集,这时涉及到两个表的横向合并,增加变量,(两个文件按同一顺序排序),最后再指定加权的权重即可,数据的横向合并增加变量,“新的活动数据集”中的变量,是两个数据集中非共有的变量。 “已排除的变量”,是两个数据集中共有的变量。 “关键变量”两个数据集共有的,用来匹配对接的变量,可以从“已排除的变量”中导入。 “按照排序文件中的关键变量匹配个案”复选框 两个文件都提供个案:两个数据集个案合并; 非活动数据集为基于关键字的表:合并的数据文件的个案仅是当前活动集中的个案; 活动数据集为基于关键字的表:合并的数据文件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论