如何对场调研问卷的数据进行预处理_第1页
如何对场调研问卷的数据进行预处理_第2页
如何对场调研问卷的数据进行预处理_第3页
如何对场调研问卷的数据进行预处理_第4页
如何对场调研问卷的数据进行预处理_第5页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、如何对市场调研问卷的数据进行预处理市场调研问卷数据的预处理是整个市场调研工作的重要环节,如果预处理做得不好,就会使有问题的问卷进入后面的数据分析环节,对最终结果产生严重影响。一、信度检验1,信度分析简介信度,即信任度,是指问卷数据的可信任程度。信度是保证问卷质量的重要手段,严谨的问卷分析通常会采用信度分析筛选部分数据。a值是信度分析中的一个重要指标,它代指01的某个数值,如果a值小于0.7,该批次问卷就应当剔除或是进行处理;如果大于0.9,则说明信度很高,可以用于数据分析;如果位于0,70.9,则要根据具体情况进行判定。如表1所示。表1信度的判定表a值意义>0,9信度非常好>0,8

2、信度可以接受>0,7需要重大修订但是可以接受<0,7放弃2,信度分析示例操作过程下面介绍的是一个信度分析的案例,其操作过程为:首先打开信度分析文件,可以看到该文件的结构很简单,一共包含10个题目,问卷的份数是102份。然后进入SPSS的“分析”模块,找到“度量”下面的“可靠性分析”,将这十个题目都选进去。在接下来的统计量中,首先看平均值、方差和协方差等,为了消除这些变量的扰动,可以选择要或者不要这些相关的量,另外ANOVA(单音数方差分析)是分析两个变量之间有无关系的重要指标,一般选择要,但在这里可以不要,其他一些生僻的量值一般不要。描述性在多数情况下需要保留,因为模型的输出结果会

3、有一些描述,因此应当选中项、度量和描述性,然后“确定”,这时SPSS俞出的结果就会比较清楚。结果解读案例处理汇总后,SPSS俞出的结果如图1所示。坨总计纳HN堞警万产内附的胤网射自15口河9111T909!*R258226侬632把目3811*8期B52MJM44520«ri把目5MM4B214886652笠目6HAS5111717391at*n?小见214啪652叼可146V鼬就w目9幅M4B38E际咫前4614S369期|图1信度分析结果tier*4C1T窜-刊MMLI喇涮ig删除后u值升高由图1可知,案例中调查问卷的有效数据是102,已排除数是0,说明数据都是有效的,在这里如果

4、某个问卷有缺失值,就会被模型自动删除,然后显示出已排除的问卷数。在信度分析中,可以看到Alpha值是0.881,根据前文的判定标准,这一数值接近0.9,可以通过。在图右下方部分有均值、方差、相关性等多个项目,这主要看最后的“项已删除的Alpha值”,该项目表示的是删除相应项目后整个问卷数据信度的变动情况,可以看出题目1、题目2和题目6对应的数彳1高于0.881,表明删除这三个题目后整个问卷的Alpha值会上升,为了确保整个调查的严谨性,应当将这三个题目删除。剔除废卷删除废卷大致有三种方法:根据缺失值剔除、根据重复选项剔除、根据逻辑关系剔除。1.根据缺失值剔除 缺失值的成因在市场调查中,即使有非

5、常严格的质量控制,在问卷回收后仍然会出现缺项、漏项,这种情况在涉及敏感性问题的调查中尤其突出,缺失值的占比甚至会达到10%以上。之所以会出现这种现象,主要有以下原因:一是受访者对于疾病、收入等隐私问题选择跳过不答,二是受访者由于粗心大意而漏掉某些题目等。 缺失值的处理在处理缺失值时,有些人会选择在SPSSExcel中将其所在的行直接删除。事实上,不能简单地删除缺失值所在的行,否则会影响整个问卷的质量。这是因为在该行中除了缺失的数据以外,其他数据仍旧是有效的,包含许多有用信息,将其全部删除就等于损失了这部分信息。在实际操作中,缺失值的处理主要有以下方式,如图图2缺失值的处理方式缺失值的处理一一忽

6、略。在处理缺失值时,可以在“选项”中直接忽略,这样可以保留其他数据进行之后的运算、建模和输出。缺失值的处理一一填充。填充,指的是在缺失值的位置用各种技术手段和模型将值回填进去,比如用中间某段数据的平均值填充等。一般来说,主要有两种填充方式:第一,在“转换”模块中,替换缺失值;第二,在“分析”模块中,采用EM模型或者回归模型进行填充,这两种模型都可以有效地完成填充,相对来说EM模型更高效一些。 缺失值处理示例填充值的回归。首先打开该文件,如图3所示,发现其中有三列数据,分别是体重组、年龄和胆固醇。可以看到,胆固醇的某些数据中有一些点,这就是SPS皱定的缺失值。对此第一种处理缺失值的方式是做一个回

7、归,操作过程为:进入SPSS的“回归”,然后选择“线性回归”界面。这时需要分析的目标就是应变量,其他对应变量有影响的因素就是自变量,如示例中的胆固醇是应变量,而体重和年龄则是自变量,表示随着体重的上升和年龄的增长,总体来说胆固醇水平也会上升。因此要将胆固醇选为应变量,将体重和年龄选为自变量,其他因素选择默认,然后点击“确定”,系统就会输出相应的结果,如图3上方的表格所示。无缺失ZZZ*模型务标屉何救标准某威1Sig有缺失y"武IX<过用版,135照5,90B406泗66714522075162的工033000鼻田娈最胆国诲/养标尼化系域存雇系威1S峭标准深匿试用陋I等量)悻重用

8、年龄062L137.0®)1,969,92B35g.542.0562.86835S076J11瑞国兖星胆固薛图3缺失值的填充示例在输出结果中可以看到有一个“sig.”值,也就是前文讲过的检验P值,即检验概率值,如前所述,这一概率值应当与0.05(5%)进行对比,如果小于0.05,说明这一模式的解释是可接受的,反之则说明模型解释的结果不能接受。图中的检验P值有三个,分别对应常量、体重组和年龄,其中对常量的检验P值一般可以不予计较,主要关注后两个项目对应的检验P值。在此可以用下面的回归方程进行分析:P值=常量(-0.135)+0.895X体重+0.094X年龄这一函数公式表示的是体重和年

9、龄对胆固醇的影响大小,可以看出体重对胆固醇的影响系数接近1,而年龄对胆固醇的影响系数则接近0.1。因此,可以得出结论:对胆固醇产生影响的最重要因素是体重,要想控制胆固醇水平,首先应当控制体重。有无缺失值的比较。这时再回到“回归”选项,选择“按照列表来排除个案”,该选项的意思是系统在处理胆固醇的缺失值时跳过去不做处理,接着再进行一遍之前的操作:“分析”一“回归”一“线性回归”一将胆固醇选为应变量,将体重和年龄选为自变量一确定,可以看出输出的结果中(图4下方的表格)常量是0.062,而体重组因为跳过缺失值,所以对胆固醇的影响系数变大为1.137,相应地年龄的影响系数则减小为0.081。这就说明,直

10、接跳过缺失值会对分析结果产生较大影响。缺失值的“转换”处理。由上述分析可知,当数据有缺失值时应当进行相应的处理,SPSSE“转换”模块中有一个专门的“替换缺失值”模块,点击进入后可以看到SPS瞅供了五种填充值,包括序列均值、临近值的均值、临近值的中位数、线性插值和线性趋势。根据专家的经验和建议,在进行销售预测时一般应选择“线性趋势”,这是因为当数据在上升或下降的过程中有缺失值时,“线性趋势”会模拟销售数据上涨或下降的波动态势,能够最大限度地接近实际情况。点击线性趋势后,系统就会自动生成一个变量,将这个变量填入缺失值的位置就可以完成数据的填充。EM莫型填充。“分析”模块是SPSS勺精华和核心部分

11、,大部分基本分析模型都在这一模块,其中“缺失值分析”被当作一个独立模块放在其中,这说明对缺失值的分析处理是一项非常重要的工作。点击进入这一模块后,首先将胆固醇选到变量中,然后在“估计”中选EM模块,选择“保存完成的数据”,点击“继续”,然后点击“确定”,这时SPSS!会生成一列新数据,这就是采用EM模块填充缺失值后的数据。回归模型填充。在运用回归模型填充缺失值时,有两种方式可供选择:一种是比较简单的回归法,即生成的填充值不再变动;另一种是为生成的填充值加上一个残差,这个残差是一个任意值,随机性很强。然后在保存数据里面选择“回归”,点击“确定”,这时SPSS就会完成一个回归填充。EM和回归模型的

12、填充效果对比。图4是EM模型和回归模型的散点图对比,左侧是回归模型的填充效果,右侧是EM模型的填充效果。其中横轴表示胆固醇原值,而纵轴则是两种填充方式的数值;蓝色的圆圈代表正常值,红色的圆圈表示缺失值。可以看出,右侧EM的填充值与原值的差距较小,也就是EM模型的缺失值填充效果比回归模型的填充效果更好一些。EM填充效果更好一些图4EM和回归模型的填充效果对比EM和回归模型的回归效果对比。在图5、图6和图7中分别显示了原值、EM填充以及回归填充的回归效果,可以看出EM填充的数值更接近于原值填充。系救己镌型非标准化系酸标准案数tGij.8标准误差试用版1常量)体重组年龄-.135.895,094.9

13、06.406.013.205,667-.14S2如75.162383.028,0003,因变量:胆固醇原信图5原值系救己镌型非标准化系酸标准案数tGij.S标准误差讹用版1(常量体重组年龄1.1591.174158.094.400.013,424&了31N胧2.9313195.2Q5.009,0049.因变量:EM埴克图6EM填充系就r模型非标准化系敷标准累数tStgS标准误差忒用版14常量体重组年弹1.1041.122.0561.027.460.0213951,07£2441272S.295.023,012Q.因变量回归填充图7回归填充通过以上分析可以看出:第一,严谨的数据

14、分析一定要有一个准确、完整的框架,对于缺失值一定要进行科学处理,否则可能会出现严重后果,许多大公司都非常注意这一点;第二,在问卷数据量大,缺失数据较多时,用EM模型填充的效果比线性回归更好,EM模型比回归模型处理起来更加精巧,可以直接使用EM模型填充。缺失值处理的认识要点:缺失值所在的数据行不能直接删除;直接忽略缺失值会影响最终的分析结果;缺失值一定要进行科学的填充处理;缺失值较多时优先选用EM模型填充。2 .根据重复选项剔除一般来说,对于一定题量的问卷,很少有两份问卷答得完全一样,因此有必要标志重复值,将重复的选项剔除。在将几百份或者更多问卷数据录入后,只靠肉眼很难判断里面是否有重复值,这时

15、可以运用SPSS进行处理。例如,根据重复值删除个案示例,首先打开文件,在进入SPSS的“数据”模块后,双击“标识重复个案”,并将所有的选项一并选中将其放到里面。这时不需要进行任何操作,在稍后创建的变量中如果某个数据是唯一的就会显示“1”,如果有重复就是“0”,然后勾选将重复的个案移动到文件的最上端,点击“确定”,输出结果。这时可以看到,整个文件有27行数据,其中重复的个案是5个,重复的比例是18.5%。然后选择数据升序排列,将显示“0”的全部放到前面,将这5行选中,点击鼠标右键选择“剪切”将重复项删除即可。3 .根据逻辑关系剔除根据逻辑关系可以剔除一些个案,例如年龄小于或等于23,而学历则选择

16、为硕士或者博士,这些个案肯定是有问题的。再比如,受访者在前面选择没有使用某商品,后面却填写商品的使用体验,这显然不符合逻辑。在具体的操作中,工作人员可以根据自身的业务将其中不合逻辑的选项删除。根据逻辑关系剔除个案示例:首先打开文件,可以看到学历分为6档,分别是1初中、2高中、3大学(包括专科)、4大学专科以上、5硕士以上、6博士级以上,然后通过“排列个案”将年龄和学历的数据全部升序排列,点击“确定”,这时就可以通过年龄和学历的对比寻找其中的问题,比如其中某个个案的年龄是20,学历却是5硕士以上或6博士级以上,就说明该个案有问题而应当剔除。如果问卷数据的数量太大,比如有600个数据,这时用肉眼就

17、很难辨别其中的问题个案,这时就可以用SPSS进行有条件的数据甄选。首先可以通过点击“如果条件满足”选择个案,点击进入后可以用SPSS勺计算器输入含义为“非(年龄20与学历5硕士以上)”的公式,然后点击“继续”并将选出的数据输入新的数据集,也就是正常值,然后点击“确定”就能将正常值输出。这时为了确保删除的个案无误,可以回到另一个数据集中,检查删除的是否是有问题个案。通过以上操作可以看出,SPSS计算器的功能非常强大,可以进行各种分析运算,在数据分析中的使用率很高,而且其中的公式与Excel的公式基本相同。因此,市场调研数据分析人员应当注意SPSS十算器各项功能的学习和使用。三、数据管理和转换数据

18、管理与转换主要包括分割与合并文件、重新编码、排序与分组、分类汇总、异常值检测等。如图8所示。数据管理与转换I.】I1J1分一/合并文件|重薪码|排序与各加|分类汇其|算*桎检测图8数据管理与转换1 .分割与合并文件在问卷回收后,有时由于份数很多,需要不同人员进行录入,这时就会形成多个文件,需要最后合并为一个大的文件,为此SPSSl供了合并文件功能。具体操作:进入SPSS的“数据”模块,在原有文件的基础上选择添加个案,将新文件添加进来,统一变量的值,然后选择“确定”,就可以将文件合并成功。2 .重新编码重新编码是一项非常重要的功能,其中涉及一个“连续性变量的离散化”理论。例如:在统计啤酒的饮用量时,不同受访者的饮用量不等,但是数据统计并不关心单个受访者的具体饮用量,而是会设定不同的量级,比如1000毫升以下为1、10002000为2、20003000为3等依此类推,然后将不同受访者归入相应的量级,也就是要将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论