在线问卷调查的质量控制法

上传人：b*** IP属地：中国上传时间：2020-03-30 格式：DOC 页数：9 大小：219.50KB 积分：20 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2012 06 06 本文行家夕阳牧马人在线调查在中国正处于从量的增长到质的提升的转换过程中虽然越来越多的人开始利用在线调查但对其数据质量仍会有很多担心和质疑当前对整个在线调查行业数据质量产生不良影响的答题不认真现象尚未得到很好控制本次研究探索了在无逻辑或模糊逻辑情况下利用概率清除的方法对在线调查中答题不认真现象进行有效控制并将这一具有普适性的方法在软件中固化从而推动在线调查在中国的进一步推广和发展一引言一引言在线调查在中国正处于从量的增长到质的提升的转换过程中企业在体验在线调查的高效经济便捷的同时也承受着对在线调查数据真实性可靠性的担忧一项最新的关于企业应用在线调查的研究数据显示有意向使用在线调查的企业中 100 都曾提出过如何保证数据有效性的问题 87 的企业会问被访者从何而来如何保证他们是真实的 85 的企业会问被访者如果不认真答题怎么办而目前尚无意向使用在线调查企业中出于对质量担忧的占到近 60 对在线调查数据质量的控制与提升是每个企业已经或即将面临的问题 1 1 现行主要质量控制手段的应用与局限性现行主要质量控制手段的应用与局限性 1 1 逻辑关系校验逻辑关系校验目前针对在线调查的质量控制方法中应用最为普遍的是逻辑关系校验包含题目自身各选项间的逻辑和题目间逻辑选项间逻辑通常非常简单主要是选项互斥或包含的关系题目间逻辑主要存在于一些具有特定关系的指标中这些题目在问卷中数量有限通常不会超过 20 且大多数与甄别部分相关对主体问卷中题目数据质量的控制作用较微弱在线调查中为了验证一些关键信息尤其是和甄别相关的信息我们会主动设置地雷题用于筛选前后矛盾的答题者这种方法在一定程度上可以帮助我们辨别被访者是否存在作弊的情况但这种辨别不是绝对的因为一个被访者很可能在开始时的回答是真实的但是由于问卷过于长等其他原因在后期没有耐心继续认真回答时在地雷题上出现前后不一的情况如果以此作为标准筛除这些样本那么在一个问题相对比较多的在线调查中通过这种方法筛除的被访者比例可能是相当高的而没有被筛除的人并不能排除其作弊的可能性 2 2 历史数据比对历史数据比对基于在线调查的特殊性对于有样本库的在线调查公司而言可以将某一次调查的数据与注册信息或其他调查信息进行对比验证其所填内容的真实性但一方面不是所有的问卷信息都可以作对比另一方面有些信息对比后发现不一致现象并不能 100 说明是被访者作弊因而这种方法在实际应用中存在一定的局限性 3 3 基于内容的人工检查基于内容的人工检查这种质量控制方法由于个性化很强和产品或品牌本身特性相关不是每个调查中都会涉及也很难形成相对统一并且固化的质量控制方法更多地需要研究者的介入综上目前的在线调查质量控制方法对于有逻辑的题目可以进行控制但是对于无逻辑或模糊逻辑的题目很难产生实际效果 2 2 影响在线调查数据质量的关键因素影响在线调查数据质量的关键因素在一个调查中非抽样误差通常来自于三个方面设计人员访问员受访者由于在线调查中没有了访问员的环节相比传统调查在线调查已经大大减少了产生非抽样误差的可能性在研究设计符合在线习惯的前提下担心的唯一来源就是被访者了一方面是被访者作弊另一方面是被访者答题不认真一个符合在线习惯同时不涉及过多个人隐私的问卷被访者不存在主动作弊的动机同时后台严格的管理使被访者的作弊成本很高因而作弊现象很少发生一旦发生我们通常可以通过逻辑校验设置地雷题与会员过去答题情况和注册信息等已有属性对比来进行有效筛除因而这一现象目前已得到有效控制但被访者答题不认真的情况尚未得到很好控制一方面这种现象无法主动避免主要是由于 1 在线调查无法主动控制被访者参与的情况 2 每个题目对被访者的吸引程度不同被访者很可能对整体调查主题比较感兴趣但对问卷中的某个内容不感兴趣而不认真作答 3 题目设计本身可能存在各种问题造成被访者回答困难另一方面主体问卷中的绝大多数题目是无逻辑可依的当前主要的质量控制方法无法对每个题目产生普遍作用因而这一现象始终无法根除基于此本研究通过探索无逻辑或模糊逻辑情况下的在线数据质量控制方法剖析以下三个重要的问题 1 如何系统应对在线调查中答题不认真的现象 2 对于主体问卷中无逻辑或模糊逻辑的题目而言是否存在普适性的质量控制方法能够有效提高在线调查的数据质量 3 在线调查与互联网紧密结合具有不同于传统调查的数据存储特点如何利用这些特点实现数据质量的系统化自动化统一化提升二研究设计二研究设计基于上述研究目的我们首先对典型在线调查项目进行综合分析找出数据存在的典型现象在此基础上从概率角度出发探索具有普适性的数据质量控制方法并对应用结果进行评估验证方法的正确性再次结合在线调查特点探索一套具有可复制性的质量控制方法使在线调查质量得到系统化自动化统一化提升 1 1 典型的典型的答题不认真答题不认真数据现象数据现象我们首先从 2010 年至今的各类在线调查项目中抽取了不同调查主题涵盖不同行业的 38 个典型项目案例进行了评估具体项目分布见下表在分析这些项目的数据特点前我们已根据过滤条件地雷题问卷中显性逻辑关系进行了校验这些题目本身没有绝对的逻辑与其他题目间也没有必然联系我们发现经过上述方法提出不合格的样本后有些情况仍然无法杜绝其中典型的现象是被访者回答的选项数量超过合理值范围我们抽取其中一个典型案例加以说明如下图所示比如当提及过去 3 天吃过的快餐时有被访者回答吃过 12 种远超过平均的选项数量 2 种再如当提及过去 3 天看过哪些电影时有被访者回答看过 19 部远超过平均的选项数量 2 种对于在线调查而言我们无法主动控制被访者选择时的状态和认真程度这种数据现象在每个题目中都或多或少会出现对平均值影响最大的因素就是奇异值哪怕只有一两个奇异值也会使数据结果出现较大波动在回归等分析中产生较大影响因而虽然奇异值很少但仍会影响统计分析的准确性由于每个题目的奇异值标准不一样如何用一种高效的普适性的方法找到奇异值是我们面临的首要问题 2 2 具有普适性的质控方法具有普适性的质控方法概率清除概率清除 1 1 概率清除的基本原理概率清除的基本原理概率统计中的 3 原理告诉我们通常情况下标准正态分布时有 99 7 的可能数据应该落在 3 的范围内其中为均值为标准差如下图所示而选项个数在一定程度上是比较稳定的即所有人选择个数的均值是相对稳定的这也是为什么可以通过数据找到事物客观发展规律的原因考虑到不同情况下大家行为的差异我们既不能轻易删除被访者数据但也不能轻易相信所有的回收数据因而需要利用科学的方法对被访者的回答进行筛除由于数据落在 3 范围内的概率均超过 99 也就是说一个正常的数据有 99 的可能性会落在这个范围内超过这个范围的值发生的概率极小因而一旦发生可以认为是奇异值需要剔除掉 2 2 概率清除的方法应用概率清除的方法应用接下来我们对上述典型案例中的题目进行验证在过去 3 天吃过的快餐一题中我们发现落在 3 范围内的即选项数量小于等于 7 3 个的比例为 99 7 有 0 3 的人回答的选项数量超过合理范围发生的可能很小可认为是奇异值此外在线调查中由于系统自动记录了每个题的答题时间因而从答题时间上我们同样应用概率清除的方法对每个题的答题时间落在 3 范围外的数据进行剔除概率清除的质量控制方法在传统调查中是很难实现的一方面记录每个题的答题时间会耗费大量精力物力不具有可行性即便能够记录在以访问员为介质的调查中无法有效控制记录的准确性和有效性另一方面由于涉及题目多计算过程相对复杂单单依靠研究人员无法在有限的时间内对所有题目进行同样的处理结果导致没有人根据这些原则对项目数据进行严格的质量控制但与在线调查特点相结合基于概率清除的数据质量控制可以得到很好的应用从而对答题不认真现象进行普遍控制 3 3 应用结果及其评估验证应用结果及其评估验证 1 1 应用结果应用结果在上述典型案例中 A 通过概率清除方法平均每个题目可以在现有基础上使 2 3 不好的数据得到清除如下表所示 B 当我们把同一个被访者超过合理范围的次数进行统计我们会发现一个题目不认真作答的人数占总人数的 4 21 两个题同时不认真作答的人数占比为 1 05 3 个题同时不认真作答的人数占比为 0 剔除的不认真回答数据占全部回答人数的 5 3 在将这一方法运用于其他 37 个项目后我们发现 C 随着答题时间的增加答题不认真现象随之凸显超过合理值范围的样本数随之增加在一个 20 个题的调查中处在问卷末尾的题目清除的不认真回答率约为 5 2 2 评估与验证评估与验证为证明数据清除的有效性我们在其他案例中将完全同质人群的在线调查数据与传统调查数据作对比结果发现概率清除后在线调查数据与传统调查数据更为接近我们选取了具有人群覆盖广认知程度较均匀的银行品牌竞争力调查项目这样的项目能够较好的剔除由于人群行为特征的不同造成的数据差异更能反映数据本身的质量在这个项目中在线回收数据 11963 个样本 CLT 回收 8891 个样本 CATI 回收 7457 个样本三种渠道的样本构成完全一致如下图所示样本分布覆盖全国 81 个核心城市其中省会以上城市占比超过 50 本案例题目中问卷第 1 题且内容大家较熟悉较容易作答经过概率清除的不认真答题率为 1 通过概率清除后的在线回收数据显示在线回收数据中最近三个月打过交道的银行的平均个数从 3 52 个降低到 3 43 个概率清除前后在线数据与拦截访问数据更为接近平均差距缩小 0 5 此外三种渠道数据大体趋势相同其中在线数据与 CATI 数据的趋势最为接近但由于 CATI 数据的选项不提示特点整体数据较在线调查与拦截访问降低了约 10 的比例这个结果也同时验证了很少存在在线调查被访者整体作弊的情况因而基于概率进行质量控制是可行的 4 4 概率清除法的系统固化概率清除法的系统固化为了使在线调查的数据质量得到系统稳定的提升可以将这一质控流程固化在系统中具体流程如下图所示三本次研究的意义及存在的问题三本次研究的意义及存在的问题 1 1 本次研究的意义本次研究的意义 1 创新性针对当前无逻辑或模糊逻辑情况下质量控制手段缺失的现状提出了概率清除的质量控制方法 2 科学性较传统质控相比由于标准是根据客观数据由系统计算得出的因而改变了以往质控手段中人为的个性化的运作特点使标准更加客观更加科学 3 有效性通过这一质控手段可以在现有基础上清除 5 10 答题不认真的数据使数据质量提升 4 高效

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

在线问卷调查的质量控制法

文档简介

温馨提示

最新文档

评论

在线问卷调查的质量控制法

文档简介

温馨提示

最新文档

评论

相关文档