在线问卷调查的质量控制法_第1页
在线问卷调查的质量控制法_第2页
在线问卷调查的质量控制法_第3页
在线问卷调查的质量控制法_第4页
在线问卷调查的质量控制法_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2012 06 06 本文行家 夕阳牧马人 在线调查在中国正处于从 量的增长 到 质的提升 的转换过程中 虽然越来越多的人 开始利用在线调查 但对其数据质量仍会有很多担心和质疑 当前对整个在线调查行业数 据质量产生不良影响的 答题不认真 现象尚未得到很好控制 本次研究探索了在无逻辑 或模糊逻辑情况下 利用概率清除的方法对在线调查中 答题不认真 现象进行有效控制 并将这一具有 普适性 的方法在软件中固化 从而推动在线调查在中国的进一步推广和 发展 一 引言一 引言 在线调查在中国正处于从 量的增长 到 质的提升 的转换过程中 企业在体验在线调查的高效 经济 便捷的同时 也承受着对在线调查数据真 实性 可靠性的担忧 一项最新的关于企业应用在线调查的研究数据显示 有 意向使用在线调查的企业中 100 都曾提出过如何保证数据有效性的问题 87 的企业会问 被访者从何而来 如何保证他们是真实的 85 的企业会问 被访者如果不认真答题怎么办 而目前尚无意向使用在线调查企业中 出于对质量担忧的占到近 60 对在线调查数据质量的控制与提升是每个企业 已经或即将面临的问题 1 1 现行主要质量控制手段的应用与局限性 现行主要质量控制手段的应用与局限性 1 1 逻辑关系校验 逻辑关系校验 目前针对在线调查的质量控制方法中应用最为普遍的是逻辑关系校验 包含题目自身各选项间的逻辑和题目间逻辑 选项间逻辑通常非常简单 主要 是选项互斥或包含的关系 题目间逻辑主要存在于一些具有特定关系的指标中 这些题目在问卷中数量有限 通常不会超过 20 且大多数与甄别部分相关 对主体问卷中题目数据质量的控制作用较微弱 在线调查中 为了验证一些关键信息 尤其是和甄别相关的信息 我 们会主动设置地雷题 用于筛选前后矛盾的答题者 这种方法在一定程度上可 以帮助我们辨别被访者是否存在作弊的情况 但这种辨别不是绝对的 因为一 个被访者很可能在开始时的回答是真实的 但是由于问卷过于长等其他原因 在后期没有耐心继续认真回答时 在地雷题上出现前后不一的情况 如果以此 作为标准 筛除这些样本 那么在一个问题相对比较多的在线调查中 通过这 种方法筛除的被访者比例可能是相当高的 而没有被筛除的人并不能排除其作 弊的可能性 2 2 历史数据比对 历史数据比对 基于在线调查的特殊性 对于有样本库的在线调查公司而言 可以将 某一次调查的数据与注册信息或其他调查信息进行对比 验证其所填内容的真 实性 但一方面不是所有的问卷信息都可以作对比 另一方面有些信息对比后 发现不一致现象 并不能 100 说明是被访者作弊 因而这种方法在实际应用中 存在一定的局限性 3 3 基于内容的人工检查 基于内容的人工检查 这种质量控制方法由于个性化很强 和产品或品牌本身特性相关 不 是每个调查中都会涉及 也很难形成相对统一并且固化的质量控制方法 更多 地需要研究者的介入 综上 目前的在线调查质量控制方法对于有逻辑的题目可以进行控制 但是对于无逻辑或模糊逻辑的题目很难产生实际效果 2 2 影响在线调查数据质量的关键因素 影响在线调查数据质量的关键因素 在一个调查中 非抽样误差通常来自于三个方面 设计人员 访问员 受访者 由于在线调查中没有了访问员的环节 相比传统调查 在线调查已经 大大减少了产生非抽样误差的可能性 在研究设计符合在线习惯的前提下 担 心的唯一来源就是被访者了 一方面是被访者作弊 另一方面是被访者答题不 认真 一个符合在线习惯 同时不涉及过多个人隐私的问卷 被访者不存在 主动作弊的动机 同时 后台严格的管理使被访者的作弊成本很高 因而作弊 现象很少发生 一旦发生 我们通常可以通过逻辑校验 设置地雷题 与会员 过去答题情况和注册信息等已有属性对比来进行有效筛除 因而这一现象目前 已得到有效控制 但被访者答题不认真的情况尚未得到很好控制 一方面这种现象无法 主动避免 主要是由于 1 在线调查无法主动控制被访者参与的情况 2 每个题目对被访者的吸引程度不同 被访者很可能对整体调查主题 比较感兴趣 但对问卷中的某个内容不感兴趣而不认真作答 3 题目设计本身可能存在各种问题 造成被访者回答困难 另一方面 主体问卷中的绝大多数题目是无逻辑可依的 当前主要的 质量控制方法无法对每个题目产生普遍作用 因而这一现象始终无法根除 基于此 本研究通过探索无逻辑或模糊逻辑情况下的在线数据质量控 制方法 剖析以下三个重要的问题 1 如何系统应对在线调查中 答题不认真 的现象 2 对于主体问卷中无逻辑或模糊逻辑的题目而言 是否存在 普适 性 的质量控制方法 能够有效提高在线调查的数据质量 3 在线调查与互联网紧密结合 具有不同于传统调查的数据存储特 点 如何利用这些特点实现数据质量的 系统化 自动化 统一化 提升 二 研究设计二 研究设计 基于上述研究目的 我们首先对典型在线调查项目进行综合分析 找 出数据存在的典型现象 在此基础上 从概率角度出发 探索具有 普适性 的数据质量控制方法 并对应用结果进行评估 验证方法的正确性 再次 结 合在线调查特点探索一套具有 可复制 性的质量控制方法 使在线调查质量 得到 系统化 自动化 统一化 提升 1 1 典型的典型的 答题不认真答题不认真 数据现象数据现象 我们首先从 2010 年至今的各类在线调查项目中抽取了不同调查主题 涵盖不同行 业的 38 个典型项目案例进行了评估 具体项目分布见下表 在分析这些项目的数据特点前 我们已根据过滤条件 地雷题 问卷中显性逻辑关系进行 了校验 这些题目本身没有绝对的逻辑 与其他题目间也没有必然联系 我们发现经过上述方法提出不合格的样本后 有些情况仍然无法杜绝 其中典型 的现象是被访者回答的选项数量超过合理值范围 我们抽取其中一个典型案例加以说明 如下图所示 比如 当提及过去 3 天吃过的快餐时 有被访者回答吃过 12 种 远超过平均的选项数量 2 种 再如当提及过去 3 天看过哪些电影时 有被访者回答看过 19 部 远超过平均的选项数 量 2 种 对于在线调查而言 我们无法主动控制被访者选择时的状态和认真程度 这种数 据现象在每个题目中都或多或少会出现 对平均值影响最大的因素就是奇异值 哪怕只有一两个奇异值 也会使数据结果 出现较大波动 在回归等分析中产生较大影响 因而虽然奇异值很少 但仍会影响统计分 析的准确性 由于每个题目的奇异值标准不一样 如何用一种高效的 普适性的方法找到 奇异值是我们面临的首要问题 2 2 具有普适性的质控方法 具有普适性的质控方法 概率清除概率清除 1 1 概率清除的基本原理 概率清除的基本原理 概率统计中的 3 原理告诉我们 通常情况下 标准正态分布时有 99 7 的可能 数据应该落在 3 的范围内 其中 为均值 为标准差 如下图所示 而选项个数在一定程度上是比较稳定的 即所有人选择个数的均值是相对稳定的 这也是 为什么可以通过数据找到事物客观发展规律的原因 考虑到不同情况下大家行为的差异 我们既不能轻易删除被访者数据 但也不能轻易相信所有的回收数据 因而需要利用科学 的方法对被访者的回答进行筛除 由于数据落在 3 范围内的概率均超过 99 也就是说一个正常的数据有 99 的可能性会落在这个范围内 超过这个范围的值发生的概率极小 因而一旦发生 可以认 为是奇异值 需要剔除掉 2 2 概率清除的方法应用 概率清除的方法应用 接下来 我们对上述典型案例中的题目进行验证 在过去 3 天吃过的快餐一题中 我们发现落在 3 范围内的 即选项数量小于等于 7 3 个的比例为 99 7 有 0 3 的人 回答的选项数量超过合理范围 发生的可能很小 可认为是奇异值 此外 在线调查中 由于系统自动记录了每个题的答题时间 因而从答题时间上 我们同 样应用概率清除的方法 对每个题的答题时间落在 3 范围外的数据进行剔除 概率清除的质量控制方法在传统调查中是很难实现的 一方面记录每个题的答题 时间会耗费大量精力物力 不具有可行性 即便能够记录 在以访问员为介质的调查中无 法有效控制记录的准确性和有效性 另一方面由于涉及题目多 计算过程相对复杂 单单 依靠研究人员无法在有限的时间内 对所有题目进行同样的处理 结果导致没有人根据这 些原则对项目数据进行严格的质量控制 但与在线调查特点相结合 基于概率清除的数据 质量控制可以得到很好的应用 从而对 答题不认真 现象进行普遍控制 3 3 应用结果及其评估验证 应用结果及其评估验证 1 1 应用结果 应用结果 在上述典型案例中 A 通过概率清除方法 平均每个题目可以在现有基础上 使 2 3 不好的数据得 到清除 如下表所示 B 当我们把同一个被访者超过合理范围的次数进行统计 我们会发 现 一个题目不认真作答的人数占总人数的 4 21 两个题同时不认真作答的 人数占比为 1 05 3 个题同时不认真作答的人数占比为 0 剔除的不认真回答 数据占全部回答人数的 5 3 在将这一方法运用于其他 37 个项目后 我们发现 C 随着答题时间的增加 答题不认真 现象随之凸显 超过合理值 范围的样本数随之增加 在一个 20 个题的调查中 处在问卷末尾的题目 清除 的不认真回答率约为 5 2 2 评估与验证 评估与验证 为证明数据清除的有效性 我们在其他案例中将完全同质人群的在线 调查数据与传统调查数据作对比 结果发现 概率清除后 在线调查数据与传 统调查数据更为接近 我们选取了具有人群覆盖广 认知程度较均匀的银行品牌竞争力调查 项目 这样的项目能够较好的剔除由于人群行为特征的不同造成的数据差异 更能反映数据本身的质量 在这个项目中 在线回收数据 11963 个样本 CLT 回收 8891 个样本 CATI 回收 7457 个样本 三种渠道的样本构成完全一致 如 下图所示 样本分布覆盖全国 81 个核心城市 其中省会以上城市占比超过 50 本案例题目中 问卷第 1 题 且内容大家较熟悉 较容易作答 经过概率清除 的不认真答题率为 1 通过概率清除后的在线回收数据显示 在线回收数据中 最近三个月打过交道的 银行的平均个数从 3 52 个降低到 3 43 个 概率清除前后 在线数据与拦截访问数据更为 接近 平均差距缩小 0 5 此外 三种渠道数据大体趋势相同 其中在线数据与 CATI 数据的趋势最为接近 但由于 CATI 数据的选项不提示特点 整体数据较在线调查与拦截访问降低了约 10 的比例 这个结果也同时验证了很少存在在线调查被访者整体作弊的情况 因而基于概率进行质量 控制是可行的 4 4 概率清除法的系统固化 概率清除法的系统固化 为了使在线调查的数据质量得到系统 稳定的提升 可以将这一质控流程固化在 系统中 具体流程如下图所示 三 本次研究的意义及存在的问题三 本次研究的意义及存在的问题 1 1 本次研究的意义 本次研究的意义 1 创新性 针对当前无逻辑或模糊逻辑情况下质量控制手段缺失的现状 提出 了概率清除的质量控制方法 2 科学性 较传统质控相比 由于 标准 是根据客观数据由系统计算得出的 因而改变了以往质控手段中 人为的 个性化的 运作特点 使 标准 更加客观 更加科学 3 有效性 通过这一质控手段 可以在现有基础上清除 5 10 答题不认真的 数据 使数据质量提升 4 高效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论