已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
抽样调查数据的清理与校验抽样调查数据的清理与校验王卫东、冯仕政、陆益龙、刘精明 第一节研究问题与意义 Lessler和 Kalsbeek曾根据调查的不同阶段对误差来源进行过分类:在抽样框收集、抽样实施过程中会存在抽样误差,在调查实施中会出现无回答误差和计量误差。事实上,任何一次严格的随机抽样调查数据,一般都会存在两个层面的误差:(1)抽样过程中的误差;(2)存在于被访者那里的真实信息与研究人员在统计分析过程中实际可得信息之间的误差。这里,我们将前一种误差称为“抽样误差”,将后一种误差称为“测量误差”。本章所讨论的“数据清理与校验”问题,基本上针对“测量误差”而言。我们认为,测量误差是指被访者的真实信息通过一系列的询问 -回答、调查员记述、编码、机读格式存储等转换过程后所产生的信息变异。大多数信息变异都可能是一种非随机误差,它涉及的范围大体包括如下几个方面:(1)录入误差,即将问卷记录信息转换为机读格式存储信息过程所产生的录入错误;(2)无回答误差,即在问卷的某个或某些问题上,由于被访拒答,或者由于调查员询问、记录出现遗漏等原因所产生的信息缺失;(3)回答偏差,产生这类偏差的原因可能是多方面的:一是调查员询问未能准确表达测量目标,致使被访者错误理解问题而产生回答信息与测量要求的不一致,或者相反,被访对询问问题的理解有偏误,因而做出与测量要求不一致的回答;二是题器设计模糊,致使不同被访或调查员对问题产生歧义性理解,从而使收集的信息无法达到测量效果;三是问卷访谈过程受到第三方因素的干扰(比如他人在场、突发事件、访谈被中断等),致使回答产生偏差;四是被访有意报告虚假信息。(4)记录和编码的偏差,即在记录和编码被访者回答信息时,由于调查员的失误而产生的信息偏差。上述测量误差大多是所谓的非随机误差。抽样过程的随机误差一般可以通过抽样技术加以推断和控制,或者可以通过一定的估计手段加以有效估计(比如抽样误差),而非随机误差的控制却是一项复杂的工作,对它的估计也经常令研究者感到十分头痛,有时候它可能会一直潜藏在研究者的分析结果之中,很难为研究者所发现。在大型入户问卷调查的实施过程中,研究者往往由于无法全面掌握抽样以及问卷访谈的具体细节,从而对问卷数据到底可能发生了什么样的信息变异无从知晓。隐藏在数据背后的那些问题,缠绕在可能准确的真实信息之中,有时候我们可能面对的是一堆“斩不断、理还乱”的数据符号,对耗费了巨大的人力、物力收集到手的数据信息往往只能是将信将疑地去使用和分析,这反过来也影响了研究者对社会现实作出判断的信心。正因为抽样调查数据可能存在的诸多数据谬误与偏差,使得我们有理由认为,根据抽样调查数据来分析和研究社会,以期反映真实的社会现象及其背后的社会生活的逻辑,其本身就是一项极其危险的事业。然而,在这些非随机误差面前,难道我们真的就束手无策吗?其实,只要我们对不同类型的非随机误差稍加分析就不难看出,有些非随机误差也是可以完全加以控制的(比如录入误差);有些误差可以根据一些较为严密的逻辑推理加以检验判断,并通过二次访谈的方式加以修正;此外,某些信息记录偏误的并非完全的杂乱和偶然,而是存在一定的系统性,比如一些特定被访、调查员的特征总是与某类特定的信息记录偏误相关联,某个特定的记录误差集中出现在某些特定地方区域中等等,归纳和总结这样的系统性的偏误模式,也是我们在分析处理过程中客观、准确地把握问题数据的有效方式。最大限度地减少那些“不可知”的误差对统计分析的影响,是每个利用数据来描述和分析社会现象与社会过程的研究人员都必须认真对待的问题。因此,从这个角度来讲,任何一种减少数据误差的工作就具有了极为重要的意义。为了尽量了解和减少研究数据中的信息变异,目前大多数严格的实证研究都会对最后录入数据进行数据清理,即通过对特定变量的逻辑检验或数据模式分析,我们可以推断调查员在信息记录过程中可能产生的信息偏误,推断被访者所报告的信息之真伪程度,从而修正数据中的某些记录误差;同样,通过逻辑检验,我们还可以由此来检验测量工具的有效性;甚或在遇到与常规逻辑不相符合的真实现实时,还可以由此加深和扩展我们对社会现实的认知。本章的主要兴趣在于,如何通过有效方式,最大限度地降低数据中的非随机误差,通过分析清理 GSS数据时遇到的实际情形,探索一些常见的、具有典型意义的信息偏误模式,为将来实证调查过程和数据清理提供一种经验参考。第二节消除录入误差由于数据清理是依据电子存储格式的数据进行的,因此,在数据清理之前,我们首先就需要保证录入数据与问卷记录数据具有最大限度的一致性,为此数据清理的第一个步骤就是要基本上消除录入误差。数据录入主要是指将编码形式的被访者回答信息,从纸本记录格式转化为机读存储格式的数据形式的过程。一般来讲,有两种方式可以实现这一转化,即光电扫描和手工录入。光电扫描的优点是可以避免人为录入过程中的出错,缩短录入环节时间,但是光电扫描方式录入一般需要使用特殊符号来编码,而这种编码往往不是直观的,在编码过程中的出错不容易被检查出来,同时,制作光电录入格式的编码页成本也较高。特别是,光电扫描录入质量有赖于编码符号的清晰可辨之质量,一旦某个编码符号出现质量问题并被错误辩识,事后也较难被查验出来。手工录入对事先的编码要求并不太高,只要字迹容易辨识就行(这是一般访员都能做到的),更主要的是,手工录入增强了录入数据的可查验特性。手工录入往往容易出错,但在数据的控制环节,有两种主要办法可用来降低出错概率。其一是采用专门的录入软件(比如 PCEDIT、EpiData),都有较强的值域控制和逻辑检验功能,一旦录入出错,都可以给出特定的错误提示,减少录入错误。其二是更为彻底的录入控制方式,即双录检验。采用双录检验,是基于两个录入人员在同一份问卷中的同一个变量上录入出错的概率极小的假设。双录检验的方式是将同一份问卷交由两个不同的录入员分别录入,然后通过对两个录入数据集中的同一样本的相同变量加以一一对应地比较,以期查验两者录入不一致的情况,然后对不一致样本和变量查对问卷记录来加以判定和修正。这是一种重复录入的方式,通过一一对应地比较、检验两次录入数据之差异来消除录入误差。有的录入软件(如前述 PCEDIT和 EpiData)本身都带有这样的功能,当然也可以通过在 SAS、SPSS或 VisueBasic等统计软件或数据库软件中编程来实现这一功能。本次 GSS数据录入即采用 EpiData软件手工录入,并进行双录检验。采用这种方法后,我们又对双录检验后的数据进行逻辑检验和野值清理,在此过程中,我们最后所发现的问卷录入错误率不到十万分之一,从而最大限度地保证了录入数据与问卷记录信息的一致性。达到了基本上消除了录入错误的目标。第三节野值、极值的判别与处理对野值或极值的清理、判别,是数据清理工作的第二个基本步骤,对它们的判别从怀疑开始。野值或极值,并非都是错误的取值,在我们尚未确定之前,都只是值得怀疑的数据。野值( wild card),又称非法值( illegal value),是指那些既不在题器规定的取值范围之内的值,也非研究人员约定或了解的取值,比如,性别变量,男性取值为 1,女性取值为 2,缺失值取值为 9,如果在 1,2,9三个取值之外,出现了一个新值,如 5,这个新值就是野值。野值主要是针对类属变量或定序变量的取值范围而言的。极值(extrema),又称为奇异值(outliers),它针对某个连续变量而言,极个别样本的取值极大地超过(或低于)总体平均水平,或者在正态分布曲线中极远地偏离中心取值的值。举例来说,对于收入的测量就常常遇到这样的极值。GSS调查中,城市月收入取值在 10000元以下的样本占全部样本的 99.99,但是有四个样本的取值则超过了 20000元,其中还有一个样本的取值为 60000元,这样的样本取值就是极值,需要接受检查。怎样判断一个变量取值为极值,不同的研究人员可能有不同的标准。显然,极值都是研究人员认为值得怀疑的数值,而研究人员的怀疑根据来源于以往的研究经验和对现实的感知,多大的值超过了研究者认可的标准,这个值以上的数值理应作为该研究者的极值来加以查对问卷、检验。而我们通常的做法是,将大样本数据中的某个连续变量的 1%5%的数值作为极值加以查验,一般可以发现极大多数可能存在于极值中的编码错误这种编码错误通常是由码位填写错误所致。查找野值和极值,最有效而又简单的办法就是查看频数表,从频数表中发现超出问卷变量规定取值范围的取值,然后一一比照问卷所记录的相应信息(原始信息)并加以分析、处理。出现野值和极值的原因极为相似。野值是该变量中那些研究者未赋予意义的值,这些值的来源可能有两个,(1)录入错误或编码错误;(2)问题询问过程中,调查员记录了问卷设计时未曾预料到的取值情况。极值的出现同样可能存在两种情况,一是录入或编码错误,二是问卷访谈确实遇到了特殊个案,其取值可能远超过总体均值水平。就查找出来的野值和极值来说,对于录入或编码错误,显然正是需要更正的数据,这也是初始查错的基本任务。而对于那些未曾预料到的变量取值,则需要慎重对待,而且针对野值和极值,其处理方式也是很不相同的。对于野值,首先我们需要确定的是,这一取值是否是有意义的值,如果是无意义的取值,则很可能该问题的回答出现了缺失;如果是有意义的取值,就要判断它所代表的意义能否涵括在原来的取值之中?如果能,就需要将其重编码到原来的类之中;如果不能,则以新值单独标记,并贴好值标签,以便将来在分析过程中加以进一步处理。对于极值,通过问卷加以判断并非编码或录入错误后,都需要将其保留在数据集中,并将这些极值存在的情况记录下来,为将来统计分析制定处理策略时提供依据。第四节客观变量的逻辑检验在对录入数据进行双录检验后,基本上可以确认进入分析软件数据集的数据与原问卷编码信息有了最大限度的一致性,但数据信息是否与存在于被访者那里的真实信息一致,尚需进一步的检测。录入校验和初始查错的基本目标是最大限度地确保机读存储格式数据与问卷记录信息的一致,但问卷信息是否与存在于被访者那里的真实信息相一致,则需要通过进一步的逻辑检验和数据分析加以检测。而在数据清理过程中,我们会发现,不同类型的数据误差具有不同的解决方式。调查问卷中的所有问题在最后的分析框架中都以一个或多个变量的形式存在,从内容上来说,这些变量可以分为客观变量和主观变量。客观变量主要是分析单位的属性、状态和行为,如性别、年龄、职业、去过哪几个国家、用哪几种方式找工作等等。这些问题都有客观事实为依据,应该有准确的回答,不应该有模棱两可的地方,所以是确定性的变量;而主观变量主要是态度、意向性和主观的感受,如对生活的满意度、倾向于投谁的票、对自已社会地位的评定等等,这些问题主观性的成份太大,具有很大的不确定性,所以是随机性的变量。由于客观变量之间有着密切的逻辑关系,所以可以通过数据的逻辑检验来找出数据的偏误;而主观变量之间是概率性的关系,对它们是不可以通过逻辑检验来寻找数据偏误码的。鉴于上述主观变量与客观变量的特性差异,我们将分别叙述客观变量数据误差的逻辑检验方式和主观变量的分析检验方式。事实上,在对录入数据进行双录检验清理后,数据清理工作的主要内容之一就是逻辑检验,它通过一定的逻辑关系来判断变量信息的可靠性。但我们始终需要明确的是,逻辑检验并不是根据研究者确认的某些规则或逻辑来武断地判断那些不符合规则、不符合逻辑的值就是错误的取值,从而对其加以修正或加以缺失处理。客观的研究态度也许应该是,社会现象是极为复杂的,研究者所确定的规则或逻辑,往往只是学理或常识所涵盖的一部分社会现象,一些特殊的社会事例是客观存在的,但它们可能不受研究者所规定的规则、逻辑的约束。因此,从这点上讲,数据清理就是从怀疑开始,到消除对数据的疑虑结束:对一切可疑的数据值一一检出,对照问卷记录中的原始信息加以比较、分析,判别信息记录的正误,以更正信息或消除怀疑。对于一些无法依据原始问卷信息加以判断的数据取值,甚至需要通过电话回访或二次访谈来确定信息的真实存在状态,从而达到更正信息的目的,或者以此消除对检出数据所产生的怀疑。逻辑检验,通常是根据现实社会中的某些带普遍性的生活常理、日常规则和行为习惯来对个案数据中的变量关系加以核对,从一些与常规不相符合的个案中发现可能存在的信息变异。因此,逻辑检验首先要对样本数据中的两个或多个变量设定若干逻辑关系。这些逻辑关系来源于问卷设计时的概念和题器之间关系。以 2003年的 GSS调查的第一轮数据清理为例,我们通过对调查问卷的内容进行分析,首先提出了 42个逻辑检验项,这些逻辑检验项分属于性别、年龄、婚姻、户籍、住房、收入、教育、职业和社会交往九个方面,共涉及到 238个变量,在全部问卷的 747个原始变量中占了 31.86%。具体情况见表 10-1。表 10-1 各方面的逻辑检验项和涉及变量数逻辑检验项 涉及变量1 性别 1 2 年龄 15 21 婚姻 7 7 户籍 2 16 住房 2 4 收入 1 2 教育 9 54 职业 2 107 社会交往 2 27 其它 1 2 总计 42 238 利用这 42个逻辑检验项,对收回的 6570份问卷进行逻辑检验,最终的完全通过的问卷有 4842份,占 73.72%,另有 1726份占总数 26.28 %的问卷分别有 1-7个逻辑检验项被检出(见表 10-2),其中有 13份问卷检出的逻辑检验项数在 3个以上。表 10-2 逻辑检验项被检出情况检出逻辑检验项数 频率 百分比 0 4842 73.72% 1 1361 20.72% 1有些变量在多个逻辑检验项中被重复使用2 306 4.66% 3 46 0.70% 4 9 0.14% 5 2 0.03% 6 1 0.02% 7 1 0.02% 总计 6568 100.00% 这些被检出的逻辑检验项都可被视作为数据误差,它们出于各种原因使得各个具有确定性的客观变量出现了不确定性的因素和逻辑上的错误,撇出调查员的因素,仅从被调查者和调查问卷这两个方面的因素上来说,存在着四种误差来源: (1)被调查者的知识、经历,思维模式等各方面的特质及能力上的差异所形成的系统误差,称为被试效应(subject effect),这个方面的误差主要同调查抽样有关; (2)问题的难度差异所带来的误差,称为项目效应(item effect)。有一些问题,从形式上是客观性变量,但被调查很难给出一个确定性的回答,在存在着回答难度的问题上,被调查者往往给出一个随意性的或粗略的回答,从面导致误差的产生。例如在 GSS调查中,有这样两个问题:B10b. 2002年全年的总收入是多少?(包括工资、各种奖金、补贴、分红、股息、经营性纯收入、银行利息、馈赠等所有收入)。 D8. 请你估计 2002全年家庭各种收入总和(包括全家所有成员的全部工资、各种奖金、补贴、分红、股息、经营性纯收入、银行利息、馈赠等)。 从形式上看,这两个问题都属于客观变量,存在着一个确定的回答,但是,这个问题的回答需要被调查者进行复杂的回忆和计算,具有极大的回答难度,所以被调查者就采取随意或粗略计算的回答方式,从而产生了误差,这种情况发展到极端就会产生一个明显的逻辑错误:个人全年的总收入大于全家全年的总收入。在 GSS调查的原始数据中,这个逻辑检验项的检出率为 2.10%,是非常之高的。 (3)问题与被调查者之间的交互效应(the interaction between subject and item)所带来的误差(the interaction between subject and item),对某个被调查者来说相当简单的问题可能对另一个就显得十分深奥,或者是对于同一个问题不同的调查者有着完全不同的理解。例如,在 GSS调者问卷中,有一题问及被调查者其住房依市价,值多少钱,对于那些对市场比较熟悉的被调查者,很容易给出较准确的答案,而对哪些对市场不熟悉的被调查者来说,则只能是随便猜猜罢了;又比如另有一题问及被调查者住房的使用面积和建筑面积各是多少,对于那些有过购买商品房经验的被调查者来说,他们很明白这两个概念的内容和差别,而对那些住公有住房或自建住房的被调查来说,他们往往搞不清这两个概念的意思,而各有各的理解。所以,通过对 GSS调查的原始数据中“住房的建筑面积小于使用面积”这一逻辑检验项进行检验,检出率为 5.33%,也相当高。 (4)随机误差(如被调查者在被调查时注意的转移、记忆的疏漏等 )和其它的一些没有定义和未知的误差来源。在 42个逻辑检验项中,检出率高于1%的共有 10项(见表10-3),从这 10项的内容可以看出,这些误差的来源较分散,后面的 3种误差来源都有可能,但同时也可以看出,检出率较高的逻辑检验项的误差来源大多以项目效应和交互效应为主。另外,需要加以说明的是,通过逻辑检验检出的误差只是冰山之一角,还有大量的数据误差存在但没有表现出为逻辑错误,逻辑检验只能是把那些最明显的数据误差清理掉了。 表 10-3 检出率高于 1%的逻辑检验项逻辑检验项 检出率 个人基本情况表和教育经历表中的最高学历不一致 7.02% 受访者住房的建筑面积小于使用面积 5.33% 被访者工作时年龄小于 14 2.34% 受访者 2002年的全家收入少于其个人收入 2.10% 初中入学年龄小于或等于 7岁 1.71% 受访者未婚但有填写过配偶教育经历 1.46% 自己和配偶性别相同 1.32% 受访者的从业状态为无工作,但又填答了有关职业的各种信息 1.26% 父母和配偶为农业户口却又有农转非经历 1.22% 自己和母亲的年龄相差不到 15 1.07% 从上表 10项检出率高于 1%的逻辑检验项的内容可以看出,他们分别属于教育、住房、年龄、收入,婚姻、性别、职业、户籍 8个方面。将 42个逻辑检验项按其内容分类,计算各类逻辑的检出率,考虑到各类逻辑的检出率与该类逻辑下的逻辑检验项的数量呈相关关系,所以,应对其检出率进行修正2(见表10-4)。从修正检出率可以看出,数据的误差主要集中在教育、住房和收入三个方面。 表 10-4 分类别逻辑检出率 检出率 修正检出率 教育 9.97% 4.85% 住房 5.36% 5.02% 年龄 4.80% 1.95% 婚姻 2.56% 1.40% 收入 2.10% 3.03% 职业 1.58% 1.44% 性别 1.32% 1.90% 社会交往 1.23% 1.14% 户籍 0.14% 0.13% 在收入方面,主要的误差来源是由于问题的难度所造成的,而在住房方面的误差则主要由于问题与被访者之间的交互效应所造成。对于教育来说,误差来源则是两个方面的原因兼而有之,一方面,问卷中所列的教育经历表太复杂,需要被调查者大量的回忆和计算,大大增加了错误的机会;另外,中国大陆学历判定比较复杂,除了正规教育以外,还存在着大量的在职学习及学历教育,而在人员的学历划分上,则存在着所谓同等学力等说法,所以被调查者主观所认定的自已的学历与其教育经历往往有差异,从而导致了误差的产生。所以,在问卷调查中,如果某一个方面内容的误差较大,往往是除了随机误差外,还存着问题本身的难度以及问题与被访者之间存在着交互效应所带来的误差。因此,在问题设计加以注意,是减少数据误差的有效手段。第五节主观变量数据清理客观变量的调查误差可以通过逻辑查错的方法部分地予以检验,而主观变量之间并不存 2修正检出率的公式为:Ri = Ln(xrii +1) ,Ri为 i类逻辑下的修正检出率, ri为 i类逻辑下的检出率, xi为 i类逻辑下的逻辑检验项的个数。在确定性的逻辑关系,其调查误差则是不能通过逻辑查错加以检验的。所谓主观变量的调查误差,指的是调查结果并不是被调查者真实的主观意见或表现,而是受到其它因素干扰所形成的。在心理学尤其是心理测量的研究中,由于其所涉及到的变量绝大部分都是主观变量,所以对于这一问题极为重视,他们将这一误差称为作答偏差( response bias),指的是被调查者在回答问题时,不依照问题所问的内容真实的反映自已想法,而是依照一些与问题无关的准则来作答。比方说,被调查者在回答问题时,不是考虑自已的真实意见是什么,而是去想大多数人会怎么样回答、我怎样回答会让调查员满意、或是给一个最简单的答案就算了等等,这些回答问题的方式被称作是作答定势(response Set),由于按一些固有的定势回答问题,使得被调查者的真实意见不能表达出来,从而产生了作答偏差。而造成作答偏差的最常见的作答定式有:社会期许式作答(socially desirable responding)、顺从式作答( acquiescence)和两极式作答( extremity response)3。在心理测量中,对于这些造成测量误差的作答定式的处理方面是在测量中专门设计分量表来测量这些倾向,并根据结果对测量结果进行修正。一些著名的经典量表如 MMPI,CPI等,都有专门的测量作答偏差的量表。但是在社会调查中,很难采用心理学的这种过于繁锁的办法,而只能是在问卷的设计和调查的实施中对这些偏差加以控制。社会期许式作答是最常见的一种作答定势,指的是被访者倾向于给出被社会所赞同的答案的倾向,心理学相关的研究认为社会期许实际上包括两个方面的因素,一是正向自我欺骗 (self-deceptive positivity),一是印象整饰(impression management),这两个方面是有差别的,一个是下意识的自尊或自我拔高,一个是有意的迎合各个方面以获得好印象。例如在 GSS的问卷中,有这样一个问题。“按 2002年的收支情况,您家的生活水平在本地大体属于哪个层次?”从实际的情况而言,被访者可能该被划入下层,但这对他的自尊是难以接受的,所以这时候他会在脑海中找出一些比他更糟的家庭的情况进行比较,他会认为自已的家庭属于中下或中中等,而他自己也对这个判断深信不疑了。这是正向自我欺骗的例子。而另一个例子是“我总是不愿意与那些生活境况不太好的人来往”,这句话是同社会道德有所违背的,被访者是不愿意当着调查员表示赞成的,所以他选择了“不太符合”这一选项,而他的实际情况很有可能是“较符合”,这就是印象整饰的例子。心理学中控制社会期许的方法有多种,能应用到社会调查中的方法主要有两种,一种是社会期许平衡法。比如有这样一个问题“你是否同意性别歧视是不对的? a)同意, b)不同 3 Robinson, Shaver & Wrightsman,性格与社会心理测量总览 (Measures of Personality and Social Psychological Attitudes),台湾,远流出版公司, 1997年。29-35页。意”。这是一个社会期许性很高的问题,选择“不同意”是要承受很大压力的,所以要采取措施平衡这个问题的社会期许。可以把问题改成“你是否反对性别歧视?a)是,b)否”。这样的陈述,社会期许性就有所降低了,因为只是说了是否,没有明确的说出反对或同意来;这种方法只是在问题上降低了社会期许,而在答案是二选一的情况下,社会期许的压力仍然是很大的,所以可以增加选择的数量,比如给出“同意、较同意、较反对,反对” 4个选项,这样,被访者就可以通过一些较温和的方式表达自已的真实意见。由此可见,研究需要在问题和选项的设计上下大功夫。另外一种方法是压力缓解法,社会期许式作答,大多在被访者回答涉及自尊、个人隐私、道德伦理、政治敏感等问题时,其感受到社会压力的情境下出现,所以为了缓减压力,调查时不应该有无关的人在场;调查员要注意提问方式方法;而在条件许可的情况下,甚至可以让被访者在这些问题上采取自填方式,以尽可能控制社会期许的影响。顺从式作答同社会期许不同,它既不是为了自我欺骗,也不是为了获得他人的好印象,而只是被访者不习惯说“不”,“反对”等语词,日常中这些被访似乎倾向于说“是”,“同意”,“赞成”等肯定话语。顺从式作答往往出现在问题抽象性较高、有较高难度的情况下,被调查者不愿意多加思考,就点头称“是”了。控制顺从式作答的方法就是不要采取问一个问题然后给出“是”、“否”,“同意”、“反对”两个选项的形式,而要把正反两个意思用两个不同的陈述表达出来,让被调查者在这两个陈述中选一个同意的,而永远不给他只是点头称是的机会。两极式作答也是一种常见的作答定式,它一般出现在对一些以量表形式出现的问题回答上,两极式作答会倾向于给出极端的回答;而中庸式的作答也是两极式作答的一种形式,它倾向于给出尽可能居中的回答。而中庸式回答是中国人最常见的一种作答定势。为了控制这种作答定势,在针对中国人进行的问卷调查中以量表形式出现的问题应避免采取 5段或 7段利克特量表的形式,因为中国人往往倾向于选取那个最居中的选项,所以应采取 4段或 6段利克特量表的形式,迫使被调查者在正反两种态度中表明其倾向。尽管在一份调查问卷中,主观变量会存在上面提到的以及其它的一些误差,但是要识别出这些误差是很困难的。目前来说,是从一组有内在一致性的主观变量来判断数据的可靠性的。所谓“一组有内在一致性的主观变量”在问卷中是以态度量表的形式存在的,所以如果在一份问卷中如果存在一个或数个以态度量表形式存在的问题,那么这些量表结果的有效性也是判定问卷数据质量的一个重要指标,而在 GSS的问卷中的 J部分,正好有一个包含 13个项目的态度量表,这个量表在变量上表现为主观变量,其数据的可靠性,也是整个问卷数据质量的一个重要指标。考察态度量表结果的可靠性主要有两种手段,一是计算量表各个项目的方差,一般来说,各个项目的方差应该维持在一个正常的水平,如果方差过于的小甚至等于零,我们有理由认为被调查者在回答问卷时是非常不认真的。到底怎样才属方差过小是很难判定的,所以我们只取最极端的方差等于零的情况,方差为零则意味着被访者在所有的项目上都选了一样的答案,比如说,全选 A或全选 B,这可能是被访者按两极式作答定势在作答或者根本没有仔细看题而胡乱作答的结果。当然不排除这可能确实是其真实意见反映,但这种可能性很小。以 GSS问卷中的态度量表为例,这个量表为 4段的利克特量表的形式,各选项的赋值从 1到 4,以此计算各项目之间的标准差最小为 0,最大为 1.56,其中有 28份问卷的方差为 0,而这 28份问卷中,有 19份在 13个项目上都选了 4,有 9份在 13个项目上都选了 3,我们至少有理由认为这些问卷在此态度量表上的结果的可靠性是值得怀疑的。第二种方法是从相关性着手考虑这些主观变量的事后逻辑。仍以 GSS问卷中的态度量表为例,计算各项目之间的 Spearman相关系数,其相关矩阵见表 10-5。表 10-5 Spearman相关矩阵 注:*代表相关系数双尾检验在0.01 的水平上显著; v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v1 1 -.279* -.297* 0.014 -.255* -.276* -.239* -.094* -.101* -.166* .085* -.116* v2 1 .495* .109* .437* .431* .388* .123* .207* .297* -.044* .175* v3 1 .115* .447* .534* .411* .146* .217* .314* -.044* .160* v4 1 .113* .116* .077* .048* .026* .119* 0.016 -0.02 v5 1 .495* .406* .156* .186* .247* -.026* .195* v6 1 .509* .158* .213* .300* -.040* .157* v7 1 .178* .176* .309* -.083* .150* v8 1 .131* .088* 0.015 .089* v9 1 .222* .102* .090* v10 1 -0.01 .087* v11 1 .084* v12 1 v13 *代表相关系数双尾检验在0.05 的水平上显著 以其 Spearman 相关系数的绝对值是否大于等于 0.3作为两个变量是否相关的标准,因此,表 10-5的矩阵可转换为表 10-6的形式:表10-6 转换后的相关矩阵 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v1 v2 v3 v4 v5 v6 v7 v8 v9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省邛崃市文昌中学校2026届物理高一第一学期期末联考模拟试题含解析
- 培训合同样式范本
- 预应力金属波纹管尺寸试验记录
- 防水卷材耐化学侵蚀试验记录
- 济南大学毕业设计(论文)外文资料翻译参考格式文科类参考模板
- 本科毕业论文评语大全修改版
- 浅析“再”字用法演变
- 如何根据毕业论文选择研究方向
- 2025毕业论文格式规范
- 老城区雨污分流改造难题与解决对策探讨
- 育婴师中级试题及答案完整版
- 杭州家政服务合同范本
- 批记录填写要求培训
- ECMO辅助下严重创伤患者损伤控制复苏方案
- 2025年新合同管理部试题及答案
- 2026年辽宁现代服务职业技术学院单招职业技能测试题库带答案
- 2026年郴州职业技术学院单招职业技能考试必刷测试卷及答案1套
- 【MOOC】《创业团队建设与管理》(首都经济贸易大学)章节期末慕课答案
- 中外儿童文学经典阅读与写作智慧树知到期末考试答案2024年
- 北师大版一年级上册数学期中测试卷
- 电工中级题库及答案
评论
0/150
提交评论