3.社会科学数据处理软件应用2.doc_第1页
3.社会科学数据处理软件应用2.doc_第2页
3.社会科学数据处理软件应用2.doc_第3页
3.社会科学数据处理软件应用2.doc_第4页
3.社会科学数据处理软件应用2.doc_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 社会科学数据的采集2.1 社会科学研究程序的制订2.1.1社会科学研究程序1.确定问题与目的:(1)搜集内部记录及各种有关二次数据,并与相关人员讨论可能出现的问题;(2)访问外部对此问题有丰富经验或学识的人士,取得其对此问题的看法与可能解决的方案。2.决定研究设计:(1)探索性研究:发掘初步见解,并提供后续研究资料;(2)结论性研究:帮助决策者选择合适的解决方案。3.决定搜集数据的方法: (1)第一手数据:为研究直接收集的数据,成本高,观察、实验和问卷访谈所得。 (2) 二手数据:政府发布的各种社会调查统计数据。 4.抽样设计:(1)决定研究样本的对象;(2)决定样本数;(3)决定抽样的方法;(4)决定访谈人员的数量和构成。5.撰写计划书:(1)研究计划;(2)绘制甘特图6.搜集数据:(1)培训访谈人员;(2)监察访谈人员是否工作到位(是否实地;是否作假);(3)处理突发事件。7.录入、分析及解释数据:(1)对数据进行编码、录入电脑;(2)分析数据:计算各种统计量、绘制图表、进行检验。8.提出报告2.1.2 绘制甘特图1.制订研究工作进度表,如下表(1)输入A列、B列和第1行的数据;(2)自定义C2:C9的数字格式为0“天“,然后输入天数。(不能直接输入“28天“,原因是该数字格式为字符串非数字)(3)在D2输入公司“B2+C2”,然后填充至D92.绘制甘特图 (1)选中A2:C9 ,作为数据源制作图表; (2)调出“ 图表向导” 的“ 三维堆积条形图“ ,完成图表; (3)调整图表文字大小、图表边框和图案调整为“ 无“ ; (4)分类次序反转,使得工作项目由上而下排序 注意:“三维堆积条形图“的X轴的标签是研究计划的名称, X轴的值是起始日期和天数。图表的字体、大小、颜色调整原则:清楚、美观。2.2设计问卷2.2.1问卷设计步骤1.列举所要收集的信息:(1)研究现有的文献;(2)访谈有经验或有学识的人士。2.决定访问的方式:(1)人员访谈;(2)电话访谈;(3)邮寄问卷。3. 问卷的内容:(1)此问题有无必要?删减无关问题;(2)受访者能否回答?避免超出其经验的问;(3)受访者是否原意回答?避免敏感问题;(4)受访者回答是否费时费力?4. 问卷的题型: (1)开放式问题:(2)问答题,无提示,难于整理;(3)封闭式问题:(4)选择题有提示,容易整理。 5.问卷的用语:(1)使用简单字,避免专业术语;(2)使用涵义明确的字词,避免产生歧义;(3)避免诱导性问题;(4)避免需要复杂计算和估算的问题;尽量避免开放性问题。6.决定问题的先后顺序:(1) 难易问题; (2)开放和封闭式问题;(3)关联问题流程图 7.预试和修订:(1)预试人数30人左右即可,无需很强的样本代表性,只求是相关人员即可;(2)问卷改动不大,预试一次即可,若改动较大,需再作一次预试。8.决定问卷的版面:清楚、美观。2.2.2 问卷题目的种类1.单选题:只有一个答案。(1)用非常肯定的语气,确保受访者只填写一个答案,如请问您目前喜欢上什么网站?请问您目前最喜欢上什么网站?(2)尽可能使用单选题,否则只能进行次数分配和交叉分析而已。2.多选题:允许有多个答案。(1)不限选的回答方式,如:您认为目前社会中,下列哪些问题比较严重?(可以选多项)1 腐败2 环境污染3 社会治安4 下岗失业 5 收入差距过大6 物价上涨7 不健康出版物8 假冒伪劣产品9 社会道德风尚10 学校教育哪个设计较好?11 交通12 住房13 社会保障14 外来人口管理(2)设计成了多选题,也要限制最多选几个,或者选后排序。3.填空题或开放式问题:受访者自行填写。如:请问您平均每个月手机的话费约_元。请问您平均每个月手机的话费约为多少钱?1.200元以下2.201400元3.401-600元4.601800元5.801-1000元6.1000元以上请问您目前使用的手机品牌是_。为了取得真正的数字,而非区间值需用填空题。4.量表:测量态度的尺度,有大小先后关系,没有倍数关系。如:请先就下列有关手机的产品属性勾选其重要程度产品属性非常重要重要普通不重要非常不重要1.大小适中2.重量轻巧3.颜色炫丽4.外型大方5.符合人体工学6.附属功能多1.大小适中2.重量轻巧3.颜色炫丽4.外型大方5.符合人体工学6.附属功能多合计1005.权数:衡量态度的重要程度,弥补量表把各属性假定为同等重要的缺点,需对各属性进行加权。加权数目5个左右。如:请根据您购买手机时,各产品属性的相对重要程度,将100分配给下列属性。(请注意合计是否为100)6.等级或顺序:把研究对象的几个属性按某个标准排等级,数目5个以内,如:下列几个手机的入网方式,请您按便宜程度,以排名顺序,填入1、2、3、4、5:全球通_;神州行_;如意通_;动感地带_;新时空_.为了编码和统计方便,可把上题等级或顺序改为单选题,用次数的多少来排名,比如,下列几个手机的入网方式,请问您认为哪一种的收费最便宜?1.全球通2.神州行3.如意通4.动感地带5.新时空2.2.3 数据的编码编码:根据一定的规则将研究资料转换为可进行统计分析的数码资料的过程。实质是将问卷的答案转为适当的数字,以便输入电脑,方便统计和查找数据输入错误源。编码的步骤:首先,确定变量,变量:用来反映文意概念的量化形式。在统计中往往指最小的分析单位。编码就是对变量进行编码。变量由两个部分构成:变量名和变量值。要注意区分何为变量,何为变量值。在调查问卷中还要注意区分问题和变量。问题009:您有几个儿子?几个女儿?1.儿子_人2.女儿_人23变量1的值变量2的值变量1变量2问题其次:制作编码表尤其是用文本和word来作为输入数据的工具时尤其要注意制作编码表编码表变量名码位码数尺度编码不适用不知道未回答缺失值备注num1-44IntervalDirectW0151CategoryD99W01a6-72ID9999W0281CD99W0391OrdinalD99W04101OD0,9W05.1111C0-199W05.2121C0-199W05.3131C0-199W05.4141C0-199W05.5151C0-199W05.6161C0-199W05.7171C0-199W06181CD99W07191CD79W08.120-212ID97989999W08.222-232ID97989999W08.324-252ID97989999说明码位:某一变量在数据文件中占据的栏位码数:某一变量由几位数组成。该变量是数值型(Numeric)如定距、定比,还是字串型(String),如定类、定序。前者在统计中可以做高级运算,后者则不可以。直接过录0-1编码不适于被访人回答的问题的编码。一般采用7,97,997等。被访人回答不知道时的编码。一般采用8,98,998等。被访人拒绝回答某变量时的编码。一般采用9,99,999等。问卷中出现漏答时的处理编码。一般采用9,99,999等。1.单选题编码Q1请问您的手机是哪一种入网方式?全球通神州行如意通动感地带新时空其他有问题吗?有问题,首先是选项没有编号,不利于录入,其次是有的选项前没有醒目标记,第三是其他选项后边应有填空短线,以便被调查者书写内容,以实现开放式问题和封闭式问题结合。正确的是3请问您的手机是哪一种入网方式?1.全球通2.神州行3.如意通4.动感地带5.新时空6.其他_.如果某人选择第三的选项“如意通”,则编码为“3”2.多选题编码l 限选多选题下列社会问题中,您最关注的三个问题是:1.腐败2.环境污染3.社会治安4.下岗失业 5.收入差距过大6.物价上涨7.不健康出版物8.假冒伪劣产品9.社会道德风尚10.学校教育 11.交通12.住房25013.社会保障14.外来人口管理 最关注_2_其次_5_第三_l 不限选多选题您对电视的态度是(多选,符合您的看法就选)。101001000100001.通过电视,我知道了许多外界的事情2.看电视可消除劳动的疲劳,带来愉悦3.我的生活离不开电视4.看电视可以帮助我学习许多知识5.看了电视里的内容,使我与别人有了谈话的话题6.电视节目不太好看,我基本不看7.看电视可以打发无聊的时光8.电视里播的新闻都是假的9.电视里的生活离我们太远了10.电视里反映的城市人的生活让我很羡慕11.频道太少,应该有我们农民自己的频道12.看电视影响了我与家人的交流的时间 13.电视可以提供我所需要的很多信息14.电视剧中的广告插播得太多3.填空题编码(1)数字填空题,直接填入该数值,若未填,编码0;(2)开放式填空题:将所有答案一一详列,用人工归类成少数的几类,并给予数字编码,再把编码卸载原问卷上。 4.量表的编码请在下表对应的位置选择您对媒体的态度,请在相应位置打“”对媒介态度报纸广播互联网电视非常重要重要普通不重要非常不重要量表编码的四种方法评价编码1编码2编码3编码4非常重要512-2重要421-1普通3300不重要24-11非常不重要15-22上例编码结果变量以编码1编码以编码2编码以编码3编码以编码4编码报纸421-1广播3300互联网512-2电视512-2权数编码表5.权数编码(1)不需编码,直接把权数输入即可,或编码为小数,如20编码为0.2,方便输入。(2)权数加总不等于100的调整法具体方法是将不等于100%的权数总和作为分母,用每个权数去除,分别得到的就是调整后的权数。如例子中在购买手机时,各手机属性对购买者影响购买的心理权重,总和后为140%,需要调整,“大小适中”属性的原权数为20%,调整后的权数是20%/140%=14.29%,其他属性的调整后权数的计算方法一样。权数编码及调整表原权数调整后1)大小适中20%14.29%2)重量轻巧10%7.14%3)颜色绚丽20%14.29%4)外形大方50%35.71%5)符合人体工学30%21.43%6)附属功能多10%7.14%合計140%100.00%6.等级、顺序编码按照实际的等级、顺序号编码,如未排完序,则把未排的项目视为相同等级,比如只排了前两位,编码为1、2,剩下的全编码为3问卷编号最便宜的排名全球通神州行如意通动感地带新时空3045324130554321306122223073213330813445309412353105324131121333312122222.3抽样2.3.1抽样程序1.界定总体2.确定抽样框:(1)抽样框应包含满足研究目的的所需总体;(2)应包含所有的基本单位;(3)基本单位不会重复出现;(4)样本应该容易得到和方便使用。3.选取样本单位4.选择抽样方法。(1)概率抽样:随机抽样;系统抽样。(2)非概率抽样5.决定样本大小6.搜集样本数据7.评估抽样结果:(1)样本标准差的大小;(2) 检验统计的显著性; (3)同现有的可靠数据的比较(信度和效度)。根据使用的抽样方法,抽样调查可分为概率抽样和非概率抽样。用概率抽样,可以计算取得的每个可能样本的概率;用非概率抽样,则不知道取得的每个可能样本的概率。如果调查者想对估计的精度做出说明,则不能用非概率抽样。相应地,用概率抽样方法对给定的允许误差(也称为抽样误差界限),可构造置信区间。在后面几节中,我们将讨论四种概率抽样方法:简单随机抽样、分层简单随机抽样、整群抽样和系统抽样。2.3.2简单随机抽样1.定义:从一个容量为N的有限总体中抽取得到一个容量为n的简单随机样本,使每一个容量为n的可能样本,都有相同的概率被抽中。是统计方法的基础,总体中每个单位被抽到的概率是完全相同的。2.程序:(1 )给总体的每个单位独立编号。用简单随机抽样进行抽样调查,首先应建立一个抽样框,即抽样总体中所有个体的名册;(2 )传统的抽样方法:摸彩法或抓阄法,传统随机数表法。随机数表法根据随机数表进行抽样。使用随机数表,可以保证抽样总体中的每个个体都有相同的概率被抽中。在这一节中,我们将介绍用简单随机抽样对总体均值、总体总量及总体比率进行的估计。(3)利用EXCEL随机抽样:克服摸彩法或抓阄法和传统随机数表法费时费事,容易出错的缺点。用RAND() 函数随机抽样;用RANDBETWEEN() 函数随机抽样;用随机数产生器随机抽样;用加载宏随机抽样 2.3.2.1 用RAND()函数随机抽样1. RAND()函数的涵义:产生一介于01的随机数。例子1:在全班50位同学中,以随机方式抽出15位受访者。2. 随机抽样的程序:(1)给每位同学一个独立不重复的50以内的整数编号;(2)在单元格A2中输入1+RAND()*49(3)然后拖拽至E4,这样产生15个150之间的随机数。为什么要输入公式 1+RAND()*49? 原因一:RAND() 随机产生01的数,所以当“RAND() ”为0时,公式“1+RAND()*49”值为1;当“RAND() ”为1时,公式“”值为50,这样公式“1+RAND()*49” 必然产生一个150之间的一个数。原因二:对50名同学的编号是150,所以公式是 “1+RAND()*49”;如果对50名同学的编号是10001049,那么公式就变为“1000+RAND()*49”了总结:RAND()函数随机抽样的一个公式:=开始编号+ RAND()*(结束编号-开始编号)(4)在B2:F4区域的单元格的数值只显示整数,如右图。2.3.2.2 用RANDBETWEEN()函数随机抽样1. RANDBETWEEN(bottow,top)函数的涵义:产生一个介于上限和下限之间的随机数。例子1:某公司有2500人,其中1100号为主管,1012500为普通员工,假设随机抽出10主管和50位员工作为受访者。2. 随机抽样的程序:(1)分别建一个主管样本工作表和一个员工样本工作表。(2)在主管样本工作表单元格C2中输入”开始编号”,在D2中输入1,在E2中输入结束编号,在F2中输入100。 (3)在主管样本工作表单元格B4中输入公式RANDBETWEEN($D$2,$F$2)(4)然后拖拽至F5,这样产生10个1100之间的随机数。(5)在B4:F5区域的单元格的数值只显示整数,如右图所示。(6)在员工样本工作表单元格C2中输入”开始编号”,在D2中输入101,在E2中输入结束编号,在F2中输入2500。 (7)在员工样本工作表单元格B4中输入公式randbetween($D$2,$F$2)(8)然后拖拽至k8,这样产生10个1100之间的随机数。(9)在B4:k8区域的单元格的数值只显示整数。Rand()函数和randbetween()函数,每当有输入运算符或按F9时,就会重新计算,但抽样结束后,我们希望固定下来不会变动,这该如何解决呢?解决方案1:用“选择性粘贴”只粘贴“值()“,避免公式被复制。解决方案2:用随机数发生器随机抽样。解决方案3:用加载宏系统抽样2.3.2.3 用随机数产生器随机抽样例子1:某公司有2500人,其中1100号为主管,1012500为普通员工,假设随机抽出10主管和50位员工作为受访者。随机数发生器随机抽样的程序:1.调出随机数发生器:工具/数据分析/随机数发生器/确定。 2.在“变量个数”的方框里输入随机数表的列数5;在“随机数个数”的方框里输入随机数表的行数10;3.在“分布(D)”之后选择“均匀”;4.在“参数”下方,将其值设定为介于1012500问题:学生的学号是连续编码而成的,按上述的方法就可以随机抽样,但当某个班级的某些学生退学或者留级了,该班的学生的学号变成不连续的了,这种情况下该如何随机抽样呢?5.设置“输出选项”后按“确定”,就自行产生了50个随机数如表3-10所示。2.3.2.4 用加载宏随机抽样原间断且随机排序的编号806130553001405140017001806230563002405240027002806330573003405340037003806430583004405440047004806530593005405540057005100630603026402650066006100730613027402750076007100820083028402850086008100920093029402950096009101020103030403050106010抽样结果306070038064700340297002501020084003700130046009假设将在60名不连续的员工编号(10011060)内以系统抽样抽选12位受访者。加载宏随机抽样的程序:1.建立编号数据源,连续或不连续,随机或不随机排列都可以。2.调出加载宏:工具/数据分析/抽样/确定。 3.在“输入区域”的方框里输入数据源;4.在“抽样方法”下面选择“随机”;在“样本数”下面输入12,表示抽取12个样本。5.设置“输出选项”后按“确定”,就自行产生了50个随机数如左表所示。2.3.3 系统抽样。统抽样步骤:(1)给总体的每一单位编号(2)算出样本区间I=N/n, I为样本区间,N为总体总数,n为样本数,若不为整数,四舍五入即可。(3)随机选定一个起始编号,用B表示(4)由起始编号B开始,每次加上样本区间值I,即为被抽选的样本编号:B,B+I,B+2*I,2.3.3.1 复制填充法系统抽样例子:从1500人中抽选13人复制填充法系统抽样的程序(1)输入提示字符:开始编号(1);结束编号(1500);样本数(10)(2)算出样本区间I=1500/13115 。(3)用randbetween()函数随机选定一个介于1150的第一样本编号75。然后按F2/F9/ENTER转变为常数。原随机顺序且不连续的编号806130553001405140017001806230563002405240027002806330573003405340037003806430583004405440047004806530593005405540057005100630603026402650066006100730613027402750076007100820083028402850086008100920093029402950096009101020103030403050106010抽样结果806540551010403030594005201050103005700530306010(4)由第一样本编号75加上样本区间150得到第二样本编号225,选中第一二样本编号进行复制填充,直至第十个样本编号的出现。设疑问题1:假设上例的样本间距不是整数,起始编号又不是从1开始,该如何处理?问题2:如果样本间距比起始编号的数值还小,如何随机确定第一样本编号?2.3.3.2 用加载宏系统抽样假设将在60名随机排序且不连续的员工编号内以系统抽样抽选12位受访者。加载宏系统抽样的程序:1.算出样本间距60/1252.建立编号数据源,连续或不连续,随机或不随机排列都可以。3.调出加载宏:工具/数据分析/抽样/确定。 4.在“输入区域”的方框里输入数据源;5.在“抽样方法”下面选择“周期”;在“间隔”下面输入5,表示每间隔5抽取1个样本。5.设置“输出选项”后按“确定”,就自行产生了50个随机数如表3-12所示。注意:这一方法不是真正的随机抽样,因为所抽选的第一个编号不是以随机的方式得到的。比如第一个编号永远不会被抽到。2.3.4 样本大小计算在抽样设计中,样本容量的选择是一个重要的问题,通常最好的选择是对经费和精度进行权衡。较大的样本可以提供较高的精度(允许误差较小),但费用较多。通常,研究的预算将决定样本容量的大小。对其他情况,样本容量应该选取足够大来满足规定的精度水平。2.3.4.1 样本大小意义及方法1.意义:(1)样本过大浪费;(2)样本过小增加抽样误差。可容忍误差总体标准差显著水平2.方法:(1)概率抽样时,样本大小由公式计算;(2)非概率抽样时,样本大小由抽样人员的主管判断2.3.4.2 估计平均值时的样本大小1.已知总体方差时的样本大小公式如右:2.未知总体方差的样本大小每月平均消费金额总体方差2278462 8001800600500总体标准差528 120024005001200风险显著水平0.0540016002400400Z/21.96 600500500600容忍误差e50 2000400500800样本数n428 600500800100080010001000800100010005006005001200300700300600600500大多数情况不知道总体方差,该如何办?(1)用过去调查的样本方差(S2)来代替(2)如果没有现存的资料,只有进行小规模的调查,算出样本方差,再以这个样本方差代替总体方差。未知总体方差的样本大小例子:经过小规模调查,得到某人群40位的信用卡每月平均消费额,见表,在风险水平0.05情况下,希望对总体信用卡每月消费额的估计误差不超过50元,其样本数应为多大?3.计算样本大小的程序:输入提示字符串和相关数值,如表调用样本方差函数VAR()、平方根SORT()函数和标准正态分布函数NORMSINV根据样本大小公式计算出所需样本。 可容忍误差估计比例显著水平2.3.4.3 估计比例(proportion)时的样本大小1.已知总体方差时的样本大小公式如右:例子:假定根据过去的调查经验,知道支持某品牌的比例为38,在显著水平0.05的情况下,希望对调查结果的支持率的允许误差不超过3,其样本数应该为多大?已知总体方差时的估计比例样本大小计算样本大小的程序:总体比例p38%风险显著水平0.05Z/21.96 - =NORMSINV(1-B2/2)容忍误差e3%样本数n1006 - =(B32*B1*(1-B1)/B42(1)输入提示字符串和相关数值,如右表(2)调用标准正态分布函数NORMSINV(3)根据估计比例样本大小公式计算出所需样本。 2.未知总体方差时的估计比例样本大小大多数情况不知道总体的真正比例p,该如何办?(1)用过去调查的比例p来代替(2)如果没有现存的资料,只有进行小规模的调查,算出比例P,再以这个比例P值差代替总体比例值。(3)无法得知总体真正比例时,可以采取最保守的估计,将总体比例设定为0.5。说明:其实上述公式:是由公式:和公式:组合而来的,所以,不知比例,实际上是不知道总体方差。技巧:保守估计总体比例把不同的总体比例值代入上述公式,结果其样本数会发生相应的变化,变化情况见右表,从表中可知,样本的最大值发生在总体比例为0.5时;总体比例0.5时,样本比例越大,样本数增加;当总体比例p0.5时,样本比例越大,样本数越少。通过保守估计比例求样本大小2.4 数据的录入本书主要介绍三种,即EXCEL、SPSS、EPDATA软件录入数据的方法,优点在于不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。其他的方法还有用DOS、WPS、CCED等软件,按ASCII码方式录入成文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。2.4.1 EXCEL录入标题格式设置2.4.1.1 标题区域设置1.“列”一般用作变量标题录入,每一列数据代表一个变量;“行”作为观测记录,一行代表一个观测记录;2.标题尽量与问卷的问题涵义和编码一致;3.颜色设置,背景问题和其他问题用不同颜色区分;2.4.1.2 标题区域和数据区域的区分设置1.用表格线条区分,分界线设置成双线或粗线; 问卷编号是否有手机购买原因1购买原因2购买原因3平均月费大小适中重量轻巧颜色绚丽外形大方符合人体工学附属功能多229200002232112302000073522323111128200132113232200002221122.冻结窗口(1)冻结窗口是指使光标左侧的各列及光标上方的各行内容被固定,光标的下方各行和光标右侧各列的内容能自由移动,以至于把标题区域和数据区域分开。(2)想要设定水平标题时,应先将目前单元格移往标题行的下方;(3)想要设定垂直标题时,应先将目前单元格移往垂直标题行的右侧;(4)想要同时设定水平标题行和垂直标题行时,应先将目前单元格移往水平标题行下方和垂直标题行的右侧;(5)调出冻结窗口命令:执行“窗口/冻结窗口”,冻结部分有一条黑线以示区别;(6)取消冻结窗口命令:执行“窗口/取消窗口”,原来的黑线消失;3.拆分窗口(1)拆分窗口是指使光标左侧的各列及光标上方的各行内容被显示在一个窗口,光标的下方各行和光标右侧各列的内容显示另一窗口,以至于把标题区域和数据区域分开,方便数据的录入。(2)光标在工作表的第一列非第一行时,目前单元格上方各行的内容被拆分在一个窗口显示,其余的被显示在另一窗口;(3)光标在工作表的第一行非第一列时,目前单元格左边各列的内容被拆分在一个窗口显示,其余的被显示在另一窗口;(4)想要拆分四个窗口,应先将目前单元格移往水平标题行下方和垂直标题行的右侧;(5)调出拆分窗口命令:执行“窗口/拆分”,窗口之间有一条双线以示区别;(6)取消拆分窗口命令:执行“窗口/取消拆分”,原来的双线消失;2.4.2 数据区域格式设置2.4.2.1 光标移动设置1.“ENTER”键设置(1)在EXCEL中,按ENTER键光标默认是向下移动,在输入数据时,要把按ENTER键光标移动改为向右移动。(2)修改方法是:执行工具/选项/编辑,按ENTER键后移动方向“向下”改为“向右”即可。问题:数据输入时,需把数据输入在数据区域,若多输入数据,导致最后的数据被输在数据区域之外,如果不及时改正,以后改以来比较麻烦,如何解决呢?解决方法:把数据区域右边的空白部分保护起来,不允许键入任何值,就能及时知道是否输入错误。把数据区域右边的空白部分隐藏起来,光标就不能超出数据区域之外移动了。2.“HOME”键使用(1)一个观测记录录入完成后,光标在表格的最右边,下一条记录录入,需把光标返回表格的最左边的下一行,传统的方法是用鼠标点击选中,比较简单,但是很慢。(2)快捷的方法是:先按方向键“”,再按“HOME”键,光标会在表格的下一行的最左边,当然先按“HOME”键,再按方向键“” 效果一样。2.4.2.2 数据区域的保护设置方法:1.选中数据区域最右边的一列或者数列,然后执行:右键/设置单元格格式/保护,勾选“锁定”2.选中数据区域,然后执行:右键/设置单元格格式/保护,取消“锁定”3.执行“工具/保护/保护工作表,出现保护工作表对话框,在允许此工作表的所有用户进行(D)下面只勾选“选定未锁定单元格”,密码可以设置,也可以不要。最后按“确定”即可。技巧:如果把数据区域最左边的问卷编号事先设置好(因为是连续的,所以通过填充序列即可),然后把问卷编号这一列同数据区域外的空白部分一起锁定保护,把数据区域的其余部分不锁定保护,这样,输入完一个观测记录后转入下一个观测记录时,只需按一次“HOME”键就行了,显得更为简便。2.4.2.3 数据区域外的空白部分隐藏设置方法:1.选中数据区域最右边的所有空白区域,然后执行:右键/设置单元格格式/保护,勾选“隐藏”2.选中数据区域,然后执行:右键/设置单元格格式/保护,取消“隐藏”3.执行“窗口/隐藏”。2.4.2.4 数据有效性设置一般输入的数据有一定的范围,一般编码为整数,比如性别变量,男1;女2,输入其他数字就是超出范围,如果在性别这一列的单元格设置输入的数据只能为1或者2,否则无效,并给出警告,重新输入,能及时避免错误,节省时间和精力。在EXCEL中,可以通过对数据的有效性设置来实现上述的思想。方法:1.选中要设置的列位;2.执行“数据(D)/有效性(L)”,启动“数据有效性”对话框;3.分别对“设置”、“输入信息”、“出错警告”和“输入法模式”等标签进行设置;4.最后按“确定”即可2.4.3 数据录入后的检验Lessler 和Kalsbeek 曾根据调查的不同阶段对误差来源进行过分类:在抽样框收集、抽样实施过程中会存在抽样误差,在调查实施中会出现无回答误差和计量误差。事实上,任何一次严格的随机抽样调查数据,一般都会存在两个层面的误差:(1)抽样过程中的误差;(2)存在于被访者那里的真实信息与研究人员在统计分析过程中实际可得信息之间的误差。这里,我们将前一种误差称为“抽样误差”,将后一种误差称为“测量误差”。本章所讨论的“数据清理与校验”问题,基本上针对“测量误差”而言。我们认为,测量误差是指被访者的真实信息通过一系列的询问-回答、调查员记述、编码、机读格式存储等转换过程后所产生的信息变异。大多数信息变异都可能是一种非随机误差,它涉及的范围大体包括如下几个方面:(1)录入误差,即将问卷记录信息转换为机读格式存储信息过程所产生的录入错误;(2)无回答误差,即在问卷的某个或某些问题上,由于被访拒答,或者由于调查员询问、记录出现遗漏等原因所产生的信息缺失;(3)回答偏差,产生这类偏差的原因可能是多方面的:一是调查员询问未能准确表达测量目标,致使被访者错误理解问题而产生回答信息与测量要求的不一致,或者相反,被访对询问问题的理解有偏误,因而做出与测量要求不一致的回答;二是题器设计模糊,致使不同被访或调查员对问题产生歧义性理解,从而使收集的信息无法达到测量效果;三是问卷访谈过程受到第三方因素的干扰(比如他人在场、突发事件、访谈被中断等),致使回答产生偏差;四是被访有意报告虚假信息。(4)记录和编码的偏差,即在记录和编码被访者回答信息时,由于调查员的失误而产生的信息偏差。上述测量误差大多是所谓的非随机误差。抽样过程的随机误差一般可以通过抽样技术加以推断和控制,或者可以通过一定的估计手段加以有效估计(比如抽样误差),而非随机误差的控制却是一项复杂的工作,对它的估计也经常令研究者感到十分头痛,有时候它可能会一直潜藏在研究者的分析结果之中,很难为研究者所发现。在大型入户问卷调查的实施过程中,研究者往往由于无法全面掌握抽样以及问卷访谈的具体细节,从而对问卷数据到底可能发生了什么样的信息变异无从知晓。隐藏在数据背后的那些问题,缠绕在可能准确的真实信息之中,有时候我们可能面对的是一堆“斩不断、理还乱”的数据符号,对耗费了巨大的人力、物力收集到手的数据信息往往只能是将信将疑地去使用和分析,这反过来也影响了研究者对社会现实作出判断的信心。正因为抽样调查数据可能存在的诸多数据谬误与偏差,使得我们有理由认为,根据抽样调查数据来分析和研究社会,以期反映真实的社会现象及其背后的社会生活的逻辑,其本身就是一项极其危险的事业。然而,在这些非随机误差面前,难道我们真的就束手无策吗?其实,只要我们对不同类型的非随机误差稍加分析就不难看出,有些非随机误差也是可以完全加以控制的(比如录入误差);有些误差可以根据一些较为严密的逻辑推理加以检验判断,并通过二次访谈的方式加以修正;此外,某些信息记录偏误的并非完全的杂乱和偶然,而是存在一定的系统性,比如一些特定被访、调查员的特征总是与某类特定的信息记录偏误相关联,某个特定的记录误差集中出现在某些特定地方区域中等等,归纳和总结这样的系统性的偏误模式,也是我们在分析处理过程中客观、准确地把握问题数据的有效方式。最大限度地减少那些“不可知”的误差对统计分析的影响,是每个利用数据来描述和分析社会现象与社会过程的研究人员都必须认真对待的问题。因此,从这个角度来讲,任何一种减少数据误差的工作就具有了极为重要的意义。为了尽量了解和减少研究数据中的信息变异,目前大多数严格的实证研究都会对最后录入数据进行数据清理,即通过对特定变量的逻辑检验或数据模式分析,我们可以推断调查员在信息记录过程中可能产生的信息偏误,推断被访者所报告的信息之真伪程度,从而修正数据中的某些记录误差;同样,通过逻辑检验,我们还可以由此来检验测量工具的有效性;甚或在遇到与常规逻辑不相符合的真实现实时,还可以由此加深和扩展我们对社会现实的认知。手工录入对事先的编码要求并不太高,只要字迹容易辨识就行(这是一般访员都能做到的),更主要的是,手工录入增强了录入数据的可查验特性。手工录入往往容易出错,但在数据的控制环节,有两种主要办法可用来降低出错概率。其一是采用专门的录入软件(比如PCEDIT、EpiData),都有较强的值域控制和逻辑检验功能,一旦录入出错,都可以给出特定的错误提示,减少录入错误。其二是更为彻底的录入控制方式,即双录检验。采用双录检验,是基于两个录入人员在同一份问卷中的同一个变量上录入出错的概率极小的假设。双录检验的方式是将同一份问卷交由两个不同的录入员分别录入,然后通过对两个录入数据集中的同一样本的相同变量加以一一对应地比较,以期查验两者录入不一致的情况,然后对不一致样本和变量查对问卷记录来加以判定和修正。这是一种重复录入的方式,通过一一对应地比较、检验两次录入数据之差异来消除录入误差。有的录入软件(如前述PCEDIT 和EpiData)本身都带有这样的功能,当然也可以通过在SAS、SPSS 或VisueBasic 等统计软件或数据库软件中编程来实现这一功能。本次GSS 数据录入即采用EpiData 软件手工录入,并进行双录检验。采用这种方法后,我们又对双录检验后的数据进行逻辑检验和野值清理,在此过程中,我们最后所发现的问卷录入错误率不到十万分之一,从而最大限度地保证了录入数据与问卷记录信息的一致性。达到了基本上消除了录入错误的目标。2.4.3.1 野值、极值的判别与处理对野值或极值的清理、判别,是数据清理工作的第二个基本步骤,对它们的判别从怀疑开始。野值极值,并非都是错误的取值,在我们尚未确定之前,都只是值得怀疑的数据。野值(wild card),又称非法值(illegal value),是指那些既不在题器规定的取值范围之内的值,也非研究人员约定或了解的取值,比如,性别变量,男性取值为1,女性取值为2,缺失值取值为9,如果在1,2,9 三个取值之外,出现了一个新值,如5,这个新值就是野值。野值主要是针对类属变量或定序变量的取值范围而言的。极值(extrema),又称为奇异值(outliers),它针对某个连续变量而言,极个别样本的取值极大地超过(或低于)总体平均水平,或者在正态分布曲线中极远地偏离中心取值的值。举例来说,对于收入的测量就常常遇到这样的极值。GSS 调查中,城市月收入取值在10000 元以下的样本占全部样本的99.99,但是有四个样本的取值则超过了20000 元,其中还有一个样本的取值为60000 元,这样的样本取值就是极值,需要接受检查。怎样判断一个变量取值为极值,不同的研究人员可能有不同的标准。显然,极值都是研究人员认为值得怀疑的数值,而研究人员的怀疑根据来源于以往的研究经验和对现实的感知,多大的值超过了研究者认可的标准,这个值以上的数值理应作为该研究者的极值来加以查对问卷、检验。而我们通常的做法是,将大样本数据中的某个连续变量的1%5%的数值作为极值加以查验,一般可以发现极大多数可能存在于极值中的编码错误这种编码错误通常是由码位填写错误所致。查找野值和极值,最有效而又简单的办法就是查看频数表,从频数表中发现超出问卷变量规定取值范围的取值,然后一一比照问卷所记录的相应信息(原始信息)并加以分析、处理。出现野值和极值的原因极为相似。野值是该变量中那些研究者未赋予意义的值,这些值的来源可能有两个,(1)录入错误或编码错误;(2)问题询问过程中,调查员记录了问卷设计时未曾预料到的取值情况。极值的出现同样可能存在两种情况,一是录入或编码错误,二是问卷访谈确实遇到了特殊个案,其取值可能远超过总体均值水平。就查找出来的野值和极值来说,对于录入或编码错误,显然正是需要更正的数据,这也是初始查错的基本任务。而对于那些未曾预料到的变量取值,则需要慎重对待,而且针对野值和极值,其处理方式也是很不相同的。对于野值,首先我们需要确定的是,这一取值是否是有意义的值,如果是无意义的取值,则很可能该问题的回答出现了缺失;如果是有意义的取值,就要判断它所代表的意义能否涵括在原来的取值之中?如果能,就需要将其重编码到原来的类之中;如果不能,则以新值单独标记,并贴好值标签,以便将来在分析过程中加以进一步处理。对于极值,通过问卷加以判断并非编码或录入错误后,都需要将其保留在数据集中,并将这些极值存在的情况记录下来,为将来统计分析制定处理策略时提供依据。2.4.3.2 客观变量的逻辑检验在对录入数据进行双录检验后,基本上可以确认进入分析软件数据集的数据与原问卷编码信息有了最大限度的一致性,但数据信息是否与存在于被访者那里的真实信息一致,尚需进一步的检测。录入校验和初

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论