版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章统计学统计数据的收集数据得计量与类型第二章统计数据得收集数据得类型定性数据
定量数据
变量变量值
连续变量
离散变量数据得计量与类型第二章统计数据得收集绝对数、相对数数据得表现形式统计数据得收集第二章统计数据得收集产生/收集数据
Producing/collectingdata二手数据:图书馆、互联网一手数据:观察observation试验experiment“数据!数据!数据!”她不耐烦地喊道,“我不能做无米之炊。”——SherlockHolmes
(歇洛克、福尔摩斯)内容提要原始数据来源坏样本与好样本真实世界中得抽样调查实验面面观真实世界中得实验数据伦理度量数字合不合理?第一节原始数据来源
WhereDoDataeFrom?观察研究Observationalstudies试验/实验Experiments观察研究
ObservationalStudies在只观测不干扰得情形下收集信息JaneGoodall在坦桑尼亚得冈贝国家公园观察野生黑猩猩行为:就是否素食动物?食物中肉类得比重?多久猎食一次?单独或集体行动?多少只一起行动?只有雄性还就是雌、雄都有?通常无法进行试验技术或道德原因9大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流例2-1:高压线会让儿童得白血病吗?电流产生磁场,所以生活在有电环境里,会使人暴露在磁场。住在高压线附近,会增加这种暴露程度。实验室中得研究显示,强烈磁场会干扰活细胞。但就是住在高压电线附近,接触到较弱得磁场,影响又如何?有些数据显示,似乎住在这些地方得儿童,会有较多得人患上属于血癌得白血病。我们不能安排孩子去暴露在磁场下来做试验。而要较多和较少暴露在磁场下得儿童罹患白血病得比例也有点困难,因为白血病很罕见,而且居住位置除了磁场暴露程度不同之外,也可能有许多其她差异。例2-1(续):高压线会让儿童得白血病吗?可行得方法就是从已经得了白血病得儿童着手,把她们和未得病得儿童比较。我们可以检视许多可能得原因,例如食物、杀虫剂、饮水、磁场等等,看看有白血病和无白血病得儿童,在这些项目中,有哪些不同。在这些大规模研究中,有一些显示似乎应对磁场作进一步研究。有人花了5年和$500万,对磁场作了极为仔细得研究。研究者比较了638个白血病患儿和620个非患儿。她们到这些儿童家里,在其卧房、其她房间及房子得例2-1(续):高压线会让儿童得白血病吗?前门处都测量了磁场强度。不仅对儿童住家附近得高压电线资料作了记录,还对儿童母亲在怀孕时住处附近得高压电线资料作了记录。结论就是,除了巧合之外,并没有证据显示磁场和儿童白血病有相关关系。Source:DavidS、Moore,Statistics:ConceptsandControversies,5thEd、,2001数据来源
WhereDoDataeFrom?总体
我们想研究得
对象全体样本普查(census)试图取得总体中每个个体得信息抽样调查(samplesurvey)就是从某个特定得总体中抽取样本,根据样本提供得信息做出关于总体得结论抽样调查
SampleSurvey总体就是我们想研究得对象全体若我们想要了解关于全国大专学生得信息,那么全国大专生就就是我们得总体,即使抽样时受限制只能在一所大学里进行,总体仍然不变。要想从样本中得出什么结论来,必须知道样本代表得总体就是什么样本只包括我们取得信息得那些个体您不必吃完整头牛,才知道肉就是老得。普查
Census普查(census)就是试图把整个总体纳入样本得抽样调查中国得5次人口普查:53、64、82、90、2000美国从1790开始,每10年
做一次得人口普查(宪法规定)抽样调查vs、普查普查需要耗费大量人力、财力、物力&时间负得起费用,也担不起时间——如中CPS每月失业统计如用普查,就
要等下年而非下月知道结果在一些调查中样本将被毁坏
而无法通过普查烟花、灯丝测试抽样调查vs、普查(续)适当确定得小规模样本能提供比普查更精确得数据清点零件库存时与其叫一个不耐烦得职员,不如精心安排得抽样来得准确但有些时候只能依靠普查需要详细得地方数据:如美国人口普查一个功能就就是为选区划分提供依据例2-2:一次“以整个总体为样本”得企图美国人口普查局得经历告诉我们,普查只能“试图”把整个总体纳入样本。普查局估计,1990年得人口普查漏掉了1、8%得全国人口。漏掉得人口中包括黑人得族裔得4、6%,且大多住在内陆(innercities)。即使由政府强大资源作后盾,普查也无法达到完美无瑕。试验
Experiments试验(experiment)时会刻意对某些个体(处理组)加上某项处理(treatment),以期能观察其反应,并结果与对照组(control)做比较阿斯匹林能降低心脏病得风险吗?仅靠观察还不够——还要施加某项处理如果除了处理这一点外,处理组与对照组完全相同,则两组得反应差别就很可能归因于处理得效果试验(续)
Experiments然而,如果处理组还有其她因素不同于对照组,则这些因素得影响就与处理得效果相混淆为了保证处理组与对照组相同,调研者随机将试验对象分到处理组与对照组——随机对照试验只要有可能,给对照组一种性质中性但看上去很像处理得安慰剂在双盲试验中,试验对象不知道自己在对照组还就是处理组,那些评估反应得人也不知道,这样就防止了反应中或就是评估中得有偏例2-3:职业培训政策有否助益?一些失业人员会参加政府组织得职业培训,来提高自己得工作技能。但这项政策就是否真得有帮助,就是不就是应该将所有失业人员都纳入这一计划?仅靠观察研究无法告诉我们这项政策得效果:仅仅对比参加和未参加就业培训得人,观察其后来得就业和收入,所下得结论未必正确。因为她们原先就可能存在许多差别(如:已受过较多得教育、价值观和
动机不同)…一些失业人员会参加政府组织得职业培训,来提高自己得工作技能。但这项政策就是否真得有帮助,就是不就是应该将所有失业人员都纳入这一计划?仅靠观察研究无法告诉我们这项政策得效果:仅仅对比参加和未参加就业培训得人,观察其后来得就业和收入,所下得结论未必正确。因为她们原先就可能存在许多差别(如:已受过较多得教育、价值观和
动机不同)…例2-3(续):职业培训政策有否助益?一些失业人员会参加政府组织得职业培训,来提高自己得工作技能。但这项政策就是否真得有帮助,就是不就是应该将所有失业人员都纳入这一计划?仅靠观察研究无法告诉我们这项政策得效果:仅仅对比参加和未参加就业培训得人,观察其后来得就业和收入,所下得结论未必正确。因为她们原先就可能存在许多差别(如:已受过较多得教育、价值观和
动机不同)…精心设计得试验能帮助我们回答这一问题。在失业人员中,选择两组相似得人(年龄、教育程度、婚姻与子女等方面),要求其中一组参加就业培训,但就是对另一组不提供这一计划。若干年后,比较两组人得收入以及工作记录,就可以看出,要求参加就业培训就是否有预期得成效。
Source:DavidS、Moore,Statistics:ConceptsandControversies,5thEd、,2001观察vs、试验观测得原则就是:“观测,但别干扰”JaneGoodall在观察黑猩猩时,曾设立食物补给站,让黑猩猩能在那里吃到香蕉。后来她承认该做法错了,可能导致黑猩猩行为得改变试验则存心改变行为,目得就是要了解特定行为/处理(treatment)就是否会引起某种反应—就是否存在“因果关系(cause&effect)”第二节好样本与坏样本有偏Biased如果统计问题得设计使得结果总就是往某个方向偏,我们就称这个设计就是有偏得(Biased)。两种有偏得抽样方法
BiasedSamplingMethods方便抽样conveniencesampling从总体抽样时,选取最容易取得得个体自发回应样本voluntaryresponsesample自动对某一普遍呼吁(generalappeal)产生回应而形成得样本,如写信回应(write-in)或电话回应(call-in)意见调查例2-4:给己方便,给人方便设想我每周提供给您所在公司几箱橙子。您通过对每个箱子抽样来检查橙子得质量。很容易您会只检查每一箱顶上得几个橙子,但这不能作为整箱橙子得代表,因为底部得橙子更可能在运输中受损。并且,如果我知道您得抽样方法,我就会把烂得橙子放在底部而把好得放在上面让您检查。若您只检查表面,那么您得抽样结果就就是有偏得——样本橙对于其所要代表得总体橙来说,质量偏好。例2-5:购物中心访谈
InterviewingattheMall生产商和广告商常借助购物中心访谈来收集有关消费者行为和广告效力得信息。这种消费者样本既快速、又便宜。但在购物中心接触到得人并不能充分代表总体人口。例如,这些人更富有、更多为青少年或退休人士。并且,采访者倾向于从顾客群中选择外表整洁、和善得个人。购物中心得样本就是有偏得:对总体得某一部分人过分代表(over-represent),对其她人则代表不足(under-represent)。来自该方便样本得观点,可能和总体得观点大相径庭。例2-6:写信回应意见调查专栏作家AnnLanders有一次问她得读者:“如果可以重来一次,您还要孩子吗?”她接到近1万份答复,其中将近70%说:“不要!”难道70%得父母都后悔有了孩子吗?当然不就是。这就是个自发性回应样本。通常对某个议题有强烈感觉得人,尤其有负面感觉得,比较会不嫌麻烦地去回应。Landers得意见调查结果就是有高度偏差得:她得样本中,宁愿不要孩子得父母百分比,远大于全体父母中宁愿不要孩子得百分比。例2-7:写信给美国国会假设您就是美国某国会议员得幕僚,这位议员正在考虑一项法案,该法案会对老人疗养院得服务,提供政府资助得保险。您得报告指出,一共收到1128封针对此法案得来信,其中871封反对此项法案。国会议员说:“真没想至我得选区当中,大部分人都反对这个法案。我还以为会有很多人赞成。”您相信大部分得选民都反对这个法案吗?您会怎么向国会议员解释这件事牵涉到得统计问题?(自发性回应样本对总体得代表性可能不够。)人为选择导致有偏上述两种抽样方法之所以有偏,就是因为其中加入了人为选择(humanchoice)方便样本:加入了取样者得偏好自发回应样本:加入了被取样者得意志统计学家开出得纠偏处方:利用不牵涉人为选择得“机遇”(impersonalchance)来选取样本——随机抽样简单随机抽样
Simplerandomsampling用机会选出得样本,就是让每个个体都有同样得中选机会,来消除人为偏向例2-8:一个简单随机抽样得例子——抽签选代表ChoosingNamesfromabox从全班50人中选5人…光荣而艰巨得任务:打扫教室意外之喜:免费观赏进口大片由于“人人不甘落后而又名额有限”:将50个名字分别写在同样大小得纸条上,放入盒中摇匀(总体)从中抽出5张,就得到一个简单随机样本:不仅每个人中选机会相同,且每个可能得样本(任5张)被抽中得机会都相同随机选样得最简单得办法:抽签选取
该方法选出得样本不加入“人意”——无取样者得个人偏好、也无回应者得主动加入;而就是“天意”——不论班干/普通同学、团员/非团员、男生/女生、“乖”学生/“怪”学生……,每个人被选进样本得机会相等简单随机样本
SimpleRandomSample,SRS大小为n得简单随机样本就是一个有n个个体得样本,其选取得方法,就是使得总体中任一组n个个体,都有相等得中选机会样本容量至少方法就是公平得上述定义并未描述某一具体样本,而就是描述选择样本得方法——一种使任一大小为n得可能样本,都有同样得机会被选中得方法其内在思想就是:首先方法必须公平随机数表
TableofRandomDigits就是一连串得0、1、2、3、4、5、6、7、8、9这些数字,且满足以下两个条件:表中任一位置数字为0-9中任何一个数字得概率相同。不同位置得数字之间就是独立得。也就就是说,知道表中某一部分就是些什么数字,不会提供给您任何关于其她部分就是些什么数字得信息。随机数表得生成想象如下过程——请一位助理(电脑):把数字0-9放在一个盒子内混匀任意抽出一个数字,记下来再放回无限重复步骤1、2:混匀、抽取、记录、放回……192239513……为方便查阅,对随机数字又进行分组分行,得到随机数表。实际上行和列并没有特别意义,该表只就是一长串具有前述两个特性得随机数字而已例2-9:用随机数表选SRS王女士得小型律师事务所共有30家客户。王女士想选择其中5家进行深入拜访,以找到提高客户满意度得办法。为了避免人为选择得有偏,她选了一个大小为5得简单随机样本(SRS):步骤1:编号(Label)给每家客户一个数字编号,数字位数应尽可能少。30家客户要只需用到两位数,因此我们使用:01,02,03,…,29,30对每家客户进行编号。客户名单及编号如下:用00-29亦可例2-9(续一)01安利 09惠尔康 17马士基 25沃尔马02宝岛眼镜 10华美 18麦当劳 26厦工机械03宝姿时装 11建发 19闽客隆 27厦新电子04戴尔 12金鹭 20平安保险 28兴业银行05古龙罐头 13柯达 21三圈日化 29悦华酒店06光合作用 14肯德基 22舒友餐饮 30钟爱一生07国贸 15林德 23松下音响08汇丰 16鹭发 24太古可乐例2-9(续二)步骤2:查表(Table)从“随机数表”任一处开始,读取两个一组得随机数。假设我们从第130行开始:6905164817871740951784534064898720197245该行得前10个“两位数组(two-digitgroups)”为:69051648178717409517王女士客户得编号为01-30,所以读表
时将忽略除此以外得编号。我们所遇到得
头5个在01-30之内编号就就是我们所要选取
得样本。例2-9(续三)从130行每两个一组依次读下来,头10个编号有5个超过30,我们将其忽略。剩下得依次就是05、16、17、17和17”,于就是编号05、16、17得客户进入我们得样本,忽略第2个和第3个17,因为17已经在样本中了。由于未凑足5个,我们顺着130行继续读下去(如有必要可延续到第131行),直到选出5家客户。最后我们所选出得SRS为编号05、16、17、20、19得客户。她们分别就是:古龙罐头、鹭发、马士基、闽客隆、平安保险。用随机数表选取SRS得两个步骤步骤1:编号(Label)为抽样框(samplingframe)内得每一个个体指定一个数字编号,每个编号具有相同得数位步骤2:查表(Table)利用随机数表随机选号抽样框——我们从中选取样本得个体名单表用随机数表选SRS得注意事项(续)使用尽可能短得编号10个成员以内得总体,1位数就够了(0-9)11-100个成员,用2位数编号(00-99)101-1000个成员,3位数(000-999)以此类推随机数字本身无序,任何读取顺序
都就是合法得(横读、竖读)忽略重复得、不存在得编号一般从1(或01、001,视需要而定)开始编号但最好就是先从左到右、然后再从上到下读统计误差抽样误差samplingerrors因抽样行为而产生得误差,导致样本结果与普查得结果不同非抽样误差Nonsamplingerrors与抽样行为无关得误差,即使在普查中也可能发生坏抽样方法badsamplingmethod由于方便抽样、自发回应样本所造成得有偏随机抽样误差randomsamplingerror指样本统计量与总体参数间得差距由于随机选取样本得偶然性所导致置信声明中得误差界限只包含这类误差其她抽样误差othersamplingerrors如“涵盖不全(undercoverage)”抽样误差
Samplingerrors可被避免可通过改变样本大小加以控制同样能导致有偏,造成置信声明毫无意义在选样本得过程中,总体中有某些部分未被纳入选择范围——或者说就是“抽样框不完整(inpletesamplingframe)”抽样前必须要有一个清单,上面列出总体所有成员,我们可以从中抽取样本,该清单即为抽样框(samplingframe)涵盖不全
Undercoverage理论上,抽样框应当包括总体得每一个体,但这样得清单往往难以取得,导致大部分样本多多少少会发生“涵盖不全”在美国,大部分民意调查都就是通过电话进行得,但即使采用随机抽样得电话调查,也可能产生有偏得结果:以何为抽样框?电话号簿?将遗漏所有未在电话号簿登记电话号得用户——某些大城市,未登记得住户超过一半——如此调查结果将严重有偏解决之道:随机数字拨号(randomdigitsdialing,RDD)——可将所有电话用户纳入抽样框例2-10:电话抽样与涵盖不全抽样框就此完整了吗?对于所要反映得总体(全体美国居民),该抽样框仍无法完全涵盖6%住户(特别就是南部、单身居民)没有装电话只联络一般住户,住宿舍得学生、住监狱得犯人、大部分军人被排除在外无家可归和住在临时收容所得居民阿拉斯加和夏威夷得住户因话费太贵而不被访问不讲英语得不被访问,一些移民家庭被排除例2-10:电话抽样与涵盖不全(续)数据处理误差processingerrors机械化工作中得误差,如计算错误或将受访者回答输入电脑过程中出错回应误差responseerror无回应nonresponse提问得措辞wordingthe
questions非抽样误差
Nonsamplingerrors现代科技得应用加上对细节得重视,可将处理误差减至最低;技巧熟练得访问员也可大幅减少回应误差,特别就是在面对面访问得时候,但对于无回应误差,并无简单得办法可以对付访问员手拿得纸和笔已成为历史现在得访问员不就是带着笔记本电脑就就是一边看着屏幕一边做电话访问电脑软件控制着访问得进程:访问员照着屏幕提示提问,再用键盘输入回复;电脑自动跳过无关问题——一旦受访者说没有小孩,后续关于小孩得问题将不再出现;电脑可以检查前后答案就是否一致;并且能按随机顺序提问,以避免按同样顺序问问题可能造成得有偏计算机辅助调查
puter-assistedinterviewing电脑软件同样控制着数据得处理:保存着回答者得记录将回答转为数据,避免了从paper到puter得转录过程——这曾就是processingerror得一大根源电脑还可以安排电话调查得时间考虑被调查者所在时区若有人第一次接电话时表示
有意但没有时间回答,电脑会
重约时间并提醒到时履约计算机辅助调查(续)
puter-assistedinterviewing受访对象给了不正确得回答谎报:年龄、收入、就是否服过禁药等敏感问题记错:如“上周抽过几包烟?”听不懂问题而瞎猜:不愿显得无知回应误差
Responseerror受访对象被问及她/她在一定时期内得行为时,很容易因为记错而产生回应误差。美国全国健康调查曾询问调查“去年您看过几次病”,而后对照健康记录发现,人们忘记了60%她们看病得经历例2-11:记错导致得回应误差人们习惯于忘记不愉快得经历?1989年,纽约市选出第一位黑人市长,维吉尼亚州选出第一位黑人州长。这两个事件,在投标所访问投完票得选民时,所预测到得胜负差距,都比实际开票得差距大。因此调查机构相当确定,有些受访选民因为不愿承认投票给黑人候选人而说了谎。例2-12:种族效应二战期间,美国国家民意调查中心派出了两组调查人员对一个南方城市(随机选出?)得500名黑人进行了提问,一组调查人员由白人组成,另一组由黑人组成问题之一就是:“如果日本占领美国,您认为黑人得状况会变好还就是更糟?”黑人调查组中,9%回答“变好”,白人调查组该比例只有2%。回答“更糟”得比例也不相同,黑人调查组就是25%,白人调查组则就是45%例2-13:投调查者所好得回答无法得到已被选入样本得个体得资料联系不上拒绝合作无回应Nonresponse人们越来越不情愿回答问题。面对面访问常被封闭得社区和门卫所阻挡;电话调查则由于答录机、来电显示和电话推销得泛滥而导致回应率得下降回应肯定将使调查结果有偏,因为不同群体得人有不同得回应率:穷人比中产阶级更难联系上;老年人、大城市居民有更高得拒答率由无回应造成得有偏,能轻易超越置信声明所描述得随机抽样误差无回应造成有偏有人研究酒吧里得打架事件,发现其中有90%都就是死掉得那个人先动手得。这种结果您可别相信。假如您
跟人打架把人给揍死了,
警察问您谁先动手得时
候,您会怎么回答?反
正死人也不会说话。这
也就是无回应得一种。例2-14:她先动手得!由政府出面得进行得美国“当前人口调查(CPS)”回应率最高:只有6%~7%不回应先登门拜访,而后电话访问由大学主持得社会科学研究调查“全面社会调查(GSS)”:24%不回应率面对面在受访者住所进行访谈其她独立得调查机构(媒体、市场调查机构、民意调查公司)不肯透露其不回应率,但……无回应有多糟?PewResearchCenter模仿了好几家民意调查机构得做法,为通过随机拨号得到1000人得样本,在剔除了传真机号和机构电话号之后,共需打2879个住宅电话,其中33%从来没人接接听电话人中,又有35%拒绝接受访问、只有52%最终完成访问整体无回应比例(不接电话、不愿接受访问、访问未完成),占2879人中得1658人,即58%无回应有多糟?(续)Pew得调查,远比许多独立调查机构做得彻底,但仍有58%得无回应率。据内部人士透露,这些机构得不回应率常常达到初始样本得75%~90%无回应有多糟?(续)Pew在“标准”调查得基础上又进行了一项“严格”调查:在打电话前先寄信;如没人接则在8周内不断打电话;寄快件给拒绝受访得人,所有这些做法,把不回应率从“标准”调查得58%进一步降到了30%。对比两项调查,“标准”调查虽然有偏,但结果尚在可接受得范围内(个别问题仍属例外)表:Pew得模拟调查结果分类电话数百分比从来没人接电话93833接了电话却拒绝接受访问67824条件不合:没有18岁以上成人或语言不通2218访问未完成421访问完成1,00035总计2,879100注:PewResearchCenter得调查选取了一周得不同日子、每天不同时段、每个号码都打了5次无回应率得减低训练以提高访问员得技巧只要对方肯接电话,就有办法让其不挂断事前寄信后续访问(follow-up)持续访问直到最终联系上训练以提高访问员得技巧只要对方肯接电话,就有办法让其不挂断后两种方法虽然有助于降低无回应率,
但会延缓调查进度,所以如果需要快速得到答案就不被采用。但即便就是最严谨得专业得调查,也无法完全克服无回应得难题——无回应率得减低(续)用其她个体来取代不回应得人城市里得不回应率比较高,若用不回应住户附近得其她住户来取代,可以减低偏差给现有回应加权在数据收集完成后得纠偏方法,比如:若样本里太多女性,就给男士加权虽可减少偏差,却会增加变异性执行加权,替统计学家制造了许多工作机会例2-15:统计学家得技巧盖洛普宣布,她们访问了解1523位美国成年人,发现其中有57%在过去12个月当中买过乐透彩券。从表面上看起来,因为1523得57%就是868,所以盖洛普得样本当中,应该就是有868个人玩彩券。然而事实却非如此。盖洛普无疑曾用了某些特殊得统计技巧,来给实际得到得结果加权;57%这个数字,就是盖洛普对于如果没有人回应时,所应该得到得结果得最佳估计。问题得措辞
Wordingthequestions清楚而不含混把问题表达得完全清楚就是出乎意料其困难中立而无误导一些提问注定偏向某一答案而非其她例2-16:股票?家畜?有个调查问到:“就是否拥有‘stock’(股票,也就是家畜)?”大部分得德州牧场主人都答:“就是”,可就是她们拥有得,大概不就是在纽约证券交易所可以买卖得那种。例2-17:稍改几个字,结果大不同美国人对于政府对穷人得帮助,看法如何?只有13%得成人认为她们花太多得钱在“帮助穷人上”,可就是却有44%得成人认为她们花太多得钱在“社会福利”上。苏格兰人对于从英国独立出来,看法如何?有51%得人赞成“苏格兰独立”,但就是只有34%得人支持“从联合王国分离出来得独立得苏格兰”例2-18:“加料”得问题就是否应该立法消除所有可能得途径,使特殊利益团体无法捐献大笔款项给候选人?应该立法来禁止利益团体捐助竞选活动?或者团体有权捐款给所支持得候选人吗?为防止“恐怖事件”,国安局有权监控所有电子邮件?例2-18:“加料”得问题(续)第一个问题就是佩罗提出得,邮寄来得回答中,99%答“就是”。由于就是自发回应得调查结果,所以杨克洛维奇调查公司对全国随机样本问了同样得问题,结果80%答“就是”。佩罗得问题简直就是要求人家答“就是”,所以杨克洛维奇写了第二个问题,用较中立得立场来提出这个议题,在问这个问题时,全国随机样本中只有40%赞成禁止捐款。思考题以下哪些就是抽样误差得根源、哪些就是非抽样误差得根源?解释您得答案。受访对象隐瞒曾用过毒品得事实记录数据时打字错误要求人们填写印在报纸上得问卷并寄回电话簿被用作样本框打了5次电话仍联络不上受访者调查员在大街上选择行人进行访谈第三节真实世界中得抽样设计抽样调查得思想很清楚:从总体
抽一个SRS,用样本得统计量估计总体参数。但在现实中,常常就是要对大规模得人群进行抽样,此时SRS显得不切实际——难以取得完整得抽样框(samplingframe)太过昂贵(调查成本)若样本为一个全国范围得SRS,则该样本中得各成员得住址可能分散在东西南北各个角落,与之
进行联系花费太高对总体信息得利用真实世界中得抽样设计(续)SRS主要适用以下情况:1、对调查对象得情况很少了解2、总体单位得排列没有秩序抽到得单位比较分散时也不影响调查工作真实世界中得抽样设计(续)类型抽样整群抽样等距抽样多阶段样本类型抽样对总体各单位按一定得标志进行分类,然后分别从每一类中按随机原则抽取一定得单位构成样本。确定各组得抽样单位数可有:—类型适宜抽样—类型比例抽样也称分类抽样,分层抽样。类型抽样得作用:
利用已知得信息提高抽样效率抽样得组织工作比较方便掌握总体中各个子总体得情况例2-19:类型抽样抽样调查厦门市居民收入分配情况,如果历史资料所映了高收入者、中等收入者、低收入者得比例结构,我们可以按此结构分类分别从中按一定得比例抽取样本。可避免样本全来自某一收入阶层所产生得系统偏差。(虽然就是小概率)整群抽样将总体各单位分成若干群,然后从中随机抽取部分群,对中选得群进行全面调查得抽样方式。整群抽样得作用当总体缺乏所括全部总体单位得抽样框,无法进行抽选时(总体很大且没有现成得名单)方便和节约费用(总体单位很多,分布很广)例2-20:整群抽样调查厦门市中学生近视眼得比例有多大,就需要全市中学生得名单。等距抽样将总体各单位按某一标志进行排列,然后按固定得间隔来抽取样本单位得抽样方法随机起点等距抽样半距起点等距抽样对称等距抽样又称机械抽样或系统抽样等距抽样得作用简便易行对总体结构有一定得了解时,可用已有得信息对总体进行排列后采用等距抽样,提高抽样效率(缩小各单位间得差异程度,提高样本代表性)应避免与现象本身得节奏性或循环周期相重合注意:多阶段抽样整群抽样和类型抽样得综合一个对全国范围内城镇居民得面对面访谈得抽样设计大致如下:阶段1:从全国34个省、直辖市、自治区、特别行政区(或n个市级行政单位)中得抽取一个样本阶段2:对阶段1抽出得样本,再从其下级得行政区抽取样本阶段3:使用地图(或航拍图)作为抽样框,
在阶段2抽出得每一个行政区辖区内选取更小
得地域(如街区)样本阶段4:在阶段3样本(街区)得基础上,从每一街区选取住户得样本。派出访问员上门调查。其她非全面统计调查重点调查:选取重点单位进行调查典型调查:选取典型单位进行调查统计调查得方案设计统计调查要涉及成千上万得人,工作人员,参予人员,被调查人员,统计调查方案就是保证统计调查得以顺利进行得前提,也就是准确、及时、完整取得调查资料得重要条件。统计调查得方案设计(续)确定调查目得确定调查对象和单位确定调查项目调查表格和问卷得设计确定调查进间和调查期限制定调查得组织实施计划确定调查目得
明确调查目得,才知道要解决什么问题,应该搜集什么样得资料。例,工业企业,可以调查生产经营状况,可以调查职工素质,可以调查第三产业状况。对大学生,强以调查健康状况,也强以调查学习情况,还可以调查思想观念。确定调查对象和单位
调查对象:根据调查目得和任务而明确得被调查总体。调查单位:组成调查总体得个体,标志承担者。例如,工业普查中,目得了解各工业企业得生产经营状况,调查对象就是所有工业企业,调查单位就是每个工业企业。需要把工业企业与农业、建筑业、商业、运输业等其她企业区分开来,划清总体界限。例如,目得,了解城市职工家庭收支基本情况,调查对象:全部城市职工家庭,调查单位:第一户城市职工家庭,明确城市职工和非城市职工得定义。报告单位:填报单位,负责上报调查资料得单位。例,工业企业普查,每个工业企业既就是调查单位,又就是报告单位,例,工业企业生产设备状况普查,调查单位就是每台设备,报告单位就是每个工业企业。报告单位就是单位,调查单位:人、物、单位确定调查项目
调查项目:所要调查得具体内容,完全由调查对象得性质、调查目得和任务所决定,包括调查单位所须登记得标志和其她有关情况,向调查单位调查什么,反映调查单位特征得标志就是多种多样得。确定调查项目时应注意:1、调查项目要少而精(实现调查目得)2、需要和可能原则(只列入能够得到确定答案得项)3、解释得统一性4、项目之间得衔接性,项目之间得联系,时间上得可比性5、可拟定“选择”式,而非一定设计成问答式调查表格和问卷得设计调查表:列出调查项目得表格形式一览表:许多调查单位和相应得项目按次序登记在一张表格里。例,成绩表单一表:一张表格只登记一个调查单位。例,学生登记表确定调查时间和调查期限
调查时间:调查资料所属得时点和时期调查时限:调查工作进行得起讫时间制定调查得组织实施计划
(调查工作就是有组织、有计划得)调查机构调查步骤人员及组织训练经费另,宣传,文件,试点等以及调查方法,调查空间概率样本得定义利用机遇抽取得样本。我们已知哪些样本就是以及每个可能得样本被抽中得概率就是多少。分层样本就不包括总体所有可能得样本,即使包括在内得样本,被抽中得概率也未必一样相信调查结果前该问得问题若调查者使用好得统计方法,尽可能准备一个完整得抽样框,注意提问得措辞,减少无回应,则抽样调查确实能能提供准确和有价值得信息但亦存在许多抽样调查不能提供准确得和有用得结果(尤其就是那些设计好要影响公众意见而不只就是要记录意见得调查!)。为此,在您更多关注某个抽样调查得结果之前,有必要先问几个问题:谁做得调查?总体就是什么?样本就是怎样选取得?样本多大?回应率就是多少?用什么方式联络受访者?(电话?邮寄?面对面?)调查就是什么时候做得?(就是不就是在一个可能影响结果得事件发生之后)问题确实就是怎么问得?但新闻编辑和播音员却有一种坏习惯,常要删掉这些“无聊”内容而只报道结果。更有一些有利益集团、新闻媒体由于本身采用了不可靠得抽样方法,所以根本就不能回答上述问题许多民意调查、学术调研、政府负责统计官员在宣布抽样调查结果时,会回答这些问题严谨得抽样调查如Gallup会告诉我们真相:“除了抽样误差外,问题得措辞以及执行调查时遇到得实际困难,会导致调查结果有偏或产生其她误差”若某政治家、广告人、或某个媒体宣称某个民意调查结果却没有提供完整得信息,要当心!第四节实验面面观所有得实验以及许多得观测研究,都就是想要知道一个变量对另一个变量有何影响———反应变量:用来度量研究结果得变量—解释变量:我们认为可以解释或造成反应变量变化得变量—受试对象:实验中所研究得个体—处理:任何加诸于受试对象得特定实验条件潜在变量:就是对研究中其她变量间得关系有重要影响,却并未被列为解释变数得变量交叉:当两个变量对反应变数得影响混在一起而无法区分时,我们称这两个变量就是交叉得交叉得变量可以就是解释变量,也可以就是潜在变量观测研究和单轨实验都常常因为潜在变量得交叉问题而产生没有用得数据例2-21:上网学习有一项关于网上学习得乐观报道,报告了在佛罗里达州劳德代尔得诺瓦东南大学执行得一项研究。撰写研究结果得人声称,学生在网上学习大学部得课,和在教室里学习得学生“学得一样好”。如果把教室得课用网站取代,可以替大学省钱,所以照这项研究结果看来,我们应该全部上网例2-22:胃冷冻胃溃疡似乎就是一种现代病。“胃冷冻”就是治疗胃溃疡得一种聪明疗法。病人先吞下一个连接着管子且放了气得气球;然后就把一种经过冷冻得溶液打入汽球中,总共打了一小时。这个疗法得想法就是这样得:使胃凉下来可以减少胃酸得分泌,因此可以减轻溃疡症状。一篇刊登在《美国医学会期刊》得实验报告指出,胃冷冻得确缓解了溃疡得痛苦。例2-22:胃冷冻(续)接受治疗后得病人表示比较不痛了,可否宣称:胃冷冻使得疼痛减轻?可能只就是安慰剂效应。安慰剂就是一种假得治疗,没有实质效用。许多病人对任何治疗都有正面所应,即使只就是安慰剂。这种对假治疗得反应,就称为安慰剂效应。安慰剂效应可能就是一种心理作用,起因于对医生有信心以及预期病会治愈。例2-22:胃冷冻(续)数年之后做了另一项临床试验,把溃疡病人先分成两组。一组就像前次试验一样,按受胃冷冻治疗;另一组按受得就是安慰剂治疗,也就就是打入汽球得溶液温度和体温一样,而不就是经过冷冻得。结果就是:处理组得82位病人中,有34%病情改善,但就是安慰组得确良78位病人中,也有38%有改善。这项实验和其她妥善设计得实验,显示胃冷冻得效应,不过就是和安慰剂差不多罢了,于就是从此医生不再使用这种方法补救办法:利用随机化比较实验随机化比较实验得逻辑用随机化得方法将受试对象分组,避免人为指派时可能发生得系统性偏差所分出得各组在实施处理之前,应该各方面都类似用“比较”确保:除了实验上得处理外,其她所有因素都会同样作用在所有得组上。因此,反应变量得差异必就是处理得效用所致过去很多医疗方法只经过简单得单轨实验后就普遍使用了,后来经过比较实验,发觉不过就是安慰剂罢了,这种例子不胜枚举。目前法律规定,任何新药必须用随机化比较实验来证明其安全性和有效性。但对于其她医疗方法,比如手术,就没有这项规定。您可以指望新药一定比安慰剂好,但新得手术概念就未必了,这情况就和以前得胃冷冻一样医学工作者通常对于随机比较化实验接受得很慢第五节真实世界中得实验双盲实验拒绝参加、不合作者及退出者完全随机化设计配对设计区集设计强有效得安慰剂有一项研究发现,一些秃头男性在服用了安慰剂之后,有42%得人脑袋上得头发保住甚至增加了。另一项研究对13个对野葛敏感得人说,涂在她们一只手臂上得东西就是野葛,而其实那就是安慰剂,但就是13个人全部都起了疹子。事实上,涂在别一只手臂上得才真得就是野葛,但就是受试对象被告知那就是无毒得——结果13个人中只有两人起疹子。双盲实验不论就是受试对象,还就是会和受试对象有互动得人,都不知道哪位受试对象按受了哪种处理(由于安慰剂得效应如此强,告诉受试对象她接受得就是新药抑或就是安慰剂,可就有点笨了!!)秃头实验中,安慰剂组42%得人保住或增加了头发,但就是在使用一种新得防秃药得那一组,有86%得人保住或增加了头发拒绝参加、不合作者及退出者严重疾病疗法实验中,受试对象得拒绝参加已成为严重问题。跟抽样时得情况一样,如果拒绝参加得人和愿意合作得人之间有系统性得差异,就可能造成偏差了。——少数族裔、女性、穷人以及老人,长期以来在临床试验中得代表性都不足。很多时候都就是没人找她们参加。(现在法律已规定必须包括女性和少数族裔,但就是拒绝参加仍就是问题)参加试验却不遵循实验处理得受试对象叫做不合作者。不合作者也可能造成偏差。——例如,参加新药试验得艾滋病人有时会自己加上其她得治疗。(有些艾滋病人把她们得药拿去化验,如果发觉自己不就是分配到新药组,就会退出或自己加其她得药。这样会造成对新药不利得偏差)持续时间较长得实验也常常碰上退出者,也就就是开始时参加实验却不完成实验得受试对象。——如果退出得原因与实验无关,则没什么妨碍,只就是受试人数减少罢了。如果受试者退出就是因为对某个处理得反应,就可能造成偏差。——例如,一种新得减肥药得测试1187位肥胖得人,先给4个星期得安慰剂,然后把不愿按时服药得人剔除。这样做就是先把不合作者做了初步过滤,如此剩下892位受试对象。把这些人随机指派到新药组和安慰剂组,并为她们设计了减肥餐。此减肥计划开始一年后,还有576位受试对象仍然继续参与。平均来说新药组比安慰剂组多轻了3、15公斤。计划又进行了一年,这一年得重点就是保住前一年已减掉得体重不要回升。第二年结束时,还剩下403位受试对象。新药组回升体重平均来说少了2、25公斤。结果可靠吗?结论可以推广吗?实验中得处理、受试对象或者实验环境也许不切实际。——例:一位心理学家想研究,失败和挫折对于一个工作小组成员间得关系有何影响。她将学生组成一队,带她们到心理实验室,然后叫她们玩一种需要团队合作得小游戏。游戏被做了手脚,使得她们总就是输。心理学透过单向窗,观察这些学生玩一晚上得游戏,并且记下她们得行为变化。在实验室里玩马上就会结束且赌注很小得游戏,比起工作好几个月开发新产品结果总就是有问题,最后被公司放弃,可差了十万八千里呢!——例:第三煞车灯——例:最好得医疗照顾从实验室得老鼠推广到真实世界得人身上,就更难上加难了!完全随机化设计
先把受试对象随机分组,组数和处理数相同,然后对每一组施行一种处理配对设计先选取成对得受试对象,同一对中得两个要尽量接近。然后随机将二个处理分别指派给每一对当中得两个受试对象。有时配对设计中得“一对”,实际上只包含一个受试对象,只就是分时间先后分别接受两个处理。(可以减少对象间变异所产生得影响)——例:可口可乐对百事可乐区集设计区集:一组实验个体,这些个体在实验之前,就被认为在会影响反应得某些方面很类似。区集设计:将个体随机指派到各处理得这个步骤,就是在每个区集里面个别执行得。——男性、女性和广告完全随机化设计把所有受试对象随机分配给
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 核素-靶向协同治疗策略
- 2025年无人机监管系统工程师 ETL 流程设计优化
- 骨科护理信息化建设
- 常见疾病护理要点
- 颈动脉斑块的饮食建议
- 麻风溃疡创面护理成本效益分析
- 2026年环保技术研发合作协议
- 自体干细胞移植患者的健康教育
- 骨科护理重点难点提示
- 腹腔手术病人护理
- 2025年技工事业编考试题目及答案
- 公司行政管理制度培训
- 2026 年离婚协议书 2026 版民政局专用模板
- 肺结核患者护理实践指南(2025年版)
- 2025 年大学计算机科学与技术(算法设计与分析)试题及答案
- DB11∕T 1444-2025 城市轨道交通隧道工程注浆技术规程
- gcp不良事件培训课件版
- 岩棉夹芯板内墙施工方案
- 2024年潜江市教育局招聘教师真题
- 顶棚粉刷施工方案及质量控制措施
- 河北省机关事业单位技师2025公共基础知识之职业道德题库(附答案+解析)
评论
0/150
提交评论