




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课程简介,数字不会说谎,但骗子却会!,统计数据的来源和质量,间接取得的数据直接取得的数据,观察和试验普查和抽样调查好样本和坏样本抽样误差与非抽样误差现实世界中的抽样调查相信调查结果前该问的问题实验面面观数据伦理度量数字合不合理,“数据!数据!数据!”他不耐烦地喊道,“我不能做无米之炊。”SherlockHolmes(歇洛克.福尔摩斯),间接取得的数据,间接取得的数据,统计部门和政府部门公布的有关资料,如各类统计年鉴各类经济信息中心、信息咨询机构、专业调查机构等提供的数据各类专业期刊、报纸、书籍所提供的资料各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料,提供统计数据的部分政府网站,提供统计数据的部分政府网站,间接取得的数据,注意含义、口径和计算方法注明数据来源,直接取得的数据,内容:观察和试验普查和抽样调查好样本和坏样本,数据的收集方法,问询调查,观察与试验,访问调查,邮寄调查,电话调查,座谈会,个别深入访问,观察,试验,来源:贾俊平,统计学,清华大学出版社,2004,原始数据来源WhereDoDataComeFrom?,观察研究Observationalstudies,试验/实验Experiments,观察研究ObservationalStudies,在只观测不干扰的情形下收集信息JaneGoodall在坦桑尼亚的冈贝国家公园观察野生黑猩猩行为:是否素食动物?食物中肉类的比重?多久猎食一次?单独或集体行动?多少只一起行动?只有雄性还是雌、雄都有?通常无法进行试验技术或道德原因,例2-1:高压线会让儿童得白血病吗?,电流产生磁场,所以生活在有电环境里,会使人暴露在磁场。住在高压线附近,会增加这种暴露程度。实验室中的研究显示,强烈磁场会干扰活细胞。但是住在高压电线附近,接触到较弱的磁场,影响又如何?有些数据显示,似乎住在这些地方的儿童,会有较多的人患上属于血癌的白血病。我们不能安排孩子去暴露在磁场下来做试验。而要较多和较少暴露在磁场下的儿童罹患白血病的比例也有点困难,因为白血病很罕见,而且居住位置除了磁场暴露程度不同之外,也可能有许多其它差异。,例2-1(续):高压线会让儿童得白血病吗?,可行的方法是从已经得了白血病得儿童着手,把他们和未得病的儿童比较。我们可以检视许多可能的原因,例如食物、杀虫剂、饮水、磁场等等,看看有白血病和无白血病的儿童,在这些项目中,有哪些不同。在这些大规模研究中,有一些显示似乎应对磁场作进一步研究。有人花了5年和$500万,对磁场作了极为仔细的研究。研究者比较了638个白血病患儿和620个非患儿。他们到这些儿童家里,在其卧房、其它房间及房子的,例2-1(续):高压线会让儿童得白血病吗?,前门处都测量了磁场强度。不仅对儿童住家附近的高压电线资料作了记录,还对儿童母亲在怀孕时住处附近的高压电线资料作了记录。结论是,除了巧合之外,并没有证据显示磁场和儿童白血病有相关关系。,Source:DavidS.Moore,Statistics:ConceptsandControversies,5thEd.,2001,试验Experiments,试验(experiment)时会刻意对某些个体(处理组)加上某项处理(treatment),以期能观察其反应,并结果与对照组(control)做比较阿斯匹林能降低心脏病的风险吗?仅靠观察还不够还要施加某项处理如果除了处理这一点外,处理组与对照组完全相同,则两组的反应差别就很可能归因于处理的效果,试验(续)Experiments,然而,如果处理组还有其它因素不同于对照组,则这些因素的影响就与处理的效果相混淆为了保证处理组与对照组相同,调研者随机将试验对象分到处理组与对照组随机对照试验只要有可能,给对照组一种性质中性但看上去很像处理的安慰剂在双盲试验中,试验对象不知道自己在对照组还是处理组,那些评估反应的人也不知道,这样就防止了反应中或是评估中的有偏,例2-2:职业培训政策有否助益?,一些失业人员会参加政府组织的职业培训,来提高自己的工作技能。但这项政策是否真的有帮助,是不是应该将所有失业人员都纳入这一计划?仅靠观察研究无法告诉我们这项政策的效果:仅仅对比参加和未参加就业培训的人,观察其后来的就业和收入,所下的结论未必正确。因为他们原先就可能存在许多差别(如:已受过较多的教育、价值观和动机不同),例2-2(续):职业培训政策有否助益?,精心设计的试验能帮助我们回答这一问题。在失业人员中,选择两组相似的人(年龄、教育程度、婚姻与子女等方面),要求其中一组参加就业培训,但是对另一组不提供这一计划。若干年后,比较两组人的收入以及工作记录,就可以看出,要求参加就业培训是否有预期的成效。Source:DavidS.Moore,Statistics:ConceptsandControversies,5thEd.,2001,观察vs.试验,观测的原则是:“观测,但别干扰”JaneGoodall在观察黑猩猩时,曾设立食物补给站,让黑猩猩能在那里吃到香蕉。后来她承认该做法错了,可能导致黑猩猩行为的改变试验则存心改变行为,目的是要了解特定行为/处理(treatment)是否会引起某种反应是否存在“因果关系(cause&effect)”,返回,数据来源WhereDoDataComeFrom?,总体我们想研究的对象全体,样本,普查(census)试图取得总体中每个个体的信息,抽样调查(samplesurvey)是从某个特定的总体中抽取样本,根据样本提供的信息做出关于总体的结论,普查(census),为特定目的专门组织的非经常性全面调查通常是一次性或周期性的一般需要规定统一的标准调查时间数据的规范化程度较高应用范围比较狭窄,普查Census,普查(census)是试图把整个总体纳入样本的抽样调查中国的5次人口普查:53、64、82、90、2000美国从1790开始,每10年做一次的人口普查(宪法规定),抽样调查(samplingsurvey),1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,2.具有经济性、时效性强、适应面广、准确性高等特点,抽样调查SampleSurvey,总体是我们想研究的对象全体若我们想要了解关于全国大专学生的信息,那么全国大专生就是我们的总体,即使抽样时受限制只能在一所大学里进行,总体仍然不变。要想从样本中得出什么结论来,必须知道样本代表的总体是什么样本只包括我们取得信息的那些个体,你不必吃完整头牛,才知道肉是老的。,抽样调查vs.普查,普查需要耗费大量人力、财力、物力&时间负得起费用,也担不起时间如中CPS每月失业统计如用普查,就要等下年而非下月知道结果在一些调查中样本将被毁坏而无法通过普查烟花、灯丝测试,抽样调查vs.普查(续),适当确定的小规模样本能提供比普查更精确的数据清点零件库存时与其叫一个不耐烦的职员,不如精心安排的抽样来得准确但有些时候只能依靠普查需要详细的地方数据:如美国人口普查一个功能就是为选区划分提供依据,例2-3:一次“以整个总体为样本”的企图,美国人口普查局的经历告诉我们,普查只能“试图”把整个总体纳入样本。普查局估计,1990年的人口普查漏掉了1.8%的全国人口。漏掉的人口中包括黑人的族裔的4.6%,且大多住在内陆(innercities)。即使由政府强大资源作后盾,普查也无法达到完美无瑕。,返回,好样本与坏样本,有偏Biased,如果统计问题的设计使得结果总是往某个方向偏,我们就称这个设计是有偏的(Biased)。,两种有偏的抽样方法BiasedSamplingMethods,方便抽样conveniencesampling从总体抽样时,选取最容易取得的个体自发回应样本voluntaryresponsesample自动对某一普遍呼吁(generalappeal)产生回应而形成的样本,如写信回应(write-in)或电话回应(call-in)意见调查,例2-4:给己方便,给人方便,设想我每周提供给你所在公司几箱橙子。你通过对每个箱子抽样来检查橙子的质量。很容易你会只检查每一箱顶上的几个橙子,但这不能作为整箱橙子的代表,因为底部的橙子更可能在运输中受损。并且,如果我知道你的抽样方法,我就会把烂的橙子放在底部而把好的放在上面让你检查。若你只检查表面,那么你的抽样结果就是有偏的样本橙对于其所要代表的总体橙来说,质量偏好。,例2-5:购物中心访谈InterviewingattheMall,生产商和广告商常借助购物中心访谈来收集有关消费者行为和广告效力的信息。这种消费者样本既快速、又便宜。但在购物中心接触到的人并不能充分代表总体人口。例如,这些人更富有、更多为青少年或退休人士。并且,采访者倾向于从顾客群中选择外表整洁、和善的个人。购物中心的样本是有偏的:对总体的某一部分人过分代表(over-represent),对其它人则代表不足(under-represent)。来自该方便样本的观点,可能和总体的观点大相径庭。,例2-6:写信回应意见调查,专栏作家AnnLanders有一次问她的读者:“如果可以重来一次,你还要孩子吗?”她接到近1万份答复,其中将近70%说:“不要!”难道70%的父母都后悔有了孩子吗?当然不是。这是个自发性回应样本。通常对某个议题有强烈感觉的人,尤其有负面感觉的,比较会不嫌麻烦地去回应。Landers的意见调查结果是有高度偏差的:她的样本中,宁愿不要孩子的父母百分比,远大于全体父母中宁愿不要孩子的百分比。,例2-7:写信给美国国会,假设你是美国某国会议员的幕僚,这位议员正在考虑一项法案,该法案会对老人疗养院的服务,提供政府资助的保险。你的报告指出,一共收到1128封针对此法案的来信,其中871封反对此项法案。国会议员说:“真没想至我的选区当中,大部分人都反对这个法案。我还以为会有很多人赞成。”你相信大部分的选民都反对这个法案吗?你会怎么向国会议员解释这件事牵涉到的统计问题?(自发性回应样本对总体的代表性可能不够。),人为选择导致有偏,上述两种抽样方法之所以有偏,是因为其中加入了人为选择(humanchoice)方便样本:加入了取样者的偏好自发回应样本:加入了被取样者的意志,统计学家开出的纠偏处方:利用不牵涉人为选择的“机遇”(impersonalchance)来选取样本随机抽样,简单随机抽样Simplerandomsampling,用机会选出的样本,是让每个个体都有同样的中选机会,来消除人为偏向,例2-8:一个简单随机抽样的例子抽签选代表ChoosingNamesfromabox,从全班50人中选5人光荣而艰巨的任务:打扫教室意外之喜:免费观赏进口大片由于“人人不甘落后而又名额有限”:将50个名字分别写在同样大小的纸条上,放入盒中摇匀(总体)从中抽出5张,就得到一个简单随机样本:不仅每个人中选机会相同,且每个可能的样本(任5张)被抽中的机会都相同,随机选样的最简单的办法:抽签选取,该方法选出的样本不加入“人意”无取样者的个人偏好、也无回应者的主动加入;而是“天意”不论班干/普通同学、团员/非团员、男生/女生、“乖”学生/“怪”学生,每个人被选进样本的机会相等,简单随机样本SimpleRandomSample,SRS,大小为n的简单随机样本是一个有n个个体的样本,其选取的方法,是使得总体中任一组n个个体,都有相等的中选机会,样本容量,至少方法是公平的,上述定义并未描述某一具体样本,而是描述选择样本的方法一种使任一大小为n的可能样本,都有同样的机会被选中的方法其内在思想是:首先方法必须公平,随机数表TableofRandomDigits,是一连串的0、1、2、3、4、5、6、7、8、9这些数字,且满足以下两个条件:表中任一位置数字为0-9中任何一个数字的概率相同。不同位置的数字之间是独立的。也就是说,知道表中某一部分是些什么数字,不会提供给你任何关于其他部分是些什么数字的信息。,随机数表的生成,想象如下过程请一位助理(电脑):把数字0-9放在一个盒子内混匀任意抽出一个数字,记下来再放回无限重复步骤1、2:混匀、抽取、记录、放回,19223950340575628713,为方便查阅,对随机数字又进行分组分行,得到随机数表。实际上行和列并没有特别意义,该表只是一长串具有前述两个特性的随机数字而已,例2-9:用随机数表选SRS,王女士的小型律师事务所共有30家客户。王女士想选择其中5家进行深入拜访,以找到提高客户满意度的办法。为了避免人为选择的有偏,她选了一个大小为5的简单随机样本(SRS):步骤1:编号(Label)给每家客户一个数字编号,数字位数应尽可能少。30家客户要只需用到两位数,因此我们使用:01,02,03,29,30对每家客户进行编号。客户名单及编号如下:,用00-29亦可,例2-9(续一),01安利09惠尔康17马士基25沃尔马02宝岛眼镜10华美18麦当劳26厦工机械03宝姿时装11建发19闽客隆27厦新电子04戴尔12金鹭20平安保险28兴业银行05古龙罐头13柯达21三圈日化29悦华酒店06光合作用14肯德基22舒友餐饮30钟爱一生07国贸15林德23松下音响08汇丰16鹭发24太古可乐,例2-9(续二),步骤2:查表(Table)从“随机数表”任一处开始,读取两个一组的随机数。假设我们从第130行开始:6905164817871740951784534064898720197245该行的前10个“两位数组(two
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学三年级家长辅导计划
- 门店使用权租赁合同
- 证券公司经纪人证券市场研究派遣服务合同
- 高新生物医药企业政府专项补贴申请合规性审核合同
- 网络文学版权跨境授权与保护合作合同
- 七年级历史上册教学计划跨学科整合探索
- 机械设备开发承包合同范本
- 知识产权专家特定职务劳动合同
- 影视虚拟场景色彩调节租赁技术合同
- 母婴护理服务质量监控与风险预防合同
- 纳西族文化课件
- 水利水电工程技术术语全
- 2024-2025教科版科学一年级下册第二单元测试卷及答案
- 中国共产主义青年团纪律处分条例试行解读学习
- 医疗器械研究报告医疗器械产业现状及未来发展趋势分析报告(2025年)
- 数字孪生技术在智慧能源系统中的挑战与机遇
- 抛石专项施工方案
- 电力增材再造技术的创新与发展
- 话剧导演合同协议
- 客服代理合同协议
- 广西壮族自治区2025年4月高三毕业班诊断学考试数学试卷及答案(广西三模)
评论
0/150
提交评论