




已阅读5页,还剩71页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章统计数据的收集,第一节数据的计量与分类第二节调查方案设计第三节调查问卷设计第四节统计数据的误差,1,一、数据的计量尺度统计数据(Data)是对客观现象进行登记和计算的结果,是进行统计分析的基础。由于客观事物及其现象具体特征不同,以及进行统计资料搜集时采用的具体量表不同,所得到的观测数据的精确程度也就不同,这里用数据计量尺度来加以区分。由粗略到精细,由初级到高级,可将数据计量尺度分为定类尺度、定序尺度、定距尺度和定比尺度四个层次。,第一节数据的计量与分类,2,1、定类尺度(NominalScale)定类尺度又称为类别尺度或列名尺度,由其构成的量表一般称为称名量表或分类量表。定类尺度是最粗略、计算层次最低的计量尺度。定类尺度只能按照事物及其现象的某种属性对其进行平行的分类或分组。例如车牌号、学生的学号、运动员号码、身份证号码、人员性别、企业类别等等。,3,1、定类尺度(NominalScale)定类尺度精确到“一一变换是唯一的”,具有传递性,即当a=b,b=c时,有a=c。由定类尺度计量形成的定类数据,表现为不分顺序的类别,只能进行=和的运算,也就是只能区分事物是同类或不同类,进行分类统计。定类尺度可以计算频率或频数,众数和进行列联分析。,4,性别,种族,运动项目,5,2、定序尺度(OrdinalScale)定序尺度又称为顺序尺度,由其构成的量表一般称为顺序量表。例如军阶、职称、工资级别、产品质量等级、受教育水平等。定序尺度精确到“单调变换是唯一的”,变换不改变定序尺度中的信息,即,则有。,6,2、定序尺度(OrdinalScale)定序尺度是描述事物之间等级差或顺序差别的一种测度。不仅可以将事物分成不同的类别,还可以确定这些类别的优劣或顺序。由定序尺度计量形成的定序数据,表现为有顺序的类别,可以比较大小、优劣,具有=、和的数学性质,可以计算中位数,但不能测量出类别之间的准确差距,不能进行加减乘除的运算。,7,8,3、定距尺度(IntervalScale)定距尺度又称为间隔尺度,由其构成的量表一般称为间隔量表或间距量表。定距尺度精确到“准确到线性变换是唯一的”。不仅能将事物区分为不同类型并进行排序,而且可以准确地指出事物类别之间的距离是多少。但是定距尺度没有确定的“零点”。,9,3、定距尺度(IntervalScale)定距尺度的特征可以用公式表示为。由定距量表计量形成的定距数据,表现为数值,通常是以自然单位或度量衡单位作为量纲,它是一个真正意义上的“定量”量表,可以进行加减运算,可以计算平均数,标准差,相关系数,检验量,检验量等参数统计指标数值。,10,天气预报:南京:最高温度3长沙:最高温度6,两地最高温度相差3南京最高温度较长沙最高温度低3长沙最高温度是南京最高温度的2倍,11,4、定比尺度(RatioScale)定比尺度又称为比率尺度,由其构成的量表一般称为比例量表。定比尺度精确到“乘以一个正常数的变换是唯一的”。由定比尺度形成的定比数据,也表现为数值,并且是等级最高的统计数据,可以进行加减乘除的运算。,12,1980年出生,34岁,1997年出生,17岁,甲,乙,二人年龄之差:19971980=17岁或3417=17岁,二人年龄之比:3417=2(倍)19971980=1.0086(倍),13,14,二、数据的分类,调查、观察和科学试验,统计数据,使用者,他人加工处理,已有数据,一手或原始的数据,二手或次级的统计数据,15,(一)统计数据的次级来源,在科学研究和管理决策中,要善于利用各种现成的数据。二手数据主要是公开出版的或公开报道的数据,如各类统计年鉴。这种数据还可以从报纸、图书、杂志等渠道获得,或者从调查公司或数据库公司等处购买,也有些是尚未公开出版的数据。,16,(一)统计数据的次级来源,17,二手数据的特点,收集容易,采集成本低作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径收集二手资料在研究中应优先考虑,18,二手数据的评估,数据是谁收集的?可信度评估为什么目的而收集的?数据是怎样收集的?什么时候收集的?,19,利用二手数据对使用者来说既经济又方便,但使用时应注意这些统计数据的权威性,即这些数据是谁搜集的,其收集的目的是什么,采用怎样的方法收集,什么时候收集的等等。在使用时还要注意二手数据的含义、计算口径和计算方法,以避免误用或滥用。同时,在引用二手数据时,一定要注明数据的来源,以尊重他人的劳动。,20,(二)统计数据的直接来源,统计调查方式普查(census):为某一特定目的而专门组织的全面调查普查通常是周期性的普查一般需要规定统一的标准调查时间普查的数据一般比较准确,规范化程度也较高普查使用的范围比较狭窄,21,抽样调查(samplingsurvey):从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种数据收集方法。特点:经济性;时效性强;适应面广;准确性高,22,抽样调查有如下几个特点:第一、样本单位按随机原则抽取;第二、根据部分调查的实际资料对总体的数量特征作出估计;第三、抽样误差可以事先计算并加以控制。抽样调查的适用范围主要有:第一、对一些不可能或不必要进行全面调查的社会现象,采用抽样调查;第二、对普查资料进行必要的修正。,23,抽样调查必须遵循以下原则:首先是随机原则,即要使所有调查单位都有同样被抽取的机会;其次是最大抽样效果原则,即在既定的调查费用下使抽样估计误差最小,或者是在给定的精确度下,使调查费用最少。,24,随机抽样的方法(概率抽样)随机抽样(randomsampling)是一种目标总体中每个个体都有已知的机会被选中作为样本的抽样方法简单随机抽样(simplerandomsampling)是指从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位入样的概率是相等的。,25,【例】假设我们想要从一个含有800个编号为01-800的数字的总体中得到一个10个数字的简单随机样本。方法1:运用随机数表方法2:运用计算机,26,分层抽样(stratifiedsampling):总体中的个体首先被研究人员根据一种或几种重要性质分成不同的子类或层,然后在每层中运用简单抽样或者系统抽样选取样本。也称分类抽样,27,优点:1.分层抽样除了可以对总体进行估计外,还可以对各层的子总体进行估计2.分层抽样可以按自然区域或行政区域进行分层,使抽样的组织和实施都比较方便。3.分层抽样的样本在总体中的分布比较均匀4.分层抽样可以提高估计的精度,28,例:假定某大学的管理学院想对今年的毕业生进行一次调查,以便了解他们的就业倾向。该学院有5个专业:会计、金融、市场营销、经营管理、信息系统。今年共有1500名毕业生,其中会计专业500名,金融专业350名,市场营销专业300名,营销管理专业150名,信息系统专业200名。假定要选取180名作为样本,样本应怎样抽取?,29,系统抽样(systematicsampling)的随机样本是通过从总体中按顺序每隔固定的区间选取一个个体产生的。也称等距抽样或机械抽样整群抽样(clustersampling):总体自然地聚成几个子类,所有子类或者说聚类被随机选取作为样本。,30,非概率抽样方便抽样(conveniencesample)选取那些最容易获得的测量值或观测值作为样本。判断抽样(judgmentsample)是依赖于个人进行样本选择的抽样。,31,重点调查和典型调查重点调查是从调查对象的全部单位中选择少数重点单位进行调查。典型调查是从调查对象的全部单位中选择一个或几个少数有代表性的单位进行全面深入的调查。,32,自愿样本:指被调查者自愿参加,成为样本的一分子,向调查人员提供有关信息。滚雪球抽样:首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所获得的线索,进行此后的调查。配额抽样:首先将总体的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便所见所闻或判断抽样的方式选取样本单位。,33,统计报表(statisticalreportforms):,按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。,34,表号:,制表机关:,劳动情况年报表,单位负责人:;填表人:;报出时间:年月日说明:1.本表为年报,在年末填报2.本表由独立核算的工业企业填报,35,数据的收集方法,36,第二节调查方案设计,一、确定调查目的为什么调查二、确定调查对象和调查单位向谁调查三、设计调查项目和调查表调查什么四、确定调查时间和调查期限五、制定调查的组织实施计划,37,调查方案的结构(surveyplan),调查方案的内容,38,调查目的(objectiveofsurvey),1.调查要达到的具体目标2.回答“为什么调查?”3.调查之前必须明确,39,调查目的(objectiveofsurvey),经国务院批准,第六次全国人口普查将于2010年11月1日零时进行。此次普查的主要目的是查清十年来我国人口在数量、结构、分布和居住环境等方面的变化情况,为实施可持续发展战略,构建社会主义和谐社会,提供科学准确的统计信息支持。,40,调查对象和调查单位(RespondentandSurveyunit),调查对象:调查研究的总体或调查范围调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)回答“向谁调查?”,41,调查项目(Surveyitems),调查的具体内容,人口普查登记的主要内容包括:姓名、性别、年龄、民族、国籍、受教育程度、行业、职业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等。,42,调查项目(Surveyitems),调查的具体内容通常表现为表格或问卷回答“调查什么?”,人口普查表分为第六次全国人口普查表短表和第六次全国人口普查表长表。普查表长表抽取10%的户填报;普查表短表由其余的户填报。,43,方案设计中的其他问题,1.明确调查所采用的方法2.确定调查资料的所属时间和调查工作的期限3.调查的组织与实施细则,44,什么是问卷?(questionnaires),用来搜集调查数据的一种工具调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明以及码表组成的一种调查形式不同的调查问卷在具体结构、题型、措词、版式等设计上会有所不同,但在结构上一般都由开头部分、甄别部分、主体部分和背景部分组成,第三节调查问卷设计,45,一、问卷的基本结构,问卷的基本结构,开头,甄别,主体,背景,问候语,填写说明,问卷编号,46,开头部分:问候语、填表说明和问卷编号问候语要语气亲切、诚恳礼貌,文字要准确,并在结尾处对被调查者的参与和合作表示感谢,女士/小姐/先生我们是课题研究组的成员,现在我们在做一次关于的问卷调查,您的参与将有利于理论的发展,同时还有利于。调查需要耽搁您一些时间,请您谅解。感谢您能给予我们支持!,47,2.填写说明,填写说明:1.调查共2页,请您在所选择答案的题号上画圈。2.下列问题中的选择题题尾有注“()”者为不定项选择,其余为单选题。3.需填写数字的题目在留出的横线上填写。4.对注明要求您自己填写的内容,请在规定的地方填上您的意见。,D3您的年龄。(注:范围右边的数字不包括在所选范围内;如25周岁应选“C”,不选“B”)A18周岁以下B1825周岁C25-35周岁D3545周岁E4555周岁F5565周岁G65周岁以上,48,3.问卷的编号问卷的编号主要用于识别问卷、调查者、被调查者姓名和地址等以便于校对检查、更正错误,49,甄别部分甄别也称为过滤,是先对被调查者进行过滤,筛选掉不需要的部分。,Q13您去过张家界森林公园吗?。A没有B去过,注:从Q13题开始,如果您的选择是A,请您回答Q14后直接转到“基本情况调查”D1开始,选项为“B”的从Q16题开始,以您最常去的森林公园为例进行选择。,50,主体部分背景部分,基本情况调查D1您来自哪里?(以户口所在地或者一年以上暂住地为准)AXX市B省内其他城市C省外D国外D2您的性别A男B女D3您的家庭月收入A1000元以下B10003000元C30005000元D50008000元E8000元以上,51,二、提问项目的设计提问的内容尽可能短用词要确切、通俗例:,请问您使用什么牌子的洗发水?,请问您最近一段时间使用什么牌子的洗发水?,请问您最近3个月使用什么牌子的洗发水?,52,例:,您觉得这种电视机的画面质量怎么样?,您觉得这种电视机的画面是否清晰?,您是否认为使用电脑数字技术制作的广告更具有吸引力?,例:,53,一项提问只包含一项内容例:,您觉得这种新款轿车的加速性能和制动性能怎么样?,54,避免诱导性提问例:,人们认为长虹彩电质量不错,你觉得怎么样?,您觉得长虹彩电的质量怎么样?,55,避免否定形式的提问例:,您觉得这种产品的新包装不美观吗?,您觉得这种产品的新包装美观吗?,避免敏感性问题,56,三、回答项目的设计开放性问题,57,封闭性问题1.两项选择法,Q26您会说服(或推荐)您身边的人购买这一产品吗?A会B不会,58,2.多项选择法单项选择型,D6您的受教育程度。A高中(中专)以下B高中(中专)C大专D本科E硕士、博士,59,Q您通常选择哪一种广告媒体:A报纸B电视C杂志D广播E其他。,多项选择型,A报纸B车票C电视D墙幕广告E汽球F.大巴士G.广告衫H.其他,60,限制选择型3.顺序选择法,您在选择饭店时,主要考虑哪些因素?1.饭店的档次2.价格合理3.服务口碑4.地理位置5.交通状况(按重要程度进行排序),61,4.评定尺度法,您对本企业的服务是否感到满意?1.非常满意2.比较满意3.一般4.不太满意5.不满意,62,5.双向列联法例:请在您赞同的空格内划“”。,63,四、问题顺序的设计问题的安排应具有逻辑性问题的顺序应先易后难能引起被调查者兴趣的问题放在前面开放性问题放在后面,64,第四节统计数据的质量,数据的误差是指统计数据与客观事实之间的差距。可以分为登记性误差和代表性误差两类。,65,1登记性误差登记性误差是指在调查过程中由于调查者和被调查者的人为原因形成的误差。例如,调查者的人为原因主要有总体界定错误、调查单位缺失、计量和测量误差、记录失误、抄录错误、汇总差错;被调查者的人为原因主要有有意识地提供虚假数据、无意识地提供有误数据。从理论上说登记性误差属于可以消除的误差。,66,中国的人口统计数据:公元2年(汉元始二年)59594978人公元754年(唐天宝十三载)52880488人公元1122年(宋宣和四年)46734784人公元1281年(元至元十八年)58830000人公元1578年(明万历六年)60692856人公元1711年(清康熙五十年)24621324人公元1741年(清乾隆六年)143411559人公元1763年(清乾隆二十八年)204209828人公元1790年(清乾隆五十二年)301487115人公元1835年(清道光十五年)401767053人,“有五六丁之户,仅一人缴纳钱粮,或有九丁、十丁,亦仅二三人缴纳钱粮”,康熙五十一年定“滋生人丁永不加赋”,30年间增加近5倍!,登记性误差,统计数据质量实例,67,2.代表性误差,代表性误差是指利用样本数据推断总体参数时产生的误差。分为随机性误差和系统性误差。(1)随机性误差是由于随机性原因形成的代表性误差,它是服从于某一概率分布的随机变量。随机性误差是不可以消除的误差,只要利用样本数据推断总体参数,就必然存在着随机性误差。随机性误差的取值随着样本容量的增大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安全生产禁令考试题及答案
- 知识产权培训企业课件
- 漏电相关知识培训总结
- 2025年农村统计员招聘模拟试题及答案
- 2025年客运安全规章制度学习考试题
- 知识与能力培训的意义
- 知网研学课件
- 滑县文博知识培训课件
- 2025年安全生产安全指标测试题
- 钉钉直播课件使用
- 职业指导师考试题库及答案(含各题型)
- 企业融资过程中的税务问题解析
- 足球俱乐部股权转让协议
- 电子商务在文化创意产业的应用与案例
- 课件:《科学社会主义概论(第二版)》第二章
- DB50T 1342-2022 预制菜生产加工行为规范
- 呼吸危重症监护病房管理
- 2025届高考数学二轮复习备考策略和方向
- 《基于模型的系统工程(MBSE)及MWORKS实践》全套教学课件
- 全过程造价咨询服务的质量承诺及保证措施
- 体适能评定理论与方法课件
评论
0/150
提交评论