已阅读5页,还剩73页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章 数据的收集与整理, 密码tjx2011,本章内容,一、 数据的收集 二、 数据的整理 三、 次数分布,数据的收集,统计资料收集是根据统计研究的目的要求,采用一定组织形式与科学方法,进行采集与研究问题有关的各类信息资料的工作过程。 1. 统计资料及其来源 (1)原始资料 (2)次级资料 2. 数据收集的主要渠道统计调查 (1)统计调查方案的设计 (2)统计调查方法 (3)统计调查的组织方式,原始资料,原始资料也称为第一手资料,是反映被调查对象原始状况的资料。如原始记录、统计台帐、调查问卷答案、实验结果等。(通过普查或抽样调查获得) 举例:数据集03、数据集04,次级资料,次级资料也称为第二手资料,是已经存在的经他人整理分析过的资料。如期刊、报纸、广播、电视以及因特网上的资料,各级政府机构公布的资料,企业内部记录和报告等。 举例:数据集01、数据集02,间接来源,1. 公开出版物: 中国统计年鉴、中国统计摘要、中国金融统计年鉴、中国工业经济统计年鉴、中国农村统计年鉴、中国人口统计年鉴、中国市场统计年鉴、世界经济年鉴、国外经济统计资料、世界发展报告 2、网络,数据的整理,统计资料的整理,是根据统计研究的目的,对所收集到的大量、零星分散的原始资料进行科学加工与综合,使之系统化、条理化、科学化,为统计分析提供反映事物总体综合特征资料的工作过程。,统计资料的审定 统计资料的分组 次数分布,统计调查方案设计的内容,一、调查目的:为什么要进行此次调查,某大学校风调查方案 一、调查目的 为了进一步提高我校的教学质量、教学水平并改善教学环境,以利于进一步全面贯彻素质教育方针,提高学生工作的管理水平,加强师资队伍建设,二、确定调查对象和调查单位向谁调查?,调查对象:被研究的社会经济现象的总体或调查范围。(类似于总体) 调查单位:构成调查对象的每一个个体单位。(类似于个体),某大学校风调查方案 二、调查对象:学校的学生 调查单位: 每个学生,如:调查目的是为了获取国有企业的改制情况 此时,所有国有企业就是调查对象 具体的每个国有企业就是调查单位,调查单位与报告单位不同: 调查单位是调查项目的承担者(即被调查者) 报告单位是负责向上报告调查内容,提交统计资料的单位。 如:当调查城镇居民家庭收入状况(此时两者是一致的) 此时调查单位和报告单位都是城镇居民家庭 如果调查城镇居民家庭中工人收入状况 此时,调查单位是城镇居民家庭中的工人,而报告单位则是城镇居民家庭,三、确定调查项目,调查内容: 校风,考风,教风.每个方面又选择了若干代表性的问题来呼应等25个选择题,四、调查表与问卷,调查表有一览表和单一表两种。 一览表是在一张表上登记若干调查单位 单一表是在一张调查表上只登记一个调查单位的项目 调查表确定以后,需要编写填表说明和指标解释。,五、确定调查时间和调查期限 1、调查时间:调查资料所属时间(可以为时点,也可为区间) 时点:人口普查(2010年11月1日零点) 起止时间:反映现象在某一时期那发展过程的结果(某企业2001年1月1日到同年12月31日期间工业总产值资料) 2、调查期限:进行调查工作的时间 如:人口普查规定的时限为:2010年11月1 日到11月10日,六、制定调查工作的组织实施计划 成立校风调查设计组 制定校风调查方案(目的,对象,单位,经费,初稿,讨论,细则) 问卷设计(问题设定:单选,多选,开放式问题) 样本设定(样本容量,抽样方式)(此处为了对比,主要为后面分析做准备,可以考虑两个调查对象【校内,校外】),调查问卷案例,关于学生学习动机的统计结果,调查表,调查表一般有两种:一种是一览表,另一种是单一表。,统计调查方法,现场观察法 报告法 问卷法 访谈法 实验采集法,统计调查的方法,统计调查组织方式,统计报表 普查 抽样调查 重点调查 典型调查,全面调查,非全面调查,统计调查的组织方式,统计报表,统计报表(Statistical Report Forms)是指依照国家统计局或国家各行政管理部门的规定,自上而下地统一布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目,统一的报送时间与报送程序,自下而上地逐级定期提供基本统计资料的一种调查方式。,普查,普查(Census)是对调查对象的全部调查单位逐一进行的调查。其特点:是一次性调查,是专门组织的全面调查,即普查主要用来调查属于一定时点上的现象总量。 特点:一次性、大量性、全面性 缺陷:耗费大量人力,物力,财力和时间(我国现阶段的普查主要是十年一次的人口普查和五年一次的经济普查,美国普查局 /,美国普查局,抽样调查,抽样调查(Sampling Survey)是一种非全面调查,它是在全部调查单位中抽取一部分单位作为样本进行调查,再根据调查结果推断总体的一种调查方法。广义的抽样调查包括随机抽样与非随机抽样。,常用的随机抽样包括:简单随机抽样,分层抽样,系统抽样,整群抽样,非随机抽样:一些物价指数的编制,简单随机抽样,简单随机抽样又叫纯随机抽样,是最简单、最普遍的抽样组织方法。它是按照随机性原则直接从总体的全部单位中,抽取若干个单位作为样本单位,保证总体中每个单位在抽选中都有同等被抽中的机会。 方法:抽签法、随机数表法(计算机产生),如面试时决定先后顺序,抽奖等,随机数表法:excel,分层抽样,分层抽样时,各层样本容量的确定一般有两种方法 根据各层标志值变动大小确定 按各层单位数所占比例抽样即比例抽样,该方法可有效提高抽样样本的代表性。,对于总体情况复杂、各单位之间差异较大、单位数量较多的抽样调查问题,一般可采用分层抽样组织方式,如调查全省职工家庭生活情况-工业,商业,文教,卫生等,如调查全校各单位职工福利情况,系统抽样,系统抽样又叫等距抽样或机械抽样。它是先把总体所有单位按某一标志排队,并根据总体单位数与样本单位数的比例计算出抽样距离和间隔,在第一个间隔区间里随机确定一个起始点作为第一个样本单位,以后每隔相等的距离和间隔抽取样本单位。 对总体单位排队时所采用的标志,可以是与调查项目有关的,也可以是与调查项目无关的,前者称为有关标志排队法;后者称为无关标志排队法,该方法在避开周期性的情况下也可有效提高抽样样本的代表性。,如采用该方法抽样调查全班同学的身高情况(50人,样本容量为10),例题5,整群抽样,由于整群抽样就是将群视为抽样单元的简单随机抽样。对抽中群内的所有单位进行研究。整群抽样总是采用不重复抽样方法.,如调查某县小学教育状况,可从该县中随机抽取若干个小学,然后对抽中的小学进行全面调查。此时抽样单位扩大了,在群间差异性不大或者不适宜单个地抽选调查样本的情况下,可采用这种方式,对调查工作的组织和进行比较方便 ,可以节省经费。但当群间差异较大时,样本代表性比较差.,重点调查,重点调查(Key-point Survey)是指在调查对象中,选择一部分重点调查单位收集统计资料的一种非全面调查。 关键词:重点调查单位,是指这些被调查的总体单位中数目不多,所占比重不大,但其调查的标志值却在总量中占有很大比重,在总体中具有举足轻重的作用。,如调查全国的钢铁产量,只需调查那几个大的钢厂企业:鞍钢,宝钢,武钢等即可) 如调查全国的棉花生产情况,只需调查河南,山东等棉花集中产区即可),典型调查,典型调查(Model Survey)是指根据调查目的,在对所研究现象全面分析的基础上,有意识地选择有代表性的典型单位进行深入细致地调查,以便认识事物的本质与发展变化规律的一种非全面调查方法。 关键词:典型单位,是指那些能充分、集中地体现调查对象总体某些方面共性特征的最有代表性的单位。 如发生甲流,要研究其病毒机理,只需找一组甲流患者进行临床研究,资料审定,调查资料的审定目的,就是要保证资料的准确性,尽可能地缩小调查误差。即对对调查资料的准确性、完整性和及时性进行检查 。,调查必然产生统计误差,统计误差,登记误差是由于调查过程中各有关环节工作的失误而造成的。 代表性误差是由于非全面调查只观察总体一部分单位,这部分单位不能完全反映总体的性质而产生的误差。 系统误差:如产值统计时,有的单位好大喜功,虚报产值。虚报瞒报都是系统误差。理论上说,系统误差是可以消除的 抽样误差:可控制,但不可避免;,分组,统计分组是根据统计研究的目的,选择某一标志作为分组的依据,将总体分成若干个不同的组。经统计分组后,各组组内的个体的性质是相同的,不同组的个体的性质是不同的。统计分组是数据资料整理的核心 对总体而言是“分”,即将总体分为性质相异的若干组成部分;对个体而言是“合”,即将性质相同的个体组合起来。,统计分组的原则: ()穷尽原则 ()互斥原则,统计分组的关键: ()正确选择分组标志 ()正确确定各组的界限,如按学历分组:大学,高中,初中,小学(则未受教育或大学以上的没包括在内) 对鞋子分组:男鞋,女鞋, 童鞋(童鞋中包含了男童和女童的鞋子),分组种类,按分组标志多少可分为:,()简单分组 按一个标志对总体进行分组,如人口普查中按性别分组,(2)分组体系:按两个或两个以上的标志进行简单分组 (两种情况) 平行分组:各简单分组之间彼此独立,即无主次之分,也不相互交叉,分别从各自的角度说明问题 如:为了全面了解全社会固定资产投资总额构成,则可分别按经济类型,产业构成,资金来源等几个标志进行分组 复合分组:按两个或两个以上的标志层叠起来分组,是在简单分组的基础上对各组再按另一标志作进一步分组 如全校教师的情况,复合分组,数据分布的展示-次数分布,次数分布 在统计分组的基础上,将总体的所有单位按组归类整理,形成总体各单位在各组间的次数分布状况,称为次数分布 次数(频数) 其中各组包含的总体单位个数 频率(比率) 各组单位数占总体单位数的比重 分配数列(分布数列) 各组的频数或频率按照一定的顺序排列而成的数列,称为分配数列或分布数列,次数分布数列的种类,品质分配数列(如按籍贯将学生进行分组,统计每组的人数分布情况),数量分配数列,单项式变量数列(打靶时中的环数),组矩式变量数列(学生按成绩分组),按标志分为,组矩式变量数列的分类: 组矩式变量数列按照分组组矩的是否相等分为:等矩数列和异矩数列 按首末两组的上、下是否齐全分为:闭口数列和开口数列,单变量值分组,将一个变量值作为一组 即不同的变量值在不同的组 3. 适合于离散变量 4. 适合于变量值较少的情况,打靶时中的环数,组距分组,以变量值变化的一个区间为一组(主要考虑连续变量分组,此时相邻组的组限必须是重叠的) 适合于变量值较多的情况 必须遵循“不重不漏”的原则 4. 可采用等距分组,也可采用不等距分组 5 单变量值分组是组距分组的特例,如学生按成绩进行分组 60以下 6070 7080 8090 90以上,异矩数列,如果数据分布不均匀,为了正确反映各类型特征,就需要采用异矩分组.例如人口年龄的分组,可依据人口成长的生理特点分成: 0岁6岁(婴幼儿组), 7岁17岁(少年儿童组),18岁59岁(中青年组), 60岁以上(老年组),有些经济现象的标志值几乎成几何级数变化,组矩就宜按几何级数确定.例如:某市450家百货商店,按营业额大小反映其规模类型的分布特征,分组如下:,某市450家百货商店营业额分组统计(异矩分组),组距分组与不等距分组 (在表现频数分布上的差异),等距分组 可直接根据频数(频率)来观察数据分布的特征和规律 直方图中,可直接以直方图的高度表示次数或频率 异距分组 不可直接根据频数(频率)反映频数分布的实际状况 需要用频数(率)密度(频数(率)密度频数(频率)/组距)反映数据分布的实际状况 直方图中,以面积表示次数或频率(这是为什么密度函数曲线中用面积表示频率即概率的原因);举例,譬如,如果某组的组距很大,一般来说其包括的单位个数就多(学生成绩60-80),此时仅仅用相应的频数或频率就不能说明分布特点了,最好采用单位组距所包含的单位个数或频率来说明数据的分布情况-即频数密度,分组数据直方图 (直方图的绘制)等矩分组,频 率 (%),30,24,18,12,6,组矩,分组数据直方图 (直方图的绘制)等矩分组,频率/组矩 (%),30,24,18,12,6,组矩(异矩),a,b,c,d,数据在bc之间取值的频率可以表示为: 频率=组距(b-c)*(频率/组距)=即为红色部分的面积,闭口数列和开口数列,闭口数列:首末两组的上,下限都齐全的数列,开口数列:首组缺下限或末组缺上限的数列,次数分布数列的种类,变量数列,变量数列的有关概念,单项数列、组距数列、组数、组限、闭口组与开口组、组距、等距数列、异距数列、组中值(可粗略反映组内数据取值的平均水平),某连续变量数列末位组为开口组,下限为150, 相邻组组中值为120,则末位组中值为,120 150,组距式变量数列的编制,是采用组距式分组编制的变量数列。组距式分组就是把整个变量取值依次分为几个区间,每个区间内所有变量值归为一组。,以以下数据为例说明组距式分组的步骤 例2某车间50个工人某月工资如下,以组矩式变量数列说明组矩式分组的步骤,排序并求出全距(最大值最小值); 确定组数和组距(根据斯透奇斯规则); 确定组限; 使用frequency(数据,分组上限)函数,按下ctrl+shift+enter键 绘制直方图:工具-数据分析-直方图- 折线图和直方图并存:在直方图基础上右击选择数据源系列添加(可在右侧给系列命名)右侧的“值”处重新选择对应的频率序列(同绘制直方图的频率序列) 修改间距:在柱形上右击-数据系列格式选项修改间距即可 平滑直线图:右击选择图表类型自定义图形中平滑直线图,例题,扩展表,输入区域:数据,接受区域:组上限(同frequency函数),注意: 组矩,组数中有小数一般是去掉小数,再加1 组矩宜取整百整十。如学生成绩 遵循上组限不在内的原则 ,但frequency函数包含上限,为使上限不在内,设定时采用较上限较小的数值作为接受域的值) X轴的修改:右击选择数据源-系列修改分类(x轴)标志中的内容为分组表示(8090),然后在坐标轴格式中选择字体修正大小 向上累积:小于某组上限的频率 向下累积:大于某组下限的频率,以上例数据为例说明组距式分组的步骤,内容较丰富次数分布表,例题,扩展表,本章结束,统计表的结构,从形式来看要素包括:总标题、横行标题、纵行标题、数字资料。 表示统计研究的对象,称主词 ;其余的是宾词。,次数分布表的编制步骤,排序并求出全距(最大值最小值); 确定组数和组距; 确定组限; 归组并计算出各组的次数; 显示或打印出次数分布表。,例题,扩展表,表例1,表例2,表例3,图例1,频数分布的类型,图3-17 几种常见的频数分布,( 供给曲线),(需求曲线),(死亡率),图例2,思考题,3. 填写如下的次数分布表,37.1,7,50,65.9,7,16,83.8,10.52,24,13,5.68,例题4,将总体分为k个层 , 样本容量为n,从第i组抽取的样本单位数ni , 则,第i组的抽样平均数,样本总平均数,分层抽样中的比例抽样,问卷调
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年吉林省导游基础知识考试卷及答案(九)
- 2026年江西省共青城市高二生物下册期末考试检测卷【夺分金卷】附答案
- 2026年浙江省余姚市高二生物下册期末考试检测卷完整答案
- 2026年四川省峨眉山市高二生物下册期末考试试卷带答案(培优B卷)
- 2026年航空人员资格考试理论知识考卷及答案(十六)
- 2026年吉林省梅河口市高二生物下册期末考试检测卷附参考答案【研优卷】
- 2026年北京市丰台区丰台医院医护人员招聘笔试备考题库及答案解析
- 2026湖北武汉情智学校招聘9人笔试参考题库及答案详解
- 2026四川爱创科技有限公司招聘设备工程师等岗位2人笔试备考试题及答案详解
- 2026年洪泽县蒋坝镇卫生院医护人员招聘笔试备考题库及答案解析
- 侗歌弹唱教学课件下载
- 2025年上海市初中学业水平考试中考道德与法治真题试卷(真题+答案)
- 碳排放培训课件
- 脐带脱垂体位急救处理
- 环境风险评估报告范本
- 出血、血肿应急预案
- 水利工程建设项目后评价报告编制规程
- TCPAPE 01-2024 无菌药品生产污染控制策略技术指南
- 石文化与宝玉石鉴赏学习通超星期末考试答案章节答案2024年
- 国家开放大学《合同法》章节测试参考答案
- MOOC 工程制图-重庆大学 中国大学慕课答案
评论
0/150
提交评论