《统计学》-单薇主编-第2章-数据的搜集和整理_第1页
《统计学》-单薇主编-第2章-数据的搜集和整理_第2页
《统计学》-单薇主编-第2章-数据的搜集和整理_第3页
《统计学》-单薇主编-第2章-数据的搜集和整理_第4页
《统计学》-单薇主编-第2章-数据的搜集和整理_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 2章 数据的搜集和整理,2.1 数据的搜集 2.2 数据的整理 2.3 数据的描述 2.4 SPSS在描述统计中应用-数据分布图示 本章小结,学习目标,了解统计数据的计量尺度和类型 掌握数据搜集的方式和方法 了解数据整理的意义 掌握次数分布数列的编制 掌握统计表和统计图的使用,2.1.1 数据 2.1.2 数据搜集概述 2.1.3 统计调查方案设计 2.1.4 数据搜集组织方式 2.1.5 数据搜集基本方法,2.1 数据的搜集,2.1.1 数据,一、数据的计量尺度 1、定类尺度:按照客观现象的某种属性对其进行平行的分类,不反映各类的优劣、量的大小或顺序。 2、定序尺度:对客观现象各类之间的

2、等级差或顺序差测度。 3、定距尺度:对现象类别或次序之间间距的测度 4、定比尺度:将两种相关的数加以对比而形成相对数。,2.1.1数据,二、数据的类型 1、静态数据:又称为横截面数据,指在同一时间在不同单位的数量表现。 2、动态数据:又称为时间序列数据,指不同时间对同一总体的数量表现。 3、平行数据:动态数据和静态数据结合,2.1.1数据,三、数据的表现形式 绝对数、相对数、平均数 1、绝对数:反映现象的规模、水平。 计量单位,物理单位,价值单位,实物单位,自然单位,标准实物单位,2.1.1数据,某一特定时点所处的状态,它是采用间断登记方式取得资料的,不具有可加性,时点数,时期数,反映现象在一

3、段期间内发展过程的总量,它具有连续统计和可加性,绝对数,2.1.1数据,2、相对数:是由两个绝对数对比而得到的。 相对数分类:结构相对数(例如某地区三大产业比重)、动态相对数(例如某地区的国内生产总值的发展速度)、比较相对数(例如A地区的人均国内生产总值是B类地区的倍数)、比例相对数(例如新生儿男女性别比)、强度相对数(例如某地区人口密度)、计划完成相对数(例如企业产量计划完成程度),2.1.1 数据,相对数计量:无名数和有名数 无名数:百分数、千分数、倍数、系数等 有名数:复合计量,如人口密度。,2.1.1 数据,3、平均数:反映现象总体的一般水平或分布的集中趋势 。,2.1.2 数据搜集概

4、述,统计数据的来源:直接获取数据和间接获取数据 1、直接数据:,统计调查,科学实验,2.1.2数据搜集概述,2、间接取得的数据 统计部门和政府部门公布的有关资料,如各类统计年鉴 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据 各类专业期刊、报纸、书籍所提供的资料 各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料 从互联网或图书馆查阅到的相关资料,2.1.3 统计调查方案设计,一个完整的统计调查方案主要包括以下几项内容: (1)确定调查目的 (2)确定调查对象和调查单位 (3)设计调查项目和调查表 (调查表一般有两种 形式,一种是一览表,另一种是单一表 ) (4

5、)确定调查时间 (5)调查方法的选择 (6)统计调查的组织实施,2.1.4 数据搜集组织方式,按调查范围分:全面调查与非全面调查 全面调查:调查总体中的每个单位。 非全面调查:调查总体中的一部分。,普查 (census),1. 为特定目的专门组织的非经常性全面调查 2.通常是一次性或周期性的 3.一般需要规定统一的标准调查时间 4.数据的规范化程度较高 5.应用范围比较狭窄,抽样调查(sampling survey),1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,2. 具有经济性、时 效性强、适应面广、准确性高等特点,重点调查,1、只选择少数重

6、点单位进行调查。 2、重点单位:这些单位在全部单位中只占较少比重,但它们的标志值在所研究现象的标志总量中都占有较大的比重,在总体中具有举足轻重的作用。 3 通常,当调查目的只要求掌握总体的基本情况,而少数单位又能比较集中地反映研究的项目,宜采用重点调查。,典型调查,1、根据调查目的,在对全部研究对象进行初步分析的基础上,选择一个或几个具有代表性的单位进行详细深入的调查。 2、重点调查和典型调查都是有针对性地在总体中选择少数调查单位,具有一定的主观性,不具备随机抽取调查单位的特点,因而其调查结果难以用于推断总体。,统计报表,它是依照国家有关法规,自上而下地统一布置,以一定的原始记录为依据,按照统

7、一的表式、统一的指标项目、统一的报送时间和报送程序,自下而上地逐级地定期提供统计资料的调查方式。,2.1.5 数据搜集方法,(1)直接观察法:调查人员到现场亲自对调查单位进行观察或计量 (2)访问法:调查人员以调查表或有关材料为依据,逐项向调查者询问 (3)报告法 :按照统一的表格及填报要求 (4)问卷法:以问卷形式提问,由被调查者自愿回答,2.2.1 统计数据的分组 2.2.2 频数分布数列,2.2 数据的整理,2.2.1统计数据分组,1、分组概念:统计分组是根据统计研究目的,按某一标志将数据分别列入不同的组,使组与组之间有比较明显的差别,而在同一组内的单位具有相对的同质性,即同一组内各单位

8、之间具有某些共同的特征。 2、分组标志选择:按品质标志分组和按数量标志分组,2.2.2 频数分布数列,1、分布数列概念:指在统计分组的基础上,将总体的所有单位按一定标志分组整理,并按一定顺序排列,形成总体单位在各组的分布 。 2、分布数列两要素:一是组;二是单位数(次数或频数 ) 3、分布数列类型:品质数列 和变量数列,变量数列,1、变量数列可以分为单项式和组距式数列 。 单项式变量数列。它是指变量数列中的每个组只用一个变量值表示。通常变量值较少的离散型变量适用于编制单项数列。 组距式变量数列。它是指变量数列的每个组用一定范围或距离的两个变量值表示 。 通常变量值较多的离散型变量和连续型变量适

9、用于编制组距数列,组距分组 (要点),将变量值的一个区间作为一组 适合于连续变量或离散变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组,组距分组(步骤),确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。 确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距( 最大值 - 最小值) 组数 统计出各组的频数并整理成频数分布表,组距分组(几个概念),1. 下限(low limit) :一个组的最小值 2. 上限(upper limit) :一个组的最大值 3. 组距(cla

10、ss width) :上限与下限之差 4. 组中值(class midpoint) :下限与上限之间的中点值,组距数列编制例题,【例2.1】某部门有30名职工的月工资如下(单位:百元) 50,55,58,60,61,65,67,70,72,74,75,78,79,80,81,82,85,85,87,88,89,90,91,92,95,96,98,100,108,109,次数分布表,2.3 数据的描述,2.3.1 统计表 2.3.2 统计图,2.3.1 统计表,1、统计表:统计数据的表格化。 2、统计表的形式:由总标题、横行标题、纵栏标题、统计数据所组成。 3、统计表内容:由主词和宾词两部分组成

11、。 4、统计表的设计:统计表上下两端可以用较粗线绘制,称为上基线和下基线,其他线一般用细直线。统计表左右两端不封口。,2.3.1 统计表,2.3.2 统计图,1、直方图 2、折线图 3、曲线图,直方图(histogram),用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图,分组数据的图示(直方图的绘制),我一眼就看出来了,工资在8090之间的人数最多!,折线图(frequency polygon),折线图也称频数多边形图 是在直方图的基础上,把直方图顶部的中点(组中

12、值)用直线连接起来,再把原来的直方图抹掉 折线图的两个终点要与横轴相交,具体的做法是 第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,分组数据的图示(折线图的绘制),折线图与直方图 下的面积相等!,曲线图类型,几种常见的频数分布,茎叶图(stem-and-leaf display),用于显示未分组的原始数据的分布 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 树叶上只保留一位数字 茎叶图类似于横置的直方图,但又有区

13、别 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,茎叶图(例题分析),箱线图(box plot),用于显示未分组的原始数据的分布 箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成 箱线图的绘制方法 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU) 连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接,分布的形状与箱线图,不同分布的箱线图,洛伦茨曲线,20世纪初美国经济学家、统计学家洛伦茨(M.E. Lorentz)根据意大利经济学家巴

14、雷特(V. Pareto)提出的收入分配公式绘制而成 描述收入和财富分配性质 的曲线分析该国家或地区,累积的人口百分比,累积的收入百分比,绝对公平线,基尼系数,20世纪初意大利经济学家基尼(G. Gini)根据洛伦茨曲线给出了衡收入分配平均程度的指标 A表示实际收入曲线与绝对平均线之间的面积 B表示实际收入曲线与绝对不平均线之间的面积 如果A=0,则基尼系数=0,表示收入绝对平均 如果B=0,则基尼系数=1,表示收入绝对不平均 基尼系数在0 和1之间取值 一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数

15、在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。,中国的基尼系数,改革开放以来,我国在经济增长的同时,贫富差距逐步拉大,综合各类居民收入来看,基尼系数越过警戒线已是不争的事实。来自国家统计局的数据显示,自2000年开始,我国的基尼系数已越过0.4的警戒线,并逐年上升。1978年我国基尼系数为0.317,2006年则升至0.496。,22个亚洲国家贫富差距基尼系数中国排第一2009-01-26,贫富差距排名 国家 最高20%人口收入/最低20%人口收入 基尼系数 中国 11.37倍 0.4725 尼泊尔 9.47倍 0.4730 菲律宾 9.11倍 0.4397 土

16、库曼斯坦 8.33倍 0.4302 泰国 7.72倍 0.4196 马来西亚 7.7倍 0.4033 柬埔寨 7.04倍 0.3805 斯里兰卡 6.83倍 0.4018 越南 6.24倍 0.3708 台湾 6.05倍 0.3385 阿塞拜疆 5.95倍 0.3650 哈萨克斯坦 5.61倍 0.3383 印度 5.52倍 0.3622 印度尼西亚 5.52倍 0.3430 韩国 5.47倍 0.3155 蒙古 5.44倍 0.3284 老挝 5.4倍 0.3463 塔吉克斯坦 5.14倍 0.3263 亚美尼亚 5.08倍 0.338 文莱 5.03倍 0.3408 巴基斯坦 4.46倍

17、0.3118,使用Excel频数函数 (FREQUENCY),Excel的“直方图”工具的缺陷是:频数分布和直方图没有与数据联系起来,这样,如果你改变任何一个数据,频数分布表和直方图不会跟着改变 使用Excel中的统计函数“FREQUENCY”来创建频数分布表和直方图,可解决这一问题。创建频数分布表的步骤是 选择与接受区域相临近的单元格区域,作为频数分布表输出的区域 选择统计函数中的“FREQUENCY”函数 在对话框Date-array后输入数据区域,在Bins-array后输入接受区域 同时按下ctrl-shift-Enter组合键,即得到频数分布,统计函数FREQUENCY,2.4 SP

18、SS 在描述统计中应用-数据分布图示,2.4.1茎叶图和箱线图的绘制,1.在主菜单中选择“Analyze”,在下拉菜单中选择“Descriptive Statistics”,选择“Explore”,如图2.8所示。 2.点击Explore,进入对话框,将变量(工资)选入“Dependent List”,在“Display”下选择“Plots”;点击右侧的Plots,在图形对话框中选择“Stem-and-leaf”,如图2.9所示。,2.4.1茎叶图和箱线图的绘制,2.4.1茎叶图和箱线图的绘制,2.4.1茎叶图和箱线图的绘制,2.4.2 直方图的绘制,1.在主菜单中选择“Transform”“RecodeintoDifferentVariables”进入主对话框。 2.选择变量,将变量(工资)移入“NumericVariableOutputVariable”,在“Nane”中输入存放分组结果的新变量名(如工资分组),点击Change确认,点击OldandNewvalues进入下一对话框。 3.在OldandNewvalues对话框中定义各组组限。在“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论