数据的搜集与整理..ppt_第1页
数据的搜集与整理..ppt_第2页
数据的搜集与整理..ppt_第3页
数据的搜集与整理..ppt_第4页
数据的搜集与整理..ppt_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、云南财经大学统计信息学院,第2章 数据的搜集与整理,学习目标: 2.1 数据的计量与类型 2.2 统计数据的搜集 2.3 统计数据的整理,云南财经大学统计信息学院,学习重点,数据的计量尺度 数据的类型 变量的概念及种类 统计数据的表现形式 统计数据的直接来源 统计数据整理的步骤和方法 次数分布的图示和类型,云南财经大学统计信息学院,2.1 数据的计量与类型,2.1.1 数据的计量尺度 2.1.2 数据的类型 2.1.3 变量及变量值 2.1.4 统计数据的表现形式,云南财经大学统计信息学院,2.1.1 数据的计量尺度,定类尺度 :也称“列名尺度” 定序尺度:也称“顺序尺度” 定距尺度:也称“间

2、隔尺度” 定比尺度:也称“比率尺度”,云南财经大学统计信息学院,定类尺度,是最粗略、计量层次最低的计量尺度,是按照某种属性对事物进行的平行分类或分组。 如:按性别将全班学生分为男生和女生 分类的原则是类别“穷尽”和“互斥”。 分类得到的数据表现为“类别”,且不能进行加减乘除运算。 是对事物最基本的测度,是其他尺度的基础,云南财经大学统计信息学院,定序尺度,是对事物之间等级差或顺序差的一种测度。 它不仅可区分“类别”,还可确定类别间的“优劣”或“顺序”。 如:将考试成绩分为优、良、中、及格和不及格等。 计量得到的数据也表现为“类别”,但只能比较大小,不能进行加减乘除运算。,云南财经大学统计信息学

3、院,定距尺度,它不仅能对事物进行“分类”并“排序”,而且可测度类别之间的“间距”。 如:一个地区的温度200C与另一个地区的温度250C相差5摄氏度。 它没有固定的“零点”。 计量的结果表现为“数值”,但只能进行加减运算,不能进行乘除运算。,云南财经大学统计信息学院,定比尺度,是指在对事物进行“分类”、“排序”和计算“间距”的同时,还可计算类别之间“比值”的一种层次最高的计量尺度。 如:一个人的月收入1800元是另一个人月收入600元的3倍。 它有固定的“零点”。 计量的结果也表现为“数值”,可以进行加减乘除运算,云南财经大学统计信息学院,2.1.2 数据的类型,定性数据(品质数据):说明事物

4、品质特征,不能用“数值”表示,通常表现为“类别”,是定类尺度和定序尺度计量得到的结果。 定量数据(数量数据):说明事物数量特征,能用“数值”表示,是定距尺度和定比尺度计量得到的结果。,云南财经大学统计信息学院,2.1.3 变量及变量值,变量:是指说明现象某种特征的概念。 变量值:是指变量的具体表现。 统计数据是统计变量的具体表现。,云南财经大学统计信息学院,变量的类型,云南财经大学统计信息学院,云南财经大学统计信息学院,举例,云南财经大学统计信息学院,2.1.4 统计数据的表现形式,绝对数:是统计数据的基本表现形式,反映现象的总体规模和水平。有时期数和时点数两种形式,计量单位有实物单位、价值单

5、位和复合单位三种。如:一个地区的总人口、国内生产总值等。 相对数:是两个绝对数的比值,反映现象总体的相对规模和相对水平,有比例和比率两种形式,计量单位有“有名数”(如人/平方公里)和“无名数”(如:%)之分。如:一个地区的经济增长率、人口自然增长率等。,云南财经大学统计信息学院,云南财经大学统计信息学院,云南财经大学统计信息学院,2.2 统计数据的搜集,2.2.1 统计数据直接来源的渠道 2.2.2 统计调查方式 2.2.3 数据的搜集方法 2.2.4 调查方案设计 2.2.5 统计数据的间接来源,云南财经大学统计信息学院,2.2.1 统计数据直接来源的渠道,专门组织的调查:是取得重要社会经济

6、数据的重要渠道,包括统计部门的统计调查和其他部门或机构的调查。 科学实验:是取得自然科学数据的主要渠道。 主要介绍取得社会经济数据的主要方式和方法,云南财经大学统计信息学院,2.2.2 统计调查方式的种类,云南财经大学统计信息学院,普 查,普查:是为某一特定目的而专门组织的对调查总体各个单位一一进行的一次性全面调查。 普查的特点:通常是一次性或周期性的;一般需规定统一的标准调查时间;数据一般比较准且规范化程度较高;适用对象较窄,只能调查一些最基本、最一般的现象。,云南财经大学统计信息学院,抽样调查,抽样调查:这里指的是“概率抽样”,它是从调查总体中随机抽取部分单位作为样本进行调查,并根据样本调

7、查结果来推断总体数量特征的一种非全面调查方法。 抽样调查是实际中应用最为广泛的一种调查方法。 抽样调查的特点:经济性、时效性高、适应面广、准确性高。,云南财经大学统计信息学院,统计报表,是我国目前搜集统计数据的一种重要方式。 它是按照国家有关规定,自上而下地统一布置、自下而上逐级提供基本统计数据的一种非全面调查方法。 它可以进行不同的分类。,云南财经大学统计信息学院,云南财经大学统计信息学院,重点调查,重点调查:是从调查对象总体的全部总体单位中选择少数“重点单位”进行的调查。 重点单位:是指在所调查的数量特征上占有较大比重的单位。 例如:要了解全国钢铁企业的生产情况,可以选择如鞍钢、宝钢、首钢

8、等少数大型钢铁企业作为重点单位进行调查,以便对钢铁产量有一个大致的了解。,云南财经大学统计信息学院,典型调查,典型调查:是从调查对象总体中选择一个或少数几个有代表性的单位进行全面深入的调查,目的是为了描述或揭示现象的本质和规律。 它主要属于一种定性调查研究方法,着眼点不在数量特征上。,云南财经大学统计信息学院,2.2.3 数据的搜集方法,访问调查 邮寄调查 电话调查 座谈会 个别深度访问,云南财经大学统计信息学院,访问调查,又称“派员调查”,是调查者与被调查者面对面地交谈而得到所需资料的一种调查方法。分为两种: 标准式访问调查:事先设计标准式问卷,调查是依次提问。 非标准式访问调查:事先不设计

9、问卷,调查是自由交谈。,云南财经大学统计信息学院,邮寄调查,通过邮寄或其他媒体将问卷或调查表送至被调查者,由被调查者填好后寄回或放在指定收集点的一种调查方法。 是一种标准化调查。调查者与被调查者之间没有直接的语言交流,信息的传递完全依赖于调查表。 基本程序:设计问卷或表格 小范围预调查 发放问卷或表格 收回问卷或表格 处理和分析。,云南财经大学统计信息学院,电话调查,是调查者利用电话通过语言交流获取信息的一种调查方法。 具有时效快、费用低等特点。 可以按预先设计好的问卷进行调查,也可针对某一专题进行电话采访。 应注意:调查的问题要简明、数量不宜太多。,云南财经大学统计信息学院,座谈会,又称“集

10、体访谈法”,即:将一组被调查这集中在调查现场,让其就所要调查主题发表意见,从而获取信息的一种调查方法。 适用于搜集与调查主题有关的少数人员的倾向和意见,且调查得到的往往是一些定性资料。 优点是可以相互启发、集思广益;缺点是易受权威影响。,云南财经大学统计信息学院,个别深度访问,是一次只有一名受访者参加的特殊的定性研究。 是一种无结构的个人访问,通过发挥调查者的追问技巧,可探知被调查者深层次的想法和感受。 适用于个人隐私及敏感性问题的研究。 所得到的通常也是一些定性资料。,云南财经大学统计信息学院,1.2.4 调查方案设计,调查目的 调查对象和调查单位 调查项目和调查表 调查方式和调查方法 调查

11、时间 调查的组织实施工作,云南财经大学统计信息学院,调查目的,应明确本次调查的目的、任务和意义。 它是调查所要达到的具体目标,所回答的是“为什么调查”。 写作应简明扼要。,云南财经大学统计信息学院,例:我国第四次人口普查的目的 为准确地查清第三次全国人口普查以来我国人口在数量、地区分布、构成和素质方面的变化,为科学地制定国民经济和社会发展战略与规划,统一安排人民的物质和文化生活,检查人口政策执行情况,提供可靠的资料。,云南财经大学统计信息学院,调查对象和调查单位,所要解决的是“向谁调查”,由谁来提供所需数据的问题。 调查对象:是由调查目的决定的调查研究的总体或范围。 调查单位:是构成调查对象中

12、的每一个单位,是调查项目和指标的承担者,也是数据搜集和分析的基本单位。 实际中,调查单位可以是总体的全部单位,也可以是总体中的部分单位。,云南财经大学统计信息学院,云南财经大学统计信息学院,调查项目和调查表,所要解决的是“调查什么”的问题。 调查项目:是调查单位的调查的具体内容,它可以是调查单位的数量特征,也可以是调查单位的某种属性或品质特征。 调查表:就是将调查项目按照合理的顺序排列而成的表格,可以是一览表,也可以是单一表,一般由表头、表体和表外附加三部分组成。 市场调查中,调查项目和调查表通常表现为一张调查问卷。,云南财经大学统计信息学院,云南财经大学统计信息学院,调查方式和调查方法,所要

13、解决的是“怎样调查”的问题。 应明确是全面调查还是非全面调查。 若是非全面调查,应明确是抽样调查、重点调查还是典型调查。 若是抽样调查应明确抽样框、具体的抽样方法、数据的推断方法等。 市场调查中,还应明确是采用访问调查、邮寄调查、电话调查还是其他方式。,云南财经大学统计信息学院,调查时间,调查数据所属时间:应明确规定所调查的是哪个时期或时点上的数据。 调查的工作期限:是指调查工作从开始到结束的时间长度,包括调查的时间、数据处理的时间、数据分析和完成调查报告的时间等。,云南财经大学统计信息学院,调查的组织实施工作,调查人员的选择、组织和培训。 调查表格、问卷、调查人员手册的印刷,必要调查工具的准

14、备等 调查经费来源和经费预算等。,云南财经大学统计信息学院,2.2.5 统计数据的间接来源,通过其他途径获取别人调查或科学试验的第二手数据。 第二手数据主要是公开出版或报道的数据。 也可通过其他渠道使用一些尚未公开的统计数据及广泛分布于各种媒体的各种数据。 第二手数据使用起来方便经济,但应注意时效性和适用性,使用时应注明来源。,云南财经大学统计信息学院,2.3 统计数据的整理,2.3.1 统计数据整理的步骤 2.3.2 统计分组的方法 2.3.3 次数分配的图示和类型,云南财经大学统计信息学院,2.3.1 统计数据整理的步骤,数据的预处理:审核 筛选 排序。 统计分组 编制频数分布表 绘制频数

15、(次数)分布图,云南财经大学统计信息学院,数据的审核,云南财经大学统计信息学院,数据的筛选,云南财经大学统计信息学院,数据的排序,按一定的顺序将数据进行排列。 数据排序便于浏览数据、发现数据特征趋势,有助于数据检查纠错,为重新归类分组提供依据。 数字型数据排序有“递增”或“递减”两种。 文字型数据排序可用笔画多少等多种方法排序。,云南财经大学统计信息学院,统计分组的概念,就是根据统计研究的需要,按照某种特征或标志将全部数据分成不同的组别。 对全部数据而言,它是“分”。 对单个数据而言,它是“合”。 分组的结果体现“组间的差异性、组内的同质性”。 分组时所依据的特征或标准称为分组标志。,云南财经

16、大学统计信息学院,分组标志的种类,云南财经大学统计信息学院,频数和频率,频数:又称为“次数”,即分布在各组的数据个数。 频率:又称为“比重”,即各组频数与总频数的比值。 各组的频率之和=1或100%,云南财经大学统计信息学院,频数分布和频数分布表,频数分布:又称为“次数分布”,即全部数据按其分组标志在各组内的分布状况。 频数分布表:是指按某种标志对数据进行分组后,再计算出所有类别或数据在各组中的频数和频率而形成的统计表格。 数据分组的过程,就是频数分布及频数分布表的形成过程。,云南财经大学统计信息学院,按品质标志分组,按品质标志分组的同时计算出各组的频数和频率,就形成“频数分布表”。 适用于对

17、定类尺度和定序尺度计量得到的品质数据的分组。,1998年我国大陆人口按性别分组表,资料来源:,中国统计年鉴1999,中国统计出版社,1999年,第111页,云南财经大学统计信息学院,按数量标志分组,可先将数据进行排序,然后根据需要进行“单变量分组”或“组距分组”。 适用于对定距尺度和定比尺度计量得到的数量数据的分组。,云南财经大学统计信息学院,单变量分组,单变量值分组:一个变量值就是一组。 步骤:数据排序;分组。 适用条件:离散型变量、数据重复次数多且数据个数少的分组场合。,云南财经大学统计信息学院,例:某班50名同学,在统计学期中考试成绩如下: 65 95 85 75 65 85 95 85

18、 95 85 75 95 65 85 65 75 65 85 65 85 75 75 85 65 75 65 85 65 75 85 65 85 75 75 85 85 85 75 75 75 85 75 85 75 85 85 75 85 85 95,云南财经大学统计信息学院,将数据“由小到大”排序如下: 65 65 65 65 65 65 65 65 65 65 75 75 75 75 75 75 75 75 75 75 75 75 75 75 75 85 85 85 85 85 85 85 85 85 85 85 85 85 85 85 85 85 85 85 85 95 95 95 9

19、5 95 分组得到“频数分布表”见后。,云南财经大学统计信息学院,某班50名学生统计学期中考试成绩分组表,云南财经大学统计信息学院,组距分组的概念,组距分组:将全部数据依次划分为若干区间,并将一个区间内的数据作为一组。 适用于连续型变量或数据较多且重复出现次数少的场合。 在组距分组中,一个组的最小值称为“下限”;一个组的最大值称为“上限”。,云南财经大学统计信息学院,组距分组的步骤,将原始数据进行排序 确定组数 确定各组的组距 根据分组整理成“频数分布表” 下面举例说明。,云南财经大学统计信息学院,例:某行业管理局所属40个企业1999年的产品销售收入数据排序如下(单位:万元) 87 88 9

20、2 95 97 100 103 103 104 105 105 107 108 108 110 112 113 114 115 115 116 117 117 118 119 119 120 123 124 125 126 127 129 135 136 137 138 142 146 152,云南财经大学统计信息学院,确定组数,分组的目的之一是为了观察数据的特征和规律。 组数的多少应适中。 组数的确定,应以能够显示数据的分布特征和规律为目的。,云南财经大学统计信息学院,云南财经大学统计信息学院,确定各组组距,组距:是一个组的上限与下限之差。 =(全部数据的最大值-全部数据的最小值)组数 通常

21、,组距宜取5或10的倍数,且第一组的下限应小于最小变量值,最后一组的上限要大于最大的变量值。,云南财经大学统计信息学院,云南财经大学统计信息学院,某行业管理局所属40个企业1999年的产品销售收入分组表,云南财经大学统计信息学院,组距分组应注意的问题,一定要遵循“不重不漏”的原则。解决“不重”的问题,习惯上规定“上组限不在内”。 当一组数据悬殊较大时,为避免出现空白组或极个别极端值被遗漏,一般应采用“以下”及“以上”。 可以采用等距分组,也可以采用不等距分组。 对于不等距分组可用“频数密度”反映频数分布的实际状况。组距分组掩盖了各组内的数据分布状况。“组中值”是上限和下限中间之间的中间数值,它

22、是代表各组数据一般水平的数值。组中值=(下限+上限)2,云南财经大学统计信息学院,附:开口组组中值的计算,开口组的组距和组中值的确定,一般一相邻组的组距为准,其计算公式为: 缺下限开口组(以下)的组中值 =上限-(相邻组组距2) 缺上限开口组(以上)的组中值 =下限+(相邻组组距2),云南财经大学统计信息学院,向上累计和向下累计,为了统计分析的需要,有时需要观察某一数值以下或某一数值以上的频数之和,这就需要在分组的基础上计算出“累计频数”。 向上累计:即“由小到大累计”,亦即:从变量值小的一方向变量值大的一方累加频数。 向下累计:即“由大到小累计”,亦即:从变量值大的一方向变量值小的一方累加频

23、数。,云南财经大学统计信息学院,某班50名学生统计学考试成绩分组,云南财经大学统计信息学院,2.3.3 次数分布的图示和类型,次数分布的图示:直方图、折线土、茎叶图。 次数分布的类型:正态分布、偏态分布、J型分布、U型分布。,云南财经大学统计信息学院,直方图,直方图:用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标系中,通常用“横轴”表示“数据分组”,用“纵轴”表示“频数”或“频率”。 频数的分布,可以用直矩形的高度,也可用频数密度表示。但用频数密度表示更为合适。 频数密度=频数组距,云南财经大学统计信息学院,折线图,又称为“频数多边形图”,它是在“直方图”的基础上,把直方图的顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉而形成的图形。 特别注意:折线图的两个终点必须与横轴相交;折线图与横轴围成的面积应等于原来直方图各个矩形的面积之和。,云南财经大学统计信息学院,茎叶图,由“树茎”和“树叶”两部分组成。 设计好“茎”是绘制茎叶图的关键。 通常将一个数据拆分为两部分,数据的“高位数”作“茎”,“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论