




免费预览已结束,剩余10页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学 第二章 数据的收集与整理目 录第二章 数据的收集与整理2第一节 数据的收集3一、数据的来源3二、统计调查方案设计3三、统计调查方法5四、统计调查的组织方式5第二节 数据的整理8一、数据的审定8二、数据的分组8第三节 次数分布9一、次数分布数列及其种类9二、变量数列的编制9英文摘要与关键词13习 题14第二章 数据的收集与整理通过本章的学习,我们应该知道:1. 数据的来源2. 数据是如何收集的3. 数据是如何整理的4. 如何做次数分布表数据的收集与整理是依据统计分析的目的和要求,有组织有计划地搜集数据资料并对其进行去伪存真、去粗取精的分类整理、浓缩简化的工作过程。它是进行统计分析的必要前提,是保证统计数据客观、真实、准确、可靠的关键。由于我们所研究的现象复杂多变,特别是在市场经济条件下,利益主体的多元化以及同行之间保守商业秘密,要取得令人满意的数据成为一个相当艰巨的过程。这就使得数据的收集与整理,成为人们所关注和研究的重要问题。第一节 数据的收集数据收集,就是根据统计研究的目的要求,采用一定组织形式与科学方法,进行采集与研究问题有关的各类数据信息的工作过程。数据收集是一种广义的统计调查,其收集的总体范围可大可小,收集的内容可简单亦可复杂,可以是原始资料也可以是次级资料,收集的方式灵活多样。一、数据的来源按照获取途径不同,数据可分为原始数据和次级数据资料。原始数据也称为第一手资料,是反映被调查对象原始状况的资料。如原始记录、统计台帐、调查问卷答案、实验结果等。次级数据也称为第二手资料,是已经存在的经他人整理分析过的资料。如期刊、报纸、广播、电视以及因特网上的资料,各级政府机构公布的资料,企业内部记录和报告等。一般在可能的情况下尽量使用第一手资料,它比第二手资料更加丰富、更加准确。使用第二手资料是因为其收集成本和所花费时间比较节省。数据集01的数据来自中国统计年鉴,数据集02是世界银行根据各国国家所报送的资料整理的,所以它们是次级数据;数据集03是直接对公司职工情况的记录;数据集04是直接从流水线上采集的,所以它们都是原始数据。一般而言,统计调查是获取数据的主要形式,收集到的主要是第一手资料;查阅文献、年鉴,上因特网等是获取统计资料的辅助形式,收集到的主要是第二手资料。在信息化时代,数据成为海洋。如何在数据海洋中汲取丰富的营养而不被大海的波涛吞没?首先应该对自己的事业投入更多的精力,对它有更清晰的理解;其次是掌握信息渠道,即知道自己所需要的数据如何获得;再者就是对获得的数据进行深度加工,成为指导我们决策的依据。如数据集02是1995年的资料,十年过去了,现在的情况怎么样了?你知道如何去收集现在的资料吗?网络链接: 世界银行的数据库 /data-query/除了著名的国际组织、各国的官方统计机构免费提供宏观数据外,许多行业组织和咨询机构也以免费或收费的方式提供行业数据、企业数据库以支持企业决策。网络链接: 数据中华情报分析 /DataCenter/data_index.asp二、统计调查方案设计数据收集的主要形式是统计调查,它是一项复杂的工作。要搞好统计调查必须按照统计任务的要求,运用科学的方法,有组织、有计划地进行。为使统计调查得以顺利进行,在组织调查之前,必须首先设计一个周密、可行的调查方案。统计调查方案的设计包括以下内容:1. 明确调查目的明确调查目的,就是要明确统计调查要解决什么问题,为什么要进行统计调查。只有明确了调查目的,才能有的放矢,才能根据调查目的收集与之相关的资料。这样,既可以降低调查成本,又可以保证调查资料的时效性。例如,我国进行了五次人口普查,其目的均不一样。1953年人口普查,是为了准备全国人民代表大会及地方人民代表大会的选举做好选民登记工作,并为国家的经济、文化建设提供确实的人口数字。1964年人口普查,是为了给编制国民经济建设第三个五年计划和长远规划提供依据。1982年人口普查是为了进行社会主义现代化建设,统筹安排人民的物质和文化生活,制订人口政策和规划,提供人口资料。1990年人口普查是为了查清中国人口在数量、地区分布、结构和素质方面的变化,为科学地制定国民经济和社会发展战略与规划,安排人民的物质和文化生活,检查人口政策执行情况,提供可靠的资料。2000年人口普查,是为了准确查清人口在数量、地域分布、结构素质和居民环境等方面的变化情况,获得社会经济、人口等方面大量而丰富的信息。调查目的一定要表述清楚,调查项目的设定取决于调查目标。2. 确定调查对象和调查单位调查对象和调查单位是根据调查目的而确定的。所谓调查对象是指需要调查和研究的由许多性质相同的调查单位所组成的现象总体。所谓调查单位,是指所要研究的个体,也就是我们所要调查的具体单位,它是进行调查登记的标志承担者。例如,调查目的是为了获取国有企业的改制状况,那么,所有的国有企业就是调查对象,而具体的每一个国有企业就是调查单位。确定调查对象是一个比较复杂的问题,因此,必须明确总体界限,划清调查的范围,区别应调查和不应调查的现象。例如调查城镇居民家庭收入状况,必须把城镇居民家庭与农村居民家庭的收入区分开来;调查城镇家庭中工人收入状况,除了明确城镇家庭的范围外,还必须区分工人的界限。确定调查单位,既是一个理论问题,又是一个实际问题,从理论角度出发,就是要赋予调查单位以科学的定义。从实际工作出发,还要区分调查单位与报告单位。调查单位是调查项目的承担者,而报告单位则是负责上报调查资料的单位。两者有时一致,有时不一致。上面例子中,当收集城镇居民家庭收入状况资料时,每一个城镇家庭既是调查单位,也是报告单位;当收集居民家庭中工人收入状况资料时,城镇居民家庭中的工人则是调查单位,而城镇居民家庭则是报告单位。3. 确定调查项目调查项目就是调查中所要登记的调查单位的特征,即调查单位所承担的基本标志,它由一系列品质标志和数量标志所构成。调查项目所要解决的问题是,向被调查者调查什么,即需要被调查者回答什么问题。在拟定调查项目时应注意如下四个问题:(1)调查少而精;(2)需要和可能相结合;(3)调查项目之间应具有联系性;(4)有的项目可拟定“选择式”。列入计划的调查项目是依据调查目的而确定的,仍以历年的人口普查为例,1953年人口的项目为:与户主关系、姓名、性别、年龄、民族以及本户住址 6项;1964年人口普查增加了本人成分、文化程度和职业 3个项目;1982年人口普查项目增加为19项,增加了常住人口的户口登记状况、在业人口的行业、职业和不在业人口状况,生育子女总数、存活子女总数和生育胎次等;1990年人口普查项目增加到21项,增加了“五年前居住地及其城乡类型”和“迁移原因”两个项目。4. 调查表与问卷的设计调查表,就是把若干调查项目按照一定的顺序排列在表格上,就形成了调查表。调查表一般有两种:一种是一览表,另一种是单一表。一览表是在调查项目不多时采用,它是将许多调查单位填写在一张表上;单一表一般用于项目较多的调查,该表可容纳较多的标志,每个调查单位填写一份。调查时应采用哪种表式,则需根据调查的目的和任务而定。利用调查表,能够有条理地收集到所需要的资料,便于资料汇总整理。问卷调查是一种特殊的调查形式,根据调查目的,在调查对象中随机选择或有意识地确定调查单位。问卷是以书面文字或表格的形式了解被调查者的意见,被调查者可自愿、自由地回答问卷中所提出的问题。在设计调查表和问卷时,应尽可能地简明扼要,便于被调查者回答,以保证所收集资料的准确性。5. 确定调查时间和调查期限调查时间是指调查资料所属的时间。在统计调查中,有的资料所反映的现象是在某一时点上的状态,这时必须规定统一的时点;有的资料所反映的现象是在某一时期内发展过程的结果,这时则必须明确所要收集的资料所属时期的起止时间;即所登记的资料应是该时期第一天到最后一天的累计数字。如,我国第五次人口普查的调查标准时点是2000年11月1日零点;例如,调查某年第二季度全国钢铁产量,则调查时间应从4月1日起至6月30日止。调查期限是指进行调查工作的时限,即调查工作的起止时间,它包括收集资料和报送资料的工作所需要的时间。为保证资料的时效性,调查时限应尽可能地缩短。例如,我国第五次人口普查规定的时限为:2000年11月1日至11月10日登记完毕,则调查时限为10天。6. 制定调查的组织实施计划制定严密细致的实施计划,是统计调查得以顺利进行的必要保证。调查工作的组织计划包括的内容是:建立调查机构,组织与培训调查人员,确定调查步骤,明确调查方式、方法及调查地点,落实调查经费的来源与经费使用计划,确定调查资料的报送方法和公布调查结果的时间等。三、统计调查方法1. 现场观察法现场观察法是观察者带有明确目的到观察现场,借助人的视觉、听觉或者录音录像设备,对调查对象进行直接观察而获得信息资料的一种收集方法,又称为直接观察法。其优点,能够保证所收集资料的准确性;其缺点,观察成本较大(耗用人力、物力、财力、时间等较大),由于观察者认识事物的能力不同,并带有主观见解,其结果往往因人而异。采用该种方法则应遵循:客观性、全方位性、深入性、持久性以及遵守纪律与道德等原则。2. 报告法报告法亦称通讯法。这种方法是被调查者根据统计报表的格式要求,按照隶属关系,逐级向有关部门上报统计资料的一种调查方法。这种方法是根据统计法的规定,要求各地区、各部门、各单位必须对国家履行的一种义务。现行统计报表制度就是采用的这种方法。3. 问卷法问卷法,是指资料收集者运用统一设计的问卷向被调查者了解情况、征询意见的资料收集方法。问卷法的优点是:省时、省钱、省力,所得资料便于定量处理与分析,可以避免主观偏见、减少误差,具有很好的匿名性;问卷也有缺点,即:回收率以及资料的质量均难以保证。运用此法在设计问卷时,应注意:所提问题要简短、准确,避免复重提问,提问应避免带有倾向性和诱导性,更不要直接提出具有敏感性或威胁性的问题。4. 访谈法访谈法是有目的、有计划、有方向的运用口头交谈方式向被调查者了解问题的一种统计资料收集方法。它的基本性质是具有显著的目的性、计划性与方向性。该种方法的优点是:被调查对象的回答率大大高于问卷法,适应性强,调查内容机动性大,访谈者对资料收集过程可进行有效控制。其缺点是:访谈成本大,匿名性差,访谈结果与访谈人员的素质、能力及其现场表现直接相关。5. 实验采集法实验采集法,是指资料收集者,通过实验对比获取统计资料的一种方法。一般作法是,从影响问题的诸多因素中选出一至若干个因素,在一定的实验条件下观察其反映,然后对实验结果进行对比分析,并确定是否大规模推广。实验收集法的应用范围较广。如对某一商品在改变其品种、价格、包装、广告等任何因素时,均可采用此方法。一般是先作小规模的试验性改变,以观察顾客的各种反映。具体的试验方法有试用、试穿、试听、现场表演等等。利用该种方法可以取得较为正确的原始资料,但其成本高、研究时间长。四、统计调查的组织方式1. 统计报表统计报表(statistical report forms)是指依照国家统计局或国家各行政管理部门的规定,自上而下地统一布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目,统一的报送时间与报送程序,自下而上地逐级定期提供基本统计资料的一种调查方式。2. 普查普查(census)是对调查对象的全部调查单位逐一进行的调查。其特点:是一次性调查,是专门组织的全面调查,即普查主要用来调查属于一定时点上的现象总量。普查主要用来全面、系统地掌握重要的国情国力方面的统计资料。由于普查涉及面广、耗费人、财、物多、组织工作繁重,因此只能按一定周期进行。普查的具体方式有两种:一种是通过专门组织的普查机构自上而下的对被调查单位直接进行登记。如我国人口普查就采用这种形式,另一种是利用被调查单位的原始记录与核算资料,调查单位分发一定的调查表,由被调查单位自行填报。如我国在1955年对私营商业及饮食业的普查就采用这种形式。各个国家对普查都给予的充分的重视,甚至把普查看作是仅次于战争的“运动”。西方国家几乎没有统计报表制度,所以全面的资料只能依靠普查获得。美国有专门的普查局负责各类普查,并有专门网页提供相关信息与资料。点击下面的链接,在右上方有“Population Clock”,敲敲看。网络链接: 美国普查局 / 根据国务院的决定,我国于2001年进行了第二次全国基本单位普查。国家统计局普查中心对普查结果进行了系列分析,形成了丰富的信息资源。网络链接: 国家统计局普查中心的分析资料 /tjfx/ztfx/decjbdwpc/3. 抽样调查抽样调查(sampling survey)是一种非全面调查,它是在全部调查单位中抽取一部分单位作为样本进行调查,再根据调查结果推断总体的一种调查方法。广义的抽样调查包括随机抽样与非随机抽样。非随机抽样是一种按照人们主观愿望选取样本的方法,如下面提到的重点调查和典型调查,也称为有目的的调查、判断调查和定额调查。这些抽样的目的是要通过了解一部分个体的情况而获取全面的信息。但由于非随机抽样无法估计误差的概率,所以也就无法作统计推断。我们一般提到的“抽样调查”主要是指随机抽样,其基本特征:一是样本单位是按随机原则抽取,这就排除了主观因素对选择的影响;二是对所抽得的样本进行调查,取得数据,并据此推断总体特征。抽样调查的组织方式主要有以下四种:(1)简单随机抽样(simple random sampling),又叫纯随机抽样,是最简单、最普遍的抽样组织方法。它是按照随机性原则直接从总体的全部单位中,抽取若干个单位作为样本单位,保证总体中每个单位在抽选中都有同等被抽中的机会。随机抽选样本单位的具体做法有:抽签法、随机数字表法(见附录一)和用计算机软件中的随机函数产生随机数。(2)分层抽样(stratified sampling),又叫类型抽样,它是先将总体各单位按某一有关标志分成若干个类型组,然后按照一定比例再从各类型组中随机抽取样本单位。在抽样调查实践中,经常遇到的情况是:在动手设计抽样方案之前,我们对所要研究的总体构成已经有了某种程度的了解。例如已知总体单位分属于不同类型的子总体;已知与调查标志相关的一些辅助标志等等。此时,我们可以而且应该利用这种事先获得的有关信息来改进抽样方案设计,以提高抽样推断的精度。分层抽样就是这样一种组织方法。例如,在职工家庭生活调查中,可先将全部职工按部门分为工业、商业、文教、卫生等部门,然后再从这些部门中按一定比例抽选基本单位和职工户。采用这种抽样方法可以提高样本的代表性,减少抽样误差。对于那些总体情况复杂、各单位之间差异较大、单位数量较多的抽样调查问题,一般都可以采用分层抽样的方法进行抽样调查。由于各个类型组的单位数一般是不相等的,从各个类型组中抽取多少样本单位有两种不同的确定方法。一种是按各组标志值变动的大小来确定,没有统一的抽样比例;另一种是按比例抽样,即保持每组样本单位数与样本容量之比等于各组总体单位数与全及总体单位数之比。(3)系统抽样(systematic sampling),又叫等距抽样或机械抽样。它是先把总体所有单位按某一标志排队,并根据总体单位数与样本单位数的比例计算出抽样距离和间隔,随机确定一个起始点作为第一个样本单位,以后每隔相等的距离和间隔抽取样本单位。对总体单位排队时所采用的标志,可以是与调查项目有关的,也可以是与调查项目无关的,前者称为有关标志排队法;后者称为无关标志排队法。例如,对某校学生学习情况进行调查,如按身高排队就是无关标志排队;如按考试分数排队就是有关标志排队。按无关标志排队的机械抽样,其抽样平均误差与简单随机抽样十分接近,一般都采用简单随机抽样的平均抽样误差公式代替计算。而采用有关标志排队时,其抽样平均误差一般要小于简单随机抽样的平均误差。在实际进行抽样时必须注意到,机械抽样在排定顺序,且第一个样本单位的位置确定后,其余单位的位置也就随之确定。因此,要避免抽样间隔和现象本身的周期性节奏相重合引起系统性的影响,如工业产品质量抽查,产品抽查时间间隔不宜和上下班时间一致,防止发生系统性偏差。(4)整群抽样(cluster sampling),将总体所有单位划分为若干个群(组),然后以群(组)为单位从中随机抽取部分群(组),对抽中的群(组)内所有单位进行全面调查的抽样组织形式。如调查某县小学教育情况,我们可以从该县中随机抽取若干个小学,然后对抽中的小学进行全面调查。整群抽样与前面三种抽样组织方法相比,是抽样单位扩大了,即抽取的基本单位不再是总体单位而是群(组)。Excel提供了帮助我们进行抽样的工具,可以进行简单随机抽样和系统抽样。【例题2.1】根据数据集03中的470人名单,如何抽取一个样本容量为10的随机样本?【解】Excel解决方案 将数据集03中的序号摘出,要求在这470个人员中随机抽取10人 选择菜单“工具”“数据分析”,打开“数据分析”对话框,见图1.13 选择其中的“抽样”,打开对话框,见图2.1 正确填写相关信息后,点“确定”,结果将C列中见图2.2,图中E列是又一次运行的结果。图2.1 “抽样”分析工具对话框图2.2 随机抽样的采集结果抽样调查是世界上许多国家收集资料的重要方法。随着改革的不断深化,我国官方统计对调查方法进行了一系列的改革,要求各统计主体在各领域广泛采用抽样调查方法以逐步取代传统的统计报表,以确立它在统计调查方法体系中的主体地位。有关抽样调查的理论及方法将在本书第五章作详细介绍。4. 重点调查重点调查(key-point survey)是指在调查对象中,选择一部分重点调查单位收集统计资料的一种非全面调查。所谓重点调查单位,是指这些被调查的总体单位中数目不多,所占比重不大,但其调查的标志值却在总量中占有很大比重,在总体中具有举足轻重的作用。通过对这部分重点单位的调查,可以从数量上说明总体在该标志总量方面的基本情况。当调查任务只要求掌握基本情况,而部分单位又能比较集中地反映所要研究的问题时,采用重点调查较为适宜。比如,对钢铁行业的调查,由于大型的钢铁企业为数不多,但产出量却很大,因此可以通过对少数企业的调查,而掌握整个行业大致情况。5. 典型调查典型调查(model survey)是指根据调查目的与要求,在对所研究现象全面分析的基础上,有意识地选择有代表性的典型单位进行深入细致地调查,以便认识事物的本质与发展变化规律的一种非全面调查方法。所谓典型单位,是指那些能充分、集中地体现调查对象总体某些方面共性特征的最有代表性的单位。典型调查方式有两种:一是“解剖麻雀”式调查,它在调查对象总体单位之间的差异较小时适用。这时,只选择个别典型单位进行深入细致的调查,以便通过对典型单位特征的认识来找出同类事物的一般情况及其发展变化规律。二是“划类选典”式的调查,它在调查对象总体各单位之间的差异较大时适用。这时,先对调查对象总体进行分类,然后从各类中选择少数具有代表性的典型单位进行深入细致地调查,以便找出事物的发展化规律并以此对调查对象总体进行推断估计。各种统计资料收集的组织方式,我们可以根据自己的统计任务与要求灵活选用。第二节 数据的整理 数据的整理,是根据统计研究的目的与要求,对所收集到的大量、零星分散的原始资料进行科学加工与综合,使之系统化、条理化、科学化,为统计分析提供反映事物总体综合特征资料的工作过程。它的一般程序则是:统计资料的审核认定、统计资料分组、统计资料汇总、编制统计表、绘制统计图。其核心则是统计资料分组。一、数据的审定调查资料的审定目的,就是要保证资料的准确性,尽可能地缩小调查误差。调查误差是指经过调查所获得的统计数值与被调查对象实际数值之间的差别。调查误差有两种:一种是登记误差,一种是代表性误差。登记误差是由于调查过程中各有关环节工作的失误而造成的。例如,调查方案中有关规定或解释不清楚而产生歧义,或计算错误、抄录错误,或汇总错误以及不真实填报等。代表性误差是由于非全面调查只观察总体一部分单位,这部分单位不能完全反映总体的性质而产生的误差。所谓审定就是对调查资料的准确性、完整性和及时性进行检查。审定可以采用计算机审定,也可以采用人工审定。二、数据的分组1. 数据分组的概念数据分组,是指根据统计总体内在的特征与统计研究的任务需要,将统计总体按照一定的标志划分为若干组成部分的一种统计方法。数据分组的目的,就在于把同质总体中的具有不同性质的单位分开,把性质相同的单位合并在一起,保持各组内数据的一致性和各组之间数据的差异性,以便进一步研究调查对象的数量表现与数量关系,进而正确认识调查对象的本质及其规律性。例如,在我国人口普查中,作为个体的每个人,在年龄、性别、民族、文化程度以及居住地等诸多调查标志上不完全相同。为反映我国人口总体内部的差异、就需要按照不同的标志对全国人口进行分组。如,按性别可分为男、女两组;按年龄、民族可划分为若干组,这就有助于对我国人口的性别、年龄、民族等各方面的结构及其比例关系的认识。2. 数据分组的作用一是区分总体类型,现象的类型是多种多样的,不同类型的现象存在本质差别,通过统计资料的分组就可以把不同类型的现象区别开来;二是反映总体内部结构,通过分组,统计总体被划分为若干组成部分,计算各组成部分的总量在总体总量中所占的比重,即可反映总体结构特征与总体结构类型;三是可以分析总体在数量现象之间的依存关系,现象之间总是相互联系、相互依存、相互制约的,分组就是要在现象各种错综复杂的联系中,找出内在的联系和数量关系。具体作法,可将一个可变标志(自变量)作为分组标志,来观察另一个标志(因变量)相应的变动状况。如居民家庭收入与就业人数有关密切的联系。通过分组就可以反映这两个标志之间相互联系的程度和方向。3. 数据分组的原则要保证分组的科学性,要遵循“穷尽原则”和“互斥原则”。“穷尽原则”是指各分组的空间必须容纳所有个体单位,即总体中的每一个个体都必须有组的归属。如劳动者按文化程度分组,若只分为小学、中学毕业、和大学毕业三组;那么,未上过小学的以及大学以上文化程度的劳动者就无组可归。这种分组未作到“穷尽”。互斥原则是指在特定的分组标志下,总体中的任何一个单位不能同时归属于几个组,而只能归属于某一组。把鞋子分为男鞋、女鞋、童鞋三类,就不符合互斥原则,因为童鞋也有男鞋与女鞋之分。4. 数据分组的种类对数据的分组是按照不同的标志进行的。分组标志则是进行分组的标准和依据。因此,分组标志能否正确地选择,则关系到分组的科学性。为此,必须根据统计研究的目的和任务来选择分组标志;必须在若干个可以选择的标志中,选择最能反映事物本质特征的标志作为分组标志。按分组标志的多少,可分为简单分组与复合分组,简单分组是按照一个分组标志对所研究的对象进行分组。如人口按性别分为男、女两组。复合分组是按照两个或两个以上的分组标志对所研究的对象进行分组。这种分组,先按一个分组标志对所研究对象进行分组,然后再按第二个分组标志进一步分组,再次层叠地按第三个分组标志分成更小的组。如表2.1对高校教师进行的复合分组。表2.1 高校教师的复合分组第一标志(职务)第二标志(年龄)第三标志(性别)高级职称(教授、副教授)45岁以上男女45岁以下男女非高级职称(讲师、助教)45岁以上男女45岁以下男女按分组标志性质不同,分为品质分组和数量分组。品质分组就是选择反映事物属性差异的品质标志进行分组,并在品质标志变异的范围内,划分各组的性质界限,把总体分为若干性质不同的组成部分。数量分组就是选择反映事物数量差异的数量标志进行分组,并在数量标志的变异范围内划定各组的数量界限,把总体划分为若干性质不同的组成部分。进行分组后,统计每组所拥有的次数,再将其列成表格,就形成了次数分布,以后我们经常会遇到这类数据形式。第三节 次数分布一、次数分布数列及其种类1. 次数分布数列的概念次数分布是统计分组的重要形式。在统计分组的基础上,把总体全部单位按组归类整理,将其按一定顺序加以排列,形成总体中每一个单位在各组间的分布,称为次数分布。分布在各组中的总体单位数,叫做次数(frequency),亦称频数;次数与总次数的比值,叫做比率,亦称频率。把各组的频数或频率按照一定的顺序排列而成的数列,称为次数分布数列,简称分布数列。次数分布数列是统计整理的结果,是进行统计描述和统计分析的重要方法。2. 次数分布数列的种类由于分组标志不同,次数分布数列可分为两种:按照品质标志进行分组形成品质数列。它用来反映不同属性的各组次数在总体中的分布状况,它由各组名称、各组频数或频率组成;按照数量标志进行分组形成变量数列,它用来反映不同变量值的各组次数在总体中的分布状况,它由各组变量值和各组次数组成。二、变量数列的编制由于数列中每组变量值的多少及取值范围不同,变量分布数列可分为单项数列和组距数列两种。单项数列就是每一个组只有一个变量值的数列。它是按变量值大小顺序排列的。单项数列是在变量值不多以及变量值变动幅度不大时运用,一般是有多少个不同的变量值就分为多少个组。组距数列是把变量的取值范围划分成若干区间,以一段变动区间为一个组的数列。即组距数列中的每一个组是由一个变量值的区间表示。组距数列是在变量个数较多、变量值变动幅度较大的离散型变量时运用,它又分为等距数例和异距数列。变量数列的编制,主要是组距数列的编制。在编制过程中,一定要处理好如下几个问题:1. 组数与组距组距数列是用变量值变动的一定范围代表一个组,每个组的最大值为组的上限,最小值为组的下限。每个组的上限与下限间的距离称为组距。编制时,先要找全距(R),即全部变量的最大值与最小值的距离;然后确定组数(m),实际工作中,主要凭经验确定,也可按不同的组数进行试验,比较其次数分布表,看哪一个能够更好地显示出分组数据的特征,另外有一个经验公式“斯透奇斯规则”(Sturges rule),m = 1 + 3.322 lgN,(N为总次数)是帮助确定组数的;组数与组距(i)的关系是:i=R/m,两者成反比变化。根据各组距是否相等分等距数列和异距数列,编制何种应根据统计研究的目的来确定。采用等距分组目的是为了直接比较各组次数分布或分析对比各组的指标;采用异距分组目的是为了从数量上区分性质不同的总体。组距数列中还可以区分闭口数列与开口数列:闭口数列是指首末两组的上、下限齐全的数列;开口数列是指首组组距缺下限或末组组距缺上限的数列。2. 组限和组中值组限的表示方法,应根据所研究现象的性质而定,并要注意如下几点:第一,第一组(最小组)的下限不能大于最小变量值;最末一组(最大组)的上限不得小于最大变量值;这就能够使同质的总体单位在同一组内,而使标志值在各组的变动,能够反映事物质的变化。第二,组限应是引起事物质变的数量界限,并有利于表现总体分布的规律性。第三,分组变量可分为离散变量与连续变量,它们的组限表示方法也是不同的。在划分离散变量的组限时,相邻组的组限可以间断,而在划分连续变量的组限时,相邻组的组限必须重叠,并在统计次数时,一般应遵循“上组限不在内”的原则。这是因为,在对连续变量分组时,每一组的上限同时又是下一组的下限,即相邻两组的上限与下限是用同一数值表示的。为了避免计算的混乱,一般是把达到上限数值的单位数计入下一组内。组数、组距、组限确定后,把全部的变量值归类列各组,并按顺序排列,就是所要编制的变量数列了。在统计分析中,通常会以组中值来代表各组标志值的平均水平,当各组标志值均匀分布时,组中值所代表的各组标志值的水平,其代表性就高。组中值,就是组的上下限之间的中点数值,计算公式:闭口组的组中值=(上限+下限)/2缺下限的开口组组中值=上限邻组组距/2;缺上限的开口组组中值=下限邻组组距/2【例2.2】江浦县苗圃对110株树苗的高度进行测量(单位:厘米),数据如下,编制次数分布表。154 133 116 128 85 100 105 150 118 97 110 131 119 103 93 108 100111 130 104 135 113 122 115 103 90 108 114 127 87 127 108 112 100117 121 105 136 123 108 89 94 139 82 113 110 109 118 115 126 106108 115 133 114 119 104 147 134 117 119 91 137 101 107 112 121 125103 89 110 122 123 124 125 115 113 128 85 113 143 80 102 132 96129 83 142 112 120 107 108 111 100 97 111 131 109 145 93 135 98142 127 106 110 101 116 110 123【解】第一步,先将110个数据排序,找出最大值154和最小值80, 这个数列的全距R154-8074厘米。第二步,根据斯透奇斯规则确定组数:m = 1 + 3.322(lg110) = 7.78,再根据组数与组距的关系确定组距:i= Rm = 74/7.78 =9.51(厘米)。根据以上的计算结果,组数定为8组;组距定为10厘米。特别注意 在用经验公式计算m和i时,计算结果的取舍,不采用四舍五入法,而采用舍去进一法,即:只要有小数,就把小数舍去,并在整数位上加1。这种做法保证次数分布表有足够宽的复盖区间。另外,一般说来组距宜于取整百整十,起始组的下限也宜于取整百整十,这样看起来比较舒服。还有,有些数据本身是有特殊或固定的分组要求的,如学生成绩如果出现“54-62”这样一组,则将不同性质的学生混在了一起,即在这组里有成绩不合格的学生,又有成绩合格的学生,这样的分组肯定是错误的。第三步,根据所定组数和组距确定组限。第一组下组限定为80,第一组上组限则为90(即80+10);第二组下组限就是第一组上组限,第二组上组限为100;依此类推,第八组下组限是150,其上组限则为160。这样共有8个下组限和8个上组限。由于有重合值,故只有9个组限值。第四步,进行归组,即将各个变量值归入相应的组中,比如154归入第八组(150-160);133归入第六组(130-140);依此类推。最后的结果用次数分布表显示,见表2.2。表2.2 树苗高度的次数分布表树苗高度x(厘米)树苗数f80-90890-1009100-11026110-12030120-13018130-14012140-1505150-1602合计110如果数据量很大,归组的工作会很烦人,Excel中有“FREQENCY”函数,可以完成这一任务。FREQENCY函数的格式为:=FREQUENCY(ARRAY, BINS) 其中ARRAY是指原始资料的存放区域,BINS是指统计分组的组上限构成的数值序列。图2.3是用Excel操作过程与结果的部分截图。Excel解决方案 输入原始资料,本例的资料存放在A2:A111 计算基础数据,如B、C列,B列是文字提示,C列存放的是相应公式和函数 输入分组标志,如本例的D列;列出各组的上限,如本例的H3:H10 用鼠标选定函数返回值存放的区域,如本例应选I3:I10 输入函数“FREQUENCY(A2:A111,H3:H10)” 同时按下组合键“Ctrl+Shift+Enter”,计算机会将统计出的次数放在I3:I10中特别注意 FREQUENCY函数在统计次数时,将与对应上限值一样大的数也统计在内。以第一个上限为例,若H3中上限定为90,当原始资料中恰有90时,则该“90”被计入这一组,这样就和我们常说的“上限不包括原则”相违背,因而我们在H列所列的上限必须是一个略小于90的数,如89.5。图2.3 用FREQUENCY函数完成次数统计4. 次数分布表表2.2是一个最简单的次数分布表,我们还可以对简单表中的数据进行计算汇总,得到一个内容更加丰富的次数分布表,见表2.3。表2.3 树苗高度的次数分布表树苗高度x(厘米)频数f(棵)频率(%)向上累积向下累积频数(棵)频率(%)频数(棵)频率(%)80-9087.387.3110100.090-10098.21715.510292.7100-1102623.64339.19384.5110-1203027.37366.46760.9120-1301816.49182.73733.6130-1401210.910393.61917.3140-15054.510898.276.4150-16021.8110100.021.8合计110100我们可以将各组的频数除以总次数,得到频率,用以代表各组占总次数的比率。如30/110=27.3%,则表示树苗高度在120-130厘米之间的树苗占所有树苗的27.3%。向上累积有时又称“较小制累计”,它表示的是低于某分组上限的频数与频率,如树苗高度在120厘米以下的树苗有73棵,占总数的66.4%;向下累积有时又称“较大制累计”,它表示的是高于某分组下限的频数与频率,如树苗高度在110以上的树苗有67棵,占总数的60.9%。英文摘要与关键词The collection and reorganization of statistical data are important components of statistical work, as well as the working process of collecting data systematically and purposefully based on the aims and requests of statistical analysis, classifying and packing up data, and condensing and simplifying data. They are the prerequisite of conducting statistical analysis, and the key to guaranteeing the statistical data is objective and real.Statistical data collected include primary data and secondary data, and the main form of collecting data is through statistical survey. The design of a statistical survey scheme includes identifying the aim of the survey, fixing on the survey object, the survey unit, the survey item, the survey time and time limit, designing the survey table and questionnaire, and formulating the program for organizing and conducting the survey. The method of statistical survey mainly includes the methods of field observation, the report, the questionnaire, the interview and direct experimentation. The organizational form of the statistical survey primarily includes the statistical report form, the census, the sampling survey, the key-point survey and the model survey.The reorganization of statistical data chiefly includes the auditing of statistical data, the grouping of statistical data which is the core of the reorganization of statistical data, the summary of statistical data, the construction of a statistical table, and the plotting of a statistical graph. The grouping of statistical data includes simple classification and compound classification. A frequency distribution is a summary table in which the data are arranged into conveniently established, numerically ordered class groupings or categories. Excel gives us a Frequency function for establishing this distribution.Key words: primary data, secondary data, statistical survey, statistical grouping, frequency distribution习 题一、单项选择题1小吴为写毕业论文去收集数据资料,( )是次级数据。A班组的原始记录 B. 车
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年演出经纪人之演出市场政策与法律法规模拟考试试卷B卷及答案【名师系列】
- 2025年O2O零售模式报告:线上线下融合下的消费体验升级
- 物理●福建卷丨2024年福建省普通高中学业水平选择性考试物理试卷及答案
- 企业质量管理精要
- 2025届高考物理大一轮复习课件 第一章 第3课时 自由落体运动和竖直上抛运动 多过程问题
- 政治●安徽卷丨2024年安徽省普通高中学业水平选择性考试政治试卷及答案
- 江西省吉安市阳明中学2025届高考英语保温卷(一)(原卷版)
- 消防规范试题及答案
- 西部计划试题及答案青海
- 安徽省宣城市2025年中考三模道德与法治试卷(含答案)
- 广西壮族自治区2025届高三下学期一模英语试题(解析版)
- 育儿嫂签合同协议
- 5G电力虚拟专网网络安全白皮书2025
- 书法中考试题及答案
- 《学前儿童社会教育活动指导》形考测试题+答案
- 充电桩基本知识课件
- 电解铝厂项目施工组织设计
- 中职电子类面试题及答案
- 作风建设学习教育读书班交流发言提纲
- 2025年会考生物学专题复习题型03 情境分析题 (含答案)
- 2025年玉林市博白县小升初必考题数学检测卷含解析
评论
0/150
提交评论