第三章 统计数据的整理和显示.doc_第1页
第三章 统计数据的整理和显示.doc_第2页
第三章 统计数据的整理和显示.doc_第3页
第三章 统计数据的整理和显示.doc_第4页
第三章 统计数据的整理和显示.doc_第5页
免费预览已结束,剩余14页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 统计数据的整理和显示第一节 统计数据整理概述一、数据整理及其类型统计数据整理(Statistical data arrangement)就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。统计数据整理的主要目的包括:1.去伪存真,去粗取精。在大量的原始统计数据中,不可避免会存在着一些假数据和伪信息,只有经过认真筛选和判别,才能防止和避免鱼目混珠、真假难辨,并在信息传递和使用中误人害已,造成事业和经济上的重大损失。2.分类排序,规则系统。原始统计数据大多数呈现出零乱、孤立的状态,根本无法存储、传递和使用,只有对其进行有效地分类和排序,才有可能使之成为规则、有序、系统的统计信息,并方便存储、检索、传递和使用。3.分析研究,综合创新。对采集得来的统计数据只有经过加工处理之后,才能进行分析比较、计算研究,这样也可能会创造出新的统计信息。统计数据整理,是统计由对个别现象的认识上升到对总体现象认识的一个重要阶段,在统计研究工作中起着承先启后的作用,它既是数据搜集的继续和深化,又是数据分析的基础和前提。数据整理的质量,不仅关系到调查资料能否发挥其应有的作用,而且也直接影响到数据分析能否得出正确的结论。不恰当的加工整理,不完善的整理方法,往往使调查取得的丰富资料失去价值,甚至蒙蔽事实的真相,得出错误的结论。根据数据搜集的方式和研究任务的不同,统计数据的整理可以分为下列三种:1.定期统计报表数据的整理定期统计报表数据的整理,就是对填报统计报表所需数据的整理,为证实填报统计报表做好准备。为此,各基层企事业单位和各综合部门都应建立统计台帐。统计台帐是为整理统计数据和进行统计分析而专门设置的一种系统积累统计资料的表册。建立统计台帐,能够使统计数据比较全面、系统,有利于及时、准确地编制统计报表,也有利于系统地积累资料,避免资料散失。2.专题性统计数据的整理专题性统计数据的整理是对专门调查搜集的统计数据进行的整理,以便满足专题统计研究的需要。在专题性统计数据的整理中应密切结合各级领导部门的需要,根据专题性研究的目的确定整理的内容和题目,同时要注意资料的时效性、广泛性和政策性。3.历史统计数据的整理历史统计数据的整理是对本部门、本单位的历史统计数据按照研究目的的要求,进行系统的加工和处理。历史统计数据的整理是统计部门一项十分重要的任务。二、数据整理的原则和内容(一)数据整理的原则网络统计数据整理的基本原则主要有:1.标准性原则。为了方便国内外的统计信息交流,在对统计数据进行加工处理时需要按标准化要求进行操作,遵循国际国内相关标准。否则,该统计数据的利用价值就会大打折扣。2.系统性原则。为了更好地使用统计数据,使其最大限度地发挥效能,在统计数据加工处理过程中应该使其具有系统性。只有系统化的统计数据,才能使人发现其中隐藏的某些共同的规律性。3.准确性原则。是指经过加工处理以后的统计数据必须真实可靠,符合客观实际,按事物的本来面貌如实地反映情况。只有准确的统计数据,才可能为使用者带来一定的经济效益。反之,会使数据的使用者误入歧途,导致重大损失。4.及时性原则。由于所有的信息具都具有时效性,所以在对统计数据进行加工处理时要有时间观念,力争在最短时间内将统计数据加工处理完毕,以便最大限度地发挥统计数据的效能,及时地满足使用者的需要。5.通俗性原则。经过加工处理的统计数据一定要便于推广和使用,其内容务必通俗易懂。只有使用者看了以后能够明白其内容的统计信息,才能被人们充分利用。(二)数据整理的流程和内容统计数据整理的步骤与顺序取决于特定的调查方法,使用不同的调查方法取得的统计数据进行整理的步骤也可能会有差异。例如使用计算机辅助电话调查的形式搜集数据时,数据录入、初步审核和编码就是在数据搜集的同时完成的。但数据整理的基本流程大致是相同或相似的。统计数据搜集审核甄别编 辑合格不合格编 码录 入检查甄别排 序分类汇总统计图表不合格不合格图5-1 统计数据整理流程图从数据整理流程图可以看到,数据整理是涉及到许多步骤的繁琐、细致的一项工作。统计数据加工处理的基本内容包括:1.统计数据的筛选和判别。数据的筛选和判别是指对原始网络统计数据有无作用的筛检和挑选,或是对原始统计数据真伪的判断和鉴别。2.统计信息的排序和分类。统计数据的排序就是按照一定规律将调查所得到的统计数据排列成序,形成顺序统计量。统计数据的分类是指在数据排序的基础上,根据选定的分类标志,对杂乱无章的原始统计数据进行分门别类。3.统计数据的计算和研究。统计数据的计算和研究是指对分类排序后的统计数据进行计算、分析、比较和研究,以便创造出更为系统、更为深刻、更具使用价值的新信息的活动。4.统计数据的编目和组织。统计数据的编目和组织,是指按照一定的规则将著录和标引的结果另外编制成简明的目录,提供给统计数据需求者作为查找信息工具的活动。三、数据的预处理数据的预处理是数据整理先行步骤,它是在对数据分类或分组之前对原始数据和第二手数据所做的必要处理,包括对数据的审核、订正和排序等。(一)数据的审核在对统计数据进行汇总整理前,先要进行严格的审核,这是数据整理的重要一环,涉及整个汇总工作的质量。数据审核的内容包括数据的准确性、及时性、完整性和适用性等四个方面。数据的准确性是审核的重点。审核方法主要有计算检查和逻辑检查两种。逻辑检查是审核调查数据的内容是否合理、有无相互矛盾和不符合实际的地方。比如,中学文化程度的人所填的职业是大学教师,对于这种违背逻辑的项目应进行复核,查明原因,确认错误要及时纠正。逻辑检查主要适合对定性数据的审核。计算检查,是通过计算来复核表中的各项数值有无差错,各项指标的计算方法是否恰当,计量单位是否正确,有关指标之间的平衡关系是否得以保持等。比如各分项数字之和是否等于相应的合计数,各结构比例之和是否等于100%,出现在的不同表格的上的同一指标数据是否相同,等等。计算检查主要适合对定量数据的审核。审核数据的及时性,就是审核数据是否符合调查时间,数据的报送是否及时,并找出未按时报送的原因。审核数据的完整性,就是审查搜集的数据是否达到规定的调查单位数目,调查资料中的各项目是否填写齐全,因为任何单位的数据不报、缺报,都会影响整个汇总工作的进行。数据适用性的审查主要是针对第二手数据。因为第二手数据可以来自多种渠道,有些数据可能是为特定目的通过专门调查而取得的,或者是已经按特定目的的需要做了加工整理,因此,对于使用者来说,首先应弄清楚数据的来源、数据的计算口径和有关的背景材料,以便确定这些数据是否符合分析研究的需要,是否需要重新进行加工整理等。(二)数据的订正对审核过程中发现的迟报、漏报及计算错误,应及时催报、补报、改正,并针对不同的错误做出不同的处理:1.对于可以肯定的一般错误,可代为更正,并向有关单位核对;2.对于可疑之处或无法代为更正的错误,应通知原报单位复查更正;3.对于在一个单位发现的有代表性的重大差错,除通知原报单位更正外,还要将差错情况通报尚未报送资料的单位,以防止类似错误的发生;4.凡错误情节属于违反统计法规的,应查明责任,予以适当处理。(三)数据的排序统计数据排序就是按照一定的顺序将统计数据进行排列,以便初步显示数据的一些特征和规律,为研究者找到解决问题的线索。排序后的数据称为顺序统计量(Order statistics)。排序还有助于对数据的检查纠错,为分组、汇总提供依据。在某些场合,分析的目的就是排序。例如,将各大手机品牌的返修率进行排序,以了解手机的质量和性能的稳定性,为消费者选择购买哪种品牌的手机提供有用的信息;将全国轿车产量前10名的企业排序,经营者据此可以了解竞争对手的情况,从而有效地制定企业发展规划和战略目标。数据排序还是计算有关分析指标,进行数据分析的基础。例如计算众数、中位数和分位数前均需要先将数据进行排序。借助于计算机进行排序十分简单易行。下面依次说明几种类型的数据排序:1.数字型数据排序。有递增和递减两种。设一组数据为X1,X2,Xn,递增排序结果可以表示为:X(1)X(2)X(2)X(n)为了突出重点,总是坚持重点优先的惯例,选择递增还是递减取决于数小为重还是数大为重,但递减的场合似乎更多一些。2.字母型数据排序。也有升序降序之分,但习惯上升序用的更多,因为升序与字母的自然排列相同。3.汉字型数据排序。这种排序方式最多,例如按汉字的首位拼音字母排序,与字母型数据排序完全一样;也可按笔画多少排序,则也有笔画多少的升序降序之分。交替运用不同方式排序在汉字型数据的检错纠错编码过程中十分有用。第二节 统计数据分组一、统计数据分组的涵义统计数据分组(Statistical data grouping)是指根据统计研究的目的和要求,将总体单位或全部数据按照一定的标志划分成若干个类型或组,使组内的差异尽可能小,组间的差别尽可能明显,从而使大量无序的、混沌的数据变为有序的、反映总体特征的综合资料。例如,人口普查的调查对象是“具有中华人民共和国国籍并在中华人民共和国境内居住的人”,但每一个人有许多方面的标志,如年龄、性别、民族、文化程度、婚姻状况和居住地等都不是完全相同的。为了揭示我国人口总体内部的差别、特点,就需要按照不同的标志对全国人口进行分组。例如按性别可以分为男、女两个组,按照民族、文化程度又可以各自分为若干组,以便分析全国人口在性别、民族、文化程度等方面的结构即比例关系。统计数据分组的概念图示如下:图3-1分组概念图示二、统计数据分组的类型统计数据分组的类型多种多样,从不同的角度可以分为不同的种类。(一)属性分组和变量分组属性分组(Attributive grouping)是按照反映事物属性的品质标志来进行的分组。例如,人口按性别、民族、文化程度、职业、婚姻状况等标志分组,工业企业按经济类型、行业、地区等标志分组。变量分组(Variable grouping)是指按照数量标志进行的分组。例如,把冶金企业按生产能力分为:10万吨以下、10-100万吨、100万吨以上三个组,把家庭总体按现有子女数分为0人(无子女)、1人、2人、3人、3人以上等组。(二)简单分组、复合分组和分组体系所谓简单分组(Simple grouping),就是将总体按一个标志进行分组。这种分组能从某一方面说明总体特征。例如,高校教师按职称分组:教授副教授讲师助教复合分组(Composite grouping),是按照两个或两个以上的标志对总体加以重叠的分组。所谓重叠的分组,是指在前一次分组结果的内部再进行下一次分组。例如,某高等学校的学生总体按科类、性别、年龄等标志可复合分组如下:采用复合分组能更深刻地反映总体的内部结构,更细致地分析问题。但是,随着分组标志的增加,组数将成倍地增加,反而使总体结构表现复杂,不够明晰,故复合分组层次不宜过多。分组体系(Grouping system),是按照两个或两个以上的标志对总体加以平行的分组,从不同的侧面分别说明总体的特征。例如,将高等学校的教师总体按性别、学位、职称、教龄等标志进行平行的分组如下:1.按性别分男女2.按学位分博士硕士学士其他3.按职称分教授副教授讲师助教4.按教龄分20年以上1020年510年5年以下三、统计数据分组的原则和方法(一)统计数据分组的原则数据分组,应遵守以下原则:1.穷尽原则穷尽的原则要求在分组时每一个总体单位都应有组可归,各个组要有足够的空间容纳总体的所有单位。例如,一个单位的从业人员按文化程度分组,如果分为小学毕业、中学毕业(含中专)和大学毕业三组,那么,那些不识字或识字不多的人和大学以上文化程度的人则无组可归。如果将分组适当调整为:不识字或识字不多、小学程度、中学程度、大学及大学以上,这样分组,就可以包括全部从业人员的各种不同层次的文化程度,没有发生遗漏,符合了分组的穷尽原则。2.互斥原则互斥原则要求组与组之间在涵义上和口径上不能发生重叠。总体中的任何一个单位只能归属于某一组,而不能同时或可能归属于几个组。例如,某商场将鞋子分为男鞋、女鞋、童鞋三类,这不符合互斥的原则,因为童鞋也有男、女鞋之分。若先把鞋子分为成人鞋和童鞋两类,然后每类再分为男鞋、女鞋两个组,这就符合互斥的原则了。3.同一性原则分类的标志必须同一,即分类必须按照同一标志进行,而不能对一部分总体单位采用一种标志,对另一部分单位采用另一种标志分类,否则就会犯“分类标志不同一”的错误。例如,把工业分为重工业、轻工业、乡镇工业,就犯了“分类标志不同一”的错误。因为,这里划分为重工业、轻工业两个组是采用的是一种分类标志,即产品的性质和用途;对乡镇工业这个组采用的是另一种分类标志,即企业的所有制(是否为非国有)和所在地(是否在农村或小城镇)。“分类标志不同”,就必然给分类结果造成混乱。(二)分组标志的选择分组标志(Classification characteristic)就是统计数据分组时所依据的标志。正确选择分组标志是数据分组的关键问题。因为它关系到能否通过统计数据分组来正确显示事物的本质特征。正确选择分组标志应从对客观事物的定性认识出发,力求选择与统计研究目的有密切关系,并能说明事物本质特征的标志作为分组标志。(三)分组界限的划分分组标志确定了以后,分组界限(Grouping ambit)便成为数据分组的重要问题。按属性分组时,确定组限有两种情况。第一种情况,组限是自然形成的或比较明显的。例如,人口按性别、文化程度、党派分组等,由于组限自现、组数固定,因而容易确定。第二种情况,由于存在着属性之间的过渡形式,使分组界限难以确定。例如,人口按职业分组、企业按行业分组、产品按经济用途分组等,常常涉及复杂的理论与实际问题,不是每一个人在每次分组时都能辨析清楚的。在实际统计工作中,这种比较复杂的属性分组,国家有关部门都制定有标准的分类目录,对各种分组界限均有详细的规定与说明,分组时可以依据分类目录来确定组限。变量分组时要注意数量界限能够反映各组之间质的差异。本章第三节将详细论述其分组界限的确定方法。四、国民经济统计中的常用分类(一)经济成份分类按经济成份(Economic sector)分类是为了反映我国经济中所有制成份的构成情况。现阶段我国经济成份分类与代码如下:表31 经济成份分类及代码代码分类及构成111122212223公有经济国有经济集体经济非公有经济私有经济 港澳台经济外商经济(二)登记注册类型分类这是以工商行政管理部门对企业登记注册的类型为依据,将企业进行分类。按登记注册类型不同,可以将所有的企业分内资企业、港澳台商投资企业和外商投资企业三大类。内资企业 国有企业 集体企业 股份合作企业 联营企业 有限责任公司 股份有限公司 私营企业 其他企业港、澳、台商投资企业 合资经营企业(港或澳、台资) 合作经营企业(港或澳、台资) 港、澳、台商独资经营企业 港、澳、台商投资股份有限公司外商投资企业 中外合资经营企业 中外合作经营企业 外资企业外商投资股份有限公司(三)三次产业分类这是根据产业部门的发展顺序和层次进行的分类。目前我国对三次产业的具体划分为:第一产业(Primary industrial):农、林、牧、渔业。第二产业(Secondary industry):是指采矿业,制造业,电力、燃气及水的生产和供应业,建筑业。第三产业(Service occupations):第三产业是指除第一、二产业以外的其他行业。第三产业包括:交通运输、仓储和邮政业,信息传输、计算机服务和软件业,批发和零售业,住宿和餐饮业,金融业,房地产业,租赁和商务服务业,科学研究、技术服务和地质勘查业,水利、环境和公共设施管理业,居民服务和其他服务业,教育,卫生、社会保障和社会福利业,文化、体育和娱乐业,公共管理和社会组织,国际组织。(四)国民经济行业分类这是按基层单位的主要活动的同质性归口的分类方法。国民经济行业分类与代码,将社会经济活动划分为门类、大类、中类和小类四级。与此同时,采用了层次编码法。分类情况见表3-2。表32 国民经济行业分类(GB/T 4754-2002)门类类别、名称大类数ABCDEFGHIJKLMNOPQRST农、林、牧、渔业采矿业制造业电力、燃气及水的生产和供应业建筑业交通运输、仓储和邮政业信息传输、计算机服务和软件业批发和零售业住宿和餐饮业金融业房地产业租赁和商务服务业科学研究、技术服务和地质勘查业水利、环境和公共设施管理业居民服务和其他服务业教育卫生、社会保障和社会福利业文化、体育和娱乐业公共管理和社会组织国际组织563034932241243213551(五)机构部门分类机构部门(Institutional sector)又称为制度部门或财务收支部门。机构部门分类是从取得收入和支配收入、筹集资金和运用资金的财务决策权的同一性进行的分类。我国的机构部门包括非金融企业部门、金融机构部门、政府部门和住户部门等四类。五、统计数据分组的应用(一)应用数据分组划分现象的类型利用统计数据分组可以将客观现象划分为不同的类型,从而深入研究不同类型的现象特征。例如,将国民经济按产业划分,分为第一产业、第二产业和第三产业,可深入研究各次产业的特点、现状、发展变化的趋势以及它们之间的比例关系。(二)应用分组数据反映现象的内部结构按一定的标志将总体划分为不同的部分或组,计算各组的比重,从而反映总体的内部结构。现象的内部结构往往决定现象的性质,现象内部结构的变化往往引起现象性质的变化。例如,瑞典人口学家桑德巴按照人口总体的年龄结构,把人口总体划分为增加型、稳定型、减少型三种类型,其划分标准如下:人口类型各年龄段人口数在总人口数中的比重(%)0-14岁15-49岁50岁以上增加型稳定型减少型40.026.520.050.050.550.010.023.030.0(三)应用数据分组研究现象之间的依存关系客观现象之间是相互联系、相互依存、相互制约的,而不是孤立的。利用统计分组法可以分析现象之间的相互依存关系,有助于人们全面、深刻地认识事物。其方法是先按一个标志(原因标志)分组,再计算另一个标志(结果标志)在各组的数值,据以观察它们之间的相互依存关系。例如,商贸企业的商品流通费用率与商品销售额之间存在密切关系,可把商贸企业按商品销售额分组,再计算各组的平均流通费用率,以观察它们之间的依存关系。第三节 频数分布一、频数分布及其种类在分组的基础上,把所有数据或总体单位按组归并、排列,形成所有数据或总体各单位在各组间的分布,称为频数分布(Frequency distribution),又称为分布数列。例如我国人口的性别分布(见表3-4)。表3-4 2007年末我国人口的性别分布性 别人口(万人)f构成(%)男女68 04864 08151.548.5合计132 129100.00资料来源:中华人民共和国2007年国民经济和社会发展统计公报。频数分布由两个部分构成,一是组别,二是分布在各组的频数f(Frequency)和频率,频率有以下性质:频数分布的种类图示如下:(一)品质频数分布品质频数分布,又称为品质数列,它是经过属性分组后形成的频数分布,其组别表现为一系列的概念或范畴。如表3-4所示。(二)变量频数分布变量频数分布,又称为变量数列(Series of variates),它是经过变量分组后形成的分布数列,其组别表现为不同的数值或数域,例如表3-5就是一个变量数列。表3-5 某高校在校本科生年龄分布按年龄分组学生人数(人)比重(%)171819202122235418922828313l97245.418.822.728.113.09.62.4合计1006100.01.单项数列单项数列是以一个变量值为一组编制的变量频数分布。如表3-5就是一个单项数列。2.组距数列组距数列是以表示一定变动范围的两个变量值构成的组所编制的变量频数分布。如表3-6就是一个组距数列。表3-6 某集团公司员工基本工资分组表按月工资分组(元)员工人数(人)比重(%)800以下80090090010001000110011001200120013001300以上5072105487368121594.05.78.338.629.29.64.6合计1262100.0当变量值种数较多,变量值的变动范围较大时,编制单项数列会使分组过多,总体单位的分布过于分散,不便于分析问题,这时应当采用组距数列。在组距数列中,每一组的起点数值为组的下限,终点数值为组的上限。组距(Class interval)就是上限与下限的距离。而各组中点位置上的变量值叫组中值(Class mid-value),它是各组的代表值。在上限与下限齐全的闭口组中,组距与组中值的计算公式如下:组距上限-下限例如,表3-6中,第二组的组距900-800100(元),组中值=850(元)编制组距数列时,为了避免出现空组,同时又能使个别极大或极小的数据不至于无组可归,常使用“以上”或“以下”这种不确定具体组限的组,这样的组称为开口组。开口组的组中值一般按下列公式计算:缺下限的组的组中值=本组上限缺上限的组的组中值=本组下限如表3-6中,第一组的组中值=750(元),第七组的组中值=1300+=1350(元)。在组距数列中,如果各组的组距都相等,叫等距数列;反之,如各组的组距不完全相等,叫异距数列或不等距数列。二、累计频数和累计频率累计频数(Cumulative frequency)和累计频率(Cumulative absolute frequency),是将变量频数分布中各组频数或频率依次累加而得到的各组频数或频率。累计的方法有两种:一是向上累计,即将各组频数或频率由变量值低的组依次向变量值高的组累计,它表明从第一组下限开始到本组上限为止的累计频数或累计频率;二是向下累计,即将各组频数或频率由变量值高的组依次向变量值低的组累计,它表明从最末一组的上限开始到本组下限为止的累计频数或频率。累计频数和累计频率可以简要地、概括地反映总体各单位的分布特征。累计频数和累计频率的计算见表3-7。表3-7 某集团公司员工基本工资分组表按月工资分组(元)员工人数(人)比重(%)向上累计向下累计人数比重(%)人数比重(%)800以下80090090010001000110011001200120013001300以上507210548736812l594.05.78.338.629.29.64.6501222277141082120312624.09.718.056.685.895.4100.0126212121140103554818059100.096.090.382.043.414.24.6合汁1262100.0-三、频数分布的编制分配数列都是在统计分组的基础上归类汇总的结果。从这个意义上来说,频数分布的编制过程实质上是分组与汇总的过程。(一)品质频数分布的编制当按照研究目的和任务选定的分组标志为品质标志后,就需要编制品质数列。编制品质数列,首先应按品质标志对总体作属性分组,划分各组界限。属性分组有时比较简单,分组标志一经确定,组名称和组数也就确定,不存在组与组之间界限划分的困难。例如,人口按性别分组,工业企业按经济类型分组等。有时,属性分组又很复杂,组别繁多,界限不清,例如人口按城乡、职业分类等,实际工作中,对于这些比较复杂分组往往根据分析任务的要求,经过事先的研究,规定统一的划分标准或分类目录,如关于城乡划分标准的规定、国民经济行业分类与代码等,具体规定各组名称、顺序、计量单位、计算标准作为分组的统一依据,供长期使用。分组确定后,再汇总各组单位数,并编成统计表,即得品质数列。例如某班学生的性别、年龄和英语考分如表3-8所示:表3-8 某高三班级学生的性别、年龄和英语考分学号性别年龄英语分学号性别年龄英语分123456789101112131415男男女男女女女男女男男男女女男181817191919161820191817171718934978856671638356956672857882161718192021222324252627282930男男男女男女男女女女女男男男男181818171919181719181920191617908055916772857770867075698998按性别分组,可编制成如下的品质数列。表3-9 某班学生按性别分组按性别分组学生数(人)比重(%)男女1713567433合计301000(二)变量频数分布的编制对于变量频数分布,由于分组的依据是数量标志。而数量标志具体表现为许多不等的变量值,这些变量值能准确地反映现象之间的差异,却不能明显地反映现象间质的区别,从而在编制变量频数分布时,带有较大的主观随意性,使变量频数分布的编制变得困难。1.单项数列的编制对于离散型变量,如果变量值的种类较少(一般不超过15种)且变量的变动范围不大时,可编制单项数列。如表3-8中学生的年龄最大是20岁,最小的是16岁,极差(最大值-最小值)仅4岁,且变量值只有5种,因而可编制成单项数列。编制单项数列时,首先应将各种变量值按大小顺序排列,然后计算各变量值的频数和频率,最后将上述结果以表格的形式表现。例如,根据表3-8中的年龄可编制成如下单项数列:表3-10 某高三班级学生年龄分组表按年龄分组(岁)学生数(人)f比重(%)f/f16171819202710926.723.333.330.06.7合计30100.02.组距数列的编制离散型变量,若变动幅度较大,变量值的种类较多,则宜编成组距数列;连续型变量其可取值难以一一列出,只能编制组距数列。表3-8中的英语考分应编制组距数列。其编制过程为:(1)将原始数据按大小顺序排列,并确定量大值、量小值和全距R。表3-8中英语考分的全距R98-4949分(2)确定组距数列的类型。由于英语考分分布比较均匀,可编制成等距数列。(3)确定组数和组距。组数的多少和组距的大小是相互制约的。组数越多,组距越小;组数越少,组距越大。等距数列组距全距组数。确定组数和组距时,依据以下几条:考虑到组距内的同质性。本例中必须将及格与不及格的质的界限体现出来,不能分成4555、5565、要能反映总体分布的规律,即要体现原始数据分布的集中趋势或离中趋势。组距不能太大或太小。经验表明,组数一般应在5-15组,组距最好是5的整数倍数。在等距数列情况下,如果总体单位数不是太多,变量变动范围不是太大时,可用斯特吉斯(H.A.Sturges)经验公式计算出一个参考组距。公式为: 公式(3-1)式中,i为组距,R为全距,N总体单位数。将表3-8资料代入公式,则故可定出组距为10分。组数49/lO5组。(4)确定组限和组限的表示法。确定组限时,应做到以下几点:最小组下限应低于或等于最小变盘值,最大组上限应大于最大变量值;如果有极端值,可用开口组;组限应有利于表现总体单位分布规律;对于等距数列,如果组距是5的整数倍数,则每组下限也最好是5的整数倍数。此外,还应确定组限的表示法是用同限,还是用异限。学生英语考分一例中,因为成绩都是整数,因此既可用同限,也可用异限。若选用同限,则组限可表示为:60分以下,6070,7080,8090,90100五个组。(5)从最小组起依次排列,并分别计算各组频数和其他有关指标,形成分组的统计表。如学生英语考分一例,可编成表3-11。表3-11 某班学生英语考试成缋分组表按考分分组学生人数(人)比重(%)60以下607070808090901003598510.016.730.026.616.7合计301000四、频数分布的类型各种不同性质的客观现象都有其特殊的频数分布,呈现出不同的分布类型。常见的频数分布类型有:1.对称分布型对称分布曲线的特征是中间变量值分配的频数最多,两边各组的频数逐渐减少,并且围绕中心变量值两侧呈对称状。这种分布类型也称为正态分布。严格的正态分布,在客观现象特别是社会经济现象中并不多见,而常见的是趋于正态分布的情况。例如,零件尺寸随机误差的分布、居民家庭人均收入的分布、人体身高的分布、农作物产量的分布等等。对称分布图形见图3-1。2.偏态分布型偏态分布型是一种非对称的分布,根据高峰值的偏离方向,有右偏分布和左偏分布。如图3-2所示,a为右偏态分布,b为左偏态分布。3.U形分布U形分布的特征与对称分布型恰恰相反,靠近中间的变量值出现次数少,而靠近两端的变量值出现的次数多,其形状好似英文字母“U”,其图形如图3-3。按年龄分组的人口死亡率分布,就是一种近似的U形分布。4.J形分布J形分布的曲线好似英文字母“J”,J形分布有正J形和反J形两种类型。正J形是频数随着变量值的增大而增多,如经济学中的供给曲线,随着价格的提高供给量以更快的速度增加,呈现出正J形。反J形是频数随着变量值的增大而减少,如经济学中的需求曲线,随着价格的提高需求量以较快的速度减少,呈现出反J形。其图形如图3-4。第四节 统计数据的显示统计数据经过加工整理以后需要用一定的形式呈现出来。科学、美观的数据表现形式,既能有效地反映数据整理的成果,又能为数据分析奠定良好的基础。数据的表现形式主要有统计表和统计图。一、统计表(一)统计表的结构统计表(Statistical table)是以纵横交叉的线条组成的表格来表现统计数据的一种形式。或者说统计表是用来反映统计数据的一种表格,例如调查表、整理表、数据积累表、分析表等。统计表能够系统地组织、合理地安排大量的统计数据,使人们在阅读时一目了然,便于对照比较,使统计数据显得紧凑、有力、突出、清晰,因而在显示统计数据时得到了广泛的应用。统计表的结构,从形式上看,由总标题、横行标题(横标目)、纵拦标题(纵标目)和数字资料(指标数值)四部分组成。基本结构如表3-12所示。表3-12 2007年我国主要农产品产量 总标题农产品总产量(万吨)比上年增产%粮食棉花油料肉类水产品501507602461680047370.71.3-4.2-3.53.3 资料来源:中华人民共和国2007年国民经济和社会发展统计公报。总标题是统计表的名称,用来简明扼要地说明全表的内容,一般写在表的上端中部。横行标题是统计表横行的名称,通常用来表示各组的名称,一般写在表的左端。纵栏标题是统计表纵栏的名称,用以列示分组标志和指标名称,写在表的上方。数字资料是统计表中的指标数值,列在各横行和纵栏的交叉处,统计表中的任何一个数字的含义都由总标题、横行标题和纵栏标题共同决定。从内容上看,统计表由主词和宾词两部分构成。主词是统计表所要说明的对象,总体、总体的各个组、总体单位的名称和时间都可以成为主词。宾词是用来说明主词的各个统计指标,包括指标名称和指标数值。通常把主词放在表的左方,宾词列在表的右方。但是,如果这样排列会使统计表过分狭长或过分宽短时,也可以将主词、宾词合并排列或变换排列的位置。(二)统计表的种类1.按用途不同,广义的统计表可分为调查表、整理表和分析表。调查表(Questionnaire)是在数据搜集中用于登记调查项目的表格。整理表(Processing table),或称汇总表,是在数据汇总过程中使用的表格和用于表现统计汇总或整理结果的表格。分析表(Analytical table)是用于统计数据分析的表格。这类表往往与整理表结合在一起,成为整理表的延续。2.按主词是否分组和分组的情况,统计表可分为简单表、分组表和复合表。简单表是主词未经任何分组的统计表。例如,由总体单位名称组成的一览表,主词由地区、国家、城市等目录组成的区域表,主词由时间顺序组成的编年表等都是简单表。表3-8就是一张简单表。分组表是主词按一个标志分组后形成的统计表。表3-11是一张分组表。复合表是主词按两个或两个以上的标志进行复合分组后形成的统计表。在一定分析任务下,复合表可以把更多的标志结合起来,更深入地分析现象的特征和规律性。表3-13就是复合表。表3-13 某工厂工人基本情况表工人数(人)月工资总额(元)男工30岁以下30-50岁50岁以上女工30岁以下30-50岁50岁以上58321794630115665603440019900122605065030370126107670合计104117210(三)统计表的设计原则和方法由于使用者的目的以及统计数据的特点不同,统计表的设计在形式和内容、结构上会有较大的差异,但设计上的基本要求和原则是一致的。总体来看,统计表的设计应符合科学、实用、简练、醒目、美观的原则。1.统计表表式的设计(1)统计表应设计成由纵横交叉线条组成的长方形表格,长与宽之间保持适当的比例。(2)线条的绘制。表中的上下两条线一般用粗线,中间的其它线用细线,这样使人看起来清楚、醒目。通常情况下,统计表的左右两端不封口,纵列标题之间一般用竖线隔开,而横行标题之间通常不必用横线隔开。总之表中要少用横竖线。(3)合计栏的设置。统计表各纵列若需合计时,一般应将合计列在最后一行,并用横线与上面内容隔开;各横行若需合计时,一般应将合计列在最前一栏或最后一列,并用竖线隔开。(4)栏数编号。如果栏数较多,应当按顺序编号,习惯上主词栏部分以“甲、乙、丙、丁”为序号,宾词栏以“(1)、(2)、(3)、(4)”为序号。2.统计表内容设计(1)标题设计。统计表的总标题以及横行、纵栏标题应简明扼要,以简练而又准确的文字表述统计数据的内容、数据所属的空间、时间范围。(2)指标数值的填写。表中数字要填写整齐、数位对准。当数字为O或因数字太小略而不计时,要写上0;当缺乏某项数据时,可用符号“”表示;不应有数字时用符号“一”表示。表中的数字栏不应留有空格。(3)计量单位栏的设计。统计表中必须注明数字资料的计量单位。当全表只有一个计量单位时,可以把它写在表的右上角。如果表中需要分别注明不同的计量单位时,横行的计量单位可以专设一栏,纵栏的计量单位要与纵栏标题写在一起,用小字标写并加括号“()”。(4)注解与资料来源。为保证统汁数据的科学性与严肃性,在统计表的下方应注明资料的来源,以便查考。必要时可在统计表下方添加注解或说明。二、统计图*用来表现统计数据的各种几何图形、具体事物的形象、符号等都叫统计图(Cartography)。用统计图来显示统计数据,具有直观、生动、形象、易懂的优点。统计图没有冗长的数据和呆板的表格形式,易为一般人接受和理解,正如人们常说的:一幅图赛过千句话。不同的统计图,绘制方法不同,但在绘制中都应遵守如实反映、便于比较、通俗易懂、鲜明醒目、灵活机动的原则。(一)直方图和条形图1.直方图(Histogram)。直方图是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标中,横轴表示数据分组,纵轴表示频数或频率,这样各组与相应的频数就形成了一个矩形,即直方图。比如,根据表3-11绘制成直方图 如图3-5所示。2.条形图(Bar chart)。条形图是用宽度相同的条形的高度或长度来表示数据变动的图形。条形图可以横置和纵置,纵置时也叫柱形图。例3-1 某厂职工按工作岗位分组资料如下(表3-14)。绘制成条形图为图3-6。表3-14 某厂职工构成情况按劳动岗位分组人数(人)比重(%)工人学徒工程技术人员管理人员服务人员其他人员380283330181176.05.66.66.03.62.2合计500100.0条形图和直方图不同,条形图是用条形的长度(横置时)表示各类别数量的多少,其宽度(表示类别)是固定的,直方图是用面积表示数量的多少;直方图各矩形通常是连续排列,而条形图则是分开排列。(二)折线图和曲线图1.折线图也称频数多边图( Frequency polygon )。在直方图的基础上,把相邻直方形的顶边中点连接成一条折线,再把折线两端与横轴上直方形两侧延伸的假想组中点相连,就形成了频数分布折线图。折线图也可以用组中值与次数求坐标点连接而成。例如,在图3-5的基础上绘制的折线图如图3-7所示。2.曲线图(Curve chart)曲线图是用曲线的升降起伏来表示被研究现象的变动情况及其趋势的图形。曲线图根据所示数据的性质和作用不同,可分为频数分布曲线图、动态曲线图和依存关系曲线图。在频数分布折线图的基础上,当变量数列的组数无限增多时,折线图便近似地表现为一条平滑的曲线,折线图就变成了频数分布曲线图。对图3-7平滑化,即得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论