《统计学原理》教(学)案_第1页
《统计学原理》教(学)案_第2页
《统计学原理》教(学)案_第3页
《统计学原理》教(学)案_第4页
《统计学原理》教(学)案_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

./统计学原理教案第一章总论一、社会经济统计的研究对象1、统计的涵义统计一词在不同的场合可以有不同的涵义。统计有时指统计工作,即统计实践活动,是对社会经济现象的数量方面进行搜集、整理和分析的全过程;统计有时指统计资料,即通过统计工作过程所取得各项数据资料和与之相关的其他实际资料;统计有时指统计科学,即关于认识客观现象数量特征和数量关系的原理原则和方式方法的科学。统计的三种涵义是密切联系的。统计工作和统计资料是统计活动和统计成果的关系,统计学和统计工作是理论和实践的关系。2、社会经济统计学的研究对象社会经济统计学的研究对象是社会经济现象总体的数量特征和数量关系,通过这些数量方面的研究反映社会经济现象发展变化的规律性。统计学和统计工作是理论和实践的关系,它们所要认识的研究对象是一致的。3.社会经济统计学研究对象的特点可概括为:社会性;总体性;变异性。二、统计工作过程及统计研究方法1、统计工作过程统计工作过程所包括的环节有统计设计、统计调查、统计整理、统计分析、统计资料的提供与开发。2、统计研究方法统计研究方法有大量观察法、统计分组法、综合指标法、统计模型法、归纳推断法。三、国家统计的职能国家统计兼有信息职能、咨询职能、监督职能等三种职能。四、统计学的几个基本概念及相互关系1、统计总体与总体单位统计总体是根据统计研究的任务目的所确定的研究事物的全体,是客观存在的具有共同性质的个体所构成的整体。构成统计总体的个体单位称总体单位。在一次特定范围、目的的统计研究中,统计总体与总体单位是不容混淆的,二者的含义是确切的,是包含与被包含的关系。但是随着统计研究任务、目的及范围的变化,统计总体和总体单位可以相互转化。统计总体同时具有大量性、同质性、变异性等特点。大量性是指构成总体的总体单位数要足够的多,总体应由大量的总体单位所构成,大量性是对统计总体的基本要求;同质性是指总体中各单位至少有一个或一个以上不变标志,即至少有一个具有某一共同标志表现的标志,使它们可以结合起来构成总体,同质性是构成统计总体的前提条件;变异性就是指总体中各单位至少有一个或一个以上变异标志,即至少有一个不同标志表现的标志,作为所要研究问题的对象。变异性是统计研究的重点。2、标志与标志表现标志是说明总体单位所共同具有的属性和特征的名称。标志有品质标志和数量标志之分。品质标志说明总体单位的属性特征,无法量化,如职工的性别、文化程度,企业的经济成份,产品品牌等。数量标志说明总体单位的数量特征,能够量化,如职工的工龄、工资水平,企业的职工数、总产值、总产量、劳动生产率等。总体单位与统计标志是有区别的。总体单位是统计标志的直接承担者,是载体;统计标志依附于总体单位并说明总体单位的属性和特征。依附于某个总体单位的标志可以有多个。标志表现即标志特征在各单位的具体表现。如果说标志是统计所要调查的项目,那么标志表现是调查所得结果,标志的实际体现。标志表现有品质标志表现和数量标志表现之分。品质标志表现只能用文字表述,因此不能转化为统计指标,但对其对应的单位进行总计时就形成统计指标。数量标志表现是一具体数值,也称标志值。就一个品质标志或数量标志而言,其具体表现可能多种多样,不能将标志与标志表现混为一谈。如对三个工人的月工资计算平均数,只能说是对三个标志表现或三个标志值〔变量值计算平均数,不能说对三个数量标志计算平均数,因为数量标志只有一个,即工人"月工资"。3、变异与变量如果某一标志的具体表现在总体各单位相同,则称该标志为不变标志;如果某一标志的具体表现在各单位不尽相同,则称该标志为可变标志。可变标志的标志表现由一种状态变到另一种状态,统计上把这种现象或过程称变异。变异是一种普遍现象,有变异才有必要进行统计。变异有属性变异和数量变异之分。属性变异表明质的差别,数量变异表明量的差别。不变的数量标志称常量或参数。可变的数量标志和所有的统计指标称变量。变量的数值表现称变量值,即标志值或指标值。变量按其数值是否连续可分为连续性变量和离散性变量。连续性变量的数值是连续不断的,任意两个变量值之间可以做无数种分割,如工业总产值、商品销售额、身高、体重等,既可用小数表示,也可用整数表示;离散变量的取值可以按一定次序一一列举,如工厂数、工人数、机器台数等,变量值通常用整数表示。4、统计指标和指标体系统计指标是反映社会经济现象总体综合数量特征的科学概念或范畴。正确理解统计指标时应注意:①统计指标反映现象总体的数量特征;②一个完整的统计指标应该由总体范围、时间、地点、指标数值和数值单位等内容构成。统计指标和统计标志是一对既有明显区别又有密切联系的概念。二者的主要区别是:①指标是说明总体特征的,标志是说明总体单位特征的;②指标具有可量性,无论是数量指标还是质量指标,都能用数值表示,而标志不一定。数量标志具有可量性,品质标志不具有可量性。标志和指标的主要联系表现在:①指标值往往由数量标志值汇总而来;②在一定条件下,数量标志和指标存在着变换关系。统计指标按其反映的数量特点不同可分为数量指标和质量指标。数量指标是反映现象总规模水平或工作总量的指标,也称总量指标,一般通过数量标志值直接汇总而来,用绝对数表示,指标数值均有单位;质量指标是反映现象总体相对水平或工作质量的统计指标,又分为相对指标和平均指标,分别用相对数和平均数表示,它们通常是由两个总量指标对比派生出来的,反映现象之间内在联系和对比关系。数量指标和质量指标的关系表现在:数量指标是计算质量指标的基础,质量指标往往是相应的数量指标进行对比的结果。统计指标体系是各种互相联系的指标群构成的整体,用以说明所研究的社会经济现象各方面互相依从和互相制约的关系。一个指标的作用总是有限的,它只能反映现象总体的某一侧面,只有使用指标体系才能反映现象总体全貌。统计指标体系大体上可分为基本统计指标体系和专题统计指标体系两大类。第二章统计调查一、统计调查的基本任务和要求1、统计调查统计调查是按照预定的统计任务,运用科学的方法,有组织有计划地向客观实际搜集资料的过程。统计调查既是对现象总体认识的开始,也是进行资料整理和分析的基础环节。2、统计调查的基本任务统计调查既是对现象总体认识的开始,也是进行资料整理和分析的基础环节。统计调查的基本任务是取得反映社会经济现象总体全部或部分单位以数字资料为主体的信息。3、统计调查的基本要求统计调查的基本要求是准确性和及时性,是衡量统计工作质量的重要标志。二、统计调查方案统计调查方案是调查工作有计划、有组织、有系统进行的保证。统计调查方案应确定的内容有:调查目的、调查对象、调查项目、调查表、调查时间和调查时限、调查的组织工作。1、调查目的确定调查目的是任何一项统计调查方案首先要解决的问题。不同的调查目的需要不同的调查资料,不同的调查资料又有不同的搜集方法。调查目的明确了,搜集资料的范围和方法也就确定下来了。2、调查对象调查对象即统计总体,是根据调查目的所确定的研究事物的全体。统计总体这一概念在统计调查阶段称调查对象。在确定调查对象时,还必须确定调查单位和报告单位。调查单位也就是总体单位,它是调查对象的组成要素,即调查对象所包含的具体单位。调查对象和调查单位的概念不是固定不变的,随着调查目的的不同二者可以互相变换。报告单位也称填报单位,也是调查对象的组成要素。它是提交调查资料的单位,一般是基层企事业组织。调查单位是调查资料的直接承担者,报告单位是调查资料的提交者,二者有时一致,有时不一致。如工业企业生产经营情况调查,每一工业企业既是调查单位,又是报告单位;工业企业职工收入状况调查,每一职工是调查单位,每一工业企业是报告单位。3、调查项目调查项目即依附于调查单位〔总体单位的统计标志,其标志表现就是统计调查所得的资料。确定调查项目时,首先应注意所选择的项目能够取得确切资料,其次注意所选择的项目应有确切的涵义和统一解释,另外要注意各项目之间的联系和衔接,便于核对和分析。4、调查表调查表是用来表现调查项目的表格,其目的是保证统计资料的规范化和标准化。调查表有单一表和一览表两种形式。单一表是一个调查单位填写一份表格,可以容纳较多的项目。一览表是许多调查单位共同填写一份表格,在调查项目不多时较为简便,且便于合计和核对差错。为了正确填写调查表,须附有填表说明和项目解释。5、调查时间和时限调查时间指调查资料所属时间。如果调查的是时期现象,调查时间是资料所反映的起讫时间;如果调查的是时点现象,调查时间是统一规定的标准时点。调查时限是进行调查工作的期限,包括搜集资料和报送资料的整个工作所需要的时间。如某管理局要求所属企业在1996年1月底上报95年工业总产值资料,则调查时间是一年,调查时限是一个月;又如某管理局要求所属企业在96年1月10日上报95年产成品库存资料,则调查时间是标准时间1995年12月31日,调查期限是10天。6、调查的组织工作调查的组织工作包括明确调查机构、调查地点、选择调查的组织形式等问题。三、统计调查的种类1、统计调查按组织形式,可分为统计报表和专门调查。统计报表是国家统计系统和专业部门为了定期取得系统、全面的统计资料而采用的一种搜集资料的方式,目的在于掌握经常变动的、对国民经济有重大意义的指标的统计资料。专门调查是为了了解和研究某种情况或问题而专门组织的统计调查,包括抽样调查、普查、重点调查和典型调查等几种调查方法。2、统计调查按研究总体的范围,可分为全面调查和非全面调查。全面调查是对构成调查对象的所有单位进行逐一的、无一遗漏的调查,包括全面统计报表和普查;非全面调查是对调查对象中的一部分单位进行调查,包括非全面统计报表、抽样调查、重点调查和典型调查。3、统计调查按调查登记的时间是否连续,分为连续调查和非连续调查。连续调查是指对研究对象的变化进行连续不断的登记,如工业企业总产值、产品产量、原材料消耗量等,在观察期内连续登记。连续调查所得资料是现象在一段时间内的总量。不连续调查是指间隔一段相当长的时间对研究对象某一时刻的资料进行登记。如人口数、机器设备台数等资料短期内变化不大,没有必要连续登记资料。不连续调查所得资料体现现象在某一瞬间所具有的水平。4、统计调查按搜集资料的方法分为直接调查、凭证调查、派员调查、问卷调查。直接调查又称直接观察,由调查人员到现场对调查单位直接查看、测量和计量;凭证调查是以各种原始和核算凭证为调查资料来源,依照统一的表格形式和要求,按照隶属关系,逐级向有关部门提供资料的方法;采访调查是通过指派调查员对被调查者询问、采访,提出所要了解的问题,借以搜集资料;问卷调查是以问卷形式提问。此外,也有人根据调查工作时间的周期长短,将统计调查划分为经常性调查和一次性调查。所谓经常性调查是指调查周期在一年以内的调查,间隔超过一年的为一次性调查。这种划分和调查对象没有关系,不要把经常性调查误以为是全面调查,也不要误以为经常性调查就是调查时期现象,而一次性调查就是调查时点现象。四、统计调查方法常用的统计调查方法有统计报表、普查、抽样调查、重点调查、典型调查等,它们各有其特点。1994年全国统计工作会议提出要建立以必要的周期性普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和少量的全面报表综合运用的统计调查方法体系。1、统计报表统计报表是按国家统一规定的表式,统一的指标项目,统一的报送时间,自下而上逐级定期提供基本统计资料的调查方式方法。我国大多数统计报表要求调查对象全部单位填报,属于全面调查范畴,所以又称全面统计报表。统计报表具有统一性、全面性、周期性、可靠性等特点。目前我国统计报表,是由国家统计报表、业务部门统计报表和地方统计报表组成,其中国家统计报表是统计报表体系的基本部分。2、普查普查是专门组织的不连续性全面调查。主要调查一定时点状况的社会经济现象的总量,搜集那些不能够或者不适宜用定期全面报表搜集的统计资料,以搞清重要的国情国力。普查的主要特点是不连续调查。普查的组织形式有两种:一是组织专门的普查机构,配备一定数量的普查人员,对调查单位直接进行登记;另一种是利用普查单位的原始记录和核算资料,颁发一定的调查表格由调查单位自填上报。普查按资料汇总的特点分为一般普查和快速普查。前者逐级上报资料,后者越过中间环节,由基层单位将资料直接报送给最高领导机关。普查和全面统计报表都属于全面调查,但二者并不能互相代替。普查属于不连续调查,调查内容主要是反映国情国力方面的基本统计资料;而全面统计报表属于连续调查,调查内容主要是需要经常掌握的各种统计资料。全面统计报表要经常填报,因此报表内容固定,调查项目较少;而普查是专门组织的一次性调查,在调查时可以包括更多的单位、分组更细、项目更多。因此,有些社会经济现象不可能也不需要进行经常调查,但又需要掌握比较全面、详细的资料时,就可通过普查来解决。普查花费的人力、物力和时间较多,不宜经常组织,取得经常性的统计资料还需要靠全面统计报表。3、抽样调查抽样调查是按随机原则从总体中选取一部分单位进行观察,用以推算总体数量的一种非全面调查。抽样调查的特点:①既是非全面调查,又要达到对总体数量特征的认识;②按随机原则去抽取调查单位。抽样调查具有经济性、时效性、准确性、灵活性等特点。抽样调查的作用:一是能够解决全面调查无法或难以解决的问题;二是可以补充和订正全面调查的结果,三是可用于生产过程中产品质量的检查和控制,四是可用于对总体的某种假设进行检验。抽样调查是非全面调查中最完善、最有科学根据的方式方法。抽样调查的基本形式有简单随机抽样、类型随机抽样、等距抽样、整群抽样。4、重点调查重点调查是专门组织的一种非全面调查,它是对所要调查的全部单位选择一部份重点单位进行调查。重点调查的关键是选择好重点单位。所谓重点单位,是从标志量的方面而言的,尽管这些单位在全部单位中只是一部分,但这些单位的某一主要标志量占总体单位标志总量的绝大比重。对这些单位进行调查,就可以了解调查对象的基本情况。重点调查中重点单位的选择着眼于标志量的比重,因而重点单位的选择具有客观性。当调查目的是掌握现象的基本情况,而部分单位又能比较集中地反映所研究的项目和指标时,可用重点调查。重点调查可以定期进行,也可以不定期进行,重点调查实际上是范围比较小的全面调查,它的目的是反映现象总体的基本情况。抽样调查和重点调查都是专门组织的非全面调查,具有调查单位少,省时省力的特点,在选取调查单位时不受主观因素的影响。但二者之间有明显的区别:首先是调查单位的意义和取得方式不同,重点调查是选择为数不多但标志量占总体标志总量绝大比重的单位进行调查;抽样调查中的样本单位是按照随机原则从研究总体中抽取的、具有较高代表性。其次,二者研究目的不同。重点调查是为了了解现象总体的基本情况,但不能推断总体总量;抽样调查的目的在于以样本量来推断总体总量。再次,适用场合不同。重点调查适用于部分单位能比较集中地反映所研究的项目或指标的场合;抽样调查最适合于不能或很难进行全面调查,而又需要全面数值的场合,在能进行全面调查的场合也有独到的作用。5、典型调查典型调查是根据调查的任务目的,对所研究的现象总体进行初步分析的基础上,有意识的选择若干具有代表性的单位进行调查,借以认识事物发展变化的规律。典型调查的特点一是深入细致的调查,既可以搜集数字资料,又可以搜集不能用数字反映的实际情况;二是调查单位是有意识的选择出来的若干有代表性的单位,它更多地取决于调查者的主观判断和决策。典型调查和重点调查相比,前者调查单位的选择取决于调查者的主观判断,后者调查单位的选择具有客观性;前者在一定条件下可以用典型单位的量推断总体总量,后者不具备用重点单位的量推断总体总量的条件。典型调查在做总体数量上的推断时无法估计误差,推断结果只是一个近似值。抽样调查和重点调查、典型调查的根本区别就在于选取调查单位的方法不同。五、各种调查方式的结合运用不同的统计调查的方式方法,各有其特点和作用。在实际工作中,并非单用一种方式方法,而是多种方式方法的结合运用。这是因为:①国民经济和社会发展情况复杂,国民经济门类众多,必须应用多种多样的统计调查方法,才能搜集到丰富的统计资料;②任何一种统计调查方法,都有它的优越性与局限性,各有不同的实施条件,只用一种统计调查方法,不能满足多种需要。第三章统计整理一、统计整理的概念和内容1、统计整理根据统计研究的任务与要求,对统计调查所搜集到的原始资料进行分组、汇总,使其条理化、系统化的工作过程称统计整理。统计整理包括对原始资料和次级资料的整理。统计整理是统计调查的继续,是统计分析的前提和基础,在整个统计工作中发挥着承上启下的作用。2、统计整理的意义通过统计调查所取得的总体各单位的资料是零星的,分散的,只能说明总体单位的情况,而不能反映总体特征。统计整理对调查资料进行科学加工,使之系统化,成为说明总体特征的综合资料,实现了由反映总体单位特征的标志向反映总体综合数量特征的统计指标的转化,是从对社会经济现象个体量的观察到对社会经济现象总体量的认识的连接点,是人们对社会经济现象从感性认识到理性认识的过渡阶段。统计整理在整个统计工作中发挥着承上启下的作用。3、统计整理的方法统计整理的方法是分组、汇总和编表。分组是根据研究任务的要求,对调查所得的原始资料,确定哪些分组或分类。统计分组是统计整理的关键。汇总是在统计分组的基础上,把总体单位各种标志的标志值汇总起来,汇总主要有手工汇总和电子计算机汇总。编表是把汇总的资料按一定的规则在表格上表现出来。4、统计整理的内容和步骤〔1确定应整理的指标和确定应分的组;〔2对各项指标进行汇总,确定各组和总体的单位数和标志总量;〔3用统计表现分组、汇总的结果。二、统计分组1、统计分组的意义根据统计研究任务的要求和研究现象总体的内在特点,把现象总体按某一标志划分为若干性质不同但又有联系的几个部分称统计分组。总体的变异性是统计分组的客观依据。统计分组是总体内进行的一种定性分类,它把总体划分为一个个性质不同的范围更小的总体。2、统计分组的种类①统计分组按其任务和作用不同,分为类型分组、结构分组和分析分组。类型分组的目的是划分经济类型,结构分类的目的是研究同质总体的构成,分析分组的目的是研究现象总体内部诸标志间的依从和制约关系。②统计分组按分组标志的多少分为简单分组和复合分组。简单分组是将总体按一个标志进行分组,复合分组是将总体按两个或两个以上的标志重叠起来进行分组。③统计分组按分组标志的性质分为品质分组和变量分组。品质分组是将总体按品质标志进行分组,如企业按经济成份、地理位置分组,职工按性别、文化程度分组等;变量分组是将总体按数量标志进行分组,如企业按职工人数、劳动生产率分组,职工按工龄、工资分组等。3、分组体系与分组标志的选择①分组体系统计分组后所形成的一系列互相联系、互相补充的组的整体称分组体系。分组体系有平行分组体系和复合分组体系两种。平行分组体系是选择两个或两个以上的标志对总体进行一次次简单分组后所形成的体系;复合分组体系就是复合分组后形成的体系。②分组标志的选择分组标志的选择是统计分组的关键。分组标志,即将同质总体区分为不同组的标准或依据。分组标志一旦选定,就必然突出了总体在该标志下的性质差别,其他的差别看不见了。分组标志选择不当,不但无法显示现象的根本特征,甚至会混淆事物的性质,歪曲社会经济的真实情况。正确选择分组标志,必须根据统计研究的任务目的,抓住反映现象本质区别和内在联系的标志作为分组标志。4、统计分组的方法〔1品质标志分组方法品质标志分组一般较简单,分组标志一旦确定,组数、组名、组与组之间的界限也就确定。有些复杂的品质标志分组可根据统一规定的划分标准和分类目录进行。〔2数量标质分组方法按数量标志分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质。数量标志分组方法从以下几个方面来说明:①单项式分组和组距式分组对离散变量,如果变量值的变动幅度小,就可以一个变量值对应一组,称单项式分组。如居民家庭按儿童数或人口数分组,均可采用单项式分组。离散变量如果变量值的变动幅度很大,变量值的个数很多,则把整个变量值依次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。也就是说,离散变量根据情况既可用单项式分组,也可用组距式分组。在组距式分组中,相邻组既可以有确定的上下限,也可将相邻组的组限重叠。连续变量由于不能一一列举其变量值,只能采用组距式的分组方式,且相邻的组限必须重叠。如以总产值、商品销售额、劳动生产率、工资等为标志进行分组,就只能是相邻组限重叠的组距式分组。在相邻组组限重叠的组距式分组中,若某单位的标志值正好等于相邻两组的上下限的数值时,一般把此值归并到作为下限的那一组〔适用于连续变量和离散变量。组距式分组使资料的真实性受到一定程度的损害。组距式分组的假定条件是:变量在各组内的分布都是均匀的〔即各组标志值呈线性变化。通过组距式分组以后,把各组内部各单位的次要差异抽象去了,而把各组之间的主要差异突出出来,这样,各组分配的规律性可以更容易显示出来。根据这个道理,如组距太小,分组过细,容易将属于同类的单位划分到不同的组,因而显示不出现象类型的特点;但如果组距太大,组数太少,会把不同性质的单位归并到同一组中,失去区分事物的界限,达不到正确反映客观事实的目的。因此,组距的大小、组数的确定应根据研究对象的经济内容和标志值的分散程度等因素,不可强求一致。②等距分组和不等距分组等距分组是各组保持相等的组距,也就是说各组标志值的变动都限于相同的范围。不等距分组即各组组距不相等的分组。统计分组时采用等距分组还是不等距分组,取决于研究对象的性质特点。在标志值变动比较均匀的情况下宜采用等距分组。等距分组便于各组单位数和标志值直接比较,也便于计算各项综合指标。在标志值变动很不均匀的情况下宜采用不等距分组。不等距分组有时更能说明现象的本质特征。③组限和组中值组距两端的数值称组限。其中,每组的起点数值称为下限,每组的终点数值称为上限。上限和下限的差称组距,表示各组标志值变动的范围。各组标志值的平均数,各组标志数的平均数在统计分组后很难计算出来,就常以组中值近似代替。组中值仅存在于组距式分组数列中,单项式分组中不存在组中值。组中值的计算是有假定条件的,即假定各组标志值的变化是均匀的〔与组距式分组的假定条件相同。一般情况下,组中值=〔上限+下限÷2对于第一组是"多少以下",最后一组是"多少以上"的开口组,组中值的计算可参照邻组的组距来决定。即:缺下限开口组组中值=上限—1/2邻组组距,缺上限开口组组中值=下限+1/2邻组组距。三、统计分布〔分配数列1、分配数列的概念、构成要素在统计分组的基础上,列出各组对应的单位数,形成总体单位数在各个组的分布,称统计分布,又称分配数列或次数分布。分配数列包括两个要素:总体按某标志所分的组和各组对应的单位数〔频数2、分配数列的类型分配数列包括品质分配数列和变量分配数列,分别由品质标志分组和数量标志分组形成。变量数列又有单项式数列和组距式数列,分别由单项式分组和组距式分组形成。3、频数和频率统计分组后各组对应的单位数称频数,也叫次数;各组单位数占总体单位总数的比重称频率。各组的频率大于0,所有组的频率总和等于1。在变量分配数列中,频数〔频率表明对应组标志值的作用程度。频数〔频率数值越大表明该组标志值对于总体水平所起的作用也越大,反之,频数〔频率数值越小,表明该组标志值对于总体水平所起的作用越小。组距数列中,影响各组次数分布的要素是组数、组距、组限和组中值。

有时为了更简便地概括总体各单位的分布特征,还需要编制累计频数数列和累计频率数列。累计有向上累计和向下累计的方法。向上累计是指将各组频数和频率由变量值低的组向变量值高的组累计,表明在这些数值以下所有数值所占的比重;向下累计是指将各组频数和频率由变量值高的组向变量值低的组累计,表明在这些数值以上所有数值所占的比重。〔分布数列组别各组单位数比重〔%…〔频数或次数〔频率………………品质数列—按品质标志分组形成的分配数列变量数列—按数量标志分组形成的分配数列变量数列的编制步骤将原始资料顺序排序,确定变量值的变动范围;确定组数、组距、组限;汇总,计算各组单位数,各组单位数所占比重,以及各组的累计频数和累计频率等;编制统计表例如:某班级40名学生学习成绩分组资料按成绩分组学生人数比重〔%60以下37.560-70615.070-801537.580-901230.090-100410.0合计40100例如:某车间40名工人完成生产计划百分数资料:90,65,100,102,100,104,112,120,124,98,110,110,120,120,114,100,109,119,123,107,110,99,132,135,107,107,109,102,102,101,110,109,107,103,103,102,102,102,104,104按完成计划百分数分组〔%工人数比重〔%90以下12.590-10037.5100-1102255.0110-120717.5120-130512.5130-14025.0合计40100按完成计划百分数分组〔%向上累计工人数向上累计比重〔%90以下12.590-100410100-1102665110-1203382.5120-1303895130-14040100合计————进行向下累计。按完成计划百分数分组〔%向下累计工人数向下累计比重〔%90以下4010090-1003997.5100-1103690110-1201435120-130717.5130-14025合计————4、次数分布特征现象总体的性质不同,其次数分布也不同。归纳起来主要有四种类型:①钟型分布特征是"两头大,中间小",即靠近中间的变量值分布的次数多,靠近两边的变量分布次数少,形若古钟。②U型分布其特征与钟型分布正相反,靠近中间的变量值分布的次数少,靠近两端的变量值分布次数多,形成"两头大,中间小"的U字型分布。如人口死亡现象按年龄分布便是如此。③J型分布在社会经济现象中,一些统计总体分布曲线呈J型。④洛伦兹分布洛伦兹曲线专门用以检定社会收入分配的平等程度。洛伦兹曲线拓展可运用于其他社会经济现象,研究总体各单位标志分布集中状况或平均性。洛伦兹曲线又称集中曲线,其运作的条件是:现象总体各组频率与相应的各组标志总量的比重。5、变量分配数列编制的步骤〔3,3,5①将原始资料按其数值大小重新排列只有把得到的原始资料按其数值大小重新排列顺序,才能看出变量分布的集中趋势和特点,为确定全距、组距和组数作准备。②确定全距全距是变量值中最大值和最小值的差数。确定全距,主要是确定变量值的变动范围和变动幅度。如果是变动幅度不大的离散变量,即可编制单项式变量数列,如果是变量幅度较大的离散变量或者是连续变量,就要编制组距式变量数列。③确定组距和组数前面已经介绍过组距数列有等距和不等距之分,应视研究对象的特点和研究目的而定。组距的大小和组数的多少,是互为条件和互相制约的。当全距一定时,组距大,组数就少;组距小,组数就多。在实际应用中,组距应是整数,最好是5或10的整倍数。在确定组距时,必须考虑原始资料的分布状况和集中程度,注意组距的同质性,尤其是对带有根本性的质量界限,绝不能混淆,否则就失去分组的意义。在等距分组条件下,存在以下关系:组数=全距/组距④确定组限组限要根据变量的性质来确定。如果变量值相对集中,无特大或特小的极端数值时,则采用闭口式,使最小组和最大组也都有下限和上限;反之,如果变量值相对比较分散,则采用开口式,使最小组只有上限〔用"XX以下"表示,最大组只有下限〔用"XX以上表示。如果是离散型变量,可根据具体情况采用不重叠组限或重叠组限的表示方法,而连续型变量则只能用重叠组限来表示。在采用闭口式时,应做到最小组的下限低于最小变量值,最大组的上限高于最大变量值,但不要过于悬殊。⑤编制变量数列经过统计分组,明确了全距、组距、组数和组限及组限表示方法以后,就可以把变量值归类排列,最后把各组单位数经综合后填入相应的各组次数栏中。四、统计表1、统计表的概念、构成统计表是纵横交叉的线条所绘制表现统计资料的一种表格形式。广义统计表包括统计工作各阶段所使用的一切表格。从形式上看,统计表是由总标题,横行标题、纵栏标题和指标数值四部分组成;从内容上看,统计表是由主词和宾词两部分构成。主词是统计表要说明的总体或总体分成的多个组,宾词是说明主词的统计指标。2、统计表的种类统计表根据主词是否分组及分组情况分为简单表、简单分组表和复合分组表;统计表按作用不同分为调查表、汇总表和分析表。表标题纵栏标题指标数值横行标题统计表的类型:简单表〔不分组 简单分组表复合分组表统计表的设计及填写要规范各项标题应简明确切;内容应简明扼要;各栏目按逻辑顺序依次排列,可编号;左右开口,同一栏数字对齐;缺数字用···,不存在数据用——;注明计量单位;需要时注明资料来源。等等。四、统计图 用统计图可以更直观、更形象地表示统计资料。常用的统计图有直方图、折线图、曲线图、饼图等,有平面图,也有立体图。直方图折线图饼图柱形图曲线图直方图直方图第四章综合指标一、总量指标1、总量指标的概念总量指标又称统计绝对数,它是反映社会经济现象发展的总规模、总水平的综合指标。2、总量指标的种类总量指标的种类有以下几种划分方法:按其反映总体内容的不同,分为总体单位总量和总体标志总量,前者是总体内所有单位的总数,后者是总体中各单位标志值的总和。总体单位是标志的直接承担者,标志总量不会独立于单位总量而存在。在一个特定的总体内,只存在一个单位总量,而同时并存多个标志总量,构成一个总量指标体系。同一总量指标在不同情况下可有不同的性质。例如对各企业工人总数指标来说,当研究企业平均规模时,以企业为总体单位,企业总数为单位总量,各企业工人总数为标志总量;当研究企业劳动效益时,以工人为总体单位,各企业工人总数为单位总量,这时企业的总产量成为标志总量。所以说总体单位总量和总体标志总量并不是固定不变的,二者随研究目的不同而变化。按其反映时间状况的不同,分为时期指标和时点指标。时期指标是反映某种社会经济现象在一段时间发展变化结果的总量指标;时点指标是反映社会经济现象在某一时间<瞬间>状况上的总量指标。按其所采用计量单位的不同分为实物指标、价值指标和劳动量指标。实物指标是以实物单位计量的统计指标;价值指标是以货币单位计量的统计指标;按实物单位计算的指标最大的特点是它直接反映产品的使用价值或现象的具体内容,能具体表明事物的规模和水平,但指标的综合性能较差,无法进行汇总。按价值单位计量的最大优点是它具有最广泛的综合性和概括能力,可以表示现象的总规模和总水平,但它脱离了物质内容。二者要结合应用。劳动量指标是以劳动单位即工日、工时等劳动时间计量的统计指标。3、总量指标的作用总量指标的作用表现在以下几方面:〔1总量指标是对社会经济现象总体认识的起点。〔2总量指标是编制计划,实行经营管理的主要依据。〔3总量指标是计算相对指标和平均指标的基础。二、相对指标1、相对指标的概念和表现形式相对指标又称统计相对数。它是两个有联系的现象数值的比率,用以反映现象的发展程度、结构、强度、普遍程度或比例关系。在统计分析中运用相对指标,可使我们能够更清楚地认识现象之间的关系,可以使不能直接对比的现象找到可以对比的基础。相对指标就是应用对比的方法,来反映社会经济现象中某些相关事物间数量联系程度的综合指标,其表现形式为相对数。相对指标可以反映现象之间的相互联系程度,说明总体现象的质量,经济效益和经济实力情况,利用相对指标可使原来不能直接对比的数量关系变为可比,有利于对所研究的事物进行比较分析。因为相对指标是运用对比的方法揭示现象之间的联系程度,用以反映现象之间的差异程度。所以,计算相对指标时分子分母指标是否具有可比性,是计算结果能否正确反映现象之间数量关系的重要条件。分子分母指标的可比性主要包括:指标内容是否相适应;总体范围是否一致;计算方法是否相同;计量单位是否统一。2、相对指标的种类和计算各种相对指标应用的特点和计算方法如下:〔1结构相对指标结构相对指标是在对总体分组的基础上,以总体总量作为比较标准,求出各组总量占总体总量的比重,来反映总体内部组成情况的综合指标。结构相对指标=各组〔或部分总量/总体总量计算结构相对指标能够反映总体内部结构和现象的类型特征。〔2比例相对指标比例相对指标是总体中不同部分数量对比的相对指标,用以分析总体范围内各个局部、各个分组之间的比例关系和协调平衡状况。比例相对指标=总体中某一部分数值/总体中另一部分数值〔3比较相对指标比较相对指标是不同单位的同类现象数量对比而确定的相对指标,用以说明某一同类现象在同一时间内各单位发展的不平衡程度,以表明同类实物在不同条件下的数量对比关系。比较相对指标=甲单位某指标值/乙单位同一指标值〔4强度相对指标强度相对指标是两个性质不同但有一定联系的总量指标之间的对比,用来表明某一现象在另一现象中发展的强度、密度和普遍程度。它和其他相对指标根本不同的特点,就在于它不是同类现象指标的对比。强度相对指标以双重计量单位表示,是一种复名数。强度相对指标=某种现象总量指标/另一个有联系但性质不同的现象总量指标强度相对指标的分子分母位置可以互换,因而有正指标、逆指标之分。实际应用时应注意与平均指标的区别。在掌握了几种常用的相对指标的概念、作用及计算后,要注意区分不同的相对指标。结构相对指标是以总体总量为比较标准,计算各组总量占总体总量的比重,来反映总体内部组成情况的综合指标。如:各工种的工人占全部工人的比重。比例相对指标是总体不同部分数量对比的相对数,用以分析总体范围内各个局部之间比例关系和协调平衡状况。如:轻重工业比例。比例相对指标和比较相对指标的区别是:⑴子项与母项的内容不同,比例相对指标是同一总体内,不同组成部分的指标数值的对比;比较相对指标是同一时间同类指标在空间上的对比。⑵说明问题不同,比例相对指标说明总体内部的比例关系;比较相对指标说明现象发展的不均衡程度。比较相对指标是不同单位的同类指标对比而确定的相对数,用以说明同类现象在同一时期内各单位发展的不平衡程度。如:甲地职工平均收入是乙地职工平均收入的1.3倍。主要区别是:⑴其它各种相对指标都属于同一总体内的数量进行对比,而强度相对指标除此之外,也可以是两种性质不同的但又有联系的属于不同总体的总量指标之间的对比。⑵计算结果表现形式不同。其它相对指标用无名数表示,而强度相对指标主要是用有名数表示。⑶当计算强度相对指标的分子、分母的位置互换后,会产生正指标和逆指标,而其它相对指标不存在正、逆指标之分。〔5计划完成程度相对指标计划完成程度相对指标是用来检查、监督计划执行情况的相对指标。它以现象在某一段时间内的实际完成数与计划数对比,来观察计划完成程度。计划完成程度相对指标=实际完成数/计划数此指标根据下达计划任务时期的长短和计划任务数值的表现形式不同,而有多种计算方法,实际应用时需注意区别。公式中分子减分母的差额表示计划执行的绝对效果。例1、某企业1997年某种产品单位成本为800元,1998年计划规定比1998年下降8%,实际下降6%。企业1998年产品销售量计划为上年的108%,1997~1998年动态相对指标为114%,试确定:⑴该种产品1998年单位成本计划与实际的数值。⑵1998年单位产品成本计划完成程度⑶1998年单位产品成本实际比计划多或少降低的百分点。⑷1998年产品销售计划完成程度。解:以1997年的产品单位成本为基数,根据1998年的计划百分比和实际完成百分比可以计算出:⑴1998年计划单位产品成本800×〔100%-8%=736〔元实际单位产品成本800×〔100%-6%=752〔元⑵单位产品成本计划完成程度相对数=⑶1993年实际比计划少降低6%-8%=-2%即2个百分点⑷1993年产品销售计划完成程度%=三、平均指标1、平均指标的概念、特点和种类平均指标又称统计平均数,用以反映社会经济现象总体各单位某一数量标志在一定时间、地点条件下所达到的一般水平的综合指标。平均指标的特点:〔1把总体各单位标志值的差异抽象化了;〔2平均指标是个代表值,代表总体各单位标志值的一般水平。平均指标的种类有:算术平均数、调和平均数、几何平均数、众数和中位数。前三种平均数是根据总体所有标志值计算的所以称为数值平均数,后两种平均数是根据标志值所处的位置确定的,因此称为位置平均数。平均指标的作用主要表现在:它可以反映总体各单位变量分量分布的集中趋势,可以用来比较同类现象在不同单位发展的一般水平;用来比较同一单位的同类指标在不同时期的发展状况;还可以用来分析现象之间的依存关系等相对指标数值的表现形式有有名数和无名数两种。强度相对指标与平均指标的区别主要表现在以下两点:〔1指标的含义不同。强度相对指标说明的是某一现象在另一现象中发展的强度、密度或普遍程度;而平均指标说明的是现象发展的一般水平。〔2计算方法不同。强度相对指标与平均指标,虽然都是两个有联系的总量指标之比,但是,强度相对指标分子与分母的联系,只表现为一种经济关系,而平均指标是在一个同质总体内标志总量和单位总量的比例关系。分子与分母的联系是一种内在的联系,即分子是分母〔总体单位所具有的标志,对比结果是对总体各单位某一标志值的平均。2、平均指标的计算〔1算术平均数的计算算术平均数是计算平均指标的最常用方法,它的基本公式形式是总体标志总量除以总体单位总量。在实际工作中,由于资料的不同,算术平均数有两种计算形式:即简单算术平均数和加权算术平均数或简单算术平均数适用于未分组的统计资料,如果已知各单位标志值和总体单位数,可采用简单算术平均数方法计算。加权算术平均数适用于分组的统计资料,如果已知各组的变量值和变量值出现的次数,则可采用加权算术平均数计算。在,公式中,各组次数具有权衡各组变量值轻重的作用,某一组的次数越大,则该组的变量值对平均数的影响就越大,反之越小。加权算术平均数的大小受两个因素的影响,其一是受变量值大小的影响。其二是受次数分配值即各组次数占总次数比重的影响。加权算术平均数中的权数,指的就是标志值出现的次数或各组次数占总次数的比重。在计算平均数时,由于出现次数多的标志值对平均数的形成影响大些,出现次数少的标志值对平均数的形成影响小些,因此就把次数称为权数。在分组数列的条件下,当各组标志值出现的次数或各组次数所占比重均相等时,权数就失去了权衡轻重的作用,这时用加权算术平均数计算的结果与用简单算术平均数计算的结果相同。〔2调和平均数的计算在实际工作中,有时由于缺乏总体的单位数资料,而不能直接计算平均数,这时就可采用调和平均数计算。因此在统计工作中,调和平均数常常被作为算术平均数的变形来使用。调和平均数也有简单调和平均数和加权调和平均数两种形式。例2、某月某企业按工人劳动生产率高低分组的生产班组数和产量资料如下:按工人劳动生产率分组〔件/人生产班组产量〔件50-6010825060-707650070-805525080-902255090以上11520试计算该企业工人平均劳动生产率。解:列计算表如下:按工人劳动生产率分组〔件/人组中值产量件人数50-6055825015060-7065650010070-807552507080-908525503090以上95152016合计

24070366工人平均劳动生产率〔件/人注意本题计算中权数的选择。资料中"生产班组"可以是次数,但并不是合适的权数。因为本题中的工人劳动生产率是按件/人计算的,和生产班组没有直接关系,所以它不能作为权数进行平均数的计算。本题应以"产量"权数,进行加权调和平均数的计算。加权算术平均数与加权调和平均数是计算平均指标时常常用到的两个指标。加权算术平均数中的权数一般情况下是资料已经分组得出分配数列的情况下标志值的次数。而加权调和平均数的权数是直接给定的标志总量。在经济统计中,经常因为无法直接得到被平均标志值的相应次数的资料而采用调和平均数形式来计算,使调和平均数的计算结果与加权算术平均数的计算结果相同,所以在实际应用加权算术平均数时,需注意权数的选择。应用平均指标必须注意的问题有:⑴计算和应用平均指标,必须注意现象总体的同质性;⑵用组平均数补充说明总平均数;⑶计算和运用平均数时,要注意极端数值的影响,因为算术平均数受极端数值的影响很明显。〔3众数和中位数众数和中位数是两个位置平均数,在一定条件下用它们反映变量数列的一般水平是非常有效的。众数是总体中出现次数最多的变量值。在单位数不多或一个无明显集中趋势的资料中,众数的测定没有意义。一般来讲,只有根据分组数列才能确定众数。中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。根据未分组资料和分组资料都可确定中位数。4、变异指标变异指标又称标志变动度,它综合反映总体各个单位标志值的差异程度或离散程度。以平均指标为基础,结合运用变异指标是统计分析的一个重要方法。变异指标的作用有:反映现象总体总单位变量分布的离中趋势;说明平均指标的代表性程度;测定现象变动的均匀性或稳定性程度。从以上三点作用可以看出,变异指标总是和平均指标相结合,从另一个侧面说明总体的特征。〔2变异指标的种类和计算变异指标包括以下几种:全距、平均差、标准差和变异系数。全距是测定标志变异程度的最简单的指标,它是标志的最大值和最小值之差,反映总体标志值的变动范围。用公式表示为:全距=最大标志值-最小标志值从计算可知,全距仅取决于两个极端数值,不能全面反映总体各单位标志值变异的程度,也不能拿来评价平均指标的代表性。平均差是各单位标志值对其算术平均数的离差绝对值的算术平均数,反映的是各标志值对其平均数的平均差异程度。其计算方法有简单和加权两种形式。标准差是总体中各单位标志值与算术平均数的离差平方的算术平均数的平方根,又称为均方差。它是测定标志变动程度的最主要的指标。标准差的实质与平均差基本相同,只是在数学处理方法上与平均差不同,平均差是用取绝对值的方法消除离差的正负号然后用算术平均的方法求出平均离差;而标准差是用平方的方法消除离差的正负号,然后对离差的平方计算算术平均数,并开方求出标准差。标准差的计算也有简单和加权两种形式,计算公式如下:σ=;σ=变异系数是以相对数形式表示的变异指标。它是通过变异指标中的全距、平均差或标准差与平均数对比得到的。常用的是标准差系数。变异系数的应用条件是:当所对比的两个数列的水平高低不同时,就不能采用全距、平均差或标准差进行对比分析,因为它们都是绝对指标,其数值的大小不仅受各单位标志值差异程度的影响,而且受到总体单位标志值本身水平高低的影响;为了对比分析不同水平的变量数列之间标志值的变异程度,就必须消除数列水平高低的影响,这时就要计算变异系数。变异系数反映的是单位平均水平下标志值的离散程度,因而通过计算变异系数为水平高低不同的两个数列提供了对比的基础。标准差系数的计算方法如下例3、两种不同水稻品种,分别在5个田块上试种,其产量如下:甲品种乙品种田块面积〔亩产量〔公斤田块面积〔亩产量〔公斤1.26001.58401.14951.47701.04451.25400.95401.05200.84200.9450要求:假定生产条件相同,确定哪一品种具有较大稳定性,宜于推广。解:甲品种乙品种Xfxfxfxf5001.2600——5601.58404024004501.1495-5027505501.47703012604451.0445-5530255201.0520——6000.954010090004501.2540-7058805250.8420255005000.9450-20360合计5.02500—15275合计6.03120—9900注:⑴⑵⑶因V乙<V甲故乙品种具有较大稳定性,宜于推广。第五章抽样推断教学目的和要求:通过本章学习,要对抽样推断的特点、作用及一些基本概念有正确的理解。掌握抽样推断的抽样平均误差、极限误差的计算方法。在此基础上,能运用抽样推断的一般原理,对全及总体的指标值作出具有一定概率保证程度的推断,并能正确进行相应的假设检验。统计是研究总体的,总体中包含若干个总体单位。但在很多情况下我们不可能或没有必要对总体中包含的所有单位进行观察。例如,城乡居民家庭收支情况、森林木材蓄积量、某些产品的性能和使用寿命检验等。因此只能在了解部分单位情况的基础上对总体进行统计推断。所谓统计推断是按随机原则从总体中抽取部分单位作为样本,利用样本资料所提供的信息对总体数量规律做出科学推论的一种统计分析方法。根据统计推断所研究问题的侧重点不同,具体分为参数估计〔Parameterestimation和假设检验〔Hypothesistesting。参数估计是在未知总体数量特征情况下,根据样本数据对总体数量特征做出科学的估计;假设检验是根据样本数据对事先为总体数量特征做出的某种假设进行验证,来判断这种假定的真伪。参数估计和假设检验所依据的基本理论是相同的,即都是抽样分布理论。第一节抽样分布中的几个基本概念总体与样本总体〔Population是研究对象的全体,它是由许多具有某种相同性质的个体单位组成的,总体中所包含的单位数用N表示。总体各单位的标志值用X1,X2,X3,…,XN表示。在统计推断中,总体又分为目标总体和抽样总体。目标总体是统计推断所要估计的总体;而被抽样总体是直接从中抽取样本单位的总体,又称为作业总体。两者有时是一致的,有时是不一致的。例如,对某种待出厂的产品进行质量检验,目标总体和被抽样总体都是该种产品的全部;而对我国某种产品在国际市场上的销售情况进行研究,目标总体是在国际市场销售该种商品的全部,被抽样总体只能是在指定地点和时间条件下销售的该种商品,目标总体和作业总体是不一致的。这种情况下,要特别注意作业总体的确定,作业总体确定的基础原则就是从作业总体中抽取的样本能基本上反映目标总体的情况。样本〔Sample是从总体中随机抽取的n个单位组成的集合体,对这n个某项标志进行观察所得的数据〔x1,x2,…,xn称为样本观察值。从总体中抽取样本要采取一定抽样组织方式,主要有简单随计抽样、系统抽样、分层抽样和整群抽样等。其中简单随机抽样是最基本的,但这种方式的使用往往是建立在其他几种方式的基础之上。简单随机抽样一般适用于总体单位数较少、情况较简单的现象;而对于总体单位数较多、情况较复杂的现象,就需要采用其他几种抽样组织方式特别是一些社会经济问题的研究。关于抽样组织方式我们要在本章的第四节介绍。在确定了抽样组织方式基础上,还有一个抽样方法即重复抽样和不重复抽样的问题。作为统计推断对象的总体是确定的,惟一的;而作为观察对象的样本,是不确定的,随机的。总体参数与样本统计量总体的数量特征就是总体参数,简称参数,因为总体是确定的、惟一的,所以参数也是惟一的、确定的,而且在抽样推断前是未知的,例如,总体平均数、总体比率、总体方差等。样本统计量是样本的数量特征,是根据样本构造出的,统计量是样本的函数,所以统计量也是随机的。与总体参数相对应,常使用的样本统计量有;样本平均数、样本比率、样本方差等。样本容量与样本个数样本容量是样本中所包含的单位数,一般用n表示,当n﹥30时称为大样本,当n≤30时称为小样本。某些情况下,样本容量不同,其抽样分布也不同。样本个数的多少与样本容量、抽样方法和抽样组织方式等因素有关。抽样方法样本有三种,即方便样本、判断样本和随机样本。在此讨论的抽样方法是指随机样本的抽取方法。根据从总体中随机抽取某一单位后是否将其放回到总体中去参加下一次抽取,抽样方法可分为重置抽样和不重置抽样。若放回,就是重置抽样;若不放回,就称为不重置抽样。重置抽样的特点是:n个单位的样本是由n次连续抽取的结果构成的;每次抽取的结果与前一次和后一次的结果无关,即每一次抽取都是相互独立的;每次抽取中被抽中的机会是均等的。因此,重置抽样下每次抽取都是在总体N个单位中进行的,同一单位有重复被抽取的可能。不重置抽样的特点是:n个单位的样本是由n次连续抽取构成的,但由于每次抽取不重复,因此相当于从总体中同时抽取n个单位样本;每次抽取的结果是不独立的,上一次抽取的结果影响下一次的抽取;每个单位在每次抽取时中选机会是均等,但在不同次抽取中中选机会是不均等的。因此,不重置抽样每次抽取都是在〔N-m个单位中进行的,其中m是已经抽取的单位数,这样同一个单位就没有重复中选的可能。很显然,在样本容量相同情况下,重置抽样的样本个数多于不重置抽样的样本个数,而不重置抽样的样本代表性高于重置抽样。另外,根据从总体中抽取的n个样本单位的方法,按照是否考虑中选顺序可以分为考虑顺序抽样和不考虑顺序抽样。考虑顺序抽样是指从总体中抽取n个样本单位构成样本,不仅要考虑样本各个单位的不同性质,还要考虑各单位的中选顺序。相同性质单位构成的样本,由于中选的先后顺序不同,就作为不同的样本。不考虑顺序抽样,只考虑样本的组成单位性质如何,而不考虑单位中选的先后顺序,只要样本单位性质相同,各个单位中选顺序不同,也视为一个样本。在社会经济现象和企业管理问题研究中,常使用的是不考虑顺序的不重置抽样。第二节抽样分布抽样分布就是样本统计量的概率分布。所谓样本统计量是指样本指标,它是定义在一个样本空间上的样本随机变量的函数。一个样本可以构造出去多统计量,如样本平均数、样本成数、样本方差等等,根据统计推断的需要而定。而且统计量的观察值是建立在随机抽样的基础上,随着抽到的样本单位不同,其观察值也会有变化,统计量的取值也随之变化,所以统计量本身也是随机变量。从同一总体中抽出样本容量相同的所有可能样本后,计算每个样本统计量的取值和相应的概率,就组成样本统计量的概率分布,简称抽样分布。统计量的取值不但和样本容量有关,而且和抽样方法〔试验方法有关,我们从最简单的情况入手。本节讨论简单随机样本,重置试验的抽样分布和不重置试验的抽样分布。重置抽样分布㈠样本平均数的分布样本平均数是由总体中全部样本平均数的可能取值和与之相应的概率组成。先举例说明。某施工班组5个人的日工资为34、38、42、46、50元,则:总体工人日平均工资〔元总体日工资方差现在用重置抽样的方法从5人中间随机抽2个构成样本,并求样本平均工资来推断总体的平均工资水平。由于是重置抽样,所以第一个单位是从总的5种工资中取第一种,第二单位也是从同一总体的5种中取一种,共有25个样本,各样本的日平均工资如表4-1所示。表4-1样本日工资平均数单位:元样本变量3438424650343436384042383638404244423840424446464042444648504244464850从上表容易看出样本的平均数及其次数,可以整理列出样本平均数的分布表以及图示如下:根据以上资料,可以计算样本日工资平均数的平均数和样本日工资平均数的方差。〔34×1+36×2+38×3+40×4+42×5+44×4+46×3+48×2+50×1=42〔元表4-2样本日平均数工资分布样本日平均工资〔元频数频率3411/253622/253833/254044/254255/254444/254633/254822/255011/25合计2515/254/253/252/251/25343638404244464850图4-6样本日平均工资分布图=[〔34-42²+〔36-42²×2+〔38-42²×3+〔40-42²×4+〔44-42²×4+〔46-42²×3+〔48-42²×2+〔50-42²]=16〔元²〔元从以上计算,可以得到两个重要的结论:重置抽样的样本平均数的平均数等于总体平均数,即:〔4.37上例两者都等于42元。这说明虽然每个样本平均数的取值可能与总体平均数有一定离差,但总体看来,所有样本平均数说来和总体平均数是没有离差的。抽样平均数的标准差反映样本平均数与总体平均数的平均误差程度,这是因为:所以,称之为抽样平均误差,或抽样标准误差,以表示。重置抽样的抽样平均误差等于总体标准差除以样本单位数的平方根。即:〔4.38在本例中,直接以总体标准差σ〔X和样本单位数代入上式得:〔元所得结果和上面计算的结果完全一致。它表明所有样本日平均工资和总体日平均工资的平均离差为4元。以上的结论具有普遍的意义,现在加以一般的推导。设总体变量X:X1,X2,…,,其中平均数为,标准差为。样本容量为的变量x,x1,x2,…xn。按照平均数的定义和它的数学性质。重置抽样条件下,由于x1,x2,…,xn是相互独立的,而且都是从X1,X2,…,XN中抽取,每个中选机会相等,概率均为1/N。==…==所以,〔4.39〔4.39按照方差的定义以及它的数学性质。〔4.40在重置抽样条件下,由于x1,x2,…,xn是相互独立的,而且都是从总体X1,X2,…,Xn中抽取,所以变量xi与总体X是同分布的,因而有:所以==从这一等式可以看出两项重要事实:首先,抽样平均误差比总体标准差小得多,仅为总体标准查的。例如一个县的粮食亩产高低悬殊,亩产标准差σ为80公斤,如果随机取100亩求平均亩产,那么样本平均亩产量的差异就显著缩小,平均误差只及总体亩产标准差的,即斤。所以用样本平均亩产来代表总体平均亩产是更有效的。其次,抽样平均误差和总体标准差成正比变化,而和样本单位n的平方根成反比变化。例如在同一总体中,如果抽样单位数扩大为原来的4倍,则抽样平均误差就缩小一半,如果抽样平均误差增加一倍,则样本单位数只需原来的1/4等等。㈡抽样成数的分布可以把是非标志作为〔0,1分布,其中总体平均数就是总体成数本身,,总体方差。现在从总体中用重置抽样方法抽取个单位计算样本成数,当然也是随机变量,其分布实质上就是〔0,1样本平均数的分布。样本平均数分布的性质可以推广到抽样成数的分布,即有〔4.42上式表示样本成数的平均数等于总体成数平均数,即总体成数本身。〔4.43上式表示样本成数的抽样平均误差亦即样本成数的标准差等于总体成数的方差除以样本单位数之商的平方根。[例4-6]已知某批零件的一级品率为80%,现在用重置抽样方法从中抽取100件,求样本一级品率的抽样平均误差。这表明样本成数与总体成数的抽样误差平均说来达到4%。随着样本单位数的增加,抽样平均误差也将减少。不重置抽样分布㈠样本平均数的分布仍用上面相同的例子,即从某施工班组5个人日工资分别为34、38、42、46、50元,平均工资元,方差元²中,用不重置抽样方法抽取2个构成样本,并求样本平均工资来推断总体的平均工资水平。共有5×4=20个样本,各样本的日平均工资可以列表如下:表4-3样本日工资平均数单位:元样本变量343842465034—363840423836—4042443840—444646404244—485042444648—经过整理列出样本的平均数的分布表以及图示如下:表4-4样本日平均工资公布样本日平均工资〔元频数频率3621/103821/104042/104242/104442/104621/104821/10合计2012/101/1036384042444648图4-7样本日平均工资分布图现在根据以上资料计算样本平均数的平均数和样本平均数的方差。〔元[〔36-42²×2+〔38-42²×2+<40-42>²×4+<44-42>²×4+<46-42>²×2+<48-42>²×2]=12<元>²〔元从以上计算,也可以得到两个重要的结论:不重置抽样分布虽然与重置抽样分布不同,但它的样本平均数的平均数仍等于总体平均数,即:〔4.44本例两者都等于42元,这也表明,用不重置样本平均数来估计总体平均数,从总体来看,所有样本平均数平均数说来是没有离差的。抽样平均数的标准差也是放映样本平均数与总体平均数的平均差程度。即:〔4.45所以抽样平均数的标准差也可称为抽样平均误差,或抽样标准误差,用来表示,不重置抽样的抽样平均误差等于重置抽样的抽样平均误差乘以修正因子,即:<4.46>用各项数字代入上式得:所得结果与上面按定义计算的完全一致。这说明不重置抽样的平均误差总是小于重置抽样的平均误差,从样本平均数分布来看,样本平均数更集中于总体平均数。但如果总体单位数N很大,修正因子接近于1,则两者几乎没有什么差别,因此在大样本情况下,通常可以用重置抽样误差来代替不重置抽样误差。以上结论也具有普遍意义,现在加以一般的推导。设总体变量X:X1,X2,…XN,其平均数为X,标准差为。样本容量为n的变量。按照平均数的定义:在不重置抽样条件下,x1,x2,…,xn的抽选不是独立的,现在分别讨论E〔x1,E〔x2,…,E〔xn。E〔x1表示抽第1单位为X1,X2,…,的平均数。每单位出现的概率相等,均为1/N。所以:E〔x2表示抽第2单位为X1,X2,…,XN的平均数。但要第二单位抽中某Xi则必须第一单位不为Xi,所以第1单位不为Xi而第2单位为Xi的概率为:依此类推所以<4.47>按照抽样平均误差的定义:由于是不重置抽样,样本xi与xj不是独立的,共有n〔n-1项的E〔xi-X〔xj-X≠0,现在分别讨论E〔xi-X²与E〔xi-X〔xj-X。式中k,L=1,2,…,N,PkL表示第i个被抽中的单位取值为Xk,第j个被抽中的单位取值为XL的概率。其概率等于。又由于=代入上式求得:<4.48>当总体N很大时,N-1≈N则有<4.49>㈡样本成数的分布总体成数P可以表现为是非标志〔0,1分布的平均数,而它的标准差σp也可以从总体成数推出来。即;从总体N个单位中,用不重置抽样方法取n个单位计算样本成数p,它的分布就是〔0,1样本不重置平均数的分布。即有在得布道总体成数P的资料时,也可以用实际样本的抽样成数p来代替。例如,要估计某地区10000名适龄儿童的入学率,用不重置抽样方法从这个地区抽取400名儿童,检查有320名儿童入学,求样本入学率的平均误差。根据已知条件:p=320/400=80%σ²=P〔1-P=80%×20%=16%在重置抽样下,入学率的抽样平均误差为:在不重置抽样下,入学率的抽样平均误差为:两者相比,抽样平均误差相差甚少。当总体的单位数很大时,不重置抽样分布也就趋近于重置抽样分布,抽样平均误差就接近一致了。现在把各种抽样平均误差公式汇编列表如下:表4—5抽样平均误差公式汇编重置抽样不重置抽样样本平均数误差样本成数误差第三节正态分布和正态逼近重置抽样分布和不重置抽样分布都是离散型变量分布,正态分布则是连续型的变量分布。许多客观现象属于连续型变量,例如农作物亩产量、棉花纤维长度、机械零件尺寸、测量误差等等,都必须用连续型的正态分布来描述其变化规律。在统计推断中正态分布居于特别重要地位,它作为抽样平均数和抽样成数分布的极限式,可以为抽样的概率估计提供简便的方法。正态分布的密度函数对于连续变量可以用密度函数来描述其概率分布情况,正态分布的密度函数为:式中为正态分布的平均数,σ﹥0是它的标准差。这两个参数决定正态分布函数的形状。所以正态分布可以简记为,其图形如图4—8。F〔x0x-σxx+σx图4—8正态分布图正态分布密度函数有如下特性:对称性。即以为对称轴,曲线完全对称地向两边延伸。非负性。密度函数f〔x都处于ox轴的上方。当时为最大值。f〔x的值随递增而递减。变动平均数而σ不变,则并不改正态分布的形状,而只改变正态分布的中心位置,如图4—9。在处为密度函数f〔x的拐点,即在的区间里,曲线凸向上。如图4-8。变动标准差σ而不变,则并不改变正态分布的中心位置,而只改变分布曲线的尖峭程度,如图4-10。当σ变小时,密度函数曲线的中心部分纵坐标升高,曲线两侧迅速趋于X,表示变量分布比较集中。反之,当σ变大时,则曲线呈现扁平,表示变量分布比较分散。F〔xX=-50X=5图4—9不同平均数的正态分布当X→±∞时,密度函数f〔x→0,即曲线向两边下垂,伸向无穷远处。F〔xσ=0.5σ=1σ=2x图4—10不同标准差的正态分布正态分布函数及其标准化根据正态分布密度函数f〔x为:<4.50>可以看出正态分布的函数F〔x为:<4.51>可以证明作为分布函数的两个基本性质:第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论