




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2013年初级统计师复习资料统计实务1、统计是用来处理数据的,它是关于数据的一门学问。统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据的方法分为:描述统计、推断统计。描述统计是研究数据搜集、处理和描述的统计学方法。推断统计是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验。2、数据类型:定性数据与定量数据根据获取数据的方法分为观测数据与实验数据。3、分类变量没有数值特征,所以不能对其数据进行数学运算。分类数据只能用来区分事物,而不能用来表明事物之间的大小、优劣关系。顺序数据之间可以比较大小、高低、优劣。却无法计算相互之间大小、高低或优劣的距离。顺序数据的数据仍然是用来表示事物在性质上的差异,而不能用来反映事物在数量上的差异。因此,从本质上说,顺序数据仍然是定性数据中的一种。数值型数据的计量功能远大于分类数据和顺序数据。有些数值型数据只可以计算绝对差,而有些不仅可以计算绝对差还可以计算相对差。在统计学研究中对数值型数据的研究是定量分析的主要内容。4、观测数据是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。实验数据一般是在科学实验环境下取得的数据。5、数据的直接来源原始数据:统计调查或进行实验。通过统计调查得到的数据,一般称为观测数据。通过实验法得到的数据是实验数据。运用实验法首先要注意的是实验组和对照组的产生式随机的。数据的间接来源次级数据:中国统计年鉴、专业调查咨询机构发布的调查结果数据、各企业的经营报表数据等。次级数据(第二手数据)是指由其他人搜集和整理得到的统计数据。6、搜集数据的方法:普查、抽样调查、统计报表、重点调查、典型调查。普查是专门组织的一次性的全面调查,用来调查属于一定时点上或一定时期内的社会现象总量。它适于搜集某些不能或不适宜于定期的全面统计报表搜集的统计资料。普查可以摸清一个国家的国情、国力,特别是可以了解与掌握人力、财力、物资资源状况及其利用状况,为国家制定长远规划与政策提供可靠的依据。普查的特点:是一种全面调查,具有资料包括范围全面、详尽、系统的优点;是一次性的专门调查,因为工作量大,耗资也多,时间周期较长,一般不宜经常举行。抽样调查是一种非全面调查。所有调查单位都有一定的概率被抽取。特点:第一,样本单位按随机原则抽取,排除了主观因素对选取样本单位的影响。第二,能够根据部分调查的实际资料对调查对象的总体的数量特征进行推断,从而达到对调查总体的认识。第三,在抽样调查中会存在抽样误差,但是这个误差可以事先计算并加以控制。在实际调查中,抽样方法主要有概率抽样和非概率抽样。常用的概率抽样形式:简单随机抽样、分层抽样、整群抽样、系统抽样。分层抽样是首先将总体分成不同的层或组,然后在每一层内进行抽样。系统抽样又称等距抽样,是在总体的名录单中每隔一定距离抽选一个被调查者。统计报表是自下而上逐步提供统计资料的调查方法。按照报送范围分为全面报表和非全面报表。内容包括:表式、填表说明。重点调查是在调查对象中选择一部分重点单位进行的一种非全面调查。这些重点单位虽然数目不多,但它们具有所研究对象的总量在总体总量中占据绝大部分的特点。当调查的任务只要求掌握事物的基本状况与基本的发展趋势,而不要求掌握全面的准确资料,而且在总体中确实存在着重点单位时,进行重点调查是比较适宜的。典型调查是一种非全面的专门调查,它是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查。作用:补充全面调查的不足在一定的条件下可以验证全面调查数据的真实性。优点:灵活机动,通过少数典型即可取得深入、详实的统计资料。缺点:由于受“有意识地选出若干有代表性”的限制,在很大程度上受人们主观认识上的影响,因此,必须同其他调查结合起来使用,才能避免出现片面性。7、定性数据包括分类数据和顺序数据,它们的图表展示方法基本相同。即用频数分布表和图形(饼图、条形图、环形图)描述。频数分布表中落在某一特定类别的数据个数称为频数。饼图是利用圆形及圆内扇形面积来表示数值大小的图形。主要用于总体中各组成部分所占比重的研究。条形图是用宽度相同的条形的高度或长度来表述数据多少的图形。如果想比较不同变量之间的结构差异,可以通过环形图来实现。定性数据的图示表述方法都适用于定量数据,反之不然。8、生成定量数据的频数分布表时,首先是将数据进行分组。(分组个数515)其次,确定组距。(上限-下限)最后,统计出各组的频数及频数分布表。确定组距时要考虑各组的划分是否能区分总体内部各个组成部分的性质差别要能准确清晰地反映总体单位的分布特征在研究的现象变动比较均匀的情况下,可以采用等距分组当研究的现象变动很不均匀时,一般采用不等距分组在统计各组频数时,采取上限不在内的原则,即将频数计算在与下限相同的组内。常用来表述定量数据统计图形有:直方图、折线图和散点图。此外还有茎叶图、箱线图。直方图的横坐标代表变量分组,纵坐标代表各变量值出现的频数。折线图是利用线段的升降来说明现象的变动。折线图和散点图都可以用来反映两个变量之间的关系。9、统计表一般由表头、行标题、列标题、数字资料和表外附加组成。10、数据的分布特征:集中趋势,即数据的数值向其中心值的靠拢程度。离散程度,反映数据的各数值远离其中心值的趋势和程度。11、反映定性数据集中趋势:百分比、中位数(由小到大排列后中间的数或中间两数的平均数)、众数(出现次数最多)。反映定量数据集中趋势:平均数、中位数、众数和分位数等。反映定量数据离散程度:极差、四分位差、标准差和方差。平均数、中位数和众数:平均数易被多数人理解和接受,实际中用的也较多,但主要缺点是更容易受少数极端数值的影响。中位数和众数提供的信息不像平均数那么多,但不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数和众数。极差又称全距,为最大值与最小值之差。它非常容易受极端值的影响,不能准确描述数据的分散程度。标准差是方差的平方根,它比方差更具量纲性。在一个统计样本中,其标准差越大,说明它的各个观测值分布的越分散,它的趋中程度就越差。12、离散系数是将一组数据的标准差除以其均值。13、标准分数是变量值与其平均数的离差除以标准差后的值,用以测定有一个数据在该组数据中的相对位置。14、我们所关心的参数有:总体平均数、总体方差、总体比例。15、统计量是样本的函数。构成统计量的函数中不能包含未知因素。我们关心的统计量通常有样本均值、样本方差、样本比例。16、统计量的概率分布提供了该统计量长远而稳定的信息,它构成了推断总体参数的理论基础。17、样本均值的均值是总体均值。在重置抽样时,样本均值的标准差为总体标准差的1/n。在不重置抽样时,样本均值的标准差为18、当总体服从正态分布时,样本均值一定服从正态分布,即有。若总体为未知的非正态分布时,只要样本容量n足够大(通常要求n30),样本均值仍会接近正态分布,其分布的期望值为总体均值,方差为总体方差的1/n。如果总体不是正态分布,当n为小样本时(通常要求n30),样本均值的分布则不服从正态分布。19、当样本容量比较大时(当np5且n(1-p) 5时),样本比率P近似服从正态分布,且有P的数学期望就是总体比率。P的方差:在重置抽样时,在不重置抽样时,20、标准误差用于衡量样本统计量的离散程度,在参数估计中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。样本均值的标准误差(SE或)。当总体标准差未知时,可用样本标准差s代替计算。样本比例的标准误差为。当总体比例的方差未知时,可用样本比例p(1-p)代替。21、参数估计是用样本统计量去估计总体的参数。由样本统计量来估计总体参数的方法:点估计和区间估计。常用的点估计:样本均值估计总体均值,样本比例估计总体比例,样本方差估计总体方差。22、区间估计包括样本统计量在内(有时是以统计量为中心)的一个区间,该区间通常是由样本统计量加减估计标准误差得到的。23、标准正态分布:均值为0,标准差为1。分布标准化公式:样本均值标准化公式:24、评估估计量的标准:无偏性、有效性、一致性。无偏性指估计量的期望值等于被估计的总体参数。、分别是、的无偏估计量。估计量与参数的接近程度是用估计量的方差(或标准误差)来度量的。对同一个总体参数的两个无偏估计量,有更小方差的估计量更有效。是的一致估计量。25、在对总体均值进行区间估计时,需要考虑总体是否为正态分布、总体方差是否已知、用于估计的样本是大样本(n30)还是小样本等情况。26、总体均值的区间估计:大样本,当总体方差未知时,用代替。小样本,总体方差已知,当总体方差未知时,。27、总体比例的区间估计:大样本, 。28、估计总体均值时样本量的确定:,表示置信水平。估计总体比例时样本量的确定:。如果总体比例未知,可用样本比例p代替,或取=0.5,使得达到最大。29、时间序列指反映社会、经济、自然现象的数据按时间先后顺序记录形成的数列。时间序列的构成要素:现象所属的时间、对应不同时间的统计指标数值。编制时间序列的原则:时期长短应该相等指标经济内容应该一致总体范围相同指标的计算方法、计算价格和计量单位一致数列中的各个指标值具有可比性。30、增长量分析指标:发展水平、增长量(=报告期水平-基期水平)、平均增长量。增长量分为:逐期增长量(报告期水平与前一期水平之差)、累计增长量(报告期水平与某一固定时期水平之差)。逐期增长量之和等于相应时期的累计增长量。平均增长量是某种社会经济现象在一定时期内平均每期增长(或减少)的绝对数量。一般用累计增长量除以增长的时期数目计算。31、反映时间序列增长率的指标主要有:发展速度、增长速度、平均发展速度和平均增长速度。发展速度分为环比发展速度和定基发展速度。环比发展速度是报告期水平与前一期水平之比,反映了现象逐期发展变化速度;定基发展速度是报告期水平同某一固定时期水平之比,表明现象在较长时期内总的发展变化速度,又称总速度。环比发展速度与定基发展速度的关系:环比发展速度的连乘积等于对应的定基发展速度(由此,平均发展速度)。相邻时期的两个定基发展速度相除的商等于相应的环比发展速度。呈直线趋势的时间数列,其各期环比发展速度大致相同。定基增长速度是累计增长量与某一固定时期发展水平对比的结果,表示现象在较长时期内总的增长速度。平均增长速度是环比增长速度的几何平均数。平均增长速度=平均发展速度-1。平均发展速度以环比发展速度的个数为变量值个数计算的几何平均数。32、时间序列影响因素:长期趋势、季节变动、循环变动、不规则变动。若要观察现象在一段时期内变动的基本趋势,需测定现象的长期趋势。时间序列影响因素的分解:加法模式(假定各因素是相互独立的)乘法模式长期趋势分析方法:回归方程法、移动平均法、指数平滑法。回归方程法将时间作为解释变量。直线趋势方程:(b为斜率,是每增加一个单位时间,现象平均值增加的值)移动平均法是用来测定时间数列长期趋势的最基本的方法。采用移动平均法对时间数列修匀后等到的新数列:由序时平均数组成项数少于原数列基本发展趋势与原数列一致。平滑常数。33、季节变动的特点:每年重复一次按照一定的周期进行每个周期变化强度大致相同。季节指数法:。该方法的缺陷:没有考虑长期趋势的影响季节比率的高低受各年数值大小的影响。数值大的年份,对季节比率的影响较大。一般经济现象都存在一定的长期趋势,为准确地反映现象随季节变动的特征,采取回归方程法消除法。34、指数的作用:综合反映事物的变动方向综合反映事物的变动程度利用指数可以进行因素分析研究事物在长时间内的变动趋势。统计指数是表明复杂社会经济现象总体数量综合变动的相对数。从指数理论和方法上看,统计指数所研究的主要是狭义指数。35、指数的分类:按反映对象范围,分为个体指数和综合指数。 。按所表明的经济指标性质分为数量指标(表明总体单位数量、规模等数量变动的相对数,如产量指数、销售量指数、职工人数指数)和质量指标(表明总体单位水平、工作质量等质量变动的相对数,如价格指数、单位成本指数、劳动生产率指数)。综合指数是一种加权指数。计算方法:拉氏指数和派氏指数。在编制综合指数时,首先必须:确定指数化因素固定同度量因素选择同度量因素所属的时期。 拉氏指数主要受基期商品结构的影响,派氏指数主要受报告期商品结构的影响。由于派氏指数要求每期更换权数资料,计算比较麻烦,而拉氏指数的权数固定在基期,在编制长期连续性的指数数列时比较方便,因此,拉氏指数更得到普遍的应用。但是从实际意义上看,派氏物量指数的解释更符合现实意义。在编制物价指数时,以商品的销售量或使用数量作为权数,在编制物量指数时,以商品的价格或成本作为权数。统计方法第一章 统计和数据第一节 统计学的含义一.什么是统计学统计学是一门研究数据的科学,按大百科全书的定义:统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据分两种:描述统计和推断统计描述统计是研究数据搜集、处理和描述的统计学方法。其内容 包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。统计描述是指对由实验或调查而得到的数据进行登记、审核、整理、归类、计算出各种能反映总体数量特征的综合指标,并加以分析,从中抽出有用的信息,用表格或图像把它表示出来。是统计研究的基础。它通过对分散无序的原始资料的整理归纳,运用分组法和综合指标法得到现象总体的数量特征,揭露客观事物内在数量规律性,达到认识的目的。分组法是研究总体内部差异的重要方法,通过分组可以研究总体中不同类型的性质以及它们的分布情况综合指标法是指运用各种统计指标来反映和研究客观总体现象的一般数量特征和数量关系的方法统计模型法是综合指标法的扩展。它是根据一定的理论和假定条件,用数学方程去模拟现实客观现象相互关系的一种研究方法。推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。所谓统计推断就是以一定的置信标准要求,根据样本数据来判断总体数量特征的归纳推理的方法。统计推断是逻辑归纳法在统计推理的应用,所以称为归纳推理的方法。(1)参数估计法:当总体的界限已划定,总体某一数量特征(如总体平均数、方差等)的数值就是唯一确定的,所以把总体的数量特征称为总体参数。但是总体参数通常不知道,这就需要通过样本数据计算样本统计量,并以此作为总体参数的估计量来估计总体参数的取值或取值区间,这种方法称之为参数估计法。(2)假设检验法:假设检验的特点是,由于对总体的变化情况不了解,不妨先对总体的状况作某种假设,然后根据样本实际观察的资料对所作假设进行检验,来判断这种假设的真伪,以决定行动的取舍。假设检验的方法是统计推断常用的方法。二统计的应用(一)统计的应用领域统计是适用于所有学科领域的通用数据分析方法,是一种通用的数据分析语言。(二)统计的误用与滥用统计常常被人们有意或无意地滥用。如,错误的统计定义、错误的图表提示、一个不合理的样本、数据的遗漏或逻辑错误等。这些误用有些是常识性的,有些是技术性的,有些则是故意的。作为从数据中寻找事实的统计,却被有人变成了歪曲事实的工具。第二节 数据类型统计数据是对客观现象特征的反映,而由于客观现象的复杂性,在反映这些现象特征时,可以从不同的角度进行采集,从而得到不同类型的数据。一变量与数据变数或变量,是指没有固定的值,可以改变的数。变量的具体数值称为变量值,即数据。统计数据就是统计变量的具体表现。二数据类型(一)定性变量(数据)与定量变量(数据)1.定性变量:反映“职业”、“教育程度”等现象的属性特点的变量,不能说明具体量的大小和差异。分类变量:没有量的特征,只有分类特征。这种只反映现象分类特征的变量又称分类变量。分类变量的观测结果就是分类数据。说明事物类别的一个名称。如“性别”就是一个分类变量。顺序变量:如果类别具有一定的顺序,如,“教育类别”,这样的变量称为顺序变量,相应的观察结果就是顺序数据。说明事物有序类别的一个名称,这类变量的具体表现就是顺序数据。2.数值(定量)变量:反映“天气温度”、“月收入”等变量可以用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异。这些变量就是定量变量也称数值变量,定量变量的观察结果成为定量数据。说明事物数字特征的一个名称。 分类变量没有数值特征,所以不能对其数据进行数学运算。分类数据只能用来区分事物,而不能用来表明实物之间的大小、优劣关系。顺序变量比分类变量向前进一步,它不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。显然,顺序数据的功能比分类数据要强一些,对事物的划分也更精细一些。但顺序数据的数据之间虽然可以比较大小,却无法计算相互之间的大小、高低或优劣的距离。只是反映事物在性质上的差异,而不能用来反映事物在数量上的差异。因此,从本质上,顺序数据仍然是定性数据中的一种。数值型数据作为统计研究的主要资料,其特征在于它们都是以数值的形式出现的,有些数值型数据只可以计算数据之间的绝对差,而有些数值型数据不仅可以计算数据之间的绝对差,还可以计算数据之间的相对差。其计量精度远远高于定性数据。在统计学研究中,对数值型数据的研究是定量分析的主要内容。从上述三种数据的基本特点可以看出,这三类数据对事物的描述是由定性到定量、由低级到高级,从粗略到精细。在统计研究中,需要明确各种数据所适用的统计方法,正确的选择和应用,这是正确进行统计研究的基本要求。(二)观测数据和实验数据按获取数据的方法不同,可分为观测数据和实验数据。观测数据可能是全面数据也可能是样本数据(局部),实验数据一般都是样本数据。1. 观测数据。观测数据是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有认为的控制和条件约束。在社会经济问题研究中,观测是取得数据最主要的方法。2. 实验数据。实验数据一般是在科学实验环境下取得的数据。在实验中,实验环境是受到严格控制的,数据的产生一定是某一约束条件下的结果。在自然科学研究中实验的方法应用非常普遍。第三节 数据来源与搜集数据的方法一数据的来源从使用者的角度看,统计数据资料的来源主要有两种渠道:一种是通过直接的调查或实验获得的原始数据,这是统计数据的直接来源,一般称为原始或第一手统计数据;另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称为次级数据或第二手间接的统计数据。一切间接的统计数据都是从原始的、第一手数据过渡而来的。(一) 数据的直接来源原始数据搜集数据最基本的形式就是进行统计调查或进行实验活动,统计调查或进行实验就是统计数据的直接来源。1. 统计调查统计调查是指根据统计研究预定的目的、要求和任务,运用科学的方法,有计划、有组织地向客观实际搜集资料的过程。通过统计调查得到的数据,一般称为观测数据。2. 实验法实验法是直接获得统计数据的又一重要来源。通过实验法得到的数据就是实验数据。实验法不仅是一种搜集数据的方式,也是一种重要的研究方式。它是通过有意识地改变或控制某些输入变量,观察其他输出变量的变化,从而达到对事物本质或相互联系的认识。未来观察对输入变量的控制是否导致了输出变量的改变,在实验中,往往需要将研究对象分为两个组,一个是实验组,一个是对照组,对实验组的输入变量加以控制或改变,而对照组则不加控制,根据两组的输出结果,可以看到输入变量对输出变量的影响。运用实验法要注意的是:首先,实验组和对照组的产生应当是随机的,研究对象的不同单位应当被随机地分配到实验组或对照组,而不应是经过有意识的挑选的。其次,实验组和对照组还应当匹配的,也就是研究对象的背景资料应当是大体相同的,至少不要差异太大。不论是统计调查还是实验,所搜集的数据都是原始数据,这是统计数据最基本的来源。(二)数据的间接来源次级数据虽然统计数据的搜集主要是指对原始数据的搜集,后面介绍的统计调查的方法也是围绕搜集原始资料展开的,但数据的收集实际上不仅包括对原始数据的收集也包括对次级数据(第二手收据)的收集,在很多情况下,统计研究都是在掌握次级数据的基础上进行的。次级数据是指由其他人搜集和整理得到的统计数据。这种来自他人调查整理基础上的数据我们把它称为数据的间接来源。数据的间接来源有:(1)公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校、科研机构。(2)尚未公开发表的统计数据,如各企业的经营报表数据、专业调查咨询机构为公开发布的调查结果数据。需注意的是,如果公开引用未公开发表的数据需要征得数据所有者的同意,同时要为自己发布的数据负责。恰当地运用间接数据在实际中往往能够节约时间和费用,取得较好的成果和效益,因此,成为许多统计研究人员在进行实证分析时的首选数据来源。但在应用时要注意:(1)是否了解并正确理解了间接数据中变量的含义、计算口径、计算方法,以防止误用、错用他人的数据。(2)引用间接数据时要注明数据来源,尊重他人的劳动成果和知识产权。二搜集数据的方法统计调查是根据调查的目的与要求,运用科学的调查方法,有计划、有组织第搜集统计数据资料的过程。常用的统计调查种类有:(一) 普查普查:普查是专门组织一次性的全面调查,用来调查属于一定时点或时期内的社会经济现象的总量。它适用于搜集某些不能或不适宜于定期的全面统计报表搜集的统计资料,以摸清重大的国情、国力。如,人口普查、农业普查、经济普查、全国第三产业普查等。普查的特点:它是一种全面调查,具有资料包括范围全面、详尽、系统的优点;它是一次性的专门调查,因为普查的工作量大,耗资也多,时间周期较长,一般不宜经常举行。普查要遵循以下几点:a确定普查的标准时间:普查的标准时间是指登记调查单位项目所依据的统计时点。所有的调查资料都必须是反映这一时点上的情况。例如,我国第四人口普查,1990年7月1日零时为普查登记的标准时点。凡是在这个时点以前死亡和这个时点以后出生的,都不能计入这次普查的人口数内。这样才可避免所登记重复或遗漏。b普查的登记工作应在整个普查范围内同时进行,以保证普查资料的实效性、准确性,避免资料的搜集工作拖的太久c同类普查的内容和时间在历次普查中应尽可能保持连贯性。普查的组织形式有两种:一种是组织专门的普查机构,派专门的调查人员对被调查单位直接进行登记;另一种是利用一定的组织系统,由被调查单位根据本单位的原始记录和实际情况,填写调查表,然后上报。(二) 抽样调查抽样调查:抽样调查是按随机原则,从总体中抽取一部分单位作为样本来进行观察,并根据其观察的结果来推断总体数量特征的一种非全面调查方法。抽样调查具有的特点:第一,样本单位按随机原则抽取,排除了主观因素对选取样本单位的影响。第二,能够根据部分调查的实际资料对调查对象的总体的数量特征进行推断,从而达到对调查总体的认识。第三,在抽样调查中会存在抽样误差,但是这个误差可以事先计算并加以控制。随机抽样一般是指每个总体单位都有同等被抽中的机会,但是在实际调查中,并不完全是这种情况。通常采用的抽样组织形式主要有以下几种:a.简单随机抽样:又称纯随机抽样,它是指对总体不作任何处理,不进行分类也不进行排除,而是完全按随机的原则,直接从总体中抽取样本单位加以观察。从理论上说,是最符合抽样调查的随机原则,是抽样调查的最基本形式。具体方法有:直接抽选法、抽签法和随机数表法。b分层抽样:又称类型抽样或分类抽样。是先将总体各单位按主要标志加以分层,而后在各层中按随机的原则抽取若干样本单位,由各层的样本单位组成一个样本。c等距抽样:又称机械抽样或系统抽样。它是将总体全部单位按某一标志排队,而后按固定的顺序和相等间隔在总体中抽取若干样本单位,构成一个容量为n的样本。d整群抽样:是将总体各单位划分为若干群,然后以群为单元,从总体中随机抽取一部分群,对被抽中的群内所有单位进行全面调查。整群抽样对总体划分群的基本要求是:第一,群与群之间不重叠,即总体中的任一单位只能属于某个群;第二,全部总体单位毫无遗漏,即总体中的任一单位必须属于某个群。e多阶段抽样:当总体很大时,可把抽样过程分成几个过渡阶段,到最后才具体抽到样本单位。(三) 统计报表统计报表制度:它是按照国家统一规定的调查要求与文件(指标、表格形式、计算方法等)自下而上的提供统计资料的一种报表制度。在官方统计的经常调查中目前依然发挥着一定的作用。按照报送范围,统计报表分为全面报表和非全面报表。按报送周期,统计报表主要有月报、季报、年报组成,月报内容简单,时效性强,年报则内容比较全面。统计报表的内容包括表式和填表说明。对于大型、国有企业来说,利用统计报表搜集数据,具有时间快、成本低的优点,但对于大量的小型、非国有经济单位,则难以全面采用统计报表调查。(四) 重点调查重点调查:是一种非全面调查,它是在调查对象中选择一部分对全局具有决定性作用的重点单位进行调查。适用于调查任务只要求掌握调查总体的基本情况,调查标志比较单一,调查标志表现在数量上集中于少数单位,而这些少数单位的标志值之和在总体中又占绝对优势的情况。重点调查组织方式有两种:一是专门组织的一次性调查;另一种是利用定期统计报表经常性地对一些重点单位进行调查。其优点是花费较少人力、物力,在较少时间内及时取得有关的基本情况。(五) 典型调查典型调查:根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行调查,主要作用是:第一,补充全面调查的不足;第二,在一定条件下可以验证全面调查数据的真实性。其优点是灵活机动、通过少数典型即可取得深入详实的统计资料,缺点是受“有意识地选出若干有代表性”的限制,易受人们主观认识上的影响,必须同其他调查结合起来使用,才能避免出现片面性。表一 各类统计调查方法的特点调查范围调查时间收集资料的方法普查全面一次采访、报告或空间遥感抽样调查非全面经常或一次直接观察或采访统计报表全面或非全面经常报告重点调查非全面经常或一次报告典型调查非全面一次采访第二章 数据描述第一节 用图表展示定性数据本节主要介绍定性数据的图表展示方法。定性数据包括分类数据和顺序数据,它们的图表展示方法基本相同。通常可以用频数分布表和图形来描述。一.生成频数分布表定性数据本身是对事物的一种分类,因此,只要先把所有的类别都列出来,然后统计出每一类别的频数,就是一张频数分布表。频数分布表中落在某一特定类别的数据个数称为频数。频数分布包含了很多有用的信息,通过它可以观察不同类型数据的分别情况。二定性数据的图形表示定性数据(分类数据和顺序数据)可以描绘出它们各类的比例,常用饼图和条形图表示。(一) 饼图饼图又称圆饼图、圆形图等,它是利用圆形及圆内扇形面积来表示数值大小的图形。饼图主要用于总体中各组成部分所占比重的研究。(二) 条形图条形图是用宽度相同的条形的高度或长度来表述数据多少的图形,用于观察不同类别数据的多少或分布情况。绘制时,各类别可以放在纵轴,也可以放在横轴。(三) 环形图饼图只能显示一个变量(如年龄变量)各部分所占的比重。如果我们想比较不同变量之间的结构差异,就可以通过环形图来实现。首先,利用产生频数表的方法先做出分性别的年龄分布表然后,根据上表再绘制出环形图。第二节 用图表展示定量数据定性数据的图示表示方法,也都适用于定量数据。但定量数据还有一些特定的图示方法,它们并不适用于定性数据。一生成频数分别表生成定量数据的频数分布表时,首先是将数据进行分组,然后再统计出各组别的数据频数即可。首先,要对数据进行分组,一般的分组个数在515之间。其次,要确定组距。所谓组距是指每个组变量值中的最大值与最小值之差。每组最大值称为该组上限,最小值称为该组下限。则组距等于上限与下限之差,即组距=上限-下限在确定组距是,一般应掌握的原则:一是要考虑各组的划分是否能区分总体内部各个组成部分的性质差别。如果不能正确反映各部分质的差异,必须重新分组。二是要能准确地清晰地反映总体单位的分布特征。在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很不均匀时,例如急剧的增长或急剧的下降,波动的幅度很大时,则一般采用不等距分组。在实际工作中,要结合实际情况确定各组的组距。最后,统计出各组的频数及频数分布表。在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。二定量数据的图形表示常用来表述定量数据统计图形有:直方图、折线图和散点图。(一) 直方图对于一个定量数据,直方图是一个常见的而且非常重要的图形。它的横坐标代表变量分组,纵指标代表各变量值出现的频数,这样,各组与相应的频数就形成了一个矩形,即直方图。(二) 折线图折线图是利用线段的升降来说明现象变动的一种统计图,它主要用于表示现象的分配情况、现象在时间上的变化和两个现象之间的依存关系等。(三) 散点图散点图能反映两个变量的关系,判断其变化的方向是否相同应特别注意各种图表的生成方式和运用。第三节 用统计表来表示数据统计表和统计图是显示统计数据的两种方式。在现实生活中,统计表和统计图形一样充斥在我们的生活总。它通过对枯燥数据的整理,利用一些简单的表格,让我们一目了然地了解某些事物的现象。统计表是一种用密集的形式归纳数据的方法,它主要利用行和列中的数据来表述现象特征。人们利用统计表的主要目的有:一是在文章中使用它以支持自己的观点;二是利用它组织数据。把整理汇总得出的统计数据资料,按照一定的结构和顺序,有系统地排列在一定的表格内,就形成一张统计表。统计表的主要优点是:能使统计资料条理化、系统化,能清晰的表达统计资料的内容,且简明易懂、节省篇幅,便于对表中资料进行对比,并易于检查数字的完整性和正确性。(1) 统计表的结构统计表一般由五个部分组成,即表头、行标题、列标题、数字资料和表外附加构成。总标题:统计表的名称。简明扼要,一般放在表格上方中间位置横行标题和纵栏标题:纵栏:表明标志和指标的名称 ,一般置于表格上方;横行标题:表明调查单位和分组的名称,一般置于表格左边。统计数字(指标数值)。主词栏:表中资料所说明的对象,位于表的左边;宾词栏:各种指标,位于表的右侧。(2)统计表的种类按用途不同分类a.调查表:用来搜集统计资料的表格;b.整理表:用于汇总或整理调查资料,以及表现统计汇总或整理结果的表格;c.分析表:用于对整理所得的统计资料进行定量分析的表格。按总体分组不同分类a.简单表:对总体未经任何分组,仅是简单地列出统计资料所属时间或单位的表格。b.简单分组表:对总体仅按一个标志进行分组的统计表。c. 复合分组表:对总体按两个或两个以上标志进行层叠分组。按统计资料的时间和空间分类a.空间数列表:指同一时间条件下,不同空间范围的统计表。它说明在静态条件下,客观社会经济现象在不同空间范围的分布状况。b.时间数列表:指同一空间条件下,不同时间范围的统计表。它说明在动态条件下,客观社会经济现象发展变动状况。c.时空结合表:是同时反映社会经济现象在不同空间和不同时间内的数量分布的统计表。(3)统计表的设计总的要求:简练、明确、实用、美观,便于比较。统计表设计应注意事项a.统计表应设计成由纵横交叉线条组成的长方形表格,长与宽之间保持适当的比例。b.线条绘制。表的上下端应以粗线绘制,表内纵横线以细线绘制。表格左右两端一般不划线,采用“开口式”。c.合计栏的设置。统计表各纵列若须合计时,一般应将合计列在最后一行,各横行若须要合计时,可将合计列在最前一栏或最后一栏。d.栏数的编号。如果栏数较多,应当按顺序编号,习惯上主词栏以“甲、乙、丙、丁”为序号,宾词栏编以(1)、(2)、(3)、(4)为序号。统计表内容设计应注意事项a.标题设计:标题简明扼要。b.指标数值:数字填写整齐,对准位数。当数字因小可略而不计时,可写上“0”;当缺某项数字资料时,可用“”表示;不应有数字时用符号“”表示。c.计量单位:当全表只有一种计量单位时,可以把它写在表头的右上方。如果表中各栏的指标数值计量单位不同,可以横行标题后添一列计量单位。d.注解或资料来源。第四节 用数字来概括数据针对一组数据的分布特征,我们可以从两个方面来考查它:一是该组数据的集中趋势,即该组数据的数值向其中心值的靠拢程度。二是该组数据的离散程度,它反映的是该组数据的各个数值远离其中心的趋势和程度。一定性数据的数字特征由于定性数据主要是计数,比较简单,对定性数据的集中趋势常用的方法就是计算比例、百分比、中位数和众数。中位数是将总体各单位标志值按大小顺序排列,处于中间位置的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。众数就是数据中出现次数或出现频率最多的数值。在定性数据中,由于记录的是频数,因此众数用得多些。二定量数据的数字特征反映定量数据特征的统计量常用的有:反映数据集中趋势的水平度量:平均数、中位数、众数和分位数等反映数据离散程度的差异度量:极差、四分位差、标准差和方差(一) 水平的度量1. 平均数平均数也称为均值,是把某一组数据进行算术平均,用以表述某一事物的平均水平,它在统计中叫做均值。简单平均数:把一个变量的所有观测值相加再除以观测值的数目加权平均数:如果原始数据为分组数据,则采用加权平均数公式计算,其中的权数f为各组的频数。2. 中位数数字按顺序排列后,处于中间位置的数即是。如总位数为奇数,中间数即是;若为偶数,则是中间两位数的平均值。3. 众数数组中出现次数最多的数。4. 用哪个值代表一组数据平均数、中位数和众数是描述数据水平的三个主要统计量,要合理使用则需要了解它们的不同特点和应用场合。平均数易为多数人理解和接受,实际中用的也较多,但主要缺点是更容易受少数极端数值的影响,对于严重偏态分布的数据,平均数的代表性较差。中位数和众数提供的信息不像平均数那样多,但它们也有优点,比如不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数和众数,这时它们的代表性要比平均数好。(二) 差异的度量对社会经济现象不仅需要对现象的集中趋势进行分析(平均数、中位数、众数),而且还需要进行差异程度分析即离散程度分析。研究事物现象的差异性,从差异性的事物现象中,寻求解决差异性的一些方法。1. 极差( Range)极差又称全距,是最简单的离散指标,它是一组数据中的最大值和最小值之差。计算极差非常简单,含义也很直观。但是,它仅仅受最大值和最小值的影响,不能反映一组数据 分布的情况,而且它非常容易受数据中极端值的影响。因此,它不能准确地描述数据的分散程度。2. 方差和标准差为了反映数据中的每一个观察值与平均水平的差异程度就必须引入方程和标准差的概念。方差:将各个变量值和其均值离差平方的平均数,作为样本数据,它反映了样本中各个观测值到其均值的平均离散程度。其计算公式为:未分组的计算公式:分组的计算公式:标准差是方差的平方根,它与方差相比更具量纲性,而且与变量值的计量单位相同,使用的范围比方差更广泛。其计算公式为:未分组的计算公式:分组的计算公式:式中是总体标准差,s为样本标准差。总体自由度为n,样本自由度为n-1,两种有差异,是因为,自由度是指一组数据中可以自由取值的个数,当样本数据的个数为 n时,其样本均值是确定的,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值。所以,样本的标准差只能除以n-1 ,而不能除以n .在一个统计样本中,其标准差越大,说明它的各个观测值分布的越分散,它的趋中程度就越差。反之,其标准差越小,说明它的各个观测值分布的越集中,它的趋中程度就越好。3. 离散系数离散系数也称变异系数、标准差系数,它是将一组数据的标准差除以其均值,用来测度数据离散程度的相对数。其计算公式为:总体数据的离散系数:样本数据的离散系数:4. 标准分数标准分数也称标准化值或Z分数,它是变量值与其平均数的离差除以标准差后的值,用以测定某一个数据在该组数据中的相对位置。其计算公式为:标准分数最大的用途是可以把两组数据中的两个不同均值,不同标准差的数据进行对比,以判定它们在各组中的位置。见课本P271例题.标准分数对比的两个数据在各自数组中的相对位置。第三章 参数估计第一节 抽样分布一.总体分布与总体参数总体分布是总体中所有观测值所形成的分布。总体参数是对总体特征的某个概括性的度量。通常有总体平均数()、总体方差()、总体比例()等。二.统计量和抽样分布总体参数是未知的,但可以利用样本信息来推断。统计量是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量。统计量是样本的函数,如样本均值()、样本方差()、样本比例(p)等。构成统计量的函数中不能包括未知因素。由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出的统计量也就是随机的。抽样分布是样本统计量所形成的概率分布,如样本均值的分布、样本比例的分布等。在现实中,一个样本的统计量我们可以观察到,但不能观察到所有可能的统计量值,抽样分布是一种理论分布。统计量的取值是依据样本而变化的,不同的样本可以计算出不同的统计量值。那么,根据统计量来推断总体参数就必然具有某种不确定性。但我们可以给出这种推断的可靠性,而度量这种可靠性的依据是统计量的概率分布,并且我们确知这种分布的某些性质。因此,统计量的概率分布提供了该统计量长远而稳定的信息,它构成了推断总体参数的理论基础。(一)样本均值的抽样分布设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有Nn 种抽法,即可以组成Nn不同的样本,在不重复抽样时,共有个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明: 即样本均值的均值就是总体均值。在重置抽样时,样本均值的方差为总体方的1/n,即在不重置抽样时,样本均值的方差为其中,为修正系数,对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,N比较大而n/N5% 时,修正系数可以简化为1-n/N,当N比较大,而n/N5%时,修正系数可以近似为1,即可以按重置抽样计算。当总体服从正态分布时,样本均值一定服从正态分布,即有XN(,)时,N(,)若总体为未知的非正态分布时,只要样本容量 n足够大(通常要求n 30),样本均值仍会接近正态分布。样本分布的期望值为总体均值,样本方差为总体方差的1/n 。这就是统计上著名的中心极限定理。该定理可以表述为:从均值为,方差为的总体中,抽取样本量为n的随机样本,当n充分大时(通常要求n 30),样本均值的分布近似服从均值为,方差为的正态分布。如果总体不是正态分布,当n为小样本时(通常n30),样本均值的分布则不服从正态分布。(二)样本比例的抽样分布比例是指具有某种属性的单位占全部单位数的比重。总体比例(通常用表示)是总体中具有某种属性的单位数占全部总体单位数的比例,是一个参数,通常是未知的,也是我们想通过抽样得到的说明总体特征的数据。样本比例(通常用p表示)是随机抽取的样本中具有某种属性的单位数占样本全部单位数的比例,是一个样本统计量,是随机变量,对于一个已经抽取出来的样本来讲,是可以观察到的。描述所有可能样本比例的概率分布就是样本比例的抽样分布。当样本容量比较大时,样本比例p近似服从正态分布,且有p的数学期望就是总体比率,即 而P的方差与抽样方法有关,在重置抽样下为,在不重置抽样下为即在重置抽样时, p的分布为pN(,)在不重置抽样时, p的分布为pN(,)一般讲,当 np5,并n(1-p) 5时,就可以认为样本容量足够大。对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,当N比较大,而n/N5%时,修正系数可以近似为1,这时也可以按重置抽样计算。从上述分析可以看出,随着样本容量的增大,样本比例的方差愈来愈小,说明样本比例随样本容量增大,围绕总体比例分布的峰度愈来愈高。三.统计量的标准误差统计量的标准误差也称为标准误,是指样本统计量分布的标准差。可用于衡量样本统计量的离散程度。在参数估计中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。样本均值的标准误计算公式为:当总体标准差未知时,可用样本标准差s代替计算,这时计算的标准误差称为估计标准误差。相应地,样本比例的标准误计算公式为同样,当总体比例的方差未知时,可用样本比例的方差p(1-p)代替。第二节 参数估计参数估计是用样本统计量去估计总体的参数。用样本统计量来估计总体参数有两种方法:点估计和区间估计一点估计与区间估计点估计,是用样本统计量的实现值来近似相应的总体参数。区间估计,是根据估计可靠程度的要求,利用随机抽取的样本的统计量确定能够覆盖总体参数的可能区间的一种估计方法。区间估计是包括样本统计量在内(有时是以统计量为中心)的一个区间,该区间通常是由样本统计量加减估计标准误差得到的。与点估计不同,进行区间估计时,根据样本统计量的抽样分布,可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025北京市通州区马驹桥镇招考20人考前自测高频考点模拟试题及1套参考答案详解
- 2025广西贵港市公安局港南分局面向社会招聘警务辅助人员16人模拟试卷及一套答案详解
- 2025昌吉州事业单位引进急需紧缺专业人才暨“千硕进昌”上半年引才考前自测高频考点模拟试题附答案详解(黄金题型)
- 2025年上海城投集团社会招聘考前自测高频考点模拟试题及一套答案详解
- 2025空军军医大学幼儿园招聘(4人)考前自测高频考点模拟试题有完整答案详解
- 2025河南郑州市教育局直属32所学校招聘323人模拟试卷及答案详解(夺冠)
- 2025湖南衡阳珠晖法院招聘聘用制司法辅警3人模拟试卷及参考答案详解
- 2025年延吉市党史地方志办公室招聘公益性岗位的考前自测高频考点模拟试题附答案详解(突破训练)
- 2025贵阳学院人才引进15人模拟试卷含答案详解
- 2025黑龙江哈尔滨市松北区卫生健康局招聘乡村医生10人考前自测高频考点模拟试题及答案详解(夺冠)
- 广东省2025年度初级注册安全工程师职业资格考试金属非金属矿山安全复习题及答案
- 十二经络课件
- Starter Unit 3 Welcome 单元测试(含答案)人教版(2024)七年级英语上册
- 玻璃委托代加工合同范本
- 年产9000吨塑料粒子项目报告表
- 秦朝服饰设计分享
- 子宫脱垂的中医护理查房
- 2024年12月英语四级真题及答案-第1套
- 大学生禁毒知识竞赛题库题及答案
- 2024年高校教师资格证考试题库(各地真题)
- 病房抢救室工作制度
评论
0/150
提交评论