统计学讲义课件_第1页
统计学讲义课件_第2页
统计学讲义课件_第3页
统计学讲义课件_第4页
统计学讲义课件_第5页
已阅读5页,还剩19页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1

《统计学》讲义

第一章绪论

教学重点和难点:统计学的含义;统计学的分科。

第一节统计与统计学

一.统计学的含义

1.统计工作(统计实践):是指对统计数据进行搜集、整理和分析的活动

过程。

2.统计数据(统计资料):是统计工作的成果。统计数据的搜集是取得统

计数据的过程,它是进行统计分析的基础。离开了统计数据,统计方法就失去

了用武之地。

统计工作和统计数据的关系是过程和成果的关系。即统计数据是统计工作

提供的,是统计活动的成果。

3.统计学:是一门有关统计数据的科学。它研究如何搜集、整理资料

和进行数量分析,推断的一门方法论科学。是统计工作经验的总结和概括。

统计工作和统计学是实践和理论的关系。统计理论来源于统计实

践,它是统计工作经验的总结和概括。反过来,统计理论又是指导统计工作的

原则和方法。

总之,统计工作,统计数据,统计学三者之中,统计工作是基础,

是源。没有统计工作,就不会产生统计数据,没有统计工作,缺少这个实践基

础,统计学也就不可能形成和发展。

二.统计数据的规律与统计方法

第二节统计学的分科

统计学大致有以下两种分类:

根据统计方法的构成,统计学可以分为描述统计学和推断统计

学。

1.描述统计学:通过对现象的调查或观察一得到大量的统计数据一用图

表形式对所收集到的数据进行加工处理与显示一就这些数据的分布特征(如集

中趋势,离散趋势等)计算出一些概括性的数字(如平均数,标准差,相关系

2

数等等)一得出反映客观现象的规律性数量特征。

2.推断统计学:推断统计学是指只凭样本数据去推断总体数量特征的技

术方法。

样本数据

总体数据

图1-1统计学探索客观现象数量规律性的过程

注1:描述统计学不必深入一层地去试图推论数据本身以外的任何事

情;推断统计学则在样本数据的基础上深入一步地分析、研究和推断,以推知

资料本身以外的情况和数量关系。

注2:描述统计学用的是总体数据,推断统计学则往往用样本数据。

在现实问题中,我们得到的数据主要是样本数据,因此,推断统计学越来越重

要,是统计学的核心内容。

注3:统计学的发展过程中,先有描述统计学,后有推断统计学,从描

述统计学发展到推断统计学,是统计学发展成熟的标志。

二.从统计方法研究和统计方法的应用角度看,统计学可分为理论统

计学和应用统计学。

理论统计学主要是指统计学的数学原理和方法原理。从事统计理论和

概率论

(包括分布理论、大数定

律和中心极限定理等)

反映客观现

象的统计数

描述统计学(包

括统计数据的收

集、整理、显示

和分析

推断统计学(利用样本信

息和概率论对总体的数量

特征进行估计和检验等)

总体内

在的数

量规律

3

方法研究的人员需要有坚实的数学基础。理论统计学是统计的理论基础。

统计学是一门分析数据的科学,因而统计方法的应用几乎扩展到了所有的

科学研究领域。

第三节统计学中的一些基本概念

总体和总体单位

1.总体

总体是指根据研究目的确定的所要研究的同类事物的全体。

说明:⑴统计总体是根据统计研究目的确定的。

⑵统计总体是客观存在的。

⑶统计总体中的所有个别事物具有某种同一性质。

2.总体单位

总体单位是指构成总体的个别事物(基木单元),也称个体。例如:我

们要研究全国乡镇企业发展情况,则总体为全国乡镇企业,总体单位为每个乡

镇企业。

二.标志和指标

1.标志

标志是说明总体单位属性和特征的名称。标志和总体单位的关系是非

常明确的,总体单位是标志的直接承担者,标志是依附于总体单位的。

标志按表现形式不同分为品质标志和数量标志。①品质标志:表示总

体单位性质方面的特征;它只能用文字表示。②数量标志:表示总体单位数量

方面的特征;用数值表示。

标志表现:是标志特征在各单位的具体表现,有品质标志表现和数量

标志表现之分。数量标志的表现即标志值。

2.指标

①概念:指标是反映总体数量特征的概念及其数值。

②分类

指标按反映的数量特点不同可分为数量指标和质量指标。

I.数量指标:说明总体规模大小,水平高低,数量多少的指标;用绝对

数表示。

4

II.质量指标:说明总体相对水平或工作质量的统计指标;用相对数、平

均数表示。

两者关系:数量指标是计算质量指标的基础。

③特点

I.数量性(可量性)

II.综合性

III.客观性(具体性)

三.变异和变量

1.变异:可变标志的属性或特征由一种状态变到另一种状态,统计上称

之为变异。

2.变量:在统计中,一般把说明现象某种特征的概念称为变量。变量的

具体表现称为变量值。如果一个变量是由品质数据来记录的称为品质变量,如

“性别”就是一个品质变量。如果一个变量是由数量数据来记录的称为数量变

量或数字变量。数字变量根据其取值的不同,可以分为离散变量和连续变量。

离散变量其取值都是以整数位断开,可以一一列举,如“企业数”等。连续变

量其取值是连续不断的,不能一一列举,如“温度”等。但多数情况下我们所

说的变量都是指数字变量。

第二章统计数据的搜集与整理

教学重点和难点:数据的搜集方法;调查方案设计;数据分组。

第一节数据的计量与类型

一获募屏砍叨?

统计数据是进行统计分析的基础,统计数据靠我们去搜集才能得到,但在搜

集数据之前,先要对现象进行计量或测度,这就涉及到数据的计量尺度问题。按

照计量学的一般分类方法,对统计数据分为四种计量尺度或计量水准,即定类尺

度、定序尺度、定距尺度和定比尺度。

(-)定类尺度

定类尺度也称类别尺度或列名尺度,是最粗略、计量层次最低的计量尺度。

这种计量尺度只能按照事物的某种属性对其进行平行的分类或分组。例如人口按

照性别分为男、女两类等。分类就是将所观察的个体(总体单位)分为不同的类

5

型。定类尺度只是测度了事物之间的类别差,对各类之间的其他差别却没有反映。

使用该尺度对事物所作的分类,各类别之间是平等的并列关系,无法区分优劣或

大小,各类别之间的顺序是可以改变的。对定类尺度的计量结果,通常是通过计

算出每一类别中各元素或个体出现的频率或频数来进行分析。

在使用定类尺度对事物进行分类时,必须符合穷尽和互斥的要求。定类尺度

是对事物最基本的测度,是其他计量尺度的基础。它具有=和#的数学特性。

(二)定序尺度

定序尺度又称顺序尺度,是对事物之间等级差或顺序差别的一种测度。该尺

度不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。例

如,考试成绩可以分为优、良、中、及格、不及格等等。

定序尺度对事物的计量要比定类尺度精确一些,但它只测度了类别之间的顺

序,而未测量出类别之间的准确差值。因些该尺度具有>和<的数学特性,但不

能进行加、减、乘、除等数学运算。

(三)定距尺度

定距尺度也称间隔尺度,它不仅能将事物区分为不同类型并进行排序,而且

可以准确地指出类别之间的差距是多少。定距尺度是对事物类别或次序之间间距

的测度。因此,定距尺度的计算结果表现为数值。如甲地区温度是20

0

C,乙地

区的温度是25

0

C,二者相差5

0

Co其结果可以进行加、减运算。

(四)定比尺度

定比尺度也称为比率尺度,它除了具有上述三种计量尺度的全部特性以外,

还具有一个特性,那就是可以计算两个测度值之间的比值。这就要求定比尺度中

必须有一个绝对固定的“零点”,这也是它与定距尺度的惟一差别。例如,一个

学生的数学成绩为0分,是表示他的数学成绩水平为0,并不表示他没有考试成

绩或没有任何数学知识;一个地区的温度为0度,表示一种温度的水平,并不是

没有温度。可见,定距尺度中的“0”是一个有意义的数值,定比尺度则不同,

它有一个绝对“零点”。在定比尺度中,“0”表示“没有”或“不存在”,如某人

这个月的收入为“0”,表示这个人没有收入。定比尺度可以进行加、减、乘、除

运算。

上述四种计量尺度对事物的测量层次由低级到高级,由粗略到精确逐步递进

6

的。高层次的计量尺度可以具有低层次计量尺度的全部特性,但不能反过来。下

表给出了上述四种计量尺度的测量层次和数学特性。

四种计量尺度的比较

<=7

4、J

4V

<><

4<NI

<)

一+

比值

(X、-r)

在统计分析中,一般要求测量的层次越高越好,因为高层次的计量尺度包

含更多的数学特性,所运用的统计分析方法越多,分析时也就越方便,因此,应

尽可能使用高层次的计量尺度。

数据的类型

从上述四种计量尺度的结果来看,可以将统计数据分为四种类型:

1.定类数据:表现为类别,但不区分顺序,是由定类尺度形成的。

2.定序数据:表现为类别,但有顺序,是由定序尺度计量形成的。

3.定距数据:表现为数值,可以进行加、减运算,是由定距尺度计量形

成的。

4.定比数据:表现为数值,可进行加、减、乘、除运算,是由定尺度形

成的。

前二类数据说明的是事物的品质特征,不能用数值表示,其结果均表现

为类别,称为定性数据或品质数据;后两类数据说明的是现象的数量特征,能够

用数值来表现,因此称为定量数据或数量数据。

7

区分测量的层次和数据的类型十分重要,因为对不同类型的数据将采用

不同的统计方法来处理。

三.统计数据的表现形式

时期数

绝对数(数量指标)

时点数

表现形式相对数比例(Proportion)

比率

(Ratio)

平均数(均值)

第二节统计数据的搜集

我们站在统计数据使用者的角度看,统计数据主要来源于两种渠道:一是

直接的调查和科学试验,这是统计数据的直接来源,我们称之为第一手资料或直

接的统计数据;二是别人调查或试验的数据,这是统计数据的间接来源,我们称

之为第二手或间接的统计数据。

统计数据的直接来源

统计数据的直接来源主要有两个渠道:一是专门组织的调查;专门调查是

取得社会经济数据的重要手段。二是科学试验;科学试验是取得自然科学数据的

主要手段。

(-)统计调查方式

实际工作中常用的统计调查方式有:普查、重点调查、典型调查、抽样调

查、统计报表等。

[普查

①概/普查是为某一特定目的而专门组织的一次性全面调查。我国五次人

口普查时间:1953年,1964年,1982年,1990年(7月1日零时),2000年

(11

月1日零时)。

②特点:

a.普查通常是一次性的或周期性的;

b.普查一般需要规定统一的标准调查时间。目的是为了避免调

查数据的重复或遗漏。

8

c.为抽样调查或其他调查提供基本依据。

d.普查的使用范围比较窄。

2.抽样调查

①概念:抽样调查是从调查对象中随机抽取一部分单位作为样本进行调查,

并根据调查结果来推断总体数量特征的一种非全面调查。

②特点:i:经济性ii:时效性强iii:适应面广iv:

准确性高

3.统计报表

统计报表是国家和地方政府部门统计数据的主要来源。

①概念:统计报表是按照国家有关法规的规定,自上而下地逐级提供基本统

计数据的一种调查方式。

②种类

i:按调查范围不同分为全面报表和非全面报表。

全面报表要求调查对象的每一个单位都填报;非全面报表要求调查对象中的

一部分单位填报。

ii:按报表内容和实施范围不同分为国家统计报表、部门统计报表和地方统

计报表。

iii:按报送周期长短分为日报、旬报、月报、季报、半年报、年报。

iv:按报送单位不同分为基层统计报表和综合统计报表。

4.重点调查

①概念:是指只在调查对象中选择一部分重点单位进行调查,借以了解总体

基本情况的一种非全面调查。重点单位是指在所要调查的数量特征上占有较大比

重的单位。

②特点:i:重点单位的选择具有客观性。ii:重点调查的目的是为了

反映总体的基本情况。

5.典型调查

①概念:是根据调查目的和要求,在对研究对象进行全面分析的基础上,有

意识地选择部分有代表性单位进行调查,它是一种非全面调查。

②特点:i:调查单位是根据调查目的有意识地选择出来的少数具有代表性

的单位。

9

ii:典型调查是一种深入、细致的调查。

(-)数据的搜集方法

不论采取何种方式进行调查,在取得统计数据时,都有一些具体的数据搜

集方法,归纳起来有两大类:

1.询问调查:包括①访问调查(派员调查):是调查者与被调查者通过面

对面交谈从而得到所需资料的调查方法。②邮寄调查:是通过邮寄将调查表或

调查问卷送到被调查者手中,由被调查者填写,然后寄回调查表的一种调查方法。

③电话调查:打电话,语言交流、搜集资料”④座谈会:把被调查者集中起来,

让他们对调查主题发表意见,获取资料。⑤个别深度访问:一次只访问一名被

调查者,详细了解被调查者的思想和行为动机。

2.观察与实验:包括①观察法:调查人员边观察边记录以收集信息的方法。

②是在所设定的特殊实验场所,对调查对象进行实验以取得资料的一种调查方

法。

二.统计数据的间接来源

第二手数据主要是公开出版的或公开报道的数据。在我国,公开出版或报道

的社会经济数据主要来自国家和地方的统计部门以及各种报刊媒介。如公开出版

的《中国统计年鉴》,《中国市场统计年鉴》等,另外,广泛分布在各种报刊、

志、图书、广播、电视传媒中的各种数据资料也属于第二手数据。

第三节调查方案设计

在搜集直接统计数据之前,需要制定出一个周密、完整的调查方案,以指导

整个调查工作,一个完整的统计调查方案应包括以下内容:

确定调查目的(为什么要调查)

在调查方案中首先应明确本次调查的目的,它要回答的是为什么调杳,要解

决什么样的问题。只有这些问题明确之后,才能确定向谁调查,调查什么以及采

用什么方法进行调查。

二.确定调查对象和调查单位(向谁调查)

调查对象和调查单位要解决的是向谁调查,由谁来提供所需资料的问题。调

查对象是根据调查目的确定的调查研究的总体或调查范围,调查单位是构成调查

对象的每一个单位,是调查项目和指标的承担者或载体。

10

三.设计调查项目和调查表(调查什么)

调查项目是调查的具体内容,它要回答的是调查什么问题。调查项目可以是

调查单位的数量特征,也可以是调查单位的某种属性或品质特征。调查项目常以

表格的形式来表现,称为调查表。

四.方案设计中的其他内容

另外,调查方案还应明确调查所采用的方式和方法,调查时间及调查的组织

与实施工作等。调查时间包括调查数据的所属时间(若为时点现象,要明确规定

资料的统一时点,即标准时点;若为时期现象,要明确规定现象的起止时间)和

调查的工作期限(指调查工作从开始到结束的时间长度,包括:调查人员的选择、

组织的培训;调查经费的来源和开支预算等,调查表格、问卷、调查员手册的印

刷等)。

第四节统计数据的整理

把统计数据搜集上来之后,接下去的工作应对统计数据进行加工整理,使之

系统化、条理化、以符合分析的需要。数据整理的步骤如下:

一.数据的预处理

在对数据进行分类或分组之前,需要对数据进行预处理,包括数据的审核、

筛选、排序等。

1.数据的审核与筛选

①数据的审核

对数据进行审核,主要是为了保证数据的质量,对于通过直接调查取得的原

始数据,主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查

的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确性审核

主要包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是

否符合实际;二是检查数据是否有错误,计算是否正确等。第二手资料,除审核

数据的完整性和准确性外,还应审核数据的适应性和时效性。

②数据的筛选

数据的筛选包括两方面的内容:一是将某些不符合要求的数据或有明显错误

的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合条件的数

据予以剔除。

11

2.数据的排序

排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特

征或趋势。对于定类数据,如果是字母型数据,排序有升序与降序之分,习惯上

使用升序:如果是汉字型数据,排序方式既可按汉字的首位拼音字母排列,也可

按笔画排序。定距数据和定比数据的排序只有两种:即递增和递减。

二.数据分组与频数分布

(-)数据分组的概念

统计数据经过预处理后,可进一步做分类或分组整理。统计分组是统计数据

整理的一项重要工作。统计数据整理的中心任务就是分组和编制频数分布表。

统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干

组成部分的一种统计方法。通过分组,可以划分现象的类型、说明现象的内部结

构、提示现象与现象之间的依存关系。

(二)统计分组方法

按分组方法不同,分组的方法有:

1.按品质标志分组

即按事物的品质特征进行分组。按品质标志分组,在确定其分组界限时,有

时比较简单,有时却很复杂。

2.按数量标志分组

按数量标志分组,就是按事物的数量特鹘蟹肿楞0词勘嚅痉肿棕唤?在于

确定各组的数量标志的差异,而且要通过数量差异来反映各组的不同类型和

性质。按数量标志分组,涉及到以下几个问题:

①组距和组数

数量标志也即前面讲的数字变量。数字变量根据其取值不同,可以分为离散

变量和连续变量。

离散变量变量值少,采用单

项式分组。

变量变量值多,

采用组距分组。

连续变量采用组距分组。

单项式分组:把一个变量值作为一组。组距分组:将全部变量值依次划分为

几个区间,并将这一区间的变量值作为一组。组距宜取5或者10的倍数,且第

12

一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。

组距的大小与组数的多少是相互制约的,它们之间呈反比例关系。组距越大,

则可分的组就越少。确定组距与组数,原则上应该是通过分组能把总体单位的分

布特征显示出来,即组与组之间应该反映出现象的差异。

②等距分组与不等距分组

等距分组即变量值在各组保持相等的组距,就是说各变量值都限于相同的范

围,在变量值比较均匀时,采用等距分组。当变量值变动很不均匀,就应采用不

等距分组。

③组限与组中值

组限即为组距两端的数值,分为上限和下限。上限是各组的最大变量值,下

限是各组的最小变量值。

对于离散变量和连续变量,组限的划分是不同的。对于离散型变量,由于其

只能取整数,相邻组的上下限可以不重叠,对于连续变量,相邻两组的组限应重

叠,即上一组的上限同时也是下一组的下限。用“上组限不在内”原则解决不重

问题。

组中值是上下限之间的中点数值,其计算公式为:组中值=(上限+F限)

・2o用组中值来反映组距分组中各组数据的一般水平。实际工作中,对于开口

组的组中值,一般是用相邻组的组距作为开口组的组距,因此,其组中值的计算

公式近似为:组中值=下限+邻组组距/2(缺上限)或组中值=上限一邻组组距/2

(缺下限)。用组中值来代表各组数据的一般水平,有一个假设条件:即各组数

据在本组内呈均匀分布。

(三)频数分布

1.频数分布的概念和种类

①概念:频数分布也叫次数分布或分布数列,即把全部数据按其分组标志在

各组内的分布状况称为频数分布。分布在各组内的数据个数称为频数或次数,各

组频数与全部频数之和的比值称为频率或比重。将频数分布用表格的形式表现出

来就是频数分布表。

13

②种类

品质数列(按品质标志分组所形成)

分布数列单项式变量

数列

变量数列

等距数列

距式变量数列

不等距数列

2.累积频数和累积频率

累积频数分为向上累积和向下累积两种:向上累积从变量值小的一方向变量

值大的一方累加频数;向下累积从变量值大的一方向变量值小的一方累加频数。

向上累积各累积数的意义是上限以下的累积频数和累积频率;向下累积各累

积数的意义是各组下限以上的累积频数或累积频率。

(四)频数分布表的编制

编制步骤如下:

1.对数据进行排序

2.进行分组

采用组距分组的步骤如下:

①确定组数

按斯特格斯提出的经验公式确定组数K:K=l+bg

10

N/题

10

2N为数据的个

数。

②确定各组的组距

③根据分组整理成频数分布表

三.次数分配的图示和类型

(-)图示法

通过频数分布表,可以初步看出数据分布的一些特征和规律,但如果用图形

来表示次数分布的结果,会更加形象和直观。常用的显示频数分布特征的图形有

直方图、折线图和曲线图等。

1.直方图

14

即用直方形的宽度和高度来表示频数分布情况的图形。绘制直方图时,横轴

表示各组组限,纵轴表示频数(一般标在左方)和频率(一般标在右方),然后

按分布在各组的频数及频率确定各组在纵轴上的坐标,并依据各组组距的宽度与

频数的高度绘成直方形。

学生按成绩分

按成

绩分组

学生

比重

(%)

60以下78.8

60——

70

2126.2

70——

80

2531.2

80——

90

1923.8

90——

100

810

80100

0

5

10

15

20

25

60以下70-------8090--------100

学生数

对于不等距数列,先要计算出各组的频数密度,然后以组距为宽,以频数密

度为高画直方图,其中频数密度的计算公式为:频数密度=频数一组距。

2.折线图

在直方图的基础上,将直方图中的每个长方形的顶端中点用折线连点而成。

如果不绘制直方图,可以用组中值与频数求坐标点连接而成。

15

3.曲线图

当变量值非常多,变量数列的组距无限增多时,折线便近似地表现为一条平

滑的曲线,曲线图的绘制方法与折线图基本相同,只是连接各组频数坐标点的线

段应当是平滑曲线而不用折线。

(二)频数分布的类型

常见的频数分布曲线主要有正态分布、偏态分布、J型分布、V型分布等几

种类型。???

第三章数据分布特征的描述

教学重点和难点:均值的计算方法;方差和标准差的计算;离散系数的适用

场合。

第二节分布集中趋势的测度

统计数据经过整理与显示后,我们对数据分布的类型和特点就有了一个大致

的了解。但这种了解只是表面上的,还缺少代表性的数量特征值准确地描述出统

计数据的分布。要进一步掌握数据分布的特征和规律,还需要找到反映数据分布

特征的各个代表值。对统计数据分布的特征,可以从以下三个方面进行测度和描

述:一是分布的集中趋势,反映各统计数据向其中心值靠拢或聚集的程度;二是

分布的离散程度,反映各数据远离其中心值的趋势;三是分布的偏态和峰度,反

映数据分布的形状。

集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找

数据一般水平的代表值或中心值。集中趋势的测度值主要有:均值、几何平均数、

众数、中位数。

一.均值(Mean)

均值也叫算术平均数(Arithmeticmean),是全部数据的算术平均,是集中

趋势的最主要测度值,它主要适用于定距数据和定比数据,但不适用于定类数据

和定序数据。根据所掌握数据的不同,均值有不同的计算形式和计算公式。

(-)简单均值与加权均值

1.根据未经分组整理的原始数据计算均值

设一组数据为X

1

,X

2

,X

3

,??X

n

,则均值

注:简单均值数值大小只与变量值的大小有关。

16

计算公式如下:

n

X

n

XXX

X

n21

2.根据分组整理的数据计算均值

设原始数据被分成K组,各组的组中值为XI,X2,X3,??,XK,各组变量值为

Fl,F2,F3,??,FKo则均值为:计算公式如下:

Xf

fff

fXfXfX

X

n21

nn2211

注:①Fi:权数——起权衡轻重的作用。如果某一组的权数较大,则说明

该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。

②均值受各组变量值大小和各组权数大小的影响。

③单变量分组时为精确值,组距分组时为近似值。

(-)均值的另一种表现形式——调和平均数

调和平均数(Harmonicmean)也称调和均值,是均值的另一种表现形式。

在实际工作中,由于所获得的数据不同,有时不能直接采用均值的计算形式来计

算平均数,这就需要使用调和平均数的形式进行计算。调和平均数分为简单调和

平均数和加权调和平均数。

简单调和平均法是先计算总体单位标志值倒数的简单算术平均数,然后求其

倒数。

X

1

n

x

1

x

1

X

1

n

H

n21

H:表示调和平均数

加权调和平均法是先计算总体单位标志值倒数的加权算术平均数,然后求其

到数。

x

m

m

x

m

x

m

x

m

mmm

H

n

n

2

2

1

1

n21

m表示权数。

17

调和平均数实际上是算术平均数的一种变形。二者在本质上是一致的,唯一

的区别是计算时使用了不同的数据。

(三)一种特殊的均值:几何平均数

几何平均数(Geometricmean)也称几何均值,它是N个变量值乘积的N次

方根。社会经济统计中,几何平均法适用于计算平均比率和平均速度。简单几何

平均数的计算公式为:

n21

xxxG

G表示几何平均数;x表示变量值;n表示变量值个数。

加权几何平均数的计算公式为

n21n21

ffff

n

f

2

f

1

xxxG

应用条件:①所掌握的变量值本身是比率的形式;②各比率的乘积等于总比

率。

几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率或速度的

平均。

几何平均数也可以看作是均值的一种变形,对几何平均数的公式取对数得:

可以看出,几何平均数的对数是各变量值对数的算术平均。

三.众数

众数(Mode)是一组数据中出现次数最多的变量值,用M

0

表不。它主要

用于作为定序数据以及定距和定比数据集中趋势的测度值。

1.当数据未分组时,出现次数最多的变量值既为众数。

2.当数据经过分组整理后,众数的计算公式为:下限公式:

dLM

21

1

o

上限公式:

dUM

21

2

o

18

Mo:表示次数;L:表示众数所在组的下限;U:表示众数所在组的上限;

△1:表示众数所在组次数与前一组次数之差;42:表示众数所在组次数与

后一组次数之差;d:表示众数所在组的组距。

三.中位数(Median)

中位数是一组数据按从小到大排序后,处于中间位置上的变量值,用Me表

示。中位数将全部数据等分成两部分,每部分都包含50%的数据,一部分数据比

中位数大,另一部分则比中位数小。中位数是个位置代表值,它主要用于测度定

序数据的集中趋势。

1.根据未分组数据计算中位数

先对数据进行排序;然后确定中位数的位置。其公式为:

中位数位置=(N+1)/2,式中的N为数据的个数。最后确定中位数的具体

数值。

若N为奇数,则中位数为;若N为偶数,则中位数为

的平均数。

2.根据分组数据计算中位数

先根据公式N/2确定中位数的位置,并确定中位数所在组,然后用公式近似

确定中位数。

3.组距分组资料确定中位数。

组距资料确定中位数与单项式资料不同的是需要采用公式计算。

下限公式:

d

f

S

2

f

LM

m

1m

上限公式:

d

f

S

2

f

UM

m

1m

式中:L:表示中位数组的下限,U表示中位数组的上限,fm:表示中位数

组的次

数,Sm-1表示中位数所在组以前各组的累计次数,Sm+1表示中位数所

19

在组以后各组的累计次数,Zf:表示总次数,d:表示中位数所在组的组距。

计算中位数时,假定中位数所在组的频数在该组内是均匀分布的,中位数是

一个位置平均数,其数值的大小不受极大值和极小值的影响。

四.众数、中位数和均值的关系

第二节分布离散程度的测度

集中趋势反映的是各变量值向其中心值聚集的程度,这只是数据分布的一个

特征,数据的分散程度是数据分布的另一个重要特征。它所反映的是各变量值远

离其中心值的程度,集中数据对一组数据的代表程度,取决于该组数据的离散水

平。

数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散

程度越小,其代表性就越好。

描述数据离散程度的测度值主要有极差、平均差、方差和标准差、离散系数

等。

极差(全距)

是一组数据的最大值与最小值之差,即R=max(Xi)—min(Xi)

对于组距分布数据,极差也可以近似表示为:R=最高组上限值一最低组下

限值

极差计算简单,易于理解,但它易受极端值的影响。

—.方差和标准差

方差(Variance)是各变量值与其均值离差平方的平均数,是测定定距和定

比数据离散程度的最主要方法。根据总体数据和根据样本数据计算的方差在数学

处理上略有不同。

1.总体方差和标准差

①未经分组的原始数据

n

Ixxl

.D.A

②对于组距分组数据

fIxxI

.D.A

20

平均差系数就是平均差除以算术平均数,它说明标志值差异的相对程度,还

可以用来比较平均数不同的各个标志变动度的大小。

计算公式:

x

.D.A

V

.D.A

优点:计算简便,意义明确,能反映各标志值的大小和程度。

缺点:采用绝对值,不适于数理统计中的数字处理,使用受限制。

方差的平方即为标准差。与方差不同,标准差是计量单位的,计量单位与变

量值相同,其实际意义要比方差清楚。在对社会经济现象进行分析时,我们更多

地使用标准差。

2.样本方差和标准差

①样本方差:未分组数据:

n

Ixxl

.D.A

组距分组数据:

f

flxxl

.D.A

②样本标准差:未分组数据:

n

)xx(

2

组距分组数据:

f

f)xx(

2

说明:i样本方差与总体方差在计算上的区别是:总体方差是用数据个数或

总频数去除离差平方,而样本方差则是用样本数据个数或总频数减1去除离差平

方和。其中n-l称为自由度。

ii当n很大时,样本方差S

2

与总体方差6

2

的计算结果相差很小,这时样本

方差也可以用总体方差的公式来计算。

三.离散系数

对于平均水平不同或计量单位不同的不同组别的变量值,不能用极差、平均

差、标准差等测度值比较其离散程度,必须消除变量值水平高低和计量单位不同

对离散程度测度值的影响,此时需计算离散系数。

离散系数通常是就标准差来计算的,因此也称为标准差系数,它是一组数据

的标准差与其相应的均值之比,是测度数据离散程度的相对指标,标准差系数

是标准差除以算术平均数,也叫离散系数。计算公式:

X

V

21

离散系数的作用主要是用于比较不同总体或样本数据的离散程度。离散程度

大的,说明数据的离散程度大,离散系数小的,说明数据的离散程度小。

第三节分布偏态与峰度的测度

前面讲的集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数

据分布的特点,还需要知道数据分布的形状是否对称,偏斜的程度以及分布的扁

平程度等。

一.偏态及其测度

偏态是对数据分布的偏斜方向和程度的测度。要测度偏斜的程度则需要计算

偏态系数,其计算公式为:a

3=

式中:a

3

为偏态系数;o

3

为标准差的三次方。

对偏态系数的分析:

1.当分布对称时,离差三次方后正负离差可以相互抵消,因而a

3

的分子等

于零,则a

3

=0o

2.当分布不对称时,则偏态系数a

3

为正值或负值。当a

3

为正值时,表示正

偏离差值较大;可以判断为正偏或右偏,a

3

的数值越大,偏斜的程度就越大;当

a

3

为负值时,表示负离差数值较大,可以判断为负偏或左偏,a

3

的数值越大,向

左偏斜的程度就越大。

二.峰度及其测度

峰度是集中趋势高峰的形状,它是与正态分布相比较而言的。若分布的形状

比正态更瘦更高,则称为尖峰分布,若比正态分布更矮更胖,则称为平峰分布。

峰度系数是离差四次方和平均数再除以标准差的四次方,其计算公式为:

式中:a

4

为峰度系数

大家知道,正态分布的峰度系数为3,当a

4

>3时为尖峰分布,当a

4

<3时

为平峰分布。

第四节

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论