版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章绪论
第一节统计与统计学
统计的含义
1.统计工作(统计实践):是指对统计数据进行搜集、整理和分析的活动
过程。
2.统计数据(统计资料):是统计工作的成果。统计数据的搜集是取得统
计数据的过程,它是进行统计分析的基础。离开了统计数据,统计方法就失去
了用武之地。
统计工作和统计数据的关系是过程和成果的关系。即统计数据是统计工作
提供的,是统计活动的成果。
3.统计学:是一门有关统计数据的科学。它研究如何搜集、整理资料和
进行数量分析,推断的一门方法论科学。是统计工作经验的总结和概括。
统计工作和统计学是实践和理论的关系。统计理论来源于统计实践,它是
统计工作经验的总结和概括。反过来,统计理论又是指导统计工作的原则和方
法。
总之,统计工作,统计数据,统计学三者之中,统计工作是基础,是源。
没有统计工作,就不会产生统计数据,没有统计工作,缺少这个实践基础,统
计学也就不可能形成和发展。
统计规律与统计方法
统计规律即统计数据的内在变化趋势;统计方法即研究统计规律的数量方
法。前者如“恩格尔定律”,后者如ARMA模型。
第二节统计学的分科
统计学大致有以下两种分类:
根据统计方法的构成,统计学可以分为描述统计学和推断统计
学。
1.描述统计学:通过对现象的调查或观察f得到大量的统计数据f用图
表形式对所收集到的数据进行加工处理与显示一就这些数据的分布特征(如集
中趋势,离散趋势等)计算出一些概括性的数字(如平均数,标准差,相关系
数等等)一得出反映客观现象的规律性数量特征。
2.推断统计学:推断统计学是指只凭样本数据去推断总体数量特征的技
术方法。
概率论
(包括分布理论、大数定
律和中心极限定理等)
0
推断统计学(利用样本信
:为数乎据描述统计学(包括
►1:>息和概率论对总体的数量
统计数据的收集、
特征进行估计和检验等)
,,整理、显示和分析
本数据
\/
总体内在1
的数量规
律性
图1—1统计学探索客观现象数量规律性的过程
注1:描述统计学不必深入一层地去试图推论数据本身以外的任何事
情;推断统计学则在样本数据的基础上深入一步地分析、研究和推断,以推知
资料本身以外的情况和数量关系。
注2:描述统计学用的是总体数据,推断统计学则往往用样本数据。
在现实问题中,我们得到的数据主要是样本数据,因此,推断统计学越来越重
要,是统计学的核心内容。
注3:统计学的发展过程中,先有描述统计学,后有推断统计学,从
描述统计学发展到推断统计学,是统计学发展成熟的标志。
从统计方法研究和统计方法的应用角度看,统计学可分为理论统
计学和应用统计学。
理论统计学主要是指统计学的数学原理和方法原理。从事统计理论和
方法研究的人员需要
有坚实的数学基础。理论统计学是统计的理论基础。统计学是一门分析
数据的科学,因而统计方法的应用儿乎扩展到了所有的科学研究领域。
第三节基本概念
—.总体和单位
1.总体
总体是指根据研究目的确定的所要研究的同类事物的全体。
说明:⑴统计总体是根据统计研究目的确定的。
⑵统计总体是客观存在的。
⑶统计总体中的所有个别事物具有某种同一性质。
2.单位
单位是指构成总体的个别事物(基本单元),也称个体。例如:我们要
研究全国乡镇企业发展情况,则总体为全国乡镇企业,单位为每个乡镇企业。
—.标志和指标
1.^^志
标志是说明总体单位属性和特征的名称。标志和总体单位的关系是非
常明确的,总体单位是标志的直接承担者,标志是依附于总体单位的。
标志按表现形式不同分为品质标志和数量标志。①品质标志:表示总
体单位性质方面的特征;它只能用文字表示。②数量标志:表示总体单位性数
量方面的特征;用数值表示。
标志表现:是标志特征在各单位的具体表现,有品质标志表现和数量
标志表现之分。数量标志的表现即标志值。
2.指标
①概念:指标是反映总体数量特征的概念及其数值。
②分类
指标按反映的数量特点不同可分为数量指标和质量指标。
I.数量指标:说明总体规模大小,水平高低,数量多少的指标;用绝对
数表示。
II.质量指标:说明总体相对水平或工作质量的统计指标;用相对数、平
均数表示。
两者关系:数量指标是计算质量指标的基础。
③特点
I.数量性(可量性)
II.综合性
III.客观性(具体性)
三.变异和变量
1.变异:可变标志的属性或特征由一种状态变到另一种状态,统计上称
之为变异。
2.变量:在统计中,一般把说明现象某种特征的概念称为变量。变量的
具体表现称为变量值。如果一个变量是由品质数据来记录的称为品质变量,如
“性别”就是一个品质变量。如果一个变量是由数量数据来记录的称为数量变
量或数字变量。数字变量根据其取值的不同,可以分为离散变量和连续变量。
离散变量其取值都是以整数位断开,可以一一列举,如“企业数”等。连续变
量其取值是连续不断的,不能一一列举,如“温度”等。但多数情况下我们所
说的变量都是指数字变量。
第二章统计数据的搜集与整理
教学重点和难点:数据的搜集方法;调查方案设计;数据分组。
第一节数据的计量与类型
数据的计量尺度
统计数据是进行统计分析的基础,统计数据靠我们去搜集才能得到,但在搜
集数据之前,先要对现象进行计量或测度,这就涉及到数据的计量尺度问题。按
照计量学的i般分类方法,对统计数据分为四种计量尺度或计量水准,即定类尺
度、定序尺度、定距尺度和定比尺度。
(一)定类尺度
定类尺度也称类别尺度或列名尺度,是最粗略、计量层次最低的计量尺度。
这种计量尺度只能按照事物的某种属性对其进行平行的分类或分组。例如人口按
照性别分为男、女两类等。分类就是将所观察的个体(总体单位)分为不同的类
型。定类尺度只是测度了事物之间的类别差,对各类之间的其他差别却没有反映。
使用该尺度对事物所作的分类,各类别之间是平等的并列关系,无法区分优劣或
大小,各类别之间的顺序是可以改变的。对定类尺度的计量结果,通常是通过计
算出每一类别中各元素或个体出现的频率或频数来进行分析。
在使用定类尺度对事物进行分类时,必须符合穷尽和互斥的要求。定类尺度
是对事物最基本的测度,是其他计量尺度的基础。它具有=和W的数学特性。
(-)定序尺度
定序尺度又称顺序尺度,是对事物之间等级差或顺序差别的一种测度。该尺
度不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。例
如,考试成绩可以分为优、良、中、及格、不及格等等。
定序尺度对事物的计量要比定类尺度精确一些,但它只测度了类别之间的顺
序,而未测量出类别之间的准确差值。因些该尺度具有>和<的数学特性,但不
能进行加、减、乘、除等数学运算。
(三)定距尺度
定距尺度也称间隔尺度,它不仅能将事物区分为不同类型并进行排序,而且
可以准确地指出类别之间的差距是多少。定距尺度是对事物类别或次序之间间距
的测度。因此,定距尺度的计算结果表现为数值。如甲地区温度是20°C,乙地
区的温度是25°C,二者相差5°C。其结果可以进行加、减运算。
(四)定比尺度
定比尺度也称为比率尺度,它除了具有上述三种计量尺度的全部特性以外,
还具有一个特性,那就是可以计算两个测度值之间的比值。这就要求定比尺度中
必须有一个绝对固定的“零点”,这也是它与定距尺度的惟一差别。例如,一个
学生的数学成绩为0分,是表示他的数学成绩水平为0,并不表示他没有考试成
绩或没有任何数学知识;一个地区的温度为0度,表示一种温度的水平,并不是
没有温度。可见,定距尺度中的“0”是一个有意义的数值,定比尺度则不同,
它有一个绝对“零点”。在定比尺度中,“0”表示“没有”或“不存在”,如某人
这个月的收入为“0”,表示这个人没有收入。定比尺度可以进行加、减、乘、除
运算。
上述四种计量尺度对事物的测量层次由低级到高级,由粗略到精确逐步递进
的。高层次的计量尺度可以具有低层次计量尺度的全部特性,但不能反过来。下
表给出了上述四种计量尺度的测量层次和数学特性。
四种计量尺度的比较
\计量定定序定距定比
限
类尺度尺度尺度尺度
X学
特性\
分类VV
(=、W)
排序VV
(>、<
间距VV
(一、+)
比值V
(X、+)
在统计分析中,一般要求测量的层次越高越好,因为高层次的计量尺度包
含更多的数学特性,所运用的统计分析方法越多,分析时也就越方便,因此,应
尽可能使用高层次的计量尺度。
数据的类型
从上述四种计量尺度的结果来看,可以将统计数据分为四种类型:
1.定类数据:表现为类别,但不区分顺序,是由定类尺度形成的。
2.定序数据:表现为类别,但有顺序,是由定序尺度计量形成的。
3.定距尺度:表现为数值,可以进行加、减运算,是由定距尺度计量形
成的。
4.定比数据:表现为数值,可进行加、减、乘、除运算,是由定尺度形
成的。
前二类数据说明的是事物的品质特征,不能用数值表示,其结果均表现
为类别,称为定性数据或品质数据;后两类数据说明的是现象的数量特征,能够
用数值来表现,因此称为定量数据或数量数据。
区分测量的层次和数据的类型十分重要,因为对不同类型的数据将采用
不同的统计方法来处理。
三.统计数据的表现形式
/时期数
/绝聚数(数量指标)
/时点数
表平形式相对数比例(Proportion)
,比率(Ratio)
平均数(均值)
第二节统计数据的搜集
我们站在统计数据使用者的角度看,统计数据主要来源于两种渠道:一是
直接的调查和科学试验,这是统计数据的直接来源,我们称之为第一手资料或直
接的统计数据;二是别人调查或试验的数据,这是统计数据的间接来源,我们称
之为第二手或间接的统计数据。
统计数据的直接来源
统计数据的直接来源主要有两个渠道:一是专门组织的调查;专门调查是
取得社会经济数据的重要手段。二是科学试验;科学试验是取得自然科学数据的
主要手段。
(一)统计调查方式
实际工作中常用的统计调查方式有:普查、重点调查、典型调查、抽样调
查、统计报表等。
1.普查
①概念:普查是为某一特定目的而专门组织的一次性全面调查。我国五次人
口普查时间:1953年,1964年,1982年,1990年(7月1日零时),2000年(11
月1日零时)。
②特点:
a.普查通常是一次性的或周期性的;
b.普查一般需要规定统一的标准调查时间。目的是为了避免调
查数据的重复或遗漏。
c.为抽样调查或其他调查提供基本依据。
d.普查的使用范围比较窄。
2.抽样调查
①概念:抽样调查是从调查对象中随机抽取一部分单位作为样本进行调查,
并根据调查结果来推断总体数量特征的一种非全面调查。
②特点:i:经济性ii:时效性强iii:适应面广iv:准确性高
3.统计报表
统计报表是国家和地方政府部门统计数据的主要来源。
①概念:统计报表是按照国家有关法规的规定,自上而下地逐级提供基本统
计数据的一种调查方式。
②种类
i:按调查范围不同分为全面报表和非全面报表。
全面报表要求调查对象的每一个单位都填报;非全面报表要求调查对象中的
一部分单位填报。
ii:按报表内容和实施范围不同分为国家统计报表、部门统计报表和地方统
计报表。
iii:按报送周期长短分为日报、旬报、月报、季报、半年报、年报。
iv:按报送单位不同分为基层统计报表和综合统计报表。
4.重点调查
①概念:是指只在调查对象中选择一部分重点单位进行调查,借以了解总体
基本情况的一-种非全面调查。重点单位是指在所要调查的数量特征上占有较大比
重的单位。
②特点:i:重点单位的选择具有客观性。ii:重点调查的目的是为了
反映总体的基本情况。
5.典型调查
①概念:是根据调查目的和要求,在对研究对象进行全面分析的基础上,有
意识地选择部分有代表性单位进行调查,它是一种非全面调查。
②特点:i:调查单位是根据调查目的有意识地选择出来的少数具有代表性
的单位。
ii:典型调查是一种深入、细致的调查。
(-)数据的搜集方法
不论采取何种方式进行调查,在取得统计数据时,都有一些具体的数据搜
集方法,归纳起来有两大类:
1.询问调查:包括①访问调查(派员调查):是调查者与被调查者通过面
对面交谈从而得到所需资料的调查方法。②邮寄调查:是通过邮寄将调查表或
调查问卷送到被调查者手中,由被调查者填写,然后寄回调查表的一种调查方法。
③电话调查:打电话,语言交流、搜集资料。④座谈会:把被调查者集中起来,
让他们对调查主题发表意见,获取资料。⑤个别深度访问:一次只访问一名被
调查者,详细了解被调查者的思想和行为动机。
2.观察与实验:包括①观察法:调查人员边观察边记录以收集信息的方法。
②是在所设定的特殊实验场所,对调查对象进行实验以取得资料的一种调查方
法。
统计数据的间接来源
第二手数据主要是公开出版的或公开报道的数据。在我国,公开出版或报道
的社会经济数据主要来自国家和地方的统计部门以及各种报刊媒介。如公开出版
的《中国统计年鉴》,《中国市场统计年鉴》等,另外,广泛分布在各种报刊、杂
志、图书、广播、电视传媒中的各种数据资料也属于第二手数据。
第三节调查方案设计
在搜集直接统计数据之前,需要制定出一个周密、完整的调查方案,以指导
整个调查工作,一个完整的统计调查方案应包括以下内容:
一.确定调查目的(为什么要调查)
在调查方案中首先应明确本次调查的目的,它要回答的是为什么调查,要解
决什么样的问题。只有这些问题明确之后,才能确定向谁调查,调查什么以及采
用什么方法进行调查。
二.确定调查对象和调查单位(向谁调查)
调查对象和调查单位要解决的是向谁调查,由谁来提供所需资料的问题。调
查对象是根据调查目的确定的调查研究的总体或调查范围,调查单位是构成调查
对象的每一个单位,是调查项目和指标的承担者或载体。
三.设计调查项目和调查表(调查什么)
调查项目是调查的具体内容,它要回答的是调查什么问题。调查项目可以是
调查单位的数量特征,也可以是调查单位的某种属性或品质特征。调查项目常以
表格的形式来表现,称为调查表。
四.方案设计中的其他内容
另外,调查方案还应明确调查所采用的方式和方法,调查时间及调查的组织
与实施工作等。调查时间包括调查数据的所属时间(若为时点现象,要明确规定
资料的统一时点,即标准时点;若为时期现象,要明确规定现象的起止时间)和
调查的工作期限(指调查工作从开始到结束的时间长度,包括:调查人员的选择、
组织的培训;调查经费的来源和开支预算等,调查表格、问卷、调查员手册的印
刷等)。
第四节统计数据的整理
把统计数据搜集上来之后,接下去的工作应对统计数据进行加工整理,使之
系统化、条理化、以符合分析的需要。数据整理的步骤如下:
数据的预处理
在对数据进行分类或分组之前,需要对数据进行预处理,包括数据的审核、
筛选、排序等。
1.数据的审核与筛选
①数据的审核
对数据进行审核,主要是为了保证数据的质量,对于通过直接调查取得的原
始数据,主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查
的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确性审核
主要包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是
否符合实际;二是检查数据是否有错误,计算是否正确等。第二手资料,除审核
数据的完整性和准确性外,还应审核数据的适应性和时效性。
②数据的筛选
数据的筛选包括两方面的内容:一是将某些不符合要求的数据或有明显错误
的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合条件的数
据予以剔除。
2.数据的排序
排序是按•定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特
征或趋势。对于定类数据,如果是字母型数据,排序有升序与降序之分,习惯上
使用升序;如果是汉字型数据,排序方式既可按汉字的首位拼音字母排列,也可
按笔画排序。定距数据和定比数据的排序只有两种:即递增和递减。
数据分组与频数分布
(一)数据分组的概念
统计数据经过预处理后,可进一步做分类或分组整理。统计分组是统计数据
整理的一项重要工作。统计数据整理的中心任务就是分组和编制频数分布表。
统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干
组成部分的一种统计方法。通过分组,可以划分现象的类型、说明现象的内部结
构、提示现象与现象之间的依存关系。
(二)统计分组方法
按分组方法不同,分组的方法有:
1.按品质标志分组
即按事物的品质特征进行分组。按品质标志分组,在确定其分组界限时,有
时比较简单,有时却很复杂。
2.按数量标志分组
按数量标志分组,就是按事物的数量特征进行分组。按数量标志分组,不仅
在于确定各组的数量标志的差异,而且要通过数量差异来反映各组的不同类型和
性质。按数量标志分组,涉及到以下几个问题:
①组距和组数
数量标志也即前面讲的数字变量。数字变量根据其取值不同,可以分为离散
变量和连续变量。
/\*离散变量变量值少,采用单项式分组。
7量、变量值多,采用组距分组。
连续变量一采用组距分组。
单项式分组:把一个变量值作为一组。组距分组:将全部变量值依次划分为
几个区间,并将这一区间的变量值作为一组。组距宜取5或者10的倍数,且第
一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。
组距的大小与组数的多少是相互制约的,它们之间呈反比例关系。组距越大,
则可分的组就越少。确定组距与组数,原则上应该是通过分组能把总体单位的分
布特征显示出来,即组与组之间应该反映出现象的差异。
②等距分组与不等距分组
等距分组即变量值在各组保持相等的组距,就是说各变量值都限于相同的范
围,在变量值比较均匀时,采用等距分组。当变量值变动很不均匀,就应采用不
等距分组。
③组限与组中值
组限即为组距两端的数值,分为上限和下限。上限是各组的最大变量值,下
限是各组的最小变量值。
对于离散变量和连续变量,组限的划分是不同的。对于离散型变量,由于其
只能取整数,相邻组的上下限可以不重叠,对于连续变量,相邻两组的组限应重
叠,即上一组的上限同时也是下一组的下限。用“上组限不在内”原则解决不重
问题。
组中值是上下限之间的中点数值,其计算公式为:组中值=(上限+下限)
・2o用组中值来反映组距分组中各组数据的一•般水平。实际工作中,对于开口
组的组中值,一般是用相邻组的组距作为开口组的组距,因此,其组中值的计算
公式近似为:组中值=下限+邻组组距/2(缺上限)或组中值=上限一邻组组距/2
(缺下限)。用组中值来代表各组数据的一般水平,有一个假设条件:即各组数
据在本组内呈均匀分布。
(三)频数分布
1.频数分布的概念和种类
①概念:频数分布也叫次数分布或分布数列,即把全部数据按其分组标志在
各组内的分布状况称为频数分布。分布在各组内的数据个数称为频数或次数,各
组频数与全部频数之和的比值称为频率或比重。将频数分布用表格的形式表现出
来就是频数分布表。
②种类
/品质数列(按品质标志分组所形成)
4速数列/单项式变量数列
、变量数”等距数列
'组距式变量数列
不等距数列
2.累积频数和累积频率
累积频数分为向上累积和向下累积两种:向上累积从变量值小的一方向变量
值大的一方累加频数;向下累积从变量值大的一方向变量值小的一方累加频数。
向上累积各累积数的意义是上限以下的累积频数和累积频率;向下累积各累
积数的意义是各组下限以上的累积频数或累积频率。
(四)频数分布表的编制
编制步骤如下:
1.对数据进行排序
2.进行分组
采用组距分组的步骤如下:
①确定组数
按斯特格斯提出的经验公式确定组数K:K=l+log1ON/Iog102N为数据的个
数。
②确定各组的组距
③根据分组整理成频数分布表
三.次数分配的图示和类型
(一)图示法
通过频数分布表,可以初步看出数据分布的一些特征和规律,但如果用图形
来表示次数分布的结果,会更加形象和直观。常用的显示频数分布特征的图形有
直方图、折线图和曲线图等。
1.直方图
即用直方形的宽度和高度来表示频数分布情况的图形。绘制直方图时,横轴
表示各组组限,纵轴表示频数(一般标在左方)和频率(一般标在右方),然后
按分布在各组的频数及频率确定各组在纵轴上的坐标,并依据各组组距的宽度与
频数的高度绘成直方形。
学生按成绩分
按成学生比重
绩分组数(%)
60以下78.8
60-------2126.2
70
70-------2531.2
80
80-------1923.8
90
90-------810
100
合80100
计
口学生数
对于不等距数列,先要计算出各组的频数密度,然后以组距为宽,以频数密
度为高画直方图,其中频数密度的计算公式为:频数密度=频数+组距。
2.折线图
在直方图的基础上,将直方图中的每个长方形的顶端中点用折线连点而成。
如果不绘制直方图,可以用组中值与频数求坐标点连接而成。
3.曲线图
当变量值非常多,变量数列的组距无限增多时,折线便近似地表现为一条平
滑的曲线,曲线图的绘制方法与折线图基本相同,只是连接各组频数坐标点的线
段应当是平滑曲线而不用折线。
(二)频数分布的类型
常见的频数分布曲线主要有正态分布、偏态分布、J型分布、V型分布等几
种类型。
第三章数据分布特征的描述
教学重点和难点:均值的计算方法;方差和标准差的计算;离散系数的适用
场合。
第一节分布集中趋势的测度
统计数据经过整理与显示后,我们对数据分布的类型和特点就有了一个大致
的了解。但这种了解只是表面上的,还缺少代表性的数量特征值准确地描述出统
计数据的分布。要进一步掌握数据分布的特征和规律,还需要找到反映数据分布
特征的各个代表值。对统计数据分布的特征,可以从以下三个方面进行测度和描
述:一是分布的集中趋势,反映各统计数据向其中心值靠拢或聚集的程度;二是
分布的离散程度,反映各数据远离其中心值的趋势;三是分布的偏态和峰度,反
映数据分布的形状。
集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找
数据一般水平的代表值或中心值。集中趋势的测度值主要有:均值、几何平均数、
众数、中位数。
一.均值(Mean)
均值也叫算术平均数(Arithmeticmean),是全部数据的算术平均,是集中
趋势的最主要测度值,它主要适用于定距数据和定比数据,但不适用于定类数据
和定序数据。根据所掌握数据的不同,均值有不同的计算形式和计算公式。
(-)简单均值与加权均值
1.根据未经分组整理的原始数据计算均值
设一组数据为X],X2,X3,……Xn,则均值
注:简单均值数值大小只与变量值的大小有关。
2.根据分组整理的数据计算均值
设原始数据被分成K组,各组的组中值为X「X2,X3,……,XK,各组变量
值为Fi,F2,F3,……,FKO则均值为:
注:①Fi:权数——起权衡轻重的作用。如果某一组的权数较大,则说明
该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。
②均值受各组变量值大小和各组权数大小的影响。
③单变量分组时为精确值,组距分组时为近似值。
(二)均值的另一种表现形式——调和平均数
调和平均数(Harmonicmean)也称调和均值,是均值的另一种表现形式。
在实际工作中,由于所获得的数据不同,有时不能直接采用均值的计算形式来计
算平均数,这就需要使用调和平均数的形式进行计算。
调和平均数实际上是算术平均数的一种变形。二者在本质上是一致的,唯一
的区别是计算时使用了不同的数据。
(三)一种特殊的均值:儿何平均数
儿何平均数(Geometricmean)也称儿何均值,它是N个变量值乘积的N次
方根,计算公式为:
应用条件:①所掌握的变量值本身是比率的形式;②各比率的乘积等于总比
率。
儿何平均数是适用于特殊数据的一种平均数,它主要用于计算比率或速度的
平均。
几何平均数也可以看作是均值的一种变形,对几何平均数的公式取对数得:
可以看出,儿何平均数的对数是各变量值对数的算术平均。
众数
众数(Mode)是一组数据中出现次数最多的变量值,用Mo表示。它主要
用于作为定序数据以及定距和定比数据集中趋势的测度值。
1.当数据未分组时,出现次数最多的变量值既为众数。
2.当数据经过分组整理后,众数的计算公式为:下限公式:
L:为众数组的下限值;I:为众数组的组距;F:众数组的频数;
EL众数组前一组的频数;F+i:众数组后一组的频数;
上限公式:
三.中位数(Median)
中位数是一组数据按从小到大排序后,处于中间位置上的变量值,用Me表
示。中位数将全部数据等分成两部分,每部分都包含50%的数据,一部分数据比
中位数大,另一部分则比中位数小。中位数是个位置代表值,它主要用于测度定
序数据的集中趋势。
1.根据未分组数据计算中位数
先对数据进行排序;然后确定中位数的位置。其公式为:中位数位置=N+l/2,
式中的N为数据的个数。最后确定中位数的具体数值。
若N为奇数,则中位数为;若N为偶数,则中位数为和
的平均数。
2.根据分组数据计算中位数
先根据公式N/2确定中位数的位置,并确定中位数所在组,然后用公式近似
确定中位数。
计算中位数时,假定中位数所在组的频数在该组内是均匀分布的,中位数是
一个位置平均数,其数值的大小不受极大值和极小值的影响。
四.众数、中位数和均值的关系
第二节分布离散程度的测度
集中趋势反映的是各变量值向其中心值聚集的程度,这只是数据分布的一个
特征,数据的分散程度是数据分布的另一个重要特征。它所反映的是各变量值远
离其中心值的程度,集中数据对一组数据的代表程度,取决于该组数据的离散水
平。
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散
程度越小,其代表性就越好。
描述数据离散程度的测度值主要有极差、平均差、方差和标准差、离散系数
等。
极差(全距)
是一•组数据的最大值与最小值之差,即R=max(Xi)—min(Xi)
对于组距分布数据,极差也可以近似表示为:R=最高组上限值一最低组下
限值
极差计算简单,易于理解,但它易受极端值的影响。
方差和标准差
方差(Variance)是各变量值与其均值离差平方的平均数,是测定定距和定
比数据离散程度的最主要方法。根据总体数据和根据样本数据计算的方差在数学
处理上略有不同。
1.总体方差和标准差
①未经分组的原始数据
②对于组距分组数据
方差的平方即为标准差。与方差不同,标准差是计量单位的,计量单位与变
量值相同,其实际意义要比方差清楚。在对社会经济现象进行分析时,我们更多
地使用标准差。
2.样本方差和标准差
①样本方差:未分组数据:组距分组数据:
②样本标准差:未分组数据:组距分组数据:
说明:i样本方差与总体方差在计算上的区别是:总体方差是用数据个数或
总频数去除离差平方,而样本方差则是用样本数据个数或总频数减1去除离差平
方和。其中n-1称为自由度。
五当n很大时,样本方差S2与总体方差62的计算结果相差很小,这时样本
方差也可以用总体方差的公式来计算。
三.离散系数
对于平均水平不同或计量单位不同的不同组别的变量值,不能用极差、平均
差、标准差等测度值比较其离散程度,必须消除变量值水平高低和计量单位不同
对离散程度测度值的影响,此时需计算离散系数。
离散系数通常是就标准差来计算的,因此也称为标准差系数,它是一组数据
的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其计算公式为:
离散系数的作用主要是用于比较不同总体或样本数据的离散程度。离散程度
大的,说明数据的离散程度大,离散系数小的,说明数据的离散程度小。
第三节分布偏态与峰度的测度
前面讲的集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数
据分布的特点,还需要知道数据分布的形状是否对称,偏斜的程度以及分布的扁
平程度等。
偏态及其测度
偏态是对数据分布的偏斜方向和程度的测度。要测度偏斜的程度则需要计算
偏态系数,其计算公式为:a3=
式中:a3为偏态系数;6为标准差的三次方。
对偏态系数的分析:
1.当分布对称时,离差三次方后正负离差可以相互抵消,因而的分子等
于零,则aj=Oo
2.当分布不对称时,则偏态系数a3为正值或负值。当a3为正值时,表示正
偏离差值较大;可以判断为正偏或右偏,a3的数值越大,偏斜的程度就越大;当
(X3为负值时,表示负离差数值较大,可以判断为负偏或左偏,a?的数值越大,向
左偏斜的程度就越大。
峰度及其测度
峰度是集中趋势高峰的形状,它是与正态分布相比较而言的。若分布的形状
比正态更瘦更高,则称为尖峰分布,若比正态分布更矮更胖,则称为平峰分布。
峰度系数是离差四次方和平均数再除以标准差的四次方,其计算公式为:
式中:为峰度系数
大家知道,正态分布的峰度系数为3,当04>3时为尖峰分布,当O4<3时
为平峰分布。
第四节统计表
一•概念
统计表和统计图是显示统计数据的两种形式,在数据的搜集、整理、描述和
分析过程中,都要使用统计表。统计表是纵横交叉的线条所组成的一种表格。
统计表的构成
统计表一般有由四个主要部分组成,即表头(总标题)、行标题(横行标题)、
列标题(纵栏标题)和数字资料。表头应放在表的上方,它所要说明的是统计表
的主要内容;行标题和列标题通常安排在统计表的第一列和第一行,它所表示的
主要是所研究问题的类别名称和指标名称;表的其余部分是具体的数字资料。
第四章抽样与抽样估计
教学重点和难点:抽样中的基本概念;抽样误差;区间估计;样本容量的确
定。
第一节抽样调查中的其本概念
抽样的概念和特点
(一)抽样的概念
从总体中抽取一个样本作为总体的代表,这一过程称为抽样。即从总体中随
机地取出其中一部分观察,由此而获得有关总体的信息。对样本进行调查,再根
据抽样分布的原理利用样本资料对总体数量特征进行科学的估计与推断,这就是
抽样估计。
(二)抽样的特点
1.遵守随机原则
2.以部分推断总体
3.抽样推断的误差可以事先计算并加以控制。
有关抽样的基本概念
(1)总体与样本
1.总体:总体是指根据研究目的确定的所要研究事物的全体。总体单位的
总数称为总体容量,一般用N表示。
2.样本:从总体中抽取的部分总体单位所构成的整体,称为该总体的一个
样本。样本所包含的总体单位个数称为样本容量,一般用n表示。样本按照样本
单位数的多少分为大样本和小样本。一般地说,n230为大样本,n<30为小样
本。从一个总体中可以抽取一个样本也可以抽取多个样本。
(二)总体参数与统计量
1.总体参数(总体指标)
在抽样估计中,用来反映总体数量特征的指标称为总体指标,也叫总体参数。
我们所要估计的总体参数通常有总体平均数内总体比例P,总体标准差6,总
体方差62等等。总体参数的计算方法是明确的,但具体数值事先是未知的,需
要用统计量来估计它。
2.统计量(样本指标)
样本指标又称样本统计量或估计量,是根据样本资料计算的,用以估计和推
断相应总体指标的综合指标。常见的样本统计量有样本平均数,样本比例(也
叫样本成数)P,样本标准差S或样本方差S2等等。样本统计量是随样本不同而
不同的随机变量。
成数(比例)的抽样平均误差为:
-
-p)2
M一
抽样平均误差概括地反映了所有可能样本的估计值(0)与相应总体参数
(0)的平均误差程度。抽样平均误差愈小,则样本统计量的分布愈集中在总体
参数附近,平均说来,样本估计量与总体参数之间抽样误差愈小,样本对总体的
代表性愈大。A
A
注:抽样方差即抽样平均误差的平方,估计量0的抽样方差记为V(0)。
2、抽样平均误差的实际应用公式
抽样平均误差的定义公式中,由于总体参数(9)未知,也不可能列出所有
可能的样本估计值,所以抽样平均误差不能按定义公式来计算,只能根据概率论
和数量统计的有关理论来推导其计算公式。
(1)平均数的抽样平均误差
a、在重复抽样条件下
1
说明:i:抽样平均误差比总体标准差小得多,仅为总体标准差的方。
ii:抽样平均误差和总体标准差成正比变化,和样本单位数n的平方根成反
比变化。
b、在不重复抽样条件下
说明:i:不重复抽样的抽样平均误差公式比重复抽样的相应公式多一个系
数后音,这个系数称为不重复抽样修正系数(或校正因子)。
21-2
也"是抽样比重,”是小于1大于0的数,因此,在其他条件不变的情
况下,说明不重复抽样下的抽样平均误差要小于重复抽
样条件下的抽样平均误差,不重复抽样的样本代表性较大。
iii:总体单位数(总体容量)N总是比样本单位数(n)大得多,£总是很
小的,1-^就是接近于lo在这种情况以下,不重复抽样的抽样平均误差实际
上与重复抽样的抽样平均误差相差无儿。
IV:在计算抽样误差时,通常总体标准差(。)是未知的,经常采用以下儿
种方法来代替总体标准差:用样本标准差(S)代替总体标准差(。);用过去同
样问题全面调查或抽样调查的经验数据代替;在正式抽样调查之前,先组织试验
性抽样,用试验样本资料代替。
(2)成数(比例)的抽样平均误差
a、在重复抽样条件下
p:总体成数
b、在不重复抽样条件下
PO-P)
b(p)=仁)
nN—1n
3、影响抽样误差的因素
(三)抽样极限误差
我们知道,以样本指标来估计总体指标,要达到完全准确,这儿乎是不可能
的事情。当然,在做估计时我们不希望误差不大,误差愈大,样本的价值便愈小,
但也不是误差愈小愈好,因为在一定限度之后减少抽样误差势必增加很多费用,
因此,在做估计时,需要确定一个可允许的误差范围,这种在一定概率下抽样误
差的可能范围,即为抽样极限误差(也称为允许误差)。
在一定概率下:|9—0|^A0
具体为:
|x-x|<Ax
|p-p|w
将上面的等式变换为下列等价的不等式关系:
(1)
p-^p<p<p+^p⑵
(1)式表示被估计的总体平均数是以样本平均数-为中心,在-_A-至
"+之间变动,区妈A嚏+]称为平均数的估计区间(或置信
区间)。区间的总饭螃为。
(2)式表示被估计的总体成数是以抽样成数P为中心,在p-屈至Sp+5之
间变动,区间[切,0+3]称为成数的估计区间(或置信区间),区间的总长
度为2△7o
在抽样实践中,允许的抽样误差有时也用相对的允许误差限来表示,相对的
极限误差(抽样误差率)是将抽样的极限误差除以估计的均值或成数,用△;和
。’表示,则:
晨'=唐
xP
用1减去相对的极限误差称为估计的精度。即:抽样估计精度=1(100%)
一抽样误差率。
四、抽样估计的置信度
抽样估计的置信度是表明样本指标(统计量)和总体指标(参数)的误差不
超过一定范围的概率保证程度。习惯上称之为可靠度,可信程度,把握程度等等。
用1-a表示。
制又一斤区△斤)=1一况或尸(|尸一。区AP)=l-a
=P(X-AX<X+AX)=l-a
=>p(X-Zaa(X)<X<X+Zaa(x))=\-a
2~2
说明:对于一般正态分布,又需设2=三二幺-
通过对x的线性交换后得到新随机变量z是服从标准正态分布的,即
Z~N(O,1),因而求一般正态分布在某区间上的概率,就转化为求标准正态分布
在相应区间的概率。
五、总体参数估计
总体参数估计有如下两种方法:点估计和区间估计。
(一)点估计
点估计是直接以样本统计亶'o来估计总体参数0。如样本均值彘总体均值京〃)
的点估计量,样本方差S2是总体方差。2的点估计量。样本比例P是总体比
例P的点估计量。
优点:能够提供总体参数的具体估计值,简便易行。
缺点:没有表明抽样估计的误差,也没有指出误差在一定范围内的概率保证
程度有多大。
点估计符合优良估计的三个标准,即无偏性、一致性、有效性。
(二)区间估计(只讲总体均值的区间估计)
1、科学的抽样估计方法要具备三个基本要素。
(1)要有合适的统计量作为估计量G,p)
(2)要有合理的允许误差范围<Ax,Ap)
(3)要有一个可接受的置信度(1-。)
「Ax^Zaa(x)。为显著性水平
-1-
Ip(\x-x\<Ax)-\-a
分析:说明估计的准确性(Ax)和估计的可靠性是一对矛盾。
x-Ax<x<x+Ax
置信区间
p-\p<p<p+Ap
2、区间估计
置信度(1・。)
分析:(1)总体方差已知时,正态总体均值的区间估计
x+
X-Za•cr(x)<〃(x)-^a•b(x)
上式即为置2信度为1-a时总体均2循的置信区间。
(2)总体方差未知时;正态总均值的区间估计(小样本)
—s——s
X~fa~~j=~M%)~x+ta
置信区间:52
\-a
-s
置信度:f6
抽样极限误差:
六、抽样组织方式
基本的抽样组织方式有简单随机抽样,分层抽样,等距抽样和整群抽样四种。
1、概念
(一)简单随机抽样
简单随机抽样是按随机原则直接从总体N个单位中抽取n个单位作为样本。
简单随机抽样是抽样中最基本也是最简单的抽样组织形式,它适用于均匀总体,
即具有某种特征的单位均匀地分布于总体的各个部分。在抽样之前要对总体各单
位加以编号,然后用抽签的方式或根据《随机数表》来抽选必要的单位数。
2、样本容量的确定
样本容量是指样本中含有的总体单位数。样本容量的多少,与抽样误差及调
查费用都有直接的关系。如果样本容量过大,虽然抽样误差很小,但调查工作量
增大,耗费的时间和经费太多,体现不出抽样调查的优越性。反之,如果样本容
量太小,虽然耗费少,但抽样误差太大,抽样推断就会失去价值。因此,必要样
本容量的确定在抽样设计中十分重要。
(1)平均数必要样本容量的确定
a、在重复抽样条件下:
n=
*
公式推导:
(y
b(x)丁
CT2a2
b(X)2=—=>n
n,(X)2
由于:△》=Z&•<T(X)
2
z”4
a2
=>〃=——=>n2
\xA-
Z7
~2
b、在不重复抽样条件下
Nzy
n=2
N岸+Z、2
xa
2
既:
2
乙ze
鼻11
-2y2d--==>
ZqNn
~2
N^-+(y2Zl
----222=~=>
NZ^cr2n
~2
NZ;/
n=----------------
N《+Z"
2
(2)成数必要样本容量的确定
只需将上述公式中
Ax换成年>,0"2换成p(l-夕)即可
a、在重复抽样条件
Z;P(I-P)
b、在不重复抽样条件下
NZ;P(1-P)
____I_______
NNp+Z;P(l-p)
从上述公式可见,必要的样本容量受以下因素影响。
(1)总体方差。2
(2)允许误差范围△域△.
(3)置信度\-a
(4)抽样方法
(5)抽样组织方式
关于样本容量确定的说明:
(1)上面公式计算的样本容量是最低的,也是最必要的样本容量。
(2)如果进行一次抽样调查,同时对总体平均数和成数进行区间估计,运用
上面公式计算两个样本容量,一般情况下两者不相等,为了同时满足两个推断的
要求,一般在两个样本容量中选择较大的一个。
(3)上面公式计算结果不一定是整取,如果带小数,一般不采取四舍五入办
法化成整数,而是用比这个数大的邻近整数代替。
简单随机抽样在实践中受到许多限制,当总体很大时对每个单位编号,抽签
等都会遇到困难,因此,实践中,我们常常采用分层抽样,等距抽样或整群抽样。
第五章假设检验
教学重点和难点:假设检验的基本思想;检验中的两类错误;总体均值;比
例和方差的假设检验。
所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利
用本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异从而
决定应接受或否定原假设。
第一节假设检验的一般问题
一、假设检验的基本思想
假设检验的基本思想是带有概率性质的反证法。具体说来,假设检验主要有
以下两个特点:
第一,假设检验所采用的逻辑推理方法是反证法。为了检验某个假设是否成
立,先假定它是正确的。然后根据抽样理论和样本信息,观察由此假设而导致的
结果是否合理,从而判断是否接受原假设。
第二,这里的合理与否,所依据的是“小概率事件实际不可能发生的原理”。
即在一次观察中小概率事件发生了,则认为原假设是不合理的;反之,小概率事
件没有出现,则认为原假设是合的。所以,假设检验的反证法是带有概率性质的
反证法,并非严格的逻辑证明。
二、假设检验的步骤
假设检验一般有以下儿个步骤:
1、提出原假设和备择假设
2、选择适当的统计量,并确定其分布形式
3、选择显著性水平a,确定临界值
4、作出结论
三、假设检验中的两类错误
(一)第一类错误
(-)第二类错误
四、两类错误的概率a和B的关系
第二节总体均值、比例和方差的假设检验
一、总体方差已知时对正态总体均值的假设检验
二、总体方差未知时对正态总体均值的假设检验
三、总体比例的假设检验
四、总体方差的假设检验
第三节假设检验中的其他问题
一、区间估计与假设检验的关系
二、假设检验中的P值
第六章方差分析
教学重点和难点:方差分析的原理;单因素方关分析;双因素方差分析。
在数理统计中所学的假设检验主要讨论两个总体均值是否相等的显著性检
验问题,但是,当总体增加到3个甚至更多时,用假设检验对总体均值进行显著
性检验,不仅工作量大,而且影响估计精度,此时就需采用方差分析。方差分析
(Analysisofvariance)能够解决多个均值是否相等的检验问题。节省时间是这
种方法的明显优点。
第一节方差分析的基本问题
一、方差分析的内容
方差分析是对多个总体均值是否相等这一假设进行检验。
在方差分析中,有儿个术语需要了解。一个是因素,因素是一个独立的变量,
是方差分析研究的对象。因素中的内容称为水平。
无色
粉色
橘黄色
绿色
因素
若方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对
多个因素进行,称为多因素分析。在多因素方差分析中,双因素方差分析里最常
见的。
用方差分析来检验假设有三个假定:1、各个水平的观察数据必须服从正态
分布;2、方差相同。3、相互独立。
二、方差分析的原理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理文化中的危机管理与应急响应
- 关节镜护理试题及答案
- 高中故事表演说课稿2025
- 2026年湖北省恩施州工程专业技术职务水平能力测试(标准化)综合能力测试题及答案
- 初级会计职称会计实务模拟题含答案
- 初中生2025年专题探究环保压力应对说课稿
- 口腔主治医师考试辅导《牙体牙髓病学》试题附答案
- 消防安全常识手机版
- 附着式升降脚手架升降顺序安全技术交底
- 大学生职业规划语录
- 2024年四川南充中考物理真题及答案
- 上海大学-物理期末考试卷
- 贵州省小升初数学试卷及答案
- 合伙人退伙声明书
- 专升本(网课)现代物流
- 挖掘机工作装置设计计算说明书样本
- JBT 7041.3-2023 液压泵 第3部分:轴向柱塞泵 (正式版)
- 产品开发合作计划书
- 成品包装车间管理制度
- 旅游行业员工试用期考核方案
- 中考语文专题复习:古诗词曲同音(近音)异形字归纳辨析
评论
0/150
提交评论