社会统计学课件_第1页
社会统计学课件_第2页
社会统计学课件_第3页
社会统计学课件_第4页
社会统计学课件_第5页
已阅读5页,还剩536页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第一讲:为什么要学习社会科学研究方法?

乔晓春

教授、博士生导师

北京大学人口研究所

2009-7-1

北京大学2本次课内容包括:中国的社会科学,离科学还有多远?——

科学性问题——做科学的研究——暑期班

目的

怎样做是不科学的?——做科学研究的必

要条件

如何做“科学”的研究?——暑期班内容

单变量和双变量问题——本门课内容3中国的社会科学,离科学还有多远?从被问到的一个问题说起

“中国的社会科学与美国能差多少年?”10年、20年、……50年?这个问题是“离美国还有多远?”

只有先回答“离科学还有多远”,然后才

能回答“离美国还有多远”。4社会科学在中国的地位在中国,社会科学和自然科学在人们心目中的地位是不一样的。人们瞧不起社会科学,更瞧不起社会科学家,认为社会科学家没有学问,社会科学不是科学。事实上国家也未将社会科学当作科学来对待。比如,国家在社会科学领域并没有设立“院士”。而国际上很多国家的社会科学与自然科学一样是有“院士”的。那么社会科学家是怎么认为的呢?社会科学是不是科学?结论是:社会科学也是科学,但中国社会科学在研究方式和研究方法上存在着大量的不科学的地方。这也是为什么社会上人们看不起社会科学家,不重视社会科学的原因。一个令人费解的问题是,很长时间以来中国的社会科学家经常强调:社会科学和自然科学是不一样的;社会科学不必要、也不可能象自然科学那样去做研究。如果自然科学是科学的话,似乎社会科学可以与“科学”分开。那么社会科学不需要做得科学,还是不可能做得科学呢?

5社会科学领域的一些奇怪现象非本专业人士可以轻易成为本专业的专家。专业的转换或跨越很容易实现;这在自然科学是不可能的。不做文献研究,文章没有参考文献;不区分哪些结论是别人研究的成果,哪些是自己得出的结论。靠个人经历、判断、感受来下结论。谁最容易成为某个领域的专家呢?口才好、文笔好、有一定社会阅历的人,可以成为他想成为的社会科学任何领域的“专家”或名人。研究做得很容易,文章很高产研究结论存在着大量的、低水平的重复。习惯于思辨分析,而不习惯于实证研究。专业知识和方法的积累,与学术成就并不成比例。知名学者通常并不具备很深的专业功底和水平。因为“知名”通常是由政府和媒体来确认的。

6科学是什么?科学是什么?科学是解释实证现象(Empirical

phenomena)的系统方法。实证(Empirical)指的是可观测和可测量;现象(Phenomena)指的是自然存在的事实

(Ritchey,

2000)科学研究中“科学”指的是反映事实的数据和科学的方法;“研究”指的是获取新认识、得出新规律和新结论。那些用实证性方法所获取新知识的过程,就是科学的研究。科学的特点是:以事实为依据,以方法为手段。只要所用的是系统的实证性研究方法,便可以算作科学,否则就不是。科学与研究对象、研究题材无关,只与观察问题的角度,研究问题的方法有关。非科学的特点是认识问题的方式具有主观性。比如,依据感觉、习惯、常识、权威、思辨(或哲学)推理。

78社会科学研究对象的特点社会科学和自然科学的共同点:都属于科

学的范畴,从而都依据事实来进行判断。

强调客观判断,排斥主观判断。

社会科学与自然科学的不同点:社会科学

是研究对象是人,即人的社会关系和社会

行为;而自然科学研究对象是物,即自然

状态下的物资形态。

二者作为对象——人和物——是不同的;

但是作为科学,它们又是相同的。9社会科学原本要比自然科学更难正是由于社会科学研究对象是以人为中心,以及它的复杂性和不确定性,导致社会科学研究从本质上说比自然科学更困难,在科学性的把握上比自然科学更不容易。正是由于社会科学研究对象的复杂,而社会科学学者在不具备把握复杂现象的能力时,更容易将其做简单化处理;既然证明不出来,那就只好“感觉”出来。似乎是:最说不清楚的事情也是最容易说的。从而把原本应该是科学的研究,用不科学的、简单的、直观的方法来处理。得出的结论通常是常识性的,而不具任何新意和科学性。不科学现状为什么能够维持下去?第一个是依据问题——什么是事实——主体和客体的混淆从个人的经历说起:社会科学是研究人的,比如,老年研究对一般人的研究同样存在类似的问题因为研究者既是主体,同时又是客体;既是研究者同时又是被研究者(自然科学不会)。从而把自己的经历和感受作为一般结论,并推广到一般人群,并依此来下结论。这一研究思路会使那些经验丰富的人成为专家。如离婚,生育,死亡……。第二个是手段问题——用什么方法——以思辨代替实证习惯于哲学和政治经济学的思辨性论证思路第三个是创新问题——什么样的结论——用个人的认识代替学术的认识

10中外社会科学研究的差异国外研究多为具体的、实际的社会问题——老百姓的问题;中国研究的多为宏观的政策性问题——国家发展问题——政府关心的问题。国外是用数据说话,中国是研究者凭个人的感觉、经历和经验来下结论。国外是依据群体结果下结论,中国是依据个案(包括研究者本人)下结论国外通常用实证的方法去分析和研究问题;而中国更多的是“理论”层面的、思辨式的、哲学式的分析方法——辩证唯物主义和历史唯物主义方法,很少用实证的方法。

1112中国的现状请检验一下,在中国的社会科学里,有多少研究是遵从这一研究过程的。

有多少人是基于数据做分析和研究的?

有多少人用的是能够“真实”反映客观实际的数据?

有多少人能恰当地使用分析方法和模型,并依据相对真

实数据作出客观、科学的结论?如果各层次的比例均为30%。那么科学研究的比例为2.7%。

如果比例是20%,那么科学的研究只占到0.8%。不科学的后果科学理念的不同、研究方式和方法的不同,使中国的社会科学与国外处于隔离和封闭状态。所以看不懂国外的学术论文,无法与国外在学术上进行交流。中国经济在腾飞、科技在发展,但社会科学却越来越落后。我们用的是“中国功夫”,外国人用的是“现代武器”。我们能描绘蓝图、画出精美的图纸;但做不出我们所画出的东西。对前面提出问题的回答:中国社会科学需要重新上路。先解决“科学”的问题,然后再解决“差多少年”的问题。

13暑期班的目的长远目的:改变中国社会科学不可学的现状,使中国社会科学走到科学的轨道上来。具体目的:使我们的学员(以及学员的学员)成为一个知道什么是科学的研究,并成为真正从事科学研究的人才。要想做科学研究,首先要知道什么样的研究是不科学的——知道什么是“错”的;其次才是知道如何做“对”的,即知道怎么去做研究。前者是做科学研究的必要条件;后者是充分条件,容易讲清楚;后者需要进行系统的学习。下面就对这两方面的问题进行一些介绍。

1415科学研究的过程提出假说。比如,父母离婚对孩子的发展不利;独生子女心理健康状况差——学习实际理论。收集数据。要证明这些假说,需要数据的支持,从而要用科学的方法去收集数据——学习调查方法。到社会上去调查、收集数据,相当于物理、化学中的试验。

避免“不用数据(data

free)”式的研究分析数据。对获取的能够反映“客观事实”的数据,进行整理和分析,对提出的假说进行检验——学习分析方法

。得出结论。得出经过科学检验或科学证明的结论。进一步可以将其上升为理论。做科学研究需要掌握两方面内容:理论和方法。方法又分为两类:1.方法论——贯穿研究全过程的研究设计2.

具体方法(包括收集数据的方法和分析数据的方法)16做科学研究需要考虑的问题让事实说话,让数据说话,不是要研究者自己说话(研究者只是事实的收集、整理、组织、分析者,而不应该是事实的承载者,他本身的经历和感受不能作为一般事实)什么事实?一般人(群体)状态和行为的反映什么可以反映事实?一般来说是数据。事实具有一般性的特点:少量客体不能反映一般。什么样的数据能反映一般现实。无偏、有代表性、无主观选取或操纵。好的数据作为客观、科学证据的前提,但并不等于是好的研究。好数据只是好研究的必要条件,不是充分条件。还要使用科学的方法。方法不能乱用。不同的数据客观上要求使用不同的分析方法。方法如果没有问题,但对结果的解释可能会存在问题。可能会犯错误的环节研究的逻辑:从提出假设到检验假设

研究的过程:

收集数据(通过定量调查——抽样调查):目

的是反映真实的客观世界。可能会出现的两类

错误:微观层次上:测量的效度和信度

宏观层次上:样本数据能够代是总体数据描述:(单变量或双变量)反映“是什么”关系解释(方法及方法的使用):反映“为什

么”

1718错误的分类数据错误

推断错误

模型错误

解释错误19问题一:研究设计问题研究设计包括理论框架设计、研究对象和研究单位确定、研究的时间维度、指标的概念化和操作化定义、方法的选取、对照组的选取等。经常出现的问题:丢失重要变量、没有或选错对照组、选错分析方法。切记:“一个研究永远好不过它的设计”。20问题二:数据不是客观事实的反映测量工具:问卷中所调查的问题

效度:是否测量了想要测量的东西。

信度:数据是否可信,是否准确(漏报、错报)要记住:“garbage

in,

garbage

out”。

比如:健康状况、生育意愿、年龄21问题三:不知道样本所反映的总体任何一个抽样调查,调查得到的样本背后一定有一个它所代表的总体,或者全国、或北京市、或北京大学。我们在研究这个总体时,通常不去调查总体的全体人口,而是调查它的部分人口。调查部分人口的目的,是要让这“部分人口”能反映或代表我们所要研究的总体。如果不能代表,我们就认为样本是“有偏”的,是不能用的。因此,在拿到一个数据或使用一个数据时,你首先要问这个数据代表的总体是谁,这样你才知道你得出的结论指的是谁、针对的是谁。它永远不针对样本本身,因为样本本身是没有意义的。22问题四:不是随机样本,但却用统计方法进行分析“代表总体”的涵义是什么?

在抽样开始前,总体是明确的,总体名单的列

表(抽样框)是可获得的,总体中的每个人都

有被抽中的可能,而且被抽中的概率是已知的

对总体中样本的抽取是随机的如果是没有“总体”的纯随机抽样,利用

统计方法进行分析是有一定风险的

如果抽样不是随机的,统计方法是不能使

用的。23问题五:样本是有偏的,却用来分析即使有明确的总体,抽样也是随机的,直接对数据分析仍然可能是有偏的

,有两种可能:

一是等比例抽样:出现随机偏差

二是不等比例抽样:必然出现偏差无偏差的必要条件是:总体结构和样本结

构要一致或相近。

如果不一致,需要做调整——事后分层或

数据加权问题六:不做统计推断社会科学更多地是用样本数据进行分析。然而,一旦使用的是样本数据,就立即涉及到样本指标对总体指标的推断问题,即在样本上表现的结果或关系在样本背后的总体上是否成立。有人会问:“不做推断行不行?”

回答是:“不行”。原因是,我们研究的问题一定是针对“样本背后的”总体的,永远不存在针对样本的研究。如果以北京为总体,样本人口平均收入=2000元,那么北京市人口的平均收入应该是多少?样本结果为点估计;总体结果为区间估计——推断内容之一:区间估计如果样本人口中,男性平均收入=2080元,女性平均收入=1919元,是否可以说男女收入是有差异的?推断内容之二——显著性检验

24问题七:推断方法选择错误单变量问题——值的测量和推断:

两类测量:平均数——连续变量;比例——分类变

推断:区间估计;显著性检验(不多见)

标准误的计算——出现错误双变量问题——关系的测量和推断

关系:连续——连续(平均数),连续——分类

(平均数),分类——分类(交叉表)

测量:相关系数,Lamda,Gama

推断:相关回归——F检验,方差分析——t,

F检验,

卡方检验复杂调查数据的推断问题

25对离婚的态度高受教育水平低受教育水平男性女性男性女性同意反对7030703060406040合计100100100100对离婚的态度性别男性女性同意反对70306040合计10010026问题八:用双变量做结论如果收入和年龄的相关系数=

-

0.90,能否说年龄高低决定收入的大小?受教育程度可能起作用。必须用多变量分析才可以做结论。性别高收入中收入低收入男性241女性501问题九:不知道多大样本才有效如果有20%的格的数据是小于5,统计检验就无效对于单一的连续变量来说,保证统计检验有效,需要30个样本。小样本检验——Fisher

Exact

Test

2728问题十:错误套用回归模型任何分析方法都是针对不同数据的。换句话说,分析不同类型的数据,要使用不同的分析模型。描述多变量:因变量是:

连续变量——线性回归模型

分类变量——分类数据分析模型

时间数据(带有截断数据)——生存分析(事件史分

析)模型问题十一:违背模型假设(以线性回归模型为例)模型

:Yi

=

b0

+

b1Xi+εii

=

1,

2,

……,n线性回归模型必须满足以下的假设:

直线性:E(Yi)

是X

的线性函数,即E(Yi)=

b0

+

b1Xi

独立性:各个Yi

(i

=

1,

2,

...,

N)之间在统计上是相互

独立的,即Cov(Yi,Yj)

=

0

(i≠j)。

零误差:尽管εi

0,但ei

的平均值

E(εi)=

0

等方差:对任何Xi,每个Yi

(i

=

1,

2,

...,

N)的方差是

常数并且相等,即对任何i,

Var(Yi)

=

s2.(这与Var(εi)=

s2

等价)

正态性:对于固定的Xi

εi(i

=

1,

2,

...,

N)服从N(0,

s2)的正态分布。

2930问题十二:因变量和自变量关系假设错误例如:研究家庭和社会照料对老年人健康

状况的作用

分析结果和期望结果相反

出现“假定”错误

因果关系相反,或互为因果关系

单方向模型解决不了这类问题

需要用互为因果关系模型,或称为因果模

型31理想的研究——尽量避免以上错误,即获得合适的数据、利用合适的方法、得到合适的解释。32暑期班要学什么?

研究设计和

研究方法

社会科学应

用统计学定性研究方

法应用线性回

归模型抽样调查方

法分类数据分

析应用多元统

计方法结构方程

模型33课程设置初级课程:1.社会科学研究设计和研究方法(Research

Design

and

Methods

forSocial

Sciences)

2.

社会科学应用统计学(Statistics

for

Social

Sciences)

3.

应用线性回归模型

(

Applied

Linear

Regression

Models)

4.

抽样调查及其应用(Sampling

Survey

and

its

Applications)中级课程:1.2.3.4.定(质)性分析方法(Qualitative

Analysis

Methods)应用多元统计分析

(Applied

Multivariate

Statistical

Analysis)分类数据分析

(Categorical

Data

Analysis)生存分析(Survival

Analysis)高级课程:1.2.3.多层和纵向数据分析

(Multilevel

and

Longitudinal

Data

Analysis)结构方程模型

(Structural

Equation

Models)空间数据分析及GIS应用(Spatial

Data

Analysis

and

Its

Applications)4.

贝叶斯方法及其应用(Bayesian

Methods

and

Its

Applications)34本门课程的内容第一讲

为什么要学、学什么?第二讲

二项分布及其它离散型随机变量的分布第三讲

变量的分类和分组、单变量特征的统计分析第四讲

正态分布、常用统

计分布和中心极限定理第五讲

统计推断和显著性检验第六讲

概率分布和单样本z和t检验第七讲

双总体差异的显著性检验第八讲

归纳与案例分析1第九讲

方差分析第十讲

相关与回归分析第十一讲

交叉表的检验第十二讲

归纳与案例分析2单变量双变量差异或关系名义变量顺序变量间距变量(连续变量)两个分类变量一个分类一个间距简单回归分析描述统计状态比例、方差、标准差比例、方差、标准差平均数、方差、标准差交叉表(百分比)两或多个平均数计算平均数比较=,≠>,<+,-Phi,Lamda,Gama两或多个平均数比较相关系数推断统计(区间估计、假设检验)理论抽样分布、中心极限定理卡方检验t检验,F检验(方差分析)F检验应用标准误,置信区间35本门课程的结构36谢谢!主要参考书目1.[美]费里斯里奇著.统计想象(TheStatistical

Imagination).

北京大学出版社,2006年1月.2.李沛良著.社会研究的统计应用.

社会科学文献出版社,2002年9月.3.柯惠新、黄京华、沈浩编著.调查研究

中的统计分析方法.北京广播学院出版

社,1996年4月.社会科学应用统计学第二讲变量的分类和分组、单变量特征的统计分析第一节变量的分类

一、定类层次的变量(名义变量)定类变量(Nominal

variable)的取值只有类别之分,其数学运算特性只具有等于或不等于的性质。二、定序层次的变量(序次变量)定序变量(Ordinal

variable)的取值除了有类别之分以外,还有等级、次序的差别,其数学运算特性除具有等于或不等于之外,还有大于或小于之分。三、定距层次的变量(间距变量)

定距变量(Interval

variable)的取值除

了有类别、次序之分外,取值之间的距离

还可用标准化的距离去度量,其数学运算特性除了等于、不等于、大于、小于之外,还可以加或减。定距变量没有绝对的零点,也就是说定距变量的零只是坐标轴上的一个点,并不表示该现象不存在。因此定距变量只能作加减、而不能作乘除运算。四、定比层次的变量(比率变量)

定比变量(Ratio

variable)的取值除了

具有上述三种变量的属性之外,还可以构成一个有意义的比率,即可以乘或除。是否具有实际意义的零点存在,是定距层次变量和定比层次变量的唯一区别。五、变量层次的比较高级别、高层次的变量可以使用低级别、低层次的变量所适用的统计分析方法进行分析。能用于分析定类变量的统计分析方法最少。有些统计方法只适用于定比变量,而不能用于分析其它三类变量的数据。统计方法可以分为两类:参数统计和非参数统计。参数统计(Parametric

statistics)要求数据是定距变量的数据或定比变量的数据。如果数据是定类变量的数据或定序变量的数据时,则必须使用非参数统计(Nonparametric

statistics)

。非参数统计统计法也可以用来分析定距或定比变量的数据。第二节分布和分组

一、分布的概念

一个概念或变量的各个情况出现的次数或频次,或者是它的各个情况所形成的结构称为分布。变量值频次对的集合称作频次分布。变量值概率对的集合称作概率分布。变量值百分比对的集合称作百分比分布。二、变量的分组(一)变量分类或取值必须要注意的问题1.变量分类或取值必须完备和穷尽。2.变量分类或取值必须互斥。(二)对变量进行分组的方法1.按品质标志分组—选择反映事物属性差异的品质标志为分组标志。2.按数量标志分组—选择反映事物数量差异的数量标志为分组标志。(1)按单值分组(2)按组距分组(三)离散型变量和连续型变量的分组1.离散型变量的分组所谓离散型变量是指可以按一定次序一一列举其数值(通常取整数值)的变量。离散型变量相邻组的上、下限通常不相等,便可用两个确定的变量值来表示,但要求组限必须衔接。2.连续型变量的分组所谓连续型变量是指可以在一定区间内任意取值的变量。连续型变量相邻组的上限和下限通常是以一个变量值来表示。当相邻组的上限和下限是以一个变量值来表示时,为了满足互斥性,就需要增加“上限不包括在内”的约定。在统计学中把确定每组界限的两个变量叫做组限。在作为组限的两个数值之中,较大的一个称为上限,较小的一个称为下限。上限-下限=组距。(四)实际分组时要考虑的问题1.组数分组的一个基本原则是组数应在5~15之间。2.等距分组和非等距分组3.分组点的精度(五)分组的具体方法用极差除以组数,进而得到组距的大概值。一般会把得到的组距的大概值四舍五入为整数。分组必须以一个与未分组数据中最小数相等或还要小的值为起点,以一个与未分组数据中最大数相等或还要大的值为终点。选择组端点时应保证一个数据只能属于一个组。例子:60个数据,最大7.56,最小6.35,极差1.21组距=极差/组数=1.21/13=0.093组距取0.1第一组的起始点必须是6.35或者更小最后一组的终点必须是7.56或者更大本例中,分组以6.30为起点,以7.60为终点三、统计图

统计图用图形的形式来表示变量的分布,

所以又称分布图。定类变量的分布用圆瓣图或条形图表示,定序变量的分布用条形图表示,定距变量和定比变量的分布用直方图或折线图表示。(一)圆瓣图(Pie

chart)

每个圆的面积代表所研究数据的整体,

每一扇形区域代表每个子集所占的百分

比。圆瓣图可以给出部分对于总体的比

例。

设扇形所夹的圆心角度数为x,则

x360某部分数值

全部数值(二)条形图条形图是用若干条长短不等或高低不等、但宽度相等的长条来表示资料类别的次数或百分数的统计图。(三)直方图(Histogram)直方图由紧挨着的长条所组成。直方图用面积而不是用高度来表示数。为了计算小组区间上块形的高度,需要将该组的频次数或百分数除以区间的长度。(四)折线图(Frequency

polygon)折线图或曲线图是用折线或曲线的连续升降来表示资料频次或频率大小变动及其趋势的统计图。(五)茎叶图(Stem

and

leaf

plot)

茎叶图是把每个数据都分成了茎和叶两

部分。最左边的数字是茎,是由高位上

的数字组成的,最右边的数字是叶,由

低位数字组成。茎叶图的一个优点是可以很容易地看出分数的高低和分数的范围。第二个优点是保留了原始数据。举例:实习生设备安全检查得分8676237781796877925968758349914772827470566088759739789455678389679181设备安全检查得分茎叶图茎

2

3

4

5

6叶

3

9

7

5

0967978889780121425353667879911247第三节集中趋势测量法一、集中趋势的概念

代表全体变量分布的主要特征或一般

水平的某一个典型的变量值或特征值

称作集中值或集中趋势。

由于集中趋势表明同类现象在一定时

间、地点条件下所达到的一般水平与

大量单位的综合数量特征,因而在统

计学中集中趋势由均值(平均指标)

给出度量。均值有两类:位置均值—众值、中位值、分位值计算均值—算术均值二、众值Μ

0(Mode)众值是指在一个变量数列中出现频数最多的变量值。如果有两个数发生的次数最多且相同,就有两个众数,叫做双众数。如果某组数据并不是有双众数,而是有两个数发生的次数明显地比其他数据多,有时也称这样的两个数为广义的双众数。有多个众数的,叫多众数。用单项分组数据资料计算众值一般采用直接观察法。用组距分组资料计算众值采用组中值法和近似估计公式。某乡某年农户年收入额

收入额

(元)

500-600

600-700

700-800

800-900

900-10001000-11001100-12001200-1300

合计

农户(户)

240

480

1050

600

270

210

120

30

3000累计频次

(户)

240

720

1770

2370

2640

2850

2970

3000百分比(%)

8

16

35

20

9

7

4

1

100众值Mo下限公式Mo=L

+×d=700

+×100上限公式M0=U

-×d=800

-×100=800

-×100=755.9(元)

11

2

570570450

19%

19%15%=755.9(元)

21

2

450570450

15%15%19%三、中位值Μ

d(Median)将一组变量值按大小顺序排列,位于变量数列中间位置的变量值即为中位值。在变量值变化较大的情况下,中位值可以避免极端数值的影响。这种特点使中位值在社会经济分析中具有特定的适用性,可以用来分析房屋成本、收入和年龄。(一)未分组数据1.根据原始资料求中位值由原始资料计算中位值时,中位值的位次=(N+1)/2。2.根据频次分布求中位值由单项分组资料求中位值时,中位值的位次=(N+1)/2

。(二)分组资料由组距分组资料计算中位值时,中位值的位次=N/2,中位值的计算公式为:L(U)——中位值所在组的下(上)限N——总频(次)数Sm-1

——中位值所在组以下各组的累计频(次)数Sm+1

——中位值所在组以上各组的累计频(次)数n

——中位值所在组的频(次)数d

——中位值组的组距×d=700

+×100=774.3(元)×d=

800

-×100=774.3(元)

N下限公式:

Md=

L+

2

Sm1

n1500720

1050

N上限公式Md=

U

-

2

Sm1

n15001230

1050四、算术平均数(Arithmetic

mean)

算术平均数(或平均数)是以总体各单

位数值之和除以总体单位总数的商。(一)未分组数据1.根据原始资料求均值xi

nx

x1

x2

x3

xn

nnixi

x

nini

ni2.根据频次分布求均值“权”是指各个变量数值的频次或各个变量数值的频次占总频次的比重。ix

n1x1

n2x2

nkxk

n1

n2

nknibi

b

nini

ni(二)分组数据ix

n1b1

n2b2

nkbk

n1

n2

nk五、分位值分位值是将一组变量值排列后划分为若干相等部分的分割点数值。将一组变量值排列后分成四个相等部分,形成三个分割点,这三个点的数值就叫四分位值(Quartiles)。(一)由原始资料计算四分位值Q1的位置=(N+1)/4=5.25Q2的位置=2×(N+1)/4=10.5Q3的位置=3×(N+1)/4=15.75例:

16,16,17,17,17,17,18,18,18,18,18,20,20,20,20,22,22,22,22,22Q1=17

Q2=18Q3=20+0.75×2=21.5(二)由组距分组资料计算四分位值第一个四分位值第二个四分位值第三个四分位值dQ2

NQ2nQ2

NQ2

LQ2

2dQ3

NQ3nQ3

3NQ3

LQ3

4N

4dQ1

NQ1nQ1Q1

LQ1

某工厂工人工资状况统计表按日工资分组(元)

工人数(人)

累计数(人)

50-50-6060-7070-8080-90

90+

合计

100

200

400

200

70

301000

100

300

700

900

9701000Q1的位次=

4

=700100Q3的位次===

750=250Q3=70

+3N

431000

4N1000

410

=72.5(元)31000

4

200

1000Q1=50

+

4

20010

=

57.5(元)2000年某工业企业职工的工资情况月工资分组(元)

400以下

400-500

500-600

600-700

700-800

800-900

900-1000

1000以上

合计职工人数

60

110

270

220

180

120

28

12

1000累计职工人数

60

170

440

660

840

960

988

1000170

440第一个四分位值Q1=

LQ1+×d=500

+×100=

530第二个四分位值Q2=LQ2+×d=

600

+×100=

630N

4

NQ1nQ11000

4

270N

2

NQ2nQ21000

2

220×d=700

+

3N第三个四分位值

Q3=LQ3+

4

NQ3nQ3180

660

×100=75031000

4(三)百分位值的计算百分位值把一组数据分成了100份,所以一共有99个百分位值。第n个百分位值是指至少有n%的数比它小,同时最多有(100-n)%的数比它大。计算百分位值的步骤是:

1.将数据按升序排列。

2.用如下公式计算百分位值位置(i):

式中,P

=所感兴趣的百分位值,i=百分位

值位置,n=数据个数3.如果i是整数,那么P百分位值就是第i个位

置和第i+1个位置的数的平均值;如果i不是

整数,那么P百分位值的位置就是i+1的整数

部分。(n)

P100i

举例:

确定下面8个数的第30个百分位数:

14,12,19,

23,5,13,28,17。

解:n=8,

P=30(1)将这8个数按升序排列:

5,12,13,14,17,19,23,28(2)计算i:

30100i

(8)

2.4由于i不是整数,因此2.4+1=3.4,

3.4取整后为3,因而第30个百分位数是13。百分位数可以是也可以不是数据中的一个。六、众值、中位值和平均值的比较(一)适用范围众值适用于定类、定序、定距、定比变量;中位值适用于定序、定距、定比变量;平均数适用于定距、定比变量。(二)优、缺点

平均数包含的信息最丰富,代表性最好。

当数列不是偏态分布的时候,平均数是集

中趋势的最佳选择。但平均数要受数列中离群值的影响。而且,样本越少,这种影响越大。此外,当数据资料是定类、定序变量或者是有开口组的定距测量时,平均数都变得无能为力。中位值的适用范围比平均数宽,而且不受离群值的影响。当数列的分布是偏态时,中位值是最有用的集中趋势代表值,因为它位于平均数和众值之间。但中位值由于是依据变量值的排序位置决定的,因此它对于数列分布中的变量值不敏感。此外,它易受样本规模大小变化的影响。众值的适用范围比平均数和中位值都宽,也不受离群值的影响。而且,在图上它很容易被观察到。但由于众值提供的信息很少,因此它是用途最小的集中趋势代表值。众值的最大用途在于,在对中位值和平均数进行测量的同时也测量众值。当对这三个值同时进行测量的时候,会提供很多的信息。第四节离散趋势测量法一、离散趋势的概念

描述变量数列离散程度的特征值叫做离

散趋势或离中量数。它反映了一组变量

值背离分布中心值的特征。

集中趋势告诉我们的是怎样去估计和预

测总体,而离散趋势告诉我们的则是估

计值误差的大小。二、异众比率(Variation

ratio)

异众比率是指非众值的频次之和与总体

总频次的比率,其计算公式为:N

fmo

N

三、极差(Range)R极差是指在一个变量数列中两个极端数值之差,用公式表示为:R

=最大变量值-最小变量值离群值会对极差产生极大的影响。此外,极差只能提供很少的信息量,它不能告诉我们两个极端值之间的变量分布形状是什么。因此,在测量离散趋势的时候,如果只测量极差,则几乎是没有意义的。四、四分互差(内距

Interquartile

range)

把一组数据按大小排列成序列,然后分成

四个数据数目相等的段落,各段落分界点

上的变量值由小到大分别叫做第一个四分位值、第二个四分位值和第三个四分位值,第三个四分位值和第一个四分位值之差即为四分互差,即

Q

=

Q3

-

Q1由于四分互差排除了数列两端各四分之一单位变量值的影响,仅反映分布数列中间部分各单位变量值的最大数与最小数距离中位值的平均离差,所以它与极差相比,受离群值影响较小。(一)未分组数据1.根据原始资料求四分互差2.根据频次分布求四分互差(二)分组资料五、平均绝对离差(Mean

absolute

deviation)

平均绝对离差是数据的离差绝对值的平均数。或MAD

x

NniMAD

xi

N由于使用了绝对值,因而平均绝对离差在统计中的应用不及其他测量值广泛。然而,在预测领域,常用它来作为误差的测量值。六、方差2和标准差方差(variance)的含义是平均离散平方,它是指数列中各个数值与其算术平均数相减之差的平方和的算术平均数。标准差(standard

deviation)是方差的正平方根,也称为根方差。总体方差22(xi

)

N2总体标准差

或22ni(xi

)

N22ni(bi

)

N(xi

)

(xi

2xi

2)

xi

2xi

Nx

2x

x

N(x

)iiNN(x

)x

iN因为所以i

ii22222

22

2xi

N

xi

N

Nxi

(xi)(一)未分组数据

1.根据原始资料计算标准差

根据原始资料计算的标准差222

1N2

(xi)2

N

2

nixi

Nnixi

(nixi)2.根据频次分布求标准差

根据单项分组资料计算的标准差222

1N222

(nixi)

N

N

nibi

Nnibi

(nibi)(二)分组资料

根据组距分组资料计算的标准差222

1N222

(nibi)

N

Ns(x

x)xi

(三)样本方差和标准差

1.根据原始数据2

2

2

i

n12

(xi)

n

n1sn

(x

x)nixi

(nixi)2.根据单项分组数据2

2

2n

i

i

n12

n1sn

(b

x)nibi

(nibi)3.根据组距分组数据22

2ns

s

2

i

i

n12

n1之所以叫做标准差,是因为它为具有不同度量单位的变量的比较提供了一个共同的(标准的)度量单位。与平均数一样,标准差最适合于定距变量和定比变量。同时,由于它是根据平均数计算出来的,因此,标准差与平均数一样,也受到离群值的影响。七、离散系数CV

离散系数是标准差与平均数的比值,它

是度量相对离散趋势的指标,用百分数

表示,其计算公式为:离散系数实际上考察的是标准差相对于平均数的大小,是对标准差进行了标准化。因此,离散系数在比较均值不同或单位不同的数据的标准差时非常有用。100%

sxCV

股票A股票B5个星期的平均价格

64.4

13.0标准差

4.84

3.03所以,股票A的风险比股票B

的风险要小得多。4.8464.4

0.075

7.5%CVA

A

A3.03

13

0.233

23.3%CVB

B

B甲农场乙农场平均亩产

500斤

100斤标准差

50斤

50斤所以,甲农场小麦平均亩产的代表性高于乙农场。

50500100%

10%100%

CV

x甲

50100100%

50%100%

CV乙

x乙第五节形状测量值一、偏度(Skewness)(一)偏度以及均值、中位值和众值的关

当分布非对称或者缺少对称性时就产生

了偏度。

在对称分布时,均值=中位值=众值。

在负偏分布时,均值<中位值<众值。

在正偏分布时,众值<中位值<均值。(二)皮尔逊偏度系数(Coefficient

of

skewness)3(

Md)

Sk

二、峰度(Kurtosis)又细又长的分布称为尖峰分布;又扁又平的分布称为扁峰分布;处于两者之间的形状比较“正常”的分布称为常态峰分布。三、箱线图(Box

and

whiskerplot)箱线图是利用第一和第三分位数、中位数以及两个极端值来描述分布的图形。箱线图中的盒子里包含中位数。从中位数开始向两端延伸至第一和第三分位点,因此它不仅包含了中位数,而且包含了50%的数据。从第一和第三分位数分别引出了一条延伸至极小、极大值的线,称为须线。VAR00002

51.0090807060

N=

VAR00001箱线图的用途之一是发现离群值。离群值是在一个分布中处于主流数据之外的数据。盒子的端点值(Q1和Q3)称为边界点。距离第一、三分位点1.5×IQR的范围称为内围。内围之外到3×IQR的范围称为外围。分布在内围之外、外围之内的数据称为中度离群值,超出外围的数据称为极端离群值。箱线图的另一个用途是确定分布是否有偏度。如果中位数位于盒子的右边,则中间50%的数据是左偏的;如果中位数位于盒子的左边,则中间50%的数据是右偏的。如果最长的须线在盒子右端,那么盒子外的数据是右偏的;如果最长的须线在盒子左端,那么盒子外的数据是左偏的。举例:有40个数据,最小值是62,最大值是87。将这40个数据按从小到大的顺序排列后得到:Q1=69Q2=73Q3=80.5IQR=Q3-Q1=80.5-69=11.5内围是:·

·Q1-1.5

IQR=69-1.5

11.5=69-17.25=51.75·

·Q3+1.5

IQR=80.5+1.5

11.5=80.5+17.25=97.75•

没有数据处于内围之外。外围是:·

·Q1-3

IQR=69-3

11.5=69-34.5=34.5·

·Q3+3

IQR=80.5+3

11.5=80.5+34.5=115.0第三讲二项分布及其它离散型随机变量的分布第一节基础概率一、随机现象的概念

所谓随机现象是指在一次观察中可能出

现也可能不出现、可能这样出现也可能

那样出现、而在大量观察中具有某种规

律性的现象。

社会现象多为随机现象,而随机事件的

概率(即发生可能性的大小)就是随机

事件隐蔽着的规律。二、概率的概念

通常把对社会经济过程中的随机事件进行的观察或科学试验,称之为随机试验,将随机试验的每一个可能的结果作为一个随机事件。如果这些随机试验在相同的条件下大量反复地进行,我们就可以发现它将遵从一定的统计规律。概率就是用来计量某一随机事件在试验中出现的可能性大小的一个取值,这个取值的区间是从0到1。在概率论里所研究的随机试验具有以下三个特点:(1)在相同的条件下试验可以重复进行;(2)每次试验的结果具有多种可能性,而且在试验之前可以明确试验的所有可能结果;(3)在每次试验之前不能准确地预言该次试验将出现哪一种结果。三、样本空间、并集和交集(一)样本空间(Sample

space)一个样本空间是一个试验所有基本事件的集合。随机试验中的每一种结果称做一个样本点Ei,或称基本事件。而所有样本点的全体则称做样本空间S。随机事件是基本事件自身或由基本事件组成的集合,它是样本空间S的某个子集,也是样本点的某个集合。称某事件发生,就是当且仅当属于该集合的某一个样本点在试验中出现。不可能事件就是空集。必然事件就是样本空间S(样本空间作为一个事件是必然事件)。(二)并集和交集X,Y的并集(Union)是指两个集合中所有元素的合并,表示为X∪Y。集合X∪Y中的元素要么是X或Y的元素,要么是X和Y共同的元素。交集(Intersection)中所有元素都必须既是X又是Y中的元素。交集包含的是所有集合中的公共元素。四、边际、合并、联合以及条件概率(一)边际概率(Marginalprobability)边际概率记做P(E),E是事件。一个边际概率通常用一些部分和除以总和来计算。(二)合并概率合并概率指的是两个事件并集的概率,记做P(E1∪E2),

E1

和E2是两个事件。P(E1∪E2)是E1

或者E2可能发生的概率,或者两者同时发生的概率。(三)联合概率联合概率指的是两个事件交集的概率,也就是E1

和E2同时发生的概率,记做P(E1∩E2)。在这个交集中两个事件必须同时发生。(四)条件概率条件概率记做P(E1/E2),它表示在E2已经发生的情况下E1发生的概率。已知或者已给的信息写在斜线的右边。(五)概率阵(Probabilitymatrix)一个概率阵能给出某给定问题的边际概率和联合概率,并集概率和条件概率可以从这个矩阵中计算出来。某公司为美国室内设计协会进行了一个关于工人认为在办公室的何种设计可以提高生产率的调查。调查要求每个回答者回答一个以上的设计类型变化。70%的工人回答可以提高生产率的变化是减少噪声,67%的工人认为是更多存储空间,56%的人反映减少噪声和增加存储空间都能提高生产率。如果从回答者中随机抽取一人,并询问哪种办公室的设计变化会提高工人的生产率,这个人选择减少噪声或更多存储空间的概率是多少?办公室生产率问题的概率阵

增加存储空间是

是0.56

否0.140.70减少噪声否0.110.670.190.330.301.00公司人力资源数据

性别工作性质管理专业技术文秘男性

8

31

52

9100女性

3

13

17

22

55

11

44

69

31155五、互斥事件和独立事件(一)互斥事件(Mutually

exclusiveevents)如果事件E1发生必导致事件E2不发生,反之亦然,或者说如果事件E1与事件E2不能同时发生,则称事件E1与事件E2是互不相容的或互斥的。互斥事件E1与E2之间没有交集,即没有公共的样本点。(二)独立事件(Independent

events)如果事件E1发生对另一个事件E2的发生或不发生没有任何影响,则称E1和E2为独立事件。六、对立事件(逆事件)如果事件E1与事件E2为互不相容事件,且在一次试验或观察中却必有其一发生,则称事件E1与事件E2为对立事件。事件E1的对立事件也叫做事件E1的逆事件,它是由样本空间中所有不属于E1的样本点组成的集合。七、完备事件组如果事件E1,„,En为两两互斥的事件,并且E1+„+En=S,则称E1,„,En构成一个完备事件组。八、概率的运算(一)概率的加法公式1.简化式(A、B互斥)P(AB)

P(A)P(B)

推论1:如果n个事件E1,E2,„,En互不

相容,则有:P(E1+E2+„+En)=

P(E1)+P(E2)+„+P(En)

推论2:如果n个事件E1,E2

,„,En构成一个完备事件组,则它们概率的和为1,即:P(E1)+P(E2)+„+P(En)=12.一般式(A、B为两个任意事件)P(AB)

P(A)P(B)P(AB)在某公司所属工厂职工中,令A表示抽中的为女职工的事件,B表示抽中的为第三工厂职工的事件,C表示抽中第三工厂女职工的事件,则有C=AB。该公司资料如下:

工厂第一工厂第二工厂第三工厂

合计男职工

4000

3000

800

7800女职工

1600

1400

500

3500

合计

5600

4400

130011300

如果从公司中随机抽选一人,可求:(1)该职工为女职工或第三工厂职工的概率

为:

P(A+B)=P(A)+P(B)-P(AB)=+

350011300

130011300

500-

11300

=

0.381(2)抽中的职工为第三工厂职工,且为女职工

的概率为:

500

P(AB)

=

11300

=

0.04或根据条件概率公式:

P(AB)=

P(B)

P(A/B)=×=

0.04

130011300

5001300(二)概率的乘法公式1.简化式(A、B相互独立)P(AB)

P(A)P(B)2.一般式或

P(AB)

P(A)P(B/

A)P(AB)

P(B)P(A/B)在已知A事件发生的条件下,B事件发生的概率称为事件B在给定A下的条件概率,简称为B对于A的条件概率,记作P(B/A)。相应地,把P(B)称为无条件概率、边际概率或原概率。无论是前面哪一个公式,都反映了无条件概率、联合概率与条件概率三个量之间的关系。

i

i

A

B

P

A

P

)

/

(

)

((三)全概公式与逆概公式1.全概公式如果A1,A2,„,An为完备事件组,且P(Ai)>0,则对于任一随机事件B皆有:ni1...

P(An)P(B/

An)P(B)

P(A

1)P(B/

A

1)

P(A2)P(B/

A2)某工厂有三个车间生产同一种产品,各车间日产量分别为2000、1800及1200件。根据过去产品质量检验记录知道,第一车间的次品率为4%,第二车间为2%,第三车间为1%。产品出厂时三个车间的产品均匀混合,求从混合产品中任取一件产品是次品的概率。解:设B为取一件为次品,Ai为任取其中一件来自第i车间的产品

(i=1,2,3)则有:P(B/A1)=第一车间的次品率=4%P(B/A2)=第二车间的次品率=2%P(B/A3)=第三车间的次品率=1%并且

P(A1)

=

P(A2)

=

P(A3)

==

40%

=

36%

=

24%

2000200018001200

1800

200018001200

1200200018001200

由全概率公式得:P(B)=P(A1)P(B/A1)+P(A2)P(B/A2)+P(A3)P(B/A3)=+=

2.56%10010040

×

410010010010036

×

2

+

24

×

12.逆概公式(贝叶斯公式)

设A1,A2,„,An满足全概公式中所述条

件,且P(B)0,则有i

ii

ii

ii

P(A

)P(B/

A

)P(A

)P(B/

A

)

i1P(A

)P(B/

A

)

P(B)P(A

/

B)

求任取一件是次品来自第一车间的概率

有多大?解:即求P(A1/B),根据逆概公式得:P(A1/B)

=P(A

1)P(B/

A

1)

P(B)

40

4=

100100

=

62.5%

0.0256第二节

概率分布、均值与方差一、概率分布的概念概率分布指的是随机现象一共有多少种结果以及每种结果所伴随的概率是多少。如果一个变量在随机试验中可以取得不同的数值,这些数值在试验前无法确定,而对于一次具体的试验,它的取值又是确定的,则称这样的变量为随机变量。在概率分布中,变量的取值表示的是观测或试验的结果。(一)离散型随机变量及其概率分布如果一个随机变量的所有可能取值为有限个或可列个数值,而且以确定的概率取这些不同的值,则称该变量为离散型随机变量。在大多数情况下,离散型随机变量的取值为非负整数。将离散型随机变量的全部可能取值及其相应概率列出来,称为离散型随机变量的概率分布或概率函数。离散型随机变量的分布包括二项分布、泊松分布和超几何分布。(二)连续型随机变量及其概率分布

连续型随机变量是无间隔的变量,其取

值为某一给定区间内的任一值,而不是

有限个或可列个数值。因此,对于连续

型随机变量来说,讨论某一点取值的概

率是没有意义的,也就是说,连续型随

机变量取任何一个具体值的概率都是零,

或者说在连续型随机变量的分布中任何

一点的面积都为零。随机变量ξ

的分布密度或概率密度φ

(x)不是ξ

取值x的概率,而是它在x点概率分布的密集程度,但是φ

(x)的大小能反映出ξ

在x附近取值的概率大小。连续型概率分布包括正态分布、均匀分布、指数分布、t分布、卡方分布和F分布。二、数学期望(总体均值)当我们在对随机变量作相应简化的特征研究时,我们用数学期望代表随机变量的集中趋势,用方差代表随机变量的离散趋势。(

)

(

)

E

x

x

dx

(一)离散型随机变量的数学期望(二)连续型随机变量的数学期望

E()

[xi

P(xi)]

(三)数学期望的性质1.常数的期望等于该常数。2.随机变量与常数之和的期望,等于随机变量的期望与该常数之和。3.常数与随机变量乘积的期望,等于这个常数与随机变量期望的乘积。4.综合2.和3.有:E(c

b)

cE()b5.两个随机变量之和的期望,等于它们期望之和。推广:有限个随机变量之和的期望,等于它们期望之和。6.两个独立随机变量乘积的期望,等于它们期望的乘积。推广:有限个独立随机变量乘积的期望,等于它们期望的乘积。三、方差与标准差数学期望反映了随机变量的平均取值,而方差和标准差则反映了随机变量偏离平均值的程度。方差和标准差都反映了随机变量的可能值密集在数学期望周围的程度。方差值越小,密集的程度越高,反之,方差值越大,密集的程度越低。(

)

(

(

))

[

(

)]

(

)

i

i

D

E

E

x

E

P

x

2(

)

[

(

)]

(

)

D

x

E

x

dx

(一)离散型随机变量的方差(二)连续型随机变量的方差22(三)方差的性质1.常数的方差永远为零。2.随机变量与常数之和的方差等于随机变量的方差。3.常数与随机变量乘积的方差等于该常数的平方与随机变量方差的乘积。4.两个独立随机变量之和的方差等于它们方差的和。推广:有限个独立随机变量之和的方差等于它们方差的和。四、矩、偏态与峰(一)矩矩是各点对某一固定点离差幂的平均值。固定点的选取有两种方式,一种是以原点“0”为固定点,另一种是以均值E(ξ

)为固定点。1.原点矩υ

i(对原点“0”的i阶矩)2.

中心矩μ

i(对E(ξ

)的i阶矩)3

3

E

(二)偏态

偏态就是三阶中心矩,一般用来测量分

布偏离对称的程度。

随机变量分布的偏态系数3

3

E()

4

(

)

E

4

4

3

3

E

(三)峰态峰态就是四阶中心矩,一般用来描述分布尖峰的程度。峰态系数4

第三节二点分布一、二点分布的含义

只有两个可能取值的随机变量所服从的

分布,称为两点分布,其概率函数为:(i=1,

2)ξ

P

095%

15%P(

xi)

pip

p

i

P

)

1

(

)

(二点分布是二项分布仅作一次观察的概率分布,也叫0–1分布。0–1分布的概率函数为:i

1i社会上定期发行某种奖券,每券1元,中奖率为p。某人每次购买1张奖券,如果没有中奖下次再继续购买1张,直至中奖为止。求该人购买次数ξ

的分布。解:“ξ

=1”表示第一次购买的奖券中奖,依题意P(ξ

=1)=p;“ξ

=2”表示购买两次奖券,但第一次未中奖,其概率为1-p,而第二次中奖,其概率为p。由于各期奖券中奖与否是相互独立的,所以P(ξ

=2)=(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论