第3章+概率、概率分布与抽样分布.ppt_第1页
第3章+概率、概率分布与抽样分布.ppt_第2页
第3章+概率、概率分布与抽样分布.ppt_第3页
第3章+概率、概率分布与抽样分布.ppt_第4页
第3章+概率、概率分布与抽样分布.ppt_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3章 概率、概率分布与抽样分布,3.1 事件及其概率,3.1.1 试验、事件与样本空间 3.1.2 事件的概率 3.1.3 概率的性质与运算法则 3.1.4 条件概率与事件的独立性 3.1.5 全概率公式与逆概率公式,3.1.1 试验、事件与样本空间,必然现象与随机现象,必然现象(确定性现象) 变化结果是事先可以确定的,一定的条件必然导致某一结果 这种关系通常可以用公式或定律来表示 随机现象(偶然现象、不确定现象) 在一定条件下可能发生也可能不发生的现象 个别观察的结果完全是偶然的、随机会而定 大量观察的结果会呈现出某种规律性 (随机性中寓含着规律性) 统计规律性,十五的夜晚能看见月亮?,十

2、五的月亮比初十圆!,随机试验,严格意义上的随机试验满足三个条件: 试验可以在系统条件下重复进行; 试验的所有可能结果是明确可知的; 每次试验前不能肯定哪一个结果会出现。 广义的随机试验是指对随机现象的观察(或实验)。 实际应用中多数试验不能同时满足上述条件,常常从广义角度来理解。,随机事件(事件),随机事件(简称事件) 随机试验的每一个可能结果 常用大写英文字母A、B、 、来表示 基本事件(样本点) 不可能再分成为两个或更多事件的事件 样本空间() 基本事件的全体(全集),随机事件(续),复合事件 由某些基本事件组合而成的事件 样本空间中的子集 随机事件的两种特例 必然事件 在一定条件下,每次

3、试验都必然发生的事件 只有样本空间 才是必然事件 不可能事件 在一定条件下,每次试验都必然不会发生的事件 不可能事件是一个空集(),3.1.2 事件的概率,1. 古典概率 2. 统计概率 3. 主观概率,随机事件的概率,概率 用来度量随机事件发生的可能性大小的数值 必然事件的概率为1,表示为P ( )=1 不可能事件发生的可能性是零,P( )=0 随机事件A的概率介于0和1之间,0P(A)1 概率的三种定义,给出了确定随机事件概率的三条途经。,1.概率的古典定义,古典概型(等可能概型) 具有以下两特点 每次试验的可能结果有限(即样本空间中基本事件总数有限) 每个试验结果出现的可能性相同 它是概

4、率论的发展过程中人们最早研究的对象,概率的古典定义,概率的古典定义 前提:古典概型 定义(公式),计算古典概率常用到排列组合知识,【例3-1】,设有50件产品,其中有5件次品,现从这50件中任取2件,求抽到的两件产品均为合格品的概率是多少?抽到的两件产品均为次品的概率又是多少? 解:任一件被抽到的机会均等,而且从50件产品中抽出2件相当于从50个元素中取2个进行组合,共有C502种可能,所以这是一个古典概型。,概率的统计定义,当试验次数 n 很大时,事件A发生频率m/n 稳定地在某一常数 p 上下波动,而且这种波动的幅度一般会随着试验次数增加而缩小,则定义 p 为事件A发生的概率,当n相当大时

5、,可用事件发生的频率m/n作为其概率的一个近似值计算概率的统计方法(频率方法),例(补充),根据古典概率定义可算出,抛一枚质地均匀的硬币,出现正面与出现反面的概率都是0.5。历史上有很多人都曾经做过抛硬币试验。,【例3-2】,某地区几年来新生儿性别的统计资料如下表所示,由此可判断该地区新生儿为男婴的概率是多少?,3. 主观概率,有些随机事件发生的可能性,既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来近似 主观概率依据人们的主观判断而估计的随机事件发生的可能性大小 例如某经理认为新产品畅销的可能性是80 人们的经验、专业知识、对事件发生的众多条件或影响因素的分析等等,都是确定主观

6、概率的依据,3.1.3 概率的基本性质,非负性: 对任意事件A,有 0 P(A) 1。 规范性: 必然事件的概率为1,即: P()=1 不可能事件的概率为0 ,即:P()=0。 可加性: 若A与B互斥,则:P ( AB ) = P ( A ) + P ( B ) 对于多个两两互斥事件A1,A2,An,则有: P ( A1A2 An) = P ( A1 ) + P (A2 ) + + P (An ) 上述三条基本性质,也称为概率的三条公理。,(补充)关于概率的公理化定义,概率的以上三种定义,各有其特定的应用范围,也存在局限性,都缺乏严密性。 古典定义要求试验的基本事件有限且具有等可能性 统计定义

7、要求试验次数充分大,但试验次数究竟应该取多大、频率与概率有多么接近都没有确切说明 主观概率的确定又具有主观随意性 苏联数学家柯尔莫哥洛夫于1933年提出了概率的公理化定义:三条公理 通过规定应具备的基本性质来定义概率 公理化定义为概率论严谨的逻辑推理打下了坚实的基础。,1. 加法公式,用于求P(AB)“A发生或B发生”的概率 互斥事件(互不相容事件) 不可能同时发生的事件 没有公共样本点,P ( AB ) = P ( A ) + P ( B ),互斥事件的加法公式,P ( A1A2 An) = P ( A1 ) + P (A2 ) + + P (An ),【例3-3】,设有50件产品,其中有5

8、件次品,现从这50件中任取2件,若问至少抽到一件次品的概率? 解:“至少抽到一件次品”这一事件实质上就是“抽取的2件产品中有一件次品”(记为A)与“抽取的两件产品均为次品”(记为B)这两个事件的和。由于A与B是两个互斥事件,故计算 “至少抽到一件次品”的概率采用公式: P(AB) =P(A)+P(B),互补事件,互补事件 不可能同时发生而又必然有一个会发生的两个事件 互补事件的概率之和等于1,A,A,例如:掷一个骰子,“出现2点”的概率是1/6,则“不出现2点”的概率就是5/6 。,相容事件的加法公式,相容事件 两个事件有可能同时发生 存在公共样本点 相容事件的加法公式 (广义加法公式 ),P

9、 ( AB ) = P ( A ) + P ( B ) - P ( AB ),事件的积(交)AB,事件的和(并),【例3-4】,将分别写有0至9这十个号码的小球装入一容器中,反复搅拌之后任意摇出一个小球,观察其号码。试求出现“奇数或大于等于4的数”的概率。 解:所求事件 奇数(A)大于等于4的数(B) 0,1,2,3,9,A1,3,5,7,9,B4,5,6,7,8,9 由于等可能性,P(A)=5/10, P(B) =6/10。P(A)+P(B) 1 ,显然P(AB) P(A)P(B) 因为A和B存在共同部分AB5,7,9,P(AB)3/10。在P(A)+P(B) 中P(AB) 被重复计算了。

10、正确计算是: P(AB)5/106/103/108/100.8,3.1.4 条件概率与事件的独立性,用于计算两个事件同时发生的概率。 也即 “A发生且B发生”的概率 P(AB) 先关注事件是否相互独立,(1)条件概率,条件概率在某些附加条件下计算的概率 在已知事件B已经发生的条件下A发生的条件概率P(A|B) 条件概率的一般公式:,其中 P(B) 0,【例3-5】,某公司甲乙两厂生产同种产品。甲厂生产400件,其中一级品为280件;乙厂生产600件,其中一级品有360件。若要从该厂的全部产品中任意抽取一件,试求:已知抽出产品为一级品的条件下该产品出自甲厂的概率;已知抽出产品出自甲厂的条件下该产

11、品为一级品的概率。 解:设A“甲厂产品”,B“一级品”,则: P(A)0.4, P(B) 0.64,P(AB)0.28 所求概率为事件B发生条件下A发生的条件概率 P(A|B)0.28/0.64 所求概率为事件A发生条件下B发生的条件概率 P(B|A)0.28/0. 4,P(A|B)在B发生的所有可能结果中AB发生的概率 即在样本空间中考虑的条件概率P(A|B),就变成在新的样本空间B中计算事件AB的概率问题了,(1)条件概率(续),一旦事件B已发生,乘法公式的一般形式:,P(AB) P(A)P(B|A) 或 P(AB) P(B)P(A|B),【例3-6】对例3-1中的问题(从这50件中任取2

12、件产品,可以看成是分两次抽取,每次只抽取一件,不放回抽样) 解:A1第一次抽到合格品,A2第二次抽到合格品,A1A2抽到两件产品均为合格品 P(A1 A2)P(A1)P(A2| A1),事件的独立性,两个事件独立 一个事件的发生与否并不影响另一个事件发生的概率 P(A|B)P(A),或 P(B|A)P(B),独立事件的乘法公式:,P(AB) P(A)P(B),推广到n 个独立事件,有:,P(A1An)P(A1)P(A2) P(An),3.1.5 全概率公式与逆概率公式,完备事件组 事件A1、 A2、An互不相容, AA2An 且P(Ai ) 0(i=1、2、.、n) 对任一事件B,它总是与完备

13、事件组A1、 A2、An之一同时发生,则有求P(B)的全概率公式:,例3-7,假设有一道四选一的选择题,某学生知道正确答案的可能性为2/3,他不知道正确答案时猜对的概率是1/4。试问该生作出作答的概率? 解:设 A知道正确答案,B选择正确。 “选择正确”包括: “知道正确答案而选择正确”(即AB) “不知道正确答案但选择正确”(即 ) P(B)(2/3)1(1/3)(1/4)3/4,全概率公式贝叶斯公式,全概率公式的直观意义: 每一个Ai的发生都可能导致B出现,每一个Ai 导致B发生的概率为,因此作为结果的事件B发生的概率是各个“原因”Ai 引发的概率的总和 相反,在观察到事件B已经发生的条件

14、下,确定导致B发生的各个原因Ai的概率 贝叶斯公式(逆概率公式) (后验概率公式),贝叶斯公式,若A1、 A2、An为完备事件组,则对于任意随机事件B,有:,计算事件Ai在给定B条件下的条件概率公式。 公式中,P(Ai)称为事件Ai的先验概率 P(Ai|B)称为事件Ai的后验概率,3.2 随机变量及其概率分布,3.2.1 随机变量,随机变量表示随机试验结果的变量 取值是随机的,事先不能确定取哪一个值 一个取值对应随机试验的一个可能结果 用大写字母如X、Y、Z.来表示,具体取值则用相应的小写字母如x、y、z来表示 根据取值特点的不同,可分为: 离散型随机变量取值可以一一列举 连续型随机变量取值不

15、能一一列举,3.2.2 离散型随机变量的概率分布,X的概率分布X的有限个可能取值为xi与其概率 pi(i=1,2,3,n)之间的对应关系。 概率分布具有如下两个基本性质: (1) pi0,i=1,2,n; (2),离散型概率分布的表示:,概率函数:P(X= xi)= pi 分布列: 分布图,3.2.2 离散型随机变量的数学期望和方差,又称均值 描述一个随机变量的概率分布的中心位置 离散型随机变量 X的数学期望: 相当于所有可能取值以概率为权数的平均值 连续型随机变量X 的数学期望:,数学期望的主要数学性质,若k是一常数,则 E (k X) k E(X) 对于任意两个随机变量X、Y,有 E(X+

16、Y)E(X)E(Y) 若两个随机变量X、Y相互独立,则 E(XY)E(X) E(Y),2. 随机变量的方差,方差是它的各个可能取值偏离其均值的离差平方的均值,记为D(x)或2 公式: 离散型随机变量的方差: 连续型随机变量的方差:,方差和标准差(续),标准差方差的平方根 方差和标准差都反映随机变量取值的分散程度。 它们的值越大,说明离散程度越大,其概率分布曲线越扁平。 方差的主要数学性质: 若k是一常数,则 D(k)0;D(kX)k2 D(X) 若两个随机变量X、Y相互独立,则 D(X+Y)D(X)D(Y),【例3-10】,试求优质品件数的数学期望、方差和标准差。 解:, 0.6,3.两个随机

17、变量的协方差和相关系数,协方差的定义,如果X,Y独立(不相关),则 Cov(X,Y)0 即 E(XY)E(X) E(Y) 协方差在一定程度上反映了X、Y之间的相关性 协方差受两个变量本身量纲的影响。,相关系数,相关系数具有如下的性质: 相关系数是一个无量纲的值 0| | 0 当=0,两个变量不相关(不存在线性相关) 当 | |=1,两个变量完全线性相关,3.2.4 几种常见离散型率分布,1. 二项分布 2. 泊松分布 3. 超几何分布,1. 二项分布(背景),(背景)n重贝努里试验: 一次试验只有两种可能结果 用“成功”代表所关心的结果,相反的结果为“失败” 每次试验中“成功”的概率都是 p

18、n 次试验相互独立。,1. 二项分布,在n重贝努里试验中,“成功”的次数X服从参数为n、p的二项分布,记为 X B(n , p) 二项分布的概率函数:,二项分布的数学期望和方差:,n1时,二项分布就成了二点分布(0-1分布),二项分布图形,p0.5时,二项分布是以均值为中心对称 p0.5时,二项分布总是非对称的 p0.5时峰值在中心的右侧 随着n无限增大,二项分布趋近于正态分布,p=0.3,p=0.5,p=0.7,二项分布图示,【例3-11】,某单位有4辆汽车,假设每辆车在一年中至多只发生一次损失且损失的概率为0.1。试求在一年内该单位:(1)没有汽车发生损失的概率;(2)有1辆汽车发生损失的

19、概率;(3)发生损失的汽车不超过2辆的概率。 解:每辆汽车是否发生损失相互独立的,且损失的概率相同,因此,据题意,在4辆汽车中发生损失的汽车数X B(4,0.1)。,利用Excel计算二项分布概率,进入Excel表格界面,点击任一空白单元格(作为输出单元格) 点击表格界面上的 fx 命令 在 “选择类别”中点击“统计”,在“选择函数”中点击“BINOMDIST” 在Number_s后填入试验成功次数 x (本例为2); 在Trials后填入总试验次数 n (本例为4) ; 在Probability_s后填入成功概率 p (本例为0.1); 在Cumulative后填入0 (或FALSE),表示

20、计算成功次数等于指定值的概率,“BINOMDIST(2,4,0.1,0)”,用EXCEL计算二项分布的概率,2. 泊松分布,X 服从泊松分布,记为XP():,E(X)=D(X)= 当 很小时,泊松分布呈偏态,并随着增大而趋于对称 当为整数时, 和(-1)是最可能值,泊松分布(应用背景),通常是作为稀有事件发生次数X的概率分布模型。 一段时间内某繁忙十字路口发生交通事故的次数 一定时间段内某电话交换台接到的电话呼叫次数 服从泊松分布的现象的共同特征 在任意两个很小的时间或空间区间内事件发生次数是相互独立的; 各区间内事件发生次数只与区间长度成比例,与区间起点无关; 在一段充分小的区间内事件发生两

21、次或两次以上的概率可以忽略不计,【例3-12】,设某种报刊的每版上错别字个数服从 =2的泊松分布。随机翻看一版,求: (1)没有错别字的概率; (2)至多有5个错别字的概率。 解:设X每版上错别字个数,则所求概率为:,利用EXCEL计算泊松分布的概率,二项分布的泊松近似,【前提】当n很大而 p又很小时,二项分布可用参数np 的泊松分布近似 【例3-13】一工厂有某种设备80台,配备了3个维修工。假设每台设备的维修只需要一个维修工,设备发生故障是相互独立的,且每台设备发生故障的概率都是0.01。求设备发生故障而不能及时维修的概率是多少? 解:XB(n=80,p=0.01),由于np=0.8很小,

22、可以用0.8的泊松分布来近似计算其概率:,3. 超几何分布,N个单位的有限总体中有M个单位具有某特征。用不重复抽样方法从总体中抽取n个单位,样本中具有某种特征的单位数X服从超几何分布,记为XH(n,N,M ),数学期望和方差:,N很大而n相对很小时,趋于二项分布(p=M/N),3.2.5 概率密度函数与连续型随机变量,连续型随机变量的概率分布只能表示为: 数学函数概率密度函数f (x)和分布函数F (x) 图 形概率密度曲线和分布函数曲线 概率密度函数f (x)的函数值不是概率。 连续型随机变量取某个特定值的概率等于0 只能计算随机变量落在一定区间内的概率 由x轴以上、概率密度曲线下方面积来表

23、示,概率密度f (x) 的性质,(1) f (x)0。概率密度是非负函数。 (2),所有区域上取值的概率总和为1。,随机变量X在一定区间(a,b)上的概率:,3. 分布函数,适用于两类随机变量概率分布的描述 分布函数的定义: F(x)PXx,连续型随机变量的分布函数,离散型随机变量的分布函数 F(x),分布函数与概率密度,3.2.6 常见的连续型随机变量的概率分布,1. 均匀分布 X只在一有限区间 a,b 上取值 且概率密度是一个常数 其概率密度为:,X 落在子区间 c,d 内的概率与该子区间的长度成正比,与具体位置无关,P(cXd),2. 正态分布,XN (、 2 ),其概率密度为:,正态分

24、布的均值和标准差: 均值 E(X) = 方差 D(X)= 2,- x ,2. 正态曲线,正态曲线的主要特性: 关于x = 对称的钟形曲线 参数决定正态曲线的中心位置 参数 决定正态曲线的陡峭或扁平程度 以X轴为渐近线,即当x 时,f(x) 0,标准正态分布,0、1的正态分布,记为N (0, 1) 其概率密度(x),分布函数 (x) XN (、 2 ), 则 : ZN (0,1 ),若 ZN (0,1 ),则有: P(| Z| a)2(a)1 (-a)=1(a),标准化,【例3-14】,某厂生产的某种节能灯管的使用寿命服从正态分布,对某批产品测试的结果,平均使用寿命为1050小时,标准差为200

25、小时。试求: (a)使用寿命在500小时以下的灯管占多大比例? (b)使用寿命在8501450小时的灯管占多大比例? (c)以均值为中心,95的灯管的使用寿命在什么范围内?,解,X使用寿命,XN (1050,2002 ),(2)(-1)0.977250.158650.8186,95的灯管寿命在均值左右392(即6581442)小时,1(2.75)10.997020.00298,3 原则,|X| 3 的概率很小,因此可认为正态随机变量的取值几乎全部集中在 - 3,+ 3 区间内 广泛应用: 产品质量控制 判断异常情况 ,正态分布最常用、最重要,大千世界中许多常见的随机现象服从或近似服从正态分布

26、例如,测量误差,同龄人的身高、体重,一批棉纱的抗拉强度,一种设备的使用寿命,农作物的产量 特点是 “中间多两头少” 由于正态分布特有的数学性质,正态分布在很多统计理论中都占有十分重要的地位 正态分布是许多概率分布的极限分布 统计推断中许多重要的分布(如2分布、t分布、F分布)都是在正态分布的基础上推导出来的。,用正态分布近似二项分布,XB (n,p) ,当n充分大时, XN (n p,np(1-p) 【例3-15】假设有一批种子的发芽率为0.7。现有这种种子1000颗,试求其中有720颗以上发芽的概率。 解:设X发芽种子颗数,XB(1000,0.7)。近似地 XN (700,210)。 P(X

27、720)P(Z1.38)1P(Z1.38) 10.91620.0838,用正态分布近似二项分布,用正态分布近似二项分布的前提 n很大, p不能太接近 0 或 1(否则二项分布太偏) 一般要求np和np(1-p)都要大于5 如果np或np(1-p)小于5,二项分布可以用泊松分布来近似,计算正态分布的概率值,方法一:先标准化查标准正态分布函数值表 方法二:利用Excel来计算(不必标准化) 插入函数fx选择“统计”“NORMDIST”,进入“函数参数”对话框中, 在X后填入正态随机变量的取值区间点; 在Mean后填入正态分布的均值; 在Standard_dev后填入正态分布的标准差; 在Cumul

28、ative后填入1(或TRUE),表示计算随机变量取值小于等于指定值x的累积概率值。,也可在选定的输出单元格中,顺次输入函数名和参数值即可 如输入“=NORMDIST(500,1050,200,1)”,确定后即可得到所求概率值0.0029798。 根据概率值F(Xx)求随机变量取值的区间点 x,选择函数“NORMINV”。 如输入“=NORMINV(0.0029798,1050,200)”,显示计算结果为500。,计算正态分布的概率值,3.3 常用的抽样方法,3.3.1 简单随机抽样 3.3.2 分层抽样 3.3.3 系统抽样 3.3.4 整群抽样,抽样方法,概率抽样(probability

29、sampling),根据一个已知的概率来抽取样本单位,也称随机抽样 特点 按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,简单随机抽样(simple random sampling),从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样 特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 局限性 当N很大时,不易构造抽样框 抽出的单位

30、很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率,分层抽样(stratified sampling),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本 优点 保证样本的结构与总体的结构比较相近,从而提高估计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层的目标量进行估计,3.3.3系统抽样(systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k

31、,r+2k等单位 优点:操作简便,可提高估计的精度 缺点:对估计量方差的估计比较困难,3.3.4 整群抽样(cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查 特点 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便调查的实施 缺点是估计的精度较差,3.4 抽样分布,3.4.1 抽样分布的概念 3.4.2 样本均值抽样分布 3.4.3 样本比率抽样分布 3.4.4 样本方差抽样分布 3.4.5 两个样本统计量的分布,样本统计量的概率分布,是一种理论分布 在重复选取容量为n的样本时,由该统计量的所有

32、可能取值形成的相对频数分布 随机变量是 样本统计量 样本均值, 样本比例,样本方差等 结果来自容量相同的所有可能样本 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,3.4.1 抽样分布 (sampling distribution),抽样分布的形成过程 (sampling distribution),在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布 一种理论概率分布 推断总体均值的理论基础,样本均值的抽样分布,样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论