第 概率分布PPT课件_第1页
第 概率分布PPT课件_第2页
第 概率分布PPT课件_第3页
第 概率分布PPT课件_第4页
第 概率分布PPT课件_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 4 章 概率分布4.1 度量事件发生的可能性3.2 随机变量概率分布3.3 由正态分布导出的几个重要分布3.4 样本统计量的概率分布第1页/共89页yyyy-M-d学习目标l度量事件发生的可能性概率l离散型概率分布l二项分布,泊松分布,超几何分布l连续型概率分布l正态分布l由正态分布导出的几个重要分布lc2-分布, t-分布, F-分布l样本统计量的概率分布第2页/共89页yyyy-M-d神州七号飞船遭遇空间碎片的概率有多大? 2008年9月25日21:10分,搭载着神舟七号载人飞船的长征二号F型运载火箭,在酒泉卫星发射中心成功发射升空 ,并在完成中国航天员首次太空行走和各项科学试验任务后

2、,于2008年9月28日17时38分安全返回第3页/共89页yyyy-M-d神州七号飞船遭遇空间碎片的概率有多大? 空间碎片是人类空间活动的产物,包括完成任务的火箭箭体和卫星本体、火箭的喷射物、航天员的抛弃物、空间物体之间碰撞产生的碎块等,是空间环境的主要污染源。空间碎片的飞行速度平均每秒10公里,最高时速达每秒16公里。在这样的速度下,一个1厘米的碎片就可以把拥有各种防护功能的飞船打穿一个洞。航天员的舱外航天服更经不起碰撞 据中国科学院空间环境研究预报中心预测专家说,世界各国联合起来对10厘米至30厘米的大块碎片进行监测,是能够发现它的轨迹的。但对于较小的碎片,人类的观测设备没有办法观测得到

3、,因此还没有办法较为准确地掌握它的运行轨迹,只能通过它碰撞、破碎的演化规律来尽可能多地了解它的运行第4页/共89页yyyy-M-d神州七号飞船遭遇空间碎片的概率有多大? 目前可被地面观测设备观测并测定其轨道的空间物体超过9000个,其中只有6是仍在工作的航天器,其余为空间碎片 在神舟七号载人航天飞行期间,预计将有10个左右的危险时段可能会遭遇空间碎片的碰撞,只要避开这些危险时段,碰撞的概率都是在百万分之一以下。即使是在那几个危险的时段,飞船或航天员与空间碎片碰撞的概率也在万分之一以下第5页/共89页第6页/共89页yyyy-M-d什么是概率?(probability)1.概率是对事件发生的可能

4、性大小的度量l明天降水的概率是80%。这里的80%就是对降水这一事件发生的可能性大小的一种数值度量l你购买一只股票明天上涨的可能性是30%,这也是一个概率2.一个介于0和1之间的一个值3.事件A的概率记为P(A)第7页/共89页yyyy-M-d怎样获得概率?1.重复试验获得概率l当试验的次数很多时,概率P(A)可以由所观察到的事件A发生次数(频数)的比例来逼近l在相同条件下,重复进行n次试验,事件A发生了m次,则事件A发生的概率可以写为 第8页/共89页yyyy-M-d怎样理解概率? 投掷一枚硬币,出现正面和反面的频率,随着投掷次数 n 的增大,出现正面和反面的频率稳定在1/2左右(注意:抛掷

5、完成后,其结果就是一个数据,要么一定是正面,要么一定是反面,就不是概率问题了)第9页/共89页第10页/共89页第11页/共89页yyyy-M-d什么是随机变量?(random variables)1.事先不知道会出现什么结果投掷两枚硬币出现正面的数量一座写字楼,每平方米的出租价格一个消费者对某一特定品牌饮料的偏好 2.一般用 X,Y,Z 来表示3.根据取值情况的不同分为离散型随机变量和连续型随机变量第12页/共89页yyyy-M-d离散型随机变量(discrete random variables)1. 随机变量 X 取有限个值或所有取值都可以逐个列举出来 x1 , x2,2. 以确定的概率

6、取这些不同的值3. 离散型随机变量的一些例子第13页/共89页yyyy-M-d连续型随机变量(continuous random variables)1.可以取一个或多个区间中任何值 2.所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点3.连续型随机变量的一些例子第14页/共89页yyyy-M-d离散型随机变量的期望值(expected value)1.描述离散型随机变量取值的集中程度2.离散型随机变量X的所有可能取值xi与其取相对应的概率 pi 乘积之和3.记为 或E(X),计算公式为第15页/共89页yyyy-M-d离散型随机变量的方差(variance)1.随机变量X的每一

7、个取值与期望值的离差平方和的数学期望,记为 2 或D(X)2.描述离散型随机变量取值的分散程度3.计算公式为4.方差的平方根称为标准差,记为 或 D(X)第16页/共89页yyyy-M-d离散型数学期望和方差 (例题分析) 第17页/共89页yyyy-M-d连续型随机变量的期望和方差1.连续型随机变量的期望值2.方差第18页/共89页第19页/共89页yyyy-M-d离散型随机变量的概率分布1.列出离散型随机变量X的所有可能取值2.列出随机变量取这些值的概率3.通常用下面的表格来表示第20页/共89页yyyy-M-d二项试验(Bernoulli试验) 1.二项分布建立在Bernoulli试验基

8、础上2. 贝努里试验满足下列条件一次试验只有两个可能结果,即“成功”和“失败”“成功”是指我们感兴趣的某种特征一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的 试验是相互独立的,并可以重复进行n次 在n次试验中,“成功”的次数对应一个离散型随机变量X 第21页/共89页yyyy-M-d二项分布(Binomial distribution)1. 重复进行 n 次试验,出现“成功”的次数 的 概 率 分 布 称 为 二 项 分 布 , 记 为XB(n,p)2. 设X为 n 次重复试验中出现成功的次数,X 取 x 的概率为第22页/共89页yyyy-M-d二项分

9、布(期望值和方差)1. 期望值 =E(X) = np2. 方差 2 =D(X) = npq0.00.20.40.6012345XP(X)n = 5 p = 0.50.20.40.6012345XP(X)n = 5 p = 0.1第23页/共89页yyyy-M-d二项分布 (例题分析) 第24页/共89页yyyy-M-d二项分布 (用Excel计算概率)第1步:在Excel表格界面,直接点击【fx】(插入函数)命令 第2步:在【选择类别】中点击【统计】,并在【选择函数】 中点击【BINOMDIST】,然后单击【确定】第3步:在【Number_s】后填入试验成功次数(本例为1) 在【Trials】

10、后填入总试验次数(本例为5) 在【Probability_s】后填入试验的成功概率(本例为 0.04) 在【Cumulative】后填入0(或FALSE),表示计算成 功次数恰好等于指定数值的概率(填入1或TRUE表示 计算成功次数小于或等于指定数值的累积概率值) 第25页/共89页yyyy-M-d泊松分布(Poisson distribution)1.1837年法国数学家泊松(D.Poisson,17811840)首次提出 2.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布3.泊松分布的例子一定时间段内,某航空公司接到的订票电话数一定时间内,到车站等候公共汽车

11、的人数一定路段内,路面出现大损坏的次数一定时间段内,放射性物质放射的粒子数一匹布上发现的疵点个数一定页数的书刊上出现的错别字个数 第26页/共89页yyyy-M-d泊松分布(概率分布函数) 给定的时间间隔、长度、面 积、体积内“成功”的平均数e = 2.71828 x 给定的时间间隔、长度、面 积、体积内“成功”的次数第27页/共89页yyyy-M-d泊松分布(期望值和方差)1.期望值 E ( X ) = 2.方差 D ( X ) = 0.00.20.40.6012345XP(X)0.00.20.40.60246810XP(X)第28页/共89页yyyy-M-d泊松分布 (例题分析)第29页/

12、共89页yyyy-M-d泊松分布 (用Excel计算概率)第1步:在Excel表格界面,直接点击【fx】(插入函数)命令 第2步:在【选择类别】中点击【统计】,并在【选择函数】 中点击【POISSON 】,然后单击【确定】第3步:在【X】后填入事件出现的次数(本例为6) 在【Means】后填入泊松分布的均值 (本例为7) 在【Cumulative】后填入0(或FALSE),表示计算成 功次数恰好等于指定数值的概率(填入1或TRUE表示 计算成功次数小于或等于指定数值的累积概率值)第30页/共89页yyyy-M-d超几何分布(hypergeometric distribution)1. 采用不重

13、复抽样,各次试验并不独立,成功的概率也互不相等2. 总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布3. 概率分布函数为第31页/共89页yyyy-M-d超几何分布 (例题分析)第32页/共89页yyyy-M-d超几何分布 (用Excel计算概率)第1步:在Excel表格界面,直接点击【fx】(插入函数)命令 第2步:在【选择类别】中点击【统计】,并在【选择函数】 中点击【 HYPGEOMDIST】,然后单击【确定】第3步:在【Sample_s 】后填入样本中成功的次数x(本例为3) 在【Number_sample】后填入样本容量n(本例为4) 在

14、【Population_s】后填入总体中成功的次数M(本例 为3) 在【Number_pop】后填入总体中的个体总数N (本例为10)第33页/共89页第34页/共89页yyyy-M-d连续型随机变量的概率分布1.连续型随机变量可以取某一区间或整个实数轴上的任意一个值2.它取任何一个特定的值的概率都等于03.不能列出每一个值及其相应的概率4.通常研究它取某一区间值的概率5.用概率密度函数的形式和分布函数的形式来描述第35页/共89页yyyy-M-d常用连续型概率分布第36页/共89页yyyy-M-d正态分布(normal distribution)1.由C.F.高斯(Carl Friedric

15、h Gauss,17771855)作为描述误差相对频数分布的模型而提出2.描述连续型随机变量的最重要的分布3.许多现象都可以由正态分布来描述 4.可用于近似离散型随机变量的分布例如: 二项分布5.经典统计推断的基础第37页/共89页yyyy-M-d概率密度函数f(x) = 随机变量 X 的频数 = 正态随机变量X的均值 = 正态随机变量X的方差 = 3.1415926; e = 2.71828x = 随机变量的取值 (- x +)第38页/共89页yyyy-M-d正态分布函数的性质1.图形是关于x=对称钟形曲线,且峰值在x= 处2.均值和标准差一旦确定,分布的具体形式也惟一确定,不同参数正态分

16、布构成一个完整的“正态分布族” 3.均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。越大,正态曲线扁平;越小,正态曲线越高陡峭4.当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交5.正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 第39页/共89页yyyy-M-d 和 对正态曲线的影响xCAB第40页/共89页yyyy-M-d正态分布的概率第41页/共89页yyyy-M-d标准正态分布(standardize normal distribution)1.随机变量具有均值

17、为0,标准差为1的正态分布2.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布第42页/共89页yyyy-M-d正态分布 (用Excel计算正态分布的概率)第1步:在Excel表格界面中,点击“fx ”(插入函数)命令第2步:在【选择类别】中点击【统计】,并在【选择函数】 中点击【NORMDIST】,然后单击【确定】第3步:在【X】后输入正态分布函数计算的区间点(即x值) 在【Mean】后输入正态分布的均值 在【Standard_dev】后输入正态分布的标准差 在【Cumulative】后输入1(或TRUE)表示计算事件出 现次数小于或等于指定数值的累概率 单击【确定】第43页/

18、共89页yyyy-M-d正态分布 (计算标准正态分布的概率和反函数值)第1步:在Excel表格界面中,点击“fx ”(插入函数)命令第2步:在【选择类别】中点击【统计】,并在【选择函数】中点击 【NORMSDIST】,单击【确定】第3步:在【Z】后输入Z的值。单击【确定】第1步:在Excel表格界面中,点击“fx ”(插入函数)命令第2步:在【选择类别】中点击【统计】,并在【选择函数】中点击 【NORMSINV】,然后单击【确定】第3步:在【Probability】后输入给定的概率值。单击【确定】 第44页/共89页yyyy-M-d正态分布(例题分析)4030( XP )5 . 2(ZP第45

19、页/共89页yyyy-M-d数据正态性的评估1.对数据画出频数分布的直方图或茎叶图若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似3.绘制正态概率图。有时也称为分位数分位数图或称Q-Q图或称为P-P图用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t分布等等P-P图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的Q-Q图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的 4.使用非参数检验中的Kolmogorov-Smirnov检验(K-S检验) 第46页/共89页yyyy-M-d用SPSS绘制正态概率图 第1步:选择【Gra

20、phs】下拉菜单,并选择【P-P】 或 【Q-Q】选项进入主对话框第2步:在主对话框中将变量选入【Variables】 ,点击【OK】第47页/共89页yyyy-M-d正态概率图的绘制 (例题分析) 第48页/共89页yyyy-M-d正态概率图的分析(normal probability plots)1.实际应用中,只有样本数据较多时正态概率图的效果才比较好。当然也可以用于小样本,但此时可能会出现与正态性有较大偏差的情况2.在分析正态概率图时,最好不要用严格的标准去衡量数据点是否在一条直线上,只要近似在一条直线上即可3.对于样本点中数值最大或最小的点也可以不用太关注,除非这些点偏离直线特别远,

21、因为这些点通常会与直线有偏离。如果某个点偏离直线特别远,而其他点又基本上在直线上时,这个点可能是离群点,可不必考虑第49页/共89页第50页/共89页第51页/共89页yyyy-M-dt-分布 (t-distribution)第52页/共89页yyyy-M-dt-分布(用Excel计算t分布的概率和临界值)1. 利用Excel中的【TDIST】统计函数,可以计算给定值和自由度时分布的概率值l 语法:语法:TDIST(x,degrees_freedom,tails) 2. 利用【TINV】函数则可以计算给定概率和自由度时的相应 l 语法:语法:TINV(probability,degrees_f

22、reedom) 第53页/共89页第54页/共89页yyyy-M-d1.由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来2.设 ,则3.令 ,则 y 服从自由度为1的c2分布,即4.对于n个正态随机变量y1 ,y2 ,yn,则随机变量 称为具有n个自由度的c2分布,记为c c2-分布(c c2-distribution)第55页/共89页yyyy-M-d1.分布的变量值始终为正 2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 3.期望为:E(c2)=n,方

23、差为:D(c2)=2n(n为自由度) 4.可加性:若U和V为两个独立的c2分布随机变量,Uc2(n1),Vc2(n2),则U+V这一随机变量服从自由度为n1+n2的c2分布 c c2-分布(性质和特点)第56页/共89页yyyy-M-d不同自由度的c c2-分布第57页/共89页yyyy-M-dc c2-分布(用Excel计算c c2分布的概率)1. 利用Excel提供的【CHIDIST】统计函数,计算c2分布右单尾的概率值l 语法:CHIDIST(x,degrees_freedom) ,其中df为自由度,x,是随机变量的取值2. 利用【CHIINV】函数则可以计算给定右尾概率和自由度时相应的

24、反函数值 l 语法:CHIINV(probability,degrees_freedom) 第58页/共89页第59页/共89页yyyy-M-d1.为纪念统计学家费希尔(R.A.Fisher) 以其姓氏的第一个字母来命名则2.设若U为服从自由度为n1的c2分布,即Uc2(n1),V为服从自由度为n2的c2分布,即Vc2(n2),且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为F-分布(F distribution)第60页/共89页yyyy-M-d不同自由度的F分布第61页/共89页yyyy-M-dF-分布(用Excel计算F分布的概率和临街值)1. 利用Excel提供的【FDI

25、ST】统计函数,计算分布右单尾的概率值l语法:FDIST(x,degrees_freedom1,degrees_freedom2)2. 利用【FINV】函数则可以计算给定单尾概率和自由度时的相应 l语法: FINV(probability,degrees_freedom1,degrees_freedom2) 第62页/共89页第63页/共89页第64页/共89页yyyy-M-d参数和统计量1. 参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值一个总体的参数:总体均值()、标准差()、总体比例();两个总体参数:(1 -2)、(1-2)、(1/2)总体参

26、数通常用希腊字母表示 2. 统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数一个总体参数推断时的统计量:样本均值(x)、样本标准差(s)、样本比例(p)等两个总体参数推断时的统计量: (x1-x2)、(p1-p2)、(s1/s2)样本统计量通常用小写英文字母来表示 第65页/共89页yyyy-M-d1.样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 2.随机变量是 样本统计量样本均值, 样本比例,样本方差等3.结果来自容量相同的所有可能样本4.提供了样本统计量长远而稳定的信息

27、,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布 (sampling distribution)第66页/共89页yyyy-M-d抽样分布的形成过程 (sampling distribution)第67页/共89页第68页/共89页yyyy-M-d1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础样本均值的分布第69页/共89页yyyy-M-d样本均值的分布(例题分析)第70页/共89页yyyy-M-d样本均值的分布 (例题分析)3,43,33,23,132,42,32,22,124,44,34,24,141,

28、441,33211,21,11第二个观察值第一个观察值第71页/共89页yyyy-M-d样本均值的分布 (例题分析)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值第72页/共89页yyyy-M-d样本均值的分布与总体分布的比较 (例题分析)第73页/共89页yyyy-M-d样本均值的分布与中心极限定理x第74页/共89页yyyy-M-d中心极限定理(central limit theorem)第75页/共89页yyyy-M-d中心极限定理 (central limit theorem)第76页/共89页yyyy-M-d抽样分布与总体分布的关系正态分布正态分布非正态分布非正态分布样本均值正态分布样本均值正态分布样本均值非正态分布第77页/共89页yyyy-M-d1.样本均值的分布2.样本均值的期望值和方差样本均值的分布(数学期望与方差)第78页/共89页第79页/共89页yyyy-M-d1.总体(或样本)中具有某种属性的单位与全部

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论