理论分布与抽样分布2011.ppt_第1页
理论分布与抽样分布2011.ppt_第2页
理论分布与抽样分布2011.ppt_第3页
理论分布与抽样分布2011.ppt_第4页
理论分布与抽样分布2011.ppt_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 理论分布与抽样分布,为了便于同学们理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布正态分布、二项分布、泊松分布以及样本平均数的抽样分布和 t 分布。,第四章 理论分布与抽样分布,第一节 随机事件及其概率 第二节 二项分布 第三节 正态分布 第四节 抽样分布,第一节 随机事件与概率,一、随机事件 (一)必然现象与随机现象 在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把 它们归纳起来,大体上分为两大类: 必然现象(inevitable phenomena)或确定性现象(definite phenomena) 可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结 果总是确定的,必然发生(或必然不发生)。 随机现象(random phenomena )或不确定性现象(indefinite phenoment) 事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。在个别试验中其结果呈现偶然性、不确定性现象。,一、随机事件,随机现象或不确定性现象,有如下特点: 在一定的条件时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性; 但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性频率的稳定性,通常称之为随机现象的统计规律性。,一、随机事件,(二)随机试验与随机事件 随机试验 通常我们把根据某一研究目的 , 在一定条件下对自然现象所进行的观察或试验 统称为试验(trial)。 而一个试验如果满足下述三个特性,则称其为一个随机试验(random trial),简称试验: 试验可以在相同条件下多次重复进行; 每次试验的可能结果不止一个 ,并且事先知道会有哪些可能的结果; 每次 试验总是恰好出现这些可能结果中的一个 ,但在一次试验之前却不能肯定这次试验会出现哪一个结果。 例如:随机抽取6袋食品,检测其某种有害物质含量是否超标 ;投掷色子,向上一面出现的点数;它们都具有随机试验的三个特征,因此都是随机试验。,一、随机事件,(二)随机试验与随机事件 随机事件 随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件(random event),简称事件(event),通常用A、B、C等来表示。包括基本事件与复合事件: 基本事件 我们把不能再分的事件称为基本事件(elementary event) , 也称为样本点(sample point)。 例如:在编号为1、2、3、10 的十个苹果中随机抽取1个,有10种不同的可能结果:“ 取得的编号是1”、“ 取得的编号是2”、“取得的编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。,一、随机事件,复合事件 由若干个基本事件组合而成的事件称为复合事件 (compound event)。如 “取得一个编号是 2的倍数”是一个复合事件,它由 “ 取得一个编号是2 ”、 “ 是 4 ”、“是 6 ”、“是 8 ”、“是 10 ” 5个基本事件组合而成。 必然事件 在一定条件下必然会发生的事件称为必然事件(certain event),用U表示。 例如:水在标准大气压下,加热到100必然沸腾; 不可能事件 在一定条件下不可能发生的事件称为不可能事件(impossible event),用V表示。 例如,在一定孵化条件下,从石头孵化出雏鸡。 必然事件与不可能事件实际上是确定性现象,即它们不是随机事件, 但是为方便起见,我们把它们看作为两个特殊的随机事件。,二 频率和概率,研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性。随机事件发生可能性大小的度量指标有两个,即频率和概率。 1、频率 随机事件A在n次重复试验中发生了a次,则称 为随机事件A在n次重复试验中发生的频率。 例如:播种100粒种子,95粒发芽,则100粒种子发芽的频率为0.95。 频率的性质: 1、 2、随机性 3、统计规律性,频率的统计规律性,例如 为了确定抛掷一枚硬币发生正面朝上这个事件的概率 ,历史上有人作过成千上万次抛掷硬币的试验。 表:抛掷一枚硬币发生正面朝上的试验记录 从表4-1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。,二 频率和概率,2、概率 当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值P , 那么就把P称为随机事件A的概率。 概率的性质: 1、 2、,二 频率和概率,在一般情况下,随机事件的概率p是不可能准确得到的。 统计概率 通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。 即:统计概率。一般地,n30认为是充分大。但就每一个充分大的n,统计概率可能是不同的。 概率:是理论值,反映事件本事发生可能性大小的统计数,是当n趋于无穷时,随机事件A发生的频率。是一个定值。,第二节 二项分布,一、贝努利试验及其概率分布 我们所观察的随机事件最简单的是仅有两种可能,即把试验结果根据某种现象出现与否分为两类,如:产品是否合格、某种食品添加剂的含量是否超标等等 贝努利试验 这种只有两种可能的随机试验称为贝努利试验。 n重贝努利试验 将贝努利试验在完全相同的条件下独立重复进行n次,称为n重贝努利试验,简称贝努利试验(Bernoulli trials)。 在生物学研究中,我们经常碰到的一类离散型随机变量,如n件产品的合格数、n 尾鱼苗的成活数等,都可用贝努利试验来概括。,一、贝努利试验及其概率公式,一般,在n重贝努利试验中,事件A恰好发生 k(0kn)次的概率为 k=0,1,2,n (3-3) 若把(3-3)式与二项展开式: 第 1 项 第 2 项 第 k+1 项 第 n+1 项 相比较就可以发现,在 n 重贝努利试验中,事件 A 发生 k 次的概率恰好等于展开式中的第 k+1 项,所以也把(3-3)式称作二项概率公式 。,二、二项分布的意义及性质,二项分布定义 设随机变量 x 所有可能取的值为零和正整数:0,1,2,,n,且有 k=0,1,2,n 其中p0,q0,p+q=1,则称随机变量 x 服从参数为 n 和 p 的二项分布 (binomial distribution),记为 x B(n,p)。,二、二项分布的意义及性质,二项分布性质 1、P( x = k)= Pn(k) (k=0,1,n) 2、二项分布的概率之和等于1,即 3、 4、 5、 (m1m2),二、二项分布的意义及性质,二项分布由n和p两个参数决定: 当 p 值较小,且 n 不大时 ,分布是偏斜的。但随着 n 的增大 ,分布逐渐趋于对称; 当 p 值趋于0.5 时 ,分布趋于对称; 对于固定的 n 及 p,当 k 增加时,Pn(k)先随之增加并达到其极大值,以后又下降。,二、二项分布的意义及性质,二项分布的极限分布: 在 n 30,p 或 q 又不过分小,p 或 q 0.1, np 或 nq 5,二项分布接近于正态分布; 当 p 或 q 很小,p 或 q 0.1, n 很大,50,使得 np 或 nq 适中,在1,5之间,二项分布接近于泊松分布; 无论 p 或 q 的大小如何,当 n时,二项分布的极限分布均是正态分布。,四、二项分布的平均数与标准差,统计学证明,服从二项分布B(n,p)的随机变量之平均数、标准差与参数n、p有如下关系: 当试验结果以事件A发生次数 k 表示时:,五、泊松分布,泊松分布是一种 可以用来描述和分析随机地发生在单位空间或 时间里的稀有事件的概率分布。要观察到这类事件,样本含量 n 必须很大 。 在生物学研究中,服从泊松分布的随机变量是常见的。如 每升饮水中大肠杆菌数,单位时间内光顾食品小店的人数,保险死亡赔付人数等,都是服从泊松分布的。,五、泊松分布,一、泊松分布的定义 若随机变量x(x = k)只取零和正整数值0,1,2,且其概率分布为 k=0,1, 其中= np ,是稀有事件出现的次数,0;e=2.7182 是自然对数的底数,则 称 x 服从参数为 的泊 松分布(Poissons distribution),记 为 x P()。,五、泊松分布,二、泊松分布的重要的特征:平均数和方差相等,都等于常数, 即 例 3.16 调查某食品厂正常生产线上单位时间内生产的不合格产品数,若每次抽取100件,不合格产品出现的概率为0.01,则抽出不合格产品的件数构成一个总体,0,1,2,0,1,0,1, 则该总体的平均数为 三、泊松分布的极限分布 值愈小,分布愈偏斜,随着的增大 ,分布趋于对称(如图所示)。当= 20时分布接近于正态分布;当= 50 时,可以认为泊松分布呈正态分布。 所以在实际工作中,当 20 时就可以用正态分布来近似地处理泊松分布的问题。,第三节 正态分布,正态分布是一种很重要的连续型随机变量的概率分布。 生命现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的; 此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布; 有些即使总体不是正态分布,但从其中抽取的统计数的抽样分布在抽样容量足够大时也趋近正态分布。 因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。,一、正态分布的定义,对连续型随机变量 x ,我们关心的是它在取值范围内任意区间的概率,需要知道它的概率分布密度函数 f(x),随机变量 x 在区间a,b)上取值的概率为该函数在这一区间的积分,即 P( a x b)= 不同的分布,概率分布密度函数上不同的。 若连续型随机变量 x 的概率分布密度函数为: 其中 =3.14159,e=2.71828,为总体平均数,2为总体方差, 则称随机变量 x 服从参数为、的正态分布(normal distribution), 记为 xN(,2)。,一、正态分布的定义,则 x 在某一区间的概率等于概率密度函数在这一区间内的积分: 定义从负无穷到任意 x 区间上的概率为正态分布的概率分布函数:,二、正态分布的性质,正态分布密度曲线是以均数为中心左右对成分布的单峰悬钟形曲线,对称轴为 x =; f(x) 在 x = 处达到极大 ,极大值 ;正态分布的算术平均数、中数、中数三者合一; f(x)是非负函数,以 x 轴为渐近线,分布从-至+;且曲线在 处各有一个拐点;,正态分布曲线图,二、正态分布的性质,4. 正态分布以参数和不同而表现为一系列曲线。 平均数是位置参数,确定曲线的中心位置,当 恒定时,曲线形状不变,随不同,曲线水平移动。如图所示:,标准差相同(=1)而平均数不同(=0、=1、=2)的三个正态分布曲线图, =0 =1 =2,二、正态分布的性质,标准差是变异度参数,决定曲线的形状,当恒定时,愈大,表示 x 的取值愈分散,曲线愈“平坦”;愈小,x的取值愈集中在附近,曲线愈“尖峭”。,平均数相同( =0)而标准差不同(=1、=1.5、=2)的三个正态分布曲线图,见书上。,二、正态分布的性质,正态分布的次数多集中在平均数附近,离越远,相应的次数越少,在|x-|3以外分布的次数很少。 曲线f(x)在(,+)上的积分为1,即曲线与横轴之间组成的面积为1,任意区间的概率等于这个区间的面积上总面积的成数。,二、正态分布的性质,正态分布曲线一些特殊区间及其概率: P(u-xu+)=0.6827 P( u-2uu+2)=0.9545 P(u-3uu+3)=0.9973 P(u-1.96uu+1.96)=0.95 P (u-2.58uu+2.58)=0.99,三、标准正态分布,由上述正态分布的特征可知,正态分布是依赖于参数和2 (或) 的一簇分布,正态曲线之位置及形态随和2的不同而不同 。 这就给研究具体的正态总体带来困难,需将一般的 N(,2) 转换为= 0,2= 1 的正态分布。 我们称=0,2 =1的正态分布为标准正态分布(standard normal distribution)。 标准正态分布的概率密度函数及分布函数分别,三、标准正态分布,对于任何一个服从正态分布N(,2)的随机变量 x,都可以通过标准化变换: 将其变换为服从标准正态分布的随机变量u。 u 称为标准正态变量或标准正态离差(standard normal deviate)。,三、标准正态分布,对于标准正态分布曲线=0,=1,记做: xN(0,1),由到任意一点x的概率,即概率分布(x)经精确计算求解后在书上附录附表1 中列出,可以查阅。 请将书翻至357页。查阅 u = -1.05时的P值为0.14686,其含义是:,四、正态分布的计算,(一)标准正态分布的概率计算 设u服从标准正态分布,则 u 在u1,u2 )何内取值的概率为:,而(u1)与(u2)可由P357附表 1中查得。,(一)标准正态分布的概率计算,由上式及正态分布的对称性可推出下列关系式,再借助附表1,便能很方便地计算标准正态分布的有关概率: P(0uu1)(u1)- 0.5 P(u u1 ) =(- u1) P(u u1)=2(- u1) P(u u1)1-2(- u1) P(u1uu2)(u2)-(u1),(一)标准正态分布的概率计算,= (1) -(-1)=0.8413-0.1587=0.6827 = (2) -(-2)=0.97725-0.02275=0.9545 = (3) -(-3)=0.99865-0.00135=0.9973 =(1.96)-(-1.96)= 0.95 = (2.58)-(-2.58)= 0.99,P(-1u1) P( -2u2 ) P (-3u3 ) P(-1.96u1.96) P(-2.58u2.58),例3.19 已知uN(0,1),试求:,(二)一般正态分布的概率计算,正态分布密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了“随机变量x取值在-与+之间”是一个必然事件,其概率为1。 若随机变量 x服从正态分布N(,2),则x的取值落在任意区间 x1, x2) 的概率 ,记作P(x1 x x2),即:,(二)一般正态分布的概率计算,服从正态分布 N(,2)的随机变量 x 在 x1 ,x2 )内取值的概率 ,等于服从标准正态分布的随机变量 u 在 内取值的概率 。 因此,计算一般正态分布的概率时, 只要将区间的上下限作适当变换(标准化), 就可用查标准正态分布的概率表的方法求得概率了。,(二)一般正态分布的概率计算,例3.21 设 x 服从=30,2=25 的正态分布, 试求 P(26 x 40) , P(x 40), P(x 26) 解: P(26 x 40) =P(-0.8u2) =(2)-(-0.8) =0.0.9772-0.2119 =0.7653 P(x 40) =P(u2) =(2)=0.0.9772 P(x 26) =1-(-0.8)=1-0.2119=0.7881,(二)一般正态分布的概率计算,例3.22 求右尾概率为0.05的临界 u 值: 解: 右尾的概率为0.05, 则 u 从- 到 u的概率 P=1-0.05 = 0.95 查附表2,当(u)=0.95053时, u 值为1.64。 所以u=1.64时,右尾概率为0.05。此时,临界 x 值为: +1.64 容易得知,左尾概率为0.05的临界 u =-1.64 左尾概率为0.05的临界 x =-1.64 此题也可查附表3,请同学们试做。,第四节 样本平均数的抽样分布,研究总体与从中抽取的样本之间的关系是统计学的中心内容 。对这种关系的研究可从两方面着手: 一是从总体到样本 ,这就是研究从总体中抽出样本统计数的抽样分布(sampling distribution)的问题; 二是从样本到总体,这就是研究由样本的数据推测总体特征的统计推断(statistical inference)问题。 统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。,一、样本平均数的抽样分布,由总体随机抽样(random sampling)的方法可分为 返(复)置抽样:指每次抽出一个个体后,在下次抽样以前应将这个个体返置回原总体再抽样; 不返(复)置抽样:指每次抽出的个体不返置回原总体。 对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。,一、样本平均数的抽样分布,设有一个总体,容量为N,总体平均数为 ,方差为2,总体中各变数为 x, 将 此总体称为原总体。 现从这个总体中随机抽取含量为 n 的样本,共可抽取 Nn =t 个样本,这些样本平均数为: 。 可以设想,从原总体中可抽出如此多甚至无穷多个含量为 n 的样本。由这些样本算得的平均数有大有小,不尽相同,与原总体平均数相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为 抽样误差(sampling error)。 显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数构成的总体称为样本平均数的抽样总体,也称为新总体。,一、样本平均数的抽样分布,这个由样本平均数 所组成的新总体,其平均数和标准差分别记为 和 。 是样本平均数抽样总体的标准差,简称标准误(standard error),它表示平均数抽样误差的大小。统计学上已证明新总体的两个参数与 x 原总体的两个参数和2有如下关系:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论