第六章 概率分布_第1页
第六章 概率分布_第2页
第六章 概率分布_第3页
第六章 概率分布_第4页
第六章 概率分布_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章概率分布李金德第一节概率的基本概念第二节正态分布第三节二项分布第四节样本分布第一节概率的基本概念一、什么是概率试验、事件:在相同条件下,对某事物或现象所进行的观察或实验叫试验,把观察或实验的结果叫做事件。试验试验结果(事件)抛掷一枚硬币正面,反面对某一零件进行检验合格,不合格投掷一颗骰子1,2,3,4,5,6进行一场足球比赛获胜,失利,平局

基本事件:如果某一随机实验可以分成有限的n种可能结果,这n种结果之间是互不交叉的,而且这些结果出现的可能性相等,我们把这n种可能结果称为基本事件。概率(Probability):事件在试验中出现的可能性大小。事件A的概率用P(A)表示。概率的计算方法:(一)古典概率(先验概率)(二)统计概率(后验概率)(一)古典概率(先验概率)在只含有有限个基本事件的试验中,任意事件A发生的概率定义为:(二)统计概率(后验概率)

在相同条件下进行n次试验,事件A出现了m次,如果试验次数n充分大,且事件A出现的频率稳定在某一数值p附近,则称p为事件A的概率。由于p也是一抽象的值,常常用n在充分大时的代替。即:

二、概率的基本性质1、概率的加法定理两个互不相容事件A、B之和的概率,等于两个事件概率之和,2、概率的乘法定理两个独立事件同时出现的概率等于该两事件概率的乘积,P(AB)=P(A)×P(B)P(A+B)=P(A)+P(B)例3-1:一枚硬币掷三次,或三枚硬币各掷一次,问出现两次或两次以上H的概率是多少?

解:这样掷硬币可能出现地情况有:HHH、HHT、HTH、THH、TTH、THT、HTT、TTT共八种。每种结果可能出现的概率,依概率乘法规则计算:各为1/8。设:P(A)—“HHH”,P(B)—“HHT”,P(C)—“HTH”,P(D)—“THH”,故:P(A+B+C+D)=P(A)+P(B)+P(C)+P(D)=答:一枚硬币掷三次,或三枚硬币各掷一次,出现两次或两次以上H的概率是1/2。三、概率分布概率分布是用来描述随机变量取某些值时的概率的数学模型。性质:将100%的可能性在各随机事件上进行分配表示方式:统计图表、公式概率分布的分类:离散分布与连续分布经验分布与理论分布基本随机变量分布与抽样分布(一)离散分布与连续分布1、离散分布

定义:如果随机变量只能取有限的或无限但可以数下去的数值,则这种随机变量的概率分布称为离散分布。

特点:通常用概率分布描述其取值和相应取值的P例1:抛置硬币这一随机试验可以用如下一些方式来表示其分布规律:①记A={正面向上},B={反面向上},则P(A)=0.5,P(B)=0.5。②令出现正面向上用1表示,反面向上用0表示,则P(ξ=1)=0.5,P(ξ=0)=0.5③用图形来表示:2、连续分布

定义:如果随机变量可以取连续的数值,则这种随机变量取值的概率规律称为连续分布。连续分布的表示方法一般采用概率密度函数来表示。概率密度函数:当样本的容量及分组逐渐增加时,次数分布图将趋近于一条稳定而连续的曲线。一般记为f(x)。

特点:通常用概率密度函数描述随机变量在一段区间上取值的P。概率密度函数演示(二)经验分布与理论分布1、经验分布

定义:经验分布是根据观察或实验所获得的数据而编制的次数分布或相对频率分布。

特点:反映的是一个样本的概率分布。2、理论分布

定义:理论分布是指根据理论推演出来的随机变量的概率分布模型。

特点:反映的是总体的概率分布。(三)基本随机变量分布与抽样分布1、基本随机变量分布

基本随机变量是一个与随机变量的函数相对应的。随机变量的函数仍然是随机变量。2、抽样分布

抽样分布是样本统计量的理论分布,又称随机变量函数的分布。抽样是从总体中随机地选取一个样本的过程,每一个样本都可以计算平均数、方差、标准差、相关系数等指标,这些指标的概率分布就是抽样分布。比如说对于一个容量为50的有限总体,其容量为5的不同样本一共有:505=312,500,000个(允许重复的合),这里的每一个样本可以计算一个平均数。故一共有312,500,000个平均数,这些平均数的分布情况(或分布规律)就是从容量为50的有限总体中抽取容量为5的样本平均数的抽样分布。第二节正态分布一、正态分布(一)正态分布定义

正态分布也称常态分布,是连续随机变量概率分布的一种,中间量数次数分布多,两端量数次数分布少,呈对称型的概率分布。正态分布的概率密度函数:则称X服从正态分布,记作X~N(,2)为随机变量X的均值;为随机变量X的标准差;为圆周率3.14159…;e为自然对数的底2.71828….正态分布的概率密度曲线在正态分布中:平均数决定着曲线在轴上的位置;标准差决定着曲线的形状。当标准差相同而平均数不同时,曲线形状相同,位置各异。当平均数相同而标准差不同时,正态曲线有不同的形状,越大,曲线越是“低阔”,越小曲线越是“高窄”,不同均值(μ)的正态分布不同标准差(σ)的正态分布(二)正态分布的特征1、正态分布的形式是对称的,对称轴是经过平均数的垂线;2、正态分布的中央点最高,然后逐渐向两侧下降,曲线先向内弯,后向外弯,两端靠近基线处无限延伸;3、正态曲线下的面积为1,故对称轴将正态曲线下的面积划分为相等的两部分;4、正态分布是一族分布。二、标准正态分布所有正态分布都可以通过Z分数公式转换成标准正态分布。标准正态分布是标准差()为1,平均数()为0的正态分布,其函数为:标准正态分布的特征:曲线以z=0为中心,双侧对称。曲线在z=0处为最高点。当z=0时,=0.39894,这是y的最大值。曲线以最高点向左右两侧缓慢下降,且无限延伸,但永远不与基线相交。标准正态曲线只有一条。三、正态分布表的编制与使用

标准正态分布函数的数值表;将一般正态分布化为标准正态分布,通过查表可解决正态分布的概率计算问题。(一)正态分布曲线的面积,高度与标准分数在正态分布中,总次数N的几何意义是曲线与轴间所包含的总面积,用表示,且。以曲线中线为界,每边为分布50%的面积。垂线为曲线的纵线高度,以表示。基线是Z分数。本教材上的标准正态概率表的编制方法是从Z=0开始,逐渐变化Z值,计算从Z=0至某一定值之间的概率。(二)标准正态分布曲线相应内容的求解方法1、已知Z值,求面积值p1)求均数(Z=0)与某个Z值之间p的值,可直接查正态曲线表。

例如:求至Z=0~Z=-1之间的面积。查表可知Z=1时,p=0.3413;因为正态分布为具有对称性,所以有Z=-1时,p=0.3413。2)求任何两个Z值之间的p

例如:求Z=1~Z=2之间的面积。首先,查出Z=0至每个Z值间的面积,即有Z=1,p=0.3413;Z=2,p=0.475其次,求两个Z值之间的面积,即有p(1<z<2)=0.475-0.3413=0.1337规律:Z值符号相反,用加法求p;

Z值符号相同,用减法求p。3)求某个值以下或以上的面积

例如:求以下和以上的面积。首先,查出至每个值间的面积,即有,,,其次,用正态分布一半的面积(0.50)减去所查出的面积,即有:2.已知p值求Z值.1)查表法——求近似的值

例如,求p=0.30时,Z的面积。正态曲线表中并无p=0.30的Z面积,只有与其接近的两个值,,前者与0.30相差0.00045,后者与0.30相差0.00234。可见,0.29955与0.30更接近,其对应的值0.84,即为p=0.30时Z的近似值。2)内插法——求精确的值,其公式为3.已知p值求y值

查表法——求近似的y值

例如,求当p=0.30的y值。查表得,与0.30接近的p值为0.29955,其值为0.28034,所以y值为0.28034。练习1、求P(0<z<2.53)=?P(z>-1.14)=?P(-1.28<z<1.83)=?P(-2.54<z<-.42)=?X~N(100,152),求P(x<115)=?2、X~N(5,102)求概率(1)P(5<X<6.2)(2)P(3.8<X<5)(3)P(2.9<X<7.1)(4)P(X>8)(5)P(7.1<X<8)(三)正态分布中的几个常用值

在,,及其,范围内的面积值。(p163)±1s:68.26%±2s:95.44%±3s:99.73%±1.96s:95%±2.58s:99%四、正态分布理论在测验中的应用(一)化等级评定为连续数据(二)确定测验题目的难易程度(三)在能力分组或等级评定时确定人数(四)T分数或次数分布的正态化(一)化等级评定为连续数据1、处理等级评价时面临的问题及其解决思路问题:①不同评价者由于各自的标准不同,在对同一个心理量进行评定时可能给出不同的等级分数,如何综合评价各评价者的结果。②如何比较不同被评者的心理量的差异。2、转化的前提条件

被评定的心理量是测量数据;服从正态分布(凭常识),只是人为地在评定时划分为等级。3、转化方法——用各等级中点对应的Z分数代表该等级分数①根据各等级被评者的数目求出各等级的人数比率。②求各等级中点以下的累加比率。③用累加比率查正态表求Z分数,用Z分数代表各等级的测量值。④求各被评者所得评价等级的测量分数的算术平均数,即为综合评定分数。例6-2:甲、乙、丙三位教师对100名学生的学习能力进行等级评定见表6-2。表6-3是三名同学所获得的评定等级。

试比较三个学生学习能力的高低。表6-23位教师对100名学生学习能力的评定1)求各等级人数分布的比例值见上表。2)求比例中点以下的累积比例,即将每一等级值除以2再加上其以下的所有面积。

A:B:C:D:E:乙教师和丙教师的评定等级转换过程以此类推

3)确定查表的p值,即。4)由值直接查正态曲线表,确定Z值。Z值的正负号以中点以下累积比例决定,若>0.5,Z值为正;若<0.5,Z值为负。5)学生学习能力的比较。用Z值比较三名学生社交能力的高低,需根据各位教师评定等级的Z值及教师人数(k)求其平均数,即,结果见表6-3。表6-3三位学生获得的等级评定结果(二)确定测验题目的难易程度1、计算各题目的通过率p2、用0.5减去通过率p得到,根据查正态表求Z值通过率大于50%,Z值计为负值,通过率小于50%,Z值为正3、将Z值加上5,便得到0~10分的难度分数值,进行比较(三)在能力分组或等级评定时确定人数

适用问题:总共有n个被试,要将他们按某指标(能力)分成K个组,问每个组应各分多少个,才能使不同组在能力上的差异等距。

计算方法:假设6个标准差(99.73%)覆盖了全体,然后将之均分,对每等级查概率表计算相应的比率。例6-3:要把100人在某一能力上分成5个等级,各等级应该确定多少人,才能使等级评定作到等距?

解:第1步:Z分数等距第2步:查表确定各组比率第3步:计算各组人数具体计算见下表:表中C组按计算应为45,实际写成44,是为了使各组人数之和与总数相等。

(四)T分数或次数分布的正态化将样本原始分数转换成正态分布,称为次数分布的正态化。这是一种非线性转换。步骤:(1)先将原始分数的频数转化为相对累加频数,作为p;(2)通过p查正态分布表中对应的Z,就完成了正态化。下表将“T分数”和在标准分一节所讲的“测验分数”的转化方法进行了比较,这两种分数很容易混淆。

第三节二项分布一、二项试验与二项分布二、二项分布的平均数和标准差三、二项分布的应用一、二项试验与二项分布(一)二项试验任何一次试验恰好有两个结果,成功与失败;共有n次试验,且n是预先给定的任一正整数;每次试验各自独立,各次试验之间无相互影响;某种结果出现的概率在任何一次试验中都是固定的。例如抛硬币实验二项式(二)二项式定理的特点

1、项数:二项式的展开式中共有n+1项。2、方次:二项式中,p的方次从n~0为降冥,则q从0~n为升冥,且每项的p、q方次之和等于n。3、系数:二项式中,各项的系数是成功与失败次数的组合数。从第1项开始,各项的系数依次为,,,…,从两端起,等距项的系数相等,即,,,…,,,。当项数是奇数时,中间一项系数最大;当项数是偶数时,中间两项的系数相等且最大。(三)二项式的概率分布及其二项分布曲线1、二项式的概率分布根据二项式的定理,若在n次试验中,求r次成功的概率分布函数,可由公式求得,即上式也可写成二项分布的优点在于它能迅速地确定各种可能结果的概率。例6-4:10枚硬币掷一次,或1枚硬币各掷十次,问出现五次正面向上的概率是多少?五次或五次以上正面向上的概率是多少?(p177)解:(1)根据题意,n=10,p=q=1/2,X=5b(5,10,1/2)=(2)五次或五次以上正面向上的情况有:五次,六次,七次,八次,九次,十次。故五次或五次以上正面向上的概率是=答:出现五次正面向上的概率是0.24609。五次或五次以上正面向上的概率是0.623。2、二项分布曲线当时,不论n有多大,二项分布曲线都总是对称的;当时,且n相当小,则图形显偏态;当n相当大时(n≥30)时,二项分布曲线会逐渐接近正态分布。二、二项分布的平均数和标准差二项分布接近正态分布的条件:平均数标准差三、二项分布的应用例6-6:某套测验题中有10道正误选择题,要了解学生对所测内容在什么情况下是真正领会了,什么情况下属猜测的成分多。解:正态法①条件分析。因为,,,所以满足使用条件。②计算平均数与标准差平均猜对的题目数为:猜对的平均差距为:

③确定掌握的最低限度。根据正态分布的概率,当时,该点以下包含了全体次数的95%,因此有这表示完全凭猜测10题中猜对8题以下的可能性有95%,而猜对8题以上的概率仅为5%。另外,或当时,该点以下包含了全体次数的99%,因此有这表示完全凭猜测10题中猜对9题以下的可能性有99%。例6-7:有10道多重选择题,每题有5个答案,其中只有一个是正确的,问答对多少才能说不是猜测的结果?解:此题n=10,p=1/5=0.2,q=0.8,np<5,故此题不接近正态分布,不能用正态分布计算概率,而应该直接用二项分布函数计算猜对的概率:b(10,10,0.2)==0.000000102b(9,10,0.2)==0.000004096b(8,10,0.2)==0.000073728b(7,10,0.2)==0.000786423b(6,10,0.2)==0.00550524b(5,10,0.2)==0.026424115b(4,10,0.2)==0.088080384根据以上计算地猜对各题数的概率,可用概率加法求得猜对5题及5题以上的概率为0.03279,不足5%。答:答对5题以上者可算真会,作此结论尚有3.3%犯错误的可能。第四节样本分布(抽样分布)一、正态分布及渐进正态分布二、t分布三、X2分布四、F分布

抽样分布是统计推断的基础,它是指从总体中随机抽取容量为n的若干个样本,对每一样本可计算其统计量,而各统计量构成的分布即为抽样分布,也称统计量分布。一、正态分布及渐进正态分布当统计量的分布符合正态分布或渐近正态分布时,进行统计推论的理论依据即为正态分布的理论。以样本平均数为例,正态分布的应用情形如下。1、总体呈正态,总体方差已知,则样本均数的分布也呈正态。根据中心极限定理则有:①

样本均数的均数等于总体均数,即②

样本均数的标准差等于总体标准差除以样本容量的平方根,即③差异检验值为2、总体呈非正态,总体方差已知,样本容量足够大,样本均数的分布为渐近正态分布。根据中心极限定理,亦有①样本均数的均数等于总体均数:②样本均数的标准差等于总体标准差除以样本容量的平方根:③检验值:二、t分布1、t分布的定义t分布是由小样本统计量形成的概率分布。2、t分布的特点①t分布也是对称分布。即平均数位于曲线的中央,在这一点上有一个单峰,从中央向两侧逐渐下降,尾部无限延长,但不与基线相交。②t分布曲线的形状易变,曲线不是一条而是一族,其曲线形状随着样本容量的变化而有规律地变动,即随自由度的大小而变化。③理论上,当t→∞时,t分布曲线以标准正态曲线为极限,即呈正态分布。当n逐渐减少时,分布的离散程度逐渐增大,曲线逐渐与正态分布分离;其峰顶逐渐下降,尾部抬高。④t分布的t值及对应的概率值(p),是根据自由度的大小由t分布函数计算得到的,构成t分布临界值。3.分布的应用1)总体正态,未知,且n<30时,样本平均数的分布呈t分布。t分布的标准误为

检验值为

或2)总体呈非正态,未知,n>30时,则样本均数的分布近似为t分布或渐近正态分布其样本均数的标准误为或检验值:或三、分布(一)分布若n个相互独立的随机变量ξ1,ξ2,…,ξn,均服从标准正态分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论