随机变量的分布函数.doc_第1页
随机变量的分布函数.doc_第2页
随机变量的分布函数.doc_第3页
随机变量的分布函数.doc_第4页
随机变量的分布函数.doc_第5页
免费预览已结束,剩余19页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

随机变量的分布函数 为了更好地研究随机变量的统计规律,引进随机变量的分布函数的概念l 分布函数的定义:设 是随机变量, 是任意实数,则事件 的概率 是 的函数,称为随机变量 的分布函数,记为 ,即 利用随机变量 的分布函数,可以计算出 的有关概率,其中最为常用的是:1) ,其中实数 ;2) ;3) l 分布函数的性质1) 对任意实数 , ;2) 当 时, ;3) ;4) 左连续性,对任意实数 有 ;5) 离散型随机变量的分布函数为:这里和式是对小于 的所有 求和; 若对于某随机变量的分布函数F(x),存在一个非负可积函数,使对一切实数x恒有则称为连续型随机变量。6) 连续型随机变量 的分布函数 是连续函数,因此它取任一可能值 的概率l 分布函数的图形离散型连续型二项分布Binomial Distribution)又称伯努里分布,指进行一系列试验,如果1.在每次试验中只有两种可能的结果,而且是互相对立的;2.每次实验是独立的,与其它各次试验结果无关;3.结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努力试验.在这试验中,事件发生的次数为一随机事件,它服从二次分布.二项分布可以用于可靠性试验.可靠性试验常常是投入n个相同的式样进行试验T小时,而只允许k个式样失败,应用二项分布可以得到通过试验的概率.若某事件概率为p,现重复试验n次,该事件发生k次的概率为:P=C(k,n)pk(1-p)(n-k).C(k,n)表示组合数,即从n个事物中拿出k个的方法数. 二项分布随机变量 的可能取值为 ,取这些值的概率分别为: , 与两点分布区别两点分布的分布列就是 X 0 1 P p 1-p 不论题目有什么区别,只有两种可能,要么是这种结果要么是那种结果,通俗点,要么成功要么失败 而二项分布的可能结果是不确定的甚至是没有尽头的, 列一个二项分布的分布列就是 X 0 1 2 n P C(0)(n)(1-p)n C(1)(n)p(1-p)(n-1) C(n)(n)pn(1-p)0 也就是说当n=1时,这个特殊二项分布就会变成两点分布, 即两点分布是一种特殊的二项分布 像一楼说的二项分布是两点分布的多重实验也不无道理,因为两者都是独立的重复实验,只不过次数不同罢了 E(n) = np, var(n) = np(1-p) (n是实验次数,p是每次实验的概率)2.3 超几何分布、二项分布及泊松分布的近似关系 定理一:设随机变量服从超几何分布H(n,M,N),则当N + 时,近似地服从二项分布B(n,p),即 ,其中 , 定理一指出当 充分大时,二项分布是超几何分布的近似分布事实上,当一批产品的总数 很大,而抽取的样品数 远较 为小(一般来讲 ) 时,不放回抽样与放回抽样的差别并不大 定理二:设随机变量 服从二项分布 ,当 n充分大 时, 近似地服从泊松分布 其中 ,定理二指出当 充分大时,泊松分布是二项分布的近似分布,但要注意仅当 的值很小(一般来讲 ) 时 ,用泊松分布取代二项分布所产生的误差才比较小负二项分布 负二项分布是统计学上一种离散概率分布。 编辑本段应用当r是整数时,负二项分布又称帕斯卡分布,其概率质量函数为 它表示,已知一个事件在伯努利试验中每次的出现概率是p,在一连串伯努利试验中,一件事件刚好在第r + k次试验出现第r次的概率。取r = 1,负二项分布等于几何分布。其概率质量函数为 。举例说,若我们掷骰子,掷到一即视为成功。则每次掷骰的成功率是1/6。要掷出三次一,所需的掷骰次数属于集合 3, 4, 5, 6, . 。掷到三次一的掷骰次数是负二项分布的随机变量。要在第三次掷骰时,掷到第三次一,则之前两次都要掷到一,其概率为(1 / 6)。注意掷骰是伯努利试验,之前的结果不影响随后的结果。若要在第四次掷骰时,掷到第三次一,则之前三次之中要有刚好两次掷到一,在三次掷骰中掷到2次1的概率为。第四次掷骰要掷到一,所以要将前面的概率再乘(1/6):。2.7 之 均匀分布若连续随型机变量的概率密度为则称服从区间a,b上的均匀分布。且当 时,;当 时,;当xb时,.所以的分布函数为:若随机变量在区间 上服从均匀分布,则它落在 的任意子区间内的概率只依赖于子区间的长度l,而与子区间的位置无关。事实上。例子泊松分布百科名片泊松分布公式Poisson分布(法语:loi de Poisson,英语:Poisson distribution,译名有泊松分布、普阿松分布、卜瓦松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配等),是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩德尼泊松(Simon-Denis Poisson)在1838年时发表。 目录隐藏Poisson distribution的产生 泊松分布的应用 编辑本段Poisson distribution的产生概率论中常用的一种离散型概率分布。若随机变量 X 只取非负整数值,取k值的概率为 (k=1,2,3),则随机变量X 的分布称为泊松分布,记作P()。这个分布是S.-D.泊松研究二项分布的渐近公式是时提出来的。泊松分布P ()中只有一个参数 ,它既是泊松分布的均值,也是泊松分布的方差。在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率 (或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布。因此泊松分布在管理科学,运筹学以及自然科学的某些问题中都占有重要的地位。 泊松分布(Poisson distribution),台译卜瓦松分布,是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)。泊松分布是以1819 世纪的法国数学家西莫恩德尼泊松(Simon-Denis Poisson)命名的,他在1838年时发表。但是这个分布却在更早些时候由贝努里家族的一个人描述过。就像当代科学史专家斯蒂芬施蒂格勒(Stephen Stigler)所说的误称定律(the Law of Misonomy),数学中根本没有以其发明者命名的东西。泊松分布的概率密度函数为: P(X=k)=frace-lambdalambdakk! 泊松分布的参数是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等。泊松分布的概率密度函数为::P(X=k)=frace-lambdalambdakk!泊松分布的参数是单位时间(或单位面积)内随机事件的平均发生率。 编辑本段泊松分布的应用泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等。其中 , 这种分布称为二项分布,记为 通常把 服从二项分布记为 例4 l 泊松分布随机变量 的可能取值为 ,取这些值的概率分别为:, n=1,2,. ,其中 为常数,这种分布称为泊松分布,记为 通常把 服从泊松分布记为 例5正态分布百科名片正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为、标准方差为2的高斯分布,记为:则其概率密度函数为正态分布的期望值决定了其位置,其标准差决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是 = 0, = 1的正态分布。 编辑本段正态分布normal distribution一种概率分布。正态分布是具有两个参数和2的连续型随机变量的分布,第一参数是服从正态分布的随机变量的均值,第二个参数2是此随机变量的方差,所以正态分布记作N(,2 )。 服从正态分布的随机变量的概率规律为取与邻近的值的概率大 ,而取离越远的值的概率越小;越小,分布越集中在附近,越大,分布越分散。正态分布的密度函数的特点是:关于对称,在处达到最大值,在正(负)无穷远处取值为0,在处有拐点。它的形状是中间高两边低 ,图像是一条位于x轴上方的钟形曲线。当0,2 1时,称为标准正态分布,记为N(0,1)。维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。正态分布应用最广泛的连续概率分布,其特征是“钟”形曲线。 正态分布概率密度函数解析式附:这种分布的概率密度函数为:(如右图) 正态分布1.正态分布 若已知的密度函数(频率曲线)为正态函数(曲线)则称已知曲线服从正态分布,记号 。其中、2 是两个不确定常数,是正态分布的参数,不同的、不同的2对应不同的正态分布。正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。2正态分布的特征服从正态分布的变量的频数分布由、完全决定。(1)是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以X=为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于。(2)描述正态分布资料数据分布的离散程度,越大,数据分布越分散,越小,数据分布越集中。 也称为是正态分布的形状参数,越大,曲线越扁平,反之,越小,曲线越瘦高。若连续型随机变量的概率密度为:其中 都是常数,则称服从正态分布 ,记为 ,的分布函数为, 当 时,正态分布N(0,1) 称为标准正态分布,其分布函数为, 的性质:1. 2. 3. 设 ,的分布函数为F(x) ,则1. 2. ;3. . 正态分布是概率论和数理统计中最重要的一种分布,一般来讲,若影响某一数量指标的随机因素很多,而每个因素所起的作用不太大,则这个指标近似服从正态分布.如测量的误差;人的身高;农作物的收获量等都近似服从正态分布.标准正态分布1标准正态分布是一种特殊的正态分布,标准正态分布的和2为0和1,通常用(或Z)表示服从标准正态分布的变量,记为 ZN(0,1)。2标准化变换:此变换有特性:若原分布服从正态分布 ,则Z=(x-)/ N(0,1) 就服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。3. 标准正态分布表标准正态分布表中列出了标准正态曲线下从-到X(当前值)范围内的面积比例 。 正态曲线下面积分布1实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。不同 范围内正态曲线下的面积可用公式计算。 2.几个重要的面积比例轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间(-,+)内的面积为68.268949%,横轴区间(-1.96,+1.96)内的面积为95.449974%,横轴区间(-2.58,+2.58)内的面积为99.730020%。 正态分布的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。1. 估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。2. 制定参考值范围(1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。(2)百分位数法 常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。3. 质量控制:为了控制实验中的测量(或实验)误差,常以 作为上、下警戒值,以 作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。4. 正态分布是许多统计方法的理论基础。 检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。 研究过程正态分布的概念和特征一、正态分布的概念由一般分布的频数表资料所绘制的直方图,图(1)可以看出,高峰位于中部,左右两侧大致对称。我们设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线图(3)。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normal distribution)。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。 为了应用方便,常对正态分布变量X作变量变换。 该变换使原来的正态分布转化为标准正态分布 (standard normal distribution),亦称u分布。u被称为标准正态变量或标准正态离差(standard normal deviate)。二、正态分布的特征:1正态曲线(normal curve)在横轴上方均数处最高。2正态分布以均数为中心,左右对称。3正态分布有两个参数,即均数和标准差。是位置参数,当固定不变时,越大,曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动。是形状参数,当固定不变时,越大,曲线越平阔;越小,曲线越尖峭。通常用N(,2)表示均数为,方差为2的正态分布。用N(0,1)表示标准正态分布。4正态曲线下面积的分布有一定规律。 实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。正态曲线下一定区间的面积可以通过附表1求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。查附表1应注意:表中曲线下面积为-到u的左侧累计面积;当已知、和X时先按式u=(X-)/求得u值,再查表,当、未知且样本含量n足够大时,可用样本均数X1和标准差S分别代替和,按u=(X-X1)/S式求得u值,再查表;曲线下对称于0的区间面积相等,如区间(-,-1.96)与区间(1.96,)的面积相等,曲线下横轴上的总面积为100%或1。 图2 正态曲线与标准正态曲线的面积分布第二节 正态分布的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可按正态分布规律处理。1估计正态分布资料的频数分布例1.10 某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;分别求X+-1s、X+-1.96s、X+-2.58s范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。本例,、未知但样本含量n较大,按式(3.1)用样本均数X和标准差S分别代替和,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。其它计算结果见表3。表3 100名18岁男大学生身高的实际分布与理论分布分布 x+-s身高范围(cm)实际分布人数实际分布百分数(%)理论分布(%)X+-1s168.69176.716767.0068.27X +-1.96s164.84180.569595.0095.00X+-2.58s162.35183.059999.0099.002制定医学参考值范围:亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有: (1)正态分布法:适用于正态或近似正态分布的资料。双侧界值:X+-u(u)S单侧上界:X+u(u)S,或单侧下界:X-u(u)S(2)对数正态分布法:适用于对数正态分布资料。双侧界值:lg-1X(lgx)+-u(u)S(lgx);单侧上界:lg-1X(lgx)+u(u)S(lgx),或单侧下界:lg-1X(lgx)-u(u)S(lgx)。常用u值可根据要求由表4查出。(3)百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。双侧界值:P2.5和P97.5;单侧上界:P95,或单侧下界:P5。表4常用u值表参考值范围(%)单侧双侧800.8421.282901.2821.645951.6451.960992.3262.5763正态分布是许多统计方法的理论基础:如t分布、F分布、x2分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。对数正态分布2009年10月16日 星期五 20:24在概率论与统计学中,对数正态分布是对数为正态分布的任意随机变量的概率分布。如果 X 是正态分布的随机变量,则 exp(X) 为对数分布;同样,如果 Y 是对数正态分布,则 log(Y) 为正态分布。 如果一个变量可以看作是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。一个典型的例子是股票投资的长期收益率,它可以看作是每天收益率的乘积。 对于 x 0,对数正态分布的概率分布函数为其中 与 分别是变量对数的平均值与标准差。它的期望值是方差为给定期望值与标准差,也可以用这个关系求 与 与几何平均值和几何标准差的关系对数正态分布、几何平均数与几何标准差是相互关联的。在这种情况下,几何平均值等于 exp(),几何平均差等于 exp()。如果采样数据来自于对数正态分布,则几何平均值与几何标准差可以用于估计置信区间,就像用算术平均数与标准差估计正态分布的置信区间一样。置信区间界对数空间几何3 下界 32 下界 21 下界 geo / geo1 上界 + geogeo2 上界 + 23 上界 + 3其中几何平均数 geo = exp(),几何标准差 geo = exp()矩原始矩为:或者更为一般的矩局部期望随机变量 X 在阈值 k 上的局部期望定义为其中 f(x) 是概率密度。对于对数正态概率密度,这个定义可以表示为其中 是标准正态部分的累积分布函数。对数正态分布的局部期望在保险业及经济领域都有应用。参数的最大似然估计为了确定对数正态分布参数 与 的最大似然估计,我们可以采用与正态分布参数最大似然估计同样的方法。我们来看其中用 表示对数正态分布的概率密度函数,用 表示正态分布。因此,用与正态分布同样的指数,我们可以得到对数最大似然函数:由于第一项相对于 与 来说是常数,两个对数最大似然函数 与 在同样的 与 处有最大值。因此,根据正态分布最大似然参数估计器的公式以及上面的方程,我们可以推导出对数正态分布参数的最大似然估计相关分布如果 Y = ln(X) 与 ,则 YN(,2) 是正态分布。 如果 是有同样 参数、而 可能不同的统计独立对数正态分布变量 ,并且 ,则 Y 也是对数正态分布变量:。2.7 之 指数分布若连续型随机变量的概率密度为:.其中 0为常数,则称服从指数分布,记为e( ).且当 时;当x0时.所以的分布函数为: 指数分布常可作为“寿命” 分布的近似,如电子元件的寿命,动物的寿命,电话问题中的通话时间,随机服务系统中的服务时间等都常假定服从指数分布.常用离散型随机变量的概率分布l “0-1”分布随机变量 的可能取值为 取这些值的概率分别为:, 其中 , 这种分布称为“0-1”分布 例1l几何分布 几何分布(Geometric distribution)是离散型概率分布。其中一种定义为:在第n次伯努利试验,才得到第一次成功的机率。详细的说,是:n次伯努利试验,前n-1次皆失败,第n次才成功的概率。公式:它分两种情况:1. 得到1次成功而进行,n次伯努利实验,n的概率分布,取值范围为1,2,3,.; 2. m = n-1次失败,第n次成功,m的概率分布,取值范围为0,1,2,3,.由两种不同情况而得出的期望和方差如下:E(n) = 1/p, var(n) = (1-p)/p2;E(m) = (1-p)/p, var(m) = (1-p)/p2。概率为p的事件A,以X记A首次发生所进行的试验次数,则X的分布列:P(X=k)=p*(1-p)(k-1),k=1,2,3,具有这种分布列的随机变量,称为服从参数p的几何分布。 几何分布 随机变量 的可能取值为 ,取这些值的概率分别为:表示事件第m次才发生:, 其中 , 分布称为几何分布例2超几何分布编辑本段引出产品抽样检查中经常遇到一类实际问题,假定在N件产品中有M件不合格品,即不合格率p=M/N.在产品中随机抽n件做检查,发现X件是不合格品,可知X的概率函数为P(X=k)=C(k,M)*C(n-k,N-M)/C(n,N),k=max0,n-N+M,.,minn,M通常称这个随机变量X服从超几何分布。这种抽样检查方法等于无放回抽样。数学上不难证明,当M=Np时,n-无穷,limC(k,M)*C(n-k,N-M)/C(M,N)=B(n,p) (二项分布)因此,在实际应用时,只要N=10n,可用二项分布近似描述不合格品个数。也就是已经知道某个事件的发生概率,判断从中取出一个小样本,该事件以某一个机率出现的概率问题。例子:假设细胞中有某种现象以90%的几率在发生着,被我们的三次实验抓到三次的几率是多大呢?不过可惜的是我们往往不能知道某个事件发生的先验的概率。不过至少可以拿来做假设检验吧。 编辑本段定义l 超几何分布随机变量 的可能取值为 ,取这些值的概率分别为: , 其中 , , 都是正整数,且 , 这种分布称为超几何分布,记为 H(n,M,N). 例3在产品质量的不放回抽检中,若N件产品中有M件次品,抽检n件时所得次品数X=k则P(X=k)此时我们称随机变量X服从超几何分布1)超几何分布的模型是不放回抽样2)超几何分布中的参数是M,N,n上述超几何分布记作XH(n,M,N)。 编辑本段应用例:在一个口袋中装有30个球,其中有10个红球,其余为白球,这些球除颜色外完全相同.游戏者一次从中摸出5个球.摸到4个红球就中一等奖,那么获一等奖的概率是多少?解:由题意可见此问题归结为超几何分布模型。其中N = 30. M = 10. n = 5.P(一等奖) = P(X=4 or 5) = P(X=4) + P(X=5) 由公式P(X=k)=C(k,M)*C(n-k,N-M)/C(n,N),k=0,1,2,.得:P(X=4) = C(4,10)*C(1,20)/C(5,30) P(X=5) = C(5,10)*C(0,20)/C(5,30)P(一等奖) = 106/3393超几何分布的均值:对XH(n,M,N),E(x)=nM/N超几何分布的方差:对XH(n,M,N),D(X)=nM(N-M)(N-n)/(N2)(N-1)卡方分布简介 2分布概率表 简介若n个相互独立的随机变量1,2,n ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和2i构成一新的随机变量,其分布规律称为2(n)分布,其中参数 n 称为自由度,自由度不同就是另一个2分布,正如正态分布中均值或方差不同就是另一个正态分布一样。2分布的密度函数比较复杂这里就不给出了,同学们也不用去记了。卡方分布是由正态分布构造而成的一个新的分布,这也正反映了前面所说的正态分布的重要性。 对于任意正整数 k, 自由度为 k 的卡方分布是一个随机变量X的机率分布在这个式子中,Z1, ., Zk 是相互独立的常态变量,且每一个变量的数学平均值都为0,方差为1。也就是说X是标准常态变量的平方和。这种分布一般被记做2分布在一象限内,呈正偏态,随着参数 n 的增大,2分布趋近于正态分布。 2分布的均值为自由度 n,记为 E2=n,这里符号“E”表示对随机变量求均值;2分布的方差为2倍的自由度(2n),记为 D2=2n,这里符号“D”表示对随机变量求方差。从2分布的均值与方差可以看出,随着自由度n的增大,2分布向正无穷方向延伸(因为均值n越来越大),分布曲线也越来越低阔(因为方差2n越来越大)。 2分布具有可加性:若有K个服从2分布且相互独立的随机变量,则它们之和仍是2分布,新的2分布的自由度为原来K个2分布自由度之和。表示为: 2分布是连续分布,但有些离散分布也服从2分布,尤其在次数统计上非常广泛。 编辑本段2分布概率表2分布不象正态分布那样将所有正态分布的查表都转化为标准正态分布去查,在2分布中得对每个分布编制相应的概率值,这通过2分布表中列出不同的自由度来表示,在2分布表中还需要如标准正态分布表中给出不同 P 值一样,列出概率值,只不过这里的概率值是2值以上2分布曲线以下的概率。由于2分布概率表中要列出很多2分布的概率值,所以2分布中所给出的 P 值就不象标准正态分布中那样给出了400个不同的 P 值,而只给出了有代表性的13个值,因此2分布概率表的精度就更差,不过给出了常用的几个值,足够在实际中使用了。 查2分布概率表时,按自由度及相应的概率去找到对应的2值。如上图所示的单侧概率20.05(7)=14.1的查表方法就是,在第一列找到自由度7这一行,在第一行中找到概率0.05这一列,行列的交叉处即是14.1。 表中所给值直接只能查单侧概率值,可以变化一下来查双侧概率值。例如,要在自由度为章 7 的卡方分布中,得到双侧概率为0.05所对应的上下端点可以这样来考虑:双侧概率指的是在上端和下端各划出概率相等的一部分,两概率之和为给定的概率值,这里是0.05,因此实际上上端点以上的概率为0.05/2=0.025,用概率0.025查表得上端点的值为16,记为20.05/2(7)=16。下端点以下的概率也为0.025,因此可以用0.975查得下端点为1.69,记为21-0.05/2(7)=1.69。 当然也可以按自由度及2值去查对应的概率值,不过这进往往只能得到一个大概的结果,因为2分布概率表的精度有限,只给了 13 个不同的概率值进行查表。例如,要在自由度为 18 的2分布查找 2=30 对应的概率,则先在第一列找到自由度 18,然后看这一行可以发现与 30 接近的有28.9与31.5,它们所在的列是0.05与0.025,所以要查的概率值应于介于0.05与0.025之间,当然这是单侧概率值,它们的双侧概率值界于0.1与0.05之间。如果要更精确一些可以采用插值的方法得到,这在正态分布的查表中有介绍。 为什么从正态总体中抽取出的样本的方差服从2分布 在抽样分布理论一节里讲到,从正态总体进行一次抽样就相当于独立同分布的 n 个正态随机变量1,2,n的一次取值,将 n 个随机变量针对总体均值与方差进行标准化得(i=1,n),显然每个都是服从标准正态分布的,因此按照2分布的定义,应该服从参数为 n 的2分布。 如果将中的总体均值 用样本平均数 代替,即得,它是否也服从2分布呢?理论上可以证明,它是服从2分布的,但是参数不是 n 而是 n-1 了,究其原因在于它是 n-1 个独立同分布于标准正态分布的随机变量的平方和我们常常把一个式子中独立变量的个数称为这个式子的“自由度”,确定一个式子自由度的方法是:若式子包含有 n 个独立的随机变量,和由它们所构成的 k 个样本统计量,则这个表达式的自由度为 n-k。比如中包含1,2,n这 n 个独立的随机变量,同时还有它们的平均数 这一统计量,因此自由度为 n-1。2.6 连续型随机变量的概率密度 研究连续型随机变量的分布除了可用分布函数外还可用概率密度柯西分布柯西-洛伦兹分布機率 密度 函數绿线是标准柯西分布累積分佈函數与上图中的颜色对应參數位置参数(实数)尺度参数(实数)值域概率密度函数累積分佈函數 (cdf)期望值(没有定义)中位數x0眾數x0方差(没有定义)偏態(没有定义)峰態(没有定义)熵值動差生成函數 (mgf)(没有定义)特徵函數柯西分布也叫作柯西-洛伦兹分布,它是以奥古斯丁路易柯西与亨德里克洛伦兹名字命名的连续概率分布,其概率密度函数为其中 x0 是定义分布峰值位置的位置参数, 是最大值一半处的一半宽度的尺度参数。作为概率分布,通常叫作柯西分布,物理学家也将之称为洛伦兹分布或者 Breit-Wigner 分布 。在物理学中的重要性很大一部分归因于它是描述受迫共振的微分方程的解。在光谱学中,它描述了被共振或者其它机制加宽的谱线形状。在下面的部分将使用柯西分布这个统计学术语。x0 = 0 且 = 1 的特例称为标准柯西分布,其概率密度函数为特性其累积分布函数为:柯西分布的逆累积分布函数为柯西分布的平均值、方差或者矩都没有定义,它的众数与中值有定义都等于 x0。取 X 表示柯西分布随机变量,柯西分布的特性函数表示为:如果 U 与 V 是期望值为 0、方差为 1 的两个独立正态分布随机变量的话,那么比值 U/V 为柯西分布。如果 X1,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论