第六章(三)常用连续型随机变量的理论分布_第1页
第六章(三)常用连续型随机变量的理论分布_第2页
第六章(三)常用连续型随机变量的理论分布_第3页
第六章(三)常用连续型随机变量的理论分布_第4页
第六章(三)常用连续型随机变量的理论分布_第5页
免费预览已结束,剩余76页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三节常用连续型随机变量的理论分布 一 正态分布 正态分布是最重要的概率分布 因为 第一 许多自然现象与社会现象 都可用正态分布加以叙述 第二 许多概率分布以正态分布为其极限 第三 许多统计量的抽样分布呈现正态分布 因此 许多统计分析方法都是以正态分布为基础的 一 正态分布的概率函数 若连续型随机变量x的概率分布密度函数为其中 为平均数 2为方差 则称随机变量x服从正态分布 normaldistribztion 记为x N 2 相应的概率分布函数为 分布密度曲线 99 74 68 26 95 46 二 正态分布的特征 1 正态分布密度曲线是单峰 对称的悬钟形曲线 对称轴为x 2 f x 在x 处达到极大 极大值 3 f x 是非负函数 以x轴为渐近线 分布从 至 4 曲线在x 处各有一个拐点 即曲线在 和 区间上是下凸的 在 区间内是上凸的 5 正态分布有平均数 和标准差 两个参数 是位置参数 是变异度参数 图1标准差相同 1 而平均数不同 0 1 2 的三个正态分布曲线 图2平均数相同 0 而标准差不同 1 1 5 2 的三个正态分布曲线 6 分布密度曲线与横轴所夹面积为1 即 正态分布是依赖于参数 和 的一簇分布 将一般的N 2 转换为 0 2 1的正态分布 应用就方便了 称 0 2 1的正态分布为标准正态分布 standardnormaldistribztion 三 标准正态分布 标准正态分布的概率密度函数及分布函数分别记作 z 和 z 得 随机变量z服从标准正态分布 记作z N 0 1 对于任何一个服从正态分布N 2 的随机变量x 都可以通过标准化变换 z x 将其变换为服从标准正态分布的随机变量z z称为标准正态变量或标准正态离差 standardnormaldeviate 四 正态分布的概率计算 标准正态分布的概率计算设z服从标准正态分布 则z在 z1 z2 何内取值的概率为 z2 z1 而 z1 与 z2 可由附表查得 例 已知z N 0 1 试求 1 P z 1 64 2 P z 2 58 3 P z 2 56 4 P 0 34 z 1 53 关于标准正态分布 以下几种概率应当熟记 P 1 z 1 0 6826P 2 z 2 0 9546P 3 z 3 0 9974P 1 96 z 1 96 0 95P 2 58 z 2 58 0 99 标准正态分布的三个常用概率 99 74 68 26 95 46 z在上述区间以外取值的概率分别为 P z 1 2 1 1 P 1 z 1 1 0 6826 0 3174P z 2 2 2 1 P 2 z 2 1 0 9545 0 0455P z 3 1 0 9973 0 0027P z 1 96 1 0 95 0 05P z 2 58 1 0 99 0 01 一般正态分布的概率计算 正态分布密度曲线和横轴围成的区域 其面积为1 是一个必然事件 若随机变量x服从正态分布N 2 则x的取值落在任意区间 x1 x2 的概率 记作P x1 x x2 等于这部分曲边梯形面积 即 对上式作变换z x 得dx dz 故有其中 z1 x1 z2 x2 这表明服从正态分布N 2 的随机变量x在 x1 x2 内取值的概率 等于服从标准正态分布的随机变量z在 x1 x2 内取值的概率 因此 计算一般正态分布的概率时 只要将区间的上下限作适当变换 标准化 就可用查标准正态分布的概率表的方法求得概率了 例 设x服从 30 26 2 5 102的正态分布 试求P 21 64 x 32 98 令则z服从标准正态分布 故 P 1 69 z 0 53 0 53 1 69 0 7019 0 04551 0 6564 关于一般正态分布 以下几个概率是经常用到的 P x 0 6826P 2 x 2 0 9546P 3 x 3 0 9974P 1 96 x 1 96 0 95P 2 58 x 2 58 0 99 图中的点称为标准正态分布的的分位点 相当于已知 标准正态分布密度函数图形为 3 正态分布分位点计算 正态分布的分位点的定义 求其中的 4 单侧概率与双侧概率统计学中 把随机变量x落在区间 k k 之外的概率称为双侧 两尾 概率 记作 对应于双侧概率可以求得随机变量x小于 k 或大于 k 的概率 称为单侧概率 记作 2 如 x落在 1 96 1 96 之外的双侧概率为0 05 而单侧概率为0 025 即P x 1 96 P x 1 96 0 025x落在 2 58 2 58 之外的双侧概率为0 01 而单侧概率P x 2 58 P x 2 58 0 005 五 二项分布及泊松分布与正态分布的关系对于二项分布 在n p 0 且np 较小常数 情况下 二项分布趋于泊松分布 在这种场合 泊松分布中的参数 用二项分布的np代之 在n p 0 5时 二项分布趋于正态分布 在这种场合 正态分布中的 2用二项分布的np npq代之 在实际计算中 当p 0 1且n很大时 二项分布可由泊松分布近似 当p 0 1且n很大时 二项分布可由正态分布近似 对于泊松分布 当 时 泊松分布以正态分布为极限 在实际计算中 当 20时 用泊松分布中的 代替正态分布中的 及 2 即可由后者对前者进行近似计算 练习1 某厂生产的某种节能灯管的使用寿命服从正态分布 对某批产品测试的结果 平均使用寿命为1050小时 标准差为200小时 求 1 使用寿命在500小时的灯管占多大比例 2 使用寿命在850 1450小时的灯管占多大比例 3 以均值为单位 95 的灯管使用寿命在什么范围 练习2 假设一批种子的发芽率为0 7 现有这种种子1000颗 试求其中720颗以上发芽的概率 二 抽样分布与中心极限定理 研究总体与从中抽取的样本之间的关系是统计学的中心内容 对这种关系的研究可从两方面着手 一是从总体到样本 这就是研究抽样分布 samplingdistribution 的问题 二是从样本到总体 这就是统计推断 statisticalinference 问题 一 抽样分布的含义与无偏估计量1 抽样分布的含义 统计推断是以总体分布和样本抽样分布的理论关系为基础的 由总体中随机地抽取若干个体组成样本 即使每次抽取的样本含量相等 其统计量也将随样本的不同而有所不同 因而样本统计量也是随机变量 也有其概率分布 我们把统计量的概率分布称为抽样分布 2 无偏估计 在统计学上 如果所有可能样本的某一统计数的平均数等于总体的相应参数 则称该统计数为总体相应参数的无偏估计值 设有一N 3的总体 具有变量3 4 5 求得 4 2 0 6667 0 8165现以n 2作独立的回置抽样 总共得Nn 32 9个样本 抽样结果列入下表 N 3n 2时抽样的平均数方差标差 从上表的资料可以求出 样本平均数的平均数 x 4样本方差的平均数 S2 0 6667 2样本标准差的平均数 S 0 6285 0 8165 所以 惟有样本标准差s的平均数不是总体标准差 的无偏差估计值 其余两个参数为无偏差估计值 二 样本平均数的抽样分布 1 样本平均数抽样分布的含义及其参数设有一个总体 总体平均数为 方差为 2 总体中各变数为xi 将此总体称为原总体 现从这个总体中随机抽取含量为n的样本 样本平均数记为 可以设想 从原总体中可抽出很多甚至无穷多个含量为n的样本 总体 随机样本123无穷个样本 图总体和样本的关系 如图从一个总体进行随机抽样可以得到许多样本 如果总体是无限总体 那么可以得到无限多个随机样本 如果从容量为N的有限总体抽样 若每次抽取容量为n的样本 那么一共可以得到个样本 所有可能的样本个数 抽样所得到的每一个样本可以计算一个平均数 全部可能的样本都被抽取后可以得到许多平均数 如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体 平均数就成为这个新总体的变量 由平均数构成的新总体的分布 称为平均数的抽样分布 随机样本的任何一种统计数都可以是一个变量 这种变量的分布称为统计数的抽样分布 除平均数抽样分布外还有总和数 方差的抽样分布等 由这些样本算得的平均数与原总体平均数 相比往往表现出不同程度的差异 这种差异是由随机抽样造成的 称为抽样误差 samplingerror 由样本平均数构成的总体称为样本平均数的抽样总体 其平均数和标准差分别记为和 是样本平均数抽样总体的标准差 简称标准误 standarderror 它表示平均数抽样误差的大小 统计学上已证明总体的两个参数与x总体的两个参数有如下关系 2 中心极限定理设有一个N 4的有限总体 变数为2 3 3 4 根据 x N和 2 x 2 N求得该总体的 2 为 3 2 1 2 1 21 2 0 707 从有限总体作回置随机抽样 所有可能的样本数为Nn其中n为样本含量 以上述总体而论 如果从中抽取n 2的样本 共可得42 16个样本 如果样本含量n为4 则一共可抽得44 256个样本 分别求这些样本的平均数 其次数分布如下表所示 在n 2的试验中 样本平均数抽样总体的平均数 方差与标准差分别为 4 16 1 4 1 2 2 2 n 表N 4 n 2和n 4时的次数分布 同理 可得n 4时 验证了的正确性 也可以将表中两个样本平均数的抽样总体作次数分布图 由以上模拟抽样试验可以看出 虽然原总体并非正态分布 但从中随机抽取样本 即使样本含量很小 样本平均数的分布却趋向于正态分布形式 随着样本含量n的增大 样本平均数的分布愈来愈从不连续趋向于连续的正态分布 当n 30时 的分布就近似正态分布了 X变量与变量概率分布间的关系可由下列两个定理说明 1 若随机变量x服从正态分布N 2 x1 x2 xn 是由x总体得来的随机样本 则统计量 x n的概率分布也是正态分布 且有 即服从正态分布N 2 n 2 若随机变量x服从平均数是 方差是 2的分布 不是正态分布 x1 x2 xn 是由此总体得来的随机样本 则统计量 x n的概率分布 当n相当大时逼近正态分布N 2 n 这就是中心极限定理 中心极限定理告诉我们 不论x变量是连续型还是离散型 也无论x服从何种分布 一般只要n 30 就可认为的分布是正态分布 若x的分布不很偏斜 在n 20时 的分布就近似于正态分布了 由中心极限定理知 只要样本容量适当大 不论总体分布形状如何 其的分布都可看作为正态分布 且具平均数和方差 在实际应用上 如n 30就可以应用这一定理 平均数的标准化分布是将上述平均数转换为z变数 标准误 标准误 平均数抽样总体的标准差 的大小反映样本平均数的抽样误差的大小 即精确性的高低 标准误大 说明各样本平均数间差异程度大 样本平均数的精确性低 反之 小 样本平均数的精确性高 的大小与原总体的标准差 成正比 与样本含量n的平方根成反比 从某特定总体抽样 因为 是一常数 所以只有增大样本含量才能降低样本平均数的抽样误差 在实际工作中 总体标准差 往往是未知的 因而无法求得 此时 可用样本标准差S估计 于是 以估计 记为 称作样本标准误或均数标准误 样本标准误是平均数抽样误差的估计值 若样本中各观测值为x1 x2 xn 则 注意 样本标准差与样本标准误是既有联系又有区别的两个统计量 二者的区别是样本标准差S是反映样本中各观测值的变异程度 它的大小说明了对该样本代表性的强弱 样本标准误是样本平均数的标准差 它是抽样误差的估计值 其大小说明了样本间变异程度的大小及精确性的高低 二 两个独立样本平均数差数的分布 假定有两个正态总体各具有平均数和标准差为 和 从第一个总体随机抽取n1个观察值 同时独立地从第二个总体随时机抽取n2个观察值 这样计算出样本平均数和标准差 s1和 s2 从统计理论可以推导出其样本平均数的差数 的抽样分布 具有以下特性 1 如果两个总体各作正态分布 则其样本平均数差数 准确地遵循正态分布律 无论样本容量大或小 都有N 2 两个样本平均数差数分布的平均数必等于两个总体平均数的差数 即 3 两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和 即其差数标准差为 这个分布也可标准化 获得z值 小结 若两个样本抽自于同一正态总体 则其平均数差数的抽样分布不论容量大小亦作正态分布具 若两个样本抽自于同一总体 但并非正态总体 则其平均数差数的抽样分布按中心极限定理在n1和n2相当大时 大于30 才逐渐接近于正态分布 若两个样本抽自于两个非正态总体 当n1和n2相当大 而与相差不太远时 也可近似地应用正态接近方法估计平均数差数出现的概率 当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移 例 假定第一个总体包括3个观察值 2 4和6 N1 3 n1 2 所有样本数为Nn 32 9个 总体平均数和方差 4 8 3 第二个总体包括2个观察值 3和6 N2 2 抽出的样本容量为3 n2 3 所以所有样本数为23 8个 总体平均数和方差 4 5 2 25 现将上述两个总体的次数分布列于表 并计算出其分布的参数 将第一总体的9个样本平均数和第二总体的8个样本平均数作所有可能的相互比较 这样共有9 8 72个比较或72个差数 这72个差数次数分布列于表 和表 表 从两个总体抽出的样本平均数的次数分布表 表 样本平均数差数的次数分布表 表 样本平均数差数分布的平均数和方差计算表 f 由表 可算得 而 这与均相同 三 二项总体的抽样分布 二项总体的分布参数 成数 标准差 方差 平均数 样本平均数 成数 的抽样分布 从二项总体进行抽样得到样本 样本平均数 成数 抽样分布的参数为 平均数 方差 标准误 四 不重复抽样的修正系数 前所讲的抽样分布和抽样平均误差的计算公式 都是就重复抽样而言的 可以证明 采用不重复抽样时 平均数和比例的抽样平均误差应为 可见 不重复抽样的抽样平均误差公式比重复抽样的相应公式多一个系数这个系数称为不重复抽样修正系数 当N很大时 其中 n N为抽样比例 实际中 当抽样比例很小时 一般认为小于5 不重复抽样的抽样误差常采用重复抽样的公式计算 三 t分布 1 t分布的定义 若x N 2 则 N 2 n 将随机变量标准化得 则z N 0 1 当总体标准差 未知时 以样本标准差S代替 所得到的统计量记为t 在计算时 由于采用S来代替 使得t变量不再服从标准正态分布 而是服从t分布 t distribztion 它的概率分布密度函数如下 式中 t的取值范围是 df n 1为自由度 函数 参考 自由度df degreeoffreedom 的含义 df k n 1 T分布密度曲线 2 t分布的图形特征 t分布是类似正态分布的一种对称分布 它通常要比正态分布平坦和分散 一个特定的分布依赖于称之为自由度的参数 随着自由度的增大 分布也逐渐趋于正态分布 1 t分布受自由度的制约 每一个自由度都有一条t分布密度曲线 2 t分布密度曲线以纵轴为对称轴 左右对称 且在t 0时 分布密度函数取得最大值 3 与标准正态分布曲线相比 t分布曲线顶部略低 两尾部稍高而平 df越小这种趋势越明显 df越大 t分布越趋近于标准正态分布 3 分布分位点计算 在统计中经常对给定的分布求它的分位点而不是求其概率 其分位点的定义与标准正态分布相同 四 分布 卡方分布 分布是统计中经常用到的一个分布 通常是由n个相互独立的标准正态分布的平方和得到 它的概率密度函数为 假设从正态总体中抽取k个独立样本z12 z22 z32 zk2 则定义它们的和为x2 x2具有自由度df n 1的连续型变量的分布 不同的自由度的x2分布曲

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论