




已阅读5页,还剩70页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章概率分布 1 第一节事件与概率 一 事件 一 必然事件在一定条件下必然会发生的事件称为必然事件 certainevent 用U表示 例如 在标准大气压下 水加热到100 必然沸腾 步行条件下必然不可能到达月球等 二 不可能事件在一定条件下不可能发生的事件称为不可能事件 impossibleevent 用V表示 例如 在满足一定孵化条件下 从石头孵化出雏鸡 种子发芽率不可能超过100 三 随机事件在一定条件下可能发生 也可能不发生 称为随机事件 randomevent 简称事件 event 通常用A B C等来表示 二 概率 在相同条件下进行n次重复试验 如果随机事件A发生的次数为m 那么m n称为随机事件A的频率 frequency 当试验重复数n逐渐增大时 随机事件A的频率越来越稳定地接近某一数值p 那么就把p称为随机事件A的概率 在一般情况下 随机事件的概率p是不可能准确得到的 通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值 即P A p m n n充分大 概率有如下基本性质 1 对于任何事件A 有0 P A 1 2 必然事件的概率为1 即P U 1 3 不可能事件的概率为0 即P V 0 三 概率计算 一 事件的相互关系1 和事件事件A和事件B至少有一件发生而构成的新事件称为事件A和事件B的和事件 以A B表示 2 积事件事件A和事件B同时发生 以A B表示 3 互斥事件事件A和事件B不能同时发生 A B V如新生儿男为A 女为B4 对立事件A和B必有一个发生 但二者不能同时发生 即A B U A B V B为A对立事件 可表示为A 5 独立事件A的发生与B没有关系如播种玉米时 一穴中播种2粒 第一粒发芽与否与第2位无关系6 完全事件系如果多个事件A1 A2 An两两排斥 每次必然发生其一 A1 A2 An称为完全事件 如随机抽取一位阿拉伯数字 数字0 9构成完全事件 二 概率计算法则 1 加法定理互斥事件A和B的和事件的概率等于事件A和B的概率之和 即P A B P A P B 例 调查某玉米田 一穗占67 2 双穗占30 7 空穗占2 1 计算一穗株和双穗株的概率P A B P A P B 0 672 0 307 0 979 推理1 A1 A2 An为n个互斥事件 其和事件的概率为 P A1 A2 An P A1 P A2 P An 推理2 对立事件的A的概率为 P A 1 P A 推理3 完全事件系的和事件的概率 1 2 乘法定理A和B为独立事件 则A与B同时发生的概率为 P A B P A P B 播种玉米时 每穴2粒 种子的发芽率为90 求两粒种子均发芽和一粒种子发芽的概率 两粒种均发芽 P A B P A P B 0 9 0 9 0 81 一粒种子发芽的概率 P A B P A B P A P B P A P B 0 9 0 1 0 1 0 9 0 18推理 如果A1 A2 An为彼此独立 则 P A1 A2 An P A1 P A2 P An 四 概率分布 一 离散型变量的概率分布 离散型随机变量x的一切可能取值xi i 1 2 及其对应的概率pi 记作P x xi pii 1 2 二 连续型变量的概率分布 连续型变量 可通过分组整理成频率分布表 如果从总体中抽取样本n相当大 则频率分布就趋于稳定 我们将它近似地看成总体概率分布 图4 1表2 7资料的分布曲线 若概率分布密度函数为f x 则x取值于区间 a b 的概率为图中阴影部分的面积 即 P a x b 连续型随机变量概率分布性质 分布密度函数总是大于或等于0 即f x 0 当随机变量x取某一特定值时 其概率等于0 即 c为任意实数 在一次试验中随机变量x之取值必在 x 范围内 为一必然事件 所以表示分布密度曲线下 横轴上的全部面积为1 第二节几种常见的理论分布 一 二项分布在生物学研究中 我们经常碰到的一类离散型随机变量 如动物雄性还是雌性 种子发芽与不发芽 后代的成活与死亡等 这样的结果只能是非此即彼两种情况 构成对立事件 我们把这种非此即彼事件所构成的总体 称为二项总体 其分布称为二项分布 一 二项分布的概率函数 二项总体 具有的共同特征 1 每次试验只有两个对立结果 记作A与A 它们出现的概率分别为p与q q 1 p 2 试验具有重复性和独立性 重复性是指每次试验条件不变 A出现的概率为p 独立性是指任何一次试验中事件A的出现与其余各次试验中出现的何种结果无关 以x表示在n次试验中事件A出现的次数 x取的值为零和正整数 0 1 2 n 其概率分布函数为 P X 为x的二项分布 记作B n p 二项分布是因为Cnxpxqn x恰好等于二项式 p q n按牛顿二项式展开含有px的相应各项 Excel二项分布计算方法 BINOMDIST x n p false 说明 x为试验成功数 n为观察数或试验次数 p为概率 由于 p q n 1 上式可写为 理论次数则以单位总数N乘以各项概率 理论次数 NP x 二项分布的概率累积函数可用下式表示 Excel二项分布的概率累积函数计算方法 BINOMDIST x n p true 说明 x为试验成功数 n为观察数或试验次数 p为概率 相当于小于x的累积概率 二 二项分布概率计算 例1豌豆的红花纯合基因型和白花纯合基因型杂交后 在F2代红花与白花植株的比率为3 1 若每次随机观察4株 共观察100次 问得红花为0株 1株 2株 3株和4株的概率各为多少 解 红花概率0 75 白花概率0 25 观察数n 4代入公式 例2 某批鸡种蛋的孵化率是0 90 今从该批种蛋中每次任选5个进行孵化 试求孵出小鸡的各种可能概率 解 n 5 p 0 9 q 0 1 每次孵化5个种蛋服从二项分布B 5 0 90 0只小鸡 P 0 C50p0q5 1 0 900 0 1051只小鸡 P 1 C51p1q4 5 0 901 0 1042只小鸡 P 2 C52p2q3 10 0 902 0 1033只小鸡 P 3 C53p3q2 10 0 903 0 1024只小鸡 P 4 C54p4q1 5 0 904 0 1015只小鸡 P 5 C55p5q0 1 0 905 0 100 例3某小麦品种在田间出现自然变异植株的概率为0 0045 试计算 1 调查100株 获得2株或以上变异的概率是多少 2 期望有0 99的概率获得1株或1株以上的变异植株 至少应调查多少株 解 1 0株 P 0 C1000p0q100 1 0 00450 0 9955100 0 63701株 P 1 C1001p1q99 100 0 00451 0 995599 0 28792株以上变异概率为 P x 2 1 P 0 P 1 0 0751 2 应调查的株数满足P 0 Cn0p0qn 0 010 9955n 0 01nlg0 9955 lg0 01n lg0 01 lg0 9955 1021因此 期望有0 99概率得到1株或1株以上变异植株 应至少调查1021株 二 二项分布的形状和参数 1 二项分布的形状由n和p两个参数决定 1 当p值较小且n值不大时 图形是偏倚的 随着n值的增大 分布逐渐趋于对称 2 当p值趋于0 5时 分布趋于对称 2 二项分布的参数总体平均数 次数 x np总体标准差 次数 x 如例1 n 4 p 0 75 可求红花出现的株数为4 0 75 3株 4 0 75 0 25 1 2 0 866株二项百分数的平均数 p p二项百分数的标准差 x pq n 1 2 二 泊松分布 在生物学研究中 有许多事件出现的概率很小 而样本容量或试验次数却很大 即有很小的p值和很大的n值 这时 二项分布变成泊松 poisson 分布 如显微镜视野内染色体有变异的细胞计数 由突变引起的遗传病患的分布 田间小区内出现变异植株数 作物种子内杂草计数 单位容积中的细菌数目分布 家畜产怪胎数等都属于泊松分布 若随机变量x x k 只取零和正整数值0 1 2 且其概率分布为 k 0 1 其中 np 0 e 2 7182 是自然对数的底数 则称x服从参数为 的波松分布 Poisson sdistribution 记为P 泊松分布平均数 方差 2 利用这一特征 可以初步判断一个离散型随机变量是否服从泊松分布 泊松分布的形状由参数 确定 值愈小分布愈偏倚 随着 的增大 分布趋于对称 当 20时分布接近于正态分布 当 50时 可以认为波松分布呈正态分布 所以在实际工作中 当 20时就可以用正态分布来近似地处理波松分布的问题 不同 的波松分布 泊松分布应用条件 小概率事件p 0 1 np 5 例1 为监测饮用水的污染情况 现检验某社区每毫升饮用水中细菌数 共得400个记录如下试分析饮用水中细菌数的分布是否服从波松分布 若服从 按泊松分布计算每毫升水中细菌数的概率及理论次数并将次数分布与泊松分布作直观比较 经计算得每毫升水中平均细菌数x 0 500 方差S2 0 496 两者很接近 故可认为每毫升水中细菌数服从波松分布 Excel计算 0次 poisson 0 0 5 false 1次 poisson 1 0 5 false 3次 1 poisson 2 0 5 true False 符合条件的泊松概率密度函数True 符合条件的泊松累积分布概率 理论数 N 各p 例2 某小麦品种在田间出现自然变异植株的概率为0 0045 试计算 1 调查100株 获得2株或以上变异的概率是多少 2 期望有0 99的概率获得1株或1株以上的变异植株 至少应调查多少株 解 np 100 0 0045 0 45P 2 1 poisson 1 0 45 true 0 0755调查株数 e e np 0 01n ln0 01 p LN 0 01 0 0045 1023株 三 正态分布 正态分布是一种很重要的连续型随机变量的概率分布 生物现象中有许多变量是服从或近似服从正态分布的 如家畜的体长 体重 产奶量 产毛量 血红蛋白含量 血糖含量等 许多统计分析方法都是以正态分布为基础的 此外 还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布 因此在统计学中 正态分布无论在理论研究上还是实际应用中 均占有重要的地位 一 正态分布的定义若连续型随机变量x的概率分布密度函数为其中 为平均数 2为方差 则称随机变量x服从正态分布 normaldistribution 记为x N 2 相应的概率累积函数为 图4 2正态分布密度曲线 二 正态分布的特征 1 当x 时 f x 值最大 所以正态分布曲线是以平均数 为中心的分布 2 当x 的绝对值相等时 f x 值也相等 所以正态分布是 为中心向左右两侧对称分布3 x 的绝对值越大 f x 越小 但不会为04 正态分布曲线由 和 决定的 确定正态分布在x轴上的中心位置 确定正态分布的变异度 5 曲线在x 处各有一个拐点 即曲线在 和 区间上是下凸的 在 区间内是上凸的 6 分布密度曲线与横轴所夹的面积为1 三 标准正态分布 由上述正态分布的特征可知 正态分布是依赖于参数 和 2 正态曲线之位置及形态随 和 2的不同而不同 这就给研究具体的正态总体带来困难 需将一般的N 2 转换为 0 2 1的正态分布 我们称 0 2 1的正态分布为标准正态分布 standardnormaldistribution 记作N 0 1 令u x 正态分布概率分布密度函数可标准化为 f u 相应的概率累积函数为F ui P u ui i 对于u在区间 a b 的概率 有 a b 三 正态分布的概率计算 正态分布的概率累积函数具有广泛应用 所以统计学家已计算好实际需要的各个F u 值 列于附表1 在计算一般正态分布的概率时 只需将服从正态分布的随机变量x取值区间的上 下限 按u x 转换 并查附表1即可 附表1 左侧纵列表示a 上侧橫行表示b 如果手头没有附表1 可在Excel中输入 NORMSDIST 数据 即可查出 注意p u 是指 到u例1 设u服从正态分布N 0 1 试求P u1 P 2 02 58 解 P u1 1 P u2 58 P u 2 58 P u 2 58 1 F 2 58 F 2 58 0 00988 例2 试计算概率值 1 P 1 96 6 P x 2 58 从上述计算可知 u 2 58概率是0 01 u 1 96是0 05 也就是说 1 96 和 2 58 范围内已分别包含了95 和99 的变量 例3 随机抽取20株小麦 其株高 cm 分别为8279858486848382838384818081828182828280计算 1 小麦株高的95 正常值范围 2 株高 85cm的概率 第三节抽样分布 研究总体与从中抽取的样本之间的关系是统计学的中心内容 对这种关系的研究可从两方面着手 一是从总体到样本 这就是研究抽样分布 samplingdistribution 的问题 二是从样本到总体 这就是统计推断 statisticalinference 问题 统计推断是以总体分布和样本抽样分布的理论关系为基础的 为了能正确地利用样本去推断总体 并能正确地理解统计推断的结论 须对样本的抽样分布有所了解 一 样本平均数抽样分布 由总体随机抽样 randomsampling 的方法可分为有返置抽样和不返置抽样两种 前者指每次抽出一个个体后 这个个体应返置回原总体 后者指每次抽出的个体不返置回原总体 对于无限总体 返置与否都可保证各个体被抽到的机会相等 对于有限总体 就应该采取返置抽样 否则各个体被抽到的机会就不相等 一 样本平均数的分布 设有一个总体 总体平均数为 方差为 2 总体中各变数为x 将此总体称为原总体 现从这个总体中随机抽取含量为n的样本 样本平均数记为x 可以设想 从原总体中可抽出很多甚至无穷多个含量为n的样本 由这些样本算得的平均数有大有小 不尽相同 与原总体平均数 相比往往表现出不同程度的差异 这种差异是由随机抽样造成的 称为抽样误差 samplingerror 显然 样本平均数也是一个随机变量 其概率分布叫做样本平均数的抽样分布 由样本平均数x构成的总体称为样本平均数的抽样总体 其平均数和标准差分别记为 x和 x x是样本平均数抽样总体的标准差 简称标准误 standarderror 它表示平均数抽样误差的大小 由抽样试验及统计学证明 样本平均数有以下性质 1 样本平均数分布的平均数等于总体平均数 即 x 2 样本平均数分布的方差等于总体方差除以样本容量 样本平均数的标准误差 3 如果从正态总体N 2 进行抽样 其样本平均数x是一具有平均数 方差 2 n的正态分布 记作N 2 n 4 若被抽样总体不是正态分布 但具有平均数 方差 2 当样本容量n不断增大 样本平均数x的分布也越来越接近正态分布 且具有平均数 方差 2 n 这叫做中心极限定理 这个性质对连续型变量或非连续型变量都适用 不论总体为何分布 只要样本容量n 30 就可应用中心极限定理 认为样本平均数x的分布是正态分布 在计算样本平均数出现的概率时 样品平均数x可按下式进行标准化 二 样本平均数差数的分布 设两个相互独立的正态总体 N1和N2 分别抽样 样本平均数差数分布的基本性质有 1 样本平均数的平均数等于总体平均数的差数 即 x1 x2 1 2 2 样本平均数差数的方差等于两样本平均数方差除以各自样本容量之和 即 样本平均数差数的标准误 3 从两个独立正态总体中抽出的样本平均数差数的分布 也是正态分布 并具有平均数 1 2 方差 记作 1 2 二 t分布 前面在计算样本平均数分布和样本平均数差数分布的概率时 需要总体方差 2为已知 或者 2未知但样本容量较大 n 30 用样本方差s2估计 2 但在实际研究中 经常遇到总体方差 2未知且样本容量不大 n 30 的情况 如果仍用s2估计 2 这时标准差就不呈正态分布了 而是服从自由度df n 1的t分布了 即 式中 Sx为样本平均数的标准误 是 x的估计值 即 t分布的概率密度函数为 t分布的平均数 t 0 df 1 t分布的方差 t df df 2 df 2 t分布特征 1 t分布曲线是左右对称的 围绕平均数 t 0向两侧递降 2 t分布受自由度df n 1的制约 每个df都有一条t分布曲线 3 与正态分布相比 t分布的顶部偏低 尾部偏高 当n 30时 t分布与标准正态分布的区别很小 n 100时 t分布基本与标准正态分布相同 n 时 t分布与标准正态分布完全一致 图4 13不同自由度的t分布密度曲线 对于不同自由度下t分布的两尾概率及其对应的临界t值已编制成附表3 即t分布表 该表第一列为自由度df 表头为两尾概率值 表中数字即为临界t值 例如 当df 15时 查附表3得两尾概率等于0 05的临界t值为 2 131 其意义是 P t 2 131 P 2 131 t 0 025 P t 2 131 P 2 131 t 0 05 Excel计算t值公式为 tinv probability df 如双尾概率0 05 df为10的t值为 tinv 0 05 10 2 228单尾概率0 05 df为10的t值为 tinv 0 1 10 1 812 将概率乘以2后 再用公式 当已知t时 用 tdist t 自由度 1或2 1表示单尾概率 2表示双尾概率如t 2 571 df 5时 tdist 2 571 5 1 0 025 tdist 2 571 5 2 0 05 三 X2分布 设有一平均数为 方差为 2的正态总体 现从此总体中独立随机抽取n个随机变量 x1 x2 xn 并求出其标准正态离差 记这n个相互独
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 催乳师师资考试题及答案
- 产后大出血考试题及答案
- 体育新质生产力高级别研讨会
- 民族风之美食课件
- 乡镇粮食生产的新质生产力路径
- 《统计学-SPSS和Excel实现》(第9版)课件 第12章 非参数检验
- 河南农业新质生产力发展实践
- 新质生产力分类框架解析
- 民族民间文学课件
- 农业新质生产力深度解读
- 贵州建筑工程检测收费标准
- 研究性学习(高中研究性学习范例)吸烟对中学生的危害
- GB/T 42061-2022医疗器械质量管理体系用于法规的要求
- GB/T 31586.2-2015防护涂料体系对钢结构的防腐蚀保护涂层附着力/内聚力(破坏强度)的评定和验收准则第2部分:划格试验和划叉试验
- 枸橼酸血液透析
- 2023年热控班班长试题库
- 建筑施工特种作业人员体检表
- 中国近现代史纲要第一章
- 高考数学一轮复习 26平面向量的应用精品课件 新人教版
- 固化剂安全技术说明书(MSDS)
- 离子反应(优秀课件)
评论
0/150
提交评论