




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 概率和理论分布,本章主要复习现象、事件、概率、频率等概念 介绍小概率原理 二项分布、泊松分布、正态分布等各类理论 分布的概念和性质 标准正态分布的概念和性质 抽样和抽样分布 标准误的概念和作用 与下面统计假设检验有密切关系的t-分布、 x2-分布和F分布,数理统计与经典数学最大的不同之处在于: 经典数学只要计算结果,计算结果就是其目的 数理统计也要计算,但得到计算结果不是目的,数理统计的目的是用计算结果来进行估计、推断 在数理统计中这种估计有两样东西是必备的: 样本 概率 即我们必须计算样本的统计量,在一定的概率保证下,用所得统计量来估计相应总体的参数,即用样本来推断总体:用一个试验的结果来得出更广义的、一般意义上的结论,例如:收获季节到了,我们从一个果园中随机采摘100 个苹果,我们很容易就可以知道这 100 个苹果每个苹果的平均重量,这是小学算术 但作为一个果农来说,他不仅仅希望知道这 100 个苹果的平均重量,他更希望通过这 100 个苹果的平均重量和大小差异(变异)知道整个果园的产量,知道这些苹果的均匀程度对他的销售的影响,甚至通过这些差异追溯以往的果园管理情况,这里,100 个苹果就是样本,整个果园就是总体;100 个苹果的平均重量就是样本平均数,大小差异就是标准差,计算这 100 个苹果的平均值和标准差就是统计;从 100 个苹果知道整个果园的情况(估产),就是推断;整个过程就是统计推断 推断过程中,必须有概率保证,即有多大的把握,同样,在畜牧上、兽医上、水产上,都有类似的问题:我们作了一个试验,总希望通过这一试验得到一个一般性的结论 期间,有以下工作要作: 抽样 试验 记录 数据整理 统计 推断 结论 其中,推断是需要有概率保证的 因为我们希望知道,这种推断是否可靠、可信度有多大、会不会犯错误、犯错的可能性又有多大,因此,可以说,统计学的基础就是概率,没有概率和概率保证,统计和统计推断就成了无根之木,无源之水 事实上,概率在一般生活中也无处不在,第一节 概率论初步,一、随机现象和随机事件 (一)现象 必然现象(inevitable phenomenon) 不可能现象(impossible phenomenon) 随机现象(random phenomenon),(二)随机试验(random experiment) 对随机现象进行观测,就是试验,满足以下三个条件的试验即为随机试验(随机试验简称试验): 1、允许在相同条件下重复 2、每次试验其结果不一定相同 3、试验前并不知道试验会产生什么样的结果,(三)随机事件(random event) 试验所产生的中间或终了结果就称为事件 随机试验的结果就是随机事件(简称事件) 用大写的拉丁字母 A、B、C 等来表示事件 必然事件用 U 表示;不可能事件用 V 表示,二、事件间的关系 和事件、积事件 互斥事件、对立事件 完全事件系、事件的独立性,三、随机事件的概率(probability) 随机事件的出现,带有很大的偶然性;但这种偶然性也有一定的规律:有些随机事件出现的可能性大一些,有些则小一些 因此需要用一个数值来表示这种可能性,这一数值就是概率 即随机事件的概率就是对随机事件可能性大小的度量 对某一试验进行 n 次重复,试验中事件 A 出现 a 次,事件 A 出现的频率(frequency)为:,当 n无限增大,f 将趋向于一个定值 p,p 即为随机事件的概率: 事实上,由于 n总是无限大的,因此 p 一般不可能得到,因此在实际工作中,总是将 n 充分大时的 f 值近似地作为 p 值,即 n 足够大时的频率就是近似的概率,或用频率值来估计概率 概率也可以是一个理论值,抛一个均质硬币,其落地时,正面朝上和反面朝上具有同等的机会,即 同样的例子还有:,显然, 即 , 必然事件的概率为 1,不可能事件的概率为 0 概率与频率的区别和联系: 1、频率的稳定就是概率 2、随机事件发生的频率是一个变量,而概率是一个常量,一个定值,或一个理论值 3、频率是概率的随机表现 4、每一次试验可以得到一个频率,但希望通过一次试验就得到概率是不可能的,5、如果已经知道随机事件A发生的概率,就可以预测事件A在将要进行的试验中出现的可能性 6、可以通过一个大样本的频率,或多个样本的频率来估计或预测概率,小概率原理: 表示随机事件 A是不可能事件;若 很小,如 或 等等,表示随机事件 A 在某一次试验中出现的概率很小,即不可能出现的概率很大,以至于可以这样认为,在一次试验中事件 A实际上是不可能事件,即 ,这就是概率论中的小概率事件实际不可能性原理,简称为小概率原理 小概率原理是统计学中进行假设检验的基本原理,在以后的学习中经常会碰到,也经常应用,四、随机变量 作一次试验,试验的可能结果可以是多样的: *有些试验结果是几个确定的结果,这些确定的结果可以一一列出 #有些试验结果是一个范围 如用 x表示变量,那么 x的取值的表示: 或者可用一实数来表示(*者:x=0 x=1 etc.) 或者可用一个范围来表示(#者:1.5x2.1 etc.),1、当随机变量 x 的取值是一个确定的实数,且每一实数发生的概率也是确定的,这种类型的变量就称为 离散型随机变量(discrete random variable) 如:设生男孩为 ,生女孩为 ,则 其含义是:生男孩的概率为 0.52,生女孩的概率为0.48 又如: 为猪丹毒治愈, 为未治愈,则,设一个布袋里装有1个白球、2个红球、3个黑球、4个黄球,充分混匀, 为取得白球, 为取得红球, 为取得黑球, 为取得黄球,则 将随机变量 x 所有可能取值及其对应的概率一一列出,可形成离散型随机变量的概率分布列: 变量 x: x1 x2 x3 xn 概率 p1 p2 p3 pn,上例中: 从布袋中取得各色球x: 0 1 2 3 概 率 0.1 0.2 0.3 0.4,2、当变量 x的取值是一个范围,且x在这一范围内的概率是确定的,这种类型的变量就称为连续型随机变量(continuous random variable) 对于连续型随机变量,研究其取某一定值的概率是没有意义的 对于随机变量 x,若存在非负可积函数f(x), (-x+) 对于任意a、b(ab),都有 则称 x为连续型随机变量,f(x)为 x的概率密度函数,或称分布密度,因此,它的分布由密度函数所确定,若已知密度函数,则通过定积分可求得连续型随机变量在某一区间内的概率 人体身高、动物的体重、人类及动物体内许多酶的活力、生理生化指标等都可以认为是连续型随机变量 设 x为人体身高,若在一个人群中: x145cm的概率为0.05 145x155cm的概率为0.10 155x165cm的概率为0.30 165x175cm的概率为0.35 175x185cm的概率为0.15 x185cm的概率为0.05,则:,一个随机变量完整地描述了一个随机试验,它不仅告诉了我们随机试验的所有可能结果,而且告诉了我们每一种结果出现的可能性及其大小;这样,对随机试验概率分布的研究,就转化成了对随机变量的概率分布的研究了,第二节 理论分布(概率分布),一、二项分布(binomial distribution) 二项分布是离散型随机变量最常见的、典型的一种分布 有些试验只有非此即彼(alternative)的两种结果,即某一性状,其个体只可能有两种结果;这种非此即彼的现象又称为二者必居其一性状 在这里,此和彼构成了一个完全事件系,如 禽蛋和鱼卵的孵化与否;雄性和雌性;化验结果的阳性(+)和阴性(-);疾病的治愈与否;动物体的存活与死亡;等等,由这种具有非此即彼性状的事件所构成的总体就称为二项总体 如果给此 事件以变量1,其概率设为 p,彼 事件以变量0,其概率设为 q,显然我们有: , 且 p+q1 每次在一个二项总体中独立抽取 n 个个体,观察一次抽取的结果,就称为一次贝努里试验 若 i 为此事件出现的次数,则变量 x 有 0、1、2、n,共有 n+1 种可能的结果,显然,对于变量 x 每一种可能的结果都有一个概率值,由这种在二项总体中事件A出现的次数及其概率所形成的分布,就称为二项概率分布,简称为二项分布 二项分布是离散型资料一种最重要的理论分布,设在一个很大的口袋中放入二种颜色的球:红球和白球;红球和白球的比例为1:2,并充分混匀 即任何一个球被随机摸到的机会是相等的,因此,摸到一个红球的概率是1/3,而摸到白球的概率就是2/3 记A为摸到一个红球,显然,其概率为 记 为摸到一个白球,显然,其概率为 现随机地从这个口袋中摸出3个球,如果不考虑先后次序则一共有4种情况:三红、二红一白、一红二白、三白(如考虑先后次序则有8种情况),因此 三红无白的概率是 二红一白的概率是 一红二白的概率是 无红三白的概率是 这四种情况相加之和为1,抽取三个球共有四种组合,这四个组合各个组合出现的概率值恰好是二项式 的展开: 各式前面的系数为1:3:3:1,即 用随机变量 x 的不同取值来表示上述试验,记 x=0为三红、x=1为二红一白、x=2为一红二白、x=3为三白,则,由于这一随机变量每一取值及其相应概率可一一列出,因此这是一个离散型随机变量,写出其分布列: 变量 : 0 1 2 3 概率值: P3(0) P3(1) P3(2) P3(3) 本例的分布列为: 变量 : 0 1 2 3 概率值: 其中,任何一项的概率值其公式为:,红球、白球试验的概率值图: 三红 二红一白 一红二白 三白,这样的一个分布列称为离散型随机变量的概率分布列 由于这一分布列的各概率值正是二项式 展开后的各项,因此变量 x 的分布又称为二项分布,下面将二项分布作一完整的描述: 独立地进行 n 次试验,每次试验只可能有 A 与 两种结果,发生 A 的概率为 p,发生 的概率为 q1-p n 次试验可有 n+1 种可能的结果,这样的试验称为Bernoulli 试验,在这 n次 试验中,事件 A 共发生 m 次的概率分布列为: 0 1 2 m n Pn(0) Pn(1) Pn(2) Pn(m) Pn(n),其中: m=0,1,2,n 是杨辉三角形中第 m 行相应列中的系数,二项分布有两个参数:n 和 p n 为正整数,表示属于贝努里概型的试验次数 p 为正实数 如果一个随机变量 x 服从试验次数为 n, 的二项分布,即记为 ,读作具有试验次数 n、概率为 p 的二项分布 二项分布的平均数为 方差为 标准差为,而服从二项分布的随机变量 x 的平均数为 方差为 ,标准差为 只有 2 种可能结果的属性资料,如存活、治愈、性别、阴阳性等(以百分率表示)均服从二项分布 二项分布当 n 较大、且 np5 及 nq5 时接近正态分布,当 n 时,服从正态分布 即正态分布是二项分布的极限,例1:用某一常规药物治疗猪瘟病,其正常治愈率为 0.7,对 20头罹患猪瘟的种猪用该种药物进行常规性治疗,问其中 16 头病猪被治愈的概率是多少? 此例中,p = 0.7,n = 20,m = 16 该例中, 200.7 14, 2 200.70.3 4.2 2.05 例2:某药物对体外寄生虫的正常杀灭率为 0.9,人工培养该种寄生虫 50 头,用该药物进行常规性杀灭试验,问希望一次杀灭 48 头的概率? 此例中,p = 0.9,n = 50,m = 48 该例中, 500.9 45, 2 500.90.1 4.5 2.12,二、泊松分布(poisson distribution) 当二项分布中的 n 、而 p 0时,二项分布将成为另一种新的分布:泊松分布(普哇松分布) 即试验(或称观察)次数很大、而某事件出现的概率很小,则离散型随机变量 x 服从于泊松分布 若随机变量 x 的分布列为: 0 1 2 m p0 p1 p2 pm ,其中: (0,且np,m=0,1,2, ) 而 泊松分布只有一个参数:,np 既是泊松分布的平均值,又是其方差 标准差为 即,当随机变量 x服从于参数为 的泊松分布时 记为 泊松分布的图形决定于,1时,P(x=0)为最大, 12时,P(x=1)为最大, 23时,P(x=2)为最大,以此类推 泊松分布主要描述小概率事件发生的概率分布 如:致死率不高的某些疾病引起的死亡情况,遗传性疾病,散发性疾病,镜检时视野内病原菌或微生物的分布,稀有疾病的分布,生物体非传染性疾病的分布,泊松分布的实例描述步骤: 一般首先对观察结果进行分类,并统计每一类的频数;其次是利用加权法计算整个样本的加权平均数 ,并将加权平均数 暂时看作值;再次将值代入 中;最后求出各 x 的理论概率值,当无限增大时, 泊松分布将逼近正态分布;事实上,当 时,泊松分布已与正态分布很接近 当 时,泊松分布与正态分布已无多大区别 因此正态分布也是泊松分布的极限,实例:在某地作破伤风杆菌调查,取样并进行培养后记录了 90 个显微镜视野内的细菌数,见下表 90 个显微镜视野下破伤风杆菌的频数分布 细菌数x 观测频数n nx P(x) 理论频数 0 6 0 0.0657 5.913 1 15 15 0.1789 16.101 2 23 46 0.2435 21.915 3 19 57 0.2210 19.890 4 14 56 0.1504 13.536 5 8 40 0.0819 7.371 6 4 24 0.0371 3.339 7 1 7 0.0144 1.296 7 0 0 0.0071 0.639 90 245 1.00 90.00,首先计算每一视野内的破伤风杆菌平均值,并将其暂作为值: 将值代入 中各式,得各个 P(x),见上表的第四列,将各个 P(x)与总频数相乘,即得理论频数,即上表的最后一列 如 依此类推 每个视野中破伤风杆菌数大于7个的也应计算理论频数,即上表中的最后一行 镜检视野内破伤风杆菌的分布图见下一页,频 数 破伤风杆菌数 0 1 2 3 4 5 6 7,三、正态分布(normal distribution) 连续型随机变量是日常工作中最多见的一种变量,这一类变量为可加、或呈线性时,一般服从正态分布 将这一类资料整理成直方图或折线图时,其图形总呈中间多、两边少的钟型(bell-shape)分布特征 假设将样本容量n无限扩大,分组更细,即n 组距 0,则每一组的频数将趋向于一个定值,即一概率值,此时,呈现在我们面前的将是一条中间高、向两边均匀对称下降的光滑曲线;这一类资料的概率分布就称为正态分布,和正态分布相对应的曲线称为正态分布密度曲线 用来描述这条曲线的函数称为正态分布密度函数 正态分布是数理统计中最重要的一种理论分布 呈正态分布的随机变量 x其密度函数 f(x)为: 上式中,为随机变量 x 的平均值, 2 为方差, 为标准差,任何一个正态分布均由参数 和 2 所决定,一个随机变量 x 服从平均值为、方差2为的正态分布时,记为 正态分布的特点是: 1、正态分布曲线以直线 x为对称,且在该处达到顶峰,x时 为最大值 2、曲线有两个拐点: 在这两个拐点处,曲线改变方向 3、正态分布曲线在 x 轴上的的位置由决定,而曲线高矮、胖瘦的形状由决定 4、正态分布密度曲线向-、 +无限延伸,正态分布密度曲线与 x 轴所包围的面积恒为1,即服从正态分布的随机变量 x 在( -, +)间内取值的概率为1 而随机变量 x 在区间(a,b)内取值的概率也可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小儿红细胞葡萄糖-6-磷酸脱氢酶缺乏症的临床护理
- 眼眶爆裂性骨折的临床护理
- 【房地产】山水芙蓉国际新城-主题宣传推广创意案
- 诱导透析治疗
- 护理美学美育
- 肝胆护理年终总结
- 新质生产力会议
- 原发性十二指肠恶性淋巴瘤的临床护理
- 感染科院感管理规范实施要点
- 2025届河北省保定市莲池区十三中学七下数学期末质量检测模拟试题含解析
- GIS安装标准化作业指导书
- 带电作业施工方案
- 宏定义与跨平台开发
- 腰椎病护理措施
- 社保费扣费协议书范文范本下载
- 2024年全国寄生虫病防治技能竞赛备赛试题库-上(血吸虫病、疟疾)
- 手术室环境清洁与消毒课件
- DB23T 3844-2024 煤矿地区地震(矿震)监测台网技术要求
- 工商企业管理毕业论文范文(4篇)
- 卷纸有多长(教学设计)-2023-2024学年六年级下册数学北师大版
- 浙江省宁波市2024年小升初英语试卷(含答案)2
评论
0/150
提交评论