数学分布(泊松分布、二项分布、正态分布、均匀分布、指数分布)+生存分析+贝叶斯概率公式+全概率公式_第1页
数学分布(泊松分布、二项分布、正态分布、均匀分布、指数分布)+生存分析+贝叶斯概率公式+全概率公式_第2页
数学分布(泊松分布、二项分布、正态分布、均匀分布、指数分布)+生存分析+贝叶斯概率公式+全概率公式_第3页
数学分布(泊松分布、二项分布、正态分布、均匀分布、指数分布)+生存分析+贝叶斯概率公式+全概率公式_第4页
数学分布(泊松分布、二项分布、正态分布、均匀分布、指数分布)+生存分析+贝叶斯概率公式+全概率公式_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数学期望:数学期望:随机变量最基本的数学特征之一。 它反映随机变量平均取随机变量平均取 值值的大小。又称期望或均值。它是简单算术平均简单算术平均的一种推广推广。例如某 城市有 10 万个家庭,没有孩子的家庭有 1000 个,有一个孩子的家庭有 9 万个, 有两个孩子的家庭有 6000 个,有 3 个孩子的家庭有 3000 个, 则此城市中任一 个家庭中孩子的数目是一个随机变量,记为X,它可取值0,1,2,3,其中取0 的概率为 0.01,取 1 的概率为 0.9,取 2 的概率为 0.06,取 3 的概率为 0.03,它 的数学期望为 00.0110.920.0630.03 等于 1.11,

2、即此城市一个家庭 平均有小孩 1.11 个,用数学式子表示为:E(X)=1.11。 也就是说,我们用数学的方法分析了这个概率性的问题,对于每一个家庭,最有 可能它家的孩子为 1.11 个。 可以简单的理解为求一个概率性事件求一个概率性事件的平均状况。平均状况。 各种数学分布的方差是:各种数学分布的方差是: 1、 2、 一个完全符合完全符合分布的样本 这个样本样本的方差 概率密度概率密度的概念是:某种事物发生的概率占总概率占总概率(1)(1)的比例的比例,越大就 说明密度越大。 比如某地某次考试的成绩近似服从均值为80 的正态分布,即平均分是 80 分,由正态分布的图形知 x=80 时的函数值最

3、大,即随机变量在 80 附近取值最密集,也 即考试成绩在 80 分左右的人最多。 下图为概率密度函数图(F(x)应为 f(x),表示概率密度): 离散型分布:二项分布、泊松分布离散型分布:二项分布、泊松分布 连续型分布:指数分布、正态分布、连续型分布:指数分布、正态分布、X X2 2分布、分布、t t 分布、分布、F F 分布分布 抽样分布抽样分布 抽样分布只与自由度,即样本含量(抽样样本含量)有关抽样分布只与自由度,即样本含量(抽样样本含量)有关 二项分布(二项分布(binomial distributionbinomial distribution) :例子抛硬币 1、 重复试验(n 个相

4、同试验,每次试验两种结果,每种结果概率恒定 伯努利试验) 2、 3、 P(X=0), P(X=1), P(X=3), .所有可能的概率共同组成了一个分布,即二 项分布 泊松分布(泊松分布(possion distributionpossion distribution) : 1、 一个单位一个单位内(时间、面积、空间)某稀有事件稀有事件 2、 此事件发生 K 次的概率 3、P(X=0), P(X=1), P(X=3), .所有可能的概率共同组成了一个分布,即 松分布松分布 泊泊 二项分布与泊松分布的关系:二项分布与泊松分布的关系: 二项分布二项分布在事件发生概率很小概率很小, 重复重复次数 n

5、 很大很大的情况下, 其分布近近 似泊松分布似泊松分布 均匀分布均匀分布(uniform distribution)(uniform distribution): 分为连续型均匀分布和离散型均匀分布 离散型均匀分布: 1、n 种可能的结果 2、每个可能的概率相等(1/n) 连续型均匀分布: 1、可能的结果是连续的 2、每个可能的概率相等() 连续型均匀分布概率密度函数如下图: 指数分布(指数分布(exponential distributionexponential distribution) : 用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔、中文维基 百科新条目出现的时间间隔

6、等等。 指数分布常用于各种“寿命”分布“寿命”分布的近似近似。 1、连续型分布,每个点的概率: 2、无记忆性。已经使用了 s 小时的元件,它能再使用 t 小时的概率,与一个从 未使用过的元件使用 t 小时的概率相同。即它对已经使用过的 s 小时没有记忆。 指数分布的概率密度函数如下图: 正态分布(正态分布(normal distributionnormal distribution) : 又称高斯分布。 1、 2、 3、 描述一个群体的某个指标。 这个指标是连续的。 每个特定指标在整个群体中都有一个概率() 。 4、 正态分布的概率密度函数如下图: 所有指标概率共同组成了一个分布,这个分布就是

7、正态分布。 中心极限定理:中心极限定理: 不论总体不论总体的分布形式如何如何(正态或非正态) ,只要样本(抽样样本抽样样本)含量含量 n 足够 大大时,样本均数样本均数的分布就近似正态分布正态分布,且均数与总体均数相等,标准差为(总 体标准差)/(n 的开方) 。 中心极限定理使得 t 分布、 F 分布和 X2分布在抽样样本含量很大时不需要对总体 样本是否正态有要求。 t t 分布(分布(student t distributionstudent t distribution): : 1、t 分布是以 0 为中心的一簇曲线一簇曲线,每个自由度决定一个曲线 2、自由度自由度是一个抽样小样本中的具

8、体观测值观测值的个数(抽样样本含量)- -1 1 3、总体总体样本呈正态正态分布(抽样样本含量较小时,要求总体样本呈正态分布,如果抽样样 本含量很大(eg. n = 100) ,由中心极限定理可知抽样样本均数也近似正态分布,因而 “差值”的概率也呈正态分布,而t 分布的每一条曲线实际上都是正态分布曲线) 4、从一个总体样本中抽取抽取很多个小样本小样本抽样 5、每个小样本都有一个均值均值 6、每个小样本的均值小样本的均值与总体样本均值总体样本均值有一个差值差值,这个差值用 t t 估计 7、可能有多个小样本的差值估计都是 t,t 出现的次数出现的次数占所有小样本的比例比例可以 用一个概率概率衡量

9、 8、所有 t t 值的概率值的概率组成一个分布分布,就是 t 分布的一个曲线一个曲线 9、另外做一个抽样,每个小样本包含的观测值不同,则形成 t 分布的另外一个另外一个 曲线曲线 10、自由度越大,则曲线越接近于标准正态分布标准正态分布 11、t 分布只与自由度自由度相关 t 分布的概率密度函数如下图(v 为自由度) : X X2 2分布(分布(chi square distributionchi square distribution) : 1、X2分布也是一簇曲线一簇曲线,每个自由度决定一个曲线 2、自由度自由度是一个抽样小样本中的具体观测值观测值的个数(抽样样本含量)- -1 1 2、

10、总体总体样本呈正态正态分布(抽样样本含量(n)较小时,要求总体样本呈正态分布) 3、从总体样本中抽取抽取 n 个观测值观测值:z1,z2,z3抽样 4、将它们平方平方后求和求和,这个和用一个新变量表示新变量表示,即 X X2 2 5、重复抽样重复抽样并获得多个 X2:X12,X22,X32,X42 6、可能有多次抽样的 X2值相同,同同一个 X X2 2值的抽样次数抽样次数占总次数的比例比例可以 用一个概率概率表示 7、所有的概率概率值共同组成一个分布分布,就是 X X2 2分布分布的一条曲线一条曲线 8、另外做一次,只要从总体中选取观测值数目 n 不同,得到的就是另外一条曲另外一条曲 线线

11、10、自由度越大,则曲线越接近于标准正态分布标准正态分布 11、X2分布只与自由度自由度相关 X2分布的概率密度函数如下图(n 在这里为自由度) : F F 分布(分布(F-distributionF-distribution) : 1、F 分布也是一簇曲线一簇曲线,每对自由度每对自由度决定一个曲线 2、自由度自由度是一个抽样小样本中的具体观测值观测值的个数(抽样样本含量)- -1 1 2、两总体样本方差比的分布 3、总体总体样本呈正态正态分布(抽样样本含量(n)较小时,要求总体样本呈正态分布) 4、从总体样本中抽取两个样本抽取两个样本, 两个样中的观测值数目可相同也可不同,分别 记为 n1和

12、 n2 5、分别计算计算出 X2:X1,X2 6、构建一个新变量新变量 F F: 7、重复重复抽取样本,计算多个多个 F F 值值:F1,F2,F3. 8、可能有多次抽样的 F 值相同,同同一个 F F 值的抽样次数抽样次数占总次数的比例比例可以用 一个概率概率表示 9、所有的概率概率值共同组成一个分布分布,就是 F F 分布分布的一条曲线一条曲线 10、另外做一次,只要从总体中选取观测值数目 n 不同,得到的就是另外一条曲另外一条曲 线线 10、两个自由度越大,则曲线越接近于标准正态分布标准正态分布 11、F 分布只与自由度自由度相关 F 分布的概率密度函数如下图(m,n 在这里为自由度)

13、: 【在推估总体平均值时,基于样本平均数的抽样分布】 t 分布 【在用样本方差来推估总体方差时,必须知道样本方差的抽样分布】 X2分布 【比较两个总体的方差是否相等时,必须知道样本方差的联合抽样分布】 F 分布 生存分析(生存分析(survival analysissurvival analysis) : 1、多种影响慢性疾病的因素(不同手术方法、不同药物) 2、随访一群患者 3、一段时间后统计生存和死亡 3、最终给出的结果是一个评价评价各种因素因素对生存时间的影响影响(生存时间、生存率 有无差异) 贝叶斯公式(贝叶斯公式(bayes formulabayes formula) : 1、描述两个条件概率条件概率之间的关系关系P(Bi|A)与 P(A|Bi),A 为事件,Bi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论