概率数理统计Less2.ppt_第1页
概率数理统计Less2.ppt_第2页
概率数理统计Less2.ppt_第3页
概率数理统计Less2.ppt_第4页
概率数理统计Less2.ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率统计与随机过程,宋 晖 2012年秋,第一章 概率统计基础,1.1 基本原理 1.2 高斯分布 1.3 统计基础,高斯分布 (Gaussian),Normal 正态分布,:均值(mean) 2 :方差(variance), :标准方差 = 1/2 :精确度(Precision),Gaussian分布期望与方差,期望,方差,Gaussian分布的再生性,若独立随机变量 为分别服从均值为 ,方差为 的正态分布,则,随机变量的线性组合仍然服从相同的分布,第一章 概率统计基础,1.1 基本原理 1.2 高斯分布 1.3 统计基础 数据显示与图形法 常用统计量 常用统计分布,总体和统计推断,全体被研究对象称为总体,每个研究对象称为个体 可以是有限的,如学校学生身高、视力 有限总体很大时,可以认为是无限的,如全国干电池寿命 可以是无限的,如每天的测量气压 统计推断 当无法获取总体全部个体的观测值时,只能依赖从总体中获得的某个观测子集来对总体做出推断。,抽样,样本是总体的一个子集 保证从样本到总体推断的正确性,选择随机抽样,表示得到的观测值是独立且随机 随机变量X总体上服从概率分布p(x), 那么随机抽样的n个样本值x1,x2,xn独立且具有相同概率p(x), 其联合概率:,统计推断步骤,随机抽样,数据分析(图形法),分布假设,参数估计,假设检验,假设修正,预测,总体模型,数据显示和图形法,利用有启发性的图形来提取关于数据特性的信息,对数据分布进行假设 茎叶图(Stem and leaf ) 直方图(histogram) 箱须图(Box-Whisker) 经验分布函数图( empirical cumulative distribution ) 正态概率分布图(Normal Probability),茎叶图,将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。 通常 选取520根茎,频率直方图,将样本取值分为r个区间,n个样本,落在某个区间(ak-1,ak的个数 nk称为频数 nk /n称为频率,目标:利用频率直方图估计总体的概率密度,在(ak-1,ak区间用频率为纵坐标,制作相应的频率直方图,相对频率直方图,每个频数除以数据总量,得到相对频率,相对频率折线图,根据每个分区的相对频率,画出折线图 估计频率分布,茎叶图与直方图,茎叶图特优点 没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到 图中的数据可以随时记录,随时添加,方便记录与表示。 只便于表示两位有效数字的数据,且只方便记录两组的数据 茎叶图与直方图类似 茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息 将茎和叶逆时针方向旋转90,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。 可以看出分布是否与正态分布或单峰偏态分布逼近。,Box-Whisker图(箱须图),中位数: 将x1,x2, Xn按升序排列, 四分位数:25%(上Q1 ),75%(下Q3) 四分位数差(IQR) 上四分位数与下分位数之间的差值,BOX图(2),上边缘 大于Q1+1.5IQR的点 或最大值 下边缘 小于Q3-1.5IQR的点 或最小值 上下边缘以外的点为异常点(Outliers) 例:班级学生成绩统计,班级成绩分析,Box图(3),反映数据的中心位置、波动和非对称程度 中位数:中心 四分位数差(IQR):波动程度 上下边缘:异常点 作用 观察异常点 比较几批数据形状,经验分布函数,F(x) 为总体的分布函数,称,为经验分布函数或样本分布函数,目标:利用经验分布估计总体的分布,经验累积分布图(empirical cumulative distribution),总体的分布函数称为理论也分布函数 经验分布函数利用样本估计和推断总体的分布函数F(x).,正态概率分布图,蓝色+表示样本数据 叠加红线是连接上四分位数和下四分位数的直线,如果数据服从正态分布,样本数据画出的图成线性,重要统计量,统计量:由随机变量组成的一随机样本的函数,不含任何未知参数 样本均值,描述样本中心趋势 样本方差,描述样本的波动性 样本标准差S,样本方差的平方根,抽样分布,统计推断从样本中推断总体 主要目标:归纳和预测 统计量的概率分布称为抽样分布 总体大小 样本容量 选择样本的方法 例:依据 的抽样分布对参数 做出推断,均值的抽样分布,样本容量为n的 的抽样分布 实验不断重复(样本容量为n),产生多次的值时的一个分布 描述样本在总体均值附近的平均变化,n个随机样本来自N(,2)总体,均值, N(,2/n),定义:设Xk为相互独立的随机变量序列,有有限的数学期望 E(Xk)=k 和方差 D(Xk)=k2,令,若对于一切实数x,有,则称随机变量序列Xk服从中心极限定理( Central Limit Theorem ),标准正态分布,定理(林德贝尔格-勒维,Lindeberg-Levy) 设Xk为相互独立的随机变量序列,服从同一分布,且具有数学期望 E(Xk)= 和方差 D(Xk)=2 ,则随机变量,的分布函数Fn(x),对于任意x,满足,如果从一个未知分布的总体抽样,不管它是有限还是无限的,假设样本容量足够大时,样本均值的抽样分布会近似于 N(,2/n) 的正态分布。,中心极限定理应用,n30, 的正态分布逼近较好 n30,总体近似正态分布时,逼近效果较好 如果总体 正态分布,无论n大小, 的抽样分布精确服从正态分布,若一个随机变量 X 可以看做许多微小而独立的随机因素作用的总和,每一种因素的影响很小,不产生决定作用,则 X 一般可以认为近似地服从正态分布,例:测量误差X 影响因素:温度X1、湿度X2 、观察视线X3 、心情X4等 微小的、随机的,而且相互没有影响 测量的总误差是上述各个因素产生的误差之和:Xi,某样本的线性拟合模型可以描述为:,例: 将一颗骰子连掷100次,则点数之和不少于500的概率是多少?,解: 设Xk为第k 次掷出的点数,k=1,2,100,则 X1,X100独立同分布.,由中心极限定理:,定理 (De Moivre-Laplace中心极限定理) 设随机变量Yn服从二项分布Yn B(n,p), (op1),则对于任意x,恒有,证明 设X1,X2,Xn是n个相互独立的服从(0-1)分布(PXi=0=1-p, PXi=1=p)的随机变量,则,Yn= X1+X2+Xn,由于E(Xi)=p, D(Xi)=p(1-p) (i=1,2,n),由此得,例:在一家保险公司里有10000个人参加寿命保险,每人每年付12元保险费。在一年内一个人死亡的概率为0.6%,死亡时其家属可向保险公司领得1000元,问:,(1)保险公司亏本的概率有多大? (2)其他条件不变,为使保险公司一年的利润不少于60000元的概率大于0.9,则赔偿金至多可设为多少?,解:设X表示一年内死亡的人数,则X B(n, p) 其中 n= 10000,p=0.6%,设Y表示保险公司一年的利润,,Y = 1000012-1000X,(1) PY0=P1000012-1000X0 =1PX120,由中心极限定理:,1PX120 1 (7.75) =0,PY60000 = P1000012-aX60000 =PX60000/a0.9;,(2)设赔偿金为a元,则令,由中心极限定理,上式等价于,作业,1. 推导Gaussian分布的方差 2. 食品店有三种蛋糕出售,价格为1元、1.2元、1.5 元,售出概率分别为0.3、0.2、0.5某天该食品店出售了300 只蛋糕试用中心极限定理计算,这天的收入至少为395元的概率。 3. 学习使用Matlab,熟悉样本的图形显示以及正态分布的绘制函数 机房版本:Matlab7 请自行收集样本集(注意样本数据尽可能充分) 撰写报告,论述样本数据的来源背景、绘制图形试推断数据的总体分布,并分析所反映的意义,Gau

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论