《数理统计方法》PPT课件_第1页
《数理统计方法》PPT课件_第2页
《数理统计方法》PPT课件_第3页
《数理统计方法》PPT课件_第4页
《数理统计方法》PPT课件_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对随机现象进行观测、试验,以取得有代表性的观测值,对已取得的观测值进行整理、分析,作出推断、决策,从而找出所研究的对象的规律性,第八章数理统计方法,参数估计,假设检验,回归分析,方差分析,推断统计学,总体和样本总体与个体总体或母体指我们研究对象的全体构成的集合,个体指总体中包含的每个成员,我们研究总体时,所关心的往往是总体某方面的特性,这些特性又常常可以用一个或多个数量指标来反映例如,在研究某厂生产的灯泡的质量时,关心的可能是这些灯泡的寿命和光亮度等总体指一个或多个数量指标,我们可以用一个或多个随机变量来表示它们,把总体与某个随机变量的可能取值的集合等同,把总体分布与某个随机变量的分布等同,把对总体的研究转化为对某个随机变量规律的研究。,数理统计中提到的总体,是指分布未知或者分布类型已知但至少某些参数未知的随机变量,常用X,Y,Z等表示。,因此,总体可以是一维随机变量,也可以是多维随机变量例如,在研究某厂生产的灯泡的质量时,可以分别用X,Y表示灯泡的寿命和光亮度,那么,对上面两个问题的研究就转化为对总体(X,Y)的研究了,2样本与抽样实际应用中,为了研究总体的特性,总是从总体中抽出部分个体进行观察和试验,根据观察或试验得到的数据推断总体的性质我们把从总体中抽出的部分个体称为样本,把样本中包含个体的数量称为样本容量,把对样本的观察或试验的过程称为抽样,把观察或试验得到的数据称为样本观测值(观测数据),简称样本值,在应用中,我们从总体中抽出的个体必须具有代表性,样本中个体之间要具有相互独立性,为保证这两点,一般采用简单随机抽样定义一种抽样方法若满足下面两点,称其为简单随机抽样:(1)总体中每个个体被抽到的机会是均等的;(2)样本中的个体相互独立由简单随机抽样得到的样本称为简单随机样本如果没有特殊说明,以后所说样本均指简单随机样本,总体X,样本X1,X2,Xn,样本值x1,x2,xn,随机抽样获得样本,完成试验获得数据,整理加工统计推断,统计工作,3统计量与抽样分布在利用样本推断总体的性质时,往往不能直接利用样本,而需要对它进行一定的加工,这样才能有效地利用其中的信息,否则,样本只是呈现为一堆“杂乱无章”的数据,一、基本概念,1.统计量的定义,1.表示位置的统计量设X1,X2,Xn为总体X的样本,x1,x2,.,xn为样本观测值,(1)样本均值常用来作为总体期望(均值)的估计量,其观测值为,(2)中位数,把一组数据按大小顺序排序后处于中间位置的数。,(3)分位数设X为一随机变量,我们知道对于给定的实数x,PXx是事件Xx的概率在统计中,我们常常需要对给定事件Xx的概率,由此确定的x取是一个临界点,称为分位数(点),有如下定义:定义设X为随机变量,若对给定的(0,1),存在x满足PXx=,则称x为X的上分位数(点),1方差、标准差与变异系数、极差,样本方差、标准差与变异系数为总体方差、标准差、变异系数的相合估计,方差,均方差,变异系数,时,有,2表示分散性的数字特征,标准差(方差)越大,表示观察值分布越分散;反之分布越集中.,刻划数据相对分散指标,极差,(1)样本k阶原点矩(简称样本k阶矩),(k=1,2,)(2)样本k阶中心矩,(k=2,3,)显然,3表示分布形态的数字特征,(3)偏度(skewness),注意,奇数阶中心距,其中s样本标准差.分布对称;称正偏度(右偏态)均值右边数据更分散;负偏度,均值左边的数据更分散.,4峰度,1.正峰值表示数据中含有较多远离均值的极端数值,相对尖锐的分布,尾部粗2.负峰表示两侧的极端数值比较少,数据大部分在均值周围,相对平坦,尾部细,尖峰粗尾,平峰细尾,反映与正态分布相比某一分布的尖锐或平坦度.,设已知总体X的可能分布函数族为:,理论根据:样本矩(的连续函数)依概率收敛于总体矩(的连续函数).,其中为待估参数.,矩估计法:用样本矩(函数)来估计总体矩(函数).,8.2参数估计法-矩估计法,设总体X的前k阶矩,均存在,而样本矩,其中,矩估计法就是:令总体的前k阶矩分别与样本的对应阶矩相等,即,矩估计法,可作为待估参数的估计量(称为矩估计量),其观察值为待估参数的估计值(称为矩估计值).,这是含k个待估参数的联立方程组,其解,1.矩估计法,解,解方程组得到矩估计量分别为,例,1.矩估计法,上例表明:,总体均值与方差的矩估计量的表达式不因不同的总体分布而异.,一般地,1.矩估计法,一般说,事件A发生的概率与参数有关,取值不同,则P(A)也不同。因而应记事件A发生的概率为P(A|).若A发生了,则认为此时的值应是在中使P(A|)达到最大的那一个。这就是极大似然的思想.,2.最大似然估计,求最大似然估计量的步骤:,最大似然估计法是由费舍尔引进的.,2.最大似然估计,最大似然估计法也适用于分布中含有多个未知参数的情况.此时只需令,对数似然方程组,对数似然方程,2.最大似然估计,解,X的似然函数为,例,2.最大似然估计,2.最大似然估计,它们与相应的矩估计量相同.,2.最大似然估计,对于同一个参数,用不同方法求出的估计量可能不同.那么,采用哪一个估计量为好呢?用何种标准来评判估计量的优劣?,下面,介绍几个常用标准.,1、无偏性,定义设估计量存在期望,且对任意有,3、估计量的评选标准,则称为的无偏估计量.,称为用来估计的系统误差.因此,无偏估计就是说无系统误差.,2设都是参数的无偏估计,若则称比有效例如,设总体X的方差存在,X1,X2,Xn(n2)为总体X的一个样本,易知,均为的无偏估计,又有所以,当n2时,最有效,较X1有效,3.相合性总体参数的估计量是样本的函数,随着样本容量的增加,其值应该越来越接近真值,于是有:定义7.4设是参数的一个估计量,若依概率收敛于,即对任意的0,有则称是参数的相合估计量,或者一致估计量,4.区间估计,前面,我们讨论了参数点估计.它是用样本算得的一个值去估计未知参数.但是,点估计值仅仅是未知参数的一个近似值。,它没有反映出这个近似值的误差范围,还有可信度.区间估计正好弥补了点估计的这个缺陷.,点估计缺点,定义设X1,X2,Xn为总体X的一个样本,为总体X的未知参数,对给定的(0,1),如果有两个统计量和满足则称区间是的一个区间估计或置信区间,分别称作置信下限、置信上限,1称为置信水平或置信度.,区间估计,【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中抽取16只,测得其寿命(单位:小时)如下所示:1510145014801460152014801490146014801510153014701500152015101470求该灯泡平均使用寿命90%、95%及99%的置信区间.解:用X表示灯泡的寿命,设XN(,2),由于2未知,用计算的置信区间其中n=16,正态总体均值的区间估计,Matlab命令X=151014501480146015201480149014601510153014701500152015101470;,正态总体均值的区间估计,muhat,sigmahat,muci,sigmci=nomfit(x,0.05),Muhat返回正态总体均值的点估计,sigmahat返回正态总体标准差的点估计,muci返回其均值的区间估计,sigmci返回其标准差的区间估计,x表示数据,1-0.05是置信度,0.05是显著性水平,假设检验的思想方法是:(1)提出假设;(2)在假设成立的条件下构造一个小概率事件;(3)由样本数据判断小概率事件是否发生了,如果小概率事件发生了,根据“小概率原理”,作出否定原假设的推断,假设检验的思想方法,一、单因素试验,方差分析法,方差分析根据试验的结果进行分析,鉴别各个有关因素对试验结果的影响程度.,试验指标试验中要考察的指标.,因素影响试验指标的条件.,因素,可控因素,不可控因素,水平因素所处的状态.,单因素试验在一项试验中只有一个因素改变.,多因素试验在一项试验中有多个因素在改变.,例1设有三台机器,用来生产规格相同的铝合金薄板.取样,测量薄板的厚度精确至千分之一厘米.得结果如下表所示.,试验指标:薄板的厚度,因素:机器,水平:不同的三台机器是因素的三个不同的水平,假定除机器这一因素外,其他条件相同,属于单因素试验.,试验目的:考察各台机器所生产的薄板的厚度有无显著的差异.即考察机器这一因素对厚度有无显著的影响.,在每一个水平下进行独立试验,结果是一个随机变量.,例1,问题分析,将数据看成是来自三个总体的样本值.,检验假设,检验假设,进一步假设各总体均为正态变量,且各总体的方差相等,但参数均未知.,问题检验同方差的多个正态总体均值是否相等.,解决方法方差分析法,一种统计方法.,数学模型,假设,单因素试验方差分析的数学模型,需要解决的问题,1.检验假设,数学模型的等价形式,检验假设,数据的总平均,总偏差平方和(总变差),二、平方和的分解,误差平方和,效应平方和,检验假设,拒绝域为,单因素试验方差分析表,所以对给定显著性水平(0,1),H0的拒绝域为:计算得到F的观测值为F0,当F0落入拒绝域时拒绝原假设H0,可以认为因素A对响应变量有显著影响;否则不能拒绝H0,认为因素A对响应变量无显著影响,10.2.3方差分析的方法,例设有三台机器,用来生产规格相同的铝合金薄板.取样,测量薄板的厚度精确至千分之一厘米.得结果如下表所示.,解,方差分析表,各机器生产的薄板厚度有显著差异.,在MATLAB中的求解,函数:anova1,格式:p=anova1(x),说明:对样本X中的多列数据进行单因素方差分析,比较各列的均值,返回“零假设”成立的概率值,如果概率值接近于零,则零假设值得怀疑,表明各列的均值事实上是不同的.,源程序:,x=0.236,0.238,0.248,0.245,0.243;0.257,0.253,0.255,0.254,0.261;0.258,0.264,0.259,0.267,0.262;p=anova1(x),程序运行结果,前面我们学习了随机变量的数学期望和方差,对于多维随机变量,除了其数学期望和方差外,我们还要研究反映各分量之间关系的数字特征,其中最重要的,就是现在要讨论的,协方差和相关系数,引言,这里有两个变量,一个是父亲的身高,一个是成年儿子身高。为了研究二者关系,英国统计学家皮尔逊收集了1078个父亲及其成年儿子身高的数据,画出了一张散点图。,问:父亲及其成年儿子身高存在怎样的关系呢?,类似的问题有:,1、吸烟和患肺癌有什么关系?,设X和Y是两个随机变量,若,一、协方差,Cov(X,Y)=EX-E(X)Y-E(Y),1.定义,EX-E(X)Y-E(Y)存在,则称EX-E(X)Y-E(Y)为随机变量X与Y的协方差(covariance),记作,显然,两个随机变量的协方差本质上就是这两个随机变量的一个特殊函数的数学期望。,二、相关系数,为随机变量X和Y的相关系数(cor

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论