第7章-估计与检验(2015)_第1页
第7章-估计与检验(2015)_第2页
第7章-估计与检验(2015)_第3页
第7章-估计与检验(2015)_第4页
第7章-估计与检验(2015)_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

现代高等工程数学电子教案,第7章估计理论与假设检验数学学院应用数学系王国富2014年9月,问题提出某厂有一批产品,须经检验后方可出厂。按规定标准,次品率不得超过1%。今在其中随机抽取100件进行检查,结果发现有2件次品,问这批产品的次品率是多少?能否出厂?,引进变量X,当抽取一件产品是次品,记为X=1,当抽取一件产品不是次品,记为X=0;PX=1=p,PX=0=1-pP就是产品的次品率。这批产品的次品率是多少就是对p的取值作出一个推断,称为估计。能不能出厂,就看p的值是超过1%还是没有超过1%,这就是检验。,数理统计其实质就是利用样本对总体进行统计推断,而总体可以看作是一个随机变量,要知道一个随机变量的取值规律性就是要对它的分布作出一个推断。当我们对总体一无所知的时候,可以利用样本对分布作出估计,通常可以用频率分布表来估计离散型总体的分布率;用直方图估计连续性总体的分布密度;用经验分布函数估计总体的分布函数。当我们对总体的分布类型有了一定的了解,但分布中含有未知参数时,可以利用参数估计方法对参数的取值作出估计,其中包括点估计和区间估计。当我们对总体已经有了比较全面的了解,但实际中可能出现一些大的改变,这些改变会不会影响总体的分布,那就需要进行假设检验了。估计理论与假设检验是数理统计中两个最基本和最重要的内容,总体与个体我们把所研究对象的全体称为总体或母体。组成总体的每个单元称为个体总体X可看作一个随机变量,称X的概率分布为总体分布,称X的数字特征为总体的数字特征,对总体进行研究就是对总体的分布或对总体的数字特征进行研究.样本从总体中抽取的一部分个体称为样本或者子样,其中所含个体的个数称为样本容量.样本具有二重性:随机性和确定性,简单随机样本:设总体X的样本满足独立性:每次观测结果既不影响其它结果,也不受其它结果的影响;即相互独立;代表性:样本中每一个个体都与总体X有相同分布。则称此样本为简单随机样本。进行有放回抽样就是简单随机样本,无放回抽样就不是简单随机样本。但N很大,n相对较小时无放回抽样得到的样本可以近似看作简单随机样本.,统计量统计量的定义定义1.2设为总体X的一个样本,为的连续函数,且不含有任何未知参数,则称T为一个统计量。注:1.统计量是完全由样本确定的一个量,即样本有一个观测值时,统计量就有一个唯一确定的值;2.统计量是一个随机变量,它将高维随机变量问题转化为一维随机变量来处理,但不会损失所讨论问题的信息量.,常见的统计量1.样本均值2.样本方差3.k阶原点矩4.k阶中心矩5.顺序统计量6.样本极差与中位数,抽样分布我们称统计量的分布为抽样分布,不同的统计量其分布不一定相同.常见的分布类型有:正态分布伽玛分布卡方分布t分布F分布,伽玛分布定义1.4如果连续型随机变量X的密度函数为其中为函数,则称X为服从参数是的伽玛分布,记为,伽玛分布的性质(1)由此可得,(2)如果,并且X和Y相互独立,容易求得这个性质称为可加性,即伽玛分布具有可加性.,卡方分布用构造性的方式定义是定义1.5设为相互独立的随机变量,且均服从,则它们的平方和也是一个随机变量,它所服从的分布称为自由度为n的分布,记为,它的密度函数为其密度函数与参数n有关,它的图形也有一定差异,卡方分布的性质若,则即卡方分布是一种伽玛分布,因此具有伽玛分布的性质()()如果,并且X和Y相互独立,有卡方分布也具有可加性,t分布构造性的方式定义定义1.6设,且X与Y相互独立,记则也是一个随机变量,它所服从的分布称为自由度为n的t分布,记为,它的密度函数为与参数n有关,不同的n其图形也有差异,性质若则()当时,t分布是柯西分布,柯西分布不存在数学期望和方差参数为2的t分布也不存在数学期望和方差()时,,()可以证明这是标准正态分布的分布密度,即当n充分大时,T近似服从标准正态分布,分布构造性的方式定义定义1.设,且X与Y相互独立,记则也是一个随机变量,它所服从的分布称为自由度为(m,n)的F分布,记为,它的密度函数为它与m,n有关,其图形也有一定差异,容易得到若,则,分位数:定义1.6设X为连续型随机变量,其分布函数为,对,如果存在数满足则称为此分布的分位数分位数的几何意义可用图形表示,它的值可查表得到,不同的分布有不同的分位数,有不同的表可查,常见的分位数有它们的值可以通过附表1、附表2、附表3、附表4查得,分位数具有性质(1)(2)(3)当n足够大时(一般n45)有近似公式,例1:查表求下列分位数的值,抽样分布定理定理7.2.1设总体,为X的一个简单随机样本,为样本均值与样本方差,则有:(1)(2),(3)相互独立;(4),定理7.2.2设有两个总体与,从两个总体与中分别独立抽取容量为m,n的简单随机样本记为样本的样本均值与方差,为样本的样本均值与方差,则(),()()若则其中,定理7.2.3设总体X为任意总体,存在有限的数学期望与方差,为X的一个样本,当n充分大时(称之为大样本),有()(),定理7.2.4设事件A发生的概率为p,在n次重复试验中事件A发生的次数为m,当n充分大时,近似地有()(),定理7.2.5设总体X服从参数为的指数分布,为X的一个简单随机样本,为样本均值,则,例2设总体,分别从X中抽取容量为10与15的两个独立样本,求它们的均值之差的绝对值大于0.3的概率,例3设总体,是从总体中抽取的简单随机样本,选取常数c,d使得并求出n.,一、估计理论,1.参数点估计参数点估计是对参数取哪一个值作出估计定义:设总体的分布已知,但其中含有未知参数(可以是一个向量),点估计就是依据某种原理,根据样本来构造统计量(可以是一个向量)作为的估计量,记为,当样本取定一个观察值时,估计量也有一个值,这个值称为估计值,不同的抽样,有不同的估计值,它与真值会有差异,这种差异除了抽样带来的误差外,与估计量的形式有关因此,选取统计量也是非常重要的我们介绍两种统计量的方法:矩法与极大似然法,矩法估计假设样本为简单随机样本,则由大数定律,有,其中当n比较大时,利用这种近似相等关系的思想,得到矩法估计的定义定义:用样本原点矩去代替总体相应的原点矩得到的参数的估计量的方法称为矩法,称这种估计为矩法估计量,例4总体的分布密度为其中为未知参数,现从中抽取一个样本,试求的矩法估计量解:,由于故令得到估计量通常我们是采用下面的方法,另解我们可认为而由矩法,我们令得到,极大似然估计极大似然估计是利用小概率原理作出估计的小概率原理:一个概率非常小的一个事件在一次试验中几乎是不可能发生的;也就是说,如果一个事件在一次试验中居然发生了,那么这个事件发生的概率不可能很小,而应认为其概率会尽可能地大,例5设总体,现从中抽取一个样本观察值(500,300,600,400,700),试估计的值解:,这里,n是5,设为样本,在一次试验中事件发生了,而,是参数的函数,由小概率原理,这个概率不会太小,应尽可能大,即求这个概率的最大值利用求导可得到当时,这个概率达到最大因此,我们有理由认为参数为500.这就是极大似然估计,一般地,当总体为离散型总体,其分布中含有未知参数(可以是向量),为一个样本,为一次观察值,称为似然函数,称对数似然函数称满足的为极大似然估计值,记为,而称为极大似然估计量简称估计上例的一般情况是,例6:设总体服从参数为的泊松分布,求的极大似然估计,解:总体的分布为似然函数为,对数似然函数为这两个函数的极值点相同,对对数似然函数求导,并令其为,得,得到从而极大似然估计为,当总体是连续型总体时,我们定义似然函数为对数似然函数为,例7设总体,试求的极大似然估计.解:,解:似然函数为对数似然函数为,对求导并令其为0,得从而解得的极大似估计,2.区间估计点估计方法有两个缺陷:(1)不能说明估计值与真值的偏差到底有多大(精确性);(2)不能说明这个估计有多大的可信度(可靠性);,例8:设有一批电子元件的寿命XN(a,),现从中抽取容量为的一组样本,算得其样本均值为小时,试估计a,解:由点估计,a的估计值为.实际上a的值是非真是000呢?显然,不同的抽样,可得到不同的值,故000与a会有差异这种差异有多大呢?我们从另一个角度考虑,需要指出:区间估计中的精确性与可靠性是相互矛盾的.当样本容量一定时,提高估计的可靠度,将降低估计的精度,相反,提高估计的精度,将降低估计的可靠度.,例10:在某次选举前的一次民意测验中,随机地抽取了400名选民进行民意测验,结果有240人支持某个指定的候选人。求在所有的选民中,这位候选人的支持率的95%的置信区间,例11:在甲、乙两市进行的职工家计调查结果表明:甲市抽取的500户中平均每户消费支出元,标准差元;乙市抽取的1000户中平均每户消费支出元,标准差元,试求:两市职工家庭每户平均年消费支出之间差别的置信水平为0.95的置信区间。,例12:设总体服从上的均匀分布,求的区间估计。,解:由极大似然估计得容易得到的分布函数为对给定的置信度令从而得到的置信区间为,假设检验问题提出某厂有一批产品,须经检验后方可出厂。按规定标准,次品率不得超过1%。今在其中随机抽取100件进行检查,结果发现有2件次品,能否出厂?,分析:我们可算得,不合格品出现的频率为0.02。由于我们不可能对所有生产的产品进行检验,因此即使可以出厂,不合格率不超过0.01,在随机抽样检验中,不合格品出现的频率也有可能比0.01大.如果记“X=1”表示生产出来的产品为不合格品;“X=0”表示生产出来的产品为合格品,我们有这里参数为不合格率。那么产品可以出厂等价于总体X的分布为0-1分布,参数;产品不可以出厂等价于总体的分布为0-1分布,参数。关于产品能否可以出厂的两种假设就转化为关于总体分布的两种假设,所谓假设检验问题,就是要判断原假设是否正确,也就是要作出一个决定,是接受还是拒绝原假设,如何作出选择,需要我们从总体中抽取样本,然后根据样本的观测值作出决定。这就需要我们给出一个规则,此规则告诉我们,在有了样本观测值后,我们可以作出是接受还是拒绝原假设。我们把这样的规则称为检验。要给出一个有实际使用价值的检验,需要有丰富的统计思想。我们首先对样本进行加工,把样本中包含的关于未知参数的信息集中起来,构造出一个适合于假设检验的统计量T。,上面例子中,我们取它表示所检验的100件产品中不合格品的总数。是p的充分统计量,服从参数是100,p的二项分布。一般说来,在为真即生产过程稳定时,T的值应比较小;而在不真即生产过程不稳定时,T的值应相对地比较大。因此,我们可以根据T值的大小来制定检验法则。对样本的每个观测值,当统计量的观测值较大时就拒绝,而当T较小时就接受。这就是说,按照规则,当时,拒绝原假设;当时,接受原假设;其中c是一个待定的常数。不同的c值表示不同的检验,如何确定c,需要有熟练的计算技巧和丰富的统计思想,我们称T为检验统计量;c为检验临界值;为拒绝域;为接受域。,两类错误每一个检验都会不同程度地犯两类错误。上面例子中,原假设本来正确,由于样本的随机性,检验统计量的观测值落入了拒绝域,就拒绝原假设,这时称假设检验过程中犯了第一类错误,也称“弃真错误”;原假设本来不正确,由于样本的随机性,检验统计量的观测值落入了接受域,就接受原假设,这时称假设检验过程中犯了第二类错误,也称“存伪错误”。,一个检验的好坏可由犯这两类错误的概率来度量。常把犯第一类错误的概率记为,犯第二类错误的概率记为。由于它们常依赖于总体中未知参数,故又常记为。上面例子中,可见,犯两类错误的概率均为参数p的函数。犯第一类错误的概率是的函数;犯第二类错误的概率是的函数。犯两类错误的概率也是c的函数,c的值越大,犯第一类错误的概率就越小,而犯第二类错误的概率就越大;相反,c的值越小,犯第一类错误的概率就越大,而犯第二类错误的概率就越小;因此,犯两类错误的概率是相互制约的,奈曼(Neyman)和皮尔逊(Pearson)提出,首先控制犯第一类错误的概率,即选定一个数,使得检验中犯第一类错误的概率不超过。然后,在满足这个约束条件的检验中,寻找犯第二类错误的概率尽可能小的检验。这就是假设检验理论中的奈曼-皮尔逊原则。寻找犯第二类错误的概率尽可能小的检验,在理论和计算中都并非容易。为简单起见,在样本容量n固定时,我们着重对犯第一类错误的概率加以控制,适当考虑犯第二类错误的概率的大小。称控制犯第一类错误的概率不超过的检验为显著性检验。称为显著性水平,假设检验的一般步骤(1)根据实际问题提出原假设和备择假设;(2)确定检验统计量;(3)取适当的显著性水平,并由显著性水平和统计量的分布确定拒绝域,使得检验中犯第一类错误的概率的最大值尽可能的接近,特别在总体为连续型总体时,往往要使它等于拒绝域有单侧和双侧两种形式(4)由样本观测值算得统计量的观测值,并与拒绝域中临界值比较,如果观测值落入拒绝域,则拒绝原假设,否则接受原假设,例13:由点估计,可用,因此,我们可选取统计量来检验,显然它的值太大或者太小都应拒绝,因此,拒绝域的形式为,由来确定,而在为真时,由标准正态分布的分位数可知因此拒绝域为,例14某工厂生产的一种产品的强度长期以来一直服从正态分布(55,0.01),,现采用新的工艺进行生产后,抽取n=100的样本,测得有样本均值为56。假设方差保持不变,问在新的工艺下,产品的强度是否有所变化?(取),解:假设采用新的工艺进行生产后,产品的强度仍服从正态分布作假设选取统计量在原假设为真的条件下拒绝域为,经计算,统计量的观测值u=100,查表得。从而,说明样本观测值落入了拒绝域中,应该拒绝,即在新的工艺下,产品的强度已经发生了变化。,正态分布中参数假设检验可列表正态分布的假设检验.doc,例15某种食品在处理前后含脂率抽样数据如下:处理前:0.190.180.210.300.410.120.27处理后:0.150.130.070.240.190.060.080.12假定处理前后的含脂率均服从正态分布,且标准差保持不变,问在0.05显著性水平下,处理前后的含脂率有无显著变化?,解:我们采用t检验。设处理前后含脂率分别为X、Y,作假设,例16某厂有一批产品,共1000件,须经检验后方可出厂。按规定标准,次品率不得超过1%。今在其中随机抽取100件进行检查,结果发现有2件次品,问这批产品能否出厂?(),解:设这一批产品的次品率为p,我们作假设,例17.某市对某项决定需要全市市民表决才能执行,并规定表决同意此项决定的人数所占比例超过50%时就可以执行此决定。今在表决前随机地抽取了400名市民进行民意调查,结果有220名同意此项决定。问此项决定能否执行?,解:设表决同意此项决定的人数所占比例为p,作如下假设,没落入到拒绝域,即此项决定在显著性水平0.01之下不能执行,分布假设检验参数的假设检验中,总体分布的类型是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论