数理统计1 - 欢迎光临数学学院.doc_第1页
数理统计1 - 欢迎光临数学学院.doc_第2页
数理统计1 - 欢迎光临数学学院.doc_第3页
数理统计1 - 欢迎光临数学学院.doc_第4页
数理统计1 - 欢迎光临数学学院.doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

以下各章复习的是数理统计学(mathematicnl statistics),统计学(statistics)一词系由state(国家)衍化而来,意指由国家收集的有关国情的资料. 数理统计学是数学的一个分支.研究怎样去有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议. 数理统计学一词有一种狭意的理解,即仅指有关统计方法的数学理论.很大程度上说:概率论(probability theory)是数理统计的基础,数理统计是概率论的一种应用.第四章 抽样和抽样分布 数理统计的一些基本概念.1. 何谓总体?为什么说总体是一个随机变量? 答:研究对象的某项数量指标值的全体称为总体.设有一总体X,由于对任意的实数,X的取值“X”在客观上有确定的概率,即X有确定的概率分布,所以总体X是一个随机变量. 2. 何谓样本?采用抽样方法推断总体,对样本应当有怎样的要求? 答:从总体X中随机抽取的n个个体:称为总体X的一个容量为n的样本.为了保证样本能很好地反映总体的情况,即样本要有代表性,这就要求抽样本应具有“随机性”,其次应具有“独立性”,还要求样本是简单随机样本. 定义 记总体X,总体的分布函数,一个容量为n的样本如果满足以下两个条件,则称之为简单随机样本: 与具有相同的分布函数 2 相互独立 一旦抽取,它们都是n个具体的数值,称为样本值是随机变量的一个可能取值.为书写和叙述方便,在不之于引起混淆的情况下,我们也用表示样本.因此记号具有双重意义:有时指的是某次具体抽样后的样本指值,有时泛指任一次抽样的样本(即看成n个随机变量)3.什么是统计量?答: 为了通过样本了解总体,必须对样本进行“加工”,以提取其中有益的信息.所为对样本“加工”就是针对不同的统计问题构造一个不含未知参数的样本的连续函数,这样的函数称为统计量. 统计量不含任何未知参数是非常必要的,因为我们对样本的“加工”目的,是通过统计量的取值(将样本值代入统计量后所得的值叫统计值)对总体的未知参数进行推断,我们当然不能用未知的东西作为推断的依据,事实上,这些参数正是我们希望了解的东西. 一4.数理统计中常用的统计量有哪些?答: 将样本“加工”成统计量应该有明确的目的,它要尽可能地提取样本中所含的有关总体分布特性地信息.数理统计中常用的统计量有(同学们分析它们分别反映了总体分布的哪些特征?): 样本均值 样本方差 样本的k阶原点矩 (4.1) 样本的k阶中心矩 ,(k=1,2, (4.2) 数理统计中流行样本方差的两种形式: ; 这两种形式在统计中发生的效应是不同的. 由于,所以样本方差是总体X方差的无偏估计量.而的数学期望就不是总体方差的无偏估计量,而,故当样本容量n很大时,和两者相差很小,对于大样本来说,可用来估计总体方差.因此,有时把成为大样本方差,而称为样本修正方差.5.关于大数定律和中心极限定理的说明.概率论是研究随机现象统计规律的一门数学学科,而随机现象的统计规律只有在对随机现象的大量观察中才能呈现出来,这就必须采用极限方法,而“大数定律”和“中心极限定理”就是使用极限方法研究随机想象统计规律的两个基本类型,他们在概率统计的理论研究和应用中都十分重要,下面复习它们的简单结果及应用. 大数定律说明什么问题? 答:第二章讲概率的统计定义时,知道事件发生的“频率”具有稳定性,即随着试验次数的增加,事件发生的频率逐渐稳定于某一常数;在讨论数学期望时,也看到进行大量独立重复试验时,“平均值”也具有稳定性,这种稳定性就是大树定律的客观背景.大树定律以严格的数学形式证明了“平均值”与“频率”的稳定性,同时表达了这种稳定性的确且含义:“平均值”、“频率”在依概率收敛的意义下逼近某一常数.即 【Bernoulli大数定律】设是n次贝努里试验中事件A出现的次数,而p是事件 A在每次试验中出现的频率,则对,都有 (4.6)或 贝努里大数定律说明,在独立重复试验中,当次数n无限增大时事件A发生的频率与概率p偏差的可能性很小(趋近于0),这就是频率稳定性的确切含义.因此,在实际应用中,当试验次数很大时,便可以用事件A发生的频率近似代替事件A的概率p即有近似公式:p , 这里再强调:依概率收敛与数学中的收敛不同,不是.而依概率收敛于p是指对,当n充分大时,事件发生的概率很小,接近于0.(或事件发生的概率很大,接近于1,但并不排除的发生,只不过是它发生的可能性很小而已.【大数定律】设随机变量相互独立,且具有相同的有现数学期望和方差:作前n个随机变量的算术平均 ,则对,有 (4.9) 或 定律说明,对,当时,事件的概率趋近于0(事件的概率趋近于1),也就是说,大量的独立随机变量的算术平均值接近于它们各自的期望,这种接近也是在概率意义下的接近.通俗地说,n个相互独立随机变量的算术平均值,当n无限增大时将几乎变成一个常数-随机变量的期望.这就是平均效果具有稳定性的确切含义.因此当 相互独立, ,n很大时,有近似公式: 这两个大数定律的关系:且比雪夫大数定律是贝努里大数定律的特例,是数理统计中参数估计的重要理论基础之一. 贝努里大数定律证明中的(4.7)式(P.141)把n重贝努里试验与n次抽样联系起来,n次抽取的每一次都是一重随即试验,且每次抽取相互独立,因而一个包括n次抽取的抽样就是一个n重重复独立试验,只要假定每次抽取结果只有两种可能(A或 ,正品、次品,正面、反面,成功、失败,)两者完全一致.易见频率是一个统计量,它正是样本均值,而恰为总体均值.故对未知总体的均值,可通过大量试验使用样本均值进行估计,试验的次数越多,即样本容量越大,则估计就越精确. 中心极限定理说明什么问题? 讲义补充了李亚普诺夫中心极限定理,教材(P.143)介绍了林德贝格-勒维中心极限定理,这些定理说明,不管随机变量服从什么分布,只要它们独立同分布,当n很大时,其总和近似服从正态分布,这就是为什么正态随机变量在概率中占有重要地位的一个基本原因,在长达两个世纪里,它们是概率论研究的中心课题,足见地位之重要,故把这些定理叫中心极限定理(由此得名). 6. 抽样分布有哪些? 答:统计量的概率分布称为抽样分布.数理统计中常用的是来自正态总体的抽样分布.主要有分布,分布 (4.13),分布 (4.14),F-分布 (4.16) ,后三种分布的密度函数中都出现了伽玛函数: (4.18) 抽样分布有以下几个定理: 一个正态总体场合 定理4.2 (4.19) (4.20) (4.21)式 定理4.3 (4.22) 定理4.4 (4.23) 非正态总体场合(大样本)定理4.5 (4.24) (4.25) 同学们要记住这些定理,并会应用它们. 典型例题解析 例1.已知某地区110KV电网,在一般情况下,电压波动值V(单位:KV 千伏)服从正态分布N(110,5.5)若在某天内随机试验16次电压值,试问其样本均值 与110KV的偏差小于4KV的概率是多少? 解 这里关键要知道总体样本均值的分布. 由 V(110,5.52)及样本容量n=16知 N(110, (4.19) 故 例2. 设总体X任意(非正态总体),期望为,方差为,若至少要以0.95的概率保证,问样本容量n应取多大? 解 因为n很大时,非正态总体的均值近似服从正态分布 , 于是 即 ,查表得 因 非减,故0.1,故样本容量至少取385才能满足要求. 例3. 设为总体N(的一个样本,试求: 解 这里关键是利用 (4.20) 查分布表 例4. 设某厂生产的灯泡的使用寿命X (单位:小时),抽取一容量为10的样本,得到 ,试求 分析 由于题中未知,故不能用 ,将用其无偏估计量代替,构造统计量 (4.22) 使本题解决. 解 因为 t(9) 故 令 查t-分布表,得 0.05 ,用线性插值法,得 ,故. 例5. 分别从方差为20和35的正态总体中抽取容量为8和10的两个样本,求第一个样本方差小于第二个样本方差两倍的概率. 分析 利用 (4.23) 解 根据自由度,查F分布表,得 即 , 即 因 3.293.54.20 从而 0.0250.05 故由插值法求得 =0.0276 ,即 .第五章 参数估计数理统计的任务是由样本构造适当的统计量,对总体的分布作出和理的推度断.但在许多场合的分布类型是知道的,就是其中的参数未知,需要由样本提供的信息,对总体的未知参数作出估计,这类统计问题称为参数估计. 参数估计的方法有点估计法和区间估计法两大类,下面分别加以复习. 5.1 参数的点估计 设总体X的分布类型已知,是待估计参数.从该总体中抽取样本,并由此构造一个统计量 (称为估计量),用来估计未知参数:将抽样完成后得到的样本值带入上述统计量而得一具体值 ,此数值就称为总体未知参数的(点)估计值.在不强调估计量和估计值的区别时,将用“估计”这个笼统的称呼. 参数估计要解决两重任务: 寻找估计量的方法 建立衡量估计量“好坏”的标准.讨论按此思路展开. 求估计量的常用方法有矩估计法和极大似然估计法.一. 矩估计法从计算方法上讲,总体X的期望是对随机变量X的取值求概略意义上的加权平均.样本均值是对抽取的样本求算术平均.从理论上讲,大数定律指出;样本均值依概率1收敛于总体期望,因此用 将这些依据推广就得到:“用样本”的k阶矩 估计总体X的k阶矩,的思想,基于这一思想形成的点估计方法称为矩估计法. 例题解例1. (P.154例5.1) 求任意总体的数学期望和方差的矩估计.解 先求出总体X的前二阶矩,有 解上述方程组,得 ,最后用样本矩 代替上两式的,就得到的矩估计为 例2. (将P.155例5.2的二点分布推广到二项分布)设总体为正整数 , 0p1 k,p都未知,试求k,p 的矩估计.解 设是总体X的一样本.因总体X服从二项分布,故 解此方程组,得 , 用 , 分别代替 即得k,p 的矩估计量为 , 其中 , 表示x的最大整数部分.例3. 设总体X以等概率 取值1,2,求未知参参数的矩估计量.解 由 得的矩估计量为例4. (将P.155例5.4的均匀分布从推广到 )设总体X服从区间 上的均匀分布,求未知参数a和b的矩估计.解 总体X的密度函数为 ,其它故 解上述方程组,得 , 以样本矩 , 分别代替便可得未知参数a,b的矩估计量为 其中 为样本标准差 二.极大似然估计法 上面讨论的矩估计法是用样本的各阶矩“代替”总体相应的矩,可不涉及总体的分布 类型. 在实际中所遇到的总体分布类型是已知的,只是由于参数未知,写不出概率密度函数的确切表达式.已知总体所服从的分布类型,这是很有用的信息,而矩估计法并没有用这种信息.而极大似然估计法是在已知总体分布类型的条件下通过样本对未知参数作点估计的新方法. 它依据的思想是:如果通过试验,某个结果A发生了,那么所作出的参数估计应有利于A的发生,即作的参数估计应使A发生的概率最大.(课堂上已举例) 一般地,设 为来自分布形式为已知,(对离散型情形理解为分布律,对连续型情形理解为概率密度)的总体的样本观察值,如果当未知参数取时,(被取到的概率最大,则称为的极大似然估计.求发如下: 求似然函数 若总体X为离散型,其分布律为 其中为未知参数,对给定的样本观察值(,则 若总体X为连续型,其概率密度函数为其中为位知参数,对给定的样本观察值 ,则 可见样本观察值的似然函数就是随机样本的联合分布函数,它反映了样本观察值被取到的概率. 求似然函数的最大值点. 若似然函数L是的可微函数,则L的最大值点必然满足似然方程 从中解出,经检验可得到L的最大值点,则就是的极大似然估计. 由于L为乘积函数,而L与lnL在同一处取得最大值,所以一般由下面的对数似然函数方程 求解要方便的多. 例5. 设总体XP( ,求未知参数的矩估计和极大似然估计量(P.181习题第1题) 解 (1) 因 , 而 ,故的矩估计量为 (2) 普阿松分布的分布律为 故似然含数为: 取对数得 于是得对数似然方程 由此得的极大似然估计值为 的极大似然估计量为 这这里的矩估计和极大似然估计是相同的. 例6. 设总体X的概率密度为 其中是未知参数, 为一样本,试求参数的矩估计和极大似然估计量. 解 因 令 ,得 , 解得的矩估计量为 设是样本的观察值,则似然函数 取对数,得 ,从而得对数似然方程 , 解出,得的极大似估计量为 由此可知,的矩估计和极大似然估计是不相同的. 一般,若总体含有k个未知参数,其似然函数是的k元函数,其最大值点由对数似方程组解得.通常情况下,其唯一解就分别为未知参数的极大似然估计.如P.159例5.4中征态分布参数和的极大似然估计. 5.2 估计量优良性的标准 一. 无偏性 由于未知参数的估计量是一个随机变量,每次抽取后得到的估计值与的真值是有误差的.误差分为系统误差和随机误差两类,系统误差指的是该理论不是它所描述现象的正确理论;而随机误差是该理论所要描述现象的正确理论.但理论与经验之间的不 尽一致是由于无法控制的随机因素的干扰引起的,由于这些随机因素的作用是微小的,它们并不影响系统的本质特征,所以该理论是可取的,而且随机误差可以认为服从正态分布,其均值为零,即(这可理解为大量重复抽样而得到的多个估计值与之差正负抵消了)这就提出了所谓无偏性标准.定义: . 经济、科技中 称为以估计所致的系统误差.无偏估计的实际意义就是无系统误差(即系统误差为零) 例7. 设为来自参数为n,p的二项分布总体,试求的无偏估计量. 解 因 ,故 于是,用样本矩分别代替相应的总体矩,便得的无偏估计量 二. 有效性 由于同一个未知参数可能有n个无偏估计量,试问那个无偏估计量更优呢/ 设和都是未知参数的无偏估计量,它们都围绕着波动,我们自然选择波动幅度小的那一个无偏估计量,这就提出了有效性的标准.定义: ,则称比有效. 例8. 设是来自总体X的随机变量,试证:估计量和 (,为常数,都是总体期望E(X)的无偏估计,但比有效. 证明: 因为 所以,与均为的无偏估计量. 由于 利用 柯西-许瓦兹不等式,有 ,得 ,故 比有效. 我们称Y为E(X)的线性无偏估计类.本题说明,是中最有效的估计量,即在的线性无偏估计类中,样本均值比以为权的样本加权平均最为有效,这进一步体现了大数定律的算术平均法则的优越性. 例9. (选择题) 设是来自总体X的一个容量为2的样本,则在下列E(X)的无偏估计量中,最有效的估计量是 ( D ) (A) (B) (C) (D) 解 由上题或P.168,在所有无偏估计中,以算术平均为最有效,故(D)入选. 三. 一致性 设是总体未知参数的估计量,它是样本的函数,因而也是样本容量n的函数.因此,可记为 ,人们自然希望样本容量很大时, 估计量应接近被估计的参数,这就引出了估计量的一致性. 定义 (P.168) 对,有 , 则称为的一致估计量. 因 ,所以是的一致估计. 注意:估计量的三个评价标准都是在无偏性的前提下进行的,否则便失去了有效性,一致性的意义.此外,一致性是在极限意义下引进的,只有样本容量相当大时,才能显示优越性,而在实际中往往难以增大样本容量,而且证明一致性并非容易.因此,在实际中常常使用无偏性和有效性两个标准. 5.3 参数的区间估计 点估计是用样本观察值代如估计量中得到一个数值作为的近似值.尽管点估计值随样本观察值的不同而异,但它能给人们一个明确得数值.因此在实际中常常用点估计对客观事物作出数推断.但作为一个近似值,它与真值之间总有偏差,这个偏差究竟有多大,不知道,也就是说,用估计的精度如何?可靠性有多大?点估计本身没有告诉我们,这正是它的不足之处.在实际中人们希望对未知参数的取值,估计出一个范围,并知道这个范围包含参数真值的可靠程度,这样的范围通常以区间的形式给出,这就引出了参数的区间估计问题. 定义 设为总体的未知参数,为来自总体的一个样本.构造两个统计量,对给定的(, 则称为的一个置信区间,1-为置信度,叫显著性水平,为置信下限,为置信上限. 因为 都是统计量,即是随机区间,而是一个客观存在的未知常数.所以上式的确切解释应该是随机区间包含 的概率是1-. 我们研究的重点是正态随机变量的区间估计问题. 正态总体未知参数的置信区间的具有形式及其推导过程在教材上都能查到,不予一一赘述.(参见考试大纲P.432-433) 同学们不要拘泥于死记哪些公式求参数的置信区间,重要的是要掌握解决区间估计的思路: 首先明确问题,即明确该问题是在什么条件下求哪一个参数的区间估计问题? 其次是构造合适的统计量,根据所给条件,利用抽样分布定理,构造一个仅含被估计参数的且具有确定分布的统计量 令 或 其中或可根据给定的置信度1-由DE 分布表查出. 最后将不等式 或变形,解出被估计参数,即为的置信度1-的置信区间. 兹举两例说明求解区间问题的上述思路. 例10. 设XN , YN ,X,Y 相互独立,为未知参数,未知,但相等,求的置信区间. 解 首先明确问题,这是一个两正态总体在方差相等条件下对两总体均值的差作区间估计的问题. 关键是构造一个什么统计量? 现在从总体x中取一简单随机样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论