已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章 参数估计统计推断就是推断总体分布,可以用经验分布估计理论分布,且增多样本可以逼近所要求的精度,但是这需要大量样本,现实中难以实现。实际问题总是认为总体分布形式已知,而是不知其中几个参数,因此估计问题变为如何估计这几个未知参数,分成两大类:点估计和区间估计。3.1 点估计 设母体的分布函数形式已知,为待估未知参数向量,样本值为,点估计就是构造一个适当的统计量作为待估未知参数的近似值,统计量简单说就是样本值的函数,但是要求不可依赖未知参量,能够反映未知参量的信息,不同的未知参量对应了不同的统计量。如何构造呢?这里经典方法是矩估计方法和最大似然估计两种办法。矩估计:子样的k阶原点矩,母体的k阶原点矩,假设=,那么我们就列L个方程=,求解。例子:混合高斯分布,给你样本值为,来估计未知参数。解释:混合高斯分布的均值为零,二阶矩为我们只有样本,那么就用样本二阶矩代替,那么得出未知参数的估计值为最大似然估计:比如连续分布的母体概率密度函数为,为待估未知参数向量,样本值为,对于各样本值进行排序,总能找到,那么发生在区间的概率我们将上述发生概率最大的参数作为真实值的估计,那么就是使得似然函数最大即可,或者最大,记做为使得上述最大我们自然采取来求解参数向量。推论:统计量作为未知参数的最大似然估计,为的连续函数,那么为的最大似然估计。例子:正态母体,给定样本值为X=(),其均值和方差的最大似然估计量?解:每个样本点都符合正态母体,那么我们构造似然函数为=注意,这里整体看出未知参数。那么得出两个方程由第一个方程解出来,代入第二个方程得出,可见最大似然估计的统计量和利用矩估计方法相同。例子:上述求导数的方法并不是通用的,比如母体为区间的均匀分布其他区间为零。那么给定样本值为X=(),求参量向量的最大似然估计量?解:我们构造似然函数为,那么我们得出,得出才好,这个自然不对。再次看,为使得其最大,那么的差越小越好,尽量大,而尽量小,但是应该不是相等。那么由于都符合,因此,因此,尽量大,只能最大取到,而尽量小,也只能小到,自然就取这两个极值作为估计量实际应用:二战期间,盟军承认德国坦克战斗力优于己方,问题是德国到底生产了多少坦克,了解坦克数量可以帮助盟军评估获胜几率。 为了解决该问题,盟军一开始动用了传统的情报收集方法:间谍活动、拦截和破译轴心国通讯,审讯俘虏。根据这些手段,盟军估计,从1940年6月到1942年9月,德国军工厂每月生产1400辆坦克。将该数目放到真实事件中对照:轴心国在斯大林格勒战役的8个月时间内共动用了1200辆坦克,显然每月1400辆是过高估计。因此盟军开始寻找其它方法进行推算,他们最后找到了重要线索:序列号。盟军缴获的每辆坦克都有一个独特的序列号,序列号显然有一个模式,代表了坦克生产订单。基于这些数据,盟军创造了一个数学模型去判断德国的坦克生产速度,他们发现德国在1940年夏天到1942年秋天期间,每月生产坦克255辆。根据战后获得的德国内部统计数字,坦克的真实生产速度是每月256辆,仅仅差了一辆。这和利用出租车编号估计出租车总量问题、依据产品编号估计对方公司产量问题是一样的,这个问题并不简单,怎样给出一个好的准确的估计子,甚至战后依然是个研究课题。1:Ruggles, Richard; Brodie, Henry (March 1947), An empirical approach to economic intelligence in WWII, Journal of the American Statistical Association (American Statistical Association) 42 (237): 7291 , doi:10.2307/2280189, JSTOR22801892:Volz, Arthur G. (July 2008), A Soviet Estimate of German Tank Production, The Journal of Slavic Military Studies 21 (3): 588590, doi:10.1080/13518040802313902,3: Johnson, Roger (1994), Estimating the Size of a Population, Teaching Statistics 16 (2 (Summer): 50, doi:10.1111/j.1467-9639.1994.tb00688.x3.2 估计量的评价对于未知参数的估计量可以构造不同的类型,那么哪个估计量最好?最好的标准是什么?这个非常重要。3.2.1 无偏性作为未知参数的估计量,那么给一组样本就估计一个值,给很多样本估计出很多值,如果=则称为的无偏估计量。估计值在真值周围波动,但是其理论平均值收敛到真值。例子:正态母体方差的最大似然估计子是无偏的吗?答案不是,因为 =因此发现,不是无偏估计量。利用上述推导我们可以看到是无偏的。定义:满足=的估计量为渐近无偏估计量,是渐近无偏的。 3.2.2有效性 假如和两个都是的无偏估计量,如何分辨二者的好好?估计值都在真值周围波动,但是看谁波动的小,就是看谁方差小,如果则称比有效。那么对于任意一个无偏估计量中,最小方差无偏估计量满足称为minimum variance unbiased(MVU)estimator。这里就出现很多问题:1)如何得到最小方差无偏估计量?2)所有的无偏估计量的方差下界如何表达?第二个问题由印度统计学家C R Rao和瑞典数学界H Cramer用不同的方法得到,因此称为C-R下界。C R Rao,美国科学院院士,英国皇家统计学会会员, 当今仍健在的国际上最伟大的统计学家之一,他于1920 年9 月10 日出生于印度的一个贵族家庭,1940 年获印度安德拉大学数学学士学位,1943年在印度统计研究所取得统计学硕士学位,随后赴英国剑桥大学师从现代统计学的奠基人R.A.费歇(Fisher)教授,并于1948年获得剑桥大学博士学位。C-R下界:基于子样作为未知参数的估计量,子样的联合概率密度函数为,其任意估计量的最小方差下界为证明:由正则条件,可以得出由于估计量无偏的,因此我们得到对于上式求偏导利用Cauchy-Schwarz不等式即函数的内积不等式,定义内积我们得到即不等式这里还缺一半证明,对于下面等式两边积分得对于上式继续求偏导那么得到即由于可能代表了向量,因此上式又叫Fisher信息阵。推论:如果相互独立的同分布,那么,因此那么的最小方差下界又可以表示为这里为Fisher信息阵。推论:函数估计量的CR下界例子:我们知道正态母体均值的最大似然估计和方差的最大似然估计子都是无偏估计,那么它们都是达到CR下界的无偏估计量(MVU)吗?解:先看均值的最大似然估计,无偏的,其方差为,那么达到CR下界了吗?计算Fisher信息量=,取了等号,达到下界了,那么为最小方差无偏估计量。最大似然估计子是无偏估计这个已经证明了,前面还证明过分布,那么其方差为,因此这个方差能到最小方差吗?还得看CR下界:= 因此,其方差大于下界达不到下界,但是当n无穷大时,渐近趋向于方差下界,又叫一致最小方差无偏估计量,就是说正态母体方差的估计量中下界虽然是这么小,但是没有估计量能够达到,因为是最小方差无偏估计量了,就是达不到下界,CR下界是个界限,不一定能够达到。为何说是最小方差无偏估计量?如何证明,这里有MVUE判定定理。MVUE判定定理:设未知参数的任意一个无偏估计量,假设还有一个无偏估计,得到一个新量-,由于都是无偏的,那么,如果,那么为最小方差无偏估计量。证明:由于和的任意性, 因此得出为最小方差无偏估计量。例子:利用上述定理证明正态母体均值的最大似然估计和方差的最大似然估计子都是最小方差无偏估计子。证明:设还有任意一个无偏估计量,且,即对于上式两边对均值求偏导得到依据上述定理,是最小方差无偏估计。(ok,下面不讲了,自己看看)再次对于均值求偏导,就是二阶偏导数那么可以看出这里利用上面这个结论来考虑,即对于上式两边对方差求偏导注意,那么得到,由定理知都是最小方差无偏估计子,只是其达不到CR下界。定义:估计量效率,已知优效估计量的方差,那么对任意一个估计量,其效率为作业:利用matlab画出标准正态母体方差估计子随着样本容量变化,其均值和方差的渐近性质。*习题1:已知,求和的最大似然估计。解:似然函数为那么由于是的单调递减函数,所以,所以3.3.3 相合性无偏估计量中,我们以其方差作为衡量其最优的标准,但是无偏估计量方差不一定比有偏估计量的方差小。因此人们想从偏差性(有偏和无偏)和离散性(方差大小)两者兼顾的方式来得到估计量,就是相合性。例子:设总体为上均匀分布的样本,我们设计两个估计量, 对于第一个估计量,我们得到,是无偏的。对于第二个估计量,我们先求其分布因此,我们得到概率密度为,那么均值和方差分别为, 可以看出是有偏的,渐近无偏,但是方差效率比比减小的快的多,高一个量级。3.2.4 充分性上面CR下界只是解决了估计子最小方差下界问题,没有解决如何寻找最小方差估计子问题,这里估计子的充分性就是说设计的未知参数的估计量是否充分地利用了给定样本的信息呢?例子:比如正态母体,给定样本值和,为何说好呢?或者不好呢?从方差分析可以得到优劣,从另外角度看看x1x2y=x1+x2在样本几何空间里,给定和,就是空间里一个点,其联合分布为是一个直线,这个量符合分布,所以其概率密度函数那么在条件已知的基础上的条件概率密度这个概率密度函数已经没有均值u的任何信息了,也就是说已经充分地提前了均值的信息,称为u的充分估计量。充分性定义:子样作为从分布分布中提取的,估计量,如果给定的条件下条件分布与未知参数已经无关了,那么估计量称为的充分估计量。如何寻找的充分估计量?Neyman-Fisher因子定理:如果分布可以分解为这里是仅仅通过才与X有关的函数,与参数无关,那么估计量称为的充分估计量,反之,分布必可以如此分解。解释:1922年,Fisher与天文学家Eddington争论方差的估计子 与绝对偏差谁更加精确地反映问题,提出了充分性概念。 对于样本空间,估计量可以表示为,我们可以找到另外一个统计量,那么在给定的集合情况下,样本与一一对应。 那么,我们可以将求得变化的Jacobi矩阵(n维的),得到的联合概率密度为那么给定的情况下,W的分布与无关,则为充分统计量。例子 总体符合Poisson分布,那么对于样本求参数的充分估计量。样本的联合分布为那么我们取,那么那么就是充分估计量。例子 来自正态母体,其联合概率密度函数可以看出就是参数向量充分估计量,这里h(X)=1。 Neyman: 尼曼(Neyman),著名的波蘭統計學家(數學家),出生於一個羅馬天主教的家庭,他的家族是當地貴族的後裔。小時候待過許多不同的國家與城鎮,也因此學會了5種語言(波蘭語,烏克蘭語,俄語,法語及德語)。 中學時期,他隨著母親搬到卡爾可夫(俄國),並進入當地的高中就讀。在高中取得優異的成績後進入卡爾可夫大學就讀。 剛開始他對物理及數學都很感興趣,但很快的就發現,自己沒有作物理實驗的天份,因此專心修讀數學。 在1927年艾根皮爾生來到巴黎,開始與尼曼合作他們的第一篇論文。在1928年,尼曼回到波蘭大學籌組生物統計研究室,並展開一連串與艾根皮爾生的書信往返,他們在信件中討論許多重要的統計問題,藉由相互的提問與質疑,許多困難的問題在兩位大師的腦力激盪下逐漸清晰可解。著名的尼曼-皮爾生定理(Neyman-Pearson lemma),就是這兩位大師的傑作。1938年尼曼接受了美國加州柏克萊大學的邀請,前往數學系任教,擔任機率跟統計學的教師。當時學校內沒有統計系,僅在數學系內設立一個統計實驗室。尼曼認為為了訓練統計的專業人才,應該將統計獨力於數學系之外,成立一個單一系所。經過多年的努力,甚至遭受數學系的強力反對,在1955年尼曼終於成功的在柏克萊成立了統計系,成為美國傑出統計學家重要的搖籃。尼曼除了完成許多統計理論的奠基性工作,他對於將統計應用到其他學門,像是氣象學、生物學、社會科學等,也著有貢獻。他所提出的叢集分布(或譯成散播分佈contagious distribution),就是生物學上用來描述物種散布情況,最常使用的分布模形之一,還有他早年提出的一篇論文,關於分層抽樣(Stratified Sampling)與立意抽樣(purposive selection),對於社會學或其他科學研究上使用的抽樣方法有開創性的影響。尼曼所寫的一些關於實驗設計與統計的書籍,也大大的影響了美國食品與藥品管理局(FDA),用來檢測藥品上市的標準流程。因子分解定理之二定理:未知参数的最大似然估计量存在,那么必为充分估计量的函数。解释:将作为似然函数L(X),那么求似然函数极大,就是使得泛函极大,因此最大似然估计量必为充分估计量的函数。利用充分估计量求出最大似然估计量与最小方差无偏估计量有什么关系?当数据量时,最大似然估计量渐近于真值,且方差也渐近于CR下界,所以说最大似然估计是实际上常用估计量,是渐近优效估计量。 既然最大似然估计挺好,为何学习最小二乘估计?因为线性模型中最小二乘估计非常实用,易于求解。我们后面会讲到。3.3 区间估计定义 设总体X的分布函数F(x;q)含有未知参数q,对于给定值a(0 a1),若由样本确定的两个统计量和使称区间,为参数q的置信区间,一个下限,一个上限,可置信水平,含义就是此区间包含真值的概率为,置信系数为。例子:母体正态分布,求均值的置信水平的区间,。解释:对于这个无偏的最小方差估计子,我们可以将其规范化,那么区间有很多,比如ZlowZup -1.96 1.96 长度3.92 -1.75 2.33 长度4.08两种都满足,这里就是前面的上分位,可以查表格。但是还是第一种对称的区间长度小,精确度高,所以用第一种。当方差未知,则用估计量代替方差,那么去查t分布表格。当方差未知,方差的置信区间,查塔方分布,由于分布不对称,那么区间为两种母体的,书上有各种统计量以及如何查。还有就是单侧置信区间的,和,两种,不外乎还是查表。v 注意:当取=0.05时,如果取100个容量为的样本,可以得到100个置信区间,那么其中大约有95个是包含的. 所以,如果只抽取一个容量为的样本,得到一个具体的置信区间,就认为它包含是不对的,有可能不包括。但只要很小,判断错了的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年郑州电子商务职业学院单招职业适应性考试必刷测试卷及答案1套
- 2026年合肥共达职业技术学院单招职业倾向性考试必刷测试卷及答案1套
- 2026年郑州汽车工程职业学院单招职业倾向性考试题库及答案1套
- 2026年湖南城建职业技术学院单招综合素质考试题库及答案1套
- 2026年陕西省铜川市单招职业适应性考试必刷测试卷及答案1套
- 2026年河南应用技术职业学院单招职业技能测试题库新版
- 2026年汕尾职业技术学院单招综合素质考试题库附答案
- 2026年黄河水利职业技术学院单招职业技能测试必刷测试卷新版
- 2026年信阳职业技术学院单招职业适应性测试题库新版
- 2026年石家庄信息工程职业学院单招职业倾向性测试必刷测试卷必考题
- 绿色生产与公司可持续发展计划
- 心房颤动诊断和治疗中国指南(2023) 解读
- 2024年国家开放大学电大开放英语考试题题库
- 《涡流检测》课件
- 数电票商品税收分类编码表
- MOOC 光学发展与人类文明-华南师范大学 中国大学慕课答案
- 设备安装监理细则
- 《活出最乐观的自己》读书笔记思维导图PPT模板下载
- 高中地理 人教版 选修二《资源、环境与区域发展》第五课时:玉门之变-玉门市的转型发展
- 催化加氢技术(药物合成技术课件)
- 近三年(2023-2023年)广西物理学业水平考试试题
评论
0/150
提交评论