数理统计全套课件_第1页
数理统计全套课件_第2页
数理统计全套课件_第3页
数理统计全套课件_第4页
数理统计全套课件_第5页
已阅读5页,还剩457页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一讲,数理统计,参考书,数理统计西安交大出版社,对客观世界中随机现象的分析产生了概率论;使 概率论成为数学一个分支的奠基人是瑞士数学家 J.伯努利;而概率论的飞速发展则在17世纪微积分学说建立以后. 第二次世界大战军事上的需要以及大工业与管理的复杂化产生了运筹学、系统论、信息论、控制论与数理统计学等学科. 数理统计学是一门研究怎样去有效收集、整理和分析带有随机性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和行动 提供依据和建议的数学分支学科. 统计方法的数学理论要用到很多近代数学知识, 如: 测度论, 函数论、拓扑学、矩阵代数、组合数学等, 但关系最密切的是概率论, 故可以这样说:概率论是数理统计学的基础,数理统计学是概率论的一种应用.,数理统计,数理统计的应 用,数理统计理论与方法的应用, 几乎遍及所有科学技术领域、工农业生产和国民经济的各个部门中. 英国统计学家哈斯利特说:“统计方法的应用是这样普遍,在我们的生活和习惯中,统计的影响是这样巨大,以致统计的重要性无论怎样强调也不过分。”甚至有的科学有还把我们的时代叫做“统计时代”。 1.对国家的资料进行分析,为管理国家提供决策依据. 统计学的英文statistics最早是源于现代拉丁文statisticum collegium (国会)以及意大利文statista (国民或政治家)。 德文Statistik“研究国家的科学”。,2.(1)在第一产业方面,可运用统计计算出各种农产品的需求情况及价格分布,从而指导生产. (2)在生产行业中,统计学可以运用在产品开发、营销、财务管理等方面,从而提高企业的营运能力. 1)例如产品的抽样验收,新研制的药品能否临床应用, 均需用到 假设检验;2)寻求最佳的生产方案要进行 实验设计(正交设计) 和 数据处理; (3)在服务行业中,例如在金融行业中,运用统计技术将各种交易资料加以分类、整理, 从而得到如客户贡献度、客户偏好、存款变动趋势、从而为管理层提供决策依据,等等。3. 统计方法用于地震、气象、水文、地质勘探方面的预报都有一定的效果.,延伸学科 经济统计学,社会统计学,教育统计学,卫生统计学,司法统计学,商务统计学,人口统计学,文化与体育统计学,社会福利与社会保障统计学,生活质量统计学, 环境与生态统计学,自然资源统计学,环境统计学,生态平衡统计学,国际统计学,生物统计学, 工程统计学,心理统计学,档案统计学, 水文统计学,农业统计学,统计语言学,化学统计学,资料采矿,电机统计,统计物理学,文献统计分析,运动统计学.,2-2,数理统计内容,参数估计,假设检验,方差分析,回归分析,区间估计,点 估 计,参数检验,分布检验,方差分析,正交设计,一元回归,多元回归,第一章 抽样和抽样分布,1.1 母体(总体)和子样(样本),总体 研究对象全体元素组成的集合 所研究的对象的某个(或某些)数量指标的全体,它是一个随机变量(或多维随机变量).记为X .,X 的分布函数和数字特征称为总体的分布函数和数字特征.,第1讲,样本 从总体中抽取的部分个体.,称 为总体 X 的一个容量为n的样本观测值,或称样本的一个实现.,用 表示.,样本空间 样本所有可能取值的集合.,个体 组成总体的每一个元素 即总体的每个数量指标,可看作随机变量 X 的某个取值.用 表示.,子样,例: 1000个产品,每个产品区分为一等,二等,次品.,0:661:7212:213,X 0 1 2p,母体,个体,为这一商品的等级,为随机变量.,样本,样本值,母体:,样本:,个体,样品,抽样,烟台大学的学生的身高,随机抽取100名烟大的学生的身高,样本值:,若母体 X 的子样 满足:,(1) 与X 有相同的分布;,(2) 相互独立,,则称 为简单随机子样.,简单随机子样,随机抽样,重复抽样,非重复抽样,独立同分布,近似独立同分布,设总体 X 的分布函数为F (x),则样本,的联合分布函数为,理论分布,三种等价形式,经验分布(刻画子样数据分布情况),频数分布,频率分布,经验分布函数,直方图*,一 子样频数分布和频率分布,设从母体中抽得的子样为,按由小到大顺序排列为,相同数合并后排列为,其中,频数,相应的频数为,且,子样频 数分布,子样频率分布,频率,于是有,例1 从织布车间抽取12匹布检查每匹,布的疵点数,得子样,( 1,0,0,2,1,3,2,0,1,1,2,1 ),求子样频数分布和子样频率分布.,将12个数从小到大排列,相同的合并,,0,0,0,1,1,1,1,1,2,2,2,3,得子样频数表(子样频数分布),0 1 2 3,3 5 3 1,得子样频率表(子样频率数分布),0 1 2 3,1/4 5/12 1/4 1/12,频数,频率,二.经验分布函数,为子样的经验分布函数.,设子样为,对任意实数,子样值中小于或等于,的个数为,则称,同分布函数,一样具有性质:,非降、右连续、,设子样为,对任意实数,子样值中小于或等于,的个数为,则称,事件A,事件A的频率,由子样频数分布得子样经验分布函数:,子样经验分布函数图形,1,o,x,o,o,o,例1的子样经验分布函数:,例1的子样经验分布函数图形,1,x,由Bernoulli大数定律, 对任意,即,子样经验分布函数,总 体分布函数,依概率收敛于,对固定x成立,事件A的频率,事件A的概率,局部性,格利汶科(W.Glivenko)定理,当 时, 经验分布函数依概率,关于x均匀地收敛于母体分布函数,即,对任意x成立,全局性,(1)频率直方图,样本数据,频率直方图,经验分布函数,某班50名学生概率考试成绩如下:,75 65 80 81 92 63 77 79 54 98,85 72 66 84 83 60 82 78 64 90,81 78 76 86 68 76 73 71 88 87,三.直方图*,65 57 46 89 78 66 87 79 84 78,96 88 67 38 67 75 83 82 68 85,例2,分组:,横坐标:38,745), 45, 52),纵坐标(频数/50)/7 频率组距(底)纵坐标(高),频 数分布表,频率直方图,继而画出,38,45),45,52),5259),5966),6673),7380),8087),8794),9499),组 限,组频数,1,1,2,5,8,12,12,7,2,1,2,3,4,5,6,7,8,9,组 号,频数分布表,频率直方图,近似正态密度函数,38 45 52 59 66 73 80 87 94,分数,12/350 10/350 8/350 6/350 4/350 2/350,频率直方图,y,总体数量指标落在第k 组的概率p,x,子样,中不含未知参数,则称,为统计量.,定义,统计量,的连续函数,例,是统计量,不是统计量.,是未知参数,则,顺序统计量,将子样值,由小到大,排列得,定义 r.v.,则称统计量,为顺序统计量.,样本数字特征,样本矩,阶原点矩,样本均值,样本二阶中心矩,阶中心矩,当样本以频数分布给出时,样本均值,样本二阶中心矩,样本中位数,样本极差,样本方差,母体 的数字特征,由Chebyshev 大数定律,知如下的依概率收敛,例3 从一批机器零件毛坯中随机地抽取10件, 测得其重量为(单位: 公斤): 210, 243, 185, 240, 215, 228, 196, 235, 200, 199求这组子样的均值、方差、中位数与极差.,解,将子样由小到大重排,则,例4 求例1中子样的,子样频数分布,0 1 2 3,3 5 3 1,解,子样容量,中位数取第7个数,作业 P.29 8、10,附录一: 大数定律与中心极限定理,的规范化,大数定律,中心极限定理,统计,概率,定义,a 是一常数,,(或,预备知识,设非负 r.v. X 的期望 E( X )存在,则对于任意实数 0,证 仅证连续型 r.v.的情形,设随机变量 X 的k阶绝对原点矩 E( |X |k)存在,则对于任意实数 0,推论 1,设随机变量 X 的方差 D ( X )存在,则对于任意实数 0,推论 2 切贝雪夫( chebyshev)不等式,或,当 2 D(X) 无实际意义,马尔可夫 ( Markov ) 不等式,定义,a 是一常数,,则称 r.v. 序列,服从大数定律,是一系列 r.v.,设,若,一 大数定律,方差都存在,1.马儿可夫大数定律,则 r.v. 序列,服从大数定律,2.Chebyshev 大数定律,两两不相关,,设 r.v. 序列,方差存在且有共同的上界,推论1,有,推论2:,两两不相关,,设 r.v. 序列,3.辛钦大数定律:,独立同分布,,设 r.v. 序列,存在有限,4.贝努里(Bernoulli) 大数定律,设 nA 是 n 次独立重复试验中事件 A 发生的次数, p 是每次试验中 A 发生的概率, 则,有,或,证 引入 r.v. 序列Xk,设,则,相互独立,,记,由 Chebyshev 不等式,故,互独立具有相同的分布,且,记,辛钦大数定律,推广,则,则,独立同分布的中心极限定理,设随机变量序列,独立同一分布, 且有期望和方差:,则对于任意实数 x ,定理 1,二 中心极限定理,注,即 n 足够大时,Y n 的分布函数近似于标准正态随机变量的分布函数,记,近似,近似服从,德莫佛拉普拉斯中心极限定理 (DeMoivre-Laplace ),设 Y n B( n , p) , 0 p 1, n = 1,2,则对任一实数 x,有,即对任意的 a 0时收敛,称为 函数,具有性质,证,用数学归纳法,,当,的密度函数,非负,,时,其密度函数,的数值,当,时,其密度函数,当,所以(1)式成立.,设,时(1)式成立,时,非负,,时,其密度函数,当,时,由卷积公式得,当,令,证毕,其中,的特征函数,推论,n=2,n = 3,n = 5,n = 10,n = 15,分布密度图形,分布的性质,证,证,由 的性质得,2,c,推广,个相互独立的,变量之和仍是,变量,其自由度等于各,变量相应自由度,之和.,已知,证,相互独立,证毕,相互独立,,由性质,据中心极限定理,当,时有,例如,5,10,15,20,0.02,0.04,0.06,0.08,0.1,n = 10,利用性质 查,查正态分布表,此分布称为自由度为n 的t 分布,简记t(n).,且 X与Y,设,定理3,相互独立,则,的密度函数为,(2),(红色的是标准正态分布),证,先求,的分布密度函数,时,Z 的分布函数,当,由于Z 值非负,,当,时,利用独立随机变量之商的分布密度公式得,的分布密度为,令,t 分布的性质,1f n(t)是偶函数,2,t 分布的上 分位数 t 与双侧分位数t/2,时,由2,当,有,n = 10,t,-t,t/2,-t/2,/2,/2,此分布称为第一自由度为n,第二自由度为 m 的F 分布,简记为F(n,m).,的密度函数为,X, Y 相互独立,,设,则,第三讲 F 分布,定理3,第3讲,m = 10, n = 4m = 10, n = 10m = 10, n = 15,m = 4, n =10m = 10, n = 10m = 15, n = 10,证,令,则密度函数分布为,利用独立随机变量之商的分布密度公式得,的分布密度为,令,由于F 值非负,,当,时,证毕.,F 分布的性质,证略.,证,例1,查P.268表,故,解,F(n,m),证,例2,证明:,设,令,例3 在总体 中,随机抽取一个容量为36的样本,求样本均值 落在50.8到53.8之间的概率.,解,故,例4 设总体X 的概率密度函数为,为总体的样本,求,(1),的数学期望与方差,(2),解(1),近似,(2),由中心极限定理,例5 设r.v. X 与Y 相互独立,X N(0,16), Y N(0,9) , X1, X2 , X9 与Y1, Y2 , Y16 分别是取自 X 与 Y 的简单随机样本, 求统计量,所服从的分布.,解,从而,例6 设总体,的样本,为总体 X,试确定常数 c , 使 cY 服从,分布.,解,故,因此,例7 设,是来自N ( , 2 )的,简单随机样本,是样本均值,服从什么分布?,解,抽样分布的重要结论(定理),() 一个正态母体,与,相互独立.,设母体,子样为( ),则,标准正态的情形,证明:,作第一行为,的,阶正交矩阵,作正交变换,则有,可得,由,(注: 独立标准正态变量在正交变换下的不变性),二阶矩公式,由独立标准正态变量在正交变换下的不,也是独立标准正态,变性定理可知,变量, 因而,与,相互独立, 即,与,相互独立,得 ;, ;,由,分布的定义,得.,证二:见附录二,得,与,相互独立;,设母体,子样为( ),(1),(2),则,(3),一般标准正态的情形,令,且相互独立,证:,与,于是,相互独立.,(4),设母体,子样为( ),则,N(0,1),( II ) 两个正态母体,相互独立的简单随机子样.,令,设,与,分别是来,自正态母体,与,的,则,若,则,(5),则,相互独立的简单随机子样.,设,与,分别是来,自正态母体,与,的,与,相互独立.,(6),习题P30. 13,14,16,17,19,这里,分布与二次型,(1).设,则,证明:,因为,所以存在正交矩阵 使得,令,附录一:,则故比较两边的特征函数得 故,所以存在正交矩阵 使得,令,则,(2).设,独立,则,证明:,独立,独立,对 分布的自由度的说明,1) 有 个极大线性无关行,2) 的行中有 个是其余的线性表出,3) 的 个元素中有 个线性约束关系,的变量,有 个独立的线性关系,即,的自由度为,作为特例:,相互独立,它们之间不可能有线性关系,所,分解定理 (柯赫伦定理),的非负二次型, 则,证,设,其中,是秩为,的,必要性就是 分布的可加性.下证充分性.,(3).,且独立,设,是正交阵,且独立,则,设,其中,且 独立.,(4).,证明:,由于 故存在正交阵,使得,记,由于,必有,因而,即,由于 是幂等阵,故 也,有同样的性质.,所以存在正交矩阵,因此,所以,独立.,是幂等阵,(I)的另一种证明,所以有 和 且相互独立.,附录二:,第3讲结束,参数估计-通过子样对总体未知参数进行估计,点估计的评判标准,内 容,参数的点估计,参数的区间估计,第二章,参数估计,第4讲,第四讲,什么是参数估计?,参数是刻画总体某方面概率特性的数量.,当此数量未知时,从总体抽出一个子样,用某种方法对这个未知参数进行估计就是参数估计.,例如,X N ( , 2),若, 2未知, 通过构造样本的函数, 给出它们的估计值或取值范围就是参数估计的内容.,第4讲,参数估计的类型,点估计 估计未知参数的值,区间估计 估计未知参数的取值范围, 并使此范围包含未知参数 真值的概率为给定的值.,思想,用样本 k 阶矩作为总体 k 阶矩的估计量, 建立含有待估参数的方程, 从而解出待估参数,矩估计,存在且有界(辛钦大数定律),样本 参数,依据,2.1 点估计方法,方法,一般, 设待估计的参数为,总体的 r 阶矩记为,子样 的 r 阶矩为,令,解上述方程组 , 得 k 个统计量:,未知参数 1, ,k 的矩估计量,一般, 不论总体服从什么分布, 总体期望 与方差 2 存在, 则它们的矩估计量分别为,特例,事实上,按矩法原理,令,例1 设从某灯泡厂某天生产的灯泡中随机抽取10只灯泡,测得其寿命为(单位:小时) 1050, 1100, 1080, 1120, 1200 1250, 1040, 1130, 1300, 1200试用矩法估计该天生产的灯泡的平均寿命及寿命分布的方差.,解,例2 设总体 X E(), X1, X2, Xn为总体的 样本, 求 的矩法估计量.,解,令,故,例3 设总体 X U (a, b), a, b 未知, 求参数 a, b 的 矩法估计量.,解,由于,令,解得,例4 设总体 X ,解, 其密度函数为,求 和 的矩估计量.,令,令,解得,最大似然估计法,一次试验就出现的 事件有较大的概率,例如: 有两外形相同的箱子,各装100个球 一箱 99个白球 1 个红球 一箱 1 个白球 99个红球,现从两箱中任取一箱, 并从箱中任取一球,结果所取得的球是白球.,答: 第一箱.,问: 所取的球来自哪一箱?,最大似然法,小概率事件实际不可能,概率最大化原则,若 X 为离散型随机变量, 其分布律为,样本的似然函数: X1, X2, Xn的概率分布,或,若 X 连续, 取 f (x, )为X 的密度函数,似然函数为,2,似然函数,1,称这样得到的,为参数 的极大似然估计值,称统计量,为参数 的极大似然估计量,最大似然法,若 L可微, 解似然方程:,若 L不可微, 需要其他方法.,未知参数可以不止一个, 如1, k,设X 的密度(或分布)为,则定义似然函数为,多参数情形的最大似然法,若,关于1, , k可微,则称,为似然方程组,若对于某组给定的样本值 x1, x2, xn,参数 使似然函数取得最大值, 即,则称,为1, k 的极大似然估计值,(若 L不可微, 需用其它方法).,例5 设总体 X N (, 2), x1, x2, xn 是 X 的样本值, 求 , 2 的极大似然估计.,解, 2 的最大似然估计量分别为,似然方程组为,例6 设 X U (a,b), x1, x2, xn 是 X 的一个样本值, 求 a , b 的极大似然估计值与极大似然估计量.,解,X 的密度函数为,似然函数为,似然函数要非零,只有当所有的 落在 中,选取 使所有的 落在 中,令,xmin = min x1, x2, xnxmax = max x1, x2, xn,取,为 a , b 的极大似然估计值.,似然函数要获得最大值,极大似然估计的不变性,设 是 的极大似然估计值, u( ),( )是 的函数, 且有单值反函数, = (u), uU 则 是 u( ) 的极大似然估计值.,如 在正态总体N (, 2)中, 2的极大 似然估计值为,是 2的单值函数, 且具有单值,反函数,故 的极大似然估计值为,lg 的极大似然估计值为,频率替换法,利用事件A 在 n 次试验中发生的频率,作为事件A 发生的概率 p 的估计量,伯努力大数定律,解 由,查表得,于是 的估计值为,中位数,(对正态总体参数的特殊估计),设,若,是,的中位数, 则对任意,有,近似,即当 较大时,,近似,所以,,当 较大时可取,设总体,为子样极差,则,由上可见:,估计,产生平均平方,误差为,用,标准差为,其,系数,可查表 2-1(P.41),样本极差,用子样极差的函数作为总体均方差的估计,值查表2-1(P.41),当,时, 将子样数据等分成若干组, 每,组数据不超过10个, 取各组极差的平均,然后用,估计,查 时,,取每一组中数据的个数.,作业 P.76 第二章,4 6 8,第4讲结束,2.2 估计量的优劣标准,对于同一个未知参数,不同的方法得到的估计量可能不同,于是提出问题,常用标准,(1) 无偏性,(3) 有效性,(2) 相合性,第五讲,第5讲,若,则称,是 的无偏估计量.,定义,我们不可能要求每一次由子样得到的,估计值与真值都相等,但可以要求这些估,计值的期望与真值相等.,若,则称,是 的渐进,无偏估计量.,称为估计量,的偏差.,第5讲,是母体 X 的子样,证明: 不论 X 服从什么分布(但期望存在),总是,的无偏估计量.,证,例1 设母体X 的 k 阶矩,存在,因而,由于,特别地,子样二阶原点矩,是母体,是母体期望 E( X ) 的,子样均值,无偏估计量,的无偏,二阶原点矩,估计量,例2 设总体 X 的密度函数为,为常数,为 X 的一个样本,证明,与,都是,的无偏,估计量.,证,故,是 的无偏估计量.,令,即,故 n Z 是 的无偏估计量.,(1),(2),证,前已证,证明,(n 1) 为子样.,例3 设总体 X 的期望 与方差 存在,不是 的无偏估计量;,是 的无偏估计量.,重要公式,因而,故,证毕.,注意区别,当n 较大时,,子样方差,子样二阶中心矩,两者关系,由重要公式,例4 设,是总体,的样本 ,试判别,的估计量,是否具,有无偏性?,解,否,证明如下:,于是,已知,从而,由例4可见:,虽有,但未必有,一般,若,是 的无偏估计,,的无偏估计.,不是,是,线性函数,非线性函数,例5 设,是总体 X 的一个样本 ,XB(n , p) n 1 , 求 p 2 的无偏估计量.,分析 :由于子样矩是母体矩的无偏估计量以及数学期望的线性性质, 只要将未知参数表示成母体矩的线性函数, 然后用子样矩作为母体矩的估计量, 这样得到的未知参数的估计量即为无偏估计量.,令,故,因,是 的参数估计,故,解,定义 设 是母体参数,则称,是母体参数 的相合(或一致)估计量.,的估计量. 若对于任意的 , 当n 时,相合性,依概率收敛于 , 即,相合性估计量仅在样本容量 n 足够大时,才显示其优越性.,关于相合性的重要结论,1. 存在且有界时,子样 k 阶矩是母体 k 阶矩的相合估计量.,证明:,由大数定律知,样本 的函数,独立同 分布.,有界时,是 的一致估计量.,2. 设 是 的无偏估计量且 , 则,都是 的无偏估计量, 若,则称 比 有效.,定义,设,若 的所有二阶矩存在的无偏估计量,中存在估计量,使对任意无偏估计量,有,则称,是 的最小方差无偏估计(量) .,的求法要用到充分统计与完备统计.,从略,问题,无偏估计的方差是否可以任意小?,若答案否定,那么它的下限是什么?,这个下限能否达到?,为此引入下面定理, 即,罗-克拉美(C.R.Rao H. Cramer)不等式,定理,设,为实数轴上的开区间,,是母体 X 的分布密度族,,是 X,的子样,是 的无偏估计.,若以下三条件(即正规条件)满足:,(1) 集合,与 无关;,(2),存在,且对 中一切, 有,和,其中,(3),则,罗-克拉美)不 等 式,若离散母体X 的分布列为,且满足,定理中的正规条件, 则罗-克拉美不等式是,称 为 的优效估计量.,当 时,称 为无偏估计量方差的下界.,在满足正规条件的估计量族范围内优,效估计是最小方差无偏估计.,设 的无偏估计为, 则称,为估,计量,的效率,记为,若估计量,满足,则称 为 的渐近优效估计量.,所以,比,有效.,是 的无偏估计量,问哪个估计量有效?,由例2可知, 与 都,为常数,例6 设母体 X 的密度函数为,解 ,,例7 设总体 X,且 E( X )= , D( X )= 2,为总体 X 的一个样本,证明,是 的无偏估计量,(2) 证明,比,有效,证 (1),(1) 设常数,(2),而,结论,算术均值比加权均值有效.,例如 X N( , 2 ) , ( X 1 ,X 2 ) 是一子样.,都是 的无偏估计量,由例6(2) 知,最有效.,例8 设母体 X 的密度函数为,为X 的一个子样值.,求 的最大,为常数,解 由似然函数,似然估计量, 并判断它是否 的优效估计., 的最大似然估计量为,它是 的无偏估计量.,由,故 是 的优效估计.,例9,为常数,则 是 的无偏、优效、相合估计量.,证 由前例 知 是 的无偏、优效估计量.,所以 是 的相合估计量, 证毕.,第5讲结束,作业 P.77 13 14,2.3 区间估计,引例 已知 X N ( ,1),不同样本算得的 的估计值不同,因此除了给出 的点估计外, 还希望根据所给的子样确定一个随机区间, 使其包含参数真值的概率达到指定的要求., 的无偏、有效点估计为,随机变量,常数,第六讲,第6讲,如引例中,要找一个区间,使其包含 的真值的概率为0.95. ( 设 n = 5 ),取,查表得,这说明,即,称随机区间,为未知参数 的置信度为0.95的置信区间.,反复抽取容量为5的样本,都可得一个区间,此区间不一定包含未知参数 的真值, 而包含真值的区间占95%.,置信区间的意义,若测得 一组样本值,它可能包含也可能不包含 的真值, 反复,则得一区间,(1.86 0.877, 1.86 + 0.877),抽样得到的区间中有95%包含 的真值.,算得,时,区间的长度为, 达到最短.,2. 当置信区间为,问题,答复,1. 不唯一.,取 = 0.05,设 为待估参数, 是一给定的数,( 01). 若能找到统计量, 使,则称,为 的置信概率为1 - 的,置信区间或区间估计.,置信下限,置信上限,置信区间的定义, 反映了估计的可靠度, 越小, 越可靠.,置信区间的长度 反映了估计精度, 越小, 1- 越大, 估计的可靠度越高,但, 确定后, 置信区间 的选取方法不唯一, 常选最小的一个.,几点说明,越小, 估计精度越高.,这时, 往往增大, 因而估计精度降低.,处理“可靠性与精度关系”的原则,求参数置信区间,保证可靠性,提 高精 度,寻找一个子样的函数,它含有待估参数, 不含其它未知参数, 它的分布已知, 且分布不依赖于待估参数 (常由 的点估计出发考虑 ).,例如,求置信区间的步骤, 称为枢轴量,取枢轴量,给定置信度 1 ,查表计算a , b ,使得,( 引例中,由,解出,得置信区间,引例中,置信区间常用公式,一. 非正态母体的情形 (大子样),设母体的期望,与方差,作区间估计.,均未知, 用大子样( )对,取,近似,由,例1 从学校新生中随机地选50名,进行田径,项目测试, 由测试成绩得子样均值,子样方差,求全校新生平均田径,成绩的置信区间, 置信概率为95%.,解,由(1)式得,置信下限,置信上限,所求置信区间为,若母体,容量为,的子样中,恰有,个1,试对,作区间估计.,代入(1)式得,(2),例2 自一大批产品中抽取100个样品, 其中有60个一级品, 求这批产品的一级品率 p 的置信度为0.95的置信区间.,解,将,代入(2)式得,注,另一解法见后面附录,(一) 一个正态总体的情形,(1) 方差 2已知, 的置信区间,推导,由,选取枢轴量,二. 正态母体的情形,由,确定,解,得 的置信概率为 的置信区间为,(2) 方差 2未知 , 的置信区间,由,确定,故 的置信区间为,推导 选取枢轴量,(3) 当 未知时, 方差 2 的置信区间,选取,得 2 的置信区间为,则由,(4)*,当 已知时, 方差 2 的 置信区间,取枢轴量,得 2 的置信度为 置信区间为,由概率,例3 某工厂生产一批滚珠, 其直径 X 服从,解 (1),即,正态分布 N( 2), 现从某天的产品中随机,(1) 若 2=0.06, 求 的置信区间 (2) 若 2未知,求 的置信区间 (3) 求方差 2的置信区间.,抽取 6 件, 测得直径为,15.1 , 14.8 , 15.2 , 14.9 , 14.6 , 15.1,置信概率,均为0.95,由给定数据算得,由公式 (3) 得 的置信区间为,(2) 取,查表,由给定数据算得,由公式 (5) 得 2 的置信区间为,(3) 选取枢轴量,查表得,由公式 (4) 得 的置信区间为,为取自母体 N ( 1 12 ) 的子样,为取自母体 N ( 2 22 ) 的子样,置信概率为 1 ,分别表示两子样的均值与方差,(二) 两个正态母体的情形,相互独立,的置信区间为,(1),已知, 考虑 的置信区间,(2) 未知( 但 ) 的置信区间,的置信区间为,其中,取枢轴量,(3)方差比,的置信区间 ( 1 , 2 未知),因此, 方差比,的置信区间为,取枢轴量,例4 某厂利用两条自动化流水线罐装番茄酱. 现分别 从两条流水线上抽取了容量分别为13与17的两个相互独立的子样,与,已知,假设两条流水线上罐装的番茄酱的重量都服从正态分布, 其均值分别为 1与 2,(1) 若它们的方差相同,求均值差,若不知它们的方差是否相同, 求它们的,方差比的置信概率为 0.95 的置信区间,的置信概率为0.95 的置信区间;,解,查表得,由公式(7) 的置信区间为,(1) 取枢轴量,(2) 枢轴量为,查表得,由公式(10)得方差比 的置信区间为,(三) 单侧置信区间,定义 给定 (0 50, 的置信区间,的置信区间为,因此,近似,(二).(2)的特例1,附录,令 Zi = Xi -Yi , i = 1,2, n, 可以将它们看成来自正态母体 Z N ( 1 2 , 12 + 22) 的子样,仿单个正态母体公式(4) 的置信区间为,未知, 但 n = m , 的置信区间,(二).(2)的特例2,若母体 X 的分布未知, 但子样容量很大,若2已知, 则 的置信度为1 - 的置信区间可取为,若2未知, 则 的置信度为1 - 的置信区间可取为,非正态母体均值的区间估计(补充),由中心极限定理, 可近似地视,设 X 服从参数为 p 的0-1分布, 子样为,推导 p 的置信度为 1 的置信区间公式.,解,( n 50 ),近似,令,所以参数 p 的置信区间为( p1, p2 ),代入上式得,第6讲结束,参数假设检验,非参数检验,双侧,单侧,第三章假设检验,内 容,3.1 假设检验的基本概念,若对参数一无所知,用参数估计的方法处理,若对参数有所了解,但有怀疑猜测需要证实之时,用假设检验的来处理,第7讲,假设检验是指施加于一个或多个母体的概率分布或参数的假设. 为判断所作的假设是否正确, 从母体中抽取子样,根据子样的取值, 按一定原则进行检验, 然后作出接受或拒绝所作假设的决定. 假设检验所以可行,其理论背景为实际推断原理,即“小概率原理”,第7讲,某厂生产的螺钉,按标准强度为68/mm2, 而实际生产的强度X 服N(,3.62 ). 若E(X)=68,则认为这批螺钉符合要求,否则认为不符合要求.现从整批螺钉中取容量为36的子样,若均值为:,引例,(1) (2),问这批螺钉符合要求吗?,H0 : = 68 (原假设),H1 : 68 (备择假设),为此提出如下假设:,若原假设正确,则,取 ,则,反证法:,构造矛盾:不可能事件(小概率事件)发生了,由,任务:必须在原假设与备择假设之间作一选择,接受域:( 66.824 , 69.18 )(实际上没理由拒绝),现 落入 则 原假设,接受域 接受,拒绝域 : ( ,66.824 ) ( 69.18 , + ),的取值区间,(2),(1),拒绝域 拒绝,由引例可见,在给定的前提下,接受还是拒绝原假设完全取决于子样值, 因此所作检验可能导致以下两类错误的产生:,正确,正确,假设检验中的两类错误,犯第一类错误的概率通常记为 犯第二类错误的概率通常记为 ,任何检验方法都不能完全排除犯错,假设检验的指导思想是控制犯第一类,误的可能性.理想的检验方法应使犯两类,错误的概率都很小,但在子样容量给定的,情形下,不可能使两者都很小,降低一个,往往使另一个增大.,错误的概率不超过, 然后,若有必要,通,过增大子样容量的方法来减少 .,犯第一类错误的概率就是显著性水平,P(拒绝H0|H0为真)=,犯第一类错误时:,在假设检验中,进行判断时:,这两种说法,在数学上是一致的.,P(统计量落入拒绝域|假定H0为真)=,犯第二类错误的情形相对复杂以正态分布为例,承认H0|H0为假,犯第二类错误时:,其中,对于固定的,命题,当子样容量确定后,犯两类错误的概率不可能同时减少.,以正态分布为例,当H0不真时,参数值越接近真值, 越大.,命题,固定,命题,通过增大样本容量可以减小第二类误差.,关于原假设与备择假设的选取,在控制犯第一类错误的概率 的原则下,使得采取拒绝H0 的决策变得较慎重,即H0 得到特别的保护.因此可以将“拒绝后产生的后果严重的结论”设为H0。,注,假设检验步骤,其中,根据实际问题所关心的内容,建立H0与H1,在H0为真时,选择合适的统计量V,给定显著性水平,其对应的拒绝域,双侧检验,左侧检验,根据子样值计算V,并作出相应的 判断:AW?.,右侧检验,由H1确定拒绝域W,3.2 均值的假设检验,拒绝域的推导,设 X N( 2),2 已知,需检验:,H0: 0 ; H1: 0,构造统计量,给定显著性水平与子样值(x1,x2,xn ),一个正态母体,P(拒绝H0|H0为真),所以本检验的拒绝域为,W:,U 检验法, 0, 0, 0, 0, 0,u 检验法 (02 已知), 0, 0, 0, 0, 0,t检验法 (2 未知),例1 在正常情况下每台织布机一小时内经纱平均断头数为0.975根. 20台织布机经工艺改革后每台一小时内经纱平均断头数为0.915根,标准差为0.16根.检验工艺改革后经纱平均断头数与改革前有无显著差异?,假设断头数 X N ( , 2), 显著性,水平取 0.05.,解,选用统计量:,拒绝域 W :,故接受原假设, 即改革后经纱平均断头数与改革

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论