第5章_总体分布、样本分布_第1页
第5章_总体分布、样本分布_第2页
第5章_总体分布、样本分布_第3页
第5章_总体分布、样本分布_第4页
第5章_总体分布、样本分布_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、广东工业大学管理学院广东工业大学管理学院第5章 总体分布、样本分布 与参数估计提示 如何依据样本的信息推断总体的特征参数估计问题有关概率概念的回顾通俗地说:通俗地说:概率是衡量某一特定事件的机会或可能性的数概率是衡量某一特定事件的机会或可能性的数值度量值度量。它可以用来度量如下一些问题中的可能性。它可以用来度量如下一些问题中的可能性如果提高产品的价格,则销售下降的如果提高产品的价格,则销售下降的“机会机会”有多少?有多少?某种新的装配作业方法会在多大某种新的装配作业方法会在多大“可能性可能性”上提高生上提高生产率?产率?某项工程按期完成的某项工程按期完成的“可能性可能性”有多大?有多大?新投资

2、赢利的新投资赢利的“机会机会”有多大?有多大?概率在决策过程中起着重要作用,它提供了一种机制来衡概率在决策过程中起着重要作用,它提供了一种机制来衡量、表达和分析与未来事件相联系的不确定性。量、表达和分析与未来事件相联系的不确定性。一些相关概念随机实验随机实验 至少有两个或两个以上的结果但事先不知道会发至少有两个或两个以上的结果但事先不知道会发生哪个结果的过程。生哪个结果的过程。随机事件(简称为事件)随机事件(简称为事件) 一个随机实验的可能结果称为一个随机实验的可能结果称为基基本事件本事件。所有基本事件的集合称为。所有基本事件的集合称为总体(样本空间)总体(样本空间)。总。总体的子集称为体的子

3、集称为随机事件随机事件。概率的定义(见教材概率的定义(见教材p2)。)。任何满足定义中三个条件的函数任何满足定义中三个条件的函数P(A)都可以作为一种合适都可以作为一种合适的概率分配方式。常用的概率分配方式有:的概率分配方式。常用的概率分配方式有:古典法古典法(抛掷(抛掷硬币)、硬币)、相对频数法相对频数法(产品销路调查)和(产品销路调查)和主观法主观法(体育比(体育比赛结果预测)。赛结果预测)。5.1 总体分布与样本分布本章的本章的总体总体(Population or Universe)是指研究对象是指研究对象的全体。并且先研究只有一个特征(指标或变量)的全体。并且先研究只有一个特征(指标或

4、变量)的总体。这样表述总体特征的变量可以看成一个的总体。这样表述总体特征的变量可以看成一个一维随机变量一维随机变量。例如 我们在某个研究中关注广州市的某区居民的某年经济收入情况, 我们在这个问题中的总体就是广州市某区居民的全体, 但我们实际上关注的是该区居民该年的经济收入这样一个特征, 我们可以用一个变量X来表征我们任意选取的一个该区居民该年的收入。则X是一个一维随机变量,而我们研究的总体实际上是这一随机变量取值的全体。因此,因此,总体也可理解为一个随机变量取的值全体。总体也可理解为一个随机变量取的值全体。更准确地说,一维随机变量是指反映某总体特征取更准确地说,一维随机变量是指反映某总体特征取

5、值,且具有如下特点的变量值,且具有如下特点的变量X:(1)在同一条件下可以无限次重复取值;)在同一条件下可以无限次重复取值;(2)取值的结果可能有多个,但不确定;)取值的结果可能有多个,但不确定;(3)事先不知道取值结果)事先不知道取值结果(Outcome)。由此可知,随机变量可以理解为“随机实验(随机地抽取一个个体)”结果的数值性描述。随机变量取值的概率分布,就称为随机变量取值的概率分布,就称为总体分布总体分布。一个随机变量取给定值或属于一给定值集合的概率一个随机变量取给定值或属于一给定值集合的概率所确定的函数称为该随机变量的所确定的函数称为该随机变量的概率分布概率分布。概率分。概率分布反映

6、的是随机变量所有可能取值的概率的分配方布反映的是随机变量所有可能取值的概率的分配方式。一旦与所有可能结果相联系的概率被确定,则式。一旦与所有可能结果相联系的概率被确定,则概率分布完全确定。概率分布完全确定。X x1 x2 xn P(X) p1 p2 pn 无论是理论研究还是解决实际问题,知道一个随机变量取无论是理论研究还是解决实际问题,知道一个随机变量取各种可能值的概率情况(概率分布)都是十分重要的。各种可能值的概率情况(概率分布)都是十分重要的。离散随机变量的概率分布。设离散随机变量的概率分布。设X为取相异为取相异值值x1, x2, xn, 的离散随机变量,则函的离散随机变量,则函数数iix

7、XnixXPxf, 0, 2 , 1),()(称为称为X的概率分布或概率分布函数的概率分布或概率分布函数(probability distribution function, PDF),其,其中中P(X=xi)为离散随机变量为离散随机变量X取取xi值的概率。值的概率。设设X是连续随机变量,是连续随机变量,x是是X取的值,若函数取的值,若函数f(x)满满足下列条件:足下列条件:)()(1)(0)(bxaPdxxfdxxfxfba则称则称f(x)为为X的概率密度函数的概率密度函数(probability density function, PDF),其中,其中P(ax b)表示表示X在区间在区间(

8、a, b取值的概率。取值的概率。有时也称下式定义的函数为有时也称下式定义的函数为X的的概率分布函数概率分布函数:xdxxfxF)()(连续型随机变量取给定值的概率为零。连续型随机变量取给定值的概率为零。f(x)xab)()(bxaPdxxfba从重复抽样的角度看从重复抽样的角度看“每次从总体中随机抽取个体每次从总体中随机抽取个体”可理解为一个随机实验。可理解为一个随机实验。随机样本随机样本:表征:表征n次抽取个体的随机抽样的一组随次抽取个体的随机抽样的一组随机变量机变量X1, X2, , Xn.样本观察值(样本数据)样本观察值(样本数据):n次随机抽样的结果:次随机抽样的结果:x1, x2,

9、, xn(称为随机变量(称为随机变量X1, X2, , Xn的样本观的样本观察值)。察值)。n称为称为样本容量样本容量。注:注:x1, x2, , xn也可以看成随机变量也可以看成随机变量X的的n次重复抽次重复抽样的结果。样的结果。大写的英文字母:随机变量小写的英文字母:随机变量的观察值例例 抛掷一个均匀的骰子,假设骰子的六个面分别抛掷一个均匀的骰子,假设骰子的六个面分别标有数字标有数字1,2,3,4,5,6。用。用X标识骰子落地后标识骰子落地后朝上一面的数字。则朝上一面的数字。则X是离散随机变量。是离散随机变量。对该随机变量进行一次抽样,其实就是掷该骰子对该随机变量进行一次抽样,其实就是掷该

10、骰子一次。一次。第第i次抽样,就是第次抽样,就是第i次掷骰子,其结果的表示:次掷骰子,其结果的表示:事前事后Xixi易见,易见,Xi其实就是其实就是X5.1.3 样本分布函数设设x1, x2, , xn是随机变量是随机变量X的样本观察值,将它的样本观察值,将它们按大小顺序排列,排序后为们按大小顺序排列,排序后为x1 x2 xn , ki为为小于小于xi+1的样本值出现的累积频次,的样本值出现的累积频次,n仍为样本容仍为样本容量,则可得到样本累积频率分布函数如下量,则可得到样本累积频率分布函数如下xxxxxnkxxxFniiin当当当, 1,/, 0)(11样本累积频率分布函数又简样本累积频率分

11、布函数又简称为样本(累积)分布函数,称为样本(累积)分布函数,它是总体(累积)分布函数它是总体(累积)分布函数的近似,的近似,n越大,就越接近总越大,就越接近总体分布,如图。体分布,如图。对于有限总体,其对于有限总体,其累积概率分布函数累积概率分布函数不连续不连续, 是阶跃式的。是阶跃式的。样本的累积分布函样本的累积分布函数也是阶跃式的。数也是阶跃式的。如图所示。如图所示。样本(累积)分布函数是总体(累积)分布函数的样本(累积)分布函数是总体(累积)分布函数的近似,近似,n越大,就越接近总体分布越大,就越接近总体分布Highest Year of School Completed2019181

12、71615141312111098765430MissingCumulative Percent1201008060402001991年美国一般社会调查(1991 U.S. General Social Survey)数据中被调查对象”接受学校教育的最高年限”的样本累积分布图5.1.4 格利文科(Glivenko)定理(样本分布与总体分布的关系)格利文科定理格利文科定理:当:当n趋于无穷大时,趋于无穷大时,Fn(x)依概率依概率1(关于(关于x)均匀地收敛于总体分布)均匀地收敛于总体分布F(x).格利文科定理的数学表达如下:格利文科定理的数学表达如下:1)0)()(suplim(xFxFPnx

13、n格利文科定理是用样本特征推断总体特征的依据格利文科定理是用样本特征推断总体特征的依据。这表明当这表明当n充分大时,样本分布充分大时,样本分布Fn(x)是总体分布是总体分布F(x)的一个良好近似。的一个良好近似。是连续随机变量若是离散随机变量若XdxxxfXpxxnxiiiPnii,)(,111是连续的若是离散的若XdxxfxXpxxxnsiiiPnii,)()(,)()(1122122122例如,利用格利文科定理可以证明:例如,利用格利文科定理可以证明:即样本均值依概率收敛于总体均值。即样本方差依概率收敛于总体方差。5.1.5 随机样本的均值函数对于随机样本对于随机样本X1, X2, , X

14、n, 定义样本的定义样本的均值函均值函数数(简称为(简称为样本均值样本均值)为)为niiXnX11由于式中由于式中Xi是随机样本(随机变量),因此作为是随机样本(随机变量),因此作为随机样本函数的随机样本函数的 是随机变量是随机变量X比较样本数据的均值比较样本数据的均值niixnx11它可以看成是它可以看成是 的观察值的观察值X5.1.6 随机样本的方差函数对于随机样本对于随机样本X1, X2, , Xn, 定义样本的定义样本的方差函方差函数数(简称为(简称为样本方差样本方差)为)为niiXXnS122)(11由于式中由于式中Xi是随机样本(随机变量),因此作为是随机样本(随机变量),因此作为

15、随机样本函数的随机样本函数的S2是随机变量是随机变量比较样本数据的方差比较样本数据的方差niixxns122)(11它是它是S2的观察值的观察值5.2 统计量与统计量的分布统计量统计量是不含未知参数的、随机样本是不含未知参数的、随机样本X1, X2, , Xn的函数的函数注意统计量是随机样本注意统计量是随机样本X1, X2, , Xn的函数,因的函数,因而也是随机变量而也是随机变量),(21nXXXf在上面定义的函数中将每个随机样本在上面定义的函数中将每个随机样本Xi用其观察用其观察值值xi代替,计算的结果代替,计算的结果f ( x1, x2, , xn)称为称为统计量统计量的值。的值。也可以

16、直接将也可以直接将f ( x1, x2, , xn)看成统计量的看成统计量的观察值。观察值。例子例如一项关于浙江省白领(收入为4000元-10000元)的职员的调查认为有60%白领患失眠症。样本1样本2样本3如果在这个调查中样本容量为100,则 = (样本中失眠的人数) / (样本容量)是一个统计量。1.是某一样本统计量的全部可能取值的概率是某一样本统计量的全部可能取值的概率分布。分布。2.现实中不可能抽出所有样本,因此统计量现实中不可能抽出所有样本,因此统计量的抽样分布实际是一种理论概率分布。统的抽样分布实际是一种理论概率分布。统计推断中,常用的理论概率分布:正态分计推断中,常用的理论概率分

17、布:正态分布、布、 分布、分布、t分布和分布和F分布。分布。3.提供了样本统计量稳定的信息,是进行推提供了样本统计量稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重断的理论基础,也是抽样推断科学性的重要依据。要依据。样本分布样本分布(sampling distribution)5.2.2 由标准正态分布的随机样本所引出的几个重要统计量的分布设设X服从均值为服从均值为,方差为,方差为2正态分布正态分布,即,即 X N ( , 2 ),则其分布密度函数为,则其分布密度函数为222)(21)(xexf特别地,当特别地,当 = 0, 2 = 1 时正态分布称为时正态分布称为标准正标准正态分布态

18、分布。任何一个正态分布X N (, 2 ),作变换XZ就可化成标准正态分布,即ZN(0, 1)。正态分布有许多特点:例如它是对称的。正态变量大约有68%的可能性在离均值一个标准差的范围内取值;大约有95%的可能性在离均值1.96倍标准差的范围内取值。几乎不在离均值3倍标准差以外的地方取值。68%95%99.7%例如 设XN(54, 0.852), 要计算P(X52)。则可以这样计算:0094. 09906. 01)35. 2(1)35. 2(1)35. 2(85. 0545285. 0545285. 054)52(ZPZPZPXPXP x0.000.010.020.030.040.050.06

19、0.070.080.090.00.10.20.30.4 0.50.60.70.80.9 1.01.11.21.31.4 1.51.61.71.81.9 2.02.12.22.32.4 2.52.62.72.82.90.50000.53980.57930.61790.6554 0.69150.72570.75800.78810.8159 0.84130.86430.88490.90320.9192 0.93320.94520.95540.96410.9713 0.97720.98210.98610.98930.9918 0.99380.99530.99650.99740.99810.50400.

20、54380.58320.62170.6591 0.69500.72910.76110.79100.8186 0.84380.86650.88690.90490.9207 0.93450.94630.95640.96480.9719 0.97780.98260.98640.98960.9920 0.99400.99550.99660.99750.99820.50800.54780.58710.62550.6628 0.69850.73240.76420.79390.8212 0.84610.86860.88880.90660.9222 0.93570.94740.95730.96560.9726

21、 0.97830.98300.98680.98980.9922 0.99410.99560.99670.99760.99820.51200.55170.59100.62930.6664 0.70190.73570.76730.79670.8238 0.84850.87080.89070.90820.9236 0.93700.94840.95820.96640.9732 0.97880.98340.98710.99010.9925 0.99430.99570.99680.99770.99830.51600.55570.59480.63310.6700 0.70540.73890.77030.79

22、950.8264 0.85080.87290.89250.90990.9251 0.93820.94950.95910.96710.9738 0.97930.98380.98740.99040.9927 0.99450.99590.99690.99770.99840.51990.55960.59870.63680.6736 0.70880.74220.77340.80230.8289 0.85310.87490.89440.91150.9265 0.93940.95050.95990.96780.9744 0.97980.98420.98780.99060.9929 0.99460.99600

23、.99700.99780.99840.52390.56360.60260.64060.6772 0.71230.74540.77640.80510.8315 0.85540.87700.89620.91310.9278 0.94060.95150.96080.96860.9750 0.98030.98460.98810.99090.9931 0.99480.99610.99710.99790.99850.52790.56750.60640.64430.6808 0.71570.74860.77940.80780.8340 0.85770.87900.89800.91470.9292 0.941

24、80.95250.96160.96930.9756 0.98080.98500.98840.99110.9932 0.99490.99620.99720.99790.99850.53190.57140.61030.64800.6844 0.71900.75170.78230.81060.8365 0.85990.88100.89970.91620.9306 0.94300.95350.96250.97000.9762 0.98120.98540.98870.99130.9934 0.99510.99630.99730.99800.99860.53590.57530.61410.65170.68

25、79 0.72240.75490.78520.81330.8389 0.86210.88300.90150.91770.9319 0.94410.95450.96330.97060.9767 0.98170.98570.98900.99160.9936 0.99520.99640.99740.99810.99862. 2 ( n ) 分布的构成分布的构成设设X N(0, 1), X1, X2, , Xn是是X的随机样本,则的随机样本,则这些随机样本的平方和这些随机样本的平方和22221122nniiXXXX服从自由度为服从自由度为n的的 2分布,即分布,即 2 2 ( n )这是一种常用的分布

26、。例如对服从正态分布的变量的随机样本,其方差函数S2就满足:) 1() 1(222nSn00.511.5202468n=2n=5n=10 2(n)一个非对称分布,其均值为一个非对称分布,其均值为n,方差为,方差为2n,其中,其中n为自由度为自由度(df)。3. t分布分布自由度为自由度为n的的t分布,记为分布,记为t (n), 是由标准正态分布是由标准正态分布N(0,1)和和 2(n)分布组成分布组成, 其表达式为其表达式为nYXT 其中其中X N(0,1), Y 2(n), 且且X与与Y相互独立。相互独立。00.050.10.150.20.250.30.350.40.45-3.5-1.50.

27、52.5n=5n=20n=120t分布的均值为分布的均值为0,方差为,方差为n/(n-2)。并且当。并且当n充分大时,充分大时,它就近似于标准正态分布。它就近似于标准正态分布。4. F分布分布F分布分布是由两个是由两个 2之比组成的:之比组成的:mVnUF 记为记为FF(n, m), 其中其中U 2(n), V 2(m). 对于对于 F(n, m),n称为第一自由度(分子自由度),称为第一自由度(分子自由度),m称为第二自由称为第二自由度(分母自由度)。度(分母自由度)。00.20.40.60.811.21.41.6-0.50.51.52.5n=2,m=2n=10,m=20n=50,m=505

28、.2.3 由一般正态分布的随机样本所构成的若干重要统计量的分布抽样分布:样本统计量所抽样分布:样本统计量所有可能值的概率分布。有可能值的概率分布。样本统样本统计量计量总体未总体未知参数知参数样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量样本统样本统计量计量分布的形状分布的形状及接近总体及接近总体参数的程度参数的程度样本统计量样本统计量:平均数平均数比率(成数)比率(成数)方差方差X2S设随机变量设随机变量X N ( , 2

29、 ), X1, X2, , Xn是是X的随机的随机样本,则样本,则(1)),(2nNX(2)) 1, 0( NnX(3)) 1(1222nnS(4)) 1(ntnSX(5)) 1, 1(2122222121nnFSS其中其中 是容量为是容量为n1的随机变量的随机变量 的的样本方差;样本方差; 是容量为是容量为n2的随机变量的随机变量 的样本方差。的样本方差。21S),(211NX22S),(222NY5.2.4 任意分布的随机样本均值函数的均值和方差设随机变量设随机变量X 的均值为的均值为 , 方差为方差为2, 而分布形式任而分布形式任意,意, X1, X2, , Xn是是X的随机样本,则的随

30、机样本,则(1)X(2)nnXX22或也就是任意随机变量的样本均值就等于总体均值;也就是任意随机变量的样本均值就等于总体均值;样本方差等于总体方差与样本容量的商样本方差等于总体方差与样本容量的商5.2.5 大样本均值的分布: 中心极限定理设随机变量设随机变量X 服从均值为服从均值为 , 方差为方差为2 的分布的分布, X1, X2, , Xn是是X的随机样本,则有如下的中心极限的随机样本,则有如下的中心极限定理。定理。中心极限定理中心极限定理(Central Limit Theorem):当:当n充分充分大时,近似地有大时,近似地有),(2nNX一般地,当一般地,当n 30时,就可应用中心极限

31、定理了。时,就可应用中心极限定理了。或者近似地有或者近似地有) 1, 0( NnX或者近似地有样本容量样本容量样本容量:一个样本中样本容量:一个样本中包含的样本单位数。通常用包含的样本单位数。通常用n来表示。来表示。大样本:大样本:n30小样本:小样本:n 30学生学生成绩成绩 30 40 50 60 70 80 90按随机原则抽选出名学按随机原则抽选出名学生,并计算平均分数。生,并计算平均分数。平均数的抽样分布平均数的抽样分布0 01 12 23030404050506060707080809090样本样本均值均值样本样本 均值均值样本样本均值均值ABCDABCEABCFABCGABDEAB

32、DFABDGABEFABEGABFGACDEACDF4547.55052.55052.5555557.56052.555ACDGACEFACEGACFGADEFADEGADFGAEFGBCDEBCDFBCDGBCEF57.557.56062.56062.56567.55557.56060BCEGBCFGBDEFBDEGBDFGBEFGCDEFCDEGCDFGCEFGDEFG62.56562.56567.5706567.57072.575样本均值样本均值 45 47.5 50 52.5 55 57.5 60出现次数出现次数 1 1 2 3 4 4 5样本均值样本均值 62.5 65 67.5 7

33、0 72.5 75出现次数出现次数 4 4 3 2 1 10 01 12 23 34 45 56 645 4550 5055 5560 6065 6570 7075 750 01 12 23030404050506060707080809090二者均值相等二者均值相等) 1() 1() 1(22ntnSnnXnSX) 1, 1(1) 1(1) 1(2122222212121122222121nnFnSnnSnSS) 1() 1(222nSn则容易得到利用上述结果与5.2.2的结果只要能够证明例 一汽车蓄电池商声称其生产的电池具有均值为54个月、标准差为6个月的寿命分布。现假设某消费者团体决定检

34、验该厂的说法是否准确,为此购买了50个该厂的电池进行检验。1)假定厂商的声称是正确的,试描述这50个电池平均寿命的抽样分布。2)假定厂商声称正确,则50个样品组成的样本的平均寿命不超过52个月的寿命的概率是多少?解 1)由中心极限定理,样本均值近似服从正态分布),(2nNX而6,54并且2285. 072. 050/36/n故)85. 0,54(2NX2)按照上面得到的结果来计算这50个电池平均寿命不超过52个月的概率0094. 09906. 01)35. 2(1)35. 2(1)35. 2(85. 0545285. 0545285. 054)52(ZPZPZPXPXP这表明这50个电池平均寿

35、命不超过52个月的概率非常小。因此这种情况应该不太可能出现。如果出现该情况意味着什么?5.3 点估计在解决实际问题时,常常需要用样本来推断总体在解决实际问题时,常常需要用样本来推断总体分布的某些参数值,这就是所谓的分布的某些参数值,这就是所谓的参数估计参数估计。参。参数估计又分为数估计又分为点估计点估计与与区间估计区间估计。总体参数(parameter)为描述一个总体的数字,它往往刻画了总体某一方面的特征。总体参数是一个特定值(fixed number常数),但在现实中常常无法知道其确切的数值,例如总体的均值、方差,总体中某一类特定对象占的比例等。一般地,一般地,估计量(统计量)是指的随机样本

36、的一个函估计量(统计量)是指的随机样本的一个函数数。所以粗略地讲,点估计就是用样本的某一函数值,。所以粗略地讲,点估计就是用样本的某一函数值,来估计总体分布中的未知参数。而区间估计就是(以来估计总体分布中的未知参数。而区间估计就是(以一定概率)把总体分布的参数确定在由样本决定的某一定概率)把总体分布的参数确定在由样本决定的某个区间内。个区间内。 一个样本统计量(如样本均值)是样本的函数22000001xx Population总体参数x4x49x103x354x41x4x42909x1005x31x411xx,5.3.1 点估计的概念设设是总体分布中一个需要估计的参数。现在从总是总体分布中一个

37、需要估计的参数。现在从总体中得到一个随机样本体中得到一个随机样本X1, X2, , Xn ,我们的目的,我们的目的是通过这一随机样本来估计参数是通过这一随机样本来估计参数 。的估计量的估计量通常是随机样本通常是随机样本X1, X2, , Xn的一个函的一个函数,记为数,记为),(21nXXX简记为简记为若能够得到一组样本观察值若能够得到一组样本观察值x1, x2, , xn,则将它们,则将它们代入上述函数,可以计算出代入上述函数,可以计算出的估计值的估计值),(21nxxx的估计值也简记为的估计值也简记为 。 的点估计就是求的点估计就是求的估计值的估计值5.3.2 矩估计法对总体而言,矩是指:

38、对总体而言,矩是指:)(kXE k阶原点矩阶原点矩kXE)( k阶中心矩(中心为阶中心矩(中心为)对样本而言对样本而言niiXnX11 一阶原点矩一阶原点矩niiXXnS122)(11 二阶中心矩二阶中心矩矩估计法就是用样本矩来估计相应的总体矩。矩估计法就是用样本矩来估计相应的总体矩。例如通常例如通常niiXnX11)(XE用用 来估计来估计 用用 来估计来估计 niiXXnS122)(112)(XE并且称这样得到的估计量为并且称这样得到的估计量为矩估计量矩估计量。5.3.3 极大似然估计法引例引例 设甲乙两个盒子外形完全相同,甲盒中装有设甲乙两个盒子外形完全相同,甲盒中装有90个白球个白球1

39、0个黑球,乙盒中装有个黑球,乙盒中装有90个黑球个黑球10个白个白球。今随机地抽取一个盒子并从中抽取一球,结球。今随机地抽取一个盒子并从中抽取一球,结果抽到白球,问这球是从哪个盒子中抽取的?果抽到白球,问这球是从哪个盒子中抽取的?从甲盒中抽取一球是白球的概率从甲盒中抽取一球是白球的概率p1=9/10从乙盒中抽取一球是白球的概率从乙盒中抽取一球是白球的概率p2=1/10p1远大于远大于p2,因此我们推断这球是从甲盒中取出。,因此我们推断这球是从甲盒中取出。这个推断我们依据的是所谓这个推断我们依据的是所谓极大似然原理极大似然原理:如果如果进行一次随机实验,结果是若干个可能后果中的进行一次随机实验,

40、结果是若干个可能后果中的某一个出现了,则可以认为实验的条件有利于该某一个出现了,则可以认为实验的条件有利于该后果的出现,即该后果出现的概率最大后果的出现,即该后果出现的概率最大。更一般地,如果用一个参数更一般地,如果用一个参数来表示不同的盒子,来表示不同的盒子,即即对于乙盒对于甲盒, 1, 0现在随机抽取一个盒子,然后随机独立有放回现在随机抽取一个盒子,然后随机独立有放回地抽取地抽取5次,每次抽取一个球。如果结果是黑、次,每次抽取一个球。如果结果是黑、白、白、白、黑。问白、白、白、黑。问等于等于0还是等于还是等于1?对于甲盒,得到这样结果的概率对于甲盒,得到这样结果的概率321109101p对

41、于乙盒,得到这样结果的概率对于乙盒,得到这样结果的概率232109101p由于由于p1大于大于p2,因此我们推断,因此我们推断 = 0。也就是,也就是,是使联合概率达到最大的数是使联合概率达到最大的数。将上述问题抽象化。设将上述问题抽象化。设X是一个随机变量,其概是一个随机变量,其概率密度函数为率密度函数为 。又设。又设X1, X2, , Xn是是X的的随机样本,则记联合密度函数为随机样本,则记联合密度函数为),(xfniixfL1),(称为称为的的极大似然函数极大似然函数。若得到一组样本观察值若得到一组样本观察值x1, x2, , xn ,则代入,则代入L后得后得到一个关于到一个关于的函数。

42、如果存在的函数。如果存在 使函数使函数L取最大值。则称该取最大值。则称该 为为的的极大似然估计极大似然估计值值。而称。而称),(21nxxx),(21nXXX为为的的极大似然估计量极大似然估计量。5.3.4 示例例例5.3.1 设随机变量设随机变量X 服从均值为服从均值为 , 方差为方差为2 的正的正态分布态分布, X1, X2, , Xn是是X的随机样本,求的随机样本,求和和2的的极大似然估计量。极大似然估计量。首先由前面的讨论可知极大似然函数为首先由前面的讨论可知极大似然函数为nixieL12)(22)21(niixne1222)()21(对对L取极大值等价于对取极大值等价于对L的对数取极

43、大值的对数取极大值。因此在。因此在L取对数后,再分别计算关于取对数后,再分别计算关于和和2的偏导数,并令偏的偏导数,并令偏导数为零,解得导数为零,解得和和2的估计量分别为的估计量分别为xxnnii11niixxn122)(12的极大似然估计量要小于其矩估计量niiXXnS122)(11例:英语六级未通过率 假设某财经大学的学生在毕业时尚未通过六级的比率为p,现从中随机抽取100人调查其档案,发现其中有10人六级没过,试用极大似然法估计总体参数未通过六级的比例p。解 用X表示任意抽取的一个毕业生六级通过的情况:X = 1,若该生通过了六级0,若该生未通过六级则XB(1, p). 于是对于x=0,

44、 1, 有P(X = x) = px (1 p )1 x 英语六级未通过率 对于来自于总体X的100个样本观测值x1, x2, x100,其中恰好有10个取值为1,其他为零。样本观察值的联合分布密度(似然函数)为100100112211110901100(,; )()()()xxxxxxL xxpp qp qpqp q两边取对数得对数似然函数为:1100ln ( ,; )10ln90ln(1)L xxppp上式关于p求导数并令导数为0,解得:100.1100p其中q = 1 p .注:用矩估计法可得到同样结果5.4 判断点估计量的优劣标准问题:问题:第一,我们为什么以这一个而第一,我们为什么以

45、这一个而不是那一个统计量来估计某个总体不是那一个统计量来估计某个总体参数?参数?第二,如果有两个以上的统计第二,如果有两个以上的统计量可以用来估计某个总体参数,其量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计估计结果是否一致?是否一个统计量要优于另一个?量要优于另一个?oemmx估计值的优良标准:估计值的优良标准:无偏性、有效性、一致性无偏性、有效性、一致性5.4.1 无偏估计量无偏估计量设设 为为的估计量。如果的估计量。如果 则称则称 为为的无偏估计量。的无偏估计量。)(E对于正态总体,可以证明对于正态总体,可以证明总体均值的样本矩估计量(同时也是极大总体均值的样本矩估计量(同

46、时也是极大似然估计量)似然估计量) 是无偏的。是无偏的。X总体方差的样本矩估计量总体方差的样本矩估计量S2是无偏的,但是无偏的,但是极大似然估计量是有偏的。是极大似然估计量是有偏的。5.4.2 最小方差性在一个参数的众多估计量中,人们偏好于那些具有较小方差的估计量。因为由它给出的估计值可能与真实值有更小的误差。 的分布函数的分布函数2的分布函数的分布函数1若总体参数为 , 的估计量 的方差 小于等于其他所有对估计量 的方差 ,也就是总是成立,那么称的估计量 具有最小方差性。)(Var)(Var)()(VarVar5.4.3 有效估计量在用估计量在用估计量 来估计总体的某个参数来估计总体的某个参

47、数时,如果时,如果(1) 估计量估计量 无偏的;无偏的;(2) 在在 的所有估计量中估计量的所有估计量中估计量 的的方差最小方差最小。那么,这个估计量那么,这个估计量 就是总体参数就是总体参数 的有效估计量。的有效估计量。 5.4.4 渐近无偏估计量渐近无偏估计量是指满足如下条件的估渐近无偏估计量是指满足如下条件的估计量:计量:)(limEn其中其中n为样本容量。为样本容量。5.4.5 一致估计量定义:如果满足: 1)|(|limnnp 则称为的一致估计量。 上述定义中的极限表达式常常写为 limnP 并称为依概率收敛于。 一致估计量的另一种等价的定义是:一致估计量的另一种等价的定义是:(1)

48、 是渐近无偏的;是渐近无偏的;(2)0)(limnnVar其中(其中(2)中的极限为所谓的渐近方差)中的极限为所谓的渐近方差)(1lim)(lim2nnnnnEnEnVar而普通方差为而普通方差为)()(2nnnEEVar通常判别点估计量优劣的准则 小样本准则小样本准则 无偏性无偏性 有效性有效性 大样本准则大样本准则 一致性一致性可以证明下列估计量是具有较好统计性质的估计量总体均值的矩估计量niiXnX11总体方差的矩估计量niiXXnS12)(11总体方差的极大似然估计量niinXXnS12)(1总体比例p的估计量样本比例nn1总体构成比例的估计常常可能会关注总体中某一类特定对象占的比例p

49、。对于这样的问题,可以采用如下的方式处理。在总体中任取一个个体,用一个变量X来描述所抽取的对象是否属于所关注的对象这一事件,即X = 1,若抽得的是所关注的对象0,若抽得的不是所关注的对象于是,该总体可以用服从0-1分布的随机变量X B(1, p)描述,其中p表示所关注的对象在总体中占的比例。对于0-1分布B(1, p),其数学期望值与方差分别为:p, p(1 p)设X1, X2, , Xn是来自于总体X的一个随机样本,并且在这一样本中我们所关注的对象恰好出现了n1次。那么nnXXXnXn121)(1即样本的均值恰好等于样本的比例。由此可见,可用样本比例 来估计总体比例p。此外,由中心极限定理

50、,当样本容量充分大时,样本的均值函数近似地服从正态分布,也就是近似地有:)1 (,(npppNX点估计的最大好处:给出确定点估计的最大好处:给出确定的估计值的估计值点估计的最大问题:无法控制点估计的最大问题:无法控制误差及判断可靠程度误差及判断可靠程度在实际应用中,我们通常只取一个样本,因此我们无法知道通过这个样本对总体参数的估计是否精确。但样本容量大的随机样本通常总是给出更接近总体参数的估计值。5.5 区间估计在用样本均值估计总体均值时,总有人会问:“这一估计有多好?”这意味着人们不但关注你给出的估计值是多少,还关注你给出的估计有多大的误差和可靠程度。例如一家商店调查顾客的满意度,随机抽取了

51、由100个顾客组成的样本,然后请这些顾客回答对商店服务的满意度得分,最低(最不满意)0分,最高100分。调查结果,这100个顾客给出的满意度平均分80分。问题“这一估计有多好这一估计有多好?”具体来说就是,这是否体现了所有顾客对商店满意的平均程度,有多大误差,样本数量是否足够等。若总体分布含一个未知参数若总体分布含一个未知参数, 如果找出了如果找出了2个依赖个依赖样本样本X1, X2, , Xn的估计量:的估计量:),(),(212211nnXXXXXX使得使得1)(21P其中其中0 1,则称随机区间,则称随机区间 为为的的(1 )(或(或100 (1 ) %)的)的置信区间置信区间;(1 )

52、(或(或百分百分数数100(1 )%)称为)称为置信度置信度或或置信水平置信水平; 称为称为显著性水平显著性水平,通常取为,通常取为0.05, 0.10或或0.01。参数的。参数的区间估计就是求参数的置信区间。区间估计就是求参数的置信区间。),(215.5.2 已知总体方差求总体均值已知总体方差求总体均值的置信区间的置信区间 设总体设总体X服从服从N(, 0.09), 抽取了抽取了4个样本观察值个样本观察值x1, x2, x3, x4, 求总体均值求总体均值的的95%的置信区间。的置信区间。首先首先),(2nNX因此因此) 1, 0(23 . 0NXnXZ注意到注意到N(0, 1)是一个对称是

53、一个对称分布。给定概率值分布。给定概率值0.95,现在来确定常数现在来确定常数k,使得,使得95. 0)(kZkP2.5%的面积的面积95%的面积的面积k利用书末的附表一,可以查得利用书末的附表一,可以查得k = z0.025=1.96。于。于是下面的不等式成立的概率为是下面的不等式成立的概率为0.95025. 0025. 023 . 0zXz这等价于这等价于025. 0025. 023 . 023 . 0zXzX将将z0.025=1.96代入上式,即得到所需要的置信区间代入上式,即得到所需要的置信区间)294. 0,294. 0(XX极限误差极限误差平均误差平均误差记作记作xnzXnzX22

54、一般地,已知总体方差时均值置信区间的表达式一般地,已知总体方差时均值置信区间的表达式计算样计算样本统计本统计量量计算抽计算抽样平均样平均误差误差计算抽计算抽样极限样极限误差误差 确定置确定置信区间信区间xxxz2xzx2xxzxzx2/2/,区间估计步骤区间估计步骤(以估计(以估计 为例):为例):由由532名名商业周刊商业周刊订阅者组成订阅者组成的样本表明,其每周使用因特网的平均的样本表明,其每周使用因特网的平均时间为时间为6.7小时。如果总体标准差为小时。如果总体标准差为5.8小时,求该周刊订阅者总体每周平均花小时,求该周刊订阅者总体每周平均花费在因特网上时间的费在因特网上时间的95置信区

55、间。置信区间。均值的区间估计均值的区间估计nx96. 12Z则:该置信区间为:则:该置信区间为:5328 . 596. 17 . 62nZx19. 7,21. 65.5.3 未知总体方差求总体均值的置信区间设设 ,抽取了一组样本观察值,抽取了一组样本观察值x1, x2, xn,求总体均值求总体均值的的1-置信区间。这里总体的方差置信区间。这里总体的方差2是未知的。是未知的。),(2NX首先由首先由5.2.4有有) 1(ntnSXT记记 是是t分布对应着显著性水平分布对应着显著性水平的临界值。的临界值。则则 ) 1(2nt1)1() 1(22ntnSXntP/2的面的面积积1- 的面积的面积tc

56、从而可得置信区间为从而可得置信区间为nSntXnSntX) 1() 1(22其中 常称为标准误差(standard error)。nS均值的区间估计均值的区间估计某证券市场由某证券市场由10只股票组成只股票组成的一个样本其市盈率分别为:的一个样本其市盈率分别为: 5 7 9 10 14 23 20 15 3 26试求该市场全部股票总体市试求该市场全部股票总体市盈率均值的盈率均值的95置信区间。置信区间。xtx)110(025.08 . 71)(221nxxSn47.21nSnx262. 2) 110(025. 0t2 .13nxx查表查表总体均值总体均值95置信区间为:置信区间为:即:即:787.18,613.7587.52 .13,587.52 .13注:如果总体方差未知,在大样本下,注:如果总体方差未知,在大样本下,无论是正态总体或非正态总体,都可无论是正态总体或非正态总体,都可用下述方法用下述方法11212nSZxnSZxPnnnSZxnSZxnn1212,5.5.4 未知总体均值求总体方差的置信区间对正态分布,在未知总体均值的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论