统计学第七章、第八章课后题复习资料_第1页
统计学第七章、第八章课后题复习资料_第2页
统计学第七章、第八章课后题复习资料_第3页
统计学第七章、第八章课后题复习资料_第4页
已阅读5页,还剩27页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学复习笔记第七章参数估计一、思考题1解释估计量和估计值在参数估计中, 用来估计总体参数的统计量称为 估计量。估计量也是随机变量。如样本均值,样本比例、样本方差等。根据一个具体的样本计算出来的估计量的数值称为估计值。2简述评价估计量好坏的标准( 1)无偏性:是指估计量抽样分布的期望值等于被估计的总体参数。( 2)有效性:是指估计量的方差尽可能小。对同一总体参数的两个无偏估计量,有更小方差的估计量更有效。( 3)一致性:是指随着样本量的增大,点估计量的值越来越接近被估总体的参数。3怎样理解置信区间在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间。置信区间的论述是由区间和置信度两

2、部分组成。 有些新闻媒体报道一些调查结果只给出百分比和误差 (即置信区间),并不说明置信度, 也不给出被调查的人数,这是不负责的表现。因为降低置信度可以使置信区间变窄(显得“精确”) ,有误导读者之嫌。 在公布调查结果时给出被调查人数是负责任的表现。 这样则可以由此推算出置信度(由后面给出的公式) ,反之亦然。4解释 95% 的置信区间的含义是什么置信区间 95%仅仅描述用来构造该区间上下界的统计量( 是随机的 ) 覆盖总体参数的概率。也就是说,无穷次重复抽样所得到的所有区间中有 95%(的区间)包含参数。不要认为由某一样本数据得到总体参数的某一个 95%置信区间,就以为该区间以 0.95 的

3、概率覆盖总体参数。5简述样本量与置信水平、总体方差、估计误差的关系。1. 估计总体均值时样本量 n 为( z222) 22Ez 2n22其中:E 2n2.样本量 n 与置信水平 1- 、总体方差、估计误差 E 之间的关系为1/22? 与置信水平成正比, 在其他条件不变的情况下, 置信水平越大, 所需要的样本量越大;? 与总体方差成正比,总体的差异越大,所要求的样本量也越大;? 与与总体方差成正比, 样本量与估计误差的平方成反比, 即可以接受的估计误差的平方越大,所需的样本量越小。二、 练习题1 从一个标准差为 5 的总体中采用重复抽样方法抽出一个样本量为 40 的样本,样本均值为 25。1)

4、样本均值的抽样标准差x 等于多少?x2) 在 95% 的置信水平下,估计误差是多少?解: 1) 已知 = 5,n = 40, x = 25xxnnx 40 0.79x = 52 ) 已知E z 22n估计误差 E = 1.96 5 401.552 某快餐店想要估计每位顾客午餐的平均花费金额,在为期3 周的时间里选取 49 名顾客组成了一个简单随机样本。1) 假定总体标准差为 15 元,求样本均值的抽样标准误差。2) 在 95% 的置信水平下,求估计误差。3) 如果样本均值为 120 元,求总体均值 的 95% 的置信区间 。解: 1)已知 = 15,n = 49xxnxnxn2/22 xx =

5、 15 49 = 2.142 )已知E z 22n估计误差 E = 1.96 15 49 4.23)已知 x = 120置信区间为x E其置信区间 = 120 4.23从一个总体中随机抽取n =100 的随机样本,得到x=104560,假定总体标准差= 85414,试构建总体均值的 95% 的置信区间。x95%,解: 已知 n =100, =104560,= 85414,1-由于是正态总体,且总体标准差已知。总体均值在 1- 置信水平下的置信区间为x z 2105.36101.962 n104560 125.96 85414 100=105.363.92104560 16741.144101.

6、44,109.284从总体中抽取一个n =100 的简单随机样本,得到 x=81,s=12。要求:1)构建 的 90% 的置信区间。2)构建 的 95% 的置信区间。3)构建 的 99% 的置信区间。解:由于是正态总体,但总体标准差未知。总体均值在 1- 置信水3/22平下的置信区间公式为8112100 = 81 1.21)1-90%,1.65其置信区间为 81 1.982)1-95% ,其置信区间为 81 2.3523) 1-99%,2.58其置信区间为 81 3.0965利用下面的信息,构建总体均值的置信区间。1) x = 25,= 3.5,n =60,置信水平为 95%2) x =119

7、,s =23.89,n =75,置信水平为98%3) x =3.149,s =0.974,n =32,置信水平为90%解:xz 22或 xz 22s ( 未知)nn 1) 1- 95% ,其置信区间为: 251.96 3.5 60= 250.8852)1-98% ,则=0.02, /2=0.01, 1- /2=0.99, 查标准正态分布表 , 可知 :2.33其置信区间为 : 119 2.33 23.89 75= 1196.3454/223) 1-90%,1.65其置信区间为 :3.149 1.65 0.974 32= 3.1490.2846 利用下面的信息,构建总体均值 的置信区间:1) 总

8、体服从正态分布,且已知= 500 ,n = 15 ,x=8900,置信水平为 95%。解: N=15,为小样本正态分布,但 已知。则1- 95%,。其置信区间公式为x z 22105.361.96n105.363.92置信区间为: 89001.96 500 15=(8646.7 , 9153.2101.44,109.281025)2) 总体不服从正态分布,且已知= 500 ,n = 35 ,x =8900,置信水平为 95% 。解:为大样本 总体非正态 分布,但 已知 。 则 1- 95%,。其置信区间公式为x z 2105.361.9610252n105.363.92)置信区间为: 8900

9、1.96 500 35=(8733.9 9066.1101.44,109.283) 总体不服从正态分布, 未知, n = 35 ,x =8900,s =500,置信水平为 90% 。解:为大样本总体非正态分布,且未知, 1-90%,1.65 。其置信区间为:89001.65 500 35=(8761 9039 )4) 总体不服从正态分布, 未知, n = 35 ,x =8900,s =500,置信水平为 99% 。5/22解:为大样本总体非正态分布,且未知, 1-99%,2.58 。其置信区间为:89002.58 500 35=(8681.99118.1 )7某大学为了解学生每天上网的时间,在

10、全校7500 名学生中采取重复抽样方法随机抽取 36 人,调查他们每天上网的时间,得到下面的数据(单位:小时)(略)。求该校大学生平均上网时间的置信区间,置信水平分别为 90%解: 先求样本均值:= 3.32再求样本标准差:置信区间公式:8从一个正态总体中随机抽取样本量为8 的样本,各样本值分别为:10,8,12,15,6,13,5,11。求总体均值 的 95% 置信区间。解:本题为一个小样本正态分布,未知。先求样本均值:= 80 8=10再求样本标准差:=84/7 = 3.46416/22于是 ,的置信水平为的置信区间是,已知,n = 8 ,则, /2=0.025 ,查自由度为n-1 = 7

11、的 分布表得临界值2.45所以,置信区间为: 102.45 3.4641 79某居民小区为研究职工上班从家里到单位的距离,抽取了由 16个人组成的一个随机样本, 他们到单位的距离分别是:10,3,14,8,6,9,12,11,7,5,10,15,9,16,13,2。假设总体服从正态分布,求职工上班从家里到单位平均距离的95% 的置信区间。解:小样本正态分布,未知。已知,n = 16,则,/2=0.025 ,查自由度为 n-1 = 15的分布表得临界值2.14样本均值=150/16=9.375再求样本标准差:=253.75/154.11于是 ,的置信水平为的置信区间是,9.3752.144.11

12、 167/2210 从一批零件是随机抽取36 个,测得其平均长度是149.5,标准差是 1.93。1) 求确定该种零件平均长度的 95% 的置信区间。2) 在上面估计中,你使用了统计中的哪一个重要定理?请解释。解: 1) 这是一个大样本分布。已知N=36, x = 149.5,S =1.93,1-=0.95,。其置信区间为:149.51.961.93 362)中心极限定理论证: 如果总体变量存在有限的平均数和方差,那么,不论这个总体的分布如何,随着样本容量的增加,样本均值的分布便趋近正态分布。 在现实生活中, 一个随机变量服从正态分布未必很多,但是多个随机变量和的分布趋于正态分布则是普遍存在的

13、。样本均值也是一种随机变量和的分布,因此在样本容量充分大的条件下,样本均值也趋近于正态分布, 这为抽样误差的概率估计理论提供了理论基础。11某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100 克,现从某天生产的一批产品中按重复抽样随机抽取 50 包进行检查,测得每包重量如下: (略)已知食品包重服从正态分布,要求:1)确定该种食品平均重量的95%的置信区间。2)如果规定食品重量低于100 克属于不合格,确定该批食品合格率的 95%的置信区间。8/22解: 1)本题为一个大样本正态分布,未知。已知N=50,=100,1-=0.95,。 每组组中值分别为97、99、101、103、105

14、,即此 50 包样本平均值= (97+99+101+103+105)/5 = 101 样本标准差为:=( 97-101 )2 2(99-101 )2 3(101-101 )234( 103-101 )2 7( 105-101 )2 4( 50-1 ) 1.666其置信区间为:1011.96 1.666 502) 不合格包数( 100 克)为 2+3=5 包, 5/50 = 10% (不合格率),即 P = 90%。该批食品合格率的95%置信区间为:= 0.9 1.96 (0.9 0.1) 50= 0.91.96 0.04212假设总体服从正态分布,利用下面的数据构建总体均值的99%的置信区间。

15、(略)解:样本均值样本标准差:尽管总体服从正态分布,但是样本n=25 是小样本,且总体标准差未9/22知,应该用 T 统计量估计。 1- =0.99 ,则 =0.01,/2=0.005 ,查自由度为 n-1 =24 的 分布表得临界值2.8的置信水平为的置信区间是,13 一家研究机构想估计在网络公司工作的员工每周加班的平均时间,为此随机抽取了 18 个员工,得到他们每周加班的时间数据如下(单位:小时):(略)假定员工每周加班的时间服从正态分布,估计网络公司员工平均每周加班时间的90%的置信区间。解:N = 18 30 , 为小样本正态分布,未知。样本均值= 244/18 = 13.56样本标准

16、差:= 1- = 90%, = 0.1 , /2= 0.05 ,则查自由度为 n-1 = 17的 分布表得临界值1.74的置信水平为的置信区间是,10/2214 利用下面的样本数据构建总体比例丌的置信区间:1)n =44 ,p = 0.51,置信水平为 99%2)n =300 ,p = 0.82,置信水平为 95%3)n =1150 ,p = 0.48,置信水平为 90%解: 1) 1- = 99%, = 0.01 , /2= 0.005 ,1- /2= 0.995,查标准正态分布表,则2.582)1-95%,3)1-90%,1.65分别代入15在一项家电市场调查中, 随机抽取了 200 个居

17、民户,调查他们是否拥有某一品牌的电视机,其中拥有该品牌电视机的家庭占23%。求总体比例的置信区间,置信水平分别为90%和 95%。解: 1)置信水平 90%,1-90%,1.65 ,N = 200,P = 23%。代入2)置信水平 95%,1-95%,N = 200 ,P = 23%。代入16一位银行的管理人员想估计每位顾客在该银行的月平均存款额。他假设所有顾客月存款额的标准差为1000 元,要求的估计误差在 200 元以内,置信水平为99%。应选取多大的样本?11/22解:已知 1- = 99%,则2.58 。E = 200 , = 1000 元。则 N =(2 2) E2= (2.58 2

18、10002) 2002167(得数应该是166.41 ,不管小数后是多少,都向上进位取整,因此至少是 167 人)17 要估计总体比例丌,计算下列条件下所需的样本量。1)E=0.02,丌 =0.40 ,置信水平 96%2)E=0.04,丌未知,置信水平 95%3)E=0.05,丌 =0.55 ,置信水平 90%解:1)已知 1- = 96%, /2 =0.02,则2.06N =2 丌( 1- 丌) E2=2.06 2 0.4 0.6 0.02 2 25472)已知 1- = 95%, /2 =0.025,则1.96丌未知 , 则取使丌( 1- 丌)最大时的 0.5 。N = 2 丌( 1- 丌

19、) E2=1.96 2 0.5 0.5 0.04 2 6013)置信水平 90%,1-90%,1.65 ,N = 2丌(1- 丌)E2=1.65 20.55 0.45 0.05 227018某居民小区共有居民500 户,小区管理者准备采用一项新的供水设施,想了解居民是否赞成。 采取重复抽样方法随机抽取了50 户,其中有 32 户赞同, 18 户反对。1)求总体中赞成该项改革的户数比例的置信区间( =0.05)2)如果小区管理者预计赞成的比例能达到80% ,估计误差12/22不超过 10% ,应抽取多少户进行调查(=0.05)解: 1)已知 N=50,P=32/50=0.64 ,=0.05 ,/

20、2 =0.025 ,则1.96置信区间:PP(1-P)/N= 0.64 1.96 0.64 0.36/50= 0.641.96 0.48/7.07=0.640.1332)已知丌 =0.8 , E = 0.1, =0.05 , /2 =0.025 ,则 1.96 N= 2丌(1- 丌)/E 2= 1.96 20.8 0.2 0.1 26219 根据下面的样本结果,计算总体标准差 的 90%的置信区间:1) =21,S=2,N=502) =1.3 ,S=0.02,N=153) =167,S=31,N=22解: 1)大样本, 未知,置信水平90%,1-90%,1.65211.65 2 502 )小样

21、本, 未知,置信水平 90%,1- 90%,则查自由度为 n-1 = 14的分布表得临界值1.761,= 1.3 1.761 0.02 153)大样本 , 未知,置信水平90%,1-90%,1.651671.65 31 2220 题目 (略)13/221) 构建第一种排队方式等待时间标准差的 95%的置信区间2) 构建第二种排队方式等待时间标准差的 95%的置信区间3) 根据 1)和 2)的结果,你认为哪种排队方式更好?解:本题为小样本正态分布, 未知,应用公式,置信水平95%,1-95%,则查自由度为n-1 = 9的分布表得临界值2.311)= 7.15 ,= 2.045/9 0.48其置信

22、区间为 7.15 2.31 0.48 102) = 7.15= 0/9=0其置信区间为7.15 04) 第二种排队方式更好 .(19 题是对总体方差的估计, 应该用卡方统计量进行估计, 20 题是对两个总体参数的估计, 这二种类型老师未讲, 不是本次考试的内容,不能用 Z 统计量像估计总体均值和比例那样去估计, 具体内容见书上 P188 P194)14/22第八章假设检验一、思考题1假设检验和参数估计有什么相同点和不同点?解:参数估计与假设检验是统计推断的两个组成部分。相同点:它们都是利用样本对总体进行某种推断。不同点:推断的角度不同。 参数估计 讨论的是用样本统计量估计总体参数的方法,总体参

23、数在估计前是未知的。而在 假设检验 中,则是先对的值提出一个假设, 然后利用样本信息去检验这个假设是否成立。2什么是假设检验中的显著性水平?统计显著是什么意思?解:显著性水平用 表示,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险, 即假设检验中犯弃真错误的概率。它是由人们根据检验的要求确定的。(我理解的统计学意义, 统计显著是统计上专用的判定标准,指在一定的概率原则下, 可以承认一种趋势或者合理性达到的程度,达到为统计上水平显著,达不到为统计上水平不显著)3什么是假设检验中的两类错误?解:弃真错误(错误):当原假设为真时拒绝原假设,所犯的错误成为第 I 类错误,又称为弃真错误。

24、犯第 I 类错误的概率常记作。取伪错误(错误):当原假设为假时没有拒绝原假设,所犯的错误称为第 II 类错误,又称取伪错误。犯第II 类错误概率常记作。15/22发生第 I 类错误的概率也常被用于检验结论的可靠性度量。假设检验中犯第 I 类错误的概率被称为显著性水平,记作。4两类错误之间存在什么样的数量关系?在样本容量 n 一定的情况下,假设检验不能同时做到犯和两类错误的概率都很小。若减小错误,就会增大犯错误的机会;若减小错误, 也会增大犯错误的机会。 要使和同时变小只有增大样本容量。但样本容量增加要受人力、经费、时间等很多因素的限制,无限制增加样本容量就会使抽样调查失去意义。 因此假设检验需

25、要慎重考虑对两类错误进行控制的问题。5解释假设检验中的P 值。解:如果原假设为真, 所得到的样本结果会像实际观测结果那么极端或更极端的概率,称为 P 值。也称为观察到的显著性水平。P 值是反映实际观测到的数据与原假设 H0 之间不一致程度的一个概率值。 P 值越小,说明实际观测到的数据与 H0 之间不一致程度就越大。6显著性水平与P 值有何区别?解: (显著性水平)是一个判断的标准(当原假设为真,却被拒绝的概率 ),而 P 是实际统计量对应分位点的概率值(当原假设为真时,所得到的样本观察结果或更极端结果出现的概率)。16/22可以通过 计算置信区间, 然后与统计量进行比较判断, 也可以通过统计

26、量计算对应的 p 值,然后与 值比较判断。7假设检验依据的基本原理是什么?解: 假设检验利用的是小概率原理,小概率原理是指发生概率很小的随机事件在一次试验中是几乎不可能发生的。 根据这一原理, 可以先假设总体参数的某项取值为真,也就是假设其发生的可能性很大,然后抽取一个样本进行观察, 如果样本信息显示出现了与事先假设相反的结果且与原假设差别很大, 则说明原来假定的小概率事件在一次实验中发生了, 这是一个违背小概率原理的不合理现象, 因此有理由怀疑和拒绝原假设;否则不能拒绝原假设。8你认为在单侧检验中原假设和备择假设的方向应该如何确定?解: 假设问题有两种情况,一种是所考察的数值越大越好(左单侧

27、检验或下限检验),临界值和拒绝域均在左侧;另一种是数值越小越好(右单侧检验或上限检验) ,临界值和拒绝域均在右侧。二、练习题1 已知某炼铁厂的含碳量服从正态分布 N( 4.55,0.1082),现在测定了 9 炉铁水,其平均含碳量为 4.484。如果估计方差没有变化,可否认为现在生产的铁水平均含碳量为 4.55(=0.05)?17/22解:已知 0=4.55 ,2=0.1082,N=9,=4.484 ,这里采用双侧检验,小样本,已知,使用 Z 统计。假定现在生产的铁水平均含碳量与以前无显著差异。则,H0: =4.55 ;H1 : 4.55=0.05 , /2 =0.025,查表得临界值为1.9

28、6计算检验统计量:x 09)Z = (4.484-4.55)/(0.108/ n= -1.833决策: Z 值落入接受域,在=0.05的显著性水平上接受H0。结论:有证据表明现在生产的铁水平均含碳量与以前没有显著差异,可以认为现在生产的铁水平均含碳量为 4.55 。2 一种元件,要求其使用寿命不得低于700 小时。现从一批这种元件中随机抽取36 件,测得其平均寿命为680 小时。已知该元件寿命服从正态分布, =60 小时,试在显著性水平0.05 下确定这批元件是否合格。解: 已知 N=36, =60,=680, 0=700这里是大样本,已知,左侧检验,采用Z 统计量计算。提出假设:假定使用寿命

29、平均不低于700 小时H0: 700H1: 70018/22= 0.05 ,左检验临界值为负,查得临界值 : -Z 0.05 =-1.645计算检验统计量:= (680-700)/(60/36)xZ= -2/ n决策: Z 值落入拒绝域,在=0.05的显著性水平上拒绝01H,接受 H结论:有证据表明这批灯泡的使用寿命低于700 小时,为不合格产品。3 某地区小麦的一般生产水平为亩产250 公斤,其标准差是30 公斤。现用一种化肥进行试验,从 25 个小区抽样,平均产量为270 公斤。这种化肥是否使小麦明显增产(=0.05)?解:已知 0 =250,= 30, N=25, =270这里是小样本分

30、布, 已知,用 Z 统计量。右侧检验, =0.05,则 Z=1.645提出假设:假定这种化肥没使小麦明显增产。即 H0: 250H1: 250计算统计量:Z = ( - 0)/ (/N)= (270-250)/(30/25)= 3.33 结论: Z 统计量落入拒绝域,在 =0.05 的显著性水平上,拒绝H0,接受 H1。决策:有证据表明,这种化肥可以使小麦明显增产。19/224糖厂用自动打包机打包,每包标准重量是100 千克。每天开工后需要检验一次打包机工作是否正常。某日开工后测得9 包重量(单位:千克)如下:(略)已知包重服从正态分布,试检验该日打包机工作是否正常。( =0.05)解:已知 N=9,这里是小样本正态分布,未知,双侧检验,采用t统计量,自由度为N-1=8。=0.05,则 T /2=2.37= 99.981.22提出假设,假设打包机工作正常:即 H0: = 100 H1: 100计算统计量:x0ts n= (99.98-100 )/( 1.22/ 9)-0.049结论: t 值落入接受域,在=0.05 的显著性水平上接受 H0决策:有证据表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论