高等统计学--New答案1_第1页
高等统计学--New答案1_第2页
高等统计学--New答案1_第3页
高等统计学--New答案1_第4页
高等统计学--New答案1_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.中国人民大学接收同等学历人员申请硕士学位考试试题 招生专业: 统计学 考试科目: 高等统计学(数理统计学) 课程代码:123101 考题卷号 : 1一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1. 有关样本的分布,以下陈述正确的是:ABCA. 如果样本X1,Xn独立同分布来自Gamma分布,在大样本下有近似的正态分布;B.如果样本X1,Xn独立同分布来自N(),在大样本情况下有

2、精确分布N();C.如果样本X1,Xn独立同分布来自N(),即使样本量不大,也服从正态分布;D.如果样本X1,Xn来自任意分布,在大样本情况下,由X1,Xn组成的数据有近似的正态分布; 2有关检验的p值,下面说法正确的是:BC A. 一般为0,0.1之间的一个很小的概率; B. 接受备择假设的最小显著性水平;C. 如果p值小于显著性水平,则拒绝零假设; D. 样本统计量的分布函数。3. 请问以下哪些方法可以用来判断数据可能背离正态分布:BA. Q-Q图上,如果数据和基线之间几乎吻合;(基线指的是什么?)B. Kolmogrov-Smirnov正态检验中的统计量所对应的p值小于0.05;C.对数

3、据直方图做光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。4若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA 156;B 256;C 356 ; d) 456.5.关于假设检验,给定一组独立同分布的随机样本,给定显著性水平,如下理解正确的是:D A.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;二、简答题:(10分×3=30分)1. 假设检验的零假设和备

4、择假设的设立对于检验的结论影响不大,请问这样的理解有问题吗?请给出你的解释。解:对同一样本信息,由于零假设的不同选择,可能会得到不同的结论。由于显著性检验只控制第一类错误的概率,而不考虑犯第二类错误的概率,因而寻找拒绝域的时候只涉及到原假设,不涉及备择假设。于是零假设的确定在假设检验中非常重要。事实上,假设检验所依据的小概率事件在一次实验中几乎不可能发生的原理。小概率事件在一次试验中发生与小概率事件原理相矛盾并非形式逻辑的绝对矛盾。如果统计量落入拒绝域,也就是小概率事件居然在一次实验中居然发生了,根据小概事件原理,说明零假设显著不成立,应该否定原假设。如果统计量落入接收域,并不能肯定原假设的正

5、确性,只能说明观测结果与零假设不矛盾,没有足够理由拒绝零假设。此时假设检验并不能检验出零假设的正确性。2. 解释下面符号的区别: , 和(提示:请按有放回和无放回抽样分别叙述)解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n 的样本,并且与总体同分布,从而样本均值的方差。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含 N个个体,从总体中抽取容量为n 的样本,=当总体N充分大的

6、时候,接近于放回抽样的均值方差。3统计推断与描述统计之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。三、计算题(25分)1.Hardy-Weinberg平衡问题中,父代有两种基因M和N,M在种群中的分布为b(1,p)现在测量到了子代基因分布为:MMNN总量频数3425001871029a) 请根据这些数据求父代的p的极大似然估计;(10分)b) 请给出p的置信区间的求解公式,并解释; (15分)解:a)设父代样本X服从b(1,p),,最大似然估计为:由于Hardy-Weinberg平衡,群体的基因频率在一代一

7、代繁殖传代中保持不变。从而子代的基因型频率分别为,从而,.b)当样本数n足够多时父代基因M的频率近似服从正态分布,从而从而参数p的置信区间为四、论述题:(25分)研究者想了解某种电子设备产品在一年的各个季节里被购买的情况是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去3年的销售量2070万台。表1 某种电子设备产品在过去3年中的销售量季节O(万)EOi-Ei(Oi-Ei)2春季 495夏季 503秋季 491冬季581总计 20701解释表头字母的含义;2请将上面的表格填写完整。2如果,请给出你的推断过程和据此

8、可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季 495517.5-22.5506.250.98夏季 503517.514.5210.250.41秋季 491517.5-26.5702.251.36冬季581517.563.54032.257.79总计 2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。中国人民大学接收同等学历人员申请硕士学位考试试题 招生专业: 统计学 考试科目: 高等统计学(数理

9、统计学) 课程代码:123101 考题卷号 : 2一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1关于假设检验,给定一组独立同分布的随机样本,给定显著性水平,如下理解正确的是:D A.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的; 2某汽车生产厂家为增加某型号汽车的销售

10、量,采用促销手段,促销一个月后,分别收集了8个销售点处促销前一个月和促销后一个月该车型的销售辆,如果不考虑其他影响销售量因素,仅通过观察和分析这些样本数据,是否认为这次促销有助于提高汽车的销售量。请将合适的可用于分析该类问题的检验过程选出来:C销售点代号: 1 2 3 4 5 6 7 8促销前(辆): 90 83 105 97 110 78 55 123 促销后(辆): 97 80 110 93 123 84 57 110 A. 两样本Z检验B. 两样本t检验C. 单一样本t检验D. 单一样本Z检验 3在参数估计中,要求通过样本的统计量来估计总体参数,评价统计量的标准之一是该统计量随着样本量的

11、增大,它与它估计的总体参数越来越近,这种评价标准称为:C A.无偏性 B.有效性 C.一致性 D.充分性4. 请问以下哪些方法可以用来判断数据可能背离正态分布:BA. Q-Q图上,如果数据和基线之间几乎吻合;B. Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.001;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:

12、 7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):(-12.43,-10.36)A. 5.68,15.56B. 8.02,19.47C.10.36,12.43D.6.53,16.325. 置信水平为,下列说法正确的是( BD ),A 在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B 在置信水平一定的条件下,提高置信估计精度需要增加样本量;C 在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D 在样本量一定的条件下,提高置信估计精度,需要增大置信水平。二、简答题:(

13、10分×3=30分)1.解释p值检验的基本原理。 p值是在原假设下出现检验统计量的实现值及(向备择假设方向)更极端的值的概率。 p-值度量从样本数据得到的信息对原假设的支持程度。p-值越小,就越有理由说明样 本数据不支持原假设。如果p-值小于显著性水平,那么能够拒绝原假设,否则就不能拒绝。因此p-值常常被称为该检验的观测显著性水平。2.解释下面符号的区别: , 和(提示:请按有放回和无放回抽样分别叙述)。解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本

14、为相互独立并且与总体同分布。从总体中抽出容量为n 的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含 N个个体,从总体中抽取容量为n 的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。3.请说明Gamma分布与卡方分布之间有哪些区别与联系?自由度为n的卡方分布是Gamma分布Gamma(n/2,1/2)的特例.三、计算题(20分)用possion()分布参数的极大似然估计的渐进分布求置信区间。,最大似然估计为:.当n充分大时,渐进正态N(,), ,从而从而参数的置信区间为四、论述题:(30分)研究者想

15、了解某地区的医院出院人数(DISC)和床位量(BEDN),调查了21家医院数据,分为甲级(I)和乙级(II)两类如下:等级IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIDISC91240255233315200266120228362414518389535273440431534426505322BEDN6264676970738191961001001031101271111161201221301371421如果我们感兴趣的问题是医院出院人数小于400的比例估计,请给出通过抽取样本研究这一问题的统计推断问题和估计量;2如果假定p来自先验分布beta(a,b),

16、请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;3如果将床位量按(0,70,(71,110以及(110,150 分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。1. 设随机变量X表示出院人数,可以引进随机变量=,则Yb(1,p), 医院出院人数小于400的比例估计转化为两点分布中参数p的估计。,最大似然估计为:.2如果假定p来自先验分布beta(a,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;解:设p服从beta(a,b),则 ,令(其中对应于甲级医院数据)得参数a,b的矩估计.(甲级医院出院人数都小于4

17、00,是不是题目有些问题?)p服从beta(a,b),Y服从b(1,p),即,利用共轭先验的性质,后验分布仍为beta分布,从而后验估计为3设变量y为出院人数,自变量x为床位量的等级变量,(a) 可以采用方差分析来检验床位数对出院人数有没有显著影响,(b) 也可用y对x的线性回归来分析。(a)方差分析:利用R程序检验F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3

18、,3,3,3,3,3,3)plot(F$A, F$y)a=aov(yA, data=F); summary(a)最终得到: Df Sum Sq Mean Sq F value Pr(>F) A 2 139764 69882 5.965 0.0103 *Residuals 18 210889 11716 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1床位数对出院人数有有显著影响。(b)线性回归:设变量y为出院人数,自变量x为床位量的等级变量,假设满足线性回归模型:,利用最小二乘可得a,b的参数估计,利用R计算的y=c(91,240,255,2

19、33,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2)a=lm(yx); summary(a) 结果是: (Intercept) 218.12 41.16 5.299 4.09e-05 *x 104.85 29.82 3.516 0.00231 * -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1Residual standard error: 105.7 on 19 d

20、egrees of freedomMultiple R-squared: 0.3942, Adjusted R-squared: 0.3623 F-statistic: 12.36 on 1 and 19 DF, p-value: 0.002311一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1某调查公司接受委托满意度调查,满意度分数在020之间,随机抽取36名消费者,平均满意分1

21、2,标准差3,在大样本的假设下,根据调查结果对总体平均满意情况的95%的置信区间,结果是:BA. 915分B. 1113分C. 1214分D. 618分2置信水平为,下列说法正确的是( BD),A 在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B 在置信水平一定的条件下,提高置信估计精度需要增加样本量;C 在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D 在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老

22、鼠:9只,样本均值64.26,样本方差1.40正常老鼠: 7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):(-12.43,-10.36)A. 5.68,15.56B. 8.02,19.47C.10.36,12.43D.6.53,16.324. 请问以下哪些方法可以用来判断数据可能背离正态分布:BA. Q-Q图上,如果数据和基线之间几乎吻合;B. Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.001;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟

23、合优度检验,统计量的值偏小。5有关检验的p值,下面说法正确的是:BC A. 一般为0,0.1之间一个较小的概率; B. 接受备择假设的最小显著性水平;C. 如果p值小于显著性水平,则拒绝零假设; D. 样本统计量的尾概率。二、简答题:(10分×3=30分)1. 求Gamma分布的矩估计;Gamma分布的概率密度函数为,则 ,令得参数的矩估计2. 解释下面符号的区别: , 和(提示:请按有放回和无放回抽样分别叙述)。解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中

24、抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n 的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含 N个个体,从总体中抽取容量为n 的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。3 假设检验中的两类错误之间有什么关系?能否同时减少两类错误?根据样本观察值进行检验时,由于样本的随机性,我们可能作出正确的判断,也可能作出错误的判断。(1) 正确的判断是:当原假设成立时,接受原假设;或当原假设不成立时,拒绝原假设;(2) 错误的判断是:当原假设成立时,拒绝原假设,此类弃真错误称为第I类错误;

25、或当原假设不成立时,接受原假设,此类取假错误称为第II类错误。一个“好”的检验方法,应该使得犯这两类错误的概率都尽可能的小,但一般来说,当样本容量固定时,不能使第I类错误和第II类错误同时很小。三、计算题(20分)用possion()分布参数的极大似然估计的渐进分布求置信区间。,最大似然估计为:.当n充分大时,渐进正态N(,), ,从而从而参数的置信区间为四、论述题:(30分)研究者想了解某地区的医院出院人数(DISC)和床位量(BEDN),调查了21家医院数据,分为甲级(I)和乙级(II)两类如下:等级IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIDISC9124

26、0255233315200266120228362414518389535273440431534426505322BEDN6264676970738191961001001031101271111161201221301371421如果我们感兴趣的问题是医院出院人数小于400的比例估计,请给出通过抽取样本研究这一问题的统计推断问题和估计量;2如果假定p来自先验分布beta(a,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;3如果将床位量按(0,70,(71,110以及(110,150 分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。1

27、设随机变量X表示出院人数,可以引进随机变量=,则Yb(1,p), 医院出院人数小于400的比例估计转化为两点分布中参数p的估计。,最大似然估计为:.2如果假定p来自先验分布beta(a,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;解:设p服从beta(a,b),则 ,令(其中对应于甲级医院数据)得参数a,b的矩估计.(甲级医院出院人数都小于400,是不是题目有些问题?)p服从beta(a,b),Y服从b(1,p),即,利用共轭先验的性质,后验分布仍为beta分布,从而后验估计为3设变量y为出院人数,自变量x为床位量的等级变量,(b) 可以采用方差分析来检

28、验床位数对出院人数有没有显著影响,(b) 也可用y对x的线性回归来分析。(a)方差分析:利用R程序检验F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)plot(F$A, F$y)a=aov(yA, data=F); summary(a)最终得到: Df Sum Sq Mean Sq F value Pr(>F) A 2 139764

29、 69882 5.965 0.0103 *Residuals 18 210889 11716 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1床位数对出院人数有有显著影响。(b)线性回归:设变量y为出院人数,自变量x为床位量的等级变量,假设满足线性回归模型:,利用最小二乘可得a,b的参数估计,利用R计算的y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2

30、,2,2,2,2)a=lm(yx); summary(a) 结果是: (Intercept) 218.12 41.16 5.299 4.09e-05 *x 104.85 29.82 3.516 0.00231 * -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1Residual standard error: 105.7 on 19 degrees of freedomMultiple R-squared: 0.3942, Adjusted R-squared: 0.3623 F-statistic: 12.36 on 1 and 19 DF, p

31、-value: 0.002311 中国人民大学接收同等学历人员申请硕士学位考试试题 招生专业: 统计学 考试科目: 高等统计学(数理统计学) 课程代码:123101 考题卷号 : 4一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1. 某汽车生产厂家为增加某型号汽车的销售量,采用促销手段,促销一个月后,分别收集了8个销售点处促销前一个月和促销后一个月该车型的销售辆,如果不考虑其他影响

32、销售量因素,仅通过观察和分析这些样本数据,是否认为这次促销有助于提高汽车的销售量。请将合适的可用于分析该类问题的检验过程选出来:C销售点代号: 1 2 3 4 5 6 7 8促销前(辆): 90 83 105 97 110 78 55 123 促销后(辆): 97 80 110 93 123 84 57 110 A两样本Z检验B两样本t检验C单一样本t检验D单一样本Z检验2. 置信水平为,下列说法正确的是( BD ),A 在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B 在置信水平一定的条件下,提高置信估计精度需要增加样本量;C 在样本量一定的条件下,提高置信估计精度,需要降低置信水

33、平;D 在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3有关检验的p值,下面说法正确的是:BC A. 一般为0,0.1之间的一个很小的概率; B. 接受备择假设的最小显著性水平;C. 如果p值小于显著性水平,则拒绝零假设; D. 样本统计量的分布函数。4. 请问以下哪些方法可以用来判断数据可能背离正态分布:BA. Q-Q图上,如果数据和基线之间几乎吻合;B. Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5若抽样误差为5,总体标准差为40,如果样本量足够大,正态分

34、布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA 156;B 256;C 356 ; d) 456.二、简答题:(10分×3=30分)1. 简述损失函数和风险函数的定义损失函数是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数, 损失函数参数的真值为,决策的结果为d ,两者的不一致会带来一定的损失,这种损失是一个随机变量,用L(,d)表示。风险函数是损失函数的期望值,表示为:R(,d) = EL(d,)。决策的目标是要找出一个决策方案d,使其对各个自然状态风险值均

35、为最小。应用时,常常对(参数的真值)确定一个概率分布,并使其平均的风险值r(d,)达到最小,其中:3. 解释t分布和正态分布之间的差异;联系:随看自由度增大t分布趋近于标准正态分布;当n>30时二者相差很小;当n时二者重合.区别:正态分布是与自由度无关的一条曲线; t分布是依自由度而变的一组曲线. t分布较正态分布顶部略低而尾部稍高.3 解释假设检验和置信区间的区别。抽样估计与假设检验都是统计推断的重要内容。参数估计是根据样本统计量估计总体参数的真值;假设检验是根据样本统计量来检验对总体参数的先验假设是否成立。区间估计与假设检验的主要区别:(a)区间估计通常求得的是以样本估计值为中心的双

36、侧置信区间,而假设检验以假设总体参数值为基准,不仅有双侧检验也有单侧检验;(b)区间估计立足于大概率,通常以较大的把握程度(置信水平)1-去保证总体参数的置信区间。而假设检验立足于小概率,通常是给定很小的显著性水平去检验对总体参数的先验假设是否成立。 三、计算题(25分)X1, X2, ,Xn 是从两点分布Bernoulli(1,p)中抽取出来的独立同分布样本:1. 求 (1-p)2的极大似然估计(10分)。2. 1中的估计量是无偏估计吗?如果是有偏的,请给出(1-p)2的一个无偏估计。(15分)1.解:设总体X服从b(1,p),,最大似然估计为:,(1-p)2的最大似然估计为2. , 是有偏

37、估计,其中为无偏估计,事实上:四、论述题:(25分)研究者想了解某种产品在四家商场中购买是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去2年的销售量196万台。表1 某种产品在过去2年中的销售量商场O(万)EOi-Ei(Oi-Ei)2A 98B 67C 13D18总计 1961 解释表头字母的含义;2请将上面的表格填写完整。3如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量

38、。2.季节O(万)EOi-Ei(Oi-Ei)2春季 495517.5-22.5506.250.98夏季 503517.514.5210.250.41秋季 491517.5-26.5702.251.36冬季581517.563.54032.257.79总计 2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。中国人民大学接收同等学历人员申请硕士学位考试试题 招生专业: 统计学 考试科目: 高等统计学(数理统计学) 课程代码:123101 考题卷号 : 5一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答

39、案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1关于假设检验,给定一组独立同分布的随机样本,给定显著性水平如下理解正确的是:D A.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;2. 置信水平为,下列说法正确的是( BD ),A 在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B 在置信水平一定的条件下,提高置信估计精度需要增加样本量;C 在样本量一定的条件下,提高置

40、信估计精度,需要降低置信水平;D 在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3有关检验的p值,下面说法正确的是:BC A. 一般为0,0.1之间的一个很小的概率; B. 接受备择假设的最小显著性水平;C. 如果p值小于显著性水平,则拒绝零假设; D. 样本统计量的分布函数。4. 请问以下哪些方法可以用来判断数据可能背离正态分布:BA. Q-Q图上,如果数据和基线之间几乎吻合;B. Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5若抽样误差为5,总体标准差为40

41、,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA 156;B 256;C 356 ; d) 456.二、简答题:(10分×3=30分)1. 假设检验的零假设和备择假设的设立对于检验的结论影响不大,请问这样的理解有问题吗?请给出你的解释。解:对同一样本信息,由于零假设的不同选择,可能会得到不同的结论。由于显著性检验只控制第一类错误的概率,而不考虑犯第二类错误的概率,因而寻找拒绝域的时候只涉及到原假设,不涉及备择假设。于是零假设的确定在假设检验中非常重要。事实上,假设检验所依据的小概率事件在一次实验中几乎不可能发生的原理。

42、小概率事件在一次试验中发生与小概率事件原理相矛盾并非形式逻辑的绝对矛盾。如果统计量落入拒绝域,也就是小概率事件居然在一次实验中居然发生了,根据小概事件原理,说明零假设显著不成立,应该否定原假设。如果统计量落入接收域,并不能肯定原假设的正确性,只能说明观测结果与零假设不矛盾,没有足够理由拒绝零假设。此时假设检验并不能检验出零假设的正确性。2. 解释下面符号的区别: , 和(提示:请按有放回和无放回抽样分别叙述)解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互

43、独立并且与总体同分布。从总体中抽出容量为n 的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含 N个个体,从总体中抽取容量为n 的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。3统计推断与描述统计之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。三、计算题(25分)用possion()分布参数的极大似然估计的渐进分布求置信区间。,最大似然估计为:.当n充分大时,渐进正态N(,), ,从而从而参数的置信区间为四、论述题

44、:(25分)研究者想了解某种电子设备产品在一年的各个季节里被购买的情况是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去3年的销售量2070万台。表1 某种电子设备产品在过去3年中的销售量季节O(万)EOi-Ei(Oi-Ei)2春季 495夏季 503秋季 491冬季581总计 20701解释表头字母的含义;2请将上面的表格填写完整。2如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡

45、方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季 495517.5-22.5506.250.98夏季 503517.514.5210.250.41秋季 491517.5-26.5702.251.36冬季581517.563.54032.257.79总计 2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。中国人民大学接收同等学历人员申请硕士学位考试试题 招生专业: 统计学 考试科目: 高等统计学(数理统计学) 课程代码:123101 考题卷号 : 6一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解

46、释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1. 某汽车生产厂家为增加某型号汽车的销售量,采用促销手段,促销一个月后,分别收集了8个销售点处促销前一个月和促销后一个月该车型的销售辆,如果不考虑其他影响销售量因素,仅通过观察和分析这些样本数据,是否认为这次促销有助于提高汽车的销售量。请将合适的可用于分析该类问题的检验过程选出来:C销售点代号: 1 2 3 4 5 6 7 8促销前(辆): 90 83 105 97 110 78 55 123 促销后(辆): 97 80 110 9

47、3 123 84 57 110 A. 两样本Z检验B. 两样本t检验C. 单一样本t检验D. 单一样本Z检验2 . 置信水平为,下列说法正确的是( BD )A 在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B 在置信水平一定的条件下,提高置信估计精度需要增加样本量;C 在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D 在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3有关检验的p值,下面说法正确的是:BC A. 一般为0,0.1之间的一个很小的概率; B. 接受备择假设的最小显著性水平;C. 如果p值小于显著性水平,则拒绝零假设; D. 样本统计量的分布函数。4

48、. 请问以下哪些方法可以用来判断数据可能背离正态分布:BA. Q-Q图上,如果数据和基线之间几乎吻合;B. Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA.156;B.256;C. 356 ; D. 456.二、简答题:(10分×3=30分)1.求Gamma分布的矩估计;Gamma分布的概率密度函数为,则 ,令得参数的矩

49、估计2.解释下面符号的区别: , 和(提示:请按有放回和无放回抽样分别叙述)解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n 的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含 N个个体,从总体中抽取容量为n 的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。3. 假设检验与置信区间之间有哪些重要的区别?假设检验与置信区间

50、都是根据样本信息推断总体参数,二者可相互转换,形成对偶性。 主要区别: a.参数估计是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立;b.区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;c.区间估计立足于大概率,假设检验立足于小概率三、计算题(25分)1.Hardy-Weinberg平衡问题中,父代有两种基因M和N,M在种群中的分布为b(1,p)现在测量到了子代基因分布为:MMNN总量频数3425001871029a)请根据这些数据求父代的p的极大似然估计;(10分)b)请给出p的置信区间的求解公式,并解释; (15分)解:a)设父代样本X服从b(1,p),,最大似然估计为:由于Hardy-Weinberg平衡,群体的基因频率在一代一代繁殖传代中保持不变。从而子代的基因型频率分别为,从而,b)当

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论