人民大学统计学在职题库统计综述答案_第1页
人民大学统计学在职题库统计综述答案_第2页
人民大学统计学在职题库统计综述答案_第3页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:统计思想综述课程代码:123201考题卷号:1(20分)随机抽取20块手机电池,测得其使用寿命数据如下(单位:小时):10089939981007101110021013999100899598399510009771015101099810051011996列出描述上述数据所适用的统计图形,并说明这些图形的用途。直方图:直观的展示一组数据(电池使用寿命)的分布情况。箱线图:直观反映原始数据(电池寿命)的数据分布的特征,如偏 态,是否有离群点。二、(20分)方差分析中有哪些基本假定?这些假定中对哪个假定 的要求比较严格

2、?1、方差分析有3个基本假定:(1 )正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本;(2)方差齐性:各个总体的方差必须相同;(3)独立性:每个样本数据是来自因子各水平的独立样本2、对独立性要求比较严格,独立性得不到满足会对方差分析结果 有较大影响,对正态性和方差齐性的要求相对比较宽松。三、(20分)某种食品每袋的标准重量是100克,从该批食品中抽取一个随机样本,检验假设 H ° :100 , HilOO。(1) 如果拒绝H o,你的结论是什么?,如果不拒绝H o,你的结论是什么?(2) 能否得到一个样本能够证明该食品的平均重量是1

3、00 克?请说明理由。(3) 如果由该样本得到的检验的P 0.03,你的结论是什么?0.03这个值是犯第I类错误的概率,是实际算出来的显着性水平,你怎样解释这个P值?(1) 拒绝H ° :该种食品每袋的平均重量不是100g不拒绝H。:提供的样本不能证明该种食品每袋的平均重量不是 100g(2) 不能,样本得出的结论只能是拒绝或不拒绝原假设,并不能直接确定原假设为真(3) 结论:若给定显着性水平为 0.05,则可以拒绝原假设,认为该食 品每袋的平均重量不是100克;但若给定显着性水平为0.01,则不能 拒绝原假设P值:如果该种食品每袋的平均重量是100g,样本结果会像实 际观测那样极端

4、或更极端的概率仅为 0.03四、(20分)在建立多元线性回归模型时,通常需要对自变量进行筛选。(1) 请谈谈你对变量筛选的必要性的看法。(2) 列出变量筛选的方法,请简要说明这些方法的特点。(1)若将所有的自变量都引入回归模型,往往会导致所建立的模型不能进行有效的解释,也可能会导致多重共线性,增加自变量还会导致判定系数R2增大,从而高估模型拟合优度。(2)变量筛选有向前选择、向后剔除、逐步回归等方法。特点 如下:向前选择:从没有自变量开始,不停向模型中增加自变量,直到增 加不能导致SSE显着增加为止。向后剔除:从所有自变量开始,不停从模型中剔除自变量,直到剔 除不能导致SSE显着减小为止。逐步

5、回归:结合向前选择和向后剔除,从没有自变量开始,不停向 模型中增加自变量,每增加一个自变量就对所有现有的自变量进行 考察,若某个自变量对模型的贡献变得不显着就剔除。如此反复, 直到增加变量不能导致SSE显着减少为止。五、(20分)如果一个时间序列包含趋势、季节成分、随机波动,适用的预测方法有哪些?对这些方法做检验说明。可以使用Winter指数平滑模型、引入季节哑变量的多元回归和分解法等进行预测。(1)Winter指数平滑模型包含三个平滑参数,即a、 B、 y(取值均在01 ),以及平滑值 ???趋势项更新?、季节项更新?、未来第k期的预测值 ? 。-?+kL为季节周期的长度,对于季度数据,L=

6、4,对于月份数据,L=12 ; I为季节调节因子。平滑值消除季节变动,趋势项更新是对趋势值得修正,季节项更 新是t期的季节调整因子,?是用于预测的模型。?+? =(? ?+ ?)? ?-?+?使用Winter 模型进行预测,要求数据至少是按季度或月份收集的,而且需要有四个以上的季节周期(4年以上的数据)。使用Winter模型进行预测,要求数据至少是按季度或月份收集的, 而且需要有四个以上的季节周期(4年以上的数据)。(2)引入 季节哑变量的多元回归对于以季度记录的数据,引入3个哑变量? 甘中?2、二34,其= 1( 第 1季度)或0(其他季度),以此类推,则季节性多兀回归模型表示为:?= ?0

7、 + ?+ ?盘2+ ?3 + ?4其中bO是常数项,bl是趋势成分的系数,表示趋势给时间序列带 来的影响,b2、b3、b4表示每一季度与参照的第1季度的平均差值(3)分解预测第1步,确定并分离季节成分。计算季节指数,然后将季节成分从 时间序列中分离出去,即用每一个时间序列观测值除以相应的季节 指数以消除季节性。第2步,建立预测模型并进行预测。对消除了季节成分的时间序列 建立适当的预测模型,并根据这一模型进行预测。第3步,计算出最后的预测值。用预测值乘以相应的季节指数,得 到最终的预测值。2中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:统计思想综述课程代码:1232

8、01考题卷号:2一、(20分)在某小学随机抽取 35名小学生,调查他们每周 购买零食的花费情况,得到的数据如下(单位:元):241726293862844398301726324010202743331542835264725172645163629375列出描述上述数据所适用的统计量,并说明这些统计量的 用途。平均数:用于度量对象的一般水平。中位数(分位数):用中间(某个)位置上的值代表数据水平,也用于度量对象的一般情况,且不受极值的影响具有稳定性。方差(标准差):用于描述一组数据的差异水平,越大说明数据的分布越分散不稳定。偏态系数:用于描述数据分布的不对称性,越接近0越对称。峰度系数:用于

9、描述数据分布峰值高低,大于0为尖峰,小于0为扁平分布。二、(20分)简要说明t分布和F分布在推断统计中应用。t分布:当正态总体标准差未知时,在小样本的条件下对总体均值的估计和检验要用到t分布。描述样本均值分布,用于对两 个样本均值差异进行显着性测试、估算置信区间等。F分布:通常用于比较不同总体的方差是否有显着差异。应用于 方差分析、协方差分析和回归分析等, 还可用于似然比检验。三、(20分)什么是P值?要证明原假设不正确,如何确定 合理的P值?P值:犯第I类错误的真实概率,也称观察到的显着性水平。是当原假设为真时,得到的样本结果会像实际观测结果这样极 端或者更极端的概率。若要证明原假设不正确,

10、 则由样本得到的 P值应小于给定的显 着性水平。四、(20分)某企业准备用三种方法组装一种新的产品,为 确定哪种方法每小时生产的产品数量最多,随机抽取了 30名工人,并指定每个人使用其中的一种方法。通过对 每个工人生产的产品数进行方差分析得到下面的结果:方差分析表差异源SSdfMSFP-value组间12100.245946组内3836总计2(1)完成上面的方差分析表。(2)组装方法与组装产品数量之间的关系强度如何? 若显着性水平0.05,检验三种方法组装的产品数量 之间是否有显着差异?差异源SSdfMSP-value组间2*210=4201-1=2210组内383630-3=2383627

11、=142.0总计420+3836=425629210142.07=1.4780.24594(2)从P值来看,组装方法与组装产品数量之间的关系强度较 弱。(3)原假设:三种方法每小时组装的产品数量没有差异若显看性水平为0.05,则P>0.05,因此不能拒绝原假设, 即不能证明三种方法组装的产品数量之间有显看差异。五、(20分)简要说明分解预测的基本步骤。第1步,确定并分离季节成分。 计算季节指数, 然后将季节 成分从时间序列中分离出去, 即用每一个时间序列观测值除以 相应的季节指数以消除季节性。第2步,建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型,并根据这一模型进行

12、预测。第3步,计算出最后的预测值。用预测值乘以相应的季节指 数,得到最终的预测值。3中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:统计思想综述课程代码:123201考题卷号:3一、(20分)在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表:要对各名运动员进行综合评价,使用的统计量有哪些?简要说明这些统计量的用途。(1)集中趋势:指一组数据向某一中心值靠拢的程度,它可以反映选手射击成绩中心点的位置平均数:一组数据相加后除以数据的个数得到的结果。若各组数据 在组内是平均分布的,则计算的结果还

13、是比较准确的,否则误差会 比较大。(如中国选手发挥很稳定,适合使用平均数判断其成绩) 中位数:一组数据排序后处于中间位置上的变量值,但不受极端值 的影响。(如波兰选手大多数成绩比较平均,但有一枪打到8.1,会严重影响其平均值,但不会影响中位数)(2)离散程度:各变量值远离其中心值的程度,它可以反映选手发挥的稳定性标准差:方差的平方根,能够很好的反映出数据的离散程度,若选 手的平均成绩差异不大,可以通过直接比较标准差的方式进行衡量 离散系数:一组数据的标准差与其相应的平均数之比,离散系数越 大则数据的离散程度也大,若选手的平均成绩差异很大,则需要计 算离散系数比较稳定性极差:一组数据的最大值与最

14、小值之差,它容易受极端值的影响,不能反映中间数据的分散情况,但可从另一方面选手是否存在发挥异常(3 )分布形状峰态:峰态是对数据分布平峰或尖峰程度的测度,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。 通过对选手的峰态分布情况分析,可看出成绩分布是否平均。偏态:偏态是对数据分布对称性的测量,若偏态系数明显不等于0,表明分布是非对称的,偏态系数的数值越大,表示偏斜的程度越大。通 过对选手的偏态分布情况情况分析,可看出选手成绩分布是否对称,是否受比赛时长影响。二、(20分)为什么说假设检验不能证明原假设正确?(1 )假设检验的目的主要是收集证据拒绝原假

15、设,而支持你所倾 向的备择假设。因为假设检验只提供不利于原假设的证据(证据的 强弱取决于P值的大小)。因此,当拒绝原假设时,表明样本提供 的证据证明它是错误的;当没有拒绝原假设时,我们也没法证明它 是正确的,因为假设检验的程序没有提供它正确的证据。(2)假设检验得出的结论都是根据原假设进行阐述的。我们要么拒 绝原假设,要么不拒绝原假设。当不能拒绝原假设时,我们也不能 说“接受原假设”,因为没有足够的证据拒绝原假设并不等于你已 经证明了原假设时真的,它仅仅意味着目前我们还没有足够的证据 证明原假设,只表示目前的样本提供的证据还不足以拒绝原假设。(3)假设检验通常是先确定显着性水平 a,这等于控制

16、了第I类错误的概率;但犯第H类错误的概率 B却是不确定的。在拒绝H0 时,犯第I类错误的概率不超过给定的显着性水平a;当样本结果显示没有充分理由拒绝原假设时,也难以确定第H类错误发生的概率。因此,在假设检验中采用"不拒绝 H0”而不采用“接受H0”的表述 方法,这样在多数场合下便避免了第:类错误发生的风险。三、(20分)为估计公共汽车从起点到终点平均行驶的时间,一家公交公司随机抽取 36班公共汽车,得到平均行驶的时间为26分钟,标准差为 8分钟。(1)说明样本均值服从什么分布?依据是什么?(2)计算平均行驶时间 95%的置信区间。(3)解释95%的置信水平的含义。(Zo.o5 1.6

17、45 , Z0.0251.96 , to.051.860 , to.025 2.306 )(1 )样本均值服从正态分布。通过中心极限定理:设从均值为卩2方差为a (有限)的任意一个总体中抽取样本量为n的样本,当n?2的正态充分大时,样本均值的抽样分布近似服从均值、方差?分布。一般统计学中的 n>30为大样本,本题中抽取了36个样本,因此样本均值服从正态分布。(2) 已知 n=36 , x=26 , s=8,置信区间 95% 所以?=? 0.05 =1.962 2平均行驶时间95%的置信区间为:? 8?尸u = 26 ± 2.61 即(23.39,28.61 )x ±2

18、V? = 26 ± 1.96 x V36(3) 一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平。如果用某种方法构造的所有区间中有 95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么用该方法构造的区间称为置信水平为95%的置信区间。四、(20 分)设单因素方差分析的数学模型为:yiji ij。解释这一模型的含义,并说明对这一模型的基本假定。单因素方差分析指的是只有一种处理因素在影响结果,或者说只有一个自变量在影响因变量的情况。(1) 设任何一次实验结果都可以表示成如下形式:Yi= 1 + si其中Yi是第i次实验的实际

19、结果,卩是该结果的最佳估计值,其实就是总体均值,ei是均值和实际结果的偏差也就是随机误差(2)假定ei服从均值为0,标准差为某个定值的正态分布,把以上形 式按照方差分析进行推广,假设我们要研究几种水平之间的差异, 每种水平抽取一定样本并收集相关数据,那么模型公式可以表示 为:Yij= 11 i+ e ij其中Yij是第i组水平的第j个样本的实际结果,1 i是第i组的均 值,e ij是第i组第j个样本相对于实际结果的偏差。同样假定£i服从均值为0,标准差为某个定值的正态分布,如果这 i组水平没 有差异,则Yij应等于总体均值加上随机误差项。(3) 为了方便统计推断,模型公式改为如下形式

20、:Yij=卩+ a i+ e ij其中卩表示不考虑分组时的总体均值,a i表示第i组的附加效应,即在第i组时的均值改变情况,例如 a i=10 ,表示第i组的均值要比 总体均值多10,如果这i组均值并无差异,那么a 1= a 2= a 3=a i ,反之则不等,据此我们可以建立假设:H0 : i取任意值时,a i=0H1 : i取任意值时,至少有一个 a i<>0结合差异分解的方差分析思路,我们发现a i实际上就是处理因素导致的差异。五、(20分)在多元回归中,判断共线性的统计量有哪些?简要解释这些统计量。(1) 自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在

21、共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断,并不全面。(2) 容忍度(Toleranee ):以每个自变量作为应变量对其他自变量进、行回归分析时得到的残差比例,大小用1减决定系数来表示。该指标越小,则说明该自变量被其余变量预测的越精确,共线性可 能就越严重。(3) 方差膨胀因子(Varia nee in flation factor, VIF):其中Rj2为Xj与其余(m-1)个自变量线性回归的决定系数。 值越大,多元共线程度越严重。4、特征根(Eigenvalue ):主要包括条件指数和方差比。条件指数 是最大特征根与每个特征根之比的平方根。当对应的方差比大于0

22、.5时,可认为多元共线性严重存在4中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:统计思想综述课程代码:123201考题卷号:4一、(20分)在2008年8月10日举行的第29届北京奥运会男子10米气手枪决赛中,最后获得金牌和银牌的两名运动员10枪的决赛成绩如下表所示:运动员决赛成绩庞 伟9.310.310.510.310.410.310.710.410.79.3秦钟午二9匸9.910.610.39.410.210.110.89.99.8根据上表计算的韩国运动员秦钟午的平均环数是10.05环,标准差是0.445环。比较分析哪个运动员的发挥更稳定。(1) 平均数、标准差

23、:庞伟的平均环数=10.22环,标准差是0.507 ; 秦钟午的平均环数=10.05环,标准差是0.445环,由于庞伟的平均环 数明显大于秦钟午,因此只比较标准差不能说明二人的稳定性(2)中位数:庞伟的中位数 =10.35,秦钟午的中位数=10,同样可 以看出庞伟的成绩更优秀一些(3) 极差:庞伟的极差 =1.4,秦钟午的极差=1.4,两者极差相同(4)离散系数:庞伟的离散系数 =0.0496,秦钟午的离散系数=0.0443综上所述,选手庞伟的成绩更优秀,但秦钟午的发挥更稳定。二、(20分)什么是统计意义上的显着性?为什么说统计上显着不一定就有现实意义?(1)在假设检验中,拒绝原假设称样本结果

24、在“统计上是显着 的”;不拒绝原假设则称结果是“统计上不显着的”。“显着的”在 这里的意思是指非偶然的,它表示这样的样本结果不是偶然得到的,同样,结果是不显看的则表明这样的样本结果很可能是偶然得 到的。(2)在进行决策时,我们只能说 P值越小,拒绝原假设的证据就越 强,检验的结果也就越显看。当 P值很小而拒绝原假设时,并不一定意 味着检验的结果就有实际意义。因为在假设检验中的“显着”仅仅是“统计意义上的显着”。P值与样本的大小密切相关,样本量越大,检 验统计量的值也就越大,P值就越小,就越可能拒绝原假设。因此,当 样本量很大时,解释假设检验的结果需要小心,因 为在大样本情况下,总能把与假设值的

25、任何细微差别查出来,即使 这种差别几乎没有任何实际意义。因此,在实际检验中,不能把“统计意义上的显着性”与“实际意义上的显着性”混同起来。三、(20分)简要说明判断一组数据是否服从正态分布的统计方法。(1)图示法1. P-P 图以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵坐标,以样本值表现为直角坐标系的散点。如果数据服 从正态分布,则样本点应围绕第一象限的对角线分布。2. Q-Q 图以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为直角坐标系的散点。如果数据服从正太 分布,则样本点应围绕第一象限的对角线分布。3. 直方图(频率直方图)判断方法

26、:是否以钟型分布,同时可以选择输出正态性曲线。4. 箱线图判断方法:观察矩形位置和中位数,若矩形位于中间位置且中 位数位于矩形的中间位置,则分布较为对称,否则是偏态分布。5. 茎叶图判断方法:观察图形的分布状态,是否是对称分布。(2)偏度、峰度检验法峰态:峰态是对数据分布平峰或尖峰程度的测度,当K>0时为 尖峰分布,数据的分布更集中;当 K<0时为扁平分布,数据的分布 越分散。偏态:偏态是对数据分布对称性的测量,若偏态系数明显不等 于0,表明分布是非对称的,偏态系数的数值越大,表示偏斜的程 度越大。(3)非参数检验非参数检验方法包括 Kolmogorov-Smirnov 检验(D检

27、验)和 Shapiro- Wilk (W检验)。当样本 N<2000时,shapiro-的W统计量检验正态数wilk性;当样本数 N>2000时,Kolmogorov-Smirnov 的D统计量检验正 态性;检验时,根据样本计算一个统计量即检验统计量D。它把样本分布的形状和正态分布相比较,比较得出一个数值p ( 0<p<1,即实际的显着性水平)来描述对这个想法的怀疑程度。如果p值小于给定的显着性水平,则拒绝原假设,认为数据不是来自正态分布,反之 则认为数据来自正态分布。正态分布的拟合优度检验如Pearson x检验、对数似然比检验四、(20分)国家统计局目前对地区的划分

28、中,将我国31个省市自治区划分为东部地区、中部地区、西部地区、东北地区。(1)要分析四个地区的平均消费水平是否存在显着差异,所用的统计方法有哪些?这些方法的区别是什么?(2)你会选择什么方法进行分析?你的假设是什么?(1 )可两两之间进行t检验或4组数据进行方差分析。T 检验:两独立样本 t 检验(two independent samples t-test),又称成组t 检验。适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。完全随机设计是分别从不同总体中随机抽样进行研究,即本项目中从不同地区随机抽样进行研究相符合。单因素方差分析:研究一个分类型自变量对一个数

29、值型因变量的影 响,如本项目中就是研究四个不同地区对平均消费水平的影响。区别:T检验属于均值分析,它是用来检验两类母体均值是否相等。均值分析是来考察不同样本之间是否存在差异,即两个不同地区之间消费水平是否存在显着差异;而方差分析则是评估不同样本之间的差异是否由某个因素起主要作用,即消费水平的显着差异是否是由地区不同引起的。并且通过单因素方差分析只能得出 4组数据是否存在显 着差异,并不能得出具体是哪几个地区之间有显着差异。Kruskal-Wallis 检验。 用于检验多个独立总体是否相同的一种非参数 检验方法。原假设:四个地区平均消费水平相等,备择假设:四个地区平均消费水平不全相等。不需要方差

30、分析的正态分布且方差相等的假设。该检验可用于顺序数据也可用于数值型数据(2)我选择用单因素方差分析,因为本项目共分为4组数据,只要求分析他们之间是否存在显着差异,并不用确定具体差异如何存在的。原假设为:四个地区之间的平均消费水平没有显着差异。若最终 拒绝原假设,则说明四个地区之间的平均水平存在显着差异。即证明 了题目中的要求。因为对四个地区的分布和方差未知,选择非参数方法。五、(20分)一家房地产评估公司想对某城市的房地产销售价格y (元/m2)与地产的评估价值 xi (万元)、房产的评估价值X2 (万元)和使用面积 X3 ( m2)建立一个模型,以便对销售价格作出合理预测。为此,收集了20栋

31、住宅的房地产评估数据,由统计软件给出的部分回归结果如下(显着性水平为 95%):方差分析dfSSMSFSig.回归31 46.703.879E-08|残差16626760.91总计19Coefficie n ts标准误差t StatP-valueIn tercept148.7005574.42130.25890.799X Variable 10.81470.5121.59130.1311X Variable 20.8210.21123.88760.0013X Variable 30.1350.06592.05030.0571对所建立的回归模型进行综合评价。(1 )线性回归方程为y? = 148

32、.7005 + 0.8147? + 0.8212? + 0.135?其中第i (i 1,2,3)个回归系数的意义是,在其它自变量保持?不变时,Xi每变动一个单位,y就平均变动 i个单位。 例如在房产的评估价值和使用面积都不变的情况下,地产的评估价值每上升1万元,房地产销售价格就上升 8147元。(2 )设 =0.05,由p值=3.879* 10 -8 < 知,回归方程的线性关系是显着的。(3) 第1,2,3个回归系数显着性检验p值分别是0.1311>,0.0013<,0.0571>故第2个回归系数显着,第1、3个回归系数不显着。(4)多重判定系数?R2 = = = 0.

33、8975?它反映了因变量变异中能用自变量解释的比例,描述了回归直线拟合样本观测值的优劣程度。 此处R2 = 0.8975,表明 回归拟合效果很好。(5)估计标准误差? ?= V= V ?= V 626760.91= 791.68?- ?- 1Sy是y的标准差的估计,反映了 y (房地产销售价格)的 波动程度。(6)有用。虽然该变量的部分系数没通过显着性检验,但并不 意味看该变量没用,它在经济解释上可能还是有一定意义 的,方程总体显看,说明方程包含该变量总体上是有用的 也可能是多重共线性造成了不显看。5中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:统计思想综述课程代码

34、:123201考题卷号:5一、(20分)为研究大学生的逃课情况。随机抽取350名大学生进行调查,得到的男女学生逃课情况的汇总表如下:是否逃课男女合计逃过课8488172未逃过课78100178合计162188350(1) 这里涉及的变量有哪些?这些变量属于什么类型?涉及的变量有性别、是否逃课。是否逃课及性别 为分类型变量,不同性别的逃课和非逃课人数,为数值变量。(2)描述上述数据所适用的统计图形有哪些?可以用条形图、复式条形图,饼图、复式饼图,环形图。(20分)现从一批零件中随机抽取16只,测得其长度(单位:厘米)如下:15.114.514.814.615.214.814.914.614.81

35、5.115.314.715.015.15.114.7(1)如果要使用t分布构建零件平均长度的置信区间,基本 的假定条件是什么?在小样本(n<30)情况下,对钟体均值得估计都是建立在总体服从正太分布假设前提下。当正态总体的未知,样本均值经过标准化后服从自由度为n-1的t分布,用样本方差s2代替总体方差。(2) 构建该批零件平均长度的95%的置信区间样本均值平均长度为x=14.9 ,95%的置信区间为x t1-2 (n 1)s / n 14.914.90.132(14.77 , 15.03 )2.1310.247656/ 4,即(3) 能否确定该批零件的实际平均长度就在你所构建的区间内?为什

36、么?(注: t 2 ( n 1) t 0.025 (15)2.131)不能。因为该样本所构造的是一个特定的区间,不再是随机区间。只能说在 95%置信水平下, 该区间是大量包含真值的区间中的一个。也可能是少数几个不包含参数真值的区间中的一个。三、(20分)在假设检验中,当不拒绝原假设时,为什么一般不 采取“接受原假设”的表示方式?1. 假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择 假设。因为假设检验只提供不利于原假设的证据2. 假设检验得出的结论都是根据原假设进行阐述的。当不能拒绝原假设时,我们也从来不说“接受原假设”,因为没有证明原假设是真的。没有足够的证据拒绝原假设并不等于你

37、已经“证明”了原假设是真的,它 仅仅意为着目前还没有足够的证据拒绝原假设,只表示手头上这个样本 提供的证据还不足以拒绝原假设。“不拒绝”的表述方式实际上意味着 没有得出明确的结论3. 假设检验中通常是先确定显着性水平,这就等于控制了第I类错误的概率,但犯第口类错误的概率却是不确定的。四、(20分)简要说明2分布在统计中的应用。卡方分布应用很广,常用于假设检验和置信区间的计算,比如应用到独立性检验中,同质性检验、适合性检验等等独立性检验:主要用于两个或两个以上因素多项分类的计数资料分析,也就 是研究两类变量之间的关联性和依存性问题拟合优度检验:检验单个多项分类名义型变量各分类间的实际观测次数与理

38、论次数之间是否一致的问题同质性检验: 检验两个或两个以上总体的某一特性分布,也就是各“类别” 的比例是否统一或相近适合性检验:检验某一类分类资料所在总体的分布是否符合某个假设或理论 的分布【感觉简答题可以适当写多点,也可以只说检验名字】五、(20分)简要说明解决多元回归中共线性的方法。1:变量的选择方法:向前选择、向后剔除、逐步回归。2 :岭回归方法:有偏估计3 :主成分分析:降维,提取信息4 :偏最小二乘回归法:原理与主成分方法相似6中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统计学考题卷号:6考试科目:统计思想综述 课程代码:123201(20分)一家电视台为了解观众对某档娱

39、乐节目的喜欢程 度,对不同年龄段的男女观众进行了调查,得到喜欢该档娱 乐节目的观众比例(单位: %)如下:年龄段男性女性20岁以下562030 岁25323040 岁16154050 岁1212Ij. J.50岁以上.6.8(1)这里涉及的变量有哪些?这些变量属于什么类型?有分类变量和数量变量。分类变量有性别,年龄段。数量变量有各年龄段的男女人数。(2)描述上述数据所适用的统计图形有哪些?可以用条形图和饼图【直方图用于连续变量的这里最好不用】二、(20分)假定总体共有1000个个体,均值32,标准差。从中抽取容量为 100的所有简单随机样本。样本均 值X的期望值和标准差各是多少?得出上述结论所

40、依据 的是统计中的哪一个定理?请简要叙述这一定理。样本均值的期望值为 32,标准差为0.5 是中心极限定理,定理如下设从均值为 卩、方差为 (T八2;(有限)的任意一个总体中抽取样本量为n的样本,当 n充分大时,样本均值的抽样分布近似服从均值为、方差为(T八2/n 的正态分布三、(20分)在假设检验中,利用P决策与利用统计量决策有什么不同?P值:如果能把犯第I类错误的真实概率算出来,就可以直接用这个概率做出决策。 而不需要管什么事先给定的显着性水平a,这个犯第I类错误的真实概率就是 P值。统计量检验是根据事先确定的显着性水平a围成的拒绝域作出决策,不论检验统计量的值是大是小,只要把它落入拒绝域

41、就拒绝原假设H。否则就不拒绝 H。这样,无论统计量落在拒绝域的什么位置,你 也只能说犯第一错误的概率为 a, 而用P值检验则能把犯第I类错误 的真实概率算出来。P值决策优于统计量决策。P值决策提供了更多的信息。四、(20分)简要说明方差分析的基本原理。方差分析被解释为检验多个总体均值是否相等的统计方法,这种解释侧 重于方差分析的过程和形式。本质上,方差分析研究的是分类自变量对数值因变量的影响 方差分析总的思想是通过计算来比较因某一特定因素带来的样本值的差异 与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统计 意义五、(20分)比较说明指数曲线和直线的异同。一、相同点:指数曲线模

42、型和直线模型都可以对时间序列进行拟合; 都可以进行参数估计和假设检验;都可以对于未来的时点进行预测。二、不同点:1、直线为线性的,指数曲线为非线性的。2、 两者适用于不同特点的时间序列;线性趋势是时间序列按一个 固定的常数(不变的斜率)增长或下降,指数曲线是时间序列各期观察值按一定的增长率增长或衰减;3、两者的模型表达式不同;4、系数的求解方法不同。直线用最小二乘法求得。指数曲线,需 先采取线性化手段将其化为对数直线形式,根据最小二乘法,求解 出系数的对数,再取其反对数。5、两者的预测方法不同,直线趋势可以用 Holt指数平滑和一元线 性回归法预测,指数曲线可以用指数模型来预测。7中国人民大学

43、接受同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:统计思想综述课程代码:123201考题卷号:7一、(20分)一项关于大学生体重状况的研究发现,男生的平均体重为60kg,标准差为5kg ;女生的平均体重为50kg,标准差为5kg。请回答下面的问题(1)是男生的体重差异大还是女生的体重差异大?为什 么?(2)粗略地估计一下,男生中有百分之几的人体重在55kg到65kg之间?(3)粗略地估计一下,女生中有百分之几的人体重在40kg到60kg之间?(1) 女生的体重差异大。男生体重的离散系数是V仁5/60=0.083女生体重的离散系数是V2=5/50=0.1离散系数大的离散程度也就大,V

44、2> V1,因此,女生的体重差异大(2) 设男生的体重为X i,Xi N(60,5 2)设 Zi=(X 1-60) / 5男生体重在55kg到65kg之间的概率为P,则P(55 X 65 )=P(-1 Z 1 1 )=68%因此,男生有 68%的体重在5565kg之间。(3) 设女生的体重为 X 2,则X 2N(50,5 2),设 Z2=( X 2-50)/ 5,则 Z2N(0,1)P(40 X 260)=P(-2 Z2 2)=95%故女生有95%的体制在4060kg之间。二、(20分)叙述评价估计量的标准。评价估计量的标准主要有3个。<1>无偏性。无偏性是指估计量抽样分布的

45、期望值等于被估计的总体参数。设总体参数为,所选择的估计量为人,如果E(八)=,则称 八为的无偏估计量。<2>有效性。有效性是指估计量的方差尽可能小。一个无偏 估计量并不意味着它就非常接近被估计的总体参数,估 计量与参数的接近程度是用估计量的方差来度量的。对 同一总体参数的两个无偏估计量,有更小方差的估计量 更有效。<3> 一致性。一致性是指随着样本量的增大,点估计量的值 越接近总体参数。一个大样本给出的估计量要比一个小 样本给出的估计量更接近总体的参数。样本均值的标准误差 x= / n与样本量的大小有关,样本量越大,x的值就越小。因此,大样本量给出的估计量更接近总体均值

46、U,从这个意义上来说,样本均值是总体均值的一个一致估计量。三、(20分)一家房地产开发公司准备购进一批灯泡,公司打算在两个供货商之间选择一家购买,两家供货商生产的灯泡使用寿命的方差大小基本相同,价格也很相近,房地产公司购 进灯泡时考虑的主要因素就是使用寿命。其中一家供货商声称其生产的灯泡平均使用寿命在1500小时以上。如果在1500小时以上,在房地产公司就考虑购买。由36只灯泡组成的随机样本表明,平均使用寿命为1510小时,标准差为193小时。(1)如果是房地产开发公司进行检验,会提出怎样的假设?请说明理由。(2)如果是灯泡供应商进行检验,会提出怎样的假设, 请说明理由。(1)设灯泡的平均使用

47、寿命为 uH0:u 1500(使用寿命符合标准 )H1:u<1500(使用寿命不符合标准)房地产开发公司倾向于证明灯泡的使用寿命小于1500个小时。因为这会损害公司的利益(如果房地产公司非常相信灯泡的 使用寿命在1500小时以上,也就没有必要抽检了)通常备择假设 用于表达研究者倾向于支持的看法,因此,备择假设为u< 1500小时,原假设为u 1500。(2)设灯泡的平均使用寿命为u.Ho: u1500Hi: u > 1500灯泡供应商倾向于支持灯泡的使用寿命大于1500小时,所以备择假设为:u > 1500 ;原假设为:u 1500四、(20分)什么是判定系数?它在回归

48、分析中的主要作用是什么?1.判定系数是对估计的回归方程拟合优度的度量。引起y值变化的这种波动称为变差。变差主要有两种:一是自变量x的变化引起y变化,这部分的平方和称为回归平方和;二是除x以外的其他随机因素导致y变化,这部分变差的平方和称为残差平方和。变差的平方和=回归的平方和+残差的平方和判定系数(R2)=回归的平方和(SSR)/变差的平方和(SST)2判定系数测度了回归直线对观测数据的拟合程度。回归直线拟合的好坏取决于SSR/SST比值的大小。各观测点越靠近直线,值越大,直线拟合的越好;值越小,直线拟合的越差。五、(20分)说明t分布的适用条件,如何判断某个过程产生的 数据满足这一条件?1.

49、 当正态总体的标准差未知时,在小样本的条件下对总体均值的估计和检验要用到 t分布2. 正态性:可以划出样本数据的直方图和茎叶图或者P-P图,Q-Q图检验数据的正态性 小样本:当样本的数量小干30个 当成小样本处理=8中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:统计思想综述课程代码:123201考题卷号:8-、(20分)在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投 资风险越低,预期收益率的变化越大,投资风险就越高。下 面的两个直方图,分别反映了 200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高

50、收益率往往伴 随着高风险。但投资于哪类股票,往往与投资者的类型有一 定关系。(1)你认为该用什么样的统计量来反映投资的风险?(2)如果选择风险小的股票进行投资,应该选择商业类 股票还是高科技类股票?(3)如果你进行股票投资,你会选择商业类股票还是高 科技类股票?(1)方差或标准差(2)风险小的股票应选商业类股票(3)如果选择风险小的股票,选择商业类股票,如果 选择高收益的股票,选择高科技类股票。二、(20分)某种感冒冲剂规定每包重量为12克,超重或过轻都是严重问题。从过去的生产数据得知0.6克,质检员抽取25包冲剂称重检验, 平均每包的重量为 11.85克。假定产 品重量服从正态分布。(1)根

51、据上述检验计算出的P 0.02,感冒冲剂的每包重量是否符合标准要求(0.05)?(2) 说明上述检验中可能犯哪类错误?该错误的实际含义 是什么? 不符合标准P= 0.02<0.05点评人:原假设为H0 :产品符合标准要求,由于P值小于0.05,因此拒绝原假设,即,每包重量不符合标准要求。【P为犯第一类错误的概 率,即原假设正确,实际拒绝的概率为0.02,位于拒绝域内,推翻H0】(2) 可能犯第I类错误( 错误)。原假设是正确的,实际确 拒绝了原假设。三、(20分)简述方差分析的基本假定。正态性:每种处理所对应的总体都应服从正态分布。方差齐性:各个总体的方差必须相等。独立性:每个样本数据都

52、来自不同处理的独立样本。方差分析对独立性的要求比较严格,若该假设得不到满足, 方差分析的结果会受到较大影响。而对正态性和方差齐性的要求相对较宽松,当正态性不满足和方差略有不齐时,对分 析的结果影响不是很大。四、(20分)怎样自相关图和偏自相关图来识别ARIMA( p, d, q )模型中的参数?第一步:将序列平稳化。只有平稳序列才能建立ARIMA模型,当原始序列不平稳时,通过差分可以将其平稳化。第二步:识别模型的阶数。如果原始序列(或差分序列)的偏自相关系数有p个明显的峰值,在p个值后截尾,而它的 自相关函数呈现出指数衰减或正弦衰减,呈现出拖尾,为AR(p)序列,模型为ARIMA(p,0,0)

53、.如果序列的自相关函数有q个明显的峰值,在q个值后截尾,而它的偏自相关函数呈指数或正弦衰减,呈现出拖尾,为MA(q)序列,模型为ARIMA(O,O,q).如果序列的自相关图和偏自相关图的前p个条和前q个条没有固定规律, 其后都是趋渐于0而不是突然 变为0,都呈现出拖尾,模型为 ARMA(P,Q), “I ”的取值取 决于差分的阶数。第三步:模型诊断。如果模型正确,模型预测产生的误差是白噪声序列,残差序列的自相关图没有什么固定模式。书上245页五、(20分)什么是回归中的置信区间估计和预测区间估计?两个区间的宽度是否一样?x取何值时两个区间宽度最窄?平均值的 置信区间估计:是对x的一个给定值X0,求出y的平 均值的估计区间。个别值的预测区间估计:是对x的一个给定值xo,求出y的一 个个别值的估计区间。两个区间的宽度是不一样的。预测区间要比置信区间宽一止匕亠O当x= x时,两个区间的宽度最窄,此时,两个区间也都是 最准确的。9国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:统计思想综述课程代码:123201考题卷号:9一、(20分)为研究少年儿童的成长发育状况,某研究所的一位调查人员在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论