




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
感谢在校统招的同学帮忙把绝大多数都做了,但可能还是落下了少数题目。如有高手能够补完,还请与其他同学分享。卷1一、直方图:直观的给出原始数据(电池寿命)的分布情况箱线图:直观的识别出原始数据(电池寿命)的异常值,并展示出分布的峰度和偏态。二、(1)方差分析中有三个基本的假定。1、正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本;2、方差齐性:各个总体的方差必须相同;3、独立性:每个样本数据是来自因子各水平的独立样本。 (2)在上述3个假定中,对独立性的要求比较严格,若该假设得不到满足时,方差分析的结果往往会受到较大影响。而对正态性和方差齐性的要求相对比较宽松。三、(1)拒绝的结论是:该食品每袋的平均重量不是100克;不拒绝的结论是:样本提供的证据不能证明该食品每袋的平均重量不是100克。(2)不能。样本得出的结论只能用于拒绝原假设,而不能证明原假设为真。(3)结论:若该食品每袋的平均重量是100克,则得到的样本会像现在观测到的结果这样极端或者更极端的概率仅为0.03。解释p值:若给定显著性水平为0.05,则可以拒绝原假设,认为该食品每袋的平均重量不是100克;但若给定显著性水平为0.01,则不能拒绝原假设。四、(1)若将所有的自变量都引入回归模型,往往会导致所建立的模型不能进行有效的解释,也可能会导致多重共线性。(2)变量筛选有向前选择、向后剔除、逐步回归等方法。特点如下。向前选择:从没有自变量开始,不停向模型中增加自变量,直到增加不能导致sse显著增加为止。向后剔除:从所有自变量开始,不停从模型中剔除自变量,直到剔除不能导致sse显著减小为止。逐步回归:结合向前选择和向后剔除,从没有自变量开始,不停向模型中增加自变量,每增加一个自变量就对所有现有的自变量进行考察,若某个自变量对模型的贡献变得不显著就剔除之。如此反复,直到增加变量不能导致sse显著减少为止。五、有季节性多元回归模型、时间序列分解法等方法。季节性多元回归模型引入虚拟变量来表示季节,对于以季度记录的数据,引入3个虚拟变量q1、q2、q3,其中q1=1(第1季度)或0(其他季度),q2=1(第2季度)或0(其他季度),q3=1(第3季度)或0(其他季度),则季节性多元回归模型表示为:其中b0是时间序列平均值,b1是去市场分的洗漱,表示趋势给时间序列带来的影响,b2、b3、b4表示每一季度与参照的第4季度的平均差值。时间序列分解法分3步:第一步,确定并分离季节成分。计算季节指数,确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。第二步,建立预测模型并进行预测。对消除了集结成分的时间序列建立适当的预测模型,饼干局这一模型进行预测。第三步,计算出最后的预测值。用预测值乘以相应的季节之术,得到最终的预测值。卷2一、平均数:用于表示统计对象的一般水平,常为算术平均数。中位数:也可用于表示统计对象的一般情况,而且不受极值的影响。方差:用于描述数据的离散程度,越大说明数据的分布越分散。偏态系数:用于描述数据分布的不对称性。峰度系数:用于描述数据分布的尖峰或平峰程度。二、t分布:描述样本均值分布,用于对两个样本均值差异进行显著性测试、估算置信区间等。f分布:应用于方差分析、协方差分析和回归分析等,还可用于似然比检验。三、p值是当原假设为真时,得到的样本会像现在观测到的结果这样极端或者更极端的概率。若要证明原假设不正确,则由样本得到的p值应小于给定的显著性水平。四、(1)差异源ssdfmsfp-value组间42022101.4780.245946组内383627142.074总计425629(2)从p值来看,组装方法与组装产品数量之间的关系强度较弱。(3)若显著性水平为0.05,则p0.05,因此不能拒绝原假设,即不能证明三种方法组装的产品数量之间有显著差异。五、时间序列分解法分3步:第一步,确定并分离季节成分。计算季节指数,确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。第二步,建立预测模型并进行预测。对消除了集结成分的时间序列建立适当的预测模型,饼干局这一模型进行预测。第三步,计算出最后的预测值。用预测值乘以相应的季节之术,得到最终的预测值。考题卷号:3一、 (20分)在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表:要对各名运动员进行综合评价,使用的统计量有哪些?简要说明这些统计量的用途。有, 平均数、众数和中位数、方差、离散系数、偏态和峰态其中平均数、众数和中位数是评价数据的集中趋势的,可以座位数的平均水平或代表值,三者略有差异。三者特点和差异如下众 数 不受极端值影响具有不惟一性数据较多时有意义,且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响利用了全部数据信息,数学性质优良数据对称分布或接近对称分布时应用较好当要用样本信息对总体进行推断时,平均数就更显示出它的各种优良特性方差、离散系数都是可以评价数据的离散程度的。:二、 (20分)为什么说假设检验不能证明原假设正确?1.假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据2. 假设检验得出的结论都是根据原假设进行阐述的。当不能拒绝原假设时,我们也从来不说“接受原假设”,因为没有证明原假设是真的。没有足够的证据拒绝原假设并不等于你已经“证明”了原假设是真的,它仅仅意为着目前还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设。“不拒绝”的表述方式实际上意味着没有得出明确的结论3. 假设检验中通常是先确定显著性水平,这就等于控制了第类错误的概率,但犯第类错误的概率却是不确定的。三、 (20分)为估计公共汽车从起点到终点平均行驶的时间,一家公交公司随机抽取36班公共汽车,得到平均行驶的时间为26分钟,标准差为8分钟。(1) 说明样本均值服从什么分布?依据是什么?(2) 计算平均行驶时间95%的置信区间。(3) 解释95%的置信水平的含义。(,)略四、 (20分)设单因素方差分析的数学模型为:。解释这一模型的含义,并说明对这一模型的基本假定。模型表明,因变量手自变量的变动主要来自于两方面,一个自变量,另一个是随机扰动。基本假定:随机扰动服从正态分布五、 (20分)在多元回归中,判断共线性的统计量有哪些?简要解释这些统计量。答案见第五套题 考题卷号:4一、 (20分)在2008年8月10日举行的第29届北京奥运会男子10米气手枪决赛中,最后获得金牌和银牌的两名运动员10枪的决赛成绩如下表所示:运动员决赛成绩庞 伟9.310.310.510.310.410.310.710.410.79.3秦钟午9.59.910.610.39.410.210.110.89.99.8根据上表计算的韩国运动员秦钟午的平均环数是10.05环,标准差是0.445环。比较分析哪个运动员的发挥更稳定。可以算出中国选手的平均数和方差,方差小的发挥更稳定二、 (20分)什么是统计意义上的显著性?为什么说统计上显著不一定就有现实意义?统计意义上的显著性是指规定一个最小的容错概率,如果犯错的概率小于这个容错概率则说是显著的,但在现实中各个行业各个领略同样的容错概率对应的意义不同,同样的容错概率在有的行业带来的损失要远大于其他行业,所以要根据实际情况来看。具体的来说:在假设检验中,拒绝原假设称样本结果在“统计上是显著的”;不拒绝原假设则称结果是“统计上不显著的”。“显著的”在这里的意义是指“非偶然的”,它表示这样的样本结果不是偶然得到的,同样,结果是不显著的,则表明这样的样本结果很可能是偶然得到的。在进行决策时,我们只能说p值越小,拒绝原假设的证据就越强,检验的结果也就越显著。当p值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义,因为假设检验中所说的“显著”仅仅是“统计意义上的显著”。也就是说,一个在统计上显著的结论在实际中却不见得就很重要,也不以为着就有实际意义三、 (20分)简要说明判断一组数据是否服从正态分布的统计方法。方法有很多,即雅克贝拉检验 还有其他一些分布检验如卡方检验,k-s检验、即雅克贝拉检验、pp图,或qq图及偏态和直方图。样量化判断数据是否服从正态分布? 数据是否服从正态分布,除了做数据分布直方图来判断,是不是还可用公式计算?量化计算方法是什么? j-b检验,即雅克贝拉检验 还有其他一些分布检验如卡方检验,k-s检验,都是用来检验分布的。 游程检验也可以用来检验分布。 你可以使用spss的explore,或pp图,或qq图,具体的一般可以万采取下列几种做法1、k-s 检测,在explore 中会有这一选项,在非参数检验中也有,它会给出一个sig,你通过看这个数就可以判断数据是否服从正态分布 2、通过p-p图目测,这样做的好处在于直观 3、就是看峰度和偏度了,你要问偏度在什么范围内是服从正态分布,这个统计学上没有定论,如果偏度等于0就是完美的,一般接近这个值就可以了 (20分)国家统计局目前对地区的划分中,将我国31个省市自治区划分为东部地区、中部地区、西部地区、东北地区。(1) 要分析四个地区的平均消费水平是否存在显著差异,所用的统计方法有哪些?这些方法的区别是什么?(2) 你会选择什么方法进行分析?你的假设是什么?(1)可以选用的方法有 f检验,非参中的ridit方法。假定不同(2)我会选非参方法。原假设为四个地区平均消相同费水平四、 (20分)一家房地产评估公司想对某城市的房地产销售价格(元/m2)与地产的评估价值(万元)、房产的评估价值(万元)和使用面积(m2)建立一个模型,以便对销售价格作出合理预测。为此,收集了20栋住宅的房地产评估数据,由统计软件给出的部分回归结果如下(显著性水平为95%):方差分析dfssmsfsig.回归387803505.4629267835.1546.703.879e-08残差1610028174.54626760.91总计1997831680coefficients标准误差t statp-valueintercept148.7005574.42130.25890.799x variable 10.81470.5121.59130.1311x variable 20.8210.21123.88760.0013x variable 30.1350.06592.05030.0571对所建立的回归模型进行综合评价。从f检验来看,模型整体是很显著地。具体来看x variable 2和x variable 3显著性更强,如果将各变量的交互项考虑进来会更好。 考题卷号:5一、 (20分)为研究大学生的逃课情况。随机抽取350名大学生进行调查,得到的男女学生逃课情况的汇总表如下。是否逃课男女合计逃过课8488172未逃过课78100178合计162188350(1) 这里涉及的变量有哪些?这些变量属于什么类型?(2) 描述上述数据所适用的统计图形有哪些?答:(1)有分类变量和数量变量,分类变量有 是否逃课,数量变量有逃过课的人数和为逃过课的人数。 (2)可以用条形图或者饼图。二、 (20分)现从一批零件中随机抽取16只,测得其长度(单位:厘米)如下:15.114.514.814.615.214.814.914.614.815.115.314.715.015.215.114.7(1)如果要使用分布构建零件平均长度的置信区间,基本的假定条件是什么?(2)构建该批零件平均长度的95%的置信区间。(3)能否确定该批零件的实际平均长度就在你所构建的区间内?为什么?(注:)略三、 (20分)在假设检验中,当不拒绝原假设时,为什么一般不采取“接受原假设”的表示方式?因为不拒绝原假设不能证明原假设正确1.假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据2. 假设检验得出的结论都是根据原假设进行阐述的。当不能拒绝原假设时,我们也从来不说“接受原假设”,因为没有证明原假设是真的。没有足够的证据拒绝原假设并不等于你已经“证明”了原假设是真的,它仅仅意为着目前还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设。“不拒绝”的表述方式实际上意味着没有得出明确的结论3. 假设检验中通常是先确定显著性水平,这就等于控制了第类错误的概率,但犯第类错误的概率却是不确定的四、 (20分)简要说明分布在统计中的应用。 卡方分布应用很广,常用于假设检验和置信区间的计算,比如应用到独立性检验中,同质性检验、适合性检验等等五、 (20分)简要说明解决多元回归中共线性的方法。有如下方法:(1)方差膨胀因子(variance inflation factors, ) 其中 为 与其余(m-1)个自变量线性回归的决定系数。值越大,多元共线程度越严重 (2)特征根系统(system of eigenvalues) 主要包括条件指数和方差比。条件指数是最大特征根与每个特征根之比的平方根。当 且对应的方差比大于0.5时,可认为多元共线性严重存在 考题卷号:6一、 (20分)一家电视台为了解观众对某档娱乐节目的喜欢程度,对不同年龄段的男女观众进行了调查,得到喜欢该档娱乐节目的观众比例(单位:%)如下:年龄段男性女性20岁以下562030岁25323040岁16154050岁121250岁以上68(1) 这里涉及的变量有哪些?这些变量属于什么类型?(2) 描述上述数据所适用的统计图形有哪些?答:(1)有分类变量和数量变量。分类变量有性别,年龄段。数量变量有各年龄段的男女人数。(2)可以用条形图和饼图二、 (20分)假定总体共有1000个个体,均值,标准差。从中抽取容量为100的所有简单随机样本。样本均值的期望值和标准差各是多少?得出上述结论所依据的是统计中的哪一个定理?请简要叙述这一定理。计算略,是中心极限定理,定理如下设从均值为、方差为2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布三、 (20分)在假设检验中,利用决策与利用统计量决策有什么不同?p值:如果能把犯第类错误的真实概率算出来,就可以直接用这个概率做出决策。而不需要管什么事先给定的显著性水平,这个犯第类错误的真实概率就是p值。 不同:统计量检验是根据事先确定的显著性水平围成的拒绝域作出决策,不论检验统计量的值是大是小,只要把它落入拒绝域就拒绝原假设h。否则就不拒绝h。这样,无论统计量落在拒绝域的什么位置,你也只能说犯第一错误的概率为,而用p值检验则能把犯第类错误的真实概率算出来。四、 (20分)简要说明方差分析的基本原理。方差分析被解释为检验多个总体均值是否相等的统计方法,这种解释侧重于方差分析的过程和形式。本质上,方差分析研究的是分类自变量对数值因变量的影响方差分析总的思想是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统计意义五、 (20 分)比较说明指数曲线和直线的异同。略考题卷号:7一、 (20分)一项关于大学生体重状况的研究发现,男生的平均体重为60kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg。请回答下面的问题(1) 是男生的体重差异大还是女生的体重差异大?为什么?(2) 粗略地估计一下,男生中有百分之几的人体重在55kg到65kg之间?(3) 粗略地估计一下,女生中有百分之几的人体重在40kg到60kg之间? 答:(1)女生差异大,因为女生变异系数大。计算略2假设为正态分布,一个标准差之内概率约为68.3%3 同上,两个标准差之内 约为 94.5%二、 (20分)叙述评价估计量的标准。 评价估计量的标准有:无偏性。无偏性是指估计量抽样分布的期望值等于被估计的总体参数。有效性。有效性是指估计量的方差尽可能小。一致性。一致性是指随着样本量的增大,点估计量的值越来越接近被估计总体的参数三、 (20分)一家房地产开发公司准备购进一批灯泡,公司打算在两个供货商之间选择一家购买,两家供货商生产的灯泡使用寿命的方差大小基本相同,价格也很相近,房地产公司购进灯泡时考虑的主要因素就是使用寿命。其中一家供货商声称其生产的灯泡平均使用寿命在1500小时以上。如果在1500小时以上,在房地产公司就考虑购买。由36只灯泡组成的随机样本表明,平均使用寿命为1510小时,标准差为193小时。(1) 如果是房地产开发公司进行检验,会提出怎样的假设?请说明理由。(2) 如果是灯泡供应商进行检验,会提出怎样的假设,请说明理由。四、 (20分)什么是判定系数?它在回归分析中的主要作用是什么?判定系数(又称拟合优度或决定系数)是建立在回归分 析基础之上的,用于研究一个随机变量对别一个随机变量的解释程度,该值的取值范围为0r21,值越接近1,说明自变量对因变量的解释程度越高,自变量引起的因变量变动占总变动的百分比越高计算公式五、 (20分)说明分布的适用条件,如何判断某个过程产生的数据满足这一条件?一个总体参数的估计:t分布适用于小样本、正态总体、总体方差未知的情况。置信区间为 均值 加减 (自由度为n-1个自由度,右侧面积为/2的t值 乘以 s/根号下n)两个总体参数的估计:t适用于均值差是独立小样本、正态分布、两个总体方差未知(不管等不等)的情况判断方法:可以做独立性和是否满足正态分布的检验,或者根据已知信息及相关图形来判断。 考题卷号:8一、 (20分)在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低,预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。(1) 你认为该用什么样的统计量来反映投资的风险?(2) 如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?(3) 如果你进行股票投资,你会选择商业类股票还是高科技类股票? 答:(1)可以用反应收益率变动的统计量,如方差,来衡量 2)商业类,从图上看集中趋势明显,方差小 3)我是风险偏好性,会选高科技类二、 (20分)某种感冒冲剂规定每包重量为12克,超重或过轻都是严重问题。从过去的生产数据得知克,质检员抽取25包冲剂称重检验,平均每包的重量为11.85克。假定产品重量服从正态分布。(1) 根据上述检验计算出的,感冒冲剂的每包重量是否符合标准要求()?(2) 说明上述检验中可能犯哪类错误?该错误的实际含义是什么?答:1)可知 (11.85-12)/(0.6/根号25)=-1.250.02对应的分位数(因为1.96是0.05对应的分位数,0.02的会更大),所以题目估计有错。不管按0.05还是0.02,都是拒绝原假设 2)可能犯第一类错误(去真的错误),实际含义为原假设为真,但判断时拒绝了。三、 (20分)简述方差分析的基本假定。有三大假定:可加性。方差分析的每一次观察值都包含了总体平均数、各因素主效应、各因素间的交互效应、随机误差等许多部分,这些组成部分必须以叠加的方式综合起来,即每一个观察值都可视为这些组成部分的累加和。正态性即随机误差必须为相互独立的正态随机变量。这方差同质性(齐性)。即要求所有处理随机误差的方差都要相等,换句话说不同处理不能影响随机误差的方差。由于随机误差的期望一定为0四、 (20分)怎样自相关图和偏自相关图来识别arima()模型中的参数?五、 (20分)什么是回归中的置信区间估计和预测区间估计?两个区间的宽度是否一样?取何值时两个区间宽度最窄?置信区间估计(confidence interval estimate):利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间。预测区间估计(prediction interval estimate):利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间取平均值的时候 考题卷号:9一、 (20分)为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名717岁的少年儿童作为样本,另一位调查人员则抽取了1000名717岁的少年儿童作为样本。请回答下面的问题,并解释其原因。(1) 哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者这两组样本的平均身高相同?(2) 哪一位调查研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大?或者这两组样本的标准差相同?(3) 哪一位调查研究人员有可能得到这1100名少年儿童的最高者或最低者?或者对两位调查研究人员来说,这种机会是相同的?答:1)如果抽样是随机的,抽样样本数目对样本平均值没有决定作用,答案是不确定的。2)如果抽样是随机的,抽样样本数目对样本方差也没有决定作用,答案是不确定的3)不确定。都有可能二、 (20分)在参数统计分析中,应用分布、分布和分布的假定条件是什么? 如何判断样本数据是否满足假定条件。答:t分布假定:样本服从正态分布,方差未知,(用于估计平均值)分布假定:样本服从正太分布,n个样本平方和服从自由度n-1的分布f分布假定:分子分母分别为服从分布的统计量除以其相应的自由度,且互相独立;构成分布的两总体自然服从正太分布。分别作相应的假设检验即可。三、 (20分)由于时间和成本对产量变动的影响很大,所以在一种新的生产方式投入使用之前,生产厂家必须确信其所推荐新的生产方法能降低成本。目前生产中所用的生产方法成本均值为每小时200元。对某种新的生产方法,测量其一段样本生产期的成本。(1) 在该项研究中,建立适当的原假设和备择假设。(2) 当不能拒绝时,试对所做的结论进行评述。(3) 当可以拒绝时,试对所做的结论进行评述。答: (1) 原假设:新的生产方法不能降低成本 及新成本大于或等于200 备择假设:新的生产方法能降低成本 及新成本小于200(2)不能拒绝“成本不下降的假设”,及没有把握说成本会下降(3)拒绝原假设,即如果确定成本下降,犯错的概率为相应的p值,或临界概率。四、 (20分)列出度量下述测度变量间的关系所使用的统计量。(1) 两个分类变量。(2) 两个数值变量。(3) 两个顺序变量。(4) 一个分类变量与一个数值变量。答:1)卡方统计量2)相关系数3)等级相关系数4)f统计量 (方差分析)五、 (20分)在多元线性回归分析中,检验和检验有何不同?f检验是对模型整体显著性的检验,t检验只能对单独变量显著性检验。f检验下,模型显著不能说明所有变量均显著.考题卷号:10一、 (20分)在2008年8月北京举办的第29届奥林匹克运动会上,获得金牌总数前三名的国家及奖牌数如下。要描述这一数据,可以使用的图形有哪些?说明它们在描述这一数据中的用途。排名国家金银铜总1中国5121281002美国3638361103俄罗斯23212872列出适合展示上述数据的图形并说明这些图形的用途。() 可使用条形图,以国家为项目展示三个国家各种奖牌数的对比情况,或以奖牌种类为项目展示不同国家获得的某种奖牌数量的对比情况。() 可使用环形图,展示三个国家所获得的各种奖牌所占比例,或展示三种奖牌中各国家所获奖牌数目所占比例。二、 (20分)某企业生产的产品需用纸箱进行包装,按规定供应商提供的纸箱用纸的厚度不应低于5毫米。已知用纸的厚度服从正态分布,一直稳定在0.5毫米。企业从某供应商提供的纸箱中随机抽查了100个样品,得样本平均厚度毫米。(1) 在的显著显著性水平上,是否可以接受该批纸箱?该检验中会犯哪类错误?该错误的含义是什么?(2) 抽查的100个样本的平均厚度为多少时可以接收这批纸箱?此时可能会犯哪类?该错误的含义是什么?(注:,)(1)统计量z=(4.55-5)/(0.5/10)=-9-1.96,拒绝原假设。 该检验中会犯第一类错误,即原假设是正确的却将其拒绝的错误。 (2)若要接受,则-1.96(x-5)/(0.5/10)1.96,即平均厚度在4.902毫米到5.098毫米之间时可以接受这批纸。此时会犯第二类错误,即原假设是错误的却将其接受的错误。三、 (20分)简要说明分布在统计中的的应用。卡方分布应用很广,常用于假设检验和置信区间的计算,比如应用到独立性检验中,同质性检验、适合性检验等等四、 (20分)在多元线性回归分析中,如果某个回归系数的检验不显著,是否就意味着这个自变量与因变量之间的线性回归不显著?为什么?当出现这种情况时应如何处理?(1)在多元线性回归分析中,当t检验表明某个回归系数不显著时,也不能断定这个自变量与因变量之间线性关系就不显著。因为当多个自变量之间彼此显著相关时,就可能造成某个或某些回归系数通不过检验,这种情况称为模型中存在多重共线性。 (2)当模型中存在多重共线性时,应对自变量有所选择。变量选择的方法主要有向前选择、向后剔除和逐步回归等。五、 (20分)下表是某贸易公司近几年的出口额数据:年份出口额(万美元)2002132003192004242005352006582007882008145(1) 从图形上判断,出口额时间序列含有什么成分?(2) 要预测该公司的出口额,应采用哪种趋势线?该趋势线的特点是什么?(3) 根据上面的数据拟合的指数曲线方程为:,这里的0.4909的具体含义是什么?(1) 含有上升趋势。(2) 应采用上升趋势,它是两个以上的低点的连线。(3) 出口额年增长率。 考题卷号:11一、 (20分)a、b两个班各有50名学生,统计学考试成绩的描述统计量如下:统计量a班b班平均数74.468.5中位数756725%四分位数675675%四分位数8083标准差10.617.4最小值4435最大值96100(1) 画出两个班考试成绩的箱线图,并比较分布的特征。(2) 根据统计量对两个班考试成绩的特点进行分析。(3) 两个班考试成绩的最低分和最高分是否属于离群点?(1) a班平均成绩较高,成绩分布相对集中,分数极差较小,而b班平均成绩相对较低,成绩分布较为分散,高分与低分差距较大。(2) a班成绩的平均值和中位数都高于b班,表明a班的整体成绩相对较好,但从最大值和75%分位数来看b班的尖子生要比a班更优秀,同理差生也更差。从标准差、极差、四分位差可以看出b班班内的学生间成绩差距要大于a班。(3) 都不属于。二、 (20分)谈谈你对方差分析的理解。方差分析(analysis of variance,简称anova),又称“变异数分析”或“f检验”, 用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量,其基本思想是通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和。三、 (20分)某厂产品的优质品率一直保持在40,近期质检部门来厂抽查,共抽查了50件产品,其中优质品为9件。(1) 在的显著显著性水平上,能否认为其优质品率仍保持在40%?(2) 该检验中可能犯哪类错误?其含义是什么?(3) 根据上述检验计算出的,解释这个值的具体含义。(注:,)() z=(18%-40%)/(18%/50)=-8.64,拒绝原假设,认为不能保持。() 可能犯第一类错误,即原假设是正确的却将其拒绝的错误。() 当原假设为真时所得到的样本观察结果或更极端结果出现的概率为0.564.四、 (20分)设因变量为,个自变量分别为,则多元线性回归模型可表示为:。(1) 对这一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国可折叠平板电脑行业市场全景分析及前景机遇研判报告
- 钢铁企业分级分类管理中的风险管控机制
- 设计灵活的托育费用支付与补助机制
- 家园合作对幼儿劳动教育实践的促进作用
- 枸杞产业可持续发展与未来发展规划
- 2024年长沙矿冶院招聘考试真题
- 小流域气候变化适应与水资源优化配置方案
- 教育学与教学法基础知识试题及答案
- 城市停车管理与交通流量优化研究
- 高职院校虚拟教研室的构建原则与关键要素
- 科技创新管理办法细则
- 2025年军事理论基础考试试卷及答案
- 股东合伙人知识产权共享与保护合同
- 飞书使用教程培训
- 银川能源学院《经济数学(一)》2023-2024学年第一学期期末试卷
- 商务礼仪仪容仪表培训
- 2025年统编版(2024)小学道德与法治二年级上册《我为班级做贡献》教学设计
- 无导线起搏器护理
- 向国旗宣誓活动方案
- “七一”党课:从《党章》中汲取奋进力量把全面从严治党进行到底
- sis系统报警管理制度
评论
0/150
提交评论