统计学第三版课后答案_第1页
统计学第三版课后答案_第2页
统计学第三版课后答案_第3页
统计学第三版课后答案_第4页
统计学第三版课后答案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学第三版答案第一章1.什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。2.简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。3.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造的成,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品(2)变量:口味(如可用10分制表示)(3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。(4)从匹配样本的观察值中推断两品牌口味的相对好坏。第二章、统计数据的描述思考题1描述次数分配表的编制过程答:分二个步骤:(1)按照统计研究的目的,将数据按分组标志进行分组。按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表。2.解释洛伦兹曲线及其用途答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。3.一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。4怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统

计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。5对比率数据的平均,为什么采用几何平均?答:比率数据往往表现出连乘积为总比率的特征,不同于一般数据的和为总量的性质,由此需采用几何平均。6.简述众数、中位数和均值的特点和应用场合。答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。7为什么要计算离散系数?答:在比较二数组据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。练习题:1.频数分布表如下服务质量等级评价服务质量等级家庭数(频率)频率%:的频数分布A14211421BC3232D1818E1515合计100100条形图(略)2(1)采用等距n=40全距=152-88=64取组距为10数组为64/10=6.4取6组频数分布表如下40个企业按产品销售收入分组数频率(万元)(个)(%)分:组:分表组按销售收入企业向上累积向下累积企业数频率企业数频率100以下512.522.530.017.510.07.5512.535.065.082.592.5100.0—403526147100.087.565.035.017.57.5100~110110~120120~130130~14091271426333740—4140以上33合计40100.0——(2)某管理局下属40个企分表组按销售收入分组(万元)企业数(个)频率(%)先进企业良好企业一般企业落后企业合计1111927.527.522.522.5100.09403采用等距分组全距=49-25=24n=40取组距为5,则组数为24/5=4.8取5组频数分布表:按销售额分组(万元)频数(天数)25-30430-35635-4015940-4545-506合计401551019ycneuqerF66504253035sales4045504..((2)频数分布表100只灯泡使用按使用寿命分组(小时)灯泡个数(只)频率(%)1)排序略。如下:寿命非频数分布650~660660~6702525670~680680~690690~700700~710710~720720~730730~740740~750合计61426181310361426181310333100100直方图(略)。(3)茎叶图如下:6518661456867134679681123334555889969001111222334455666778888997000112234566677888971002233567788972012256789973356741475等距分组n=65全距=9-(-25)=34取组距为5,组数=34/5=6.8,取7组频数分布表:按气温分组-25----20-20----15-15----10-10----5-5---00---55---10合计天数8810141447655114141001ycneuqe887rF504-30-20-10tempture0107(1)茎叶图如下:A班B班树茎树叶数据个数数据个数树叶03459241404482975122456677789011234688001134491233450114560001291123797665332110988777665555544433321006655200678866632220960103(3)A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低8.箱线图如下:(特征请读者自己分析)各城市相对湿度箱线图95857565554535Min-Max25%-75%北京长春南京郑州武汉广州成都昆明兰州西安Medianvaluex1)=274.1(万元);Me=272.5;Q=260.25;Q=291.25。LUs21.179.((2)(万元)。3m1i10.甲企业平均成本x1=19.41(元),i13m1ixi11i3m2i乙企业平均成本x2=18.29(元);i13m1ixi1原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占2i比重较大,因此拉低了总平均成本。kxfii426.67(万元);x11.=i1kfii1kxxf2ii=116.48(万元)si1kf1ii113(1)离散系数,因为它消除了不同组数据水平高低的影响。4.2vs0.024172.1(2)成年组身高的离散系数:幼儿组身高的离散系数:由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度;v2.30.03271.3s;相对较大。14.表给出了一些主要描述统计量方法A方法B方法C平均165.6中位数165众数164标准偏差2.13极差8平均128.73中位数129众数128标准偏差1.75极差7平均125.53中位数126众数126标准偏差2.77极差12最小值162最小值125最小值116最大值128最大值170最大值132先考虑平均指标,在平均指标相近时考虑离散程度指标。应选择方法A,其均值远高于其他两种方法,同时离散程度与其他两组相近。15.(1)风险的度量是一个不断发展的问题,在古典金融理论中,主要采用标准差这个统计测度来反映,现代金融中,采用在险值(valueatrisk)。(2)无论采用何种风险度量,商业类股票较小(3)个人对股票的选择,与其风险偏好等因素有关。第四章1.总体分布指某个变量在总体中各个个体上的取值所形成的分布,它是未知的,是统计推x,x,,x,它的分布称为样本分布。由n的样本12断的对象。从总体中随机抽取容量为nfx,x,,x,它的分布称为抽样分布(如样本均值n样本的某个函数所形成的统计量、12样本方差的分布)2.重复抽样和不重复抽样下,样本均值的标准差分别为:22Nn,nN1n因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个调整系数3.解释中心极限定答:在抽样推断中,中心极限定进行重复抽样时,当样本容量充分大,样本均值趋近于正态分布。中心极限定理了理论基础。第四章、参数估计1.简述评价估计量好坏的标准理的含义理指出,不论总体服从何种分布,只要其数学期望和方差存在,对总体为均值的抽样推断奠定ˆ答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。设总体参数的ˆ估计量有1ˆˆˆˆˆ估计量估计量,小于D1和,如果E,称是无偏;如果和是无偏且21112ˆˆˆˆn,,则是相合估计量。11ˆD,则比更有效;如果当样本容量2122.说明区间估计的基本原理答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平。置信水平反映估计的可信度,而区间的长度反映估计的精确度。3.解释置信水平为95%的置信区间的含义答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。4.简述样本容量与置信水平、总体方差、允许误差的关系z22公式为例:答:以估计总体均值时样本容量的确定n/2E2样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。n492.解:由题意:样本容量为15,152.14349(1)若xn(2)0.05,Ez1.96*2.1434.20028/2nx120,xz,xz/2(3)若/2nn115.7997,124.200282.解:由题可得:n36,x3.317,s1.609尽管采用不重复抽样,但因为样本比例很小(不到0.5%),其抽样误差与重复抽样下近似相同,采用重复抽样的抽样误差公式来计算。n36为大样本,则在的显著性水平下的置信区间为:sxzs,xzn/2n/20.1,z1.64当当当,置信区间为(2.88,3.76)/20.05,z1.96,置信区间为(2.80,3.84)/20.01,z2.56,置信区间为(2.63,4.01)/25解:假设距离服正从态分布,n16,x9.375,s4.113平均距离的95%的置信区间为snxt15s,xtn15=(7.18,11.57)0.0250.025327解:由题意:n50,p64%。50np,n1p均超过5,大样本因为(1)总体中赞成比率的显著性水平为的置信区间为p1pp1p,pzpz/2n/2np1p0.05Ez/21.96*64%*36%13.3%当时,n50置信区间为(50.7%,77.3%)(2)如果要求允许误差不超过10%,置信水平为95%,则应抽取的户数:z121.962*0.8*0.20.12n62/2E28.此题需先检验两总体的方差是否相等:2212H:2,H:21021Fs/s296.8/102.00.949在5%的显著性水平下,212F(13,6)5.37,F(13,6)1/F(6,13)1/3.60.28,不拒绝原假设0.0250.9750.025认为两总体方差是相同的。(1)11190%,xxt19s9.81.72998.44*29*4.552147120.05p即(1.93,17.669)(2)11195%,xxt19s9.82.09398.44*93*4.552147120.025p即(0.27,19.32)p1pp1p11.大样本的情况ppz112212/2n1n2(1)90%置信度下40%*60%30%*70%40%30%1.645*10%6.979%25025010%8.316%(3.021%,16.979)(2)95%置信度下40%*60%30%*70%40%30%1.96*250250(1.684%,18.316%)s0.2422,s20.076212.解:由题可计算:212/两个总体方差比2122在95%的置信区间为:s2/ss2/s2222,4.06,14.3511Fn1,n1Fn1,n1/2/21211214.解:由题意:120,z1.96,E20/2z221.962*1202202则必须抽取的顾客数为:139/2nE2第五章、假设检验思考题1.1.理解原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则.答:原假设通常是研究者想收集证据予以反对的假设;而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有:(1)原假设和备择假设是一个完备事件组。(2)一般先确定备择假设。再确定原假设。(3)等号“=”总是放在原假设上。(4)假设的确定带有一定的主观色彩。(5)假设检验的目的主要是收集证据来拒绝原假设。2.第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎的样关系?答:第I类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其概率为。第II类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为。在其他条件不变时,减小。增大,减小;增大,3.什么是中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的值,用于检验结果的可靠性度量,但确定了显著性水平等于控制了犯第一错误的但犯第二类错误的概率却是不确定的,“拒绝原假设”的结论,其可靠性显著性水平?它对于假设检验决策的意义是什么?答:假设检验一个概率,因此作出是确定的,但作出“不拒绝原假设”的结论,其可靠性是难以控制的。4.什么是p值?p值检验和统计量检验有什么不同?答:p值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。P值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平,来控制犯第一类错误的上限,p值可以有效地补充提供地关于检p验可靠性的有限信息。值检验的优点在于,它提供了更多的信息,让人们可以选择一定的水平来评估结果是否具有统计上的显著性。5.什么是统计上的项检验在统计上是显著的(拒绝原假设),是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的。的意义在于“非偶然的显著性?答:一显著性练习题3.解(1)第一类错误是,供应商提供的炸土豆片的平均重量不低于60克,但店方拒收并投诉。(2)第二类错误是,供应商提供的炸土豆片的平均重量低于60克,但店方没有拒收。(3)顾客会认为第看得较严重。二类错误很严重,而供应商会将第一类错误24.解:提出假设H:6,H:601.19,n100,0.05已知x6N0,1Z(1)检验统计量为an拒绝规则是:若Zz,拒绝HH;否则,不拒绝00(2)(3)由x6.35得:Z6.3562.94z1.64,拒绝H,认为改进工艺1.190.050100能提高其平均强度。5解:设为如今每个家庭每天收看电视的平均时间(小时)1需检验的假设为:H:6.70,H:6.700调查的样本为:n200,x7.25,s2.5大样本下检验统计量为:zx6.707.256.700.55*14.143.11s/n2.5/2002.5右侧检验的临界值为z2.33在0.01的显著性水平下,0.01因为z2.33,拒绝H,可认为如今每个家庭每天收看电视的平均时间增加了0226.解:提出假设H:0.752,H:0.75220TVVCR1TV已知:n30,s22,0.05n1s2229*22942.55710322检验统计量0.7520.05VCR拒绝H,可判定电视使用寿命的方差显著大于VCR012H:5,H:57.解:提出假设:01210.02,n100,n50,独立大样本,则检验统计量为:12xx514.810.455.1458z12ss0.80.62221nn122100502而z2.33因为,拒绝,平均装配时间之差不等于5分钟zzH00.01/2H:,H:提出假设:0a8.解:匹配小样本b1abd0.625,s1.302,n8,0.05,检验统计量为由计算得:dd00.6251.3577t71.8946,不拒绝H,不能认为广告提高了s/n1.302/80.050td潜在购买力的平均得分。12H:,H:9.解:提出假设:01211972883013670.82,0.1n288,p0.684,n367,p已知:1122大样本,则检验统计量为:ppnpn288*0.684367*0.820.761122nn28836712pp0.6840.82z4.0476120.76*0.241111p1p288367n1n2z1.29,因为zz,拒绝H,可认为信息追求者消极度假的比率显著小于非0.10而0.1信息追求者。2212H:2,H:10.解:提出假设:21021n25,s0.221,n22,s0.077题计算得:1由122s0.221224,212.372F8.2376,而检验统计量为:1F0.025s0.077222FFn1,n1,所以拒绝H,认为两种机器的方差存在显著差异。/2120第七章相关与回归分析思考题1.相关分析与回归分析的区别与联系是什么?答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有明显区别。它们均是统计方法,不能揭示现象之间的本质关系。3.什么是总体回归函数和样本回归函数?它们之间的区别是什么?答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自变量的函数:Xu。总体回归函数是确定的EYXfXX,或Yi和未知的,iiiii是回归分析所估计的对象。样本回归函数是根据样本数据所估计出的因变量与自变量之间的ˆˆxe。回归分析的目的是用样本回归函数来估计总ˆˆiˆ函数关系:yx或yiiii体回归函数。它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本ˆˆ,,变化;总体回归函数的数参是确定的,而波动而样本回归函数的系数是随机变量;总体回归函数中的误差项u不可观察i的,而样本回归函数中的残差项e是可以观察的。i4.什么是随机误差项和残差?它们之间的区别是什么?答:随机误差项u表示自变量之外其他i变量的对因变量产生的影响,是不可观察的,假设。残差项e指因变量实际观察值与样本回归函数计算的估计值之间的i反映的含义是不同且可观察性也不同,它们的联系通常要对其给出一定的偏差,是可以观测的。它们的区别在于,可有下式:?xxu垐ey?xu垐xiiiiiiii5.为什么在对数参进行最小二乘估计答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。只有在一系列的经典假定下,最小二乘估计量才是BLUE。时,要对模型提出一些基本的假定?15..为什么在多元回归中要对可决系数进行修正?答:在样本容量一定下,随着模型中自变量个数的增加,可决系数R拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可2会随之增加,模型的决系数,用修正的可决系数来判断增加自变量的合适性。16.在多元线性回归中,对参数作了t检验后为什么还要作方差分析和F检验?答:t检验仅是对单个系数的进行整体检验,方差分析和F检验就是对回归方程的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数整体统计显著性进行的检验方法。练习题回归方程为:yx21.解:设简单线性1334229.090.786425053.73xxyyixx2ˆ(1)采用OLS估计:i2iˆˆyx549.80.786*647.8840.56611回归系数经济意义:销售收入每增加1万元,销售成本会增加0.786万元。2xxyy334229.092R22yy0.9998425053.73*262855.25(2)可决系数为:iixx2iiyy21R20.0002*262855.252.29SSE回归标准误:ˆn212210iˆ2ˆ0.786(3)检验统计量为:t2223.762.29/425053.732ˆˆ/xxSe2i所以是显著不为零2ˆˆx40.5660.786*800669.366(4)预测:yˆf12f95%的预测区间为:800647.882xx669.3661.96*2.29112yˆ1.96*ˆ11fxx2n12425053.73fi即(664.579,674.153)2.(1)2.118.y57075x8085(2)负相关关系(3)SourceSSdfMSNumberofobs9F(1,7)24.67Model.6381186861.638118686Prob>F=0.0016Residual.1810369067.025862415R-squared=0.7790AdjR-squared0.7474Total.8191555928.102394449RootMSE=.16082yCoef.Std.Err.tP>|t|[95%Conf.x-.0704144.0141757-4.970.002-.1039346-.0368_cons6.0178311.052265.720.0013.5296328.50(4)估计的斜率系数为-7.0414,表示航班的正点率每提高1%,百万名乘客的投诉次数会下降:7.0414*0.01=0.070414次。(5)如果x0.8,则y6.01787.0414*0.80.38468次ff3.ResultsofmultipleregressionforySummarymeasuresMultipleRR-Square0.95210.90650.89103.3313AdjR-SquareStErrofEstANOVATableSourcedfSSMSFp-value0.0000ExplainedUnexplained31937.7485645.916258.204818199.751511.0973RegressioncoefficientsCoefficient32.99310.0716StdErrt-valuep-valueLowerlimitUppConstantx13.138610.51210.00000.01484.85390.00013.99564.22280.00054.88693.66370.001826.39910.04068.47827.6372x216.872717.9042x34.SourceSSdfMSNumberofobs=29F(1,27)=3034.13Model2.9873e+1012.9873e+10Residual265831846279845623.91Prob>FR-squared=0.9912AdjR-squared=0.9909=0.0000Total3.0139e+10281.0764e+09RootMSE=3137.8consumpgnpCoef.Std.Err.tP>|t|[95%Conf.Interval].5459054.009910655.080.000.5255705.5662403_cons2426.563809.87893.000.006764.8294088.298SourceSSdfMSNumberofob29F(1,273034.13Model2.9873e+1012.9873e+10Prob>F=0.0000Residual265831769279845621.08R-squared=0.9912AdjR-square0.9909Total3.0139e+10281.0764e+09RootMSE=3137.8consumpCoef.Std.Err.tP>|t|[95%Confgnpf.5459054.009910655.080.000.5255705.566_cons

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论