统计学重点整理_第1页
统计学重点整理_第2页
统计学重点整理_第3页
统计学重点整理_第4页
统计学重点整理_第5页
免费预览已结束,剩余10页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章导论1.1 参数:用来描述总体特征的概括性数字度量,用来描述总体特征。统计量:用来描述样本特征的概括性数字度量。1.3 一家研究机构从IT从业者中随机抽取1000人作为样本进行调查,其中 60加答他们的月收入在5000元以上,50%勺人回答他们的消 费支付方式是用信用卡。这一研究的总体是什么?样本是什么?样本量是多少?详细答案:总体是“所有IT从业者”,样本是“所抽取的1000名IT从业者”,样本量是1000。1.4 一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。(1)这一研究的总体是什么? ( 2)研究者所关心的参数是什么? ( 3

2、)研究者所使用的主要是描述统计方法还是推断统计方法?详细答案:(1)总体是“所有的网上购物者” 。(2)网上购物消费者的平均花费(3)推断统计方法。(推断统计是研究如何用样本 数据来推断总体特征的统计方法。)第二章数据的搜集1、按照统计数据的收集方法,可以将其分为观测数据和实验数据。2、收集数据的基本方法是自填式、面访式和电话式。第三章数据的图表展示1.1 为评价家电行业售后服务的质量,随机抽取由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.较差;E.差。调查结果如下:BECCADCBAEDACBCDECEEADBCCAEDCBBACDEABDDCCBCE

3、DBCCBCDACBCDECEBBECCADCBAEBACDEABDDCADBCCAEDCBCBCEDBCCBC(1)用Excel制作一张频数分布表。(2) .绘制一张条形图,反映评价等级的分布。(3) .绘制评价等级的Pareto (帕累托)图, (4).绘制一张饼图,反映评价等级的构成。 详细答案:(1)频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频数)频率(%A1414B2121C3232D1818E1515合计100100精选(2)条形图如下:评价等线(3)帕累托图如下:(4)饼图如下:3.3某百货公司连续40天的商品销售额如下(单位:万元)4125294738343

4、0384340463645373736454333443528463430374426384442363737493942323635根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。按销售额分组(万元)频数(天)频率(%)25 30410.030 35615.035 401537.540 45922.545 50615.0合计40100.0详细答案:1)确定组数:数据中最大值为49,最小值为25,知数据全距为4925=24,确定将数据分为5组;2)确定组距:组距=(最大值-最小值)/组数=(49-25)/5=4.8 ,取组距为5;3)频数分布表:某百货公司日商品销售额频数分布表4)

5、直方图:某百道公司三商品锚售领分布的直方图3.4利用下面的数据构建箱线图和茎叶图572929363123472328283551391846182650293321464152282143194220详细答案:(1)箱线图:(首先找出一组数据的 5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU),然后连接两个四分位数画出箱子,再将两个极值点与箱子相连接)左偏分布电检错售茄Stt-m-iirwFrequencyitem & Loot3.001 . HR95.00U * 01037r.M2 .2.003 . 13IM3 . 5fi93,004 . 1必

6、3.幽t . 6673.005 . 0t2|kOO5唱 7Stem width:10Each leaf:1 chkeKG某公司电脑销售额分布的茎叶图3.10下面是A、B两个班学生的数学考试成绩数据:A班:分布的形状与轴线图对称分布右偏分布4457596061616263636566666769707071727373737474747575757575767677777778787980808285858686909292929396B35394044444851525254555656575757585960616162636466686870707171737474798182838384

7、85909191949596100100100(1)将两个班的考试成绩用一个公共的茎制成茎叶图;(2)比较两个班的考试成绩的离散程度。(3)如果让你选择一个班,你会选择哪一个?试说明理由(4)比较两个班考试成绩分布的特点。详细答案:(1)Stem-and-Leaf PlotFrequencyLeaf (A 班)StemLeaf (B 班)Frequency0359214404484297512245667778912119766533211060112346889239887776655555444333210070011344987665520081233456663222090114566

8、0100003Stem width:10Each leaf: 1 case(s)A、B两个班学生的数学考试成绩分布的茎叶图(2) A班的考试成绩的离散系数vsS(标准差)=1.97/7.2=0.2736XB班的考试成绩的离散系数vsS(标准差)=0.74/6.93=0.1068X(3)选择第二种。因为第二种方式平均等待时间为6.96,比第一种方式平均等待时间短,而且第二种排队方式的标准差离散系数V2=0.1068,小于第一种排队方式的标准差离散系数V1=0.2736 ,说明第二种方式的等待时间离散程度也小于第一种3.12(4)比较可知:A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的

9、分布比 A班分散,且平均成绩较 A班低1”根飘上加的昼孤.町百个比庄或成柒曲可上条段用,界电A*甲流乙就优6理皤申LH及福9不Mfr123. 12甲乙M个二II芥仃帽.必学U k末统计学与 W展演为分相七卜!O :班人匕乙机中 及称 不及格:匕“H tn。认工瑞,;也为心.,.' ./ 启中由AAH *,£分和分人/比乙913,40!与打表施缝甲嚷叫 4收卷,附怅驿依小.0册田马足.此横杵4iliAMhi) 也比dfiIKL才施不斯如第四章 数据的概括性度量1几何平均数:cG一、Vr卜n (蹙!乘符号);异众比率:n xi*i 1fmfi是变量值的总频数,口是众数的频数);四

10、分位差:Q = Q u-Q;平均差:MXx|;标准分数:xi Xz -1.1 一家汽车零售店的n10名销售人员5月份销售的汽车数量(单位:辆)排序后如下:24710101012121415(1)计算汽车销售量的众数、中位数和平均数。(2)根据定义公式计算四分位数。(3)计算销售量的标准差。(4)说明汽车销售量分布的特征。详细答案:将汽车销售数量按升序排序:2 4 7 10 10 10 12 12 14 15(1)汽车销售数量出现频数最多的是10,所以众数M>=10 (辆)中位数位置=(10+1) /2=5.5 ,所以中位数为 Me= (10+10) /2=10 (辆)nXi i 1 平均

11、数 X =(2+4+7+10+10+10+12+12+14+15) /10=9.6 (辆)(2)下四分位数Q的位置=n/4=10/4=2.5即Q在第2个数和第3个数之间0.5的位置上因此,Q=4+ (7-4) *0.5=5.5 (辆)上四分位数Q的位置=3n/4=3*10/4=7.75即QU在第7个数和第8个数之间0.75的位置上因止匕,Q=12+ ( 12-12) *0.75=12.75 (辆) (3)1n2(Xix)s i1标准差: I n 1=,(2-9.6 )2+(4-9.6 )2+(7-9.6 )2+(10-9.6 )2+(10-9.6 ) 2+ (10-9.6 )2+(12-9.6

12、 )2+(12-9.6 )2+ (14-9.6 ) 2+ (15-9.6 ) 2/9=2.042 (辆)(4)(可画出数据分布直方图。)数据集中在 Q和Q之间,分布较为集中,数据稍有左偏分布,轻微扁平分布。(集中趋势离散程度甲粒e 0 °Q中康的以yM <,右偏分布偏态(左偏、右偏、对称)峰态(扁平、尖峰、峰态适中)x cM -x * .1/.左偏分布对莉由布4.8 经验法则表明:当一组数据对称分布时,约有68%勺数据在平均数± 1个标准差的范围之内;约有95%勺数据在平均数± 2个标准差的范围之内;约有99%勺数据在平均数± 3个标准差的范围之内

13、。4.9 标准分数:zi X x、分择高的。 1 S第11章一元线性回归r=0时,说明丫的取值与X无关,即二者不存在线性相关关系。都不能说X与丫不相关或不存在任何关系。r的绝对值大于0.8时为高度相关;在0.5到0.8之间为中度相关;0.3与0.5之间为低度相关;小于 0.3视为不相关。11.1从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下:企业编号产量(台)生产费用(万 元)企业编号产量(台)生产费用(万 元)1一4013078416524215081001703501559116167455140101251805651501113017567815412140185(1)绘

14、制产量与生产费用的散点图,判断二者之间的关系形态。(2)计算产量与生产费用之间的线性相关系数,并说明二者之间的关系。(3)对相关系数的显著性进行检验(&Q.05),并说明二者之间的关系强度。(4)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义(5)计算判定系数和估计标准误差,并解释其意义。(6)检验回归系数的显著性(比。(7)检验线性关系的显著性。求生产费用为145元时,产量95%勺置信区间和预测区间。详细答案:(1)散点图如下:140-17C-产 IDO-奈80-60-W-产量与生产费用之间是正线性相关关系。(2)相关系数,所以r=0.9243。产量与生产费用之间是中度正

15、线性相关关系。( 注:判定系数等于相关系数的平方,即R2=r2)(3)检验统计量提出假设:H0: p =0; H1: p,0;计算检验的统计量:=1.2314。根据显著性水平a = 0.05 ,查t分布表得t /2(n-2)=0.069 o由于川=1.2314>t /2(6-2)=0.069 ,拒绝H0,产量与生产费用之间存在着显著的线性相关关系。若 <t/2(6-2),不拒绝H0,没有证据表明 产量和生产费用之间有显著的线性相关关系。(4)Xi yi nxyXi n X y? 4y ?xy? ?1X ,所以估计的回归方程为“-0332951+ 1.027895 x回归系数1的意义

16、:表示生产费用每增加万元,产量平均增加1.027895台。(5)判定系数R2SSRSSTn?i 1nyi 1nx ?2i 1 n-2?i yi 1费用的变动引起的。注:判定系数等于相关系数的平方,即,SST=SSR+SSE所以R2=85.43%,表明在产量的变差中,有 85.43%是由于生产 R2=r2)一、Se 估计标准误差ny y?2i 1n 2SSE MSEn 2,所以Se=0.5o意义:表示用生产费用预测产量的平均估计误差为0.5台。(6)提出假设:H0: 01=0, H1:0 产 0 ;计算检验的统计量:t S?1s?1(其中作出决策:若t|>t /2,拒绝H0,表明产量与生产

17、费用之间有显著的线性关系;若 |t|>t /2,不拒绝H0,没有证据表明产量和生产费用之间有显著的线性关系。u SSR1 MSR .F .F(1,n 2)(7) 提出假设:H0: 0 1=0,两个变量之间线性关系不显著;计算检验统计量F:SSEn 2 MSE ,所以求得F=11.235; 根据显著性水平“、分子自由度dfi=1和分母自由度df2=n-2查F分布表,找到临界值F“作出决策:若F>F,拒绝H0,表明产量和生产费用之 间的线性关系是显著的;若 F<R ,不拒绝H0,没有证据表明产量和生产费用之间有显著的线性关系。t 2(n 2)Se(8)置信区间:1 Xonn:i

18、12)x2xi x,预测区间:?0 t.2(n 2)Se |1 n2x0xnXi i 1(其中 y0 = -0.3295 + 1.027895预测区间:150.46 , 155.73X 145) o 求出置信区间:147.49 , 148.6711.9某汽车生产商欲了解广告费用(x)对销售量(V)的影响,收集了过去12年的有关数据。通过计算得到下面的有关结果: 方差分析表变差来源dfSSMSFSignificance F回归2.17E-09残差40158.07总计111642866.67参数估计表R2(2)判定系数SSRSST22o所以yR=V422708.6/146?866fe7=97.25

19、% ,表明在汽车销售量的变差中,有97.25%是由于广告费用的变动引起Coefficients标准误差t StatP-valueIntercept363.689162.455295.8231910.000168X Variable 11.4202110.07109119.977492.17E-09(1)完成上面的方差分析表。(2)汽车销售量的变差中有多少是由于广告费用的变动引起的?(3)销售量与广告费用之间的相关系数是多少?详细答案:(1)方差分析表变差来源dfSSMSFSignificance F回归1(1)1422708.6 (SSR)1422708.6 (MSR=SSR/df)399.1

20、000065 (F=MSR/MSE)2.17E-09残差10 (n-2)40158.07(SSE)4015.807 (MSE=SSE/df)总计111642866.672nn _ 2的。,_2,_(3) r= VR=V0.9725=98.62%2并根据F、Se、R及调整的Ra的第十二章多元线性回归12.2根据下面Excel输出的回归结果,说明模型中涉及多少个自变量?多少个观察值?写出回归方程,值对模型进行讨论。SUMMARY OUTPUT回归统计Multiple R0.842407r1R Square0.709650(0.842407 2)Adjusted R Square0.630463标准

21、误差109.429596观测值15 (n)方差分析dfSSMSFSignificance F回归3 (k)321946.8018107315.60068.9617590.002724残差11(n-k-1)131723.198211974.84总计14 (n-1)453670Coefficients标准误差t StatP-valueIntercept657.0534167.4595393.9236550.002378X Variable 15.7103111.7918363.1868490.008655X Variable 2-0.4169170.322193-1.2939980.222174X

22、 Variable 3-3.4714811.442935-2.4058470.034870详细答案:(1)模型中涉及3个自变量,15个观察值。(2)估计的回归方程为:?=657.0534+5.710311X 1-0.416917X2-3.471481X3。(3)拟合优度:从判定系数 R2=0.709650和调整的判定系数Ra2 =0.630463,表明在因变量的变差中,有 63.05%是由于三个自变量的变动引起的。(4)估计标准误差S/109.429596 ,表示用自变量预测因变量的平均估计误差为109.429596,预测误差比较大。(5)线性关系的显著性检验:Significance F=0

23、.002724V“=0.05,表明因变量丫与3个自变量之间的线性关系显著。(5)回归系数的检验:0 1的t检验的P=0.008655 <a=0.05 , y与X1线性关系显著;0 2的t检验的P=0.222174 >a=0.05 , y与X2线性关 系不显著;0 3的t检验的P=0.034870 <a=0.05 , y与X线性关系显著。这可能意味着模型中存在多重共线性。12.4 一家电气销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估计。下面是近8个月的销售额与广告费用数据。月销售收入y (万元)电视广告费用勺(万元)报纸广告费用叼(万元

24、)965.01.5902.02.0F954.01.5922.52.5953.03.3943.52.3942.54.2943.02.5(1)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。(2)对上述估计方程中电视广告费用的回归系数进行解释。(3)在销售收入的总变差中,被估计的回归方程所解释的比例是多少。(4)检验线性关系是否显著(a=0.05)。(5)检验回归系数是否显著(a=0.05)。详细答案:?.?.(1) ?-0?Xi?2X2。需要用 Excel 计算,得出?=83.23+2.29x 1+I.3X2。(2)电视广告费用的回归系数表示:在报纸广告费用不变的情况

25、下,电视广告费用每增加1万元,月销售额平均增加 2.29万元。_ 222(V, y)(yi?t)(? y)D 22、n 1Ra1 (1 R )(3)多重判定系数 R2=SSR/SSTSST SSES乐,所以R2=0.919 ;调整的n k 1 ,2Ra =0.88665。表明在销售收入的息变差中,被估计的多兀回归万程所解释的比例为88.665%。(4)提出假设:H0: 01=0 2=0, H1: 01和0 2至少有一个不等于0;计算检验统计量F:,所以求得F=19.704;作出决策:根据显著性 水平”、分子自由度df1=2和分母自由度df2=n-k-1=5查F分布表,找到临界值 巳;若F>

26、;F,拒绝H0,表明销售收入与电视广告费用和报纸广告费用之间的线性关系是显著的;若F<R,不拒绝H0,没有证据表明变量之间有显著的线性关系。(5)提出假设:对于任意参数0 i(i=1,2),H0:3=0, H1:0i,0计算检验的统计量:ti21 .、2Xi( Xi )SeSSEn k 1 ),得出 11=2.29/0.304=7.53 , 12=1.3/0.32=4.05作出决策:根据给定显著性水平Sea=0.05和自由度=n-k-1=5查表得1 0.025 (5)=2.57 o |t 1|>t /2,拒绝H0,表明y与X1之间有显著的线性关系;|t 2|>t ”倒,拒绝H

27、0,表明y与X2之间也有显著的线性关系。 第十三章时间序列分析和预测13.1下表是1981年一1999年国家财政用于农业的支出额数据年份支出额(亿元)年份支出额(亿元)1981110.211991347.571982120.491992376.021983132.871993440.451984141.291994532.981985153.621995574.931986184.21996700.431987195.721997766.391988214.0719981154.761989265.9419991085.761990307.84(1)绘制时间序列图描述其形态。(2)计算年平均增

28、长率。(3)根据年平均增长率预测 2000年的支出额。详细答案:(1)时间序列图如下:班悌从时间序列图可以看出,国家财政用于农业的支出额大体上呈指数上升趋势。 Y .- JWS5 7& -1 = 113.55%- 1 - 13.55<4 年平均增长率G n 1,所以G =Y 110,21Yo(3) 2000 年的支出额预测值为= 1055 76x(1-13 55J4)= 1232S8O第十三章时间序列分析和预测1.时间序列类型:平稳序列、有趋势的序列、有季节性的序列、有季节性和趋势的序列、有周期性的序列、随机性序列。1、增长率:环比增长率与定基增长率。环比增长率:G=Y/Yi-i

29、-1 ,表现逐渐变化的程度;定基增长率:G=Y/Yo-1 ,表现总增长变化程MSE度。均方误差:增长1脸勺绝对值表示增长率每增长 1个百分点而增加的绝对数量。误差平方和误差个数n(Y Fi)2 i 1n13.1下表是1981年一 1999年国家财政用于农业的支出额数据年份支出额(亿元)年份支出额(亿元)1981110.211991347.571982120.491992376.021983132.871993440.451984141.291994532.981985153.621995574.931986184.21996700.431987195.721997766.391988214.0

30、719981154.761989265.9419991085.761990307.84(1)绘制时间序列图描述其形态。(2)计算年平均增长率。(3)根据年平均增长率预测 2000年的支出额。详细答案:(1)时间序列图如下:年份国另财神用T农业的支出靓河I从时间序列图可以看出,国家财政用于农业的支出额大体上呈指数上升趋势。(2)年平均增长率为:G nlYn 1= n,(1085.76/110.21)-1=113.55%-1=13.55%.丫0“(3) 2000 年的支出额预测值为:丫 =1085.76*(1+13.55%)=1232.8813.2下表是1981年一2000年我国油彩油菜籽单位面积

31、产量数据(单位:kg / hm2)年份单位面积产量年份单位面积产量1981145119911215198213721992128119831168199313091984123219941296198512451995141619861200199613671987126019971479198810201998127219891095199914691990126020001519(1)绘制时间序列图描述其形态。(2)用5期移动平均法预测 2001年的单位面积产量。(3)采用指数平滑法,分别用平滑系数a=0.3和a=0.5预测2001年的单位面积产量,并说明用哪一个平滑系数预测更合适?(4)

32、建立一个趋势方程预测各月的营业额,计算出估计标准误差。详细答案:(1 )时间序列图如下:(2 ) 2001 年的预测值为:丫 (1367+1479+1272+1469+1519)/5=1421.2(3 )年份单位面积产量指数平滑预测误差平方指数平滑预测误差平方a=0.3a=0.519811451198213721451.06241.01451.06241.0198311681427.367236.51411.559292.3198412321349.513808.61289.83335.1198512451314.34796.51260.9252.0198612001293.58738.512

33、52.92802.4198712601265.429.51226.51124.3198810201263.859441.01243.249833.6198910951190.79151.51131.61340.8199012601162.09611.01113.321518.4199112151191.4558.11186.7803.5199212811198.56812.41200.86427.7199313091223.27357.61240.94635.8199412961249.02213.11275.0442.8199514161263.123387.71285.517035.919

34、9613671308.93369.91350.7264.4199714791326.423297.71358.914431.3199812721372.210031.01418.921589.8199914691342.116101.51345.515260.3200015191380.219272.11407.212491.7合计291455.22001年a=0.3时的预测值为:F2001239123.0Y2000(1) F2000 =0.3*1519+(1-0.3)*1380.2=1421.82001年a=0.5时的预测值为:F2001丫2000(1)F2000 =0.5*1519+(1-0.5)*1407.1=1263.1比较误差平方可知,a=0.5更合适。(4)线性模型法:线性方程的形式为btY?(Y 一时间序列的预测值;t 时间标号)根据最小二乘法得到求解n tYn t2Y btn(Yi Y?)2所以,求得趋势方程为Y?16.8985(延伸:二次曲线:Yta btY abt,根据最小二乘法,得到求解SyO估计标准误差口59439t,估计标准误差为Sy 0.60ct2 J.皿口I 工上一ct ,根据最小二乘法求a , b,lgY(m为未知常数的个数)nac的标准方程nlga lg blga、lgb的标准方程为tlg

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论