应用统计学总复习_第1页
应用统计学总复习_第2页
应用统计学总复习_第3页
应用统计学总复习_第4页
应用统计学总复习_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学(1)总复习,课程主要内容,1.为什么要学习统计学用数据说话2.描述性统计(可视化)3.汇总统计(集中趋势、离散趋势)4.相关分析与回归分析初步5.时间序列分析6.指数,一、数据的分布中心(集中趋势)1.中位数(Median):x1x2xn处于中间的位置观测值。2.众数(Mode):出现频次最多的观测值3.均值(Mean):,第一章统计数据的汇总统计,比较:均值、中位数、众数,应用建议:(1)对于名义变量,描述集中趋势的办法是:(2)对于顺序变量,描述集中趋势的最常用的办法是:(3)对于定量变量,一般使用平均值。但当数据的直方图显示出是非对称(偏斜)分布时,常常使用中位数。,众数,中位数,二、数据离散程度的测量,1、极差(Rang)2、方差(Variance)总体方差:样本方差:3、标准差(StandardDeviation),Excel是用样本方差,例题:某车间有甲、乙两人,加工某零件质量质量数据:直径(mm)甲:0.7,0.7,0.8,0.8,0.8,0.8,1.0,1.1众数=0.8,中位数=0.8,均值=0.8375乙:0.4,0.5,0.7,0.8,0.8,0.9,1.2,1.4众数=0.8,中位数=0.8,均值=0.8375问题:谁是师傅?,Excel计算过程:,平均值,总体方差,样本方差,另一种方差计算方法,方差计算方法,其他扩展内容,2、离散系数(CoefficientofVariation),1.四分位极差(InterquartileRang),3、,异众比(VariationRatio):,四分位极差=Q3-Q1,定性数据离散程度的度量,三、数据的标准化处理:1.中心化压缩性质:均值为0方差等于12.消除均值的作用,性质:均值恒等于1,3.Max-min标准化,离散系数,四.数据的标准得分(改成要求内容),Chebyshev定理:令c为任意大于1的数值。对于任意分布的数据集合,在(-c,+c)区间内,所包含的观测值比例至少是(1-1/c2)。当:c=2:(1-1/c2)=75%c=3:(1-1/c2)=89%c=4:(1-1/c2)=93%,经验规则:,对于近似钟形分布的总体或样本分布,在(-,+)区间,有68%在(-2,+2)区间,有95%(75%)在(-3,+3)区间,有99.7%(89%)的观测值将落入该区间内。,如果员工工资呈钟形对称分布,至少95%的员工工资在以下的区间内:(1266.47,1986.91),数据的标准得分:,Zscore:对于总体数据:Z=(X-)/例:某中学高三年级连续两次考试的平均成绩分别为78.53分和70.19分,标准差分别为9.43分和7分。某学生两次考试的成绩分别为90分和82分。问他在年级的排名退步了吗?(9078.53)/9.43=1.22(8270.19)/7=1.69,问题:如果年级共有500人,可否大致判断他的排名不低于多少?,拓展内容:数据分布的偏度与峰度,偏态系数(coefficientofskewness):基本思想:使用数据集合的“三阶中心矩”,峰度系数(coefficientofkurtosis)Ku:某一数据分布与正态分布相比的尖峰程度或平坦程度,Sk=0对称分布Sk0右偏Sk0尖峰Ku0扁平,第四章相关分析与回归分析初步,一、Pearson相关系数记,(1)-1r1(2)0r1:正线性相关(3)-1r0:负线性相关(4)r=0:线性无关(5)r=1:完全正线性相关(6)r=-1:完全负线性相关,二、Spearman秩相关系数(拓展内容),三、线性回归模型,一、最小二乘法,1、多元回归方程残差平方和(SumofSquaresforError),2、模型的评价,复测定系数(CoefficientofMultipleDetermination)问题:测定系数是否越大越好?当增加变量个数,而样本容量过小时,会出现过度拟和现象。,调整的测定系数(AdjustedCoefficientofDetermination),3、假设检验(1)F-test:在Y与X1,X2,Xk之间是否存在线性关系,(2)t检验Xj在解释Y时是否是一个有用的变量?,当SignificanceF0.05时,F检验通过。,当P-value0.05时,t检验通过,例题:某商业银行25家分行2002年的主要业务数据,4、变量筛选方法,向后筛选法(BackwardElimination)1)起始:所有自变量X1Xk均包含在模型中;如果t-test都显著,则X1Xk均包含在模型中;如果存在若干t-test不通过的参数,则先把P值最大的变量删除。2)对剩余的(k-1)个变量做回归方程,删除t-test不通过中,P值最大的变量;3)重复以上步骤。直到模型中所以变量均通过t-test。,曲线回归(拓展问题)可以对方程做变换:原方程变换为多元线性模型:,(一)时间数列的概念将某一统计指标按时间顺序排列起来,用于分析社会经济现象发展变动的数量规律。例1:19901998国内生产总值等时间序列,绝对数,绝对数,相对数,平均数,时期数,时点数,第五章时间序列分析,5.2时间数列的分析指标,在利用时间数列描述现象动态发展过程时,可以运用一系列分析指标:发展水平、平均发展水平增长量、平均增长量发展速度、平均发展速度增长率、平均增长率,水平,速度,一、发展水平,例如:各时期工业增加值a0,a1,a2,an,反映社会经济现象在不同时期的规模水平,基期水平:在动态对比时作为基准期的水平(a0)报告期水平:所要分析时期的水平(an),n=8一共有9个数,二.平均发展水平:,1.时期数列其中:序时平均数n+1时期数att时期的发展水平例:计算19901998年各年度的平均国内生产总值,a0,a1,a2,an,对不同时期的发展水平求平均数(序时平均数),2、时点数列:,计算1994-1998年中国第三产业GDP占全部GDP的平均比重.,3.相对数或平均数的序时平均数,案例:中航工业规划建设公司技术人员占公司人员总数的平均比重(相对数的平均值),计算111月技术人员占公司人员总数的平均比重。,计算全公司的人均产值(平均数的平均值),51.56=(49.98+73.74+69.46+63.76+33.66+70.26+10.46+41.20)/8,50.51=44886/888.68,对于平均数,不能在每个单位人均数的基础上直接求总数平均,而是要把产值和人数分别相加再求总数的平均。,三增长量增长量报告期水平基期水平描述现象在观察期内增长的绝对数量,由于采用的基期不同,可以分成逐期增长量报告期水平前期水平累计增长量报告期水平固定基期水平,累计增长量,累计增长量逐期增长量之和,平均增长量现象在观察期内平均增长的数量,例:中国19831987年粮食产量,a0,a1,an,四.发展速度,用于描述现象在观察期内相对的发展变化程度.由于采用的基期不同,可以分为:定基发展速度:在n期内总的发展变化情况,2.环比发展速度:与上期相比,发展变化的程度,3.同比发展速度:与上年同期相比,发展变化情况,a0,a1,an,环比速度、定基速度、不变价GDP之间的换算,换算关系:当期定基速度=当期环比速度上期定基速当期不变价GDP(1990年亿元)=当期定基速度1990现价GDP,五.增长率,说明社会经济现象的增长程度,2.环比增长率,1.定基增长率,3.同比增长率,a0,a1,an,六.平均发展速度表示在一段较长时间内,平均发展变化的程度.,发展速度的平均值,以a0为基期水平,以平均发展速度发展到n期后的水平,正好等于an。,七.平均增长率,说明某种社会经济现象在一个较长时期内,逐期递增的平均速度.计算公式:平均增长率=平均发展速度-1(类比:增长率=发展速度-1),练习,某企业2005年的销售额为2000万元。计划2010年的销售额达到5000万元。求:(1)每年应按怎样的增长速度进行生产,才能达到预定的计划指标?(2)若希望提前两年完成计划,则每年增长速度应较原来提高多少?(3)如果按新的增长速度持续生产,到2010年该企业的销售额应为多少?,6.1指数的概念,指数(indexnumber):用于测量社会经济现象总体在不同时间和空间综合变动的一种相对数。相对性:指数是一种相对数,可以用于在不同的时间和空间,对总体情况进行对比。综合性:指数可以在不同时间和空间,反映一组变量的综合变动水平。平均性:指数可以代表总体的平均水平。,第六章指数概述,个体指数(simpleindex):是反映个体社会经济现象变动的相对数。例如:一种商品的价格指数、一种产品的产量指数、一种商品的成本指数。通常是建立在一个时间序列变量基础上的指数,反映了一个时间序列变量相对于基期的百分变动。计算方法:选择基期(t0):计算价格指数时,通常经济学家选择价格水平“正常”时期为基期。计算第t期时间序列变量的简单指数it,6.2个体指数的编制方法,例:计算19711993年黄金价格的简单指数(1972年=100),1971年的金价指数为70.38,表明1971年黄金价格是1972年价格的70.38%;1987年的黄金价指数为697.68,表明1987年黄金价格是1972年价格的697.68%,或者说1987年价格相对1972年上涨了597.68%.,6.3简单综合指数(simplecompositeindex),“简单综合指数”的计算方法:选择基期(t0)计算第t期的简单综合指数It,综合指数(compositeindex):是反映经济现象在不同时期上的综合变动的相对数。如商品零售价格指数、居民消费价格指数和股票价格指数。,涉及到多个时间序列的变量,例:19861991年美国城市居民在食品、交通和医疗方面的年度个人消费支出(以10亿美元为单位)。试以基期t01980年计算这三项总年度开支的简单综合指数。1991年的指数为149.3%,表示美国城市居民在食品、交通、医疗三个方面的年度总支出与基期1980年相比增加了49.3%。,6.4加权综合指数(weightedcompositeindex),加权综合指数:多个时间序列变量依据重要程度,对各个变量赋予不同的权重计算方法:选择基期(t0);选择权重:反映每个变量的相对重要性(比如,对于价格指数,权值应为相应的消费量)计算第t期的加权综合指数It先加权综合,后对比,(1)拉氏指数基期加权综合指数问题:如何计算多产品销售量的综合指数?在实际应用时,大多数用于反映社会经济现象总体的规模、水平的数量指数(例如:商品销售量指数、产品产量指数,等等)采用拉氏指数计算方法。,采用基期价格,例:计算以下5种商品的拉氏销售量指数(按基期不变价),结果表明:5种商品综合起来,其销售量平均增长了8.97%。,由于销售量增长8.97%,使销售额增加了62.2万元。,(2)帕氏指数计算期加权综合指数1874年,德国学者帕舍(H.Pasche)提出用计算期加权来计算价格指数,这一指数称为帕氏价格指数。帕氏价格指数将作为权数的销售量固定在计算期,所反映的是计算期销售量结构下的价格总变动,这其中包含了销售量因素变动的影响。在实际应用中,大多数质量指数采用帕氏计算方法。例如:价格指数、劳动生产率指数、成本指数,等等。,例:计算以下5种商品的帕氏价格指数,结果表明:5种商品综合起来,其价格平均上涨了12.05%。由于价格上涨12.05%,使销售额增加了91.06万元。,6.6加权平均指数,(一)加权平均指数:是个体指数的加权平均数基本原理:“先对比,后平均”首先对构成总体的个别元素计算个体指数(无量纲化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论