应用统计学总复习_第1页
应用统计学总复习_第2页
应用统计学总复习_第3页
应用统计学总复习_第4页
应用统计学总复习_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《应用统计学(1)》

总复习课程主要内容1.为什么要学习统计学——用数据说话

2.描述性统计(可视化)

3.汇总统计(集中趋势、离散趋势)

4.相关分析与回归分析初步

5.时间序列分析

6.指数一、数据的分布中心(集中趋势)1.

中位数

(Median):x1

x2…xn

处于中间的位置观测值。2.众数(Mode):出现频次最多的观测值3.均值(Mean):第一章统计数据的汇总统计比较:均值、中位数、众数应用建议:(1)对于名义变量,描述集中趋势的办法是:(2)对于顺序变量,描述集中趋势的最常用的办法是:(3)对于定量变量,一般使用平均值。

但当数据的直方图显示出是非对称(偏斜)分布时,常常使用中位数。

众数中位数二、数据离散程度的测量

1、极差(Rang)2、方差(Variance)总体方差:样本方差:3、标准差(StandardDeviation)

Excel是用样本方差例题:某车间有甲、乙两人,加工某零件质量质量数据:直径(mm)

甲:0.7,0.7,0.8,0.8,0.8,0.8,1.0,1.1众数=0.8,中位数=0.8,均值=0.8375

乙:0.4,0.5,0.7,0.8,0.8,0.9,1.2,1.4众数=0.8,中位数=0.8,均值=0.8375问题:谁是师傅?Excel计算过程:平均值总体方差样本方差另一种方差计算方法方差计算方法其他扩展内容2、离散系数(CoefficientofVariation)1.四分位极差(InterquartileRang)3、异众比(VariationRatio):四分位极差=Q3-Q1定性数据离散程度的度量三、数据的标准化处理:1.中心化——压缩性质:

均值为0

方差等于12.消除均值的作用性质:

均值恒等于13.Max-min标准化

离散系数四.数据的标准得分(改成要求内容)Chebyshev定理:令c

为任意大于1的数值。对于任意分布的数据集合,在(

-c

,

+c

)区间内,所包含的观测值比例至少是(1-1/c2)。当:c=2:(1-1/c2)=75%c=3:(1-1/c2)=89%

c=4:(1-1/c2)=93%经验规则:对于近似钟形分布的总体或样本分布,在(

-

,+

)区间,有68%在(

-2

,+2

)区间,有95%(>75%)在(

-3

,+3

)区间,有99.7%(>89%)的观测值将落入该区间内。

如果员工工资呈钟形对称分布,至少95%的员工工资在以下的区间内:(1266.47,1986.91)数据的标准得分:Zscore:对于总体数据:

Z=(X-

)/

例:某中学高三年级连续两次考试的平均成绩分别为78.53分和70.19分,标准差分别为9.43分和7分。某学生两次考试的成绩分别为90分和82分。问他在年级的排名退步了吗?(90–78.53)/9.43=1.22(82–70.19)/7=1.69问题:如果年级共有500人,可否大致判断他的排名不低于多少?拓展内容:

数据分布的偏度与峰度偏态系数(coefficientofskewness):基本思想:使用数据集合的“三阶中心矩”峰度系数(coefficientofkurtosis)Ku:某一数据分布与正态分布相比的尖峰程度或平坦程度Sk=0对称分布Sk>0

右偏Sk<0左偏Ku=0正态分布Ku>0尖峰Ku<0扁平

第四章相关分析与回归分析初步

一、Pearson相关系数记(1)-1

r1(2)0<r1:正线性相关(3)-1

r<0:负线性相关(4)r=0:线性无关(5)r=1:完全正线性相关(6)r=-1:完全负线性相关二、Spearman秩相关系数(拓展内容)三、线性回归模型一、最小二乘法1、多元回归方程残差平方和(SumofSquaresforError)2、模型的评价复测定系数(CoefficientofMultipleDetermination)问题:测定系数是否越大越好?

当增加变量个数,而样本容量过小时,会出现过度拟和现象。

线性回归模型预测点Oyx多项式模型预测点新数据点调整的测定系数(AdjustedCoefficientofDetermination)

3、假设检验

(1)F-test:在

Y

X1,X2,…,Xk

之间是否存在线性关系

(2)

t–检验

Xj

在解释Y时是否是一个有用的变量?当SignificanceF<0.05时,F检验通过。当P-value<0.05时,t检验通过例题:

某商业银行25家分行2002年的主要业务数据4、变量筛选方法向后筛选法(BackwardElimination)1)起始:所有自变量X1~Xk均包含在模型中;如果t-test都显著,则X1~Xk均包含在模型中;如果存在若干t-test不通过的参数,则先把P值最大的变量删除。2)对剩余的(k-1)个变量做回归方程,删除t-test不通过中,P值最大的变量;3)重复以上步骤。直到模型中所以变量均通过t-test。曲线回归(拓展问题)

可以对方程做变换:原方程变换为多元线性模型:(一)时间数列的概念将某一统计指标按时间顺序排列起来,用于分析社会经济现象发展变动的数量规律。例1:1990~1998国内生产总值等时间序列绝对数绝对数相对数平均数时期数时点数第五章时间序列分析5.2时间数列的分析指标

在利用时间数列描述现象动态发展过程时,可以运用一系列分析指标:发展水平、平均发展水平增长量、平均增长量发展速度、平均发展速度增长率、平均增长率水平速度一、发展水平

例如:各时期工业增加值a0,

a1,a2,,an

年份工业增加值(亿元)200025394.9200128329.4200232994.8200341990.2200454805.1200572187.0200691075.72007117048.42008129112.0反映社会经济现象在不同时期的规模水平基期水平:

在动态对比时作为基准期的水平(a0)报告期水平:

所要分析时期的水平(an)n=8一共有9个数二.平均发展水平:

1.时期数列其中:序时平均数

n+1时期数

at

t时期的发展水平例:计算1990~1998年各年度的平均国内生产总值a0,a1,a2,,an

对不同时期的发展水平求平均数(序时平均数)2、时点数列:计算1994--1998年中国第三产业GDP占全部GDP的平均比重.3.相对数或平均数的序时平均数案例:中航工业规划建设公司

技术人员占公司人员总数的平均比重(相对数的平均值)计算1~11月技术人员占公司人员总数的平均比重。问题:能否直接计算“比重(%)”的平均值?如何计算“平均比重”?“公司的人员数”是时期数还是时点数?计算全公司的人均产值(平均数的平均值)51.56=(49.98+73.74+69.46+63.76+33.66+70.26+10.46+41.20)/850.51=44886/888.68

对于平均数,不能在每个单位人均数的基础上直接求总数平均,而是要把产值和人数分别相加再求总数的平均。三.增长量

增长量=报告期水平-基期水平

描述现象在观察期内增长的绝对数量由于采用的基期不同,可以分成1.逐期增长量=报告期水平-前期水平2.累计增长量=报告期水平-固定基期水平逐期增长量累计增长量累计增长量=逐期增长量之和3.平均增长量

现象在观察期内平均增长的数量例:中国1983~1987年粮食产量a0,

a1,,an四.发展速度用于描述现象在观察期内相对的发展变化程度.由于采用的基期不同,可以分为:定基发展速度:

在n

期内总的发展变化情况2.

环比发展速度:

与上期相比,发展变化的程度3.

同比发展速度:

与上年同期相比,发展变化情况a0,

a1,,an年份不变价GDP(1990年亿元)环比速度at/at-1定基速度定基速度an/a0不变价GDP199018547.9

(a0)10010018547.9199120250.4109.18109.18109.1820250.4199223134.2114.24124.73124.7323134.2199326364.7113.96142.14142.1426364.73199429813.4113.08160.74160.7429813.42199533070.5110.92178.3178.333070.53199636380.4110.01196.14196.1436380.4199739762.7109.3214.38214.3839762.7199842877.4107.83231.17231.1742877.45199946144.6107.62248.79248.7946144.64200050035.2108.43269.76269.7650035.22环比速度、定基速度、不变价GDP之间的换算换算关系:当期定基速度=当期环比速度上期定基速当期不变价GDP(1990年亿元)=当期定基速度

1990现价GDP五.增长率说明社会经济现象的增长程度2.环比增长率1.定基增长率3.同比增长率a0,

a1,,an六.平均发展速度

表示在一段较长时间内,平均发展变化的程度.发展速度的平均值以a0为基期水平,以平均发展速度发展到n

期后的水平,正好等于an。七.平均增长率

说明某种社会经济现象在一个较长时期内,逐期递增的平均速度.计算公式:平均增长率=平均发展速度-1(类比:增长率=发展速度-1)练习

某企业2005年的销售额为2000万元。计划2010年的销售额达到5000万元。求:(1)每年应按怎样的增长速度进行生产,才能达到预定的计划指标?(2)若希望提前两年完成计划,则每年增长速度应较原来提高多少?(3)如果按新的增长速度持续生产,到2010年该企业的销售额应为多少?6.1指数的概念指数(indexnumber):用于测量社会经济现象总体在不同时间和空间综合变动的一种相对数。①相对性:指数是一种相对数,可以用于在不同的时间和空间,对总体情况进行对比。②综合性:指数可以在不同时间和空间,反映一组变量的综合变动水平。③平均性:指数可以代表总体的平均水平。第六章指数概述

个体指数(simpleindex):

是反映个体社会经济现象变动的相对数。例如:一种商品的价格指数、一种产品的产量指数、一种商品的成本指数。

通常是建立在一个时间序列变量基础上的指数,反映了一个时间序列变量相对于基期的百分变动。

计算方法:①选择基期(t0):计算价格指数时,通常经济学家选择价格水平“正常”时期为基期。②计算第t期时间序列变量的简单指数it6.2个体指数的编制方法例:计算1971—1993年黄金价格的简单指数(1972年=100)1971年的金价指数为70.38,表明1971年黄金价格是1972年价格的70.38%;1987年的黄金价指数为697.68,表明1987年黄金价格是1972年价格的697.68%,或者说1987年价格相对1972年上涨了597.68%.6.3简单综合指数

(simplecompositeindex)“简单综合指数”的计算方法:①选择基期(t0)②计算第t期的简单综合指数It综合指数(compositeindex):是反映经济现象在不同时期上的综合变动的相对数。如商品零售价格指数、居民消费价格指数和股票价格指数。涉及到多个时间序列的变量例:1986—1991年美国城市居民在食品、交通和医疗方面的年度个人消费支出(以10亿美元为单位)。试以基期t0

=1980年计算这三项总年度开支的简单综合指数。

1991年的指数为149.3%,表示美国城市居民在食品、交通、医疗三个方面的年度总支出与基期1980年相比增加了49.3%。6.4加权综合指数

(weightedcompositeindex)加权综合指数:多个时间序列变量依据重要程度,对各个变量赋予不同的权重计算方法:①选择基期(t0);②选择权重:反映每个变量的相对重要性(比如,对于价格指数,权值应为相应的消费量)③计算第t期的加权综合指数It—先加权综合,后对比(1)拉氏指数—基期加权综合指数问题:如何计算多产品销售量的综合指数?

在实际应用时,大多数用于反映社会经济现象总体的规模、水平的数量指数(例如:商品销售量指数、产品产量指数,等等)采用拉氏指数计算方法。采用基期价格例:计算以下5种商品的拉氏销售量指数(按基期不变价)

结果表明:5种商品综合起来,其销售量平均增长了8.97%。由于销售量增长8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论