应用统计分析_第1页
应用统计分析_第2页
应用统计分析_第3页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用统计分析局部第一章:抽样分布与设计一、抽样分布1、抽样的特点抽样的目的是用被抽取局部个体所求得的数值推断总体的数量特征。其中,抽取局部个体称为总体的一个样本 。特别样本个数就是样本容量;样本取值就是样本观察值。抽样是对所研究的总体,按照随机原那么抽取局部个体进行的调查。 抽样的特点:随机原那么:每个元素或个体有同等抽中的时机具有代表性 推断总体特征:样本的数值特征总体数量特征。推断的精确性:把推断的误差控制在一定的精确度内可靠性要求2、样本平均数的分布正态总体分布: 如果从正态分布总体 N,;2 中随机抽取样本,那么样本平均数X的分布具有如下性质:a:样本的平均数x的分布也是正态分布。b:

2、样本的平均数X的平均数Jx等于总体的平均数c:当从无限总体抽样或从有限总体采用放回抽样时,样本平均数X 分布的方差 鳥2CT 2等于总体的方差除以样本容量。即:.X =n特别:当从有限总体不放回抽样时,样本平均数X分布方差为:22N -1;简记(1-N)总结:样本平均数服从正态分布: Xn,- 2X分布性质那么由中心极限定理非正态总体分布: 如果总体不服从正态分布时,样本平均数 来解释如下:2a:只要数学期望 "和方差二 存在,从总体中随机相互独立抽取n个样本,那么样本平均数X二1: Xi是随机变量;n b :当n够大一般n>30时,那么XN ,:X c:特别总体服从二点分布p

3、x=i=p ,px=0=1-p时,那么期望p方差p1-p故放回抽样时NP ,匹巴;不放回抽样时NP , 1-丄巴上巴。nN n样本平均数之差的分布:如果总体1: XNS,2,抽 m个样本,Xi4 y如果总体2: YN2,/,抽n2个样本,y二丄v Yin2 722J2, 样本平均数i组:xi2)nin2抽样设计简单随机抽样: 总体全部编号事前编好随机数据表"'标签混合用手随机模取抽样2、类型抽样分层抽样或分类抽样:总体按特征标志分组L:、组1 随机抽样组k 一机抽样分配原那么:等数;等比例;最优设:总体为N总体样本为n;分成等数:nr=n2= .= nk=kk组,第i组包含N

4、 i个单位,样本为nj等比例:ni二Nin2N2njNi二 n -N最优:标志变动程度为;i,ni样本数ninNj ;i7 Xj上 (i =1,2.k.);总体:x样本平均数总体方差全样本平均数的方差碍是各类型方差的加权综合样本平均数i组方差:21 k N2、2xi2Ni i# ni3、整群抽样:总体(按标志分成假设干群)随机抽取r个群样本总体分为R个群,每群含为个单位。设Xj为第i个群中的第j个单位的标志值。i群平均数:总体平均数:总体方差:1 mXiXiji=1, 2,rm jr mr二工 XijXiij 4y rmr22二X(Xi -X) /R样本平均数的群间方差其中,Xi为总体各群的平

5、均数;2 2X为总体的总平均数样本万差:、X =為(Xi -X) /r样本的群间方差其中,Xi为抽样各群的样本平均数;X为抽样各群全体样本的平均数庄2 r _ r整群不放回抽样样本平均数的方差 :二I =( )r R -1注:等距抽样;多阶段抽样;双相抽样;穿插抽样(略)。第二章:参数估计与假设检验一、参数估计问题随机变量特征(概率分布;均值;方差)如何? 解决方式:根据样本来估计所要的 信息;具体思路:用样本统计量估计总体参数。1参数点估计量优劣的判别准那么和常用的估计量点估计:用样本统计量估计总体参数一个明确的估计值准那么:无偏性-令/为被估计参数; 红为二的无偏估计量;那么 E (诃&q

6、uot;一致性:样本容量越大,估计量的值越接近于被估计总体参数有效性:E(?)=日,E&2)=日,如果函的方差比 觅的方差小,那么 闵比码有效常用估计量:1 n 用样本的平均数X二丄 xi估计总体平均数 J,即卩E(X) = Jn i =i1 n 用样本方差s2 = 二(xi - x)2和标准差s估计总体方差匚2和标准差匚即n T i#E(s2) =;" = E(X 一 E(x) f) = E(x2) 一 E(x) 2 ; E(s)=;a 用样本中具有某特征单位的比例0=估计总体比率p,即E(?)=pn2、参数区间估计问题区间估计:用样本估计总体参数可能取值的区间(给出了点估

7、计可靠性的一种描述,是点估计的补充)选择两个统计量 二1和二2 估计 P(v1vrvr 2) = 1< (事先给定的正数)| >E($)=日,E()=日且日1<日2,日1,日2称为置信水平为1口的置信区间;1 - a置信概率(置信水平或置信系数);实有意义:有100 (1八)%把握断定在广1,二2内。(1)总体平均数的区间估计假设:总体服从正态分布 N (巴2);随机变量X的概率密度函数:1_0严f(x)= 2b ;记作:X N (巴 CT 2 ) J2“如果令:Z = X"(统计量)CT那么 E( Z)= E( = )= E(X" l = 0CTCT-E

8、(=)CJ4)2 )rX -"D (z) = E(Z -E(Z)2 = E -A E ( X _亠)2=1所以:ZN (0,1)标准正态分布f(x)=屮2兀¥e2分布函数2dx2(-x) =1- Q (x), P(a<zw b)=P(Z < b)-P(Z < a) 第一种情况:样本取自总体方差(即 二)的正态分布, 计对总体期望值卩的区间估:总体随机变量 XN®,匚2),那么X N(卩,:二2/n),其中2/n“(放回),那么 ZN(0,1)令:Z =5-x查正态分布表:P| Z M =P (- r w Z w r) =2 (r) -1如果令 P

9、 (| Z |w r)= 0.955贝U (r)= 0.9775(标准正态表得:r = 2)即 P (-2wxw 2) =0.955也就是:P 卩一2、岷wx w才2、;x= 0.955 x值落在总体平均数正负两个标 准差之内的概率为 95.5%可得 P x 2、, wx + 2= 0.955对的一个区间估计总体平均数有95.5%的可能性位于样本平均数的正负两个标准差之内一般令:P | Z | _ Z-.=鳥,0 v : <1 2那么P|Z|EZ空称为概率密度=1 - : , (0 v : <1 ),一般:=0.05 或 0.01置信水平估计量的标准差与概率度的乘积故卩的区间估计般

10、记为:x ± L或x ± ZT2 x2. n放回称为置信区间有100 1- a %的把握说明总体平均卩例:P|Z|玉2> =0.99PZZ:2=0.995Z1=2.5815-2.58 6 w w 15+2.586寸36V3612.42W 卩 w 17.58第二种情况:样本取自总体方差 二的非正态分布中心极限定理n> 30例:P|Z 戶 Zq 1 = 0.95 1=>=0.975 =Z 二=1.96第三种情况:x = (3 未知)- n估计计='用样本标准差OS估计总体标准差即:6 x的估计值为X _ » 令:Z = x 一 为变量6 /

11、J nxP_ x4_引进新变量t=x =-X(讨论t值的概率度;t的自由度为n-1)SxS/.n的区间估计一般计为:X_t 一.S/、n (总体分布对正态总体偏离不大时)2例:P175 (例 8.3):S= 0.08 ; n=16;X =1 求解 95%的置信区间(a =0.05 a /2=0.025)求解:查自由度 n-1=15的t分布(n个样本知道X仅有n-1是独立的)得: t -.(n-1)= t0.025(15) =2.132(2)正态总体方差的区间估计方差.-构造统计量 0 =(n1)S2/ §d证明(衡量变量偏离总体平均数的尺度)*在正态分布的条件下,02 (n-1) (

12、n-1为自由度)2分布的形状由自度确定,它是非对称的。当自由度为n时,概率度为2.(n)时 2(n)2 :(n) ?= a给定置信水平 1八:计算- (n - 1)s2 /二2,查2 (n - 1)找出 二./2 ;2/2使得:P: 2(n-1K 2/爲匚2; P25-1)二/2心)二二-(n -1)s2/;2 的 100(1-a )%的置信区间为2q<(n-1)S2/;二 2< 冷即:P( 21于 <(n-1)S2/;2<冷)=1- a(» 宀(n-1) S2212所以:标准差=1- a2心2-的100(1- a )%的置信区间为:(n -1)S221_:-

13、2查:/2 =0.025 , n=14 得:1/2(1426.119 ;21_./2(14) =5.629(n -1)S2,22 .例 P181(例 8.7):求 95%的置信区间:a =0.05, n=14故 19.45 二290.26、假设检验问题总体参数的假设 '原假设零假设记作H。替代假设备择假设记作Hi要求原假设和替代假设相互独立性。即H。真实=Hi不真实;或:Hi真实=Ho不真实;也就是讲:否认Ho接受Hi;或否认Hi接受Ho假设的类型:i: Ho:卩=0; Hi :讦双边检验* 2: Ho:卩3比;Hi :卩oi单边检验3: Ho: 兰Mo; Hi :中单边检验假设检验:

14、以样本为依据构造适宜的检验统计量分析样本统计值与参数假设值的差 .距就是原假设的显著性检验检验统计量=样本统计量-被假设的参数统计量的标准差结论:差距大假设值的真实性小差距小假设值的真实性大例:Z= X-,标准正态分布统计量6/JnX -t= t分布的统计量S/、n假设检验的步骤: 根据题意提出原假设H。和备择假设Hi 选择显著性水平 a o.o5和o.oi 选择检验统计量及其分布 根据显著性水平确定统计量的否认域或临界值注意是双边还是单边检验 根据样本数据计算统计量的数值并作出推断:如果统计量的值落在否认域内=否认原假设如果统计量的值落在接受域内=差异不显著接受原假设1总体平均数的假设检验:

15、假设:Ho: 1 = o;Hi: i式由双边检验例:方差:o' = 5o,n=25, X =7o ,a =o.o5 ,po=9oX-卩7o9。检验:Z=厂一=2坊/Jn5o/5构造!充计量P 1 Z | 込=a,Zo.o5 =i.96;Z o.o5 =-i.96222Z 芒-i.96, i.96否认原假设假设:Ho:Hi:Mo单边检验例 Pi9o 例 8.ii2、总体方差的假设检验例 198 例 8.17第三章:回归相关分析为了研究分析各种经济现象, 就需要寻找能说明这些经济现象的各种经济变量, 这些变量之间的因果关系,探索这些变量之间的数量变化规律。这就是回归相关分析 一、建立回归分

16、析模型的步骤:理论模型设计 选择模型中将包含的变量 选择某变量作为经济系统的的变量。 按照经济行为理论和样本数据显示出变量之间关系 关系的数学表述式。 拟定模型中待估参数的符号及其大小的理论期望值范围。样本数据的收集 常用的样本数据:时间序列数据,截面数据,虚变量数据政策变量取值: 选择样本数据的出发点:可得性和可用性。 样本数据的质量:实整性,准确性,可比性数据的口径问题和一致性样本和母体必 须一致。模型参数的估计样本数据估计整体参数的具体取值。模型检验 经济意义检验 模型参数估计值的可靠性检验R2-拟合优度检验,t-变量显著性检验;F-方程显著性检验 应用检验样本容量变化的灵敏度分析进行稳

17、定性检验,精度检验,预测能力检验、多元回归分析模型综述:1、理论模型设定: Y =场+ 2X2+ 3X3+似Xk+ £ 其中,丫为被解释变量果;3l ,滋.k待估的参数未知参数X1 , X2, X3.Xk 为解释变量因;名为随机扰动项 抽取样本代入设定模型得:样本容量:1、2、3、4、n>30(最低:3并确定“果,正确地选择作为“因Yi= 3l + 役X2i+ 03X3i+ 3kXki+ £ n>3k 或 n>k)=构造描述变量之间0和1i = 1,2,nX=11X 21X 22X31X32Xk1Xk2X 2n X 3nXkn那么样本模2.根本假设(1)

18、随机性:&为随机变量(2) 零均值:E(£ )=02 2同方差:=7(总体方差) 无序列相关性:COV(£i, j)=0(解释变量相互独立)n协方差:COV(X,Y)八 Pi(Xi -X)(yy)pi为(Xi y)出现的概率i 4相关系数:CORR(x,y)= C0V(X, y)冠x,云yXji与q不相关:解释变量Xj (j=2,k在反复随机抽样中是选定的变量,故矩阵X的阶数不变Xji之间不相关:即秩(X)=k<n 正态性:iN(O,划.f yN(E(yi), 2U)即E(Y i)=供32X2i+ 3X3i+ %Xki样本回归超平面3、多元回归分析的参数估计(

19、O L S(0rdinary least square)(1)参数B的最小二乘法估计令:?是参数B的估计量;?是Y的估计量。得:? = X ?选择参数 ?的估计方法:估计值 ?与实际值y之间的残差,在所有样本点上差值的平方 和最小。即令:ei =% ?(i= 1,2,3,n)得:e=y-X 俘<en丿<Ynl?nn要求:w=、e2=e e= (y-X ?) ' -(y ?)最小i =4-:W:?(y x?) (y x?)(y - ?x ) (y-x ?)(yy - ?xy _ yx? ?xx?):?(yy -2?xy ?xx?=_2xy 2xx?令 a = o= i? =X

20、 X' x y ?具有以下性质:i)线性性:?表示被解释变量样本值的线性组合2 )无偏性:E(?j)j3)最正确性:在 訂的一切线性无偏估计中?j方差最小2(2)参数.一.的最小二乘估计e = y 一 ? = x ; - x(x x) ' x (x,亠)=I -x(xx)'x L令:m= I - x(x x)x 丨; 得 m 二 m2 = m所以:ee=.;:m;E(ee) = 3詁rm = &計rI 一sx(xx)n-k)其中,rm表示矩阵m主对角线元素之和那么:/-迪一 n _ k令:? I.为!的方差估计量,那么、?:=ee/n k4、模型检验拟合优度检验

21、(R2检验):检验样本回归超平面与变量观测值的样本点接近的程度。n、Y?-Y22 i三R =2为Y -Yi =1t检验:检验变量Xji(j=1,2,k)解释能力的强弱等价于对假设(? = 0进行检验。其中:R2为似合优度系数,分子为回归平方和,分母为总平方和。构造t统计量:?jeeCjjn-k其中,Cjj为矩阵(XX)'主对角线上的元素,n-k为残差Y -Y?平方和的自由度,即t统计量服从自由度为 n-k的t分布。假设:原假设 H 0 : S = 0 ,替代假设H“ : X = 0在给定显著性水平:的情况下检验步骤第一步:计算不同三的上统计量,记为t ?j ,j=2,3,k第二步:根据

22、:和自由度n-k,查出临界值t-.n - k第三步:作推断:假设%"黑n- k干 A 在显著性水平o上拒绝Ho ,即最 小二乘估计 ?j在统计上是可靠的Xjj对Y的影响是显著的。nx (Y? -Y)2/(k -1)n' e2 /(n -k)i =1R2. n -k1-R2k -1F检验:检验全部解释变量对被解释变量的联合影响是否显著。假设:H。: :2 = :3 = : k = 0, H1 : :2 = 0, : k = 0构造F统计量:F服从自由度为k-1,n-k 的F分布。 检验步骤:计算F统计量记为F "以样本数据以值查出临界值F:.k -1, n -k 作推

23、断:假设 F F:.k-1, n- k I二,在显著性水平:上拒绝H。获得全部解释变量的联合影响是显著的。 D.W 检验:检验随机项;是否具有一阶自回归形式的序列相关即上期对下期数据 有直接影响。构造D.W统计量:2 e_enD W 7 (eii -2(1)(2)(3)n'e2_ i 2注:n较大时,2 ei 二n存在完全一阶正相关:即存在完全一阶负相关:完全不相关:检验步骤:计算D W的统计量记为以和解释变量个数,查作推断:假设:大致相等L ei ei _1i=2n、e2i 4n二.e ei =2 &n 2eiidnej ej _j i -2n' e2i吕-1D W分

24、布表,得临界值di 和 dv0 : D : dv存在正自相关dl : D W - dv不能确定dv : D W : 4 dv无自相关4 -dv < DW4 - di 不能确定4 - di DW4 存在负自相关注:对于利用滞后被解释变量作解释变量的模型检验失效D AN 值在2左右无需查检验表。三、具体应用举例:例如,对于一个具有三个解释变量的线性经济计量模型,样本容量n=25,应用OLS估计参数,显示结果如下:Y=0.4150+0.4243X i+0.0184X 2+0.5212X 3t=8.0t=1.4t=1.92R =0.94F=1251.4 D W=1.41对显示的结果进行判断:1R

25、2=0.94,说明回归方程具有良好的拟合优度2显著性水平=0.01,查 F 分布表得临界值 Fo.o13,21=4.87,而 F=1251.4>>4.87, 说明该方程在99%的显著水平下仍是显著成立的。3显著性水平a =0.05,查t分布表得临界值 “2521=2.080,显然脚|=8>2.080 ;|t2|=1.4<2.080;|t3|=1.9<2.080,这说明解释变量 X1在95%的概率水平下显著;X,X3那么在该概率水平下不显著。显著性水平a =0.10,查t分布表得临界值t°.0521=1.721,显然|t3|=1.9>1.721,说明

26、解释 变量X3在90%的概率水平下显著。显著性水平-rO.20,查t分布表得临界值t0.1021=1.323,显然|t2|=1.4>1.323,说明解释 变量X2在80%的概率水平下显著。由此可见,决定是否剔除某个解释变量需持慎重态度,在该模型中,三个解释变量都可以保存。4 显著性水平二=0.05,查 D *W 分布表得:d1=1.12,dv=1.66 而 di< D *W=1.41<d v, 根据检验,在95%的概率水平下,不能判断模型的自相关状态。第四章:模拟分析问题:线性规划动态规划【都假设所有数据是事先确定的的,不包含概率因素网络理论的。实际情况很少有符合分析模型的假

27、设,环境不确定性离散决策i和复杂性,使现实中这些现象极为少见。模拟:可以解决问题不满足分析建模的标准方法所规定的假设模拟的定义:是建立系统或决策问题的数学或逻辑模型,并以该模型进行试检,以获得对 系统行为的认识或帮助解决决策问题的过程。定义中的两个要素:一是模型:它将问题或系统的任何适当假设模型化模型是对实际系统思想或客体的抽象描述;二是模拟:用模型进行试验并分析结果。模型的不同分类:模型分类l 规定型模型:它决定着最优策略或最正确行动过程|描述型模型:直接描述关系和提供评价信息,它用于解释系统行为,预测输入规划过程的未来事件,并帮助决策者选择满意方案和系统设计确定性:数据或假设模型分类:Y概

28、率型:数据由概率分布决定模型分类:离散型:变量随时间跳跃的变动连续型:变量随时间连续的变动模拟模型的类型:蒙特卡洛模拟模型(Monte Carlo simulatio n)" 系统模拟模型(System simulation)蒙特卡洛模拟模型:根本上是抽样试验,其目的是估计以假设干概率输入变量而获得结果变量 的分布。它常被用于估计谋略变动的预期影响和决策所涉风险。例:Monte Carlo VAR 模拟法Monte Carlo模拟法是基于历史数据或既定分布的条件下的参数特征,借助 随机数产生的模拟方法模拟出大量的资产组合收益的数值,然后构造资产组合收 益的经验分布函数,通过对经验分布函数的逆变换可求得VAR值。假定丫是绝对连续累积分布函数的随机变量,对于0<q<1,令Yq表示唯一的值,使得:Fy(yq)=P 丫一yq,= q即就是:Yq是丫的分位点。当Fy连续时,Yq=F-1(q)即Yq的统计量通过对 随机变量Y的经验分布的逆变换求得。假定Y1, 丫2,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论