




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、应用统计分析部分第一章:抽样分布与设计一、抽样分布1、抽样的特点抽样的目的是用被抽取部分个体所求得的数值推断总体的数量特征。其中,抽取部分个体称为总体的一个样本 。特别样本个数就是样本容量;样本取值就是样本观察值。抽样是对所研究的总体,按照随机原则抽取部分个体进行的调查。抽样的特点:随机原则:每个元素(或个体)有同等抽中的机会(具有代表性)推断总体特征:样本的数值特征推断总体数量特征。推断的精确性:把推断的误差控制在一定的精确度内(可靠性要求)2、样本平均数的分布正态总体分布:如果从正态分布总体N(,)中随机抽取样本,则样本平均数的分布具有如下性质:a:样本的平均数的分布也是正态分布。b:样本
2、的平均数的平均数等于总体的平均数c: 当从无限总体抽样(或从有限总体采用放回抽样)时,样本平均数分布的方差等于总体的方差除以样本容量。即特别:当从有限总体不放回抽样时,样本平均数分布方差为:();简记(1-)总结:样本平均数服从正态分布:N(,)非正态总体分布:如果总体不服从正态分布时,样本平均数分布性质则由中心极限定理来解释如下:a:只要数学期望和方差存在,从总体中随机相互独立抽取n个样本,则样本平均数是随机变量;b:当n够大 (一般n>30) 时,则N(,)c:特别总体服从二点分布p(x=i)=p,p(x=0)=1-p时,则期望p方差p(1-p) 故放回抽样时,);不放回抽样时,(1
3、-)。样本平均数之差的分布:如果总体1:X,抽n1个样本,如果总体2:Y,抽n2个样本,则二、抽样设计1、 简单随机抽样:事前编好随机数据表总体(全部编号)标签(混合)用手随机模取抽样摇号机2、 类型抽样(分层抽样或分类抽样):总体(按特征标志分组)组1 随机抽样 组k 随机抽样分配原则:等数;等比例;最优设:总体为N(总体样本为n) ;分成k 组,第i组包含Ni个单位,样本为ni等数:n1=n2=.= nk=等比例:;样本数最优:标志变动程度为,样本数样本平均数i组:;总体:样本平均数总体方差:全样本平均数的方差是各类型方差的加权综合样本平均数i组方差:是第i组内资料的方差,取各类型样本方差
4、的加权数综合3、 整群抽样:总体(按标志分成若干群)随机抽取r个群样本总体分为R个群,每群含为M个单位。设为第i个群中的第j个单位的标志值。i群平均数: i=1,2,r总体平均数:总体方差:样本平均数的群间方差其中,为总体各群的平均数;为总体的总平均数样本方差:样本的群间方差其中,为抽样各群的样本平均数;为抽样各群全体样本的平均数整群不放回抽样样本平均数的方差:注:等距抽样;多阶段抽样;双相抽样;穿插抽样(略)。第二章:参数估计与假设检验一、参数估计问题随机变量特征(概率分布;均值;方差) 如何?解决方式:根据样本来估计所要的信息;具体思路:用样本统计量估计总体参数。1、参数点估计量优劣的判别
5、准则和常用的估计量点估计:用样本统计量估计总体参数一个明确的估计值准则:无偏性-令为被估计参数;为的无偏估计量;则一致性:样本容量越大,估计量的值越接近于被估计总体参数有效性:,如果的方差比的方差小,则比有效常用估计量: 用样本的平均数估计总体平均数,即 用样本方差和标准差s估计总体方差和标准差即; 用样本中具有某特征单位的比例估计总体比率p,即2、参数区间估计问题区间估计:用样本估计总体参数可能取值的区间(给出了点估计可靠性的一种描述,是点估计的补充)选择两个统计量1和2估计P(11-(事先给定的正数),且1<2,1,2 称为置信水平为1的置信区间;1置信概率(置信水平或置信系数);实
6、有意义:有100(1-)%把握断定在1,2内。(1) 总体平均数的区间估计假设:总体服从正态分布N() ; 随机变量X的概率密度函数:f(x)= ;记作:xN()如果令:Z(统计量)则E(Z)E()0D(Z)EE()E(=1所以:ZN(0,1)标准正态分布 密度函数f(x)= 分布函数(x)=(-x)=1-(x), P(azb)=P(Zb)-P(Za)第一种情况:样本取自总体方差已知(即已知)的正态分布,对总体期望值的区间估计已知:总体随机变量XN(,2),则N(,2/n) ,其中;2/n(放回)令:Z,则ZN(0,1)查正态分布表:PZr=P(rZr)=2(r)-1如果令P(Zr)0.955
7、 则(r)0.9775(标准正态表得:r 2)即P(22)=0.955也就是:P(22)0.955(值落在总体平均数正负两个标准差之内的概率为95.5%)可得P(22)0.955对的一个区间估计(总体平均数有95.5%的可能性位于样本平均数的正负两个标准差之内)一般令:P(Z),(0<1则P1,(0<1,一般=0.05或0.01称为概率密度置信水平估计量的标准差与概率度的乘积故的区间估计一般记为:±或±(放回)±称为置信区间(有100(1)%的把握说明总体平均值在这个区间内例:P0.99P0.9952.58 152.5815+2.5812.4217.5
8、8第二种情况:样本取自总体方差已知(已知)的非正态分布(中心极限定理n30)例:P0.95P0.9751.96第三种情况:(未知)用样本标准差S估计总体标准差(即:的估计值为)令:Z为变量引进新变量t=(讨论t值的概率度;t的自由度为n-1)的区间估计一般计为:(总体分布对正态总体偏离不大时)例:P175(例8.3)已知:S0.08;n=16; =1 求解95%的置信区间(=0.05;/2=0.025) 求解:查自由度n-1=15的t分布(n个样本知道仅有n-1是独立的)得:(n-1)=2.13(2)正态总体方差的区间估计方差 构造统计量=(n-1)S2/2证明(衡量变量偏离总体平均数的尺度)
9、 在正态分布的条件下,(n-1) (n-1为自由度) 分布的形状由自度确定,它是非对称的。当自由度为n 时,概率度为 时 P=给定置信水平1-:计算,查找出;使得:; 的100(1-)%的置信区间为<(n-1)S2/2<即:P(<(n-1)S2/2<)=1- P=1-所以:标准差的100(1-)% 的置信区间为:<<例P181(例8.7) :求95%的置信区间:=0.05 ,n=14查,n=14得:;故二、假设检验问题总体参数的假设 原假设(零假设)记作H0替代假设(备择假设)记作H1要求原假设和替代假设相互独立性。即H0真实H1不真实;或:H1真实H0不真
10、实;也就是讲:否定H0接受H1;或否定H1接受H0假设的类型: 1):H0:=0;H1 :0 双边检验 2):H0:0;H1 :<0 单边检验 3):H0:0;H1 :>0 单边检验假设检验:以样本为依据构造合适的检验统计量分析样本统计值与参数假设值的差距就是原假设的显著性检验 检验统计量= 样本统计量-被假设的参数 统计量的标准差 结论:差距大假设值的真实性小 差距小假设值的真实性大例:Z=(标准正态分布统计量)t= (t分布的统计量)假设检验的步骤:根据题意提出原假设H0和备择假设H1选择显著性水平(0.05和0.01)选择检验统计量及其分布根据显著性水平确定统计量的否定域或临
11、界值(注意是双边还是单边检验)根据样本数据计算统计量的数值并作出推断:如果统计量的值落在否定域内否定原假设如果统计量的值落在接受域内差异不显著(接受原假设)1、总体平均数的假设检验:假设:H0:=0;H1:0 双边检验例:已知方差:50,n=25,=70 , =0.05 , 0=90检验:Z2 构造统计量P(Z)= , =1.96 ; =-1.96Z(-1.96, 1.96)否定原假设假设:H0:0;H1:0 单边检验例P190(例8.11)2、 总体方差的假设检验例198(例8.17)第三章:回归相关分析为了研究分析各种经济现象,就需要寻找能说明这些经济现象的各种经济变量,并确定这些变量之间
12、的因果关系,探索这些变量之间的数量变化规律。这就是回归相关分析一、建立回归分析模型的步骤:1、理论模型设计选择模型中将包含的变量(选择某变量作为经济系统的“果” ,正确地选择作为“因”的变量)。 按照经济行为理论和样本数据显示出变量之间关系构造描述变量之间关系的数学表述式。 拟定模型中待估参数的符号及其大小的理论期望值范围。2、样本数据的收集常用的样本数据:时间序列数据,截面数据,虚变量数据(政策变量取值:0和1)选择样本数据的出发点:可得性和可用性。样本数据的质量:实整性,准确性,可比性(数据的口径问题)和一致性(样本和母体必须一致。3、模型参数的估计样本数据估计整体参数的具体取值。4、模型
13、检验经济意义检验模型参数估计值的可靠性检验(R2拟合优度检验,t变量显著性检验;F-方程显著性检验)应用检验(样本容量变化的灵敏度分析进行稳定性检验,精度检验,预测能力检验)二、多元回归分析模型综述:1、 理论模型设定:Y12x2+3x3+kxk+其中,Y为被解释变量(果);1,2. k待估的参数(未知参数) ;x1, x2, x3.xk为解释变量(因);为随机扰动项抽取样本代入设定模型得:Yi12x2i+3x3i+kxki+ii1,2,,n 样本容量 : n>30(最低:n>3k或n>k)如果,令Y= Y1 = 1 = 1 X= 1 X 21 X31 Xk1Y22 2 1
14、X 22 X32 Xk2 . Ynk n 1 X 2n X 3n Xkn 则样本模型:Y=X+2.基本假设(1) 随机性: 为随机变量(2) 零均值:E()=0(3) 同方差: (总体方差)(4) 无序列相关性:COV(i,j)=0 (解释变量相互独立) 协方差 :COV(X,Y)= pi 为(xi,yi)出现的概率 相关系数: CORR(x,y)=(5) Xji与i不相关:解释变量Xj (j=2,k) 在反复随机抽样中是选定的变量,故矩阵X的阶数不变.(6) Xji 之间不相关:即秩(X)=k<n(7) 正态性:iN(0, 2u) . yiN(E(yi), 2u)即E(Yi)=12x2
15、i+3x3i+kxki 样本回归超平面3、多元回归分析的参数估计(O L S(Ordinary leastsquare)(1) 参数的最小二乘法估计令:是参数的估计量;是Y的估计量。得:选择参数的估计方法:估计值与实际值y之间的残差,在所有样本点上差值的平方和最小。即令:(i= 1,2,3,n)得:e=-=y-X要求:w=e= (y-X) (y-X)最小()(y-x) = = =令0具有以下性质:1)线性性:表示被解释变量样本值的线性组合2)无偏性:3)最佳性:在的一切线性无偏估计中方差最小(2)参数的最小二乘估计 =令:m=;得所以:其中,表示矩阵m主对角线元素之和则:令:为的方差估计量,则
16、=4、模型检验拟合优度检验(R2检验):检验样本回归超平面与变量观测值的样本点接近的程度。其中:为似合优度系数,分子为回归平方和,分母为总平方和。t检验:检验变量(j=1,2,k)解释能力的强弱等价于对假设进行检验。构造t统计量: 其中,为矩阵(主对角线上的元素,n-k为残差平方和的自由度,即t统计量服从自由度为n-k的t分布。 假设:原假设,替代假设在给定显著性水平的情况下检验步骤 第一步:计算不同统计量,记为,j=2,3,k第二步:根据和自由度(n-k),查出临界值 第三步:作推断:若干 在显著性水平上拒绝H0 ,即最小二乘估计在统计上是可靠的(对的影响是显著的)。F检验:检验全部解释变量
17、对被解释变量的联合影响是否显著。 假设:构造F统计量: F服从自由度为(k-1,n-k)的F分布。 检验步骤:计算F统计量记为(以样本数据)以值查出临界值作推断:若在显著性水平上拒绝H0获得全部解释变量的联合影响是显著的。D.W检验:检验随机项是否具有一阶自回归形式的序列相关(即上期对下期数据有直接影响)。 构造D.W统计量: 注:n较大时, (1)存在完全一阶正相关:即 (2)存在完全一阶负相关: (3)完全不相关: 检验步骤:计算的统计量记为以和解释变量个数,查分布表,得临界值作推断:若: 注:对于利用滞后被解释变量作解释变量的模型(检验失效)值在2左右无需查检验表。三、具体应用举例:例如
18、,对于一个具有三个解释变量的线性经济计量模型,样本容量n=25,应用OLS估计参数,显示结果如下:Y=0.4150+0.4243X1+0.0184X2+0.5212X3(t=8.0) (t=1.4) (t=1.9)R2=0.94 F=1251.4 DW=1.41对显示的结果进行判断:(1) R2=0.94,说明回归方程具有良好的拟合优度(2) 显著性水平,查F分布表得临界值F0.01(3,21)=4.87,而F=1251.4>>4.87,说明该方程在99%的显著水平下仍是显著成立的。(3) 显著性水平,查t分布表得临界值t0.025(21)=2.080,显然|t1|=8>2.
19、080;|t2|=1.4<2.080;|t3|=1.9<2.080,这说明解释变量X1在95%的概率水平下显著;X2,X3则在该概率水平下不显著。显著性水平,查t分布表得临界值t0.05(21)=1.721,显然|t3|=1.9>1.721,说明解释变量X3在90%的概率水平下显著。显著性水平,查t分布表得临界值t0.10(21)=1.323,显然|t2|=1.4>1.323,说明解释变量X2在80%的概率水平下显著。由此可见,决定是否剔除某个解释变量需持慎重态度,在该模型中,三个解释变量都可以保留。(4)显著性水平,查DW分布表得:d1=1.12,dv=1.66而dl
20、< DW=1.41<dv,根据检验,在95%的概率水平下,不能判断模型的自相关状态。第四章:模拟分析问题:线性规划动态规划都假设所有数据是事先确定的已知的,不包含概率因素网络理论的。实际情况很少有符合分析模型的假设,环境不确定性离散决策和复杂性,使现实中这些现象极为少见。模拟:可以解决问题( 不满足分析建模的标准方法所规定的假设)模拟的定义:是建立系统或决策问题的数学(或逻辑)模型,并以该模型进行试检,以获得对系统行为的认识或帮助解决决策问题的过程。定义中的两个要素:一是模型:它将问题或系统的任何适当假设模型化(模型是对实际系统思想或客体的抽象描述);二是模拟:用模型进行试验并分析
21、结果。模型的不同分类:模型分类:规定型模型:它决定着最优策略或最佳行动过程描述型模型:直接描述关系和提供评价信息,它用于解释系统行为,预测输入规划过程的未来事件,并帮助决策者选择满意方案和系统设计确定性:(数据已知或假设已知)模型分类:概率型:(数据由概率分布决定)模型分类:离散型:变量随时间跳跃的变动连续型:变量随时间连续的变动模拟模型的类型:蒙特卡洛模拟模型(Monte Carlo simulation)系统模拟模型(System simulation)蒙特卡洛模拟模型:基本上是抽样试验,其目的是估计以若干概率输入变量而获得结果变量的分布。它常被用于估计策略变动的预期影响和决策所涉风险。例
22、:Monte Carlo VAR模拟法Monte Carlo模拟法是基于历史数据或既定分布的条件下的参数特征,借助随机数产生的模拟方法模拟出大量的资产组合收益的数值,然后构造资产组合收益的经验分布函数,通过对经验分布函数的逆变换可求得VAR值。假定Y是绝对连续累积分布函数的随机变量,对于0<q<1,令Yq表示唯一的值,使得:即就是:Yq是Y的分位点。当Fy连续时, 即Yq的统计量通过对随机变量Y的经验分布的逆变换求得。假定Y1,Y2,Yn是随机变量Y的n个独立同分布的观察变量,则Y的经验分布为:其中:故标准的统计量:结论:分位点Yq的估计有两种方法 构造随机变量Y的累积经验分布,然后通过对随机变量Y的经验分布进行逆变换
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 慢行系统贯通工程可行性研究报告(模板范文)
- 粮油仓储储备项目实施方案(模板范文)
- 老旧停车场智能化改造实施方案(范文)
- 家医上门服务的全方位实施方案
- 工厂建设项目风险管理与控制方案
- 天津市滨海新区田家炳中学2023-2024学年高一上学期期中政治题 含解析
- 神木职业技术学院《控制性详细规划》2023-2024学年第二学期期末试卷
- 湘潭医卫职业技术学院《离散数学(全英文)》2023-2024学年第二学期期末试卷
- 贵州工贸职业学院《建筑设备安装技术》2023-2024学年第二学期期末试卷
- 酒泉职业技术学院《兽医外科学及外科手术学》2023-2024学年第二学期期末试卷
- 玻璃加工协议书模板
- 2024年广州市海珠区招聘事业单位工作人员考试真题
- 企业区块链技术及反洗钱合规策略分析
- 井下电钳工题库(含答案)
- 2025年随州国有资本投资运营集团有限公司招聘笔试参考题库附带答案详解
- 吉林伟良矿业有限公司吉林省和龙市和安河金矿矿山地质环境保护与土地复垦方案
- 湖北省武汉市2025届高中毕业生四月调研考试语文试卷及答案(武汉四调)
- 2022水利工程建设项目档案管理规程
- 辅导员考试的重点知识与试题
- 润滑油委托加工合同
- 杭州市萧山区招录高学历事业人员笔试真题2024
评论
0/150
提交评论