统计推断专项课程(共273页).ppt_第1页
统计推断专项课程(共273页).ppt_第2页
统计推断专项课程(共273页).ppt_第3页
统计推断专项课程(共273页).ppt_第4页
统计推断专项课程(共273页).ppt_第5页
已阅读5页,还剩267页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本资料来源统计推断 抽样与分布 估计与检验 方差分析 回归分析 时间序列 列联分析第四章 抽样与抽样分布第一节 常用的抽样方法 基本概念 总体和样本 概率抽样和非概率抽样 抽样误差 概率抽样的组织方式 简单随机抽样 分层抽样 等距抽样 整群抽样(一)总体与样本总体 总体:根据研究目的确定的所要研究的同类事物的全体,是所要说明其数量特征的研究对象。 总体单位/个体:构成总体的个别事物(基本单元)。 总体容量:总体单位的数量。 总体指标/总体参数:在抽样估计中,用来反映总体数量特征的指标。 总体平均数、总体比例P、总体标准差、总体方差2样本 样本:从总体中抽取的部分总体单位所构成的整体。 样本容量

2、:样本所包含的总体单位个数。 在实际工作中,通常把n30的样本称为大样本,把n30的样本称为小样本。 样本指标/样本统计量/估计量:根据样本资料计算的、用以估计和推断相应总体指标的综合指标。 样本平均数 、样本比例p、样本标准差s、样本方差s2总体参数是唯一的,往往未知的;样本统计量是不唯一的,随着抽取的样本的不同而不尽相同。x(二)概率抽样与非概率抽样概率抽样/随机抽样定义:按照随机原则抽取样本的抽样方法。组织方式:简单随机抽样、分层抽样、等距抽样、整群抽样特点:抽样推断必须遵循抽样调查的随机原则抽样推断是以样本指标数值去推断总体指标数值抽样推断中产生的误差可以事先计算加以控制。作用:对于不

3、可能进行全面调查的总体数量特征的推断对于某些不必要进行全面调查的总体数量特征的推断对于全面调查的资料进行评价和修正非概率抽样定义:从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本的抽样方法。1.组织方式:典型调查、重点调查、配额抽样、方便抽样等(三)抽样误差 登记性误差:在调查和汇总过程中由于观察、测量、登记、计算等方面的差错或被调查者提供虚假资料而造成的误差。 代表性误差:用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。 系统误差:由于非随机因素引起的样本代表性不足而产生的误差。 随机误差/偶然性误差:由于随机因素(偶然性

4、因素)引起的代表性误差。 抽样估计中的抽样误差,即这种误差。二、概率抽样的组织方式简单随机抽样/纯随机抽样在从总体抽取n个单位作为样本时,要使得每个总体单位都有相同的机会被抽中的抽样方式。重复抽样和不重复抽样分层抽样/分类抽样在抽样之前先将总体的单位划分为若干层(类),然后从各个层中抽取一定数量的单位组成一个样本,这样的抽样方式称为分层抽样。在分层或分类时,应使层内各单位的差异尽可能小,而使层与层之间的差异尽可能大。等距抽样/系统抽样/机械抽样在抽样中,先将总体各单位按某种顺序排列,并按某种规则确定一个随机起点,然后,每个一定的间隔抽取一个单位,直至抽取n个单位形成一个样本。样本在总体中的分布

5、一般较均匀。整群抽样调查时先将总体划分成若干群,然后在以群作为调查单位从中抽取部分群,进而对抽中的各个群中所包含的所有个体单位进行调查或观察,这样的抽样方式称为整群抽样。群内结构特征与总体越接近,抽样推断效果越好。第二节 抽样分布一、抽样分布的概念 由样本统计量的全部可能取值和与之相应的概率(频率)组成的分配数列。 在实际应用中,统计量的抽样分布是通过教学推导或在计算机上利用程序进行模拟而得到的。分析 总体是什么?总体均值等于多少? 总体是4个学生。 总计均值即4名学生的平均成绩=(1+2+3+4)/4=2.5 总体容量?样本容量?样本个数? 总体容量=4,样本容量=2 样本个数=42=16

6、计算各个样本的均值?总体均值与样本均值的区别? 总体均值是唯一的,样本均值是随机的。 样本均值的概率分布?样本均值的抽样分布的特点 抽样分布的形式与原有总体的分布和样本容量n的大小有关。 如果原有总体是正态分布,那么,无论样本容量的大小,样本均值的抽样分布都服从正态分布; 如果原有总体分布是非正态分布,而样本容量n30,则随着样本容量的增大,样本均值的抽样分布将趋于正态分布; 如果原有总体分布是非正态分布,而样本容量n0,当n时, ,则称 是的一致估计量。)(E1 21DD1221limP点估计的方法点估计是直接以样本统计量作为相应总体参数的估计量。因此我们希望样本统计量应尽可能满足优良估计量

7、的标准。经数学证明,样本平均数是总体平均数的优良估计量;样本成数是总体成数的优良估计量;样本方差是总体方差的无偏估计量。点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围 区间估计区间估计xPp 222sxx1n1第二节 一个总体参数的区间估计 参数区间估计的含义: 估计总体参数的区间范围,并给出区间估计成立的概率值。 其中: 1-(01)称为置信度/置信水平,称为区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%。12()1p注意:对置信度的理解!区间估计的内容:总体均值 的区间估计总体成数P的区间估计总体方差2的区间估计区间估计的计算

8、步骤 计算样本指标 计算抽样平均误差 查表得统计量临界值 计算抽样极限误差 计算置信区间总体均值区间估计的要素:总体分布是否正态?总体方差是否已知?1.大样本还是小样本?要素影响抽样分布总体分布总体方差样本情况 服从分布置信区间正态总体2已知大样本服从N(0,1)小样本2未知大样本近似服从N(0,1)小样本服从t(n-1)非正态总体 或分布未知2已知大样本近似服从N(0,1)xxnZx2nsZx2nstx2nZx2例1某企业从长期实践得知,其产品直径x是一随机变量,服从方差为0.05的正态分布。从某日产品中随机抽取6个,测得其直径分别为14.8,15.3,15.1,15,14.7,15.1(单

9、位:厘米)。在0.95的置信度下,试求该产品直径的均值的置信区间。 计算样本指标 计算抽样平均误差 查表得统计量 计算抽样极限误差1.计算置信区间解:正态总体、方差已知、小样本计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间1561 .158 .14nxx02. 0605. 0nx96. 1ZZ95. 01025. 020.0402. 096. 1Zx2x04.1514.9604. 01504. 015xxxx例2对某型号的电子元件进行耐用性能检查,抽查资料分组如下表,要求估计该批电子元件的平均耐用时数的置信区间(置信度95%)。 计算样本指标 计算抽样平均误差 查表得统计

10、量 计算抽样极限误差1. 计算置信区间解:正态总体、方差未知、大样本计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间1055.5()X fXf小 时2()52.17()1XXfSf小 时52.175.217()100XSn小时96. 1ZZ95. 01025. 021065.731045.2710.231055.510.231055.5xxxx23.105.21796. 1Zx2x例3某商场从一批袋装食品中随机抽取10袋,测得每袋重量(单位:克)分别为:789、780、794、762、802、813、770、785、810、806,要求以95%的把握程度,估计这批食品的平均

11、每袋重量的区间范围。计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差1.计算置信区间解:正态总体、方差未知、小样本计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间2.262)9(t) 1n(t95. 01025. 02803.36778.8412.26791.112.26791.1xxxx12.265.4192.2622) 1n(tx2x136.171nxxs1 .79110806789nxx25.4191017.136n5x总体成数的区间估计 由于总体的分布是(0,1)分布,只有在大样本的情况下,样本成数才服从正态分布。总体成数可以看成是一种特殊的平均数,类似于总

12、体平均数的区间估计,总体成数的区间估计的上下限是: 注意:在实践中,由于总体成数常常未知,这时,抽样平均误差公式中的总体成数用样本成数代替。 大样本的条件:np5且n(1-p) 52PPz1Pppn例:某厂对一批产品的质量进行抽样检验,采用重复抽样抽取样品200只,样本优质品率为85%,试计算当把握程度为90%时优质品率的区间范围。 计算样本指标 计算抽样平均误差 查表得统计量 计算抽样极限误差1. 计算置信区间解:计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间1.65ZZ9 . 0105. 020.8916P0.80840.04160.85P0.04160.85pPpp

13、p0.04160.025265. 1Zp2p85. 0p 0252. 020015. 085. 0n)p1 (pp总体方差的区间估计 大样本情况下,样本标准差s的分布近似服从正态分布N(,2/2n),所以,总体标准差的置信度为1-的置信区间近似为 小样本情况下,若总体呈正态分布而其均值和方差未知,则总体方差的置信区间由如下的统计量的分布确定。 所以,总体方差2的置信度为1- 的置信区间为2n/sZs2n/sZs22)1n(s1n22221ns1n,1ns1n2212222例 从某车间加工的同类零件中抽取了16件,测得零件的平均长度为12.8厘米,方差为0.0023。假定零件的长度服从正态分布,

14、试求方差的置信区间(置信度为95%)。 解 所以,总体方差2的置信区间为488.27)15() 1n(262. 6)15() 1n(95. 010023. 0s16n2025. 0222975. 022120055. 0 ,0013. 0262. 60023. 015,488.270023. 0151ns1n,1ns1n2212222四、抽样样本容量确定 问题的提出 确定样本容量公式:pNzppnNzpp2222211pzppn2221xnzNn 21xNznNz2222222xzn2222xzn 2估计总体均值时样本容量的确定重复抽样不重复抽样估计总计成数时样本容量的确定重复抽样不重复抽样四

15、、抽样样本容量确定 确定样本容量应注意的问题 1、计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代: 一是用历史资料已有的方差与成数代替; 二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差; 三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。 2、如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。 3、上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例: 对某批木材进行检验,根据以往经验,木材长度的标准差为0.4

16、米,而合格率为90%。现采用重复抽样方式,要求在95.45%的概率保证程度下,木材平均长度的极限误差不超过0.08米,抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少? 解:.0 4%p90( ).%F z 95 45.x0 8%p 5.().xzn22222220 41000 08棵.()().pz ppn222220 9 0 111440 05棵样本平均数的单位数: 样本成数的单位数: 根据计算结果,取样本数较大者。即n=144棵。 第六章 假设检验第一节 假设检验的基本问题 假设检验/显著性检验 事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,

17、即判断样本信息与原假设是否有显著差异,从而决定应接受或否定原假设。 假设检验分为两类:参数检验、非参数检验/自由分布检验 假设检验的基本思想 假设检验所采用的逻辑推理方法是带有概率性质的反证法。 假设检验中的合理与否,所依据的是“小概率事件实际不可能发生的原理”。第一节 假设检验的基本问题假设检验的步骤 提出原假设和备择假设; 选择适当的统计量,并确定其分布形式; 选择显著性水平,确定临界值; 作出结论假设检验的两类错误第一类错误/拒真错误:当原假设为真,但由于样本的随机性使样本统计量落入了拒绝区域;1.第二类错误/取伪错误:当原假设为不真,但由于样本的随机性使样本统计量落入了接受区域。第二节

18、 一个总体参数的检验 例: 消费者协会接到消费者投诉,指控品牌纸包装饮料存在容量不足,有欺骗消费者之嫌。包装上标明的容量为250毫升。消费者协会从市场上随机抽取50盒该品牌纸包装饮品,测试发现平均含量为248毫升,小于250毫升。这是生产中正常的波动,还是厂商的有意行为?消费者协会能否根据该样本数据,判定饮料厂商欺骗了消费者呢? 另根据历史资料,该品牌饮料容量总体的标准差是4毫升。我们通过检验总体均值是否小于250毫升,来判断饮料厂商是否欺骗了消费者。第一步:确定原假设与备择假设 : 250; : 1020单侧检验与双侧检验 用单侧检验还是双侧检验,使用左侧检验还是右侧检验,决定于备选假设中的

19、不等式形式与方向。 与“不相等”对应的是双侧检验,与“小于”相对应的是左侧检验,与“大于”相对应的是右侧检验。/21/2-Z/2 Z/2 Z 0 0 Z双侧检验左侧检验右侧检验继续:总体均值的参数检验 例2:一种罐装饮料采用自动生产线生产,每罐的容量是255ml,标准差为5ml。为检验每罐容量是否符合要求,质检人员在某天生产的饮料中随意抽取了40罐进行检验,测得每罐平均容量为255.8ml。检验该天生产的饮料容量是否符合标准要求。 H0:255 H1:255第二步:选择适当的统计量,并确定其分布形式 正常情况下,饮料的容量服从正态分布 若正态总体的方差已知,则其样本平均数也服从正态分布,即:

20、可用z作为检验统计量。 1 ,00NnXz01. 140/52558 .255nxZ第三步:选择显著性水平,确定临界值 通常显著性水平由实际问题确定,我们这里取=0.05,双侧检验,拒绝域在左右两边,查标准正态分布表得临界值: Z/2= Z0.025=1.96 拒绝域是|Z|1.96。第四步:判断,作出结论 Z = 1.01 Z/2=1.96样本统计量的取值落入接受域。 接受原假设,拒绝备选假设,即认为没有足够的证据证明该天的生产不符合标准要求。例1 消费者协会接到消费者投诉,指控品牌纸包装饮料存在容量不足,有欺骗消费者之嫌。包装上标明的容量为250毫升。消费者协会从市场上随机抽取50盒该品牌

21、纸包装饮品,测试发现平均含量为248毫升,小于250毫升。这是生产中正常的波动,还是厂商的有意行为?消费者协会能否根据该样本数据,判定饮料厂商欺骗了消费者呢? 另根据历史资料,该品牌饮料容量总体的标准差是4毫升。我们通过检验总体均值是否等于250毫升,来判断饮料厂商是否欺骗了消费者。 H0:250 H1:250第二步:选择适当的统计量,并确定其分布形式 正态总体、方差已知 可用z作为检验统计量。 -3.5450/4250248nxZ第三步:选择显著性水平,确定临界值 通常显著性水平由实际问题确定,我们这里取=0.05,左侧检验,拒绝域安排在左边,查标准正态分布表得临界值: - =-1.645,

22、拒绝域是 z -1.645。z第四步:判断,作出结论 Z = -3.54 1020第二步:选择适当的统计量,并确定其分布形式 正态总体、方差已知, 可用z作为检验统计量。 2.416/10010201080nxZ第三步:选择显著性水平,确定临界值 通常显著性水平由实际问题确定,我们这里取=0.05,右侧检验,拒绝域安排在右边,查标准正态分布表得临界值: Z=1.645,拒绝域是 Z 1.645。第四步:判断,作出结论 Z = 2.4 Z= 1.65样本统计量的取值落入拒绝域。 拒绝原假设,接受备选假设,即认为有足够的证据证明这批产品的使用寿命确有显著提高。注意! 总体方差未知时用t统计量: 但

23、是,在大样本场合,t-统计量与标准正态分布统计量近似,通常用Z检验代替t检验。) 1(0ntnsXt例4 某厂采用自动包装机分装产品,假定每包产品的重量服从正态分布,每包标准重量为1000克。某日随机抽查9包,测得样本平均重量为986克,样本标准差为24克。试问在0.05的显著性水平上,能否认为这天自动包装机工作正常?解 正态分布、方差未知、小样本 H0:1000 H1:1000 =0.05 查表得t/2(n-1)=t0.025(8)=2.306 |t|=1.75 30%。 以上的备选假设是企业自我声明的结论,我们希望该企业说的是实话。因此使用右侧检验。0H1H第二步:构造z检验统计量 当样本

24、容量较大时,下列统计量服从标准正态分布: 上式中,代表总体的成数,p代表样本的成数。1pzn第三步:确定拒绝域 显著水平=0.05,查标准正态分布表得临界值: =1.645, 拒绝域是z1.645。 第四步:计算检验统计量的数值 样本成数p=220/600=0.37,总体假设的成数 =0.3,代入z检验统计量得:z0.370.33.510.3 1 0.3 /600pzn第五步:判断 检验统计量的样本取值z=3.51.645,落入拒绝域。拒绝原假设,接受备选假设,认为样本数据证明该企业声明属实。总体方差的假设检验 例:根据长期正常生产的资料可知,某厂所产维尼纶的纤维服从正态分布,其方差为0.00

25、25。现从某日产品中随机抽出20根,测得样本方差为0.0042。试判断该日纤度的波动与平时有无显著差异(取=0.10)解:0025. 0:H,0025. 0:H21201ns1nH220220为真时,统计量当 12.101914.301910. 0295. 0205. 02,)(分布表得查,92.310025. 00042. 0120s1n222统计量的值性与平时有显著增大。即认为该日纤度的波动,接受应拒绝10205. 02HH14.30)19(92.31P-值检验 p-值检验就是通过计算p-值,再将它与显著性水平作比较,决定拒绝还是接受原假设。 所谓p-值就是拒绝原假设所需的最低显著性水平。

26、 p-值判断的原则是:如果p-值小于给定的显著性水平,则拒绝原假设;否则,接受原假设。 或者,更直观来说就是:如果p-值很小,拒绝原假设,p-值很大,接受原假设。 z检验的检验的p-值的计算公式值的计算公式:值(,:如果:值(,:如果:)(值,:如果:)(值,:如果:第三节 非参数检验 非参数检验是对总体的分布不作任何限制的统计检验。故非参数检验又称为自由分布检验。 自由分布检验概述自由分布检验概述 符号检验符号检验 秩和检验秩和检验一、自由分布检验概述一、自由分布检验概述 自由分布检验的优点: 首先,检验条件比较宽松,适应性强。 其次,自由分布检验的方法比较灵活,用途广泛。 再次,自由分布检

27、验的计算相对简单。 自由分布检验的缺点: 由于它对原始数据中包含的信息利用得不够充分,检验的功效相对较弱。二、符号检验 符号检验是建立在以正、负号表示样本数据与假设参数值差异关系基础上的检验。 该方法既适用于单样本场合,也适用于配对样本场合。 1、单样本场合的符号检验 在单样本的场合,可以用符号检验方法,检验总体的中位数是否在某一指定的位置。 原理: 假设总体中位数的真值是A,即 ,再从样本观测结果:x1,x2,xn 样本每个数据都减去A,只记录其差数的符号,即当xiA时,记正号;当xi13。第五步:判断第五步:判断 样本落入拒绝域,所以拒绝原假设,认为样本数据不能证明总体中位数等于160件。

28、160:0eMH160:1eMH第七章 方差分析第一节 方差分析的基本问题问题: 消费者与供应厂商间经常出现纠纷。纠纷发生后,消费者经常会向消费者协会投诉。消协对以下几个行业分别抽取几家企业,统计最近一年中投诉次数,以确定这几个行业的服务质量是否有显著的差异。结果如右表:观测值行业零售业旅游业航空业家电制造业15768314426639495134929216544045347753456405865351744 方差分析: 是对多于2个总体的均值是否相等进行检验的一种统计方法。它是通过检验各总体的均值是否相等来判断分类型自变量对数值型变量是否有显著影响。 H0: H1: 不全等。12r12,

29、r 术语 因素和水平 在方差分析中,所要研究的对象称为因素。 因素的不同表现,成为水平。 单因素方差分析和双因素分析 方差分析只针对一个因素称为单因素分析; 方差分析同时针对多个因素称为多因素分析。 交互影响和无交互影响 在方差分析中,如果因子间存在相互影响,称之为“交互影响”; 如果因子间是相互独立的,则称为无交互影响。 交互影响有时也称为交互作用,是对实验结果产生作用的一个新因素,分析过程中,有必要将它的影响作用也单独分离开来。方差分析的原理 观测值之间若存在差异,差异的产生来自两个方面,一个方面是由因素的不同水平造成的,成为系统性差异;另一个方面是由抽选样本的随机性而产生的差异。 前者差

30、异可以用水平间的方差计量,差异的原因包括系统性原因和随机性原因;后者差异可以用水平内部的方差计量,差异的原因尽包括随机型原因。 所以,可以用两种方差的比值来判断观测值的差异是否包括系统性因素。 如果比值接近1,说明差异的主要原因是随机因素;如果比值显著大于1,说明因素的不同水平对观测值产生显著影响。方差分析的原理两种方差 组间方差反映出不同的因子对样本波动的影响; 组内方差则是不考虑组间方差的纯随机影响。两种方差的比值 数理证明:两种方差之比服从F分布。 F统计量越大,越说明组间方差是主要方差来源,因子影响越显著;F越小,越说明随机方差是主要的方差来源,因子的影响越不显著。1r)(1rSSAM

31、SA2.XXi组间方差rn)(rnSSEMSE2.iijXX组内方差MSEMSAF组内方差组间方差第二节 单因素方差分析 例1:不同行业对顾客投诉的影响。观测值行业零售业旅游业航空业家电制造业15768314426639495134929216544045347753456405865351744分析步骤 1、提出假设 2、构造检验统计量 3、统计决策不全相等,:r211r21OHHMSEMSAF组内方差组间方差解:1、提出假设2、构造检验统计量不全相等,:432114321OHHr)-SSE/(n1)-SSA/(rMSEMSAF组内方差组间方差r1i2iir1in1j2ixxnxxSSAir

32、1in1j2iijixxSSEr1in1j2iji)xx(SSTSSESSASST(1)计算各样本的均值(2)计算全部观测值的总均值(3)计算离差平方和SSA、SSE、SST(4)计算统计量Fixx2、构造检验统计量观测值行业零售业旅游业航空业家电制造业15768314426639495134929216544045347753456405865351744(1)计算各样本的均值ixir1jijinxx2、构造检验统计量观测值行业零售业旅游业航空业家电制造业15768314426639495134929216544045347753456405865351744样本均值49483559(2)计

33、算全部观测值的总均值nxxx2、构造检验统计量观测值行业零售业旅游业航空业家电制造业15768314426639495134929216544045347753456405865351744样本均值49483559总平均值47.8696(3)计算离差平方和SSA、SSE、SSTr1i2iir1in1j2ixxnxxSSAir1in1j2iijixxSSEr1in1j2iji)xx(SST2、构造检验统计量观测值行业零售业旅游业航空业家电制造业15768314426639495134929216544045347753456405865351744样本均值49483559总平均值47.8696(

34、4)计算统计量Fr)-SSE/(n1)-SSA/(rMSEMSAF组内方差组间方差3、统计决策投诉次数有显著影响。即可以认为行业对顾客假设拒绝原假设,接受备择查表得,13. 3F4067. 3F13. 3)19, 3(F) rn, 1r (F05. 0注意!方差分析需满足以下的假设条件。 样本是独立的随机样本; 各样本皆来自正态总体; 总体方差具有齐性,即各总体方差相等。各总体的样本容量可相等也可以不相等。1. 方差分析只能检验各总体的均值是否相等。如果认为不相等,不能求出那个总体的均值大,哪个均值小。例2 某饮料企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。

35、随机从五家超市上收集了前一期改种饮料的销售量,如下表所示。问饮料的颜色是否对销售量产生影响(a=0.05)。超市无色粉色橘黄色绿色126.531.227.930.8228.729.325.129.6325.130.828.532.4429.127.924.231.7527.229.626.532.8解:1、提出假设2、构造检验统计量(1)计算各样本的均值(2)计算全部观测值的总均值(3)计算离差平方和SSA、SSE、SSTSST=115.9295 SSE=39.084 SSA=76.8455(4)计算统计量F F=10.4863、统计决策不全相等,:432114321OHHixx44.26x3

36、56.29x232.27x146.31x428.695x 销售量有显著影响。即可以认为饮料颜色对假设拒绝原假设,接受备择查表得,24. 3F10.486F24. 3)16, 3(F) rn, 1r (F05. 0第八章 相关与回归分析第一节 基本概念一、函数关系与相关关系函数关系:当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,称为确定性的函数关系。函数关系的特点是一一对应的确定关系设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为

37、自变量,y 称为因变量 相关关系: 当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量之间的这种关系称为相关关系。相关关系的特点变量间关系不能用函数关系精确表达;一个变量的取值不能由另一个变量唯一确定;1.当变量 x 取某个值时,变量 y 的取值可能有几个。二、相关关系的种类按相关关系的程度划分 完全相关:当一个现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。 不相关:当两种现象彼此互不影响,其数量变化各自独立时,称为不相关现象。 不完全相关:两个现象之间的关系介于相关和不相关之间,称为不完全相

38、关。按相关形式划分 线性相关:当两种相关现象之间的关系大致呈现为线性关系时,称之为线性关关。1.非线性相关:如果两种相关现象之间,并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。按相关的方向划分 正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。 负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。按研究的变量划分 单相关:两个变量之间的相关,称为单相关 复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。1.偏相关:在某

39、一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。三、相关分析与回归分析 (一)概念: 相关分析: 就是用一个指标来表明现象间相互依存关系的密切程度。 回归分析: 是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。 (二)相关分析与回归分析的区别 在相关分析中,不必确定自变量和因变量;而在回归分析中,必须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推断自变量。相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出

40、变量之间相互关系的具体形式,它可根据回归模型从已知量估计和预测未知量。1.相关分析所涉及的变量一般都是随机变量,而回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。(三)相关分析与回归分析的联系相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。简单说:1、相关分析是回归分析的基础和前提;2、回归分析是相关分析的深入和继续。 四、相关关系的判断 定性分析

41、 依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。 定量分析 在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。第二节 简单线性相关与回归分析一、相关系数及其检验(一)相关系数的定义:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标,简称相关系数。总体相关系数:相关系数是根据总体全部数据计算的,记为 样本相关系数:根据样本数据计算的,记为 r样本相关系数是根据样本观测值计算的,抽取的样本不同,其具体的数值也会有所差异。容易证明,样本相关系数是总体相关系数的一致估计量。)()(),(YVa

42、rXVarYXCov)()(),(YVarXVarYXCov22)()()(YYXXYYXXrtttt(二)相关系数的特点的取值介于与之间;在大多数情况下,|,即与的样本观测值之间存在着一定的线性关系,当时,与为正相关,当时,与为负相关。|的数值愈接近于1,表示x与y直线相关程度愈高;反之, |的数值愈接近于0,表示x与y直线相关程度愈低。通常判断的标准是: |0.3称为微弱相关,0.3 |0.5称为低度相关,0.5 |0.8称为显著相关 ,0.8 |1称为高度相关或强相关。如果|=1,则表明与完全线性相关,当=1时,称为完全正相关,而=-1时,称为完全负相关。是对变量之间线性相关关系的度量。

43、=0只是表明两个变量之间不存在线性关系,它并不意味着与之间不存在其他类型的关系。(三)相关系数的计算 22222)(2)()(yynxxnyxxynyyxxyyxxr(四)相关系数的显著性检验 检验两个变量之间是否存在线性相关关系采用 t 检验检验的步骤为提出假设:H0: ;H1: 0)2(122ntrnrtn 确定显著性水平,并作出决策 若 t t,拒绝 H0 若 t t=2.201,拒绝H0,表明之间有线性关系0073.3601472. 05301. 0t2、回归方程的显著性检验 一元线性回归方程的检验主要是检验自变量X和因变量Y之间的线性关系是否显著。 检验的具体的步骤如下: 第一步:提

44、出假设 第二步:计算检验统计量F 第三步:做出判断 00:1110HH:)2/(1/nSSESSRF 例:根据前例的计算结果,检验该食品需求量对地区人口增加量回归的方程的显著性(=0.05) 0:10H0:11H11.1302)215()854.3694933.54230(1854.53694)2/()(1/)2/(1/nSSRSSTSSRnSSESSRF67. 413, 1)2, 1 (05. 0FnF130211F4.67F第一步:提出假设第三步:判断查F分布表,得临界值拒绝原假设,表明所建立的回归方程是显著的,即该食品需求量与地区人口增长量之间的线性关系是显著的。第二步:计算检验统计量F

45、五、一元线性回归模型预测 点预测 预测误差 区间预测(置信区间)(一)点预测 点预测的基本公式: 回归预测是一种有条件的预测,在进行回归预测时,必须先给出x的具体数值。 当给出的x属于样本内的数值时,利用上式计算 ,称为内插检验或事后预测; 当给出的x属于样本外的数值时,利用上式计算 ,称为外推检验或事前预测; 例: 前例中,当人口增长量为400千人时,可预测该食品的年需求量为:XY10YY(十吨)6305.2344005301. 05905.22Y(二)预测误差 发生预测误差的原因可以概括为以下几点: 1、模型本身的误差因素所造成的误差。 2、回归系数的估计值同其真值不一致所造成的误差。 3

46、、自变量X的设定值同其实际值的偏离所造成的误差。 4、未来时期总体回归系数发生变化所造成的误差。 以上误差中,第3 、4 两项不属于回归方程本身问题,且难以估计与预测。 (三)区间预测(置信区间) Y的置信区间为 0)2(2/0eSntY22110XXXXnSSYe例:假定已知人口增长量为200千人,要求利用上例中拟合的样本回归方程与有关数据,计算置信度为95%的该食品年需求量的预测区间。解:将有关数据代入拟好的样本回归方程,可得:已知: 93.19108815/3626106761412222XnXXX(十吨)6105.1282005301. 05905.22y1067614,3626,15

47、,4215. 62XXnSy(十吨)66. 693.19108815362620015114215. 620eS查t分布表可知:显著性水平为5%,自由度为13的双侧t检验的临界值是2.16。因此,当人口增长量为200千人时,置信度为95%的该食品年需求量的预测区间如下:当人口增长量为200千人时,有95%的概率保证该食品的年需求量在1142.2到1430吨之间。 66. 6160. 26105.1286.662.16-128.61050Y00.14322.1140Y第五章 时间序列分析 第一节 时间序列分析的基本问题 第二节 时间数列的水平指标和比较指标 第三节 时间数列的平均指标 第四节 时

48、间序列的长期趋势分析 第五节 季节变动与循环波动分析第一节 时间序列分析的基本问题 一、时间数列的概念时间序列又称动态数列或时间数列,就是把各个不同时间的社会经济统计指标数值,按时间先后顺序排列起来所形成的统计数列. 二、时间数列的构成要素现象所属的时间;不同时间的具体指标数值年 份199219931994199519961997职工工资总额(亿元)3939.2 4916.2 6656.4 8100.0 9080.0 9405.3年末职工人数(万人)147921484914849149081484514668国有经济单位职工工资总额所占比重()78.4577.5577.7845.0674.81

49、76.69职工平均货币工资(元)271133714538550062106470例如:三、时间序列的作用 1、计算水平指标和速度指标,分析社会经济现象发展过程与结果,并进行动态分析; 2、利用数学模型揭示社会经济现象发展变化的规律性并预测现象的未来的发展趋势; 3、揭示现象之间的相互联系程度及其动态演变关系。四、动态数列的种类 绝对数动态数列 时期数列、时点数列 相对数动态数列 由两个时期数列对比构成 由两个时点数列对比构成 由一个时期数列和一个时点数列对比构成 平均数动态数列 静态平均数动态数烈、动态平均数动态数列(一)绝对数动态数列 即绝对数排列组成的动态数列,它反映社会经济现象在各期达到

50、的绝对水平及其发展变化的过程。 绝对数动态数列按总量指标时间性质不同,又可分为 时期数列、时点数列1、时期数列 动态数列中的每一个指标都是由时期指标所构成的数列,叫时期数列。 时期数列中的每一个指标数值都反映社会经济现象在一段时期一段时期发展过程的结果。 例: 时间1991 1992 1993 1994 1995 1996 1997 1998产量(吨) 105 106 108 120 125 145 145 1602、时点数列 动态数列中每一个指标都是由时点指标所构成的数列,叫时点数列。 时点数列中的每一个指标数值都反映社会经济现象在一定时点一定时点上达到的水平。 例:年份1993 1994

51、1995 1996 1997 1998年末职工人数 1050 1161 1170 1405 1600 1680 时期数列与时点数列的区别特点时期数列时点数列1可加性:不同时期的总量指标可以相加不可加性:不同时点的总量指标不可相加2关联性:指标值的大小与所属时间的长短有直接关系无关联性:指标数值的大小与时点间隔的长短一般没有直接关系3连续登记:指标值采用连续统计的方式获得间断登记:指标值采用间断统计的方式获得(二)相对数动态数列 即相对指标组成的动态数列叫相对数动态数列。反映社会经济现象对比关系发展变化情况。 相对数动态数列可以分解为两个绝对数动态数列,根据这两个绝对数动态数列性质不同,有以下三

52、种分解: 由两个时期数列对比构成 由两个时点数列对比构成 由一个时期数列和一个时点数列对比构成1、由两个时期动态数列对比构成的相对数动态数列。 时间第一年 第二年第三年第四年产值计划完成率(%)130135138125实际产值(万元)1118119712081123计划产值(万元)8608878758982、由两个时点动态数列对比构成的相对数动态数列。 时间第一季度初第二季度初第三季度初第四季度初第二年第一季度初设备完好率(%)82.0085.1079.0474.8180.51完好设备台数205217215196219全部设备台数2502552722622723、由一个时期数列和一个时点数列对

53、比构成的相对数动态数列时间三月四月五月六月总产值(万元)222529.432.6月末职工人数2000220022002200全员劳动生产率(元/人)110.00113.64133.64148.18(三)平均数动态数列 把反映某一现象的一系列平均指标按时间先后顺序排列而形成的动态数列,叫平均数动态数列。 它反映社会经济现象一般水平的发展变化过程. 静态平均数动态数列、动态平均数动态数列年 份199219931994199519961997职工工资总额(亿元)3939.2 4916.2 6656.4 8100.0 9080.0 9405.3年末职工人数(万人)1479214849148491490

54、81484514668国有经济单位职工工资总额所占比重()78.4577.5577.7845.0674.8176.69职工平均货币工资(元)271133714538550062106470练习:判断下列动态数列的种类五、编制动态数列的原则 1、同一时间序列,指标所属时间应当统一 2、总体范围应一致 3、经济内容应一致 4、计算方法应一致。 第二节 动态数列的水平指标和比较指标 发展水平 增长量 逐期增长量、累计增长量 发展速度 环比发展速度、定基发展速度 增长速度 环比增长速度、定基增长速度 增长1%的绝对值一、发展水平/发展量 1、概念:它反映社会经济现象在各个时期所达到的规模或水平,发展水

55、平也就是动态数列中的每一项具体数值。 2、最初水平、最末水平、中间水平 3、报告期水平、基期水平 二、增减量/增长量 1、概念:是一种将两个时期指标相减得到的一种动态分析指标。反映两个时期发展水平增减的绝对水平 2、公式:增减量=报告期水平基期水平 增长量0,说明发展趋势上升 增长量0,说明发展趋势下降根据所选择的基期不同 逐期增减量报告期水平前一期水平 (a a ),(a a ),(a a ) 累计增减量报告期水平某一固定时期水平 (a a ),(a a ),(a a ) 为消除季节变动的影响年距增减量本期发展水平年距增减量本期发展水平上一年同期发上一年同期发展水平展水平逐期增减量与累计增减

56、量之间的数量推导关系 各个逐期增减量之和等于最后时期的累计增减量。(a a )+(a a )+(a a-1 ) =(a a ) 相邻两个时期累计增减量之差等于相应时期的逐期增减量 (a a )(a a )(a a )三、发展速度 是一种将两个时期指标相对比得到的一种动态分析指标,用来说明报告期水平已发展到基期水平的百分之几或若干倍。 发展速度报告期水平/基期水平 发展速度1,说明发展趋势上升 发展速度1,说明发展趋势下降 根据所选择的基期的不同 定基发展速度报告期水平某一固定时期水平定基发展速度报告期水平某一固定时期水平 (a a ),(a a ),(a a ) 表明被研究现象在一定时间内总的

57、发展变化程度 环比发展速度报告期水平前一期水平环比发展速度报告期水平前一期水平 (a a ),(a a ),(a a ) 表明被研究现象逐期发展变化的情况。 两指标之间的关系(1)011201aaaaaaaannn 各个环比发展速度的连乘积等于最后时期的定基发展速度 两指标之间的关系(2)1010iiiiaaaaaa 两相邻时期的定基发展速度的商等于相应时期的环比发展速度 为消除季节变动影响 年距发展速度年距发展速度=本期发展水平去年同期发展水本期发展水平去年同期发展水平平四、增减速度/增长速度是一种反映现象变化增减程度方向的动态分析指标,用来说明报告期水平比基水平增长或下降了几倍或百分之几.

58、。反映两个时期增减的相对水平 增减速度增减量基期水平 (报告期水平基期水平)基期水平 (报告期水平基期水平) 发展速度 增减速度0,说明报告期比基期水平有所增长 增减速度0,说明报告期比基期水平有所下降1、定基增减速度1111-)/-(/0020100002001aaaaaaaaaaaaaaann定基发展速度固定期水平固定期水平报告期水平固定期水平累计增减量定基增减速度2、环比增减速度1111-/-/1120111112001nnnnnaaaaaaaaaaaaaaa环比发展速度前一期水平前一期水平)(报告期水平前一期水平逐期增减量环比增减速度例:中国的国内生产总值指标比较年份年份1997199

59、81999200020012002国内生产总值(亿元)国内生产总值(亿元)74894.279003.382673.189356.798618.1107514增长量增长量逐期逐期- -4109.14109.13669.83669.86683.66683.69261.49261.48896.18896.1累计累计- -4109.14109.17778.97778.914462.514462.523723.923723.93262032620发展速度发展速度环比(环比(% %)- -105.49 105.49 104.65 104.65 108.08 108.08 110.36 110.36 109

60、.02 109.02 定基(定基(% %)- -105.49 105.49 110.39 110.39 119.31 119.31 131.68 131.68 143.55 143.55 增长速度增长速度环比(环比(% %)- -5.49 5.49 4.65 4.65 8.08 8.08 10.36 10.36 9.02 9.02 定基(定基(% %)- -5.49 5.49 10.39 10.39 19.31 19.31 31.68 31.68 43.55 43.55 3、两指标之间的关系 定基增减速度 +-1 定基发展速度 环比增减速度1+1 环比发展速度 4、为消除季节变动的影响 年距增

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论