




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十章相关与回归分析
第一节相关分析第二节一元线性回归分析第三节多元线性回归分析第四节用计算机软件进行相关和回归分析第一节相关分析一、变量间的关系函数关系
是变量之间一种完全确定的关系。如,圆的面积与圆半径之间的关系即函数关系。相关关系(correlation)
指变量之间的数量变化受随机因素的影响而不能惟一确定的相互依存关系,其一般数学表达式为,其中代表随机因素。如,居民受教育程度与收入的关系即相关关系。由于客观上常会出现观察或测量上的误差等原因,函数关系在实际工作中往往通过相关关系表现出来。而在研究相关关系时,为了找出变量之间数量关系的内在联系和表现形式,又常常需要借助函数关系的形式加以描述。
8-2二、相关关系的种类
根据相关变量之间的密切程度不同,可分为不相关、完全相关和不完全相关。根据相关变量的变化方向划分,可分为正相关和负相关根据相关变量的多少划分,可分为单相关、复相关和偏相关。根据变量间依存关系的形式划分,可分为直线相关和曲线相关。三、相关关系的描述与测度相关表散点图(scatter)由坐标轴及n组变量值(xi,yi)在坐标上对应散点构成的二维数据图。
散点图与相关的类型相关系数(correlationcoefficient)是测度变量之间相关关系密切程度和相关方向的统计指标。简单相关系数、复相关系数和偏相关系数总体相关系数和样本相关系数相关系数的特点:1.参与相关分析的两个变量是对等的,可以不区分自变量和因变量,其相关系数只有一个值。2.简单相关系数有正负号,反映相关关系的方向。正号表示正相关,负号表示负相关。3.如果以样本的数据资料来分析,则两个变量应有相同的随机性。
4.相关系数显著并不能说明变量间存在因果关系。因果关系应由理论分析确定。四、皮尔逊线性相关系数对两个变量之间相关方向和程度的指标称为简单相关系数。简单相关系数常用的有皮尔逊直线相关系数、斯皮尔曼等级相关系数、肯德尔相关系数等。简单相关系数根据总体全部数据计算的,称为总体相关系数,记为;若是根据样本数据计算的,则称为样本相关系数,记为。两个变量的皮尔逊线性相关系数
由于总体数据通常无法得到,总体相关系数也无法直接计算出来,一般用样本相关系数对它进行估计。由于相关系数的计算值对数据十分敏感,用上述计算方法,环节多,四舍五入的结果会影响计算结果的精确度。因此,计算皮尔逊相关系数一般按照下列简捷公式计算
相关系数的取值范围在-1和+1之间,即:–1≤≤1。若0<≤1,表明和之间存在正线性相关关系;若-1≤<0,表明和之间存在负线性相关关系;若=1,表明和之间是完全正线性相关关系;若=-1,表明和之间是完全负线性相关关系。
=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,比如它们之间可能存在非线性相关关系。通常认为,当n很大时:0≤︱︱<0.3为微弱相关;0.3≤︱︱<0.5为低度相关;0.5≤︱︱<0.8为显著相关;0.8≤︱︱<1为高度相关。相关系数的显著性检验
;
统计量
例10.12016年河南省各省辖市规模以上工业企业主营业务收入和利润总额(计量单位:亿元)如下表所示。要求:做散点图并计算工业企业主营业务收入和利润总额的相关系数。
解:观察所做的散点图,表明主营业务收入与利润总额之间存在线性正相关关系,可以计算皮尔逊相关系数。省辖市主营业务收入利润总额省辖市主营业务收入利润总额郑州市14158.171079.14许昌市6295.50534.46开封市3001.75257.73漯河市3275.20311.15洛阳市7468.82276.00三门峡市3194.30161.78平顶山市2480.53186.52南阳市4513.85205.73安阳市3833.07167.59商丘市3545.19179.51鹤壁市2065.31109.68信阳市2714.39174.47新乡市4480.34265.51周口市4530.41488.83焦作市5692.23362.53驻马店市3073.22216.35濮阳市3772.24178.26济源市1562.6285.36由表中的原始数据计算得,代入简捷公式
相关系数的显著性检验:在原假设成立时,计算检验的统计量取显著性水平=0.05,根据自由度,在EXCEL单元格中输入“=tinv(0.05,16)”即可得到检验用临界值。因为﹥2.752,所以拒绝,表明在0.05的显著性水平下,工业企业主营业务收入和利润总额之间的正线性相关关系通过了检验。
五、斯皮尔曼等级相关系数斯皮尔曼等级相关系数也叫斯皮尔曼秩相关系数,是由英国统计学家斯皮尔曼在皮尔逊相关系数的基础上推导出来的计算等级相关系数。(一)斯皮尔曼等级相关系数的计算
1.确定两个变量值的等级(即秩)对每一个变量按照它的取值大小或优劣顺序,得到每个变量值和对应的序数值和,形成成对等级数列()。如果其间遇到相同的变量值,则计算这些相同变量值的平均序数值,作为这些相同变量值的共同等级。
2.计算每对变量等级的差额3.计算斯皮尔曼等级相关系数斯皮尔曼等级相关系数的值域是。当,称两个变量的等级完全一致;当,称两个变量的等级完全相反。当,称两个变量的等级正相关;当,称两个变量的等级负相关。注意,等级相关不能解释为线性相关。(二)斯皮尔曼等级相关系数的显著性检验检验的假设是,
1.当抽取小样本检验时,在原假设成立条件下,可查教材附表5,得到显著性水平下的临界值。如果,则拒绝原假设,表明两个变量等级相关显著;否则,接受原假设,表明两个变量等级相关不显著。
2.当抽取大样本检验时,样本等级相关系数近似服从均值为,方差为的正态分布。因此,可构建用于检验的统计量,如果,则拒绝原假设。例10.3
从某班级抽取10名同学,调查得到统计学和计算机基础课的考试成绩如表10.3所示。试估计这两门课程考试成绩的相关系数并在0.05的显著性水平下检验这两门课成绩是否等级相关。表10.3某班级10名同学的成绩等级表
解:两门课程的成绩等级计算见表10.3所示。已知,;计算得
学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10合计计算机成绩x优秀优秀及格中等良好良好中等优秀优秀良好-
等级Rx2.52.5108.5668.52.52.56-统计学成绩y74766683636675939376-
等级Ry74.58.53108.561.51.54.5-等级差d-4.5-21.55.5-4-2.52.5111.5-等级差平方d220.2542.2530.25166.256.25112.2589.51.计算斯皮尔曼等级相关系数2.显著性检验。设总体等级相关系数是,建立假设,。因为n=10为小样本,查附表5,得到检验的临界值。因为,所以不能拒绝原假设。因此,该班同学的统计学和计算机基础课的考试成绩呈等级正相关,但在0.05的显著性水平下等级相关系数不显著。第二节一元线性回归分析一、回归分析的概念和种类回归一词是由英国生物学家高尔顿在研究人类身高的遗传规律时首先提出:人类身高遗传回归于平均的一般身高。现代回归分析是研究一个变量受另一个或多个变量影响的平均变动数量规律的统计分析方法。解释变量:也叫自变量,指回归分析中,作为影响因素的变量。一般用表示。被解释变量:也叫应变量,指回归分析中,作为受影响的变量。一般用表示。回归模型:也叫回归方程,指回归分析中,用解释变量的数量变动来解释被解释变量数量的平均变动规律的数学方程式。回归分析的种类:按照回归模型的形式划分一元回归模型和多元回归模型线性回归模型和非线性回归模型二、一元线性回归模型的设定
1.总体一元回归模型的一般形式
2.总体一元线性回归模型的条件均值形式上式中的和称为回归参数。其中,是线性回归模型的截距,反映了不受解释变量影响时的被解释变量的平均水平;是线性回归模型的斜率,反映了解释变量每变动1个单位时,被解释变量平均水平变动的单位数量。
居民户月人均可支配收入和人均消费支出的总体数据计量单位:元每户月人均可支配收入xi2000250030003500400045005000550060006500每户月人均消费支出yi13751625197520002550275030003375342537501500175021002325267528753400342536253800162518502250237527503000350035003875437517502000235025752900325036003800412544501875212524502700295033753625392543754500
2200
282531253500
400047254625
2875
4050
4775P(y=yi/x=xi)1/51/61/51/71/61/61/51/71/61/7E(yi/x=xi)1625192522252525282531253425372540254325
3.总体一元线性回归模型的个别值形式式中,称为随机扰动项或随机误差项。随机扰动项反映的是除了解释变量之外,其他所有对被解释变量产生影响的因素影响值的总和,以及模型的设定偏差、变量值的测量误差和随机误差等。总体回归模型中的回归参数需要用总体数据求解。然而,总体的数据一般很难得到。(二)样本回归模型1.样本一元线性回归模型的条件均值形式式中,称为样本回归模型中被解释变量的条件均值,它是E(yi/x=xi)的估计值。和是样本回归系数,它们是回归参数和的估计值。
4.样本一元线性回归模型的个别值形式式中,称为残差项或剩余项。残差项与随机扰动项的不同在于,是不可观测的变量而是可以计算和观测的。
二、一元线性回归模型的估计
(一)估计一元线性回归模型的基本假定1.对模型的假定。第一,解释变量是确定性变量,被解释变量是随机变量。第二,变量没有测量误差。第三,模型的函数形式正确,无设定误差。
2.对随机扰动项的假定。(1)零均值假定,即(2)同方差假定,即(3)无自相关假定,即(4)解释变量与不相关,即(5)正态性假定,即满足上述基本假定的条件下,回归模型参数的估计量是最佳线性无偏估计量。
(二)一元线性回归模型的最小二乘估计最小二乘法的基本思想是估计出的样本回归模型应使被解释变量的估计值与观察值的离差(残差)平方和为最小值,其数学表达式为
利用数学求极值的方法,由条件
且
可得关于参数和的方程组,称为正规方程组:
解得:
例10.4根据表的数据,求不良贷款对贷款余额的回归方程。分行编号各项贷款余额(观测值)不良贷款额(观测值)不良贷款额(估计值)残差
-1234567891011121314151617181920212223242567.3111.3173.080.8199.716.2107.4185.496.172.864.2132.258.6174.6263.579.314.873.524.7139.4368.295.7109.6196.2102.20.91.14.83.27.82.71.612.51.02.60.34.00.83.510.23.00.20.41.06.811.61.61.27.23.21.72083.38825.72632.23246.7381-0.21563.24046.19622.81221.92921.60334.18021.39115.78699.15572.1755-0.26871.95570.10654.453013.12332.79703.32376.60543.0433-0.8208-2.2882-0.92630.96761.06192.9156-1.64046.3038-1.81220.6708-1.3033-0.1802-0.5911-2.28691.04430.82450.4687-1.55570.89352.3470-1.5233-1.1970-2.12370.59460.1567
解:
作散点图判断回归类型为直线回归。代入公式求回归系数其回归方程为:
这表明:银行贷款余额越多,则不良贷款额越高;贷款余额每增加1亿元,不良贷款平均增加0.0378947亿元。三、一元线性回归模型的拟合优度离差平方和的分解总平方和等于回归平方和与残差平方和之和。
SST=SSR+SSE即因为两边平方后求和其中,回归效果的显著性检验
1、判定系数对于一元回归,越接近于1,表明回归直线与各观测点越接近,用解释变量的变化解释被解释变量变化的比例越高,回归直线的拟合程度就越好;越接近于0,表明回归方程的拟合程度越差。
四、一元线性回归模型回归参数的显著性检验(t检验)
检验提出的假设:
检验使用的统计量:
其中,
在显著性水平下,如果或值<,或估计的置信闭区间不包含0,则拒绝原假设,说明两个变量之间存在显著的线性关系;否则,不拒绝原假设,说明两个变量之间不存在显著的线性关系。
对例10.4所估计回归模型中的回归系数的显著性进行检验。设置假设计算统计量取值在显著性水平0.05下,由于,所以拒绝原假设,表明回归系数是统计显著的,贷款余额对不良贷款有显著的线性影响。
五、一元线性回归模型的预测
点预测利用估计的回归模型,对于给定的变量的任一值,用回归值作为变量的预测(估计)值。区间预测
1、的平均值的置信闭区间估计对于给定的,在给定置信水平条件下的预测闭区间为:
2、的个别值的置信闭区间估计
当给定置信水平时,值的预测闭区间为:
例10.5
根据例10.4的估计回归方程,求出(1)贷款余额为100亿元时,不良贷款95%的置信区间;(2)贷款余额为80.8亿元那个分行不良贷款的预测区间。
解:已知:,,(1)当时,不良贷款的点估计值为:的置信区间为:
(2)贷款余额为80.8亿元那个分行不良贷款的预测区间为:
第三节多元线性回归分析多元线性回归分析是研究一个被解释变量与两个或两个以上解释变量之间数量相依关系的统计分析方法。一、多元线性回归模型总体多元回归模型
其中的称为偏回归系数。例如,表示当不变时,每变动一个单位,因变量的平均变动量。
样本多元线性回归模型
二、多元线性回归模型的估计多元回归模型的古典假定:(1)对模型的假定(同一元回归)。(2)对的假定。一元回归模型假定+无多重共线性假定无多重共线性是指解释变量之间不存在线性相关关系,即
式中,是随机误差项,是常数且不全为零。在满足古典假定的条件下,估计多元线性回归模型中的回归参数可通过最小二乘法由容量为n(n>k+1)的样本数据估计。即,使残差平方和由取得极值的条件,可以推出一个k元方程组
即解此方程组即得各偏回归系数。多元回归系数一般使用计算机软件求得。
三、多元线性回归模型的拟合优度、复相关系数和偏相关系数(一)多重可决系数
在多元回归分析中,可决系数称为多重可决系数。为避免因为增加解释变量而高估,统计学家提出用离差平方和的自由度去修正,计算出修正的多重可决系数,记为,其计算公式为
(二)复相关系数和偏相关系数1.复相关系数多重可决系数的平方根称为复相关系数或多重相关系数。复相关系数可用来度量被解释变量同个解释变量的相关程度。它只取正根。
2.偏相关系数是反映在多个变量相互影响的环境中,在控制其他变量取值不变的条件下,某两个特定变量之间相关方向和密切程度的统计指标。用多个变量之间的单相关系数计算偏相关系数用多元回归模型中的偏回归系数计算相关系数首先,估计模型
用上述回归模型计算三个变量、和之间的偏回归系数的计算公式如下
四、多元线性回归模型的显著性检验
(一)F检验如果被解释变量和所有解释变量之间不存在相关关系,就意味着将同时等于0。因此,F检验的假设设置为
至少有一个回归参数不为零检验统计量是F统计量F检验实质上是一个方差分析。对于给定的显著性水平,如果F0>或者值<则拒绝原假设,说明回归模型通过了F检验,模型整体统计显著;否则,接受原假设,说明回归模型没有通过F检验,模型整体统计不显著。F检验统计不显著的回归模型是没有研究价值的,进行回归分析没有意义。
(二)检验与一元线性回归模型t检验的区别是,K元线性回归模型有K个解释变量,需要做K个t检验。对于每个回归参数,设:,:检验的统计量是t统计量在显著性水平下,如果,或者值
()、值(),或者的置信区闭间未包含0,则拒绝原假设,否则接受原假设。一个好的回归模型估计结果往往不是通过一次估计就能确定下来的,一般需要采用多种方法进行估计→检验→修正→再估计→再捡验→再修正等反复多次才能最终下来。
例10.5为了研究新时期我国外贸出口的决定因素,现收集了2000年至2016年共17年我国货物出口总额、工业增加值和人民币兑美元汇率的样本数据,如下表所示。试估计和检验我国货物出口总额依工业增加值和人民币汇率变动的回归模型。年度货物出口总额y(亿元)工业增加值x1(亿元)汇率x2(100美元)yx1yx2x1x2x12x22200020634.440259.7827.8483073475417081982333285901620843444685319200122024.443855.6827.796589327718229596362992801923313651685087200226947.947776.3827.7128747095522304777395444442282574842685087200336287.955363.8827.7200903603830035495458246173065150350685087200449103.365776.8827.68322985794340641819544421424326587418685054200562648.177960.5819.17488407720051319444638629036077839560671039200677597.292238.4797.18715744157261858936735306088507922435635496200793563.6111693.9760.4104504833827114576184932042124755272975782082008100394.94131727.6694.5113224784498697252909148613517352160602482344200982029.69138095.5683.1113279310555603448194333036190703671204666262010107022.84165126.4676.951767229628772449112111782316272667279774582612011123240.56195142.8645.882404950795279598613126038832380807123924171612012129359.3208905.6631.252702388218281658058131871660436415497113984772013137131.4222337.6619.323048946636184928219137698122494340083743835572014143883.75233856.4614.283364813579488384910143653309546888158213773402015141166.83236506.3622.843338684464687924348147305584559352299403879302016138419.29247877.7664.23343110552419194224516464780561443354157441201合计1491455.42314500.912367.73255948899137102526308615805814254.07193E+119123276
解:经济理论认为,在其他条件不变的情况下,本国生产越多可供出口的货物越多;本币升值不利于本国货物出口,也就是说本国工业规模和汇率是影响货物出口的两个主要因素。由图10.5和图10.6的散点图可知,货物出口总额与工业增加值、人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025全员安全培训考试试题完美
- 2024-2025管理人员岗前安全培训考试试题及参考答案
- 2025年土地流转相关合同范本
- 2025年订单合同范文
- 2025防水涂料采购合同范本
- 2025年度摩托车租赁合同
- 2025年长春市房屋租赁合同范本
- 2025年车用交流发电机合作协议书
- 2025流动资产外汇借款合同
- 2025竹林买卖合同模板
- 2025陕西汉中汉源电力(集团)限公司招聘56人易考易错模拟试题(共500题)试卷后附参考答案
- 南京师范大学自主招生个人陈述范文与撰写要点
- 铁粉运输合同协议
- 计算机网络安全知识试题及答案2025年计算机二级考试
- 浙江省A9协作体2024-2025学年高二下学期4月期中联考语文试卷(含答案 )
- (四调)武汉市2025届高中毕业生四月调研考试 语文试卷(含答案详解)
- 广州广州市天河区华阳小学-毕业在即家校共话未来-六下期中家长会【课件】
- 第4单元 亮火虫(教学设计)-2024-2025学年粤教花城版(2024)音乐一年级下册
- 车间生产材料管理制度
- 西师大版小学五年级数学(下)期中测试题(含答案)
- 广东省深圳市龙华区2023-2024学年七年级下学期期中数学试题(含答案)
评论
0/150
提交评论