《管理定量分析:方法与技术(第三版)》课件 第6、7章 变量间关系研究:相关与回归分析、时间序列分析_第1页
《管理定量分析:方法与技术(第三版)》课件 第6、7章 变量间关系研究:相关与回归分析、时间序列分析_第2页
《管理定量分析:方法与技术(第三版)》课件 第6、7章 变量间关系研究:相关与回归分析、时间序列分析_第3页
《管理定量分析:方法与技术(第三版)》课件 第6、7章 变量间关系研究:相关与回归分析、时间序列分析_第4页
《管理定量分析:方法与技术(第三版)》课件 第6、7章 变量间关系研究:相关与回归分析、时间序列分析_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章变量间关系研究:相关与回归分析引例世界上的事物或多或少存在着某种联系。例如:吸烟和人的健康之间受教育程度与收入水平之间课程考核次数和学生对知识的掌握程度之间公路上汽车的平均车速是否与那段公路上巡逻车的数量之间这种联系可分为两类:函数关系与相关关系6.1相关分析㈠函数关系(二)相关关系相关关系是指现象之间确实存在依存关系,但这种关系不确定不严格。例如:身高与体重之间,存在一定的依存关系。但是体重除了与身高有关外,还受年龄、性别、区域、种族等因素影响。身高与体重并无严格的对应关系,同一身高的人,体重大多数情况下是不相等的。但即便如此,这两个变量之间仍旧存在一定的规律性,在一般条件下,身高越高,体重越大。相关关系的种类㈠按相关关系涉及的变量多少来划分,可分为单相关和复相关㈡按相关的方向分,可分为正相关和负相关㈢按相关的表现形式分,分为线性相关(直线相关)和非线性相关(曲线相关)㈣按照相关的密切程度分,分为完全相关、不完全相关和无相关变量间关系的密切程度一般用相关系数r衡量6.2回归分析相关分析可以说明变量间相关关系的方向和程度,但是却不能说明变量之间具体的数量因果关系。当自变量给出一个数值时,因变量可能取值是多少,这是相关分析不能解决的。这需要通过新的方法,即回归分析。例如,交警队队长认为,高速公路路段上汽车的平均车速与在该路段上的巡逻车数有关。于是,他专门派人进行测试,试图证实这一假设。测试连续进行了60天。随机抽取了5天的测试结果列在表6—2中。主讲人:刘兰剑公路上的巡逻车数和该路段上汽车平均车速的例子中,能绘出一条描述这两个变量之间关系的直线。直线因斜率不同而不同斜率斜率(第一个决定直线的要素):相对于点在直线上移动的水平距离,点在直线上上升或下降的距离。主讲人:刘兰剑截距截距:直线与y轴的交点(第二个决定直线的要素)。截距常用α表示因此有时候同样的散点图上可以配上多条斜率不同的直线,哪一条才是最优的呢?

根据最小二乘法则,可以确定回归方程的两个系数:回归方程的应用第一,当6辆巡逻车在执勤时,公路上汽车的平均车速是多少?第二,7量巡逻车呢?第三,一辆巡逻车也没有呢?6辆警车和7辆警车对车速的影响有多少差距?拟合优度的测度有三种拟合优度的测度方法㈠估计标准误差

剩余剩余离差利用如下公式可以进行任意一点预测值的区间估计假定交通警察想预测当3辆巡逻车在公路上时汽车的平均车速时,利用回归方程,有Y=72.2-2.55×3=72.2-7.65=64.55当有3辆巡逻车在公路上时,我们有90%的把握确定车速在60.28公里/小时——

68.82公里/小时之间。㈡判定系数㈢斜率的标准误差

巡逻车与车速关系问题的斜率t检验

巡逻车与车速关系问题回归系数的区间估计~6.3线性回归的假定上述内容并没有讨论线性回归的假定和限制条件。许多分析人员经常忽视这些假定,这样做确实冒着一定的决策风险。只要任何一个假定被违背,上面的处理结果就会变得不可信。假定1:对所有的X值,Y的预测值的误差服从均值为0的标准正态分布。假定1要求每一个Y的估计值与真实值相减而形成的一列数(误差项)服从标准正态分布。假定2无论X为何值,误差项的方差都为常数。异方差的处理异方差的检验有图示法及解析法。检验异方差的解析方法的共同思想是,由于不同的观察值随机误差项具有不同的方差,因此检验异方差的主要问题是判断随机误差项的方差与解释变量之间的相关性。如果相关,则存在异方差,反之没有。异方差的修正方法有加权最小二乘法和模型对数变换法等,其基本思路是变异方差为同方差,或者尽量缓解方差变异的程度。假定3:误差相互独立。这个假定的另一种说法是,一个误差的大小不是任何从前误差的函数。如果残差相互之间是随机的,误差就是相互独立的。误差不独立就存在自相关问题。自相关不是指两个或两个以上的变量之间的相关关系,而是指一个变量前后期数值之间存在的相关关系。存在自相关的数据用以上回归方法得出的结论是不可靠的。自相关发生在时间序列分析中。自相关性产生的原因有以下几种:第一,所建模型遗漏关键变量会产生序列的自相关性。第二,经济变量的滞后性会给序列带来自相关性。第三,采用错误的回归函数形式也可能引起自相关性。第四,蛛网现象可能带来序列的自相关性。第五,因对数据加工整理而导致误差项之间产生自相关性自相关一般用图示检验法或D-W检验来检测。假定4:自变量和因变量都必须是定距变量。定类和定序变量对回归分析是个问题,但并不是不可克服的。从技术上来讲,回归需要定距层次的数据。然而,通过将数字1,2,3等简单地分派给有顺序的分类,定序数据就常常在回归分析中使用。对于定类变量,不能简单地分派数字给变量的类别,可以通过构造虚拟变量(dummyvariable)将定类变量纳入回归中。一个例子某企业的负责人想确定品牌A和品牌B的机器中哪种品牌的效率更高。他将每一品牌的3台机器在同等条件的车间中进行了测试,测试结果见表计算回归方程并检验显著性定类因变量回归的一个例子某一单位的人事处对将被录用的10个求职者的打字速度进行了测试。1年后,这些打字员中的5个被解雇。人事主管假设打字员被解雇是因打字速度太慢。工作境遇和打字速度列在表中。假定5:变量间关系是线性的。对数关系二次曲线关系三次曲线关系关键术语相关关系相关系数拟合优度线性相关非线性相关估计的标准误差判定系数

本章到此结束!

谢谢各位!管理定量分析长安大学:刘兰剑第7章时间序列分析引例某一城市从2012年到2021年中,每年参加体育锻炼的人口数,排列起来,共有10个数据构成一个时间序列。人们希望用某个数学模型,根据这10个历史数据,来预测2022年或以后若干年中每年的体育锻炼人数是多少,以便于该城市制订一个有关体育健身的发展战略。年份参加锻炼人数(万人)20121500201318502014123020151639201616002017199320181995201920302020201120212050对一些与管理有关的变量的未来状态进行估计被称为预测(forcasting)。依据数据进行预测的主要技术是时间序列分析(timeseriesanalysis)。本章将介绍几种时间序列分析技术:首先,介绍时间序列分析的一般原则;其次,介绍简单的时间序列线性回归模型;其后,介绍一种更为常见的对数回归模型;再次,介绍这些模型的预测能力;最后,讨论二元时间序列模型。7.1时间序列简介时间序列分析(Timeseriesanalysis)是一种动态数据处理的统计方法。时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法进行处理。时间序列分析法作为一种常用的预测手段被广泛应用。在二次大战中和战后,在军事科学、空间科学、气象预报和工业自动化等部门的应用更加广泛。当前,时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。7.2时间序列分析方法时间序列分析有六个基本步骤。第一,绘制数据的散点图。第二,检验散点图并确定是否存在短期波动。第三,如果数据表明有短期波动,确定短期波动的长度并剔除这个趋势。第四,确定时间与分析变量之间是否存在某种关系。第五,利用线性回归来估计时间与分析变量之间的关系。第六,根据回归方程进行预测。7.2.1没有波动的预测望山市人力资源与社会保障局需要预测今后5年每年大致的公务员人数。首席人力资源分析师王女士所掌握的唯一的信息是该市2008年以来的公务员人数。数据见表:年份公务员人数(千人)200835.7200938.8201040.9201143.4201244.9201347.2201448.8201550.8201650.8201750.7201855.0201955.3202058.6202159.9步骤1:绘制数据的散点图。就业应被视为因变量,年份应被视为自变量,见图7-3。步骤2检验数据散点图,确定是否存在短期波动。数据表明没有明显的短期波动,因此跳至步骤4。步骤3如果数据表明存在周期趋势,如缺勤数量显示的那样,就有必要确定短期趋势的长度。利用这个长度(L),构造一个L项移动平均模型。步骤4确定变量间是否有关。根据图7-3,可以识别出时间与望山市公务员人数之间存在一个正的线性关系。步骤5:利用线性回归估计时间与分析变量之间的关系。

为此,把第一年(2008)记为1,第二年记为2,依此类推。重新计数之后,得到如下数据集:步骤6

利用回归方程,对今后5年的就业进行预测。

由于2021年相当于X的值等于14,因此2022年,即预测的第一年,其X值等于15。把15代入回归方程,得到:

我们对望山市2022年就业的最好的估计是61640人。根据估计的标准误差,到均值的距离的修正项,以及自由度为12、置信度为90%的t值,我们可以得到这个估计值的90%置信区间:对望山市2023年、2024年、2025年和2026年的就业预测如下:年份

X×b202316×1.7327.68+35.69=63.37202417×1.7329.41+35.69=65.10202518×1.7331.14+35.69=66.83202619×1.7332.87+35.69=68.567.2.2一种指数趋势的预测案例:望山市财政局的首席预算员李先生需要对本市下一年度的收入进行预测。他想测算未来5年的收入减去支出之后的盈余能否足够建设一个预算100万元的公共游乐场。望山市2021年的支出预算是2100万元,估计今后5年每年的支出将以7%的速度增长,在过去的收入趋势今后仍将继续的假定下,望山市今后5年能够积累起100万元的超额收入吗?(2021年节余的收入不能作为100万元的一部分)收入数据见表7-3。年份收入(万元)2008678200967920107432011837201294920139822014108120151205201613172017141620181479201916372020196820212138表7-3望山市2008-2021年财政收入表7-4望山市2021-2026年计划支出年份支出(万元)20212100(实际数字)2022224720232404202425732025275320262945根据表7-3绘制的散点图见图7-4。通过散点图可以发现,图中没有明显的短期波动,因此李先生假定不存在短期波动。利用线性回归,李先生估计了线性方程。为此,他把2008年转换为1,其后的年份依次类推(2021年为14)。他估计了如下的回归线:年份X×b202215×108.11621.5+412=2033.5202316×108.11729.6+412=2141.6202417×108.11837.7+412=2249.7202518×108.11945.8+412=2357.8202619×108.12053.9+412=2465.9利用回归方程,李先生预测了2022-2026年望山市的财政收入:如果把回归斜率转换为反对数(在本例中,0.0389的反对数为1.094),再将反对数减去1,结果就是Y每年增长的百分比。1.094-1.0=0.094或9.4%望山市收入年增长率为9.4%。年份X×b202215×0.03890.584+2.767=3.351202316×0.03890.622+2.767=3.389202417×0.03890.661+2.767=3.428202518×0.03890.700+2.767=3.467202619×0.03890.739+2.767=3.506要用对数回归模型预测市收入,先按照一般的程序求得收入的对数预测值。年份预测收入(万元)20223.351224120233.389245120243.428268120253.467293220263.5063207表7-7把

转换为收入年份收入(万元)支出(万元)盈余(万元)202222412247﹣620232451240447202426812573108202529322753179202632072945262表7-8新回归方程下的收入与支出对比表7.2.3一种有短期波动的预测某局机关的缺勤率一直比较高,而且呈一定的规律出现,为了降低缺勤率,该局提出了新的考勤办法。下图显示了新的考勤办法公布之后的6周内工作人员的缺勤数量。请根据数据分析该考勤办法有没有效果。

7.2.4二元预测在前面的例子中,自变量都是时间。其实,在一些预测中,自变量可以不是时间,这样的预测称为二元预测。案例未央区是位于长安市北部的一个区。张先生是未央污水处理厂的经理,他希望对今后5年中工厂每天需要处理的污水量进行预测。未央污水处理厂的处理能力为每天处理500万吨污水。目前,厂里每天处理375万吨污水。扩建工厂需要4年时间(筹措资金,政府授权,建造和测试)。为此,张先生需要预测未来对污水处理厂的需求量。如果今后5年中,每天需求超过500万吨,张先生现在就必须着手扩建工厂。分析因为未央区是一个没有工业且商业设施也很少的近郊区,因此污水量主要与未央区的住户有关。张先生发现通过把未央区现有房屋数量与颁发的新房建筑许可数量的90%(之所以用90%,是因为得到许可的新房中有10%尚未建好)合并起来,就可以准确地预测下一年的污水处理需求量。张先生搜集的数据见表7-9。表7-9未央区污水排放及房屋建设数据年份每天的污水吨数(万吨)房屋数(万套)新房建筑许可数(万套)下一年预计房屋数(万套)200811003001370200915813701501505201018815005702013201119220006002540201223025105112970201323430007543679201425237003103979201528540506804662201629346203184906201731548858155619201833555005105959201935360406036583202035865805907111202137571504757578预测把2022年的预测房屋数(7578)代入X,张先生得到2022年的预测污水处理量如下:区间估计年份X×b20237983×0.0367293.0+125.2=418.220248388×0.0367307.8+125.2=433.020258793×0.0367322.7+125.2=447.920269198×0.0367337.6+125.2=462.8用同样的方法,对未来几年的污水处理数量进行预测:哪一年将超过500?出于计划的需要,区长还想知道到哪一年需求量将超过500万吨。张先生将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论