8第八章 相关与回归分析.ppt_第1页
8第八章 相关与回归分析.ppt_第2页
8第八章 相关与回归分析.ppt_第3页
8第八章 相关与回归分析.ppt_第4页
8第八章 相关与回归分析.ppt_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、世界上的事物或多或少存在着某种联系。 如:投资与利润 研究这种联系无论是在经营决策还是在科学研究中都必不可少 要研究这些变量之间的关系,可以通过统计的方法进行,前 言,第八章 相关与回归分析,第一节 相关分析的基本概念 第二节 相关关系的判断与测定 第三节 线性回归分析,本章学习目的,1、理解现象之间存在的相关关系。 2、掌握相关关系的种类。 3、掌握线性相关系数的计算方法与意义。 4、掌握线性回归分析的理论与方法。 5、能够依据实际资料具体运用简单线性相关与线性回归方法进行分析和预测。,第一节 相关分析的基本概念,一、相关关系的概念 二、相关关系的种类 三、相关分析的主要内容,一、相关关系的

2、概念,1、函数关系(确定性关系),反映现象之间存在着严格的依存关系,在这种关系中,对于某一变量的每一个数值,都有另一个变量的确定值与之相对应,并且这种关系可以用一个数学表达式反映出来。,一、相关关系的概念,1、函数关系(确定性关系),设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),变量之间是一一对应的确定关系; 变量之间可以用一个数学表达式表示出来。, 函数关系的例子 圆的面积S与半径r之间的关系可表示为S=r2 某种商品的销售额y与销售量x之间的关系可表

3、示为 y = px (p 为单价) 企业的原材料消耗额y与产量x1 、单位产量消耗x2 、原材料价格x3之间的关系可表示为 y = x1 x2 x3,返回,2、相关关系(非确定性关系),反映现象之间确实存在着依存关系,但这种关系不确定也不严格,即现象之间确实存在的、关系数值不固定的相互依存关系。,2、相关关系(非确定性关系),当变量 x 取某个值时,变量 y 的取值可能有几个 在具有相关关系的两个变量中,作为变化根据的量叫自变量,一般用x表示,发生对应变化的量叫因变量,一般用y表示。,变量之间确实存在数量上的依存关系; 数量依存关系的具体关系值是不固定。, 相关关系的例子 父母身高与子女身高之

4、间的关系 受教育程度与收入水平之间的关系 商品价格与商品销售量之间的关系 耗电量与产品的产量之间的关系 工人的技术水平与产品的质量之间的关系,返回,说明:相关关系与函数关系,由于有观察或测量误差等原因,函数关系在实际中往往通过相关关系表现出来。 而在研究相关关系时,又常常要使用函数关系的形式来表现,以便找到相关关系的一般数量表现形式。,二、相关关系的种类,1、按影响因素的多少分 单相关(简单相关、一元相关) 复相关(多元相关),例:家庭收入水平和食品支出比重的相关关系。,例:商品购买力与居民货币收入、居民非商品 支出、手存现金、储蓄之间的关系,2、按相关的变动方向分 正相关(变量在数量变化的方

5、向上一致) 负相关(变量在数量变化的方向上相反),例:居民货币收入和购买商品支出之间属于正相关。,例:家庭收入水平与食品支出比重之间属负相关。,3、按相关的表现形态分 线性相关(直线相关) 非线性相关(曲线相关),注意:相关关系是一种数量上不严格的相互依存关系,如果这种关系近似地表现为一条直线则称为直线相关。如果这种关系近似地表现为一条曲线则称为曲线相关。,如抛物线、指数曲线、双曲线等,4、按相关的密切程度分,完全相关 无相关 不完全相关,当一个变量的值完全由另一个变量的值所决定,称为完全相关,即函数关系。,两个变量之间的关系,介于完全相关与无相关之间,称为不完全相关。,两个变量各自独立,互不

6、影响,称为无相关。,注意:现实的相关关系一般是以组合形态出现。,对社会经济现象间的依存关系进行分析研 究所采用的统计方法称为相关分析法。,运用相关分析法的目的就是从现象的复杂关系中消除非本质的偶然影响,从而找出现象间相互依存的形式和密切程度以及依存关系变动的规律性。,三、相关分析的主要内容,1、确定现象之间有无关系 2、确定相关关系的表现形式 3、确定相关关系的密切程度,第二节 相关关系的判断与测定,指根据经济理论、有关专业知识和实际经验,判断变量之间是否存在相关性;再通过相关表和相关图,对变量之间的相关关系类型作出大致判断。,计算相关系数,以精确反映相关关系的方向和程度。,如:定性分析后,发

7、现变量间基本是线性相关,第二节 相关关系的判断与测定,一、相关关系的判断,将具有相关关系的两个变量值按其中一个的大小顺序排列,另一个依其对应关系编排而成的统计表。,1、相关表,第二节 相关关系的判断与测定,一、相关关系的判断,1、相关表,2、相关图,也称为相关散点图或XY散点图。它是粗略观察现象之间相关程度和相关形态的一种有效工具。,Excel操作,第二节 相关关系的判断与测定,计算相关系数,以精确反映相关关系的方向和程度。,指根据经济理论、有关专业知识和实际经验,判断变量之间是否存在相关性;再通过相关表和相关图,对变量之间的相关关系类型作出大致判断。,如:定性分析后,发现变量间基本是线性相关

8、,二、相关关系的测定,两变量的协方差与两变量 各自标准差乘积之比。,相关系数:在线性相关的条件下,说明两个现象 之间相关密切程度和相关方向的统计分析指标。,皮氏积距相关系数,协方差:两个不同变量之间的方差,1、未分组资料的相关系数,2、分组资料的相关系数, 相关系数的基本计算公式,返回, 相关系数的简便计算公式,计算过程,对某地区10户居民家庭年收入(x,万元)与年支出(y,万元)进行调查,结果:n=10,x=48,y=28,x2=300,xy=170,y2=100。已知根据经济理论与散点图判断x与y之间存在线性相关。 要求:计算x与y的相关系数。,例题1:,相关系数取值及其意义,r 的取值范

9、围是 -1,1 |r|=1,为完全相关 r = 1,为完全正相关 r = -1,为完全负相关 r = 0,为无相关 -1r0,为负相关 0r1,为正相关,相关系数取值及其意义,|r|的范围在0- 0.3是弱相关, |r|的范围在0.3-0.5是低度相关, |r|的范围在0.5-0.8是显著相关, |r|的范围在0.8以上是高度相关。,|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切,相关系数取值及其意义,r 的取值范围是 -1,1 |r|=1,为完全相关 r = 1,为完全正相关 r = -1,为完全负相关 r = 0,为不相关 -1r0,为负相关 0r1,为正相关,|r|的范围在

10、0- 0.3是弱相关, |r|的范围在0.3-0.5是低度相关, |r|的范围在0.5-0.8是显著相关, |r|的范围在0.8以上是高度相关。,r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切,r,对某地区10户居民家庭年收入(x,万元)与年支出(y,万元)进行调查,结果:n=10,x=48,y=28,x2=300,xy=170,y2=100。已知根据经济理论与散点图判断x与y之间存在线性相关。 要求:计算x与y的相关系数。,例题1:,结论:该10户居民家庭年收入与年支出之间存在高度线性相关关系。,用excel计算简单线性相关系数,试计算10个企业生产线固定资产价值与工业增加值之间

11、的线性相关系数。,例题2:,方法一:公式法 方法二:函数法 CORREL( ) /PEARSON( ) 方法三:命令法 工具 -数据分析-相关系数,2、分组资料的相关系数,2、分组资料的相关系数,关于联合频数:,例1:设某公司有200名职工,他们的本企业工龄和时工资等级的资料经过分组编成下列联合频率分布表:,两个或多个事件一起发生的概率(频数),称为联合概率(频数)。,事件(X=2 ,Y=1)的频数为40 事件(X=2,Y=1)的概率P(X2,Y1)=0.2,二元联合概率分布表,第三节 线性回归分析,通过相关系数证实变量之间存在关系,但却不能说明变量之间具体的数量因果关系。 当自变量给出一个数

12、值时,因变量可能取值是多少,这是相关分析不能解决的。 如已知x、y之间存在线性关系,接下来必须探求它们之间关系的具体表现形式是什么? y=a+bx+e e:反映因各种偶然因素、观察误差以及被忽略的其他影响因素带来的随机误差。,直线中的截距a=? 斜率b=?,当变量之间存在着显著的相关关系时,利用一定的数学模型来确定变量之间关系,并用自变量的数值去推测因变量数值的统计分析方法,称为回归分析。该数学模型称为回归模型。,一、回归分析的概念,相关分析是回归分析的基础与前提 回归分析是相关分析的继续与深化,相关分析与回归分析的联系,当变量之间存在着显著的相关关系时,利用一定的数学模型来确定变量之间关系,

13、并用自变量的数值去推测因变量数值的统计分析方法,称为回归分析。该数学模型称为回归模型。,一、回归分析的概念,1、运用一元线性回归模型的特点(应注意的问题),两个变量不是对等关系。在两个变量之间,必须确定哪个是自变量,哪个是因变量,这可以根据现象之间的因果关系或研究目的而定。,因变量是随机变量,自变量是确定性的量,可以事先给定或控制。,二、一元线性回归,1、相关分析任务是确定两个变量之间相关方向与相关的密切程度;回归分析的任务是在相关分析的基础上,寻找两个变量之间相互依赖的一个数学表达式。 2、相关分析中不需要确定哪个自变量,哪个因变量;回归分析中必须确定哪个自变量,哪个因变量。 3、相关分析中

14、两个变量是对等的,相关系数只有一个;回归分析中互为因果关系的两个变量可以编制两个独立的回归方程。 4、相关分析中两个变量都可以是随机的,回归分析中,自变量是给定的值,因变量是随机的。,相关分析与回归分析的区别,相关分析是回归分析的基础与前提 回归分析是相关分析的继续与深化,相关分析与回归分析的联系,回归方程,描述 yi 的期望值如何依赖于 xi 的方程称为回归方程 一元线性回归方程的形式如下 = a+ b xi,方程的图示是一条直线,也称为直线回归方程 a 是回归直线在 Y 轴上的截距,是当 x=0 时 y 的期望值 b是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值

15、,返回,2、一元线性回归方程的确定,设y为实际值,yc为估计值,现在要用一条直线 拟合实际值,而且要满足,e为随机误差项。,X,Y,(Xn , Yn),(X1 , Y1),最小平方法(Least-square Method),最小平方法,其基本思想是因变量的估计值与观察值的离差平方和为最小,又称最小二乘法。,根据微积分中求极小值的原理,对参数a和b求偏导数必须等于零。,最小平方法 ( a 和 b 的计算公式), 根据最小二乘法的要求,可得求解 a 和b的公式如下,相关系数的计算,返回,例题3:,试用最小平方法拟合直线,并估计产品产量为10千吨时的 生产费用。,方法一:公式法 方法二:命令法(工

16、具 -数据分析-回归) 方法三:相关图法(添加趋势线),故直线方程为yc=51.31+12.9x,解:,Excel操作,1、建立回归方程: 2、根据表中计算得到:,3、当x=10时,得到:,yc=51.31+12.910= 180.31(万元),yc=a+bx,某厂商品销售量和商品价格如下表所示:,课堂练习,根据表中数据,建立商品销售量q和商品价格p之间的直线方程,并估计价格为20元时的商品销售量。,3、当p=20元时,得:,q20=50.51-2.0920=8.71(百件),1、建立回归方程:q=a+bp 2、将表中有关数据代入,得到:,解:,所以回归方程如下:qc=50.51-2.09p,

17、Excel操作,1、长期趋势线性方程的形式为,时间序列的趋势值 t 时间标号 a趋势线在Y 轴上的截距 b趋势线的斜率,表示时间 t 变动一个 单位时观察值的平均变动数量,三、回归方程在长期趋势测定中的应用,2、趋势方程中的两个未知常数 a 和 b 按最小平方法求得 根据回归分析中的最小平方法原理 使各实际观察值与趋势值的离差平方和为最小 3、根据趋势线(方程)计算出各个时期的趋势值,直线方程为:y=a+bt 由最小平方原理可得,最小平方法 ( a 和 b 的计算公式),若 则:,那么,怎样使得,年 编(序)号: 奇 偶 2000 -2 -5 2001 -1 -3 2002 0 -1 2003

18、 1 +1 2004 2 +3 2005 +5,合计,某游览点历年观光游客的数量如下表,用最小平方法建立直线方程,并预测2010年的游客数量,例题4:,则 Yc=85.44+13.64t y2010=85.44+13.6413=262.76万人,若 那么: 则Yc=140+13.64t y2010=140+13.649=262.76万人,设Y=a+bt,根据最小平方法得:,解:,估计标准误差,已知 yc=64-1.4x =45 =7.2 =10.5 试求: ,r, syx,课后作业八:Bp281-288,单项选择题 多项选择题 判断题 简答题 计算题1、4(上机作业) 计算题3(请写到作业本上

19、) Bp222 计算题6(请写到作业本上),附加知识:多元线性回归、曲线回归,项目作业成果交流评分标准,1、内容(50分)(完成程度、调查结构、分析深度;主题新颖、数据详尽) 2、演讲(20分)(思路清晰、表达清楚、研究有一定深度) 3、课件(20分)(多媒体、直观、形象、清晰) 4、团队(10分)(分工、合作),先作图表,然后添加趋势线。 用鼠标激活散点图,把鼠标放在任一数据点上,单击鼠标右键,打开菜单,在菜单栏里选择“添加趋势线”选项。,图1,图2,打开“类型”页面,选择“线性”选项,Excel将显示一条拟合数据点的直线。 打开“选项”页面如下图所示,在对话框下部选择“显示公式”和“显示R

20、平方根”选项,单击“确定”按钮,便得到回归图如下图所示。,Thank you very much!,返回本章首页,回归方程为,要估计参数a、b1 、 b2手工计算较繁,可以用EXCEL 数据分析功能完成。,多元线性回归,例:某地区玻璃销售量与汽车产量、建筑业产值资料如图,试建立回归模型。,Excel操作,例:某地区玻璃销售量与汽车产量、建筑业产值资料如图,试建立回归模型。,返回,故直线方程为: yc=19.16+35.68x1+ 10.86x2,操作过程 打开“多元回归.xls”工作簿,选择“玻璃”工作表。 在“工具”菜单中选择“数据分析”选项,打开“数据分析”对话框如下图所示。,在“分析工具

21、”列表中选择“回归”选项,单击 “确定”按钮,打开“回归”对话框如下图所示。,在Y值输入区域中输入B1:B19。 在X值输入区域中输入C1:D19。 选择“标志”,置信度选择95%。 在“输出选项”中选择“输出区域”,在其右边的位置输入“E1”,单击 “确定”按钮。输出结果如下图所示。,返回,Excel的回归分析工具计算简便,但内容丰富, 计算结果共分为三个模块: 回归统计表 方差分析表 回归参数, 回归分析工具的输出解释,回归统计表包括以下几部分内容: Multiple R(复相关系数R):R2的平方根,又称为相关系数,它用来衡量变量x和y之间相关程度的大小。 上节例中:R为0.9468,表

22、示二者之间的关系是 高度正相关。 R Square(复测定系数R2 ):用来说明用自变量解释因变量变差的程度,以测量同因变量y的拟合效果。 上节例中:复测定系数为0.9731,表明用自变量可解释因变量变差的97.31%。,. 回归统计表,Adjusted R Square (调整复测定系数R2):仅用于多元回归才有意义,它用于衡量加入独立变量后模型的拟合程度。当有新的独立变量加入后,即使这一变量同因变量之间不相关,未经修正的R2也要增大,修正的R2仅用于比较含有同一个因变量的各种模型。 标准误差:又称为标准回归误差或叫估计标准误差,它用来衡量拟合程度的大小,也用于计算与回归有关的其他统计量,此值越小,说明拟合程度越好。 观测值:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论