相关分析与回归分析.doc_第1页
相关分析与回归分析.doc_第2页
相关分析与回归分析.doc_第3页
相关分析与回归分析.doc_第4页
相关分析与回归分析.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章 相关分析与回归分析【学习目标】通过本章的教学十学生了解相关分析的含义、相关分析的种类及相关分析的意义与内容;掌握利用相关表和相关图来测定现象之间是否存在直线相关关系以及相关关系的密切程度;学会通过计算相关系数来测定现象间是否存在线性相关关系以及相关关系的密切程度;了解回归分析的意义和种类;学会利用最小平方法给两变量间密切的线性关系配合合适的直线方程式并通过计算估计标准误来反映估计值的代表性大小。【教学重点和难点】 重点:相关系数的计算与运用;一元线性回归方程式的求解 难点:相关系数的计算与估计标准误的计算【案例导入】某企业19972004产品产量与生产费用明细 讨论:产品产量与生产费用的关系,有何联系?第一节 相关分析一、相关的含义与种类(一)相关的含义相关是指自然与社会现象等客观现象数量关系的一种表现。客观现象之间的数量关系表现为两大类型:函数关系与相关关系1. 函数关系函数关系反映着现象之间存在着严格的依存关系,在这种关系中,对于某一变量的一个数值,都有另一变量的确定的值与之对立, 如:圆的面积S与半径r是函数关系,r值发生变化,则有确定的s值与之对应。2. 相关关系相关关系是指现象之间确实存在的一定的联系,但数量关系表现为不严格相互依存关系。即对一个变量或几个变量定一定值时,另一变量值表现为在一定范围内随机波动,具有非确定性。如:产品销售收入与广告费用之间的关系。(二)相关的种类1. 根据自变量的多少划分,可分为单相关和复相关(1)单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量。(2)复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量。2. 根据相关关系的方向划分,可分为正相关和负相关(1)正相关:指两个变量之间的变化方向一致,都是呈增长或下降的趋势。即自变量x的值增加(或减少),因变量y的值也相应地增加(或减少),这样的关系就是正相关。(2)负相关:指两个因素或变量之间变化方向相反,即自变量的数值增大(或减小),因变量随之减小(或增大)。3. 根据变量间相互关系的表现形式划分,线性相关和非线性相关(1)线性相关:当相关关系的自变量x发生变动,因变量y值随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关通称为线性相关。(2)非线性相关:在两个相关现象中,自变量x值发生变动,因变量y也随之发生变动,这种变动不是均等的,在图像上的分布是各种不同的曲线形式,这种相关关系称为非线性相关。曲线相关在相关图上的分布,表现为抛物线、双曲线、指数曲线等非直线形式。 4.根据相关关系的程度划分,可分为不相关、完全相关和不完全相关(1)不相关:如果变量间彼此的数量变化互相独立,则其关系为不相关。自变量x变动时,因变量y的数值不随之相应变动。(2)完全相关:如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的关系称为完全相关。即因变量y的数值完全随自变量x的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数关系是相关关系的一种特殊情况。(3)不完全相关:如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。大多数相关关系属于不完全相关,是统计研究的主要对象。二、相关分析的意义与内容(一)相关分析的意义相关分析是研究变量之间关系的紧密程度,并用相关系数或指数来表示。其目的是揭示现象之间是否存在相关关系,确定相关关系的表现形式以及确定现象变量间相关关系的密切程度和方向。(二)相关分析的内容1. 明确客观事物之间是否存在相关关系2. 确定相关关系的性质、方向与密切程度三、直线相关的测定(一)相关表与相关图1. 相关表在定性判断的基础上,把具有相关关系的两个量的具体数值按照一定顺序平行排列在一张表上,以观察它们之间的相互关系,这种表就称为相关表。2. 相关图把相关表上一一对应的具体数值在直角坐标系中用点标出来而形成的散点图则称为相关图。利用相关图和相关表,可以更直观、更形象地表现变量之间的相互关系。(二)相关系数1. 相关系数的含义与计算相关系数是直线相关条件下说明两个变量之间相关关系密切程度的统计分析指标。相关系数的理论公式为: (1) 协方差 x的标准差 y的标准差 (2) 协方差对相关系数的影响,决定:简化式 变形:分子分母同时除以得 = = = =【案例91】根据某部门8个企业产品销售额和销售利润的资料如下: 计算结果: 单位(元)=189127 =2969700 =4290 =12189.11 =260.1试求:产品销售额与利润额的相关关系。解: = 0.9934存在高度正相关。2. 相关系数的性质 (1)取值范围:1 -11 (2)=1 =1 表明x与y之间存在着确定的函数关系。 (3)0 表明两变量成正相关。 0 成负相关 =0 不相关 (4)1 存在着一定的线性相关;绝对值越大,相关程度越高。 0.3 微弱相关, 0.30.5 低度相关,0.50.8 显著相关, 0.81 高度相关。3. 相关系数运用的几点说明(1)计算相关系数时,两个变量哪个作为自变量,哪个作为因变量,对于相关系数的值大小没有影响。(2)相关系数指标只能用于直线相关程度的判断,当其数值很小甚至为0时只能说明变量之间直线相关程度很弱或者不存在直线相关关系,但不能就此判断变量之间不存在相关关系。(3)对于相关系数的绝对值大与0.8时,变量之间存在高度线性相关关系,通常还需要进行相关系数的显著检验。第二节 回归分析一、回归分析的意义(一)回归分析的含义对具有相关关系的两个或两个以上变量之间的数量变化的一般关系进行测定,确立一个相应的数学方程式,描述变量变动的相互关系,以便从一个已知量来推测另一个未知量,为估计预测值提供一个重要的方法。根据回归分析建立的数学方程称为回归方程(一元,多元,)相关分析是回归分析的基础,而回归分析则是认识变量之间相关程度的具体形式。(二)回归分析的种类1. 按照自变量的个数:一元回归与多元回归一元回归:一个自变量,又称简单回归。多元回归:两个或两个以上自变量,又称复回归。2. 按照回归的表现形式:线性回归与非线性回归线性回归:回归方程的因变量是自变量的一次函数形式,回归线在坐标图上表现为一条直线。非线性回归:回归方程的因变量是自变量的二次或二次以上函数形式,回归线在坐标图上表现为曲线形状,称为非线性回归或曲线回归。研究一个因变量与一个自变量之间的线性关系,称为一元线性回归或简单线性回归;研究一个因变量与多个自变量之间的线性关系,称为多元线性回归。(三)一元线性回归的特点1. 回归分析是研究两变量之间的因果关系,所以必须通过定性分析来确定哪个是自变量,哪个是因变量;相关分析则是两变量之间的关系,没有自变量和因变量之分。2. 回归方程在进行预测估计时,只能给出自变量的数值求因变量的可能值。即只能由x推出y的估计值,而不能据逆推x。3. 线性回归方程中自变量的系数称为回归系数,回归系数为正,说明变量正相关,为负说明负相关4. 回归分析对于因果关系不甚明确,或可以互为自变量的两个变量,可以求出y依据的回归方程,还可求出依据y的回归方程;而相关分析中两个变量的相关程度指标,相关系数是唯一的。 二、一元线性回归方程(一)回归方程 一元线性回归方程是用来近似描述两个具有密切相关关系的变量之间变动关系的数学方程式。该方程在平面坐标系中表现为一条直线,回归分析中称为回归直线,即;表示y的估计值,借以区别y的实际观察值;a表示直线的起点值,即纵轴截距;b表示斜率,即回归系数。对于不完全线性相关的两个变量所有散点,要配合一条直线,数学证明,利用最小平方法配合的直线是最合理的直线回归方程表达式。基本原理:所配合的直线模型可以使实际值y与理论值(估计值)离差的代数和等于0,使离差平方和最小,图形上看就是所有的散点都比较均匀的分布在这条直线周边,这条直线使各个散点但该直线的距离比任何其他直线与散点的距离都要小。根据已知的实际观察值x、y利用最小平方法求参数a、b,具体公式为:=表示当自变量数值为0时,因变量的取值。又称回归系数。表示当x每变动一个单位,因变量平均来说变动多少。表示增加平均数,表示减少平均数。【案例92】根据某企业产品销售额(万元)和销售利润率(%)资料计算出如下数据:n=7 =1890 =31.1 =535500 =174.15 =9318要求:(1)确定以利润率为因变量的直线回归方程。 (2)解释式中回归系数的经济含义。 (3)当销售额为500万元时,利润率为多少?解:(1)销售额为自变量,利润率为因变量,则设y依据的直线方程为 =a+b =0.0365 = 5.41 则利润率倚销售额的回归方程为:= 5.41+0.0365 (2)回归系数b的经济含义:当销售额每增加一万元,销售利润率增加0.0365% (3)计算预测值,将已知x=500代入回归方程,则5.41+0.0365500=12.84即当x=500万元时,利润率为12.84%(二) (回归系数)与(相关系数) = 运用数学等量关系式,故有 1. 因为均是正值,所以的符号是一致的,所以我们可以通过回归系数来确定的符号,从而来判断相关的方向。2.的大小成正比例,所以还可以利用来说明相关程度。三、估计标准误与区间估计(一)估计标准误 估计标准误就是实际值与估计值之间的偏差平均程度,用来说明回归方程代表性或推算结果的准确程度的分析指标计算公式如下: 是估计标准误,计算结果若值越小,说明各个散点离回归直线越近,实际值与估计值的偏差越小,回归直线的代表性越高,估计越准确可靠;计算结果若值越大,说明各个散点离回归直线越远,实际值与估计值的偏差越大,回归直线的代表性越低,估计准确性越差。(二)区间估计 根据变量之间的线性关系,建立直线回归方程的目的,在于给定自变量的值来估计因变量的可能值,该估计值是理论值,与实际值之间存在差异,差异的一般水平用估计标准误来表示,因此可以对因变量的取值范围作区间估计,而不是只给一个估计值。实际值通常以估计值为中心,上下在一定的区间范围内波动,在平面坐标图上各个散点总是围绕回归趋势直线上下在一定区间分布,如果成正态分布或近似正态分布,可以用正态分布的性质对实际值的分布范围(区间)进行可靠性估计。实际值分布区间的大小取决于估计标准误与估计标准误倍数t(概率度)的大小。即实际值y落在回归线为中心,两条平行于回归线的直线+t与+t之间(统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论