第八章相关与回归分析.doc_第1页
第八章相关与回归分析.doc_第2页
第八章相关与回归分析.doc_第3页
第八章相关与回归分析.doc_第4页
第八章相关与回归分析.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章相关与回归分析教学目的和要求:了解相关关系的种类及相关分析和回归分析的关系;掌握变量之间相关系数的计算和简单线性回归参数的估计和检验;掌握多元线性回归参数的估计和检验;了解非线性相关分析和回归分析教学重点:相关分析和回归分析的关系;相关系数的计算和简单线性回归参数的估计和检验;多元线性回归参数的估计和检验教学难点:线性回归的基本假设;对回归结果的说明和解释教学时数:6学时教学内容 第一节 相关与回归的基本概念一、变量间的相互关系许多现象之间具有一定的联系,可区分为不同类型1、函数关系:现象之间存在着严格的依存关系。当一个或若干个变量X取一定数值时,某一个变量Y有确定的值与之相对应。一般情况下,确定性的函数关系可表示为Y=f(X )如在社会科学领域,贷款利息贷款总额利率。2、相关关系(存在关系,但又不能完全确定的)反映现象之间确实存在的,而关系数值不固定的相互依存关系。作为根据变量叫自变量,一般用X代表,发生对应变化的变量叫因变量,一般用Y代表。一般可表示为Y=f(X,),其中为随机变量。例:受教育年限与收入水平(受性格、机遇、家景、社会关系影响)广告费与销售额、固定资产投资额与国民收入的关系、母亲身高与子女身高的关系居民收入与储蓄额学校学生人数与学校附近餐馆营业额关系二、相关关系的种类1、从相关关系涉及的变量数量看,可分为简单相关关系和多重相关。如身高和体重的关系为前者,如工资水平与工作年限、学历和职务等相关属于后者。2、从变量相关关系的表现形式看,可分为线性相关和非线性相关。3、从变量相关关系变化的方向看,可分为正相关和负相关 正相关 负相关4、从相关的程度看,有完全相关和不完全相关以及完全不相关。三、相关分析和回归分析相关分析:判断现象间的相关关系,一般先作定性分析,然后作定量分析。定性分析就是根据经济理论有关专业知识和实际工作经验进行科学研究。若确实有相关关系,则可编制相关关系和散点图,对现象之间存在的相关关系的方向、形式和密切程度作大致和判断。回归分析:回归的古典定义由英国生物学家高尔顿在遗传学研究中首先提出,他发现,无论是高个子或矮个子的子女都有向人类平均身高移动或回归的趋势。现代意义是一个因变量对若干解释变量依存关系的研究,其目的是用固定的自变量去估计因变量的平均值。相关分析的两个变量关系是对等的,不必区分哪个是自变量,哪个是因变量。而回归分析则不同,因变量是随机变量,自变量往往得非随机变量;相关分析研究变量间的相关方向、形式和程度。而回归分往往建立一个数学模型,并可用以估算和预测;相关分析往往是回归分析的前提。(注意:相关分析和回归分析必需与定性分析相结合,否则对本来没有内在联系的现象进行分析就可能是一种“伪相关”。) 第二节 简单线性相关与回归分析一、简单线性相关系数及检验1、简单线性相关系数1)相关系数的计算:相关系数是测定两变量间线性相关程度、方向的指标。对于总体,两个相互联系的变量的相关系数称为总体相关系数。通常用表示。分子部分为X和 Y的协方差。样本相关系数其中:例:x1 2 3 4 10y1 3 3 5 10解:xyx2y2xy123410133510149251001992510016920100合计2022130144由上表得知2022130144136n5则=0.9881若加上一点(10,1)则r=0.4597 可见需要注意一些异常值。相关系数有一个明显的缺点,就是它接近1的程度与数据组数n有关,当n2时,相关系数的绝对值总为1,当n比较小时,相关系数波动比较大。2)相关系数的性质(1)相关系数的取值范围r0表示正相关,r0表示负相关(2)相关系数r的绝对数值越接近于1,表示相关程度越强;越接近于0,表示相关关系越弱;相关系数r=0表示两变量间不存在线性相关关系,但可能两变量间存在非线性相关关系。(3)x和y互换,不改变相关关系。(4)我们分别或同时改变x、y的度量单位时,x和y之间的相关关系不会改变。(5)r也受少数异常观测值的严重影响。(6)0.8 高度相关 0.80.5显著相关 0.30.5低度相关0.3 无线性相关3)相关系数的检验对相关系数的检验可分为两类,一类是检验总体相关系数是否等于0,另一类是检验总体相关系数是否等于某个不等于0的特定数值。如果X和Y都服从正态分布,在总体相关系数=0的原假设下,与样本相关系数r有关的统计量t服从自由度为n-2的t分布,二、简单线性回归分析1、总体回归模型建立YX(1)线性模型、为回归参数,为回归常数,为回归系数,为误差项的随机变量,说明包含在Y里面但不能被X和Y之间的线性解释的变异性。此处具有下列特点:E()0N(0,2) 德国数学家高斯提出的则E(Y)X 简单线性回归方程,Y的平均值与X的关系是线性关系,即总体回归函数的条件期望表示方式2、估计回归模型建立总体回归函数事实上未知,需要用样本的信息对其进行估计。估计回归方程假设为:a+bx 为y的一个估计值ya+bx+e (2)用样本统计量a和b来进行总体回归模型中的未知参数和的估计,使Qmin,最小二乘法的性质(高斯马尔可夫定理):在基本假定满足的前提下,最小二乘估计是因变量的线性函数,最小二乘估计是无偏估计,即E(a)=和 E(b)=,在所有的线性无偏估计中,最小二乘估计的方差最小。因此,回归系数的最小二乘估计是最佳线性无偏估计。例:编号xyX2xy1121222346335915合计6101423解:由上表所得b1.5 ab10/31.56/30.33则0.331.5x 则 a可作为的估计值b可作为的估计值3、一元线性回归模型的检验回归模型的检验包含的内容很多,理论意义的检验(取值的区间和符号是否符合理论和实际);一级检验:统计学检验(拟合度评介和显著性检验)1)拟合度评价任何样本数据都可建立回归方程,如何使估计回归方程和样本数据更好的拟合?所谓拟合程度,是指样本观测值聚集在估计回归方程周围的紧密程度。判断回归模型拟合程度状况最常用的数量指标是可决系数(决定系数)。对于第i个观测值,因变量观测值yi与之差为第i个残差即ei,ei的平方和称为误差平方和,也叫残差平方和,记作SSE。SSE 用估计回归方程估计样本因变量而产生的误差SST 总离差平方和SSR 回归平方和SSTSSRSSE判定系数表示因变量变异性有能被自变量和因变量之间的线性关系所解释,越大,拟合程度好,反之,拟合程度差。2)显著性检验(1)t检验法(检验回归系数)简单线性回归方程YXH0 :0H1 :0(2)F检验法(检验回归模型)F检验也能对回归进行显著性检验,如果只有一个自变量,F值将得到与t检验法相同的结果;但如果超过一个自变量,则只有F检验才能对所有的参数进行显著性检验。检验统计量F F(1,n-2)简单线性回归方差分析表的一般形式:方差来源平方和自由度均方差F值回归方程误差总计SSRSSESST1n-2n-1MSAMSEF(3)对x和y之间的线性关系进行显著性检验,也可以利用样本相关系数r进行检验,用表示总体相关系数:H0 :0H1 :0采用t检验法,见相关分析。4、利用估计回归方程进行估计和预测预测值与真实值之间的误差称为预测的误差,用表示。1)点估计2)区间估计第三节 多元线性回归分析一、多元线性回归模型Y1X12X2pXpP代表自变量个数,1,2,p往往是未知,是总体回归参数,j表示在其他自变量保持不变的情况下,自变量Xj变动一个单位所引起的的因变量Y平均变动的数额,叫做偏回归系数。E()0N(0,2)二、估计回归模型的建立yab1X1b2X2bpXpe (样本回归模型)样本回归直线ab1X1b2X2bpXp 各变量间不存在较强的线性关系a,b1 ,b2,bp等用最小二乘法求解,求解原理为为mina,b1 ,b2,bp是,1,2,p等的估计值,a,b1 ,b2,bp公式涉及到矩阵知识,所以重点是解释多元线性回归的结果。在简单线性回归模型中,b代表当自变量改变一个单位时因变量平均变化量,但在多元回归分析中,bi代表当所有其自变量均保持不变时,自变量以xi改变一个单位y的平均变化量。例1:营业收入与电视广告投入及报刊广告费投入之间的关系。例2:销售量与本公司产品价格及竞争对手价格关系。例3:每个家庭的消费支出受许多因素影响,其中有家庭收入、家庭人口数和年龄结构、消费习惯有关。例4:营销地点(用销售收入反映)与人口密度、竞争者的数量、商店规模等有关。三、多元线性回归模型的检验在一元线性回归模型中,使用t检验和F检验的结果是相同的,但在多元线性回归情形中t检验和F检验的目的是不同的。F检验用于确定因变量所有自变量之间是否存在一种显著性的关系,F检验为总体的显著性检验。t检验用于确定每一个单独的自变量是否显著,模型中的每一个单独的自变量均进行t检验。1、拟合程度的评价用多元判定系数增加了自变量导致残差变小,因而也减少了误差平方和SSE。2、显著性检验(1)F检验法(对回归模型整体的检验) 式中:p为自变量个数若则拒绝原假设H0 :12p0H1 :,2,p不全等于03、例子分析一家产品销售公司在30个地区设有销售分公司。为研究产品销售量(y)与该公司的销售价格(x1)、各地区的年人均收入(x2)、广告费用(x3)之间的关系,搜集到30个地区的有关数据。利用Excel得到下面的回归结果():方差分析表变差来源dfSSMSFSignificance F回归4008924.78.88341E-13残差总计2913458586.7参数估计表Coefficients标准误差t StatP-valueIntercept7589.10252445.02133.10390.00457X Variable 1-117.886131.8974-3.69580.00103X Variable 280.610714.76765.45860.00001X Variable 30.50120.12593.98140.00049(1) 将方差分析表中的所缺数值补齐。(2) 写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,并解释各回归系数的意义。(3) 检验回归方程的线性关系是否显著?(4) 检验各回归系数是否显著?(5) 计算判定系数,并解释它的实际意义。(6) 计算估计标准误差,并解释它的实际意义。补充知识:人们可能有意或无意地以一种不正确的方式使用多元回归分析,如果自由度较小,判定系数就会被高估,从而使人们过分迷信回归模型的预测能力,为了防止这种盲目信任,研究人员应当全面考虑数据的特点、变量和调整后的判定系数。 多元回归的另一个误区是研究人员常常假定在因变量与自变量之间存在因果关系,仅仅由于自变量产生的显著的判定系数并不一定意味着这些变量就是导致y变动的原因。实际上,在所研究的数据范围内,自变量和因变量的变动可能都是由模型中没有包括的其他因素所导致的。有人利用回归系数的估计值来比较预测变量的价值,认为系数越大,变量的价值也越大,这种方法至少存在两个问题,第一,大多数变量的测量单位不同,因此,回归系数的权重在一定程度上是变量测量单位的函数。第二,如果变量之间存在多重共线性,则回归系数的解释就是不可靠的。利用回归分析的另一个危险是把模型外推到建模所用的数据范围以外的数据上,在给定的数据范围内建立的 回归模型可以较好地拟合数据,但是对超出这个数据范围的数据则不一定拟合得很好,回归分析的用途之一就是预测,用户一定要知道,过去发生的情况在将来不一定发生,在对未来的走势不清楚或完全无知的情况下,决策者可能会不经意或有时甚至是故意地利用回归模型对未来进行判断,此类信息的接收者应当保持谨慎,因为回归模型在建模所用的数据范围以外可能缺乏效度。从理论上说,可以尝试建立三次和更高次模型,一般来说,商务研究人员倾向于使用一次和二次回归模型,而不是高次模型。商务研究中使用的大多数回归分析是为了辅助决策,高次模型(三次、四次等)很难解释。也很难向决策者进行解释。指示变量:定性变量(定类变量和定序变量)出现在回归分析中,被称为指示变量或哑变量。大多数研究人员利用0或1对指示变量进行编码,许多指示变量是二分变量,对于这些变量,数值1被任意赋予某一类,而数值0则被赋予另一类,有些定性变量包括多个类别,例如工作类型,它可能包括装配工、油漆工和检验员等类型。这种情况下,可以分别以1、2和3对各种类型进行编码。但是这类编码对于多元回归而言是有问题的。对这类指示变量进行编码的正确方法还应使用0和1,应该是两个独立的自变量对三种工作类型进行编码,如是装配工,则赋值为1,如不是装配工,则赋值为0。如果是油漆工,则赋值为1,如不是油漆工,则赋值为0。无须为检验员创建一个变量,因为对于研究中所包括全部工人,如果其在装配工或油漆工变量中的取值都不是1,则必为检验员。因此,如果一个指示变量有c个类别,则必须创建c-1个哑变量,并将这些变量加入回归分析。出于自由度和解释的考虑,进行多元回归分析时,应当有足够的观察值,以便充分处理进入分析的自变量数目。有些研究人员提出一个经验法则,建议每个自变量至少要有三个观察值。补充材料:利用多元回归分析预测中国制造企业的出口强度商务研究人员赵洪新和邹少明(音译)的研究表明,关于外部变量或不可控变量对公司出口绩效的影响的研究很少。这两个研究人员对中国制造企业进行了一项研究,利用多元回归来判断国内集中度和公司位置是否可作为公司出口强度的良好的预测变量。该研究包括999家有出口业务的中国制造企业。因变量是“出口强度”,其定义是出口占总产出的比重。计算方法是用出口值除以总产出值。这一比重越高,则出口强度越大。他们利用协变量技术对如下事实加以控制,即被研究的公司随着公司规模、资本强度、创新能力以及所处行业不同而不同,自变量包括行业集中度和位置。行业集中度的计算结果是一个比率,数值越大表明行业的集中度越高,位置变量是一个综合指数,考虑了总货运量、运输方式、电话数和地理面积。多元回归模型得到的判定系数接近52%,行业集中度在=0.01的水平下具有统计显著性,其回归系数的符号表明行业集中度和出口强度之间存在反向变动的关系。这意味着集中度越高的行业出口强度越低,集中度越低的行业出口强度越高。研究人员认为在集中度高的行业中,控制着整个行业的少数企业将扼杀公司的企业竞争力,一个分散化的行业没有控制性公司,因此,行业的竞争更激烈,出口的倾向也越高,位置变量在=0.01的水平下也具有统计显著性,位于沿海地区的公司的出口强度高于位于内陆地区的公司。在商务决策中,建立回归模型时至少应考虑两个方面的问题。第一是建立一个能最大限度上解释因变量变化的回归模型,即在y值变异中,能够由所建立的模型解释的部分达到最大。同时,回归模型应当尽可能节约(简单而经济)。一个量化模型越复杂,则管理者在理解和执行这个模型时就会越困难。此外,随着模型中所包括的变量的增加,收集建模所用的历史数据或更新当前数据的成本也就越高。这两个方面的考虑常常是对立的。因此作为建模者,商务研究人员往往需要尝试多个可供选择的模型。例如果3个变量可以解释因变量的部分和5个变量所能解释的部分大体相当。则简单一点的模型就更有吸引力。搜寻程序:指对一个特定的数据库,建立多个而不是一个多元回归模型,然后按照给定的程序对模型进行比较,并按照不同准则进行排序的过程。几乎所有的搜寻程序都是借助计算机完成的。1、所有可能的回归:在此程序下,要根据数据,使用所有的变量,计算所有可能的多元回归模型。如果数据集包括k个自变量,则所有可能的回归将得到2k-1个不同的模型。此方法效率低而且工作量太大。2、逐步回归:最广为人知且最广为利用的搜寻程序可能是逐步回归。逐步回归是一个按步骤进行的过程,首先建立一个只有单个预测变量的回归模型,然后在每个步骤中每次增加或剔除一个预测变量,在每个步骤中检验模型的拟合效果,直到模型以外的预测变量都不显著为止。1)在逐步回归搜寻程序中,对k个自变量中的每个变量建立一个预测因变量的简单回归模型,每次检验一个自变量,哪个模型所包括的自变量的t值绝对值最大,就选中哪个模型。相应的自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论