相关分析与回归模型.ppt_第1页
相关分析与回归模型.ppt_第2页
相关分析与回归模型.ppt_第3页
相关分析与回归模型.ppt_第4页
相关分析与回归模型.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、相关分析和回归模型,第1节相关分析,第2节单变量回归分析,第3节多元线性回归分析,第4节可线性化曲线回归附录:用电子表格计算相关系数并进行回归分析,第1节相关分析,相关分析的主要目的是给出现象之间相关程度的数量度量,相关系数和等级相关系数是度量变量之间相关性的指标。首先,变量相关性的概念所有客观事物都是相互关联的,任何事物的变化都是相互关联的,并与周围的其他事物相互影响。客观现象之间的相互关系可以通过一定的数量关系来反映。现象之间有两种关系:函数关系和统计相关关系。函数关系是变量之间完全确定的关系,即一个变量的值完全由另一个变量(或一组变量)的值决定。例如,银行的一年期存款利率为2.25%,假

2、设存款本金为X,到期本金和利息为Y,那么X和Y在这里呈线性函数关系。微积分是一门研究函数关系的数学学科。图1线性函数图,统计相关性是变量之间不完全不确定性的关系。在实际问题中,许多变量之间的关系并不完全确定,例如,家庭消费和家庭收入之间的关系并不完全确定。收入水平相同的家庭往往消费金额不同;支出相同的家庭可能会有不同的收入。对现象之间相关性的研究被称为相关性分析。图2家庭收入和消费支出数据的散点图。其次,根据相关性涉及的变量数量,相关性可分为单相关性和多重相关性。两个变量之间的相关性称为单一相关性。多个变量之间的相关性称为复相关。根据相关性的不同形式,相关性可以分为线性相关性和非线性相关性。如

3、果变量之间的关系近似为一条直线,则称之为线性相关;如果变量之间的关系近似为曲线,则称之为非线性相关或曲线相关。图2中分散的点大致分布在一条直线的两侧,表明两个变量之间存在线性相关性;在图3中,散射点的分布大致为抛物线,这表明两个变量之间存在非线性相关性。图3非线性相关。根据变量的不同相关方向,相关关系可分为正相关和负相关。正相关意味着两个变量朝同一个方向变化,它们都在增加或减少。例如,随着居民收入的增加,居民消费增加,所以它们是正相关的;负相关意味着两个变量朝相反的方向变化。例如,随着产品单位成本的降低,利润增加,因此它们是负相关的。例如,例2给出了10个家庭的月收入和月消费支出的统计数据,它

4、们之间存在正相关趋势;例3给出了企业上半年产品产量和单位成本的统计数据,它们之间存在负相关趋势。根据相关性的程度,相关性可分为不相关、完全相关和不完全相关。如果两个变量的量的变化是相互独立的,这种关系称为不相关的;如果一个变量的数量变化完全由另一个变量的数量变化决定,这种关系称为完全相关;不相关和完全相关之间的关系称为不完全相关。图4是不相关的。图4中的分散点随机分布在一个区域中,表明两个变量之间没有相关性。(1)简单相关系数相关系数是对变量之间相关程度的一种度量,而对两个变量之间线性相关程度的度量称为简单相关系数。设n组观测值为,计算简单相关系数如果|r|=1,这意味着这两个变量完全线性相关

5、。R=0表示两个变量之间没有线性相关性,但两个变量之间可能存在非线性相关性。当变量之间的非线性相关性较大时,可能导致r=0。因此,当r=0或非常小时,应结合散点图进行合理解释。根据经验,关联度可分为以下几种情况:当|r|0.8时,认为是高度关联;0.5|r|0.8被视为中度相关;0.3|r|0.5被认为是低相关性;当|r|0.3时,两个变量之间的相关性非常弱,可以认为是不相关的。根据2019年部分护发产品在8个地区的销售情况,得到以下月平均销售收入y(万元)和月平均广告支出x(万元)的统计数据:表1 2019年部分护发产品在8个地区的销售统计数据,了解第一张散点图,从图中可以看出。这些点落在一

6、条直线上,表明月平均广告支出x与月平均销售收入y之间存在明显的线性关系,月平均广告支出x与月平均销售收入y之间的相关系数为=。计算结果表明,月平均广告支出与月平均销售收入之间存在高度正相关。根据下表中的数据,计算每月家庭消费支出与每月家庭收入之间的相关系数。表2 10户(100元)家庭月收入和月消费支出统计数据家庭户数123 45 67 89 10月收入9 13 15 17 18 20 22 23 26 30 10月消费支出6 8 9 10 11 13 14 13 15 20根据以上数据计算出家庭月消费支出与月收入的相关系数,表明家庭月消费支出与月收入之间存在高度正相关关系。企业上半年产品产量

7、和单位成本数据如下:表3企业上半年产品产量和单位成本统计1 2 3 4 5 6产量(万件)2 3 4 3 4 5单位成本(元/件)73 72 71 73 69 68解决方案根据上述数据,单位成本与产量的相关系数即为计算结果,表明单位成本与产量之间存在高度的负相关关系。股票价格指数是反映不同时期股票价格水平变化的指数,上海证券交易所指数和上海证券交易所30指数都是判断中国上海证券交易所股票市场状况的主要指标。下表显示了2019年前10个交易日上证综合指数和上证30指数的数据。表4显示了上海证券交易所2019年前10个交易日的统计数据。根据上述数据,上证综合指数与上证30指数的相关系数为0.931

8、。计算结果表明,上证综合指数与上证30指数之间存在高度的正相关关系。上证综合指数是根据在上海证券交易所上市的所有股票计算的,而上证30指数是根据从在上海证券交易所上市的所有a股中选出的30只代表性股票计算的。这30家上市公司的行业表现总体上相对稳定。由于历史的原因,以及中国股市的投机意识大于投资,上海证券交易所一般以上海证券交易所为代表,但它们之间有很强的相关性。下表显示了2019年7月1日中国31个主要城市的日最高和最低温度(单位:摄氏度):表5 2019年7月1日中国31个城市的温度统计数据。单位:根据以上数据,这些城市的日最高气温和日最低气温的相关系数为0.82,两者之间存在很强的正相关

9、关系。等级相关系数相关系数是衡量变量之间相关程度最常用的指标,但它主要衡量数值之间的相关程度。然而,在实践中,有些现象很难用数字来准确衡量,如智力和艺术水平。为了确定这些变量的相关程度,有必要计算等级相关系数。c如果和的等级分别用和表示,对应关系如下:(1)斯皮尔曼等级相关系数的计算公式为(3),即和的等级的算术平均值。如果没有重复观测值,斯皮尔曼秩相关系数的公式可以改为公式(4)中两组数据的秩差,即n是数据的个数。如果有重复观测,斯皮尔曼等级相关系数是两组数据等级的相关系数。在某个模特大赛中,甲、乙双方的两名专家分别对参赛的八名模特的表现进行了评价,评价等级如下:表6根据以上数据,斯皮尔曼的

10、等级相关系数为计算结果,表明甲、乙双方的两名专家对参赛的八名模特的表现评价等级基本相同。在例7中,根据例8.5中2019年7月1日中国31个主要城市的日最高气温和日最低气温(见表8.5),计算出日最高气温和日最低气温的等级相关系数。中国31个主要城市日最高气温和日最低气温的等级(即等级)见下表8.7:表7 2019年7月1日中国31个城市日最低气温和最高气温等级表。由于重复观测值,斯皮尔曼秩相关系数是两组数据等级的相关系数。根据相关系数的计算公式,其秩相关系数为0.793。在第二节中,单变量回归分析是一种统计分析方法,它根据统计数据寻找一个变量到另一个变量的合适的数学表达式经验方程,从而近似表

11、达变量之间的平均变化关系。本节系统地介绍了线性回归模型。单变量线性回归是描述两个变量之间相关性的最简单的回归模型。掌握了一维线性回归模型的建模思想和方法,就容易掌握和理解其他复杂的回归模型。一、一元线性回归模型一元线性回归模型是(5)。通常,我们称Y为解释变量(因变量),称X为解释变量(自变量)。其中和是一个未知参数,称为回归系数。u是一个不可观测的随机变量,它表示x和y之间关系中不确定因素的影响,也称为随机误差。通常假设n组样本的观测值为(6),其中随机误差满足:并且相互独立。回归分析的主要任务是通过N组样本的观测值来估计和。设和为和的估计值,(7)称为经验回归方程或样本回归方程;是的回归值

12、或拟合值,它是经验回归方程的斜率。在实际应用中,它表示当X增加一个单位时,Y的平均变化单位;是经验回归方程的截距。是残余的。2.回归参数的估计我们用最小二乘法求参数和的估计值之和,所以残差平方和应该最小。利用微积分中求极值的方法,我们得到了正态方程:正态方程的解是,例8.9根据例8.2中给出的10个家庭的月收入和月消费支出的统计数据(见表8.2),我们试图建立一个家庭月消费支出与月收入的线性回归方程。因此,家庭月消费支出y与家庭月收入x的线性回归方程是一个回归系数,表明家庭月收入每增加100元,平均消费支出增加62.85元。回归效果评价(1)方差平方和分解数据的变化可用方差平方和表示。数据的总

13、变化称为总偏差的平方和,记录为海温。它由两部分组成:回归方程解释的部分称为回归平方和,记录为SSR;回归方程不能解释的部分称为残差平方和,表示为SSE。他们的计算公式是,他们的关系是(11)。(2)样本决定系数由显著性可知我们将回归平方和与总偏差平方和之比定义为样本决定系数,即(12)样本决定系数可以作为回归值与实际观测值之间拟合程度的度量。越接近1,拟合度越好。特别是当y和x线性相关时,样本决定系数等于样本相关系数的平方,即(3)回归效应的显著性检验。测试中使用的统计数据是(13)统计数据。对于给定的显著性水平,如果,回归效应是显著的;如果是这样,回归效应并不显著。其中是F分布的水平上分位数

14、,有自由度。实施例10检验了实施例8中某一护发产品的月平均销售收入y对月平均广告支出x的回归效应;测试例9中每月家庭消费支出Y对每月家庭收入X的回归效果。根据例8.8中的数据,SST=338.875 SSR=314.532 SSE=24.343,所以样本决定系数是因为它表明了该护发产品的月平均销售收入对月平均广告支出的回归效应非常显著。计算统计量的值,查一下F分布表,发现因为统计量F=77.5250远远大于13.75,这个检验也表明y对x的回归效果非常显著。根据实例8.9的数据,SST=144.9,SSR=139.0903,SSE=5.8097,因此样本决定系数是应得的,这表明月家庭消费支出Y对月家庭收入X的回归效应非常显著。计算f统计量:的值,检查f分布表,发现由于统计量f远大于11.26,f检验也表明y对x的回归效应非常显著。回归方程的应用建立回归模型的目的是应用,而预测是回归模型最重要的应用。回归预测包括点预测和区间预测。回归点预测回归点预测是指对于给定的变量值,回归值被用作变量Y的预测值.(2)回归区间预测对于给定的变量值,变量y的置信区间为(14),其中(15)是自由

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论