




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
相关分析和回归模型,第一节相关分析第二节一元回归分析第三节多元线性回归分析第四节可线性化的曲线回归附录:用Excel计算相关系数和进行回归分析,第一节相关分析,相关分析的主要目的是对现象之间的相关关系的密切程度给出一个数的度量,相关系数和等级相关系数就是测定变量间相关关系的指标。,2,PPT学习交流,一、变量相关的概念一切客观事物都是相互联系的,而且任一事物的变化都与其周围的其他事物相互联系和相互影响。客观现象之间的相互联系,可以通过一定的数量关系反映出来。现象之间的关系形态有两种类型:函数关系和统计相关关系。函数关系是变量之间的一种完全确定的关系,即一个变量的数值完全由另一个(或一组)变量的数值所确定。例如,银行的1年期存款利率为2.25%,设存入本金为x,到期的本息为y,则这里x与y表现为一种线性函数关系。微积分学是研究函数关系的数学学科。,3,PPT学习交流,图1线性函数的图形,4,PPT学习交流,统计相关关系是变量之间存在的不完全确定性的关系。在实际问题中,许多变量之间的关系并不是完全确定性的,例如居民家庭消费与居民家庭收入这两个变量的关系就不是完全确定的。收入水平相同的家庭,它们的消费额往往不同;消费额相同的家庭,它们的收入也可能不同。对现象之间相关关系密切程度的研究,称为相关分析。图2居民家庭收入与消费支出的数据作出的散点图,5,PPT学习交流,二、相关关系的种类根据相关所涉及变量的多少,相关关系分为单相关与复相关。两个变量之间的相关关系称为单相关;多个变量之间的相关关系称为复相关。根据相关的形式不同,相关关系分为线性相关与非线性相关。如果变量之间的关系近似地表现为一条直线,则称为线性相关;如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关。图2中的散点大致分布在一条直线两侧,表明两个变量之间是线性相关;图3中散点的分布大致呈抛物线形状,表明两个变量之间是非线性相关。,6,PPT学习交流,图3非线性相关,7,PPT学习交流,根据变量相关方向的不同,相关关系分为正相关与负相关。正相关是指两个变量之间的变化方向一致,都是增长或下降趋势,如居民收入增加,居民消费额随之增加,故它们是正相关;负相关是指两个变量变化趋势方向相反,如产品单位成本降低,利润随之增加,故它们是负相关。例如,在例2中给出了10个家庭的月收入和月消费支出的统计数据,它们之间呈正相关趋势;在例3中给出了某企业上半年产品产量和单位成本的统计数据,它们之间呈负相关趋势。根据相关程度的不同,相关关系分为不相关、完全相关和不完全相关。如果两个变量彼此的数量变化相互独立,这种关系称为不相关;如果一个变量的数量变化完全由另一个变量的数量变化所唯一确定,这种关系称为完全相关;介于不相关与完全相关之间的关系,称为不完全相关。,8,PPT学习交流,图4不相关图4中的散点杂乱无章地分布在一个区域中,表明两个变量之间不相关。,9,PPT学习交流,三、相关关系的测度(一)简单相关系数相关系数是对变量之间相关关系密切程度的度量,对两个变量之间线性相关程度的度量称为简单相关系数。设是的n组观测值,简单相关系数的计算公式为(1),10,PPT学习交流,(1)式可简化为(1),11,PPT学习交流,(二)相关系数的意义相关系数的取值范围是在-1和+1之间,即-1r1。r0为正相关,r0为负相关。如果|r|=1,则表明两个变量是完全线性相关;r=0,则表明两个变量完全不线性相关,但两个变量之间有可能存在非线性相关。当变量之间非线性相关程度较大时,就可能导致r=0,因此,当r=0时或很小时,应结合散点图作出合理的解释。根据经验将相关程度划分为以下几种情况:当|r|0.8时,视为高度相关;0.5|r|0.8时,视为中度相关;0.3|r|0.5时,视为低度相关;|r|0.3时,说明两个变量之间相关程度极弱,可视为不相关。,12,PPT学习交流,例1根据某种护发产品2019年在8个地区的销售情况,得到月平均销售收入y(万元)与月平均广告支出x(万元)的如下统计资料:表1某种护发产品2019年在8个地区销售的统计资料,13,PPT学习交流,解首先做出的散点图,从图上我们看到。这些点大致分别落在一条直线附近,说明月平均广告支出x与月平均销售收入y之间具有明显的线性关系。月平均广告支出x与月平均销售收入y的相关系数为=计算结果表明月平均广告支出与月平均销售收入之间存在高度正相关关系。,14,PPT学习交流,例2根据下表的资料,计算家庭月消费支出与家庭月收入之间的相关系数。表210个家庭月收入与月消费支出统计资料(百元)家庭编号12345678910月收入9131517182022232630月消费支出68910111314131520解根据上述资料,家庭月消费支出与家庭月收入之间的相关系数为计算结果表明家庭月消费支出与家庭月收入之间存在高度正相关关系。,15,PPT学习交流,16,PPT学习交流,例3某企业上半年产品产量与单位成本资料如下:表3某企业上半年产品产量与单位成本统计资料月份123456产量(万件)234345单位成本(元/件)737271736968解根据上述资料,单位成本与产量之间的相关系数为计算结果表明单位成本与产量之间存在高度负相关关系。,17,PPT学习交流,18,PPT学习交流,例4股票价格指数是反映各个时期股价水平变动情况的指数,上证指数和上证30指数都是判断我国上海证券交易所股市行情的主要指标。下表是2019年前10个交易周的上证指数和上证30指数的资料:表4上海证券交易所2019年前10个交易周的统计资料,19,PPT学习交流,解根据上述资料,得到上证指数和上证30指数之间的相关系数为0.931,计算结果说明上证指数和上证30指数存在高度的正相关。上证指数是根据上海证券交易所上市的所有股票计算的,上证30指数是从上海证券交易所上市的所有A股股票中选取的具有代表性的30家股票为样本计算的,这30家上市公司在其行业中一般具有相对稳定的业绩。由于历史原因,以及我国股市中投机意识大于投资,一般用上证指数来代表上海证券交易所股市行情,但二者之间具有很强的相关关系。,20,PPT学习交流,例5下表是2019年7月1日我国31个主要城市的日最高气温与最低气温(单位:摄氏度):表52019年7月1日我国31个城市气温的统计资料.单位:,21,PPT学习交流,解根据上述资料,得到这些城市日最高气温与最低气温之间的相关系数为0.82,二者之间具有较强的正相关关系。,22,PPT学习交流,四、等级相关系数相关系数是测定变量之间相关程度的最常用指标,但它主要是测定数值之间的相关程度。但在实际中,有些现象是难以用数字确切计量的,如才智高低、艺术水平等,要测定这些变量的相关程度,就需要计算等级相关系数。常用的等级相关系数称为斯皮尔曼等级相关系数。设是的n组观测值,将全部观测值按递增顺序排成一列,在排列中的顺序号为,称做的等级。当若干个观测值相等时,则以各观测值顺序号的平均值作为这些观测值的等级。若以和分别表示和的等级,则有如下的对应关系:,23,PPT学习交流,斯皮尔曼等级相关系数的计算公式为(3)式中,分别为和等级的算数平均数。若没有重复观测值时,斯皮尔曼等级相关系数的公式可变为(4)式中表示两组数据的等级之差,即,n为数据的个数。若有重复观测值时,斯皮尔曼等级相关系数就是两组数据等级的相关系数。,24,PPT学习交流,例6在某次模特比赛中,甲乙两名专家分别对参赛的8名模特的表演进行评定,评定等级如下:表6解根据上述资料,斯皮尔曼等级相关系数为计算结果表明甲乙两名专家对参赛的8名模特的表演评定等级基本一致。,25,PPT学习交流,26,PPT学习交流,例7根据例8.5中2019年7月1日我国31个主要城市的日最高气温与最低气温(见表8.5),计算日最高气温与最低气温的等级相关系数。解我国31个主要城市的日最高气温与最低气温的排秩(即等级)如下表8.7所示:表72019年7月1日我国31个城市最低、最高气温排秩表,27,PPT学习交流,因有重复观测值时,故斯皮尔曼等级相关系数就是两组数据等级的相关系数,根据相关系数的计算公式,其等级相关系数为0.793。,28,PPT学习交流,第二节一元回归分析,一元回归分析是根据统计资料,寻求一个变量对另一个变量的恰当数学表达式经验方程,来近似地表示变量间的平均变化关系的一种统计分析方法。本节系统介绍一元线性回归模型。一元线性回归是描述两个变量之间相关关系的最简单的回归模型。掌握了一元线性回归模型的建模思路与方法,就容易掌握和理解其他较复杂的回归模型。一、一元线性回归模型一元线性回归模型为(5),29,PPT学习交流,一般我们称y为被解释变量(因变量),称x为解释变量(自变量)。式中和是未知参数,称为回归系数。u是不可观测的随机变量,表示x和y关系中的不确定因素的影响,也称为随机误差。通常假定对n组样本观测值则(6)其中,随机误差满足:且相互独立。回归分析的主要任务就是通过n组样本观测值,对和进行估计。设和分别为和的估计值,(7)则称为经验回归方程或样本回归方程;为的回归值或拟合值,30,PPT学习交流,为经验回归方程的斜率,在实际应用中表示x每增加一个单位时,y平均变动的单位;为经验回归方程的截距。为残差。二、回归参数的估计我们用最小二乘法求参数和的估计值和,为此应使残差平方和取最小值。利用微积分中求极值的方法,得到正规方程组:,31,PPT学习交流,正规方程组正规方程组的解为,32,PPT学习交流,例8.9根据例8.2给出的10个家庭月收入与月消费支出的统计资料(见表8.2),试建立家庭月消费支出对家庭月收入的线性回归方程。解由于,33,PPT学习交流,因此家庭月消费支出y对家庭月收入x的线性回归方程为回归系数,说明家庭月收入每增加100元,消费支出平均增加62.85元。,34,PPT学习交流,三、回归效果的评价(一)离差平方和的分解数据的变动情况,可以用离差平方和表示。数据总的变动称为总离差平方和,记为SST,它由两部分构成:被回归方程解释的部分,称为回归平方和,记为SSR;未被回归方程解释的部分,称为残差平方和,记为SSE。它们的计算公式为它们的相互关系为(11),35,PPT学习交流,(二)样本决定系数由回归平方和与残差平方和的意义知道,在总的离差平方和中回归平方和所占比重越大,则线性回归效果就越好;如果残差平方和所占比重越大,则线性回归效果越差。我们把回归平方和与总的离差平方和之比定义为样本决定系数,即(12)样本决定系数可以做回归值与实际观测值拟合程度的度量。越接近1,说明二者的拟合程度越好。特别地,当y与x为线性相关关系时,样本决定系数等于样本相关系数的平方,即,36,PPT学习交流,(三)回归效果的显著性检验如果假设,则可以用F检验来评价回归效果。检验使用的统计量为(13)统计量,对于给定的显著性平,若,则认为回归效果显著;若,则认为回归效果不显著。其中是自由度为的F分布的水平上侧分位数。,37,PPT学习交流,例10检验例8中某种护发产品月平均销售收入y对月平均广告支出x的回归效果;检验例9中家庭月消费支出y对家庭月收入x的回归效果。解根据例8.8数据,有SST=338.875SSR=314.532SSE=24.343所以样本决定系数为由于说明该种护发产品月平均销售收入对月平均广告支出的回归效果非常显著。,38,PPT学习交流,计算统计量的值,查F分布表,得,由于统计量F=77.5250远远大于13.75,故检验同样说明y对x的回归效果非常显著。根据例8.9数据,有SST=144.9SSR=139.0903SSE=5.8097所以样本决定系数为由于,说明家庭月消费支出y对家庭月收入x的回归效果非常显著。,39,PPT学习交流,计算F统计量的值:查F分布表,得,由于统计量F远远大于11.26,故F检验同样说明y对x的回归效果非常显著。,40,PPT学习交流,四、回归方程的应用建立回归模型的目的是为了应用,预测是回归模型最重要应用。回归预测包括点预测和区间预测。(一)回归点预测回归点预测是指,对于给定的变量的值,用回归值做为变量y的预测值。(二)回归区间预测对于给定的变量的值,变量y的置信度为的预测区间为(14),41,PPT学习交流,其中(15)是自由度为n-2的t分布水平的双侧分位数。称(14)式表示的区间为回归预
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南京创新周活动策划方案(3篇)
- 光纤广播施工方案(3篇)
- 路基验槽施工方案(3篇)
- 江苏eps墙体施工方案(3篇)
- 英语口译考试题库及答案
- 北京市门头沟区2023-2024学年八年级下学期期末考试道德与法制考题及答案
- 北京市门头沟区2023-2024学年八年级上学期期末考试地理试题及答案
- 辛亥革命历史题目及答案
- 家有小白800字7篇
- 有关我喜欢的的动物作文高一的(9篇)
- (3.1)-第6讲理解列车进路和调车进路
- SB/T 10967-2013红辣椒干流通规范
- 固体废物污染环境防治法课件
- 2022年高校教师资格证(高等教育学)考试题库评估300题有解析答案(四川省专用)
- 精装修安全文明施工方案
- 肺结核共45张课件
- 心律失常介入治疗培训课件
- GB-T-13663-2000-给水用聚乙烯(PE)管材
- “基础教育精品课”PPT课件模板
- 家庭装饰装修工程施工合同范本(兰州)
- 中药材储存仓库技术规范
评论
0/150
提交评论