第12讲 统计应用4:回归分析new_第1页
第12讲 统计应用4:回归分析new_第2页
第12讲 统计应用4:回归分析new_第3页
第12讲 统计应用4:回归分析new_第4页
第12讲 统计应用4:回归分析new_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第12讲统计应用:回归分析,12.1变量间的相关性分析12.2多元回归分析及运用,12.1.变量的相关性分析,一、什么是随机变量间的相关性,1、函数关系与相关关系,变量之间的关系大体分为两类:,确定性关系或函数关系:研究的是确定现象和非随机变量间的关系。,统计依赖或相关关系:研究的是非确定现象和随机变量间的关系。,2、用散点图描述X、Y的相关关系,两随机变量相关关系的例子,子女的身高与其父母身高两者的关系从遗传学角度看,父母身高较高时,其子女的身高一般也比较高。但实际情况并不完全是这样,因为子女的身高并不完全是由父母身高一个因素所决定的,还有其他许多因素的影响。一个人的收入水平同他受教育程度二者的关系收入水平相同的人,他们受教育的程度也不可能不同,而受教育程度相同的人,他们的收入水平也往往不同。因为收入水平虽然与受教育程度有关系,但它并不是决定收入的惟一因素,还有职业、工作年限等诸多因素的影响。农作物的单位面积产量与降雨量之间的关系在一定条件下,降雨量越多,单位面积产量就越高。但产量并不是由降雨量一个因素决定的,还有施肥量、温度、管理水平等其他许多因素的影响。,3、方法1:用散点图描述两变量间相关关系,【例】为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据如下。绘制散点图描述销售收入与广告费用之间的关系.,散点图法:销售收入和广告费用的相关性,例:抽取一个10户居民的样本,其可支配收入(百元)与消费支出(百元)的统计资料按升序排列如下消费支出15203040425360657078可支配收入18254560627588929998,4、用相关系数r度量两变量的关系强度,计算过程见EXCEL演示。,两个样本:,两个总体:,课后作业:p391第1、2题,根据样本数据,求相关系数。,1、相关系数的值为1r1之间。2、当r0,两变量正相关;当r0两变量负相关。3、当|r|=1,两变量为完全线性相关,即函数关系。4、当r=0,两变量无“线性”相关关系,但可能有曲线关系。5、一般地,当|r|0.3为微弱线性相关;0.3|r|0.5为低度线性相关;0.5|r|0.8为显著线性相关;0.8|r|1为高度线性相关。,相关系数的一些结论,12.2回归分析原理及应用,奥克姆剃刀(OccamsRazor)的基本原理:最好的科学模型往往最简单,并且最有解释力。WilliamNavidi,一、什么是回归分析?,Y消费支出=f(X收入)被解释变量=f(解释变量),1、回归分析:探究变量间的因果联系,Y=-0.208+0.718X,从回归模型可知:居民每增加1元的可支配收入,将增加0.718元用于消费支出。因此,如果估计其中一位居民可支配收入提高到100元,则可预测其消费支出将上升到71.556元。,结论:回归分析的核心思想是用样本回归函数(不确定),最大程度地拟合总体回归函数(确定)。,2、回归分析的基本原理,总体中两变量的关系,样本中两变量的关系,什么是总体回归函数?,总体回归模型,总体回归函数,总体回归函数的参数是未知的,必须通过样本进行估计。,随机抽取一个样本,得到样本回归函数,解此方程组得:,3、样本回归模型的参数估计,4、回归模型参数的估计,例:抽取一个10户居民的样本,其收入(百元)与消费支出(百元)的统计资料如下,求回归函数:消费支出Y15203040425360657078可支配收入X18254560627588929998,二、一元回归模型的应用,例1、复习时间(x)与考试分数(y)之间的回归分析,一个样本,回归模型的含义:每增加1小时的复习时间,将多考1.497分。同时,即使不复习,也可考40.8分。,EXCEL操作流程:第1步:选择【工具】下拉菜单,并选择【数据分析】选项第2步:在分析工具中选择【回归】,选择【确定】第3步:当对话框出现时在【X值输入区域】设置框内键入X的数据区域在【置信度】选项中给出所需的数值在【输出选项】中选择输出区域在【残差】分析选项中选择所需的选项,EXCEL展示回归分析,回归模型的拟合优度如何?,模型的是否具有线性关系?,回归参数是否能接受?,残差的形态及判别,(a)满意模式,残差,x,0,【练习】研究销售收入(y)与广告费用支出(x)之间的关系。某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据如下。,散点图(观察相关性),求销售收入与广告费用的估计回归方程并解释回归系数的含义,SST=SSR+SSE,理论提升部分:,参数的方差和区间估计:,给定x的值,对y的区间估计和预测,1、多元回归的广泛应用某商业银行主要重点项目建设、固定资产投资等项目贷款。近年来该银行贷款额平稳增长的同时不良贷款也在增加。为弄清楚不良贷款形成的原因,需要进行多元回归分析。,三、多元线性回归分析,2、多元回归的基本形式和参数估计,同一元回归分析一样,多元回归分析就是要通过样本回归模型估计样本回归函数,并用样本回归函数“近似”代替总体回归函数。,总体,样本,核心多元线性回归模型的估计,其矩阵形式为:,其中,,注:设,样本回归模型的矩阵形式:,则:总体回归模型的矩阵形式:,3、多元回归模型和计算机,YY=-1.021639763+0.04003935273*X1+0.1480338913*X2+0.01452935276*X3-0.02919286579*X4,用EXCEL展示,不良贷款(y)多元回归模型的拟合程度,1、什么是虚拟自变量?,四、虚拟变量的回归分析,【例】为研究工资水平与工作年限和性别之间的关系,在某行业中随机抽取10名职工,所得数据如右表。,我们将引入回归模型的“分类变量”,称为虚拟自变量或哑变量。,没有引入虚拟变量的回归结果,引进虚拟变量时,回归方程可写:E(y)=0+1x1+2x2另:女(x2=0):则有:E(y|女性)=0+1x1男(x2=1):则有:E(y|男性)=(0+2)+1x10的含义表示:女性职工的期望月工资收入(0+2)的含义表示:男性职工的期望月工资收入1含义表示:工作年限每增加1年,男性或女性工资的平均增加值2含义表示:男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值(0+2)-0=2,2、引入虚拟自变量时的模型,请在脑海思考相关的几何图形。,INCOME=930.495356+387.6160991*YEARS+1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论