相关分析与回归分析-教案.ppt_第1页
相关分析与回归分析-教案.ppt_第2页
相关分析与回归分析-教案.ppt_第3页
相关分析与回归分析-教案.ppt_第4页
相关分析与回归分析-教案.ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相关分析与回归分析,经济与管理学院,2016 - 2017 学年 雷海东,第10讲,correlation and regression,章节提纲:,1.相关分析概论 2.相关关系的测定 3.一元线性回归分析 4.多元线性回归分析,学习目标 1、了解相关关系的概念及种类、相关分析的概念和内容 2、重点掌握简单相关系数的计算方法 3、掌握回归分析的概念及建立线性回归方程的方法 4、掌握相关参数的统计检验,能对统计软件回归计算的结,第一、二节 相关分析概述 相关关系测定,变量间关系,血压 年龄 动物死亡率 毒物剂量 体重身高 肺活量体重 相关: 血压和年龄关联的程度如何? 动物死亡率与毒物剂量关联的程度如何? 回归: 人群中,平均而言, 血压 如何随年龄变化? 毒性实验中, 动物死亡率如何随剂量变化?,两个随机变量之间的关系,回归:如何 - 即定量的联系,从一个变量来预测另外一个变量。 给定剂量,动物的死亡率,能不能做出预测。,都是描述两个随机变量之间的关系。,回归回答如何,散点图,Fig. 7.1 收缩压和舒张压 (mmHg) (665 名 6 至 10 岁女孩),收缩压,舒张压,他两的关系都是此长彼长。所以总体趋势看得出是向前的。但是给定了一个舒张压,但是收缩压可以是高也可以是低。,指数函数,对数函数,正弦函数,Y 和 X之间的函数关系,对应于给定的 X值, 相应的Y 值是确定的.,但现在给定一个X值,Y可能是不确定的。(是上页),分散,集中,x不论怎么变,Y都是在一个范围走动,那么X和Y没有什么相关性。,烧饼,给定一个X,就是一个水平上,X变,y也是一个水平上,也没有关系,香蕉,x变大,y从小到到,去曲线关系,不是线性关系。 线性相关也几乎是零,虽然是曲线关系,下前三没有相关性,上面都是线性相关,一三是正线性相关,3图相关性好。 2,4是负先关性,4负的绝对值比2好一些。,相关性好就是绝对值好些,一下研究的都是线性相关,简称相关,三、相关关系 相关系数是度量两个变量之间线性相关的方向和强度的测度,常用的度量指标是皮尔逊(Pearson)相关系数 【专栏】在相关分析中,定性分析或经济理论分析重要吗?,correlation coefficient,相关系数(Correlation Coefficient) 1.总体相关系数(Population correlation coefficient),Pearsons 乘积-矩线性相关系数: “两个标准化变量之乘积” 的总体平均 - 简单相关系数(simple correlation coefficient),- X 和 Y 的总体协方差,相关系数也有总体和样本,但一般我们只掌握样本,X舒张压 Y收缩压,x标准化,X标准化*Y标准化相乘,然后取总得平均,在总体里面去平均。总体里面全部人去求平均是总体相关系数。如果去简化,sigama x、y是常数,拿出来外面。,X-x是离均差,上面就是两个离均差相乘,E是期望。期望就是求平均的意思,在总体里面的平均的意思,总体里面的协方差算在一块、舒张压离开平均值多远,收缩压离开平均值都远,相乘一块有多远,也叫监督相关系数,一定介于-1和1之间,总体均数,Ro,去掉n,公式如下:,2. 样本相关系数(Sample correlation coefficient),需要用样本来估计相关系数,怎么定义,类似刚才的,X(Y) - 样本的观察值减去样本的均数 ,然后相乘。乘积统统加起来。,下面不求平均,不然就约掉了 - 离均差的平方求和乘以离均差的平方求和。,样本的离均差乘积求和,离均差平方之和,介于-1和1之间。有可能发生-1和1,但生活中很少发生,度量线性关系的强度和方向: 1) r =0 - 无线性关系, 或很弱 2) 若绝对值较大 - 线性关系较强 3) 符号正负 - 线性关系的方向 4) +1 or -1 - 完全相关, 实践中少见,P181,研究父子之间身高的关联性,为什么这么来定义?,样本 - 判断关联性,求r,样本的离均差乘积之和,X本身的离均差平方之和,Xbar计算出来,例子8-1,第三节 一元线性回归分析,第三节 一元线性回归分析,回归分析实质就是通过建立数学方程,研究因变量与自变量之间的变动关系,如果分析一个自变量与一个因变量的线性关系,称为一元线性回归分析,如果分析两个或两个以上的自变量与一个因变量的线性关系,则称为多元线性回归。,一、一元线性回归理论模型 一元线性回归模型是用于分析一个自变量x与一个因变量y之间线性关系的数学方程,在变量x与y的直角坐标平面上,可以绘制散点图,可以看出所有的散点大致呈线性关系,or,在一元线性回归之中,因变量由两个部分组成,一个是 ,其解释了自变量x变动引发的线性变化。 另一部分为剩余变动 ,反映了不能为自变量x和因变量y之间的线性关系所解释的其他剩余变动。,根据刚才的那组表。是不是最后会呈这样的图形,板书,那么我们回到线性方程的知识里面去。,用公式来代表,其实就是一个求极值的问题。左边就是 Min(Y-Yheand)2。 y-yhead的纵向距离的和最小。y-yhead就是残差,是一个剩余的部分,是一个估计值。实际的是y,希望你估计值yhead尽量接近你实际得到的指标y,这是最好的。所以残差(剩余的部分)最小。而yhead = (a+bx)带进去,求偏导 - 最小二乘法 拓展但两个自变量呢?是不是一个平面。不,是一个三维空间。三个自变量?四维。多变量和一个y,多维。其实只要知道残差最小就行。同样的原理。,二、普通最小二乘估计(ols),最小平方法 是测定长期趋势最常用的的方法。它是通过建立数学方程,对元时间序列配合一条较为理想的趋势线,使得原序列中的各实际值和趋势值的离差平方最小。一般最小平方法的统计表达式是:,式中:,采用这种趋势要配合直线,也可以配合曲线,这需要跟原序列所反映的现象变动的特点来确定。趋势形态判断方法比较多,最为简单的就是画散点图。若散点大致在某一条直线周围波动,就配合趋势直线;若散点大致在某一条曲线周围波动,就配合趋势曲线。 首先介绍直线趋势的配合。,(一)直线方程,适用条件:现象发展的各期逐期增长量大体相等。,即,趋势值,【(2X+1)】=2(2x+1)*2=8x+4,画图,这边,x对应的是时间序号,而Y帽子代表的是发展水平。,直线方程公式表示为:,上述直线方程式中,a、b为两个未定参数,根据最小平方法的要求,求方程组:,例 - 某省19911998年人口资料如表所示,要求拟合时点的趋势方程,并以此趋势预测1999年末的人口数。,8763,n = 8,b求出来都代入到a公式里面,y,x就是第几年,横轴表示时间,纵轴表示元数列的指标数值,坐标原点定在1990年,其序号0用来表示,拟合直线趋势方程。,根据上述公式:,将1999年时间序列号9带入配合的趋势方程,可得到1999年末某省人口数的趋势值(预测值),既,1999年末该省人口数将达到9402.94万人。,1990是原点,画图,上述方程中的x为时间。为了计算方便,可对其进行假设: 当时间项数为奇数时,可假设x的中间项为0,这时时间项依次排列为:,-3,-2,-1,0,1,2,3,; 当时间项数为偶数时,可假设原点0在数列正中相另两个时间的中点,这时时间项依次排列为:,-5,-3,-1,1,3,5, 这种设x的方法是要使时间项的正负相抵消,使x=0,则上述联立方程组可简化为:,为了方便手工计算,可以把原数列的重点移至坐标原点,使得”x=0“,此时,标准方程可以化为:,-3,-2,-1,0,1,2,3相加等于零,画图,例如;用简便的方法来计算上面例子。,1999年的时间序号应该为9.,本例中各期的逐期增长量大体相同,可以配合直线趋势方程。,Practic - 某地区各年的粮食产量为:,Tip:,首先判断一下,趋势是怎么样的。,案例:某地区粮食产量直线趋势方程计算,(i)已知:n对观察值(X1,Y1),(X2,Y2),(Xn,Yn); (ii)作散点图(scatter diagram) (iii)若散点图呈直线趋势,则配一条直线: 求出直线的方程式,刚才是X对父子,哪怕是有些分散的,下面看怎么计算,线性回归三步骤,什麽是回归?,找出反映平均水平的那条直线的方程,Y的平均值是如何依赖X,给定 X的数值, Y 的数值取在在一个平均值 (y|x)附近 对应与不同的X值, Y 的平均值座落在一条直线上 - 回归直线. y|x 和 X的关系可用一个线性方程描写.,这样的回归线用方程来表示,三、一元回归的统计检验,统计检验包括线性关系检验和回归系数检验,具体包括拟合优度检验、参数显著性检验以及回归总体线性的显著性检验,1、经济意义检验:就是根据模型中各个参数的经济含义,分析各参数的值是否与分析对象的经济含义相符。 2、回归标准差检验 3、拟合优度检验 4、回归系数的显著性检验,3. 估计标准误差,用来反映回归直线代表性大小的统计分析指标。,回归的残差平方和除以它的自由度来表示,称为剩余方差。标准误差为剩余方差的开方:,P318 例9-7,接下来的内容只做拓展,相关系数计算 检验的步骤 根据公式计算相关系数r值 根据给定的显著性水平,查相关系数检验表,自由度为n-2,得到临界值 统计决策,4. 相关性检验(r检验),判决系数R2是对变量x与y变量进行回归时做出的,用来衡量回归的拟合优度; 相关系数r是对变量x与y变量进行相关分析时做出的,用以判定变量x与y的线性相关程度。,与r的区别:,P319例9-8,r 随样本变化而变化, 是一个随机变量 总体的回归系数 r 问题 : =0 吗? 假定: X 和Y 服从二元正态分布,3. 相关系数的统计检验,相关系数是从样本里面选出来。用样本的相关系数去推出总体的,样本相关系数,总体,如果样本里r非零(0.几),退出 是零 或 是零,但样本里面非零,所以,假设检验,平面上有x轴和y轴,xy服从二元正态分布的话,x本身服从一元真该分布,同理for Y,刚才看的是样本,那么我怎么知道这个样本可否推断出总体?,1、离差平方和的分解P316,= 0,总离差平方和TSS,回归平方和ESS,残差平方和RSS,再回到第一个的拟合优度判断,离差平方和的分解 TSS=RSS+ESS 拟合优度检验(判决系数R2),也叫判决系数,数值范围为01之间。 若R2=1,说明全部样本观察值均在估计的回归直线上,观察值yi与回归值(估算值)完全拟合。 若R2-0,完全不拟合,线性模型完全不能解释因变量yi的变动。 R2越接近于1,拟合程度越好,反之越差。,P317 例子 9-6,t 检验:是对回归系数的显著性检验 t 检验的基本步骤 提出假设 构造t检验统计量,并由样本数据计算t检验值 根据显著性水平,查t分布表,得到临界值 统计决策,5. 参数的显著性检验(t检验) P320,t (n-2),显著性检验包括两个方面: 回归系数(参数) 整个回归方程,b 随样本变化而变化, 是一个随机变量 总体的回归系数 b 问题 : =0 吗?,2. 关于回归的统计推断,20对父子,找出来的规律,不完全等同于客观上父子身高的规律,再测20对父子,可能出来就边了,所以b随着样本变化而变化 我们关心不是b是,有了b推测 最关系的是,是不是零的。 是零的话,线是水平的,代表那就没有办法推测出儿子身高。 还有去推断是否为零,统计量,回归系数的标准差,残差的标准差,回归系数的 t 检验 =0.05,样本里面的斜率减去理论上的斜率(H0),=0,so 涉及到Sb样本标准误,b怎么有标准差?换另外一批数值,有另外一个,随机(样本变动)变动,理论上可以推出b随机变动的标准差,t如果太大,不太可能太大,一般2.几,3.几就很大了。H0成立的话,t就跑到尾巴里面去了,所以不太可能,拒绝H0,因此要涉及计量范围,X的范围要设计得大一些,那么b的变化(Sb)就小些,就不是要做很多分样本,一份就够了,那更能就近真是的(b变异性大师很不好的)。 s是反映散点,没有办法改变。能改变的只有Sb的分母(X轴分散度)就像实验和温度,温度散开点,会更好参照。,设计回归的时候:,b的变异性,s反应散点,下一页解释,残差的标准差放在分子,散点分布情况,分母是X的离均差平方之和,反映了父亲身高的变异性,父亲如果有高高唉唉,那么(离均差的平方值)变异性就大。 所以b的变异性是和两者有关。b在这里就是斜率,斜率怎么会变,翘起来,或者压下去,样本变了。斜率的变异性跟两个因素有关,散点的分散性,同时和估计身高的分散性(X轴上的分散性)有关。 若父亲的高矮千遍一律,斜率变异性怎么样,翘得就低,相反就高(上下两点拉大)敲高。如果是X轴分散,(左右拉大),换一份样本,变化小一些。,斜率的离异程度,s就是残差平方治和最小的那个残差平方之和(已经达到最小) 。(分子) 再去除以自由度。n-2?推导方程的时候已经用了a和b,用了两个参数。 S平方就是方差 - 残差的变异性 S就是残差的标准差,描述去大小,与散点有关,分散度。分散大,残差平方和就大。,理论上可以推出b随机变动的标准差,s反应散点,回归系数的标准差,残差的标准差,b的变异性,s反应散点,P320 例子9-9,F检验是对回归总体线性关系是否显著的一种假设检验 F检验的基本步骤 提出假设 构造F检验统计量,并由样本数据计算F检验值 根据显著性水平,查F分布表,得到临界值 统计决策,6.回归总体线性的显著性检验(F检验),P321 例子 9-10,F检验是对整个模型而已的,看是不是自变量系数不全为0,而t检验则是分别针对某个自变量的,看每个自变量是否有显著预测效力。,在回归分析中,F检验和t检验各有什么作用?,在一元回归里面,F检验与t检验是等价的。其实一样 多元则不一样了。P322,3. 回归方程的应用 估计平均值 的范围 -平均值的置信区间(CI) (2) 估计个体值 Y 的范围 -个体值的预测区间(PI),预测,有两个东西需要预测: 1假定给了父亲身高,这类孩子的将来的平均水平(不是针对这个父亲他的孩子,而是针对170的这样的父亲,他们的孩子将来平均有多高。(样本量是20个) 2.这个父亲,他的儿子将来在于什么范围内,这个比较难,特定他的儿子。 先说第一件事情,样本平均值是有波动的,跟两者有关,一个是样本量,n越大,中间黑线稳定。方差问题。 第二个就是自变量拉得开不开。 第三个就是x0,例如1米7,你给的身高离开平均身高远不远。如文问我的父亲是两米,离开均值一米六八的大,根号里面大,差异性就大了。X0越靠近xbar,效果越好,S和原来散点的分散程度有关,confident intervel,平均值的置信区间,如果把置信区间画到图上,确定一个x0就可以确定一个y0,就可以出来一个置信区间,再改动一个x0,又有一个y0,又有一个置信区间。图上,换一个x0,就在直线的上下,有一个区间再直线的上下。换一个x0,又可以在直线的上下有一个区间。这个区间,整个的连起来,就可以是里面的虚线,两条虚线像喇叭,中间窄,两头宽。why?X0离开xbar近就窄,远就宽。两条虚线就反映了CI,就是平局值的置信区间。你给我数值父亲180,带劲CI的公式,得到平均儿子有多高,然后不是就这么高了,要加减一个ta,v乘以s根号内的范围,所以就有了这么一个宽度,若是给我1米9,就会再外外,宽一些。,我1米7,帮我估算下我的儿子身高多少? 怎么考虑?你170,你儿子可能很高,你儿子的身高是在平均值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论