第9章相关和回归分析_第1页
第9章相关和回归分析_第2页
第9章相关和回归分析_第3页
第9章相关和回归分析_第4页
第9章相关和回归分析_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章相关和回归分析第一节相关分析第二节一元线性回归分析第三节线性相关的显著性检验第四节多元线性回归分析1统计学suyl父代与子代的关系Galton被誉为现代回归和相关技术的创始人。1875年,他利用豌豆实验来确定尺寸的遗传规律。他选了7组不同尺寸的豌豆,并说服他在英国不同地区的朋友每一组种植10粒种子,最后把原始的豌豆种子(父代)与新长的豌豆种子(子代)进行尺寸比较。当结果被绘制出来后,他发现并非每一代都与父代一样,不同的是,尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆却得到较小的子代。Galton把这一现象叫做“返租”(趋向于祖先的某种平均类型),后来又称之为“向平均回归”。人们发现它的应用很广,而不仅限于从一代到下一代豌豆大小问题。2统计学suyl§9.1相关分析

§9.1.1相关关系的概念3统计学suyl1.函数关系与相关关系变量间的相互依存关系有两种类型:——函数关系——相关关系4统计学suyl函数关系指变量之间一一对应的确定性的数量依存关系;设有两个变量x和y,当变量x取某个数值时,

y有确定的值与之对应,则称y是x的函数y=f(x),通常将x称为自变量,y称为因变量;所有观察点全都落在一条线上。

XY5统计学suyl函数关系(例)圆的面积(S)与半径之间的函数关系

S=

R2

里程(D)与速度(V)、时间(t)之间的关系

D=Vt企业的原材料消耗额(y)与产量(x1)

、单位产量消耗(x2)

、原材料价格(x3)之间的关系

y=x1x2x3

6统计学suyl相关关系是指变量间的关系数量上不确定的依存关系;一个变量的取值不能唯一地由另一个变量来确定。即当变量x取某个值时,与之相关的变量y的取值可能有若干个;各观察点分布在直线(或曲线)周围。

XY

7统计学suyl相关关系(例)单位成本(y)与产量(x)的关系……父亲身高(y)与子女身高(x)之间的关系社会商品零售额(y)与居民会支配收入(x)之间的关系收入(y)与文化程度(x)之间的关系商品销售量(y)与广告费支出(x1)、价格(x2)之间的关系8统计学suyl(其它有关概念)假相关没有本质联系,只是表面数字的偶然的巧合;如上证股票价格综合指数与气温的关系。因果关系原因与结果之间、影响因素与被影响因素之间的关系。相关关系比因果关系包括的范围更广泛。即,因果关系属于相关关系,但相关关系不一定是因果关系。统计只能说明现象间有无数量上的关系,不能说明谁因谁果9统计学suyl2.相关关系的类型1.按涉及变量多少分为:单相关(一元相关)复相关(多元相关)2.按相关关系的表现形式分为:直线相关(线性相关)曲线相关(非线性相关)3.按相关方向分为:正相关负相关10统计学suyl相关关系的类型(续)4.按相关关系的程度分为:完全相关(函数关系)完全不相关(零相关)不完全相关(狭义的相关关系)相关关系的两种极端情况11统计学suyl广告投入和销售之间的关系12统计学suyl它们之间是什么关系?两个变量是否有关系?——相关测定它们的关系是否显著?——相关检验也可以从散点图得到。随着广告投入的增加,销售额的增长由大到小。显示,它们的关系是由强变弱。

这些关系是否可以用数学模型来描述——拟合回归模型上例看上去是呈现一种非线性关系——可以拟合一个非线性回归模型13统计学suyl3.相关关系的测定进行相关分析的一般程序:定性分析定量分析相关表和相关图计算相关系数和判定系数14统计学suyl相关表和相关图(1)相关表将一个变量按大小顺序排序,另一个变量对应排列而成的表格。即将成对数据依其中一个变量按大小顺序排列。见例题或EXCEL.(2)相关图(也称为散点图。)一对数据对应坐标图上一个点,将成对的观察数据表现为坐标图的散点而形成的图。编制相关表、图的意义有助于分析者判断相关的有无、方向、形态、密切程度。15统计学suyl相关关系的图示线性正相关

完全线性负相关

完全线性正相关线性负相关

16统计学suyl相关关系的图示(续)

曲线相关

不相关(零相关)

17统计学suyl§9.1.2相关系数1.简单线性相关系数测度变量之间关系密切程度的指标;对不同类型的相关关系,其相关系数的计算方法也不同:简单相关系数对两个变量之间线性相关程度的度量也称直线相关系数,常简称相关系数18统计学suyl相关系数(续)其它相关系数:非线性相关系数复相关系数一个变量与一组变量之间的线性相关程度偏相关系数消除其它因素影响以后的两个变量之间的线性相关;例如:RYX.Z等级相关(秩相关)典型相关系数两组随机变量之间的相关程度-非参数统计19统计学suyl相关系数有总体相关系数与样本相关系数之分:总体相关系数ρ——根据总体数据计算的,样本相关系数

r——根据样本数据计算的。20统计学suyl两个随机变量的协方差和相关系数协方差如果X,Y独立(不相关),E(XY)=E(X)E(Y)

则:

Cov(X,Y)=0

协方差在一定程度上反映了X、Y之间的相关性协方差受两个变量本身量纲的影响。21统计学suyl相关系数

(Pearson’scorrelationcoefficient)

相关系数ρ具有如下的性质:相关系数ρ是一个无量纲的值0≤|ρ|≤1当ρ=0,两个变量不相关(不存在线性相关)当|ρ|=1,两个变量完全线性相关22统计学suyl(简单)相关关系的计算公式或化简为:23统计学suyl相关系数取值及其含义

r的取值范围是[-1,1]|r|=1,为完全(线性)相关;r=1,为完全正相关r=-1,为完全负相关

r=0,不存在线性相关;-1

r<0,负相关;0<r

1,正相关|r|→1关系越密切(相关程度越高);|r|→0关系越不密切(相关程度越低)24统计学suyl相关系数r的等级00.4

0.71.0不相关

完全相关——相关程度的三级划分法:低度相关

显著相关

高度相关25统计学suyl例表9-2能耗量总产值序号xyx2y2xy1352412255768402382514446259503402416005769604422817647841176........................157248518423043456167658577633644408合计91662555086261753788726统计学suyl计算结果能耗与工业总产值之间的(样本)相关系数为0.9757,为高度线性正相关关系。例见EXCEL的操作与计算结果27统计学suyl一个音像设备商店数据周次电视广告数销售额(百美元)12345678910251341534250574154543863485946100285411622163831514423692425191612591642500324916812916291614443969230434812116合计3051016291102657628统计学suyl上例的散点图29统计学suyl30统计学suyl31统计学suyl关于相关系数的马虎叙述1.美国就业者性别和收入之间有很高的相关系数。2.研究发现在学生对教授的评价和其他同行对教授的评价之间存在很高的相关系数,r=1.093.年龄和收入之间的相关系数是r=0.533岁32统计学suyl2.相关系数的显著性检验

——t检验提出假设:H0:

;H1:

0确定检验的统计量:当X,Y均为正态随机变量时,计算检验统计量的值或P值,确定显著性水平

若t>t

或P值<

,拒绝H0

(即总体线性相关显著)反之,不能拒绝H0(即总体线性相关不显著)33统计学suyl例对表6-1计算的相关系数进行显著性检(

0.05)提出假设:H0:

;H1:

0计算检验统计量的值及其P值:根据

=0.05,查t分布表得临界值为t

(n-2)=t0.025(14)=2.1448结论:拒绝H0,能耗与总产值之间的线性相关显著P值=2×P(t(14)>16.6616)=2×6.291E-11=1.258E-1034统计学suyl3.Spearman等级相关系数当变量不满足正态分布时,或者所研究的变量不是数量型变量时,简单线性相关系数的相关分析方法就不能采用,这时可以用spearman等级相关系数。35统计学suyl§9.2一元线性回归分析一.回归分析的意义一元线性回归方程的确定回归估计的标准差36统计学suyl回归分析的意义广义的相关分析——变量之间相关关系的分析狭义的相关分析回归分析37统计学suyl§9.2.1回归分析与相关分析的区别1.变量的地位相关分析中,变量x、

y处于平等地位。回归分析中,y为因变量,处在被解释的地位;x为自变量,用于解释和预测因变量变化2.变量的性质相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。38统计学suyl回归分析与相关分析的区别3.分析内容(侧重点)相关分析主要描述两个变量之间相关关系的密切程度;主要通过计算相关系数来测定。回归分析揭示变量之间数量变动的统计规律性;主要通过拟合回归方程来描述或推断。39统计学suyl回归分析的内容从一组样本数据出发,确定变量之间的数学关系式——建立回归模型;借助于数学模型来表达变量之间的平均数量关系对这些关系式的可信程度进行各种统计检验并从某一特定变量的诸多影响因素(变量)中找出哪些变量的影响显著,哪些不显著;利用所求的回归模型进行分析,预测或控制

(并给出这种预测或控制的精确程度)。40统计学suyl回归模型的类型1.按涉及变量多少分为:简单回归(一元回归)复回归(多元回归)2.按回归曲线的形态分为:直线回归(线性回归)曲线回归(非线性回归)我们主要介绍一元线性回归——直线回归41统计学suyl二、一元线性回归方程的确定只涉及一个自变量的线性关系可表示为:

y=

α

+b

x

+e因变量y的值由两部分构成:x的线性部分反映了由于x的变化而引起的y的变化.误差项

是随机变量;反映了除x之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的波动α和

为模型的参数。42统计学suyl一元线性回归模型的基本假定E(ε)=0,即误差项ε是一个期望值为0的随机变量。从平均意义上,总体线性回归方程为:

E(y)=α

+

xε的方差σ2相同(对于所有的x值)。43统计学suyl一元线性回归模型的基本假定(续)3.误差项ε服从正态分布,且相互独立。即ε~N(0,σ2)独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关44统计学suyl(总体)回归方程描述y的均值或期望值如何依赖于x的方程称为(总体的)回归方程;一元线性(总体)回归方程的形式如下:

E(y)=α

+

xα是回归直线在y轴上的截距,是当x=0时y的期望值,是回归直线是起始值;

(回归系数)是直线的斜率,表示当x每变动一个单位时,y的平均变动值。45统计学suyl样本(估计的、经验的)回归方程总体回归参数α和

是未知的,我们必须利用样本数据去估计它们;用样本统计量a、b代替回归方程中的未知参数α和,就得到了样本回归方程(或称为估计的回归方程):拟合估计方程,就是要估计方程中的a、b46统计学suyl观察点与样本回归线(图示)理想的回归线应该尽可能接近各个实际观察点。x

(xi,yi)

y47统计学suyl估计参数的最小二乘法

(LeastSquareMethod)最小平方法——也称为最小二乘法使因变量的观察值与估计值之间的离差平方和达到最小来求得a和b的方法,即满足下列条件:即:48统计学suyla

和b的计算公式根据最小平方法的原则,利用微分求解极值(最优值)的原理,可得求解a

和b的标准方程组如下:X的总和?49统计学suyl例根据上例中的数据,配合能耗量对工业总产值的回归方程,计算过程如下:

能耗量对工业总产值的回归方程为:50统计学suyl例(续)能耗量对工业总产值的回归方程为:回归方程中参数估计值的含义:回归系数b=0.7961,表示能耗量每增加1单位(十万吨),工业总产值平均增加0.7961亿元。

截距a在本例中没有实际经济意义.51统计学suyl估计参数的最小二乘法

(续)用最小平方法拟合的直线来代表x与y之间的关系,所产生的估计值与实际值的误差要比其他任何直线的误差都小。可用于拟合直线回归,也可用于拟合曲线回归。52统计学suyl两点补充2.回归系数与相关系数同号(从二者的计算公式可推导它们之间的关系):回归系数与相关系数的符号取决于的x、y的协方差。1.样本回归直线必定经过各散点的中心;53统计学suyl例:1在刚出生后的一段时间,一只小白鼠每周恰恰增加40克。(这只老鼠增重得特别又规律,不过每周40克仍然是一个合理的增重率。)(1)如果该鼠出生时重100克,用一个方程式表示它在x周之后的重量。这条直线的斜率是多少?(2)你会不会想要用这条直线来预测该鼠2岁时的体重?预测一下,结果合不合理。(一磅等于454克。一只大型猫重约10磅)54统计学suyl例2:大医院是否对你不利?一项研究显示,医院的大小(用病床数x来估量)和病人住院天数的中位数y之间正相关。这代不代表你如果选一家小点的医院就可以少住院几天?为什么?55统计学suyl答案:1、(1)重量y=100+40x;斜率40克/周(2)4260克,大约是9.4磅。2、病的严重程度同时影响选择的医院和住院的天数。56统计学suyl三、回归估计标准误差Se实际观察值与回归估计值离差平方的均方根;计算公式为(6.5)和(6.6):上例的计算结果为2.457亿元。分母之所以是

n-2,而不是n,是因为根据样本资料用最小平方法求参数α和β时,受两个标准方程的约束,失去了两个自由度。57统计学suyl回归估计标准差的作用反映实际观察值在回归直线周围的分散状况;反映因变量各实际值与其回归估计值之间的平均差异程度;说明了回归直线的拟合程度(衡量回归方程的代表性,测定回归估计的精度)其值越小,估计值(或回归方程)的代表性越强,用回归方程估计或预测的结果越准确58统计学suyl回归估计标准误差Se

与一般的标准差的异同相同:都是离差的平方的平均数的平方根;反映平均差异程度;衡量代表性大小。主要区别与什么的离差、差异;衡量谁的代表性。

59统计学suyl(二)离差平方和的分解因变量y的取值是不同的,y取值的这种波动称为变差或离差。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示。变差来源于两个方面:由于自变量x的取值不同造成的;除x以外的其他因素(包括x对y的非线性影响、测量误差等)的影响。60统计学suyl离差平方和的分解(图示)离差分解图x

y61统计学suyl对于任意一个观察点,有:总变差=回归变差+剩余变差离差平方和的分解2.对于全部观察点,两端平方后求和,有:记为:

SST

SSR

+SSE总变差平方和=回归平方和+残差平方和62统计学suyl三个离差平方和的意义总(离差)平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化。也称为可解释的平方和。残差平方和(SSE、Q)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。63统计学suyl样本判定系数(决定系数r2

)判定系数=回归平方和占总离差平方和的比例在直线相关中,判定系数=相关系数的平方,即r2=(r)2反映回归直线的拟合程度,衡量变量之间的相关程度。取值范围在[0,1]之间。

r21,说明回归方程拟合效果越好;r20,说明回归方程拟合得越差。64统计学suyl相关系数的另一个计算公式相关指数——后在直线相关的条件下,由于相关系数等于判定系数的平方根,所以,由判定系数的计算公式可得,相关系数也可以由下述公式计算:即:65统计学suyl回归估计标准差

与相关系数的关系大样本条件下,近似地:或:表明:相关系数可以间接说明回归估计的精确度;回归估计标准误差也可以间接说明变量之间相关的密切程度。66统计学suyl§9.3线性回归的显著性检验及回归预测一.对回归系数b的显著性检验——t检验二.对回归方程的显著性检验——F检验三、回归预测67统计学suyl一、回归系数的显著性检验

——t检验就是检验xi

与y之间是否具有线性关系,即检验自变量xi

对因变量y的影响是否显著;检验的理论基础是回归系数b

的估计量(b)的抽样分布。采用t检验法。68统计学suyl回归系数显著性检验的步骤提出假设H0:b=0(x与y之间没有线性关系)H1:b

0(x与y之间存在线性关系)计算检验统计量的值或P值

确定显著性水平和临界值,并进行决策

t>t

(n-2)

,或P值<

,拒绝H0;反之,不能拒绝H069

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论