《回归分析》 课件 第3、4章 多元线性回归、回归诊断_第1页
《回归分析》 课件 第3、4章 多元线性回归、回归诊断_第2页
《回归分析》 课件 第3、4章 多元线性回归、回归诊断_第3页
《回归分析》 课件 第3、4章 多元线性回归、回归诊断_第4页
《回归分析》 课件 第3、4章 多元线性回归、回归诊断_第5页
已阅读5页,还剩210页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归应用回归分析李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院1

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性目录多元线性回归模型参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数类别型自变量分段线性回归实例分析小结与评注李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院2

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性点球成金李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院3

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性电影《点球成金》讲述了奥克兰田径棒球队总经理比利·比恩(BillyBeane)如何利用分析技术组建一支有竞争力的球队的故事。这部电影是根据迈克尔·刘易斯2003

年出版的同名非小说类书籍《点球成金:赢得不公平游戏的艺术》改编1。1/

qinyn/BANA7038/moneyball.html李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院4

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性取因变量为回合数(runs,R),散点图y

轴为因变量,x

轴为各自变量2:2/

qinyn/BANA7038/moneyball.html李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院5

/

105中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质

模型推断化肥成分含量与农作物产出关系某种化肥含氮、磷和钾三种主要成分。为了研究该肥料三种成分不同含量对某种农作物产量的影响,对每亩农作物施用一定量的该种化肥,得到了该作物每亩收成以及该化肥各主要成分含量的数据,如表1所示。李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院6

/

105中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质

模型推断化肥成分含量与农作物产出关系表1:某农作物每亩收成与对应施用化肥中氮、磷和钾含量数据

氮含量(X1,单位:千克)磷含量(X2,单位:克)

0.798

10000.062钾含量(X3,单位:千克)

30.098作物收成(Y

,单位:千克/亩)332.6241.90510527.58032.130355.7912.16811053.39429.476352.4673.60811580.22132.402383.8593.31212104.94931.783386.8693.98712631.64134.154409.3873.56013157.67532.994413.1295.33013684.94135.203438.5384.26414209.86934.454440.7725.20314737.58933.058446.0856.12715263.56735.016468.6546.60715791.73134.251474.2626.78316316.15236.695496.3498.19816842.49438.940524.1048.05517368.23135.296511.2138.37617895.01539.075542.6278.49018421.73637.222542.0859.86318948.28640.972575.7918.91319475.25041.055583.57512.61020001.47039.361592.589李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院7

/

105中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质

模型推断化肥成分含量与农作物产出关系图1:氮、磷和钾含量数据与农作物产量三维图。其中,(a)图的自变量为氮、磷含量;(b)图的自变量为氮、钾含量;(c)图为磷、钾含量李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院8

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数类别型自变量分段线性回归实例分析小结与评注李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院9

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性引言李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院10

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性引言李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院11

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性模型简介李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院12

/

105

(1)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性模型简介李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院13

/

105称

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性模型假定李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院14

/

105

(4)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性模型假设李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院15

/

105正态性假定(5)从而有模型(3)满足(6)

(7)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性模型解释李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院16

/

105为了对多元线性回归模型以及对应的回归系数进行解释,使用服装销售研究中的员工薪资、宣传费用和流动资金三个变量对服装销售量的影响这一实例,给出回归方程的几何解释以及各回归系数的实际含义。(8)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性模型解释李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院17

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数类别型自变量分段线性回归实例分析小结与评注李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院18

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性最小二乘估计李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院19

/

105

(9)其中,

为离差平方和。(10)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性最小二乘估计李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院20

/

105利用式(10)对各参数求偏导并令其等于0,即(11)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性最小二乘估计李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院21

/

105有

(12)称

(13)为经验回归方程。多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性极大似然估计李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院22

/

105由式(7)有似然函数

取对数并分别对参数β

和σ2

求偏导,并令其等于0

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性极大似然估计李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院23

/

105

(14)

模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.1李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院24

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性回归拟合值与残差李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院25

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性回归拟合值与残差李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院26

/

105

(18)称(19)

(20)为回归残差向量。

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性回归拟合值与残差李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院27

/

105由式(17)有

则(21)因而有(22)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性回归拟合值与残差李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院28

/

105由式(11)可知,残差满足

(23)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性估计性质李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院29

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院30

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院31

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院32

/

105由

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院33

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院34

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院35

/

105性质5

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院36

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性估计性质李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院37

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院38

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院39

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院40

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院41

/

105从而有

作变换,令

有故有

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院42

/

105

所以

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数类别型自变量分段线性回归实例分析小结与评注李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院43

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性引言李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院44

/

105

模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质F

检验李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院45

/

105

模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质F

检验李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院46

/

105类似于一元线性回归检验,这里仍使用总离差平方和的分解式,即简记为

(24)其中,进而构造F

检验统计量(25)

模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质F

检验李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院47

/

105表2:方差分析表模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质F

检验李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院48

/

105

模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质t

检验李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院49

/

105

(26)由性质(6)有

(27)

(28)模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质t

检验李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院50

/

105

(29)其中,

模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质t

检验李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院51

/

105

模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质偏F

检验李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院52

/

105

(30)

(31)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性拟合优度李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院53

/

105类似于一元线性回归模型,可以定义关于多元线性回归模型的样本决定系数

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性拟合优度李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院54

/

105(33)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性置信区间李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院55

/

105由性质(6)及式(28),可得

(34)

(35)

模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.2李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院56

/

105例3.1

中已经得到了某农作物每亩产量与某化肥氮、磷和钾含量之间的线性估计方程。这里将对模型以及各回归系数的估计结果分别进行F检验和t

检验,并计算相应的拟合优度。检验结果见表3。表3:参数估计以及模型推断结果模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.2李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院57

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数类别型自变量分段线性回归实例分析小结与评注李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院58

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性引言李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院59

/

105在多元线性回归模型的使用场景中,常常会遇到自变量之间具有不同度量单位的情形。例如,对于距离这一变量而言,有的数据记录采用的是以米为单位,而有的则可能是以千米为单位,再如对于商品价格而言,有的数据记录采用的是以人民币元为单位,也有的可能是以美元为单位。在分析类似数据时,得到的结果可能会不一致,对分析结果的比较也会带来影响,因此需要对数据进行预处理,例如:中心化(centralization)和标准化(normalization)。多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院60

/

105记(36)则经验回归方程(13)等价于

(37)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性图2:数据中心化效果示意图李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院61

/

105中心化称式(37)为中心化经验回归方程。中心化经验回归方程中的常数项为

0,中心化是将样本中心移到坐标原点,因而方程中没有截距项,而其他回归系数的最小二乘估计值则保持不变。显然,这是因为坐标的平移变换不会改变直线的斜率,图2为数据中心化处理的示意图。多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性标准化李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院62

/

105在多元线性回归模型中,由于自变量X1,·

·

·

,Xp

所用单位大多不同,数据的大小差异往往很大,这就不利于在同一标准上进行比较。对于中心化处理后的数据可以进一步进行标准化处理,从而消除变量量纲不同和数量级差异所带来的影响。样本数据标准化处理公式为(38)其中,

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性标准化李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院63

/

105标准化后的经验回归方程为

(39)

标准化回归系数与普通最小二乘回归系数之间存在如下关系式(40)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性标准化李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院64

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性标准化图3:数据标准化示意图.标准化处理使原数据的取值范围以及对应拟合直线斜率等信息都发生了改变李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院65

/

105模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.3李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院66

/

105观察例3.1中的数据(见下表)可以发现磷元素的含量从数值上看明显大于氮和钾的含量,这是由于单位不同引起的。

表4:某农作物每亩收成与对应施用化肥中氮、磷和钾含量数据模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.3李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院67

/

105表5:某农作物产量与对应施用化肥中氮、磷和钾含量标准化数据123模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.3李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院68

/

105利用多元线性回归模型再次对表5中标准化后的数据进行建模,得到经验回归方程

由此可以看出,标准化回归系数使变量的相对重要性具有了很好的可比较性。数据标准化处理过程中包含了数据中心化过程,这对应了利用标准化数据所得到的经验回归方程中没有截距项这一事实。多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数类别型自变量分段线性回归实例分析小结与评注李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院69

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性相关阵李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院70

/

105

(41)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性偏决定系数和偏相关系数李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院71

/

105

,

(42)

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性偏相关系数李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院72

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性偏相关系数与简单相关系数在此用一个例子来说明简单相关系数和偏相关系数的关系:一种商品的需求既受收入水平的影响又受其价格的影响。按照经济学理论,在一定收入水平下,该商品的价格越高,商品的需求量就越小。也就是说,需求与价格之间应当是负相关关系。可是,在现实经济生活中,由于收入和价格常常都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算简单相关系数,就有可能得出价格越高需求越大的错误结论。在多元回归中,简单相关系数只是衡量两个变量的局部相关性,而偏相关系数真正反映了因变量与自变量、自变量与自变量之间的相关性。在后续的逐步回归剔除某个自变量时,也可以综合偏相关系数来考虑。李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院73

/

105模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.4李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院74

/

105利用例3.1

中的数据计算氮、磷、钾元素含量和该农作物产量相关阵,并计算相应的偏决定系数和偏相关系数,结果见表6。表6:氮、磷、钾元素含量和某农作物产量相关阵模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.4李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院75

/

105

模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.4李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院76

/

105由以上分析,本例可得如下结论:由于氮、磷、钾含量分别与该农作物产量之间的相关系数都大于0.9,表明这些自变量与农作物产量具有显著的正的线性相关关系。由偏决定系数值可以看出,各自变量与因变量之间具有显著的线性相关关系,偏相关关系值表明各自变量与因变量之间具有显著的线性正相关性。由此可能发现,施用含氮、磷、钾元素的肥料越多该农作物的产量越高。多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数类别型自变量分段线性回归实例分析小结与评注李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院77

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性类别型自变量

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院78

/

105中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质

模型推断例3.5(两类别的定性协变量)

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院79

/

105模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.5反映性别属性的哑变量为

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院80

/

105

模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.5

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院81

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多类别的定性协变量

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院82

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多类别的定性协变量再如,考虑建立个人受教育水平与个人教育支出之间的回归模型,若教育水平被分为高中以下、高中、大学及其以上三个层次,这时仅需要引人两个哑变量:

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院83

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多类别的定性协变量

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院84

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数类别型自变量分段线性回归实例分析小结与评注李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院85

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性分段线性回归在经济学中常有这样的情况,一些经济变量之间的关系会在解释变量达到某个临界值时发生突变。对于这类问题,研究者发现使用线性回归模型拟合后的残差不具随机性,其中仍存在系统性信息。研究者可以利用虚拟变量,通过分段线性回归进行处理。李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院86

/

105模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.6

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院87

/

105模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.6

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院88

/

105模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.6

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院89

/

105模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.6

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院90

/

105

模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.6

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院91

/

105

模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型

参数的估计与性质例3.6

李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院92

/

105图5:日平均气温与居民生活用电量间的分段回归拟合直线多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数类别型自变量分段线性回归实例分析小结与评注李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院93

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性实例分析本节以高性能水泥的混凝土抗压强度数据分析为例,对多元线性回归模型的一般步骤进行介绍。由于高性能混凝土的水泥含量、高炉渣含量、飞灰含量、水的含量、高效减水剂含量、粗骨料含量和细骨料含量等8个因素(单位:kg/m3)对高性能水泥的混凝土抗压强度有关。使用的数据共包含9

个变量1030

个样本观测值,变量由上述提到的8

个自变量以及1

个因变量(混凝土抗压强度)组成。使用的数据来自于叶怡成[2]的相关研究,可以从UCI

数据库中下载,网址为:/ml/datasets/

Concrete+Compressive+Strength。李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院94

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性实例分析

图6:高性能混凝土成对变量散点图李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院95

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性实例分析第二步是拟合模型。利用R软件采用多元线性回归模型拟合上述数据,拟合结果如下表9所示。从表中可以得到模拟方程为李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院96

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性实例分析表9:多元线性回归模型拟合结果表李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院97

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性实例分析第三步是模型诊断。若取显著性水平为α

=0.1,从表中可得Fstat

=204.300,其对应的

p

<2.00

×10−16

≪α

=0.1,则拒绝H0,表明使用多元线性回归模型拟合该数据是可取的。各自变量t

检验所对应的p

值都小于给定的显著性水平α,表明各自变量对因变量具有显著的影响。从实际意义上看,自变量的8个因素分别与高性能水泥的混凝土抗压强度具有显著的相关关系。结合各变量的系数可以看出,在一定限度内含水量的大小与混凝土抗压强度成反比而其他因素则与混凝土抗压强度成正比。李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院98

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性实例分析李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院99

/

105利用Q-Q

图对残差项的正态性进行检验,可以从图5中看出,残差项的Q-Q

图大致在一条直线上,因而可以判断随机误差项满足正态性假定。图7:随机误差项正态性检验Q-Q

图多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性实例分析值得注意的是,实际数据往往具有不可忽略的“缺陷”,例如不满足多元线性模型的基本假定:正态性,独立同分布性,自变量之间不相关性,样本量足够大等。此时,前文提到的基本步骤的每一步可能都会遇到阻碍,这时,只有解决这些问题,才能继续下一步。对于相应可能出现的问题以及相应的处理方法,将会在后续章节中一一学习。李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院100

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性多元线性回归模型参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数类别型自变量分段线性回归实例分析小结与评注李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院101

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化

相关阵与偏相关系数

类别型自变量

分段线性小结与评注李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院102

/

105

多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性小结与评注另一方面,样本量的多少也会影响到参数估计。当样本量相较于变量个数较小时,设计矩阵的列满秩假定可能不再满足,此时同样无法使用普通的最小二乘估计参数。进一步,当自变量个数不断增大,达到高维甚至超高维时,传统的参数估计方法以及参数显著性的检验方法也不再适用。这时,一些新的解决方法应运而生,在后续的学习中将对这些问题的解决方法进行学习。李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院103

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性参考文献周纪芗.回归分析.上海:华东师范大学出版社,1993.Yeh

IC.

Modeling

ofstrength

of

high-performance

concrete

using

arti- ficial

neural

networks.

CementandConcrete

research,

28(12):

1797– 808,

1998.袁建文,李宏,王克林.剂量经济学理论与实践.北京:清华大学出 版社,2012.李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院104

/

105多元线性回归模型

参数的估计与性质模型推断中心化与标准化相关阵与偏相关系数

类别型自变量

分段线性谢谢!李扬/林存洁/王菲菲/孙韬/廖军多元线性回归中国人民大学统计学院105

/

105模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX归分析之绪论应用

归分析李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院106

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX目录归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX变换广义最小二乘估计小结与评注李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院107

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX高斯-马尔可夫李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院108

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX最小二乘法是一种使误差平方和达到最小以寻求估计值的方法,最常见于线性模型。用最小二乘法得到的估计,叫做最小二乘估计。1805年,法国数学家勒让德在他的著作《计算彗星轨道的新 方法》的附录中第一次公开提出了最小二乘法。德国数学家高斯对最小二乘理论的贡献除了著名的正态误差 理论之外,还有高斯-马尔可夫定理。他声称从1799年起就 开始使用最小二乘法,导致了当时两大数学家关于最小二乘 法发明优先权之争,类似于牛顿和莱布尼茨关于微积分发明 权的争论,至今都没有定论。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院109

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX高斯-马尔可夫定理是最小二乘理论中最重要的理论结果,它 从统计学的角度肯定了最小二乘法的合法性,在此之前,最 小二乘估计只是看上去合理且计算简便的一种算法。但是实际数据有很多情况不满足高斯-马尔可夫定理的条件,这一点在二十世纪中期得到了学者的广泛关注。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院110

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX高斯-马尔可夫条件李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院111

/

110

异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理例1.居民收入和消费的关系运用截面数据研究消费和居民收入的关系。用Yi

表示第i

户的消费额,用Xi

表示第i

户的收入,一个简单的消费模型为Yi

=

β0

+

β1Xi

+

εi

,

i

=

1,

...,

n.将家庭以收入数据按照一定方式进行划分会发现:低收入组家庭用于购买生活必需品的比例相对较大,且购买差异性较小。高收入组家庭购买行为差异很大,自由支配的收入更多意味着更多的购买选择,消费的分散程度很大。反映在消费模型上则为εi

对回归直线即均值的偏离程度存在差异,从而出现异方差。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院112

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX例2.经济模型经济变量的滞后性会给序列带来自相关性。许多经济变量都会产生滞后影响,

例如物价指数、基建投 资、国民收入、消费、货币发行量等都有一定的滞后性,例 如前期消费额对后期消费额一般会有明显的影响。经济变量的滞后有时表现出一种不规则的循环波动,当经济 处于衰退的低谷时,经济扩张期随之开始,这时大多数经济 时间序列上升得快一些。在经济扩张期,经济时间序列内部 有一种内在的冲力,序列一直上升到循环的顶点,在顶点时 刻经济收缩随之开始。因此在这样的时间序列中,序列观测值之间的相关现象是很自然的。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院113

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX变换广义最小二乘估计小结与评注李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院114

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX残差分析在利用最小二乘估计得到参数估计值βˆ0和βˆ1后,可以通过下式得到残差ei

=

Yi

βˆ0

βˆ1Xi

.由于高斯—马尔可夫条件都是关于误差项的,所以研究者自 然地可以从分析误差项的“估计量”——残差的角度来考察数 据是否满足假设。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院115

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX考虑线性

归模型Y

=

+

ε,(1)•⊤1⊤n若用X

,...,X

表示X

的n个行向量,定义第i

次观测的残差⊤i

i

iˆe

=

Y

X

β,

i

=

1,

...,

n将残差ei

看作误差εi

的一次观测值,如果模型(1)正确,ei

应具有εi

的一些特征。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院116

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COXi记Yˆ

=X

βˆ,

称Yˆ

为拟合值向量,

称其第i

个分量Yˆi

=X

⊤βˆ为第i

个拟合值,则Yˆ

可以写成Yˆ

=

X

(X

⊤X

)−1X

⊤Y

=

HY

,其中H

=X

(X

⊤X

)−1X

⊤,文献中通常称之为帽子矩阵。容易验证,帽子矩阵H满足H⊤

=

H,

H2

=

H,即帽子矩阵是一个对称幂等阵。利用帽子矩阵H,残差向量e可表示为e

=

Y

=

(I

H)Y

=

(I

H)ε.(2)李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院117

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX定理考虑线性

归模型(1),则由(2)式所定义的残差向量具有如下性质:E

(e)

=

0,

Cov

(e)

=

σ2(I

H);若进一步假设误差服从正态分布,即ε

∼N(0,σ2I

),则e

N(0,

σ2(I

H)).李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院118

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院119

/

110

归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX根据正态分布的性质,若随机变量U

∼N(µ,

σ2),则P(µ

<

U

<

µ

+

2σ)

=

95.4%.因此学生化残差具有如下性质:当µ

=0,σ

=1时,大约应有95.4%的ri

落在区间[−2,2]中。拟合值向量Yˆ

与残差e相互独立,因而与学生化残差r1,...,rn也独立。如果以拟合值yˆi

为横轴,ri

为纵轴,那么平面上的点(yˆi

,ri

),i

= 1,...,n大致应落在宽度为4的水平带|ri|≤2区域内,且不呈 现任何趋势。这种以残差为纵轴,以拟合值或其它量为横轴的图称为残差图,这是回归诊断的一个重要工具。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院120

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX残差示意图李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院121

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院122

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX本章介绍了

归模型随机误差项违背基本假设的诊断与修正方法,以及异常值的识别和处理。随机误差序列方差不同或存在相关,分别对应了违背基本假设的异方差性和自相关现象。残差图分析是诊断两者最直观的方式,但比较粗糙。更准确的诊断方法包括:借助等级相关系数检验或其他方法 来诊断是否具有异方差性;通过自相关系数或DW检验等方 法考察序列相关是否存在。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院123

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX当根据某种检验方法认为存在异方差时,可以用自变量的幂函数作为权函数,作加权最小二乘

归。但是加权最小二乘估计并不能消除异方差,只是能够消除或减弱异方差的不良影响;研究者们还常常考虑对因变量进行方差稳定变换,使得对变换过后的数据,误差方差能够近似相等,即方差比较稳定;要注意的是方差稳定变换在改变误差项方差的同时,也会改变误差项的分布和

归函数的形式。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院124

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COXDW检验是检验随机误差项自相关性最常用的一种方法,但DW检验有一些局限性。不仅因其不适合随机项具有高阶序列相关的检验,还因为DW检验有两个不能确定结果的区域。当模型存在序列相关时,常通过迭代法和差分法消除自相关性。要注意的是用迭代法处理序列相关并不总是有效。一阶差分法是自相关系数ρ

=1时的迭代法,因此只有当ρ

=1或者接近1时,差分法的效果才会好。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院125

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX异常值的识别和处理是优化

归方程的必要部分。通过散点图可以简单直观地对某些点进行甄别。更准确地方法,则是通过计算删除学生化残差、杠杆值、Cook统计量等对异常值进行判断。识别出异常值后,需要对异常值产生的原因进行诊断,不能简单地剔除异常值。有时异常值是正确的观测,出现的原因可能是由于模型遗漏 了关键的自变量,或模型设定错误,这时将为模型的修正带 来启发。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院126

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX变换广义最小二乘估计小结与评注李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院127

/

110编号

Y

(亿元)X

(万亩)

编号

Y

(亿元)

X

(万亩)农作物产值播种面积农作物产值播种面积116.31907.516183.6517729.2217.14873.217146.7911061.53125.2413159.218129.6311304.7442.245928.119154.289166.2540.286834.42061.246821.7684.475495.521206.517779.6770.76055.22244.374701.38101.6712694.62351.796036.1916.831018.5243.53316.510211.5112770.92559.457016.5111016542.72637.295252.512155.8712244.3276.33761.71349.723601.52810.071235.21469.78158.12944.784275.115255.9216564.5异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理农作物种植业产值与播种面积关系表

1:1986

29

个省市自治区农作物种植业产值和农作物播种面积数据李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院128

/

110归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理

异常值和强影响点BOX-COX1986年29个省市自治区农作物种植业产值和农作物播种面积数据如表所示,以农作物种植业产值作为因变量Y

,以农作物播种面积作为自变量X

,建立一元线性

归模型。首先利用普通的最小二乘估计得到经验

归模型Yˆ

=

−5.661

+

0.012X

.其次做残差与自变量农作物播种面积的散点图如下所示,可以发现有明显的异方差问题。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院129

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX异方差性产生的原因模型设定错误常导致异方差,模型设定主要包括变量的选择。模型遗漏关键解释变量常导致异方差,此时随机误差项、异方差的产生与解释变量密切相关。设正确模型的形式为Yi

=β0

+β1Xi1

+β2Xi2

+β3Xi3

+εi

,但实际采用的是Yi

=

β0

+

β1Xi1

+

β2Xi2

+

ui

,即略去了解释变量X3。当X3与X1,X2之间存在相关性或某种函数关系时,其影响将体现在误差项中。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院130

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院131

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX异方差性的影响当

归模型出现异方差时,如果仍用OLS估计来估计未知参数,将引起不良后果。参数的OLS估计仍是无偏的,但不再是最小方差线性无偏估计(BLUE)。普通最小二乘估计的无偏性仅依赖于解释变量非随机与随机 误差项均值为0的假定,而其为BLUE则需要高斯—马尔可夫 条件均满足。本章广义最小二乘估计这一节将介绍当异方差存在时,比OLS更 有效的线性无偏估计。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院132

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX

将不再服从t分布,并且即使扩大样本量也不能解决这个问题。类似地,F

统计量不再服从F

分布。因此,异方差的存在使高 斯-马尔可夫假定下进行的假设检验不再有效,检验结果不再 值得信任。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院133

/

110归模型的诊断异方差的诊断及其处理自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论