大数据技术及应用 第5章 大数据分析挖掘-回归_第1页
大数据技术及应用 第5章 大数据分析挖掘-回归_第2页
大数据技术及应用 第5章 大数据分析挖掘-回归_第3页
大数据技术及应用 第5章 大数据分析挖掘-回归_第4页
大数据技术及应用 第5章 大数据分析挖掘-回归_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章大数据分析挖掘-回归回归分析算法0

10

20

3主要内容回归分析的步骤回归分析概述回归算法评估0

4变量的关系类型:煉确定性关系:多个变量之间存在明确的依赖关系,可以用确定的或者已知的函数关系来表示。煉非确定性关系;多个变量之间存在密切的联系,会互相影响和制约,但由于有不可预知的其他因素存在,这种依赖关系具有不确定性,不能用确定的函数关系来表示。这种变量之间存在相互依赖但又不能通过确定函数来描述的关系称为变量间的统计关系或者相关关系。1

回归分析概述1

回归分析概述050100150200250010203060708090销售额Y(万元)40

50广告支出X(万元)广告费用支出与商品销售额关系图回归分析(Regression

Analysis)是基于数据统计的原理,对经过预处理后的大数据进行数学建模,确定一个或者多个独立预测变量(自变量)与响应变量(因变量)之间相互依赖的定量关系,建立相关性较好的回归方程(数学函数表达式),通过数学模型进行描述和解释,并用做预测未来响应变量变化的统计分析方法。1

回归分析概述煉按照自变量个数的多少,分为一元回归分析和多元回归分析。煉根据自变量和因变量的相关关系,分为线性回归分析和非线性回归分析。煉部分非线性回归问题可以借助数学手段将其转化为线性回归问题;对于不可以线性化的回归模型,也可以采用转换成近似线性化回归模型的方法。1

回归分析概述2

回归分析的步骤确定预测目标(因变量),分析影响因素(自变量),建立回归分析预测模型基于已有的统计数据,计算回归参数,构建回归分析方程计算回归分析方程的预测误差,考察回归曲线的拟合程度对回归分析预测模型进行校验,判定回归分析方程的实际意义根据回归方程和具体条件,预测目标的未来状况,并计算预测值和确定预测值的置信区间差项或随机干扰项。2

回归分析的步骤回归分析的基本步骤如下:(

1

)根据背景理论和经验描述,建立自变量与因变量之间的数学关系式,即回归分析预测模型。基于自变量和因变量的历史统计数据,计算得到合理的回归参数,构建回归分析方程。线性回归模型:Y

a

bX

其中a

、b称为回归参数,分别称为截距和斜率,

为随机误2

回归分析的步骤回归分析的基本步骤如下:回归分析方程为:YㄏaㄏbㄏX其中aㄏ和bㄏ为通过参数估计方法得到的回归参数。通常采用普通最小二乘法(Ordinary

L

east

Squares,OL

S)和最大似然法(Maximum

L

ikelihood,ML

)对回归参数进行估计,得到的回归方程就是最佳拟合曲线。2

回归分析的步骤回归分析的基本步骤如下:(

2

)计算回归方程的预测误差,考察所得到的回归曲线对观测数值的拟合程度。通常用拟合优度(Goodness

of

Fit)来表示由回归方程得到的回归曲线对观测值的拟合程度,度量拟合优度的统计量为决定系数(Coefficient

of

Determination),记作R2。在多元回归模型中,使用调整的R

2(Adjusted

R-Square)进行评估。2

回归分析的步骤回归分析的基本步骤如下:(

3

)对模型进行校验,从而判断所建立的回归方程是否有意义。皮尔森相关系数(Pearson

Correlation

Coefficient,PCC)常用于度量自变量X和因变量Y之间的线性相关程度;F校验(FTest)是用于度量自变量与因变量之间线性关系是否显著的校验方法;t校验用于对回归参数的显著性进行校验,检测回归方程中某个自变量是否是因变量的一个显著性影响因素。2

回归分析的步骤回归分析的基本步骤如下:(

4

)根据已经得到的回归方程和具体条件,来确定预测目标的未来状况,并计算预测值,对预测值进行综合分析,确定预测值的置信区间。3

回归分析算法线性回归非线性回归其他回归分析线性回归采用直线或

平面去近似连续自变

量与连续因变量之间

的关系,是比较基础

简洁的一种分析方式。自变量X与因变量Y之间呈现某种曲线关系,采用非线性回归模型更加符合实际应用需求。逐步回归分析、岭回归分析、套索回归分析、弹性网回归分析等。线性回归01一元线性回归因变量Y与自变量X之间的关系满足如下线性模型:Y

0

1

X

其中

0

1

是回归模型参数,

0称为常数或截距,

1

为斜率,

为随机误差项,服从均值为零的正态分布,即E

0

,反映了随机因素对因变量Y的影响程度。线性回归01一元线性回归(1)回归参数估计求解过程:最小二乘法的基本原理就是求得

0和

1

,使得所有样本数据的实际数值与估计值之间的残差平方和(Residual

Sum

of

Squares,RSS)(即垂直距离平方和)最小,计算公式为:22minn

ni

ii

0

1i

1

i

1(

y

y

)

min(

y

x)

线性回归01一元线性回归(1)回归参数估计求解过程:0i

1

n2

i

1

2(y

x

)

0

(yi

yi

)

n

i

0

1

i1ni

1

n2

i

1

2(y

x

)x

0

(yi

yi

)

i

0

1

i

i

0

y

1

x1

xy

xyx2

x2

ninx

1

xniy

1

n

yni

i

nxy

1

x

y2nixnx2

1

线性回归01一元线性回归(2)回归方程的拟合优度决定系数R2:总平方和TSS:回归平方和ESS:2RSSTSSTSSTSSESS TSS

RSSR

1

2ii

1TSS

(

y

y)n

2ㄏi

1总平方和可以分解为TSS=RSS+ESSESS

(

yy)n

i线性回归01家庭序号/户123456789101112131415单身居民家庭月收入/百元303542456040475070748065555838月食品消费/百元161923182914222130323929202517工龄/年13659354.56.55103572一元线性回归(3)参考范例单身居民家庭月收入、月食品消费与工龄数据线性回归01一元线性回归(3)参考范例9080706050403020100024610121416收入与消费/百元8家庭序号/户单身居民家庭月收入x

月食品消费y家庭月收入与月食品消费的数据变化趋势线性回归01一元线性回归(3)参考范例单身居民家庭月收入与月食品消费散点图4540353025201510500102060708090月食品消费/百元30

40

50单身居民家庭月收入/百元线性回归01一元线性回归(3)参考范例

1)回归方程求解2xy

xy

52.6

23.6

1331.6

1

2

0.4289552.6

2977.13333x

x2

0

y

1

x

23.6

0.4289552.6

1.03714一元线性回归方程Y

1.03714

0.42895

x线性回归01一元线性回归(3)参考范例

1)回归方程求解线性回归01一元线性回归(3)参考范例2)回归方程的拟合优度校验居民月收入x实际月食品消费数值y月食品消费预测值301613.90564351916.05039422319.05304451820.33989602926.77414401418.19514472221.19779502122.48464703031.06364743232.77944803935.35314652928.91889552024.62939582525.91624381717.337242677.6ESS

580.62441TSSR

0.85689线性回归01一元线性回归(3)参考范例2)回归方程的拟合优度校验4540353025201510500216184

6

8家庭食品消费(百元)10

12

14食品消费预测值(百元)线性回归01多元线性回归因变量Y与多个自变量X1,X2,...,Xn之间的关系满足如下线性模型:Y

0

1

X1

2

X2

...

n

Xn

其中

0、

1

,⋯,

n

是回归模型参数,

为随机误差项,服从均值为零的正态分布,即E

0

,反映了随机因素对因变量Y的影响程度。线性回归01多元线性回归得所有样本数据的实际数值与估计值之间的残差平方和(Residual

Sum

of

Squares,RSS)(即垂直距离平方和)最小,计算公式为:(1)回归参数估计求解过程:最小二乘法的基本原理就是求得

0

,

1

,,

n

,使2i

ii

0

1

i1

2

i

2

n

ini

1RSS

(

y

y

)

(

y

x

x

x

)2m

m

i

1线性回归01多元线性回归(1)回归参数估计22mi

in

(

y

y

)

i

1

0

i

i

0

m2

(

y

y

)

i

1

0

i

i

1

m

(

y

y

)

i

1

0

求解过程:mmmi

1i

1i

1

n

xin

)

0

n

xin

)

0

n

xin

)

0

2

(

yi

0

1

xi1

2

xi

2

2

xi1

(

yi

0

1

xi1

2

xi

2

2

xin

(

yi

0

1

xi1

2

xi

2

线性回归01多元线性回归(2)回归方程的拟合优度调整的R2(Adjusted

R-Square):其中n为样本总数,k为自变量的个数,n-1为TS

S的自由度,n-

k-1为RS

S的自由度,等于观测样本总数减去待估计回归参数的个数。

22RSS

/

n

k

1

n

11

1

R

R

1

TSS

/

n

1n

k

1线性回归01家庭序号/户123456789101112131415单身居民家庭月收入/百元303542456040475070748065555838月食品消费/百元161923182914222130323929202517工龄/年13659354.56.55103572多元线性回归(3)参考范例单身居民家庭月收入、月食品消费与工龄数据线性回归01多元线性回归(3)参考范例月食品消费/百元工龄/年y与x2工龄x2月食品消费y12

454010358

30256204

1510250

01

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16家庭序号/户居民工龄与月食品消费的数据变化趋势线性回归01多元线性回归(3)参考范例1)回归方程求解y

0

1

x1

2

x2

0

1.610241,

1

0.367021,

2

0.536894y

1.610241

0.367021x1

0.536894

x2多元线性回归方程为线性回归01多元线性回归(3)参考范例1)回归方程求解线性回归01多元线性回归(3)参考范例2)回归方程的拟合优度校验2ESS

593.1724664TSS

677.6R

0.875422RSS

/

n

k

1

n

1R

1

1

1

R

TSS

/

n

1

n

k

115

11

0.1246

15

2

10.8546居民月收入x工龄X2实际月食品消费数值y月食品消费预测值y3011613.1577653531916.0666584262320.2464874551820.8106566092928.4635474031417.9017634752221.544698504.52122.377314706.53030.7915227453231.45426580103936.3408616532927.0772885552024.4808665872526.6557173821716.630827线性回归01多元线性回归(3)参考范例2)回归方程的拟合优度校验45403530252015105002

4

610

12

1416月食品消费/百元8家庭序号/户月食品消费实际值月食品消费预测值线性回归01多元线性回归(3)参考范例2)回归方程的拟合优度校验45403530252015105002410121416月食品消费/百元6

8家庭序号/户一元预测值多元预测值月食品消费非线性回归02对于已知的一组真实数据(xi,yi),i=1,2,⋯,n,非线性回归模型可以写为如下形式:Y

f

(X,

)

其中自变量xi=(xi1,xi2,⋯,xik),未知回归参数β=(β0,β1,⋯,βl),同样假定随机误差项

服从正态分布,均值为零,即E(ε)=0且方差var(ε)=σ2。对于一般的非线性回归模型来说,不要求kl

。非线性关系的处理方法:自变量X和因变量Y之间的关系可以通过函数替换转为线性,然后利用线性回归模型的求解方法。自变量X与因变量

Y之间的非线性关系对应的描述函数形式不明确。自变量X与因变量Y之间的非线性关系对应的描述函数形式很明确,但回归参数是未知的。可转换为线性回归模型多项式回归分析不可转换为线性回归模型非线性回归02煉可转换为线性回归模型的非线性关系(1)直接代换非线性回归02当变量xi

,yi之间是非线性关系,而回归参数之间是线性关系时,可以利用变量直接代换的方法将回归模型线性化。根据已有经验理论或者绘制数据的散点图进行判断,选择适当的非线性回归模型对模型进行变量代换,使变换后的模型转化为线性回归模型应用线性回归分析方法对变换后的线性回归模型进行求解,确定回归参数,并进行回归校验对校验符合要求的回归模型进行变量逆代换,恢复出回归模型原始形式;对校验不符合要求的重新进行回归拟合,直至符合要求为止。煉可转换为线性回归模型的非线性关系(1)直接代换1)双曲线模型非线性回归021

1

y

0 1

x*

*11yx设y,x

,转化为一元线性回归模型:y*

0

1

x*

煉可转换为线性回归模型的非线性关系(1)直接代换

1)双曲线模型非线性回归02xy1

0(0

0

,

1

0

)0xy1

0(0

0

,

1

0

)0非线性回归02煉可转换为线性回归模型的非线性关系(1)直接代换

2)半对数模型ln

y

0

1

x

y

0

1

ln

x

如果设y*

ln

y,x*

ln

x,转化为一元线性回归模型:y*

0

1

x

y*

0

1

x

煉可转换为线性回归模型的非线性关系(1)直接代换2)半对数模型非线性回归02xy(1

0

)x(1

0

)00y

0

1

ln

x

yln

y

0

1

x

非线性回归02煉可转换为线性回归模型的非线性关系(1)直接代换

3)双对数模型ln

y

0

1

ln

x

设y*

ln

y,x*

ln

x

,转化为一元线性回归模型:y*

x*

0

1非线性回归02煉可转换为线性回归模型的非线性关系(1)直接代换

4)三角函数模型以正弦函数模型为例:y

0

1

sin

x

设y*

y,x*

sin

x

,转化为一元线性回归模型:y*

0

1

x*

对上式两边取对数可得:非线性回归02煉可转换为线性回归模型的非线性关系(2)间接代换

1)指数函数模型y

aebxln

y

ln

a

bx

设y*

ln

y

,转化为线性回归模型:y*

ln

a

bx

煉可转换为线性回归模型的非线性关系(2)间接代换

1)指数函数模型非线性回归02xy(b

0

)xy(b

0

)00对上式两边取对数可得:非线性回归02煉可转换为线性回归模型的非线性关系(2)间接代换

2)幂函数模型y

a

xbe

ln

y

ln

a

b

ln

x

设y*

ln

y,x*

ln

x

,可得如下线性回归模型:y*

ln

a

bx*

非线性回归02x煉可转换为线性回归模型的非线性关系(2)间接代换

2)幂函数模型y(b

0

)xy(b

0

)001

b

0b

1b1b

1b

10

b

1煉多项式回归(1)多项式回归模型当自变量数目为1时,称为一元多项式回归,当自变量大于1时,称为多元多项式回归。以一元k次多项式回归模型为例,其一般形式可写为:其中k为多项式的阶数。非线性回归0220

1

22k

y

x

x

xk

0,V

ar()

E

()

煉多项式回归(1)多项式回归模型一元二次多项式可写为:非线性回归02y

x

x2

0

1

2xy(2

0

)xy(2

0

)00煉多项式回归(1)多项式回归模型多项式回归问题通常可以使用变量代换法转化为多元线性回归问题来处理,参照线性回归模型的求解思路,使用最小二乘法(OLS)完成对多项式回归模型的参数估计。需要注意的是,转化过程可能会导致自变量之间存在一定程度的多重共线性问题,一般通过构造正交多项式来解决。非线性回归02煉多项式回归(2)参考范例非线性回归02序号xy123.685.17230.1310.54338.9212.86443.5215.76546.1416.98653.3416.76760.1515.53867.3613.16969.7810.851076.239.341179.828.581285.475.13观测数据集合煉多项式回归(2)参考范例非线性回归021816141210864200102030405060708090YX观测数据散点图非线性回归02煉多项式回归(2)参考范例自变量x与因变量y之间的关系可以表示多项式回归方程,即y

0

1

x1

2

x121)对多项式回归方程进行求解计算残差平方和RSS:1222

2i

ii

0

1

i

2

ii

1i

1RSS

(y

y

)

(y

x

x

)

12

非线性回归02煉多项式回归(2)参考范例1)对多项式回归方程进行求解分别对

0

,

1

,

2

等求一阶偏导并使其一阶偏导值为0:1212122i

0

1

i

2

ii

0

1

i

2

ii

0

1

i

2

ii

1i

1i

1

2(y

x

x

2

)

0

2

x(y

x

x

2

)

0

(y

x

x

2

)

0

2

x

i

i

非线性回归02煉多项式回归(2)参考范例1)对多项式回归方程进行求解进行求解可得到:

0

16.5329,

1

1.2266,

2

0.0115由此得到的多项式回归方程为:y

16.5329

1.2266

x

0.0115

x

21

1煉多项式回归(2)参考范例1)对多项式回归方程进行求解非线性回归02煉多项式回归(2)参考范例2)多项式回归模型的拟合优度校验非线性回归022ESS

177.8595TSS

191.284R

0.929822RSS

/

n

k

1

n

112

1R

1

1

1

R

1

0.0702

0.9228TSS

/

n

1

n

k

112

1

1非线性回归02煉不可转换为线性回归模型的非线性关系(1)逐次迭代估计思路首先尽量运用变量代换简化复杂函数模型,变为较简单的非线性回归模型;然后所有未知参数

指定一组初始值

0,将原方程通过泰勒级数展开,使得非线性方程在初始值附近线性化;对这一线性方程应用最小二乘法(OLS),得出一组新的参数估计值

;用新的参数估计值

替代初始值

0,再次将方程通过泰勒级数展开,使非线性方程在新的参数估计值附近线性化,对新得到的线性方程再次应用OLS方法,重新得出一组新的参数估计值;煉不可转换为线性回归模型的非线性关系(1)逐次迭代估计思路3)不断重复新参数更新过程,直至所得到的参数估计值收敛,稳定于某一数值,迭代过程至此结束。例如著名的生产函数CES(Constant

Elasticity

of

Substitution)非线性回归02

1Q

A(1K

2

L

)

e

2

1非线性回归02煉不可转换为线性回归模型的非线性关系(2)常用的数值迭代算法数值迭代算法的共同特点:由未知参数

的初值

0出发,选定

m

)和步长t(t

0),通过适当的搜索方向向量(1

,

2

,逐步迭代公式确定新的

,如下:

0

t

其他回归分析方法03煉逐步回归分析基本思想:将众多自变量按照对因变量的重要程度进行筛选,继而从自变量集合

X1

,X2

,,Xn

中得出对因变量Y影响最显著的自变量子集

X1

,X2

,,Xp

(p

n),由该自变量子集构建出的回归方程被认为是最优回归方程。煉逐步回归分析其他回归分析方法03构造方法逐步剔除法逐步引入法逐步回归分析法构造原理又称后向剔除法(Backward),先用全部自变量与因变量构造回归方程,再对自变量逐个进行显著性校验,依次剔除最不显著的自变量。又称前向引入法(Forward),采用递归的方法依次选择当前与因变量相关性最显著的那个自变量,然后与之前已选择的自变量一起建立回归方程;每次都对新引入的自变量进行显著性校验,直至校验不能通过为止。基本原则是“有进有出”,按照对因变量显著性影响程度的大小,逐次在回归方程中引入单个自变量。优点显著性校验涉及到全部自变量计算量显著降低自变量引入和剔除最为灵活缺点计算量最大,自变量一旦剔除不再考虑不能涉及全部自变量,自变量一旦选中,不再剔除显著性校验计算量大其他回归分析方法03煉岭回归分析岭回归(Ridge

Regression)实质上是一种改进的最小二乘估计方法,是针对共线性数据分析的有偏估计方法。多重线性回归方程的回归参数:=(X

T

X)1

XTY在岭回归中估计多重共线性回归模型的参数时:(k)

(X

T

X

kI

)1

XTY其中k

0称为岭参数,取不同的k值可以得到不同的岭估计。其他回归分析方法03煉岭回归分析岭回归分析的基本思路:考虑自变量X量纲上的差异,对自变量X做中心化和标准化处理,方便进行比较;确定合适的岭参数k值,使得MSE((k))达到最小。根据自变量的岭迹图对自变量进行筛选;根据岭回归得到的估计参数写出回归方程,结合专业理论知识综合判断自变量的参数取值是否符合实际情况,预测数值是否基本吻合,从而做出相应结论。4

回归算法评估平均绝对误差MAE平均绝对误差是样本集中所有观测数据与预测数据之间的绝对误差平均值。假设数据集中共有n个样本,每个样本用(xi,yi)表示,yㄏi

是通过回归模型得到的预测数据。1n

n

i

1MAE

(y,

y)

yi

yi4

回归算法评估均方误差MSE是样本集中所有观测数据与预测数据之间的误差平方的平均值,可以很好反映预测数据偏离真实数据的程度。21in

i

1

MSE

(y,

y)

y

y

i

n

4

回归算法评估平均绝对百分误差MAPEMAPE是相对误差的预期值:均方根误差RMSE为均方误差MSE的算术平方根,表示预测值和观测值之差的样本标准差,主要反映样本集内数据的离散程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论