回归分析基本思想第二课时课件人教版选修_第1页
回归分析基本思想第二课时课件人教版选修_第2页
回归分析基本思想第二课时课件人教版选修_第3页
回归分析基本思想第二课时课件人教版选修_第4页
回归分析基本思想第二课时课件人教版选修_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.1

回归分析的基本思想及其初步应用(二)选修2-3之第三章《统计案例》1aˆ

=

Y

-

bXn(xi

-

X

)(

yi

-Y

)=

i=1n

i(

X

-

X

)2i=1nn-

nx

xiyi

-

nxy

xii=122bˆ

=

i=1

前置测评1、求回归直线方程yˆ

=bˆx

+aˆ

(最小二乘法):(X

,Y

)为样本点的中心22、我们通常用相关系数r来描述两个变量之间线性相关关系的强弱。

2n22n

i=1

i=12i

ix

y

x

-

n(

)

y

-

n(

)n

xi

yi

-

n

x

yr

=

i=1

★其中:(1)|r|≤1;|r|越接近于1,相关程度越强,|r|越接近于0,相关程度越弱;b

与r

同号。前置测评3无法显示该图片。3、线性回归模型:2y

=

bx

+

a

+

eE(e)

=

0,

D(e)

=

s其中:e是随机误差,均值E(e)=0,方差D(e)=σ2>0当随机误差e恒等于0时,线性回归模型就变成一次函数模型。即:一次函数模型是线性回归模型的特殊形式。4、相关系数r与随机误差e一般有什么关系?前置测评45随机误差e

=y

-yˆe的估计量eˆ

=y

-yˆ样本点:(x1

,y1

),(x2

,y2

),...,(xn

,yn

)相应的随机误差为:ei

=

yi

-

yˆi

=

yi

-

bxi

-

a,

i

=

1,

2,

...,

n相应的随机误差估计值为:eˆi

=

yi

-

yˆi

=

yi

-

bˆxi

-

aˆ,

i

=

1,

2,

...,

neˆi

称为相应于点(xi

,yi

)的残差ˆ

2ˆ2i

=1ˆ

ˆs

=

n

-

2ie

=

Q(a,

b)(n

>

2)n

-

2n

1

1

2

的估计量s为Q(aˆ,bˆ)

称为残差平方和。实际上即为具体到某

点的随机误差估计值。6残差分析在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否是线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差eˆ1

,eˆ2

,,eˆn

来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析。7编号12345678身高/cm165165157170175165155170体重/kg4857505464614359残差eˆ-6.3732.6272.419-4.6181.1376.627-2.8830.382下表为女大学生身高和体重的原始数据以及相应的残差数据:以纵坐标为残差,横坐标为编号,作出图形(残差图)来分析残差特性.886420-2

0-4-6-8246810残差系列1编号由图可知,第1个样本点和第6个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的

错误.如果数据采集有错误,就予以纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他原因.22ˆ)问:如何刻画模型拟合的精度?ni

ini

=1(

y

-

y相关指数:R2

=

1

-

i

=1

i(

y

-

y)在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.R2取值越大(越接近1),则残差平方和越小,即模型的拟合效果越好.(实际上就是:|r|越大,则|e|越小)在例1中我们可以求出R2=0.64,表明:“女大学生的身高解释了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”。9★其中:10建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,(是否存在线性关系观察它们之间的关系由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程y=bx+a);按一定规则估计回归方程中的参数(如最小二乘法);得出结果后分析残差图是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等.是否存在线性关系);11例2、一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表,试建立y与x之间的回归方程.温度x/0C21232527293235产卵数y/个711212466115325解:收集数据作散点图:350300250200150100500010304020温度产卵数系列112在散点图中,样本点没有分布在某个带状区域内,因此两个变量不呈现线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线参数.的周围,其中c1和c2是待定21c

xy

=

c

e令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围.利用线性回归模型建立y和x之间的非线性回归方程.当回归方程不是形如y=bx+a时,我们称之为非线性回归方程.13X21232527293235z1.9462.3983.0453.1784.1904.7455.784所得线性回归方程为:zˆ

=0.272

x

-3.84921c

xy

=

c

ea=lnc1,b=c2所以红铃虫的产卵数对温度的非线性回归方程为:yˆ(1)

=

e0.272

x

-3.849350300250200150100500010304020温度产卵数系列1若看成样本点集中在某二次曲线y=c3x2+c4的附近.作变换t=x2,建立y与t之间的线性回归方程:y=c3t+c4.14还可以拟合成什么函数模型?t44152962572984110241225y7112124661153253503002502001501005000

5001000

1500温度的平方产卵数系列1yˆ(2)

=

0.367t

-

202.543y关于x的二次回归方程为:yˆ(2)

=

0.367

x2

-

202.54315yˆ(2)

=

0.367

x2

-

202.543yˆ(1)

=

e0.272

x

-3.849利用残差计算公式:eˆ

(1)

=

y

-

(1)

=

y

-

e0.272

xi

-3.849

,

i

=

1,

2,,

7i

i

i

ieˆi

=

y

-

=

y

-

0.367

x

+

202.543,

i

=

1,

2,,

7(2) (

2)

2i

i

i

iX21232527293235Y711212466115325eˆ(1)i0.557-0.1011.875-8.9509.230-13.38134.675eˆ(2)i47.69619.400-5.832-41.000-40.104-58.26577.968由残差平方和:Qˆ

=2ˆniei

=1或由条件R2分别为0.98和0.80,同样可得它们的效果.故指数函数模型的拟合效果比二次函数的模拟效果好16.Qˆ

(1)

=

1550.538,Qˆ

(

2)

=

15448.431.17给定样本点:(x1

,y1

),(x2

,y2

),...,(xn

,yn

)两个含有未知参数(a、b为未知参数)的模型:yˆ(1)

=

f

(

x,

aˆ)

yˆ(2)

=

g(

x,

bˆ)aˆ,bˆ分别是参数a和b的估计值.(2)分别计算两个回归方程的残差平方和(1)(1)

2(

2)(

2)

2ˆˆˆˆ)n

ni

ii

=1i

=1(

y

-

y)

Q

=i

i(

y

-

yQ

=yˆ(1)

=

f

(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论