数据处理`回归分析及其Matlab应用_第1页
数据处理`回归分析及其Matlab应用_第2页
数据处理`回归分析及其Matlab应用_第3页
数据处理`回归分析及其Matlab应用_第4页
数据处理`回归分析及其Matlab应用_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021-7-171 数据处理、回归分析 及其Matlab应用 牡丹江师范学院数学系 制作人:赵文英 2021-7-172 现实中的问题 例子 : 牙膏的销售量和广告费之间的关系 农业上施肥量与亩产量之间的关系 回归分析是常用的数理统计方法,能解决预 测、控制、生产工艺优化等问题.在工农业生 产和科学研究领域有广泛应用 回归分析是处理这类问题的一种办法 2021-7-173 回归分析回归分析 2021-7-174 1.1 1.1 一元线性回归一元线性回归 例例1 测16名成年女子的身高与腿长所得数据如下: 以身高x为横坐标,以腿长y为纵坐标将这些数据点(xI,yi) 在平面直角坐标系上标出.s

2、catter(x,y),或者plot( ) 140145150155160165 84 86 88 90 92 94 96 98 100 102 散点图 xy 10 一、一元线性回归一、一元线性回归 2021-7-175 一般地,称由xy 10 确定的模型为一一元元线线性性回回归归模模型型, 记为 2 10 , 0 DE xy 固定的未知参数 0 、 1 称为回归系数,自变量 x 也称为回归变量. 一元线性回归分析的主要任务主要任务是: 1、用试验值(样本值)对 0 、 1 和作点估计; 2、对回归系数 0 、 1 作假设检验; 3、在 x= 0 x 处对 y 作预测,对 y 作区间估计. x

3、Y 10 ,称为 y 对对 x的的回回归归直直线线方方程程. 返回 2021-7-176 二、多元线性回归分析二、多元线性回归分析 一般称 n ICOVE XY 2 ),(, 0)( 为高斯马尔柯夫线性模型(k k 元元线线性性回回归归模模型型),并简记为),( 2 n IXY n y y Y . . 1 , nknn k k xxx xxx xxx X .1 . .1 .1 21 22221 11211 , k . 1 0 , n . 2 1 kkx xy. 110 称为回回归归平平面面方方程程. 返回返回 2021-7-177 预备知识 三、Matlab线性回归分析的命令 1 点估计是利用

4、样本数据对未知参数进 行估计,得到的是一个具体的数据 的点估计和区间估计 i 区间估计是通过样本数据估计未知参 数在置信度下的最可能的存在区间,得 到的结果是一个区间 2021-7-178 2 残差的置信区间 残差是真实值与理论值之间的差值 置信区间就是一个随机区间,它能以 足够大的概率套住我们感兴趣的参数. 当残差的置信区间均包含原点时,说 明建立的模型较好的符合原始数据. 2021-7-179 回归模型的检验数据 3 1、相关系数(R)是用来检验函数 变量与自变量之间线性相关的的密切 程度.其相关系数的平方越接近1,说 明回归方程越显著. ( ,1), 1- 2、F检验:如果FF 说明建立

5、的回归方程有显著的线性关系 ;否则线性关系不显著,总之F的返回值 越大越好. k nk 2021-7-1710 3,( 0.05) 、与F对应的概率P,当P默认 值为,回归模型成立,可用. 2021-7-1711 b=regress( Y, X ) npnn p p xxx xxx xxx X .1 . .1 .1 21 22221 11211 n Y Y Y Y . 2 1 p b . 1 0 1、确定回归系数的点估计值:确定回归系数的点估计值: 01 1 . pp yxx 对一元线性回归,取 p=1 即可 Matlab的具体命令 2021-7-1712 3、画出残差及其置信区间:画出残差及

6、其置信区间: rcoplot(r,rint) 2、求回归系数的点估计和区间估计、并检验回归模型:求回归系数的点估计和区间估计、并检验回归模型: b, bint, r,rint,stats=regress(Y,X,alpha) 回归系数的区间估计 残差 用于检验回归模型的统计量, 有三个数值:相关系数R2、F 值、与F对应的概率p 置信区间 显著性水平 (缺省时为0.05) MATLAB7.0版本版本 s增加一个统计量增加一个统计量: 剩余方差剩余方差s2. 2021-7-1713 4、预测区间 Y的置信水平为 的预测区间近似为 当 预测区间为 当 预测区间为 :为剩余标准差 Qe是残差平方和,

7、n 是样本个数 1 0.05, 1.96,1.96 eeyy 0.01, 2.58,2.58 eeyy e 2 /(2) e e Qn 2021-7-1714 模型建立 例例1 首先要画散点图,看y与x是否可能存在线 性关系 To MATLAB(散点图) 由图确定y与x 可能存在线性 回归模型,建 立回归模型 01 1 yx 2021-7-1715 1 1、输入数据:、输入数据: x=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164; X=ones(16,1) x; Y=88 85 88 91 92 93 93 95

8、 96 98 97 96 98 99 100 102; 2 2、回归分析及检验:、回归分析及检验: b,bint,r,rint,stats=regress(Y,X) b,bint,stats To MATLAB(liti11) 3.画出残差及其置信区间, 用命令rcoplot(r,rint) 2021-7-1716 残差分析,作残差图为 说明第二个点异常, 剔除重新进行估计 2021-7-1717 To MATLAB(liti11gai) b = -7.2100 0.6633 新的 bint = -20.8803 6.4602 0.5747 0.7519 stats = 0.9527 261.

9、6389 0.0000 0.8918 b = -16.0730 0.7194 原来 bint = -33.7071 1.5612 0.6047 0.8340 stats = 0.9282 180.9531 0.0000 1.7437 2021-7-1718 4、预测与作图 (1)(2)* ; ( , , , , ) zbbx plot x YKx z r 2021-7-1719 例例2: 血压与年龄、体重指数、吸烟习惯血压与年龄、体重指数、吸烟习惯 序 号 血 压 年 龄 体重 指数 吸烟 习惯 序 号 血 压 年 龄 体重 指数 吸烟 习惯 11443924.20211363625.00 2

10、2154731.11221425026.21 31384522.60231203923.50 101545619.30301756927.41 体重指数体重指数 = 体重体重(kg) / 身高身高(m) 的平方的平方 吸烟习惯吸烟习惯: 0表示不吸烟,表示不吸烟,1表示吸烟表示吸烟 建立血压与年龄、体重指数、吸烟习惯之间的回归模型建立血压与年龄、体重指数、吸烟习惯之间的回归模型 2021-7-1720 模型建立模型建立 血压血压y,年龄,年龄x1,体重指数,体重指数x2,吸烟习惯,吸烟习惯x3 3322110 xxxy y与与x1的散点图的散点图 y与与x2的散点图的散点图 线性回归模型线性回

11、归模型 回归系数回归系数 0, 1, 2, 3 由数据估计由数据估计, 是随机误差是随机误差 2021-7-1721 回归系数回归系数回归系数回归系数估计值估计值回归系数回归系数置信区间置信区间 045.36363.5537 87.1736 10.3604-0.0758 0.7965 23.09061.0530 5.1281 311.8246-0.1482 23.7973 R2= 0.6855 F= 18.8906 p0.0001 s2 =169.7917 模型模型 求解求解 回归系数回归系数回归系数回归系数估计值估计值回归系数回归系数置信区间置信区间 058.510129.9064 87.1

12、138 10.43030.1273 0.7332 22.34490.8509 3.8389 310.30653.3878 17.2253 R2= 0.8462 F= 44.0087 p0,a0 (3)指指数数曲曲线线 y=a bx e其中参数 a0. (4)倒倒指指数数曲曲线线 y=a xb e / 其中 a0, (5)对对数数曲曲线线 y=a+blogx,x0 (6)S 型型曲曲线线 x bea y 1 2021-7-1745 方法一方法一 2、输入数据:、输入数据: x=2:16; y=6.42 8.20 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.6

13、0 10.80 10.60 10.90 10.76; beta0=8 2; %初值初值 To MATLAB(feixx1) 2021-7-1746 3、求回归系数:求回归系数: beta,r ,J=nlinfit(x,y,volum,beta0); beta 得结果:得结果:beta = 11.6036 -1.0641 即得回归模型为即得回归模型为: x ey 10641. 1 6036.11 方法二:线性化方法方法二:线性化方法 2021-7-1747 4、预测及作图: YY,delta=nlpredci(volum,x,beta,r ,J); plot(x,y,k+,x,YY,r) To

14、MATLAB (feixx2) 2021-7-1748 牙膏的销售量牙膏的销售量 问问 题题 建立牙膏销售量与价格、广告投入之间的模型建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量预测在不同价格和广告费用下的牙膏销售量 收集了收集了30个销售周期本公司牙膏销售量、价格、个销售周期本公司牙膏销售量、价格、 广告费用,及同期其它厂家同类牙膏的平均售价广告费用,及同期其它厂家同类牙膏的平均售价 9.260.556.804.253.7030 7.930.055.803.853.8029 8.510.256.754.003.752 7.38-0.055.503.803.

15、851 销售量销售量 (百万支百万支) 价格差价格差 (元)(元) 广告费用广告费用 (百万元百万元) 其它厂家其它厂家 价格价格(元元) 本公司价本公司价 格格(元元) 销售销售 周期周期 2021-7-1749 基本模型基本模型 y 公司牙膏销售量公司牙膏销售量 x1其它厂家与本公司其它厂家与本公司价格差价格差 x2公司广告费用公司广告费用 110 xy 2 22210 xxy 55.566.577.5 7 7.5 8 8.5 9 9.5 10 x2 y -0.200.20.40.6 7 7.5 8 8.5 9 9.5 10 x1 y 2 2322110 xxxy x1, x2解释变量解释

16、变量(回归变量回归变量, 自变量自变量) y被解释变量(因变量)被解释变量(因变量) 0, 1 , 2 , 3 回归系数回归系数 随机随机误差(误差(均值为零的均值为零的 正态分布随机变量)正态分布随机变量) 2021-7-1750 MATLAB 统计工具箱统计工具箱 模型求解模型求解 b,bint,r,rint,stats=regress(y,x,alpha) 2 2322110 xxxy 由数据由数据 y,x1,x2估计估计 参数参数参数估计值参数估计值置信区间置信区间 17.32445.7282 28.9206 1.30700.6829 1.9311 -3.6956-7.4989 0.1

17、077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3 2021-7-1751 结果分析结果分析 y的的90.54%可由模型确定可由模型确定 参数参数参数估计值参数估计值置信区间置信区间 17.32445.7282 28.9206 1.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3 2 2322110 xxxy F远超过远超过F检验的临界值检验的临界值 p远小于远小于 =0.05 2的

18、置信区间包含零点的置信区间包含零点 (右端点距零点很近右端点距零点很近) x2对因变量对因变量y 的的 影响不太显著影响不太显著 x22项显著项显著 可将可将x2保留在模型中保留在模型中 模型从整体上看成立模型从整体上看成立 2021-7-1752 2 2322110 xxxy销售量预测销售量预测 价格差价格差x1=其它厂家其它厂家价格价格x3-本公司本公司价格价格x4 估计估计x3调整调整x4 控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=650万元万元 销售量预测区间为销售量预测区间为 7.8230,8.7636(置信度(置信度95%) 上限用作库存管理的目标值上限用作

19、库存管理的目标值 下限用来把握公司的现金流下限用来把握公司的现金流 若估计若估计x3=3.9,设定,设定x4=3.7,则可以,则可以95%的把握的把握 知道销售额在知道销售额在 7.8320 3.7 29(百万元)以上(百万元)以上 控制控制x1通过通过x1, x2预测预测y 2933.8 2 2322110 xxxy(百万支百万支) 2021-7-1753 模型改进模型改进 x1和和x2对对y 的的影响独立影响独立 2 2322110 xxxy 214 2 2322110 xxxxxy 参数参数参数估计值参数估计值置信区间置信区间 17.32445.7282 28.9206 1.30700.

20、6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3 参数参数参数估计值参数估计值置信区间置信区间 29.113313.7013 44.5252 11.13421.9778 20.2906 -7.6080-12.6932 -2.5228 0.67120.2538 1.0887 -1.4777-2.8518 -0.1037 R2=0.9209 F=72.7771 p=0.0000 3 0 1 2 4 x1和和x2对对y 的影响有的影响有 交互作用交互作用 2021-7-

21、1754 两模型销售量预测两模型销售量预测比较比较 214 2 2322110 xxxxxy 2 2322110 xxxy 2933. 8 y(百万支百万支) 区间区间 7.8230,8.7636 区间区间 7.8953,8.7592 3272. 8 y(百万支百万支) 控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=6.5百万元百万元 预测区间长度更短预测区间长度更短 略有增加略有增加 y 2021-7-1755 x2=6.5 x1=0.2 -0.200.20.40.6 7.5 8 8.5 9 x1 y -0.200.20.40.6 7.5 8 8.5 9 x1 y 5678 7.5 8 8.5 9 9.5 10 x2 y 5678 8 8.5 9 9.5 10 10.5 x2 y 2 2322110 xxxy 214 2 2322110 xxxxx

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论