版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、最小二乘法公式历史编辑1801年,意大利天文学家朱赛普 皮亚齐发现了第一颗小 行星谷神星。经过40天的跟 踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星 都没有结果。时年24岁的高斯也计算了谷神星的轨道。 奥地利天文学家海因里希 奥尔伯斯 根据高斯计算出来的轨道重新发现了谷神星。高斯使用的最小二乘法的方法发表于 1809年他的著作天体运动论中。法国科学家 勒让德于1806年独立发明 最小二乘法”但因不为世人所知而默默无闻。二乘法(2张)勒让德曾与高斯为谁最早创立最小二乘法原理发生争执
2、。1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,因此被称为高斯 马尔可夫定理。(来自于wikipedia )适用领域编辑代数,数学学科线性最小二乘的基本公式编辑考虑超定方程组(超定指未知数小于方程个数):ifT X祁j =九('=L# g仁1其中m代表有m个等式,n代表有n个未知数,m>n ;将其进行向量化后为:y = W%.显然该方程组一般而言没有解,所以为了选取最合适的让该等式"尽量成立",引入残差平方和函数 S伽二|X0-卅(在统计学中,残差平方和函数可以看成n倍的均方误差MSE)当时,取最小值,记作:3=盘昭亦打(S(間通过对进行微分求
3、最值,可以得到:0邓二屮了如果矩阵XTX非奇异则有唯一解:? = (XrXflXTy原理编辑在我们研究两个变量(x,y)之间的相互关系时,通常可以得到一系列成对的数据(x1,y1.x2,y2xm,ym );将这些数据描绘在x -y直角坐标系中,若发现这些点在一条直线附近,可以令这条 直线方程 如(式1-1 )。丹+«1X(式 1-1)其中:a0、a1是任意实数为建立这直线方程就要确定a0和a1,应用最小二乘法原理,将实测值Yi与利用计算值Yj (Yj=a0+a1Xi )(式1-1 )的离差(Yi-Yj )的平方和JjVi-Y1最小为优化判据”。令:0 =£(Vi-Y/)2(
4、式 1-2)把(式1-1 )代入(式1-2 )中得:(式 1-3)当£(Vi-Y/)2最小时,可用函数刀 2(a0 + a1*Xi - Yi)刀 2Xi (a0 +a1*Xi - Yi亦即:0对a0、a1求偏导数,令这两个 偏导数等于零。=0 (式 1-4)=0 (式 1-5)na0 +(刀 Xi ) a1 =刀Y式1-6)(刀 Xi ) a0 +(刀 XiA2 ) a1 =#Xi*Yi)(式 1-7)得到的两个关于a0、 a1为未知数的两个方程组,解这两个方程组得出:a0 =n - alal = n 刀(Xi Yi)-(刀 Xi 刀 Yi) / (n刀rXP52i 刀 Xi)(式
5、1-9)这时把a0、al代入(式1-1 )中,此时的(式 1-1)就是我们回归的一元线性方程即: 数学模型。在回归过程中,回归的关联式不可能全部通过每个回归数据点(x1,y1. x2,y2.xm,ym ),为了判断关联式的好坏,可借助 相关系数“R统计量“F”剩余标准偏差 “S”行判断;“R 越趋近于1越好;“F勺绝对值越大越好; “S”趋近于0越好。R =刀 XiY- m (刀 Xi / m)( E Yi / m)/ SQR 刀 Xm (刀 Xi / m)2刀 Ym (刀 Y/ m)2(式 1-10) *在(式1-10 )中,m为样本容量,即实验次数;Xi、Yi分别为任意一组实验数据X、Y的
6、数值。方法编辑以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢?监督学习中, 如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量 是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面。3对于一元线性回归模型,假设从总体中获取了 n组观察值(X1,丫1 ) , (X2,丫2),,(Xn ,
7、 Yn)。对于平面中的这 n个点,可以使用无数条曲线来拟合。要求样本回归函数尽 可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。 有以下三个标准可以选择:3(1 )用残差和最小”确定直线位置是一个途径。但很快发现计算残差和”存在相互抵消的问题。(2 )用 残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。(3 )最小二乘法的原则是以 残差平方和最小”确定直线位置。用最小二乘法除了计算 比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。3最常用的是普通最小二乘法(Ordi
8、nary Least Square , OLS ):所选择的回归模型应该使所有观察值的残差平方和达到最小。(Q为残差平方和)-即采用平方损失函数。样本回归模型:Y严瓦+kx产勺其中ei为样本(Xi,Yi)的误差。3平方损失函数:UI则通过Q最小确定这条直线,即确定 个求极值的问题,可以通过求导数得到。求B0和3 1把它们看作是 Q的函数,就变成了Q对两个待估参数的偏导数:3犁"工苗-瓦"疋)卜1) =0金 r*】根据数学知识我们知道,函数的极值点为偏导为0的点。3解得:Q心UR31贬?腎(乞兀r lA.yy-I.vyy) Z?o 这就是最小二乘法的解法,就是求得平方损失函数
9、的极值点。公式编辑XTX = XTy拟合编辑对给定数据点集合|(X(>W)(i = 0,1,2,,在取定的函数类中,求p (X) E,使误差的平方和E2最小,雯二2>凶)-灯。从几何意义上讲,就是寻求与给定点集优i別肿二间的距离平方和为最小的曲线 y=p(x)。函数p(x)称为拟合函数或最小二乘解,求拟合函 数p(x)的方法称为曲线拟合的最小二乘法。最小二乘法的矩阵形式最小二乘法的矩阵形式为:Ax-b其中A为n xk的矩阵,x为kxL的列向量,b为nxl的列向量。如果« > t(方程的个数大于未知量的个数),这个方程系统称为矛盾方程组(Over Determi ne
10、dSystem ),如果fi < t(方程的个数小于未知量的个数),这个系统就是Un der Determi ned System 。正常来看,这个方程是没有解的,但在数值计算领域,我们通常是计算min|Ax-b|,解出其中的x。比较直观的做法是求解A1 Ax - A7b,但通常比较低效。其中一种常见的解法是对A进行QR分解(A 二 Q2?),其中Q是n xJt正交矩阵(Orthonormal Matrix ),RI 是kxk上三角矩阵 (Upper Triangular Matrix ),则有min jAx -&| =min|Qilx-&| = min |Kr -Q_l
11、b|用MATLAB命令1 | x=R(Qb)可解得X1o最小二乘法的 Matlab实现 一次函数线性拟合使用polyfit ( x,y,1) 多项式函数线性拟合使用polyfit ( x,y,n), n为次数拟合曲线x=0.5,1.0,1.5,2.0,2.5,3.0,y=1.75,2.45,3.81,4.80,7.00,8.60。解:MATLAB 程序如下:1 x=0.5,1.0,1.5,2.0,2.5,3.0;2 y=1.75,2.45,3.81,4.80,7.00,8.60;3 p=polyfit(x,y,2)4 x1=0.5:0.5:3.0;5 y1=polyval(p,x1);6 pl
12、ot(x,y,'*r',x1,y1,'-b')计算结果为:1 p =0.56140.82871.1560即所得多项式为 y=0.5614xA2+0.8287x+1.15560 非线性函数使用1 lsqcurvefit(f un, x0,x,y)2 a=n li nfit(x,y,f un ,b0)最小二乘法在交通运输学中的运用交通发生预测的目的是建立分区产生的交通量与分区土地利用、社会经济特征等变量之间的定量关系,推算规划年各分区所产生的交通量。因为一次出行有两个端点, 所以我们要分别分析一个区生成的交通和吸引的交通。交通发生预测通常有两种方法:回归分析法和聚类
13、分析法。回归分析法是根据对因变量与一个或多个自变量的统计分析,建立因变量和自变量的 关系,最简单的情况就是一元回归分析,一般式为:Y=a +3X式中Y是因变量,X是自变量,a和B是回归系数。若用上述公式预测小区的交通生成,则以下标i标记所有变量;如果用它研究分区交通吸引,则以下标j标记所有变量。而运用公式的过程中需要利用最小二乘法来求解,上述公式中的回归系数 根据最小二乘法可得:其中,式中的X拔是规划年的自变量值,Y拔是规划年分区交通生成(或吸引)预测值。课题编辑从前面的学习中,我们知道最小二乘法可以用来处理一组数据,可以从一组测定的数据中寻求变量之间的依赖关系,这种函数关系称为经验公式本课题
14、将介绍最小二乘法的精确定义及如何寻求点与点之间近似成线性关系时的经验公式假定实验测得变量之间的n个数据,则在 平面上,可以得到n个点,这种图形称为 散点图”从图中可以粗略看出 这些点大致散落在某直线近旁,我们认为 与之间近似为一线性函数,下面介绍求解步骤.考虑函数y=a+bx,其中a和b是待定常数.如果离散点完全的在一直线上,可以认为变量之间的关系为一元函数但一般说来,这些点不可能在同一直线上但是它只能用直线来描述时,计算值与实际值会产生偏差.当然要求偏差越小越好,但由于偏差可正可负, 因此不能认为总偏差时,拟合函数很好地反映了变量之间的关系,但是因为此时每个偏差的绝对值可能很大.为了改进这一
15、缺陷,就考虑用平均值来代替但是由于绝对值不易作解析运算,因此,进一步用残差平方和函数来度量总偏差偏差的平方和最小可以保证每个偏差都不会很大于是问题归结为确定拟合函数中的常数和使残差平方和函数最小通过这种方法确定系数的方法称为最小二乘法.由极值原理得,即解此联立方程得(*)问题I为研究某一化学反应过程中,温度C )对产品得率()的影响,测得数据如下温度C)100 110 120 130 140 150 160 170 180 190得率(%)45 51 54 61 66 70 74 78 85 89(1) 利用“ListPlot函数,绘出数据 的散点图(采用格式:ListPlot,Prolog-
16、>AbsolutePoi ntSize3);(2) 利用“Line函数,将散点连接起来,注意观察有何特征?(采用格式:ShowGraphicsLine,,川,AxeTrue );(3) 根据公式(*),利用“ Apply函数及集合的有关运算编写一个小的程序,求经验公式;(程序编写思路为:任意给定两个集合 A (此处表示温度卜B(此处表示得率),由公式(*) 可定义两个二元函数(集合A和B为其变量)分别表示 和集合A元素求和:ApplyPlus,A 表示将加法施加到集合A上,即各元素相加,例如ApplyPlus,1,2,3=6;LengthA表示集合A元素的个数,即为n; A.B表示两集合
17、元素相乘相加;A*B表示集合A与B元素对应相乘得 到的新的集合.)(4) 在同一张图中显示直线及散点图;(5) 估计温度为200时产品得率.然而,不少实际问题的观测数据,的散点图明显地不能用线性关系来描叙,但确实散落在某一曲线近旁,这时可以根据散点图的轮廓和实际经验,选一条曲线来近似表达与的相互关系.问题II下表是美国旧轿车价格的调查资料,今以 表示轿车的使用年数,(美元)表示相应的平均价格,求与之间的关系.使用年数1 2 3 4 5 6 7 8 9 10平均价格2651 1943 1494 1087 765 538 484290 226 204(1) 利用“ListPlot函数绘出数据的散点
18、图,注意观察有何特征?(2) 令,绘出数据的散点图,注意观察有何特征?(3) 利用“Line函数,将散点连接起来,说明有何特征?(4) 利用最小二乘法,求 与 之间的关系;(5) 求与之间的关系;(6) 在同一张图中显示 散点图及 关于 的图形思考与练习编辑1假设一组数据:,变量之间近似成线性关系,试利用集合的有关运算,编写一 简单程序:对于任意给定的数据集合 ,通过求解极值原理所包含的方程组 ,不需要给出、 计算的表达式,立即得到、的值,并就本课题I /(3)进行实验注:利用Transpose函数可以得到数据 A的第一个分量的集合,命令格式为: 先求A的转置,然后取第一行元素,即为数据A的第一个分量集合,例如 (A即为矩阵)=(数据A的第一个分量集合)=(数据A的第二个分量集合)B-C表示集合B与C对应元素相减所
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年六安职业技术学院单招职业适应性测试题库带答案详解(研优卷)
- 2026年语言学习与跨文化交流能力测试题目适用于语言学习类
- 2026年地理地质与环境保护知识测试题集
- 2026年电力系统与电气设备知识综合笔试题
- 2025年实验室结构性面试题库及答案
- 信息安全事件处理手册
- 2026年佛山新高考地理全程复习规划与备考指南(一轮+二轮+三轮)含易考题、常考题、易错题
- 2025年衡水社会工作者面试题库及答案
- 2025年沈阳事业编10月份考试及答案
- 某家政公司垃圾桶使用规定
- 2025-2026学年外研版(三起)(新教材)小学英语三年级下册教学计划附进度表
- 2026春节后建筑施工复工复产开工第一课
- 2025年律师事务所党支部书记年终述职报告
- 2025-2026 学年第一学期大一高等数学期末考试试卷
- 围术期精准管理:个体化麻醉与镇痛
- 2026年湖南理工职业技术学院单招职业倾向性考试题库附答案详解
- 2025年高考(新高考Ⅱ卷)数学试题及答案
- 《无人机组装与调试》课程标准 -
- 医院外联部主任述职报告
- 2025年广东省高考语文试卷(含标准答案)
- 2025年驾照三例测试题及答案
评论
0/150
提交评论