版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
最小二乘法和最大似然法第1页/共45页最小二乘法线性建模向量/矩阵符号线性建模的非线性响应泛化与过拟合第2页/共45页线性建模定义模型:
将模型定义为一个将输入属性映射到输出或目标值的函数。模型假设:
为了便于选择特定的模型来使用,我们需要做一些假设模型优化:
确定模型中的参数,使模型最好的拟合所给信息第3页/共45页线性建模的例子下图显示了从1896年至今,奥林匹克运动会男子100米金牌得主所需的时间第4页/共45页
第5页/共45页注:线性关系
第6页/共45页
接下来的任务是选取合适的ω值来确定我们假设的模型以达到最优。我们先来了解下ω0和ω1对模型的影响:第7页/共45页
第8页/共45页
第9页/共45页
最小二乘解:
通过对损失函数求偏导数的方法,取得各个系数的极值点;然后联立解得各个系数的最优解。第10页/共45页最小二乘解实例:第11页/共45页建立模型为:所以损失函数为:
第12页/共45页分别对ω1和ω0求偏导可得:让他们分别等于零,然后联立便可求出最优解
第13页/共45页向量/矩阵符号
当我们考虑问题更加细致化的时候,会发现每一个已知数据都会对最后的结果产生影响,为了突出这些细节,我们可以通过引入更多参数的方法,这样一来势必会增加计算量,所以引入向量和矩阵以简化计算是非常重要的。第14页/共45页关于向量和矩阵的基础知识
第15页/共45页矩阵转置
第16页/共45页矩阵/向量维数和标引
第17页/共45页矩阵乘法
第18页/共45页矩阵乘积的转置
第19页/共45页矩阵微分给大家些常用的微分等式:ωTx---x xTω---xωTω---2ω
ωTCω---2Cω
第20页/共45页具体计算步骤
整理得:第21页/共45页
第22页/共45页线性模型的非线性响应
通过对数据的拟合,我们发现,有很多时候线性模型不能很好的拟合已知数据,所以可以采取通过增加数据项(x)的次数改变模型的种类,使线性模型不再是单纯的直线模型,从而增加了其非线性响应。第23页/共45页
例如定义x的次数为n次,则可以扩展的数据矩阵为:
第24页/共45页泛化与过拟合
泛化能力指机器学习算法对新鲜样本的适应能力。为了得到一致假设而使假设变得过度复杂称为过拟合。第25页/共45页为了克服过拟合,提高泛化能力,我们需要对模型进行筛选,以下是几种筛选方法:
验证数据交叉验证K折交叉验证的计算缩放第26页/共45页最大似然方法随机变量和概率常见的离散分布概率密度函数最大似然估计第27页/共45页随机变量
随机变量在不同的条件下由于偶然因素影响,其可能取各种随机变量不同的值,具有不确定性和随机性,但这些取值落在某个范围的概率是一定的,此种变量称为随机变量。随机变量可以是离散型的,也可以是连续型的。如分析测试中的测定值就是一个以概率取值的随机变量,被测定量的取值可能在某一范围内随机变化,具体取什么值在测定之前是无法确定的,但测定的结果是确定的,多次重复测定所得到的测定值具有统计规律性。第28页/共45页概率和概率分布
概率是对随机事件发生的可能性的度量,一般以一个在0到1之间的实数表示一个事件发生的可能性大小。越接近1,该事件更可能发生;越接近0,则该事件更不可能发生,其是客观论证,而非主观验证。
概率分布是概率论的基本概念之一,用以表述随机变量取值的概率规律。为了使用的方便,根据随机变量所属类型的不同,概率分布取不同的表现形式。第29页/共45页常用的概率计算公式
第30页/共45页
第31页/共45页常见的离散分布
第32页/共45页连续型随机变量—概率密度函数连续型联合概率密度条件连续概率密度
第33页/共45页常见的连续概率密度函数
第34页/共45页似然估计
第35页/共45页最大似然
当似然函数取得最大值时,说明采样数据发生的概率最大,我们称其为最优似然函数,那么求似然函数最大值的问题可以抽象为数学上求最大值的问题,即求L(P)最大值。为了避免求L时连乘运算,所以采用取对数的方法,化连乘为连加,而且不会改变其单调性。第36页/共45页所以有:
第37页/共45页
第38页/共45页
第39页/共45页
第40页/共45页[例题]
第41页/共45页
第42页/共45页
第43页/共45页最小二乘法与最大似然法总结对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。显然,这是从不同原理出发的两种参数估计方法。在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函数最大,而似然函数又往往指数据的概率分布函数。与最小二乘法不同的是,最大似然法需要已知这个概率分布函数,这在时间中是很困难的。一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地方海事处内部管理制度
- 场馆内部安全保卫制度
- 大企业内部电脑管理制度
- 大学协会内部奖惩制度
- 大疆公司内部工作日常制度
- 存款保险内部考评制度
- 服装公司内部管理制度
- 村建办内部管理工作制度
- 2026校招:内蒙古新城宾馆旅游业集团笔试题及答案
- 比亚迪内部工资等级制度
- 安全复工复产培训题库及答案解析
- 《电子技术基础(第6版)》技工中职全套教学课件
- 2025版全新销售经理合作协议
- 2025年下半年中学教资笔试真题+参考答案(科目一+科目二)
- 工贸企业的安全培训课件
- 妇女权益保障课件讲稿
- 青春期男生生理卫生课件
- 压力管道设计审批人员考核试题及答案1
- 变电运行安全培训课件
- 中山北路第一小学创新课程开发与实施
- 血管外科基础用药
评论
0/150
提交评论