




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习入门:回归算法原理及应用,1,.,人类学习过程,认知,模仿,实践,反馈,再认知,2,.,?,机器学习就是让计算机从大量的数据中学习到相关的规律和逻辑,然后利用学习来的规律来进行决策,推理和识别等。,什么是机器学习?,测试数据,发现规律,测试,结果评估,规则,邮件Xi,Yi:垃圾or正常,发件人邮件地址异常;标题含有“低价促销”,3,.,机器学习应用实例,应用实例:1、对语言、文字的认知与识别2、对图像、场景、自然物体的认知与识别3、对规则的学习与掌握例如:下雨天要带伞,生病要吃药,天冷了要穿厚衣服等4、对复杂事物的推理与判断能力例如:好人与坏人的辨别能力,事物的正误的判断能力,4,.,机器学习的种类,根据学习方式的不同,可以分为监督学习,无监督学习和强化学习等几种类型。,监督学习(有指导),无监督学习(自学),强化学习(自我评估),5,.,机器学习三要素,机器学习可以认为是一个在逐步发现和探索规律的过程。学习过程主要包含以三个要素:模型表示问题的影响因素(特征)有哪些?它们之间的关系如何?模型评估什么样的模型是好的模型参数优化如何高效的找到最优参数,6,.,”回归“的由来,英国人类学家F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家KarlPearson对上千个家庭的身高,臂长,拃长(伸开大拇指与中指两端的最大长度)做了测量,发现了一种现象。,7,.,回归问题应用场景,回归分析属于有监督学习,简单有效,应用十分广泛:,8,.,一个简单的例子,9,.,回归分析,回归分析研究的主要是因变量(目标)和自变量(经验)之间的依存关系。按关系类型,又可分为线性回归分析和非线性回归分析。学习过程如下:,10,.,理想的拟合直线,LinearRegression,11,.,最小二乘算法,12,.,最小二乘算法,13,.,选择“最优回归方程”,回归方程中包含的自变量个数越多,回归平方和就越大,残差平方和越小,预测值的置信区间也越小。既要选择对预测影响显著的自变量,又要使回归的损失很小,这样才有利于预测。选择“最优回归方程”的方法有:最优子选择法(bestsubsetselection)逐步选择法(stepwiseselection),14,.,Bestsubsetselection,最优子集选择法(bestsubsetselection),即对n个预测变量的所有可能组合(共有2n-1)分别进行拟合,然后选择出最优模型。,15,.,StepwiseSelection,逐步选择法按选择方式的不同,共分为三种:前向逐步选择法(ForwardStepwiseSelection)后向逐步选择法(BackwardStepwiseSelection)逐步回归法(StepwiseRegression)基于最优子集回归方法的一些缺陷,逐步选择的优点是限制了搜索空间,从而提高了运算效率。,16,.,ForwardStepwiseSelection,以零模型为起点,依次往模型中添加变量,直至加完所有的变量。但每次优先将能够最大限度地提升模型效果的变量加入模型。但无法保证找到的模型是所有2n-1个模型中最优的,且可能在前期将后来变得多余的变量纳入模型。,模型个数:n(n+1)/2+1,17,.,BackwardStepwiseSelection,以全模型为起点,逐次迭代,每次移除一个对模型拟合结果最不利的变量。需满足样本量m大于变量个数n(保证全模型被拟合)。而前向逐步选择即时在mn的情况下也可以使用,适应于高维数据。,模型个数:n(n+1)/2+1,18,.,StepwiseRegression,该方法将前向选择与后项进行了结合,试图达到最优子集选择效果的同时也保留了前向和后向逐步选择在计算上的优势。,19,.,损失函数(lossfunction),损失函数(lossfunction)度量预测错误的程度,常记作L(Y,f(X)。常见的损失函数有以下几种:0-1损失函数(0-1lossfunction):缺点:无法度量损失的“严重程度”。,20,.,损失函数(lossfunction),平方损失函数(quadraticlossfunction):对数损失函数(logarithmiclossfunction):指数损失函数(exp-lossfunction):,21,.,梯度下降算法,梯度下降法:是一种优化算法,通常也称为最速下降基本思想:在下山时,如果想以最快的方式到达山底,应该沿着山势最陡的方向,也即山势变化最快的方向。同样,如果从任意一点出发,需要最快搜索到函数的最小值,那么也应该从函数变化最快的方向搜索而函数变化最快的方向就是函数的负梯度方向,22,.,梯度下降算法,23,.,损失计算方法,批量梯度下降法(BGD):是梯度下降法最原始的形式,在更新每一参数时都使用所有的样本来进行更新。随机梯度下降法(SGD):它的具体思路是在更新每一参数时都使用一个样本来进行更新。Mini-batchGradientDescent(MBGD):它的具体思路是在更新每一参数时都使用一部分样本来进行更新,24,.,可能存在的问题,学习过程可能出现的问题:1)数据量过少(m=1):L1范数:当p=1时,是L1范数,表示某个向量中所有元素的绝对值之和。L2范数:当p=2时,是L2范数,表示某个向量中所有元素的平方和再开根号。,29,.,RidgeRegression,正则化项是参数的L2范数时,整个回归方法就叫做岭回归。相应损失函数:那么为什么叫做“岭”回归呢?,30,.,LassoRegression,lasso回归:参数范数为L1范数优势:不仅可以解决过拟合问题,而且可以在参数缩减过程中,将一些重复或不重要的参数直接缩减为零(删除),有提取有用特征的作用。劣势:计算过程复杂,毕竟L1范数不是连续可导的。,31,.,L1正则与L2正则,32,.,L1正则与L2正则,33,.,L1正则与L2正则,从贝叶斯角度来看,正则化相当于对模型参数引入了先验分布,即对模型参数加了分布约束:L1正则,模型参数服从拉普拉斯分布,只有很小的|w|,才能得到较大的概率,L2正则,模型参数服从高斯分布对大的|w|,概率较低,而在接近0的时候,概率变换缓慢,最终解的w趋于0附近。,34,.,L1正则与L2正则,对模型加入参数的正则化项后,模型会尝试最小化这些权值参数。而这个最小化就像一个下坡的过程,L1和L2的另一个差别就在于这个“坡”不同。如下图:L1就是按绝对值函数的“坡”下降的,而L2是按二次函数的“坡”下降。所以实际上在0附近,L1的下降速度比L2的下降速度要快。,35,.,另一种回归方法叫ElasticNet,它同时采用了L1和L2正则,以综合RidgeRegression和LassoRegression两者的优点。既能稀疏化模型权重,又能保持岭回归的稳定性。,ElasticNet,36,.,非线性模型,37,.,回归问题讨论,回归分析要有实际意义;异常值检测。,38,.,扩展
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民爆员工安全培训计划课件
- 民法总则课件精简
- 初中语文小考试卷及答案
- 采油厂招聘考试题及答案
- 新质生产力三高特征解读
- 民族风情绘画课件
- 新质生产力和人民之间的关系
- 新质生产力赋能房地产新模式
- 标准化等级评定讲解
- 民族民俗课件
- 80年血火淬炼此刻亮剑正当时:纪念中国人民抗日战争暨世界反法西斯战争胜利80周年阅兵仪式对初中生的启示-2025-2026学年初中主题班会
- 2025-2026学年西师大版(2024)小学数学一年级上册(全册)教学设计(附目录P227)
- 2025新疆天泽和达水务科技有限公司部分岗位社会招聘28人笔试模拟试题及答案解析
- T/CNFAGS 16-2024绿色甲醇分级标准(试行)
- 中国旅游地理(第四版)中职PPT完整全套教学课件
- 统编本四年级上册语文课堂作业本参考答案
- 数据结构(c语言版)课件
- 老年患者风险评估与防范措施
- 枣庄市继续医学教育学习与管理平台
- 摩擦桩桩长的计算(新规范)
- 016 铬酐安全技术说明书MSDS
评论
0/150
提交评论