版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习:监督学习
2020年2020《人工智能导论:模型与算法》师资培训提纲二、线性回归一、机器学习基本概念三、AdaBoosting机器学习:从数据中学习知识
图像数据文本数据PersonDog…
喜悦愤怒…类别分类情感分类
}机器学习的分类
监督学习(supervisedlearning)数据有标签、一般为回归或分类等任务无监督学习(un-supervisedlearning)
数据无标签、一般为聚类或若干降维任务强化学习(reinforcementlearning)序列数据决策学习,一般为与从环境交互中学习半监督学习(semi-supervisedlearning)机器学习:分类问题
人员数学好身体好会编程嗓门大程序员AYesNoYesYes作家ANoNoYesNo程序员BYesYesNoNo……………医生AYesYesYesYes程序员CYesYesYesYes程序员DYesYesYesNo从数据中学习
映射函数模式类别标签数据监督学习的重要元素如何学习得到映射模型标注数据学习模型标识了类别信息的数据如何对学习结果进行度量损失函数监督学习:损失函数
监督学习:损失函数典型的损失函数
损失函数名称损失函数定义0-1损失函数平方损失函数绝对损失函数对数损失函数/对数似然损失函数监督学习:训练数据与测试数据
监督学习:经验风险与期望风险
经验风险(empiricalrisk
)训练集中数据产生的损失。经验风险越小说明学习模型对训练数据拟合程度越好。期望风险(expectedrisk):当测试集中存在无穷多数据时产生的损失。期望风险越小,学习所得模型越好。
映射函数训练目标:经验风险最小化(empiricalriskminimization,
ERM)
选取一个使得训练集所有数据损失平均值最小的映射函数。这样的考虑是否够?映射函数训练目标:期望风险最小化(expectedriskminimization)
期望风险是模型关于联合分布期望损失,经验风险是模型关于训练样本集平均损失。根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。所以在实践中很自然用经验风险来估计期望风险。由于现实中训练样本数目有限,用经验风险估计期望风险并不理想,要对经验风险进行一定的约束。监督学习:经验风险与期望风险监督学习:“过学习(over-fitting)”与“欠学习(under-fitting)”经验风险小(训练集上表现好)期望风险小(测试集上表现好)泛化能力强经验风险小(训练集上表现好)期望风险大(测试集上表现不好)过学习(模型过于复杂)经验风险大(训练集上表现不好)期望风险大(测试集上表现不好)欠学习经验风险大(训练集上表现不好)期望风险小(测试集上表现好)“神仙算法”或“黄粱美梦”
经验风险最小化期望风险最小化监督学习:结构风险最小
经验风险最小化:仅反映了局部数据期望风险最小化:无法得到全量数据结构风险最小化(structuralriskminimization):为了防止过拟合,在经验风险上加上表示模型复杂度的正则化项(regulatizer)或惩罚项(penaltyterm):
模型复杂度经验风险在最小化经验风险与降低模型复杂度之间寻找平衡监督学习两种方法:判别模型与生成模型监督学习方法又可以分为生成方法(generativeapproach)和判别方法(discriminativeapproach)。所学到的模型分别称为生成模型(generativemodel)和判别模型(discriminativemodel).
人脸
=0.99
监督学习两种方法:判别模型与生成模型监督学习
分类识别推荐…提纲二、线性回归一、机器学习基本概念三、AdaBoosting线性回归(linearregression)在现实生活中,往往需要分析若干变量之间的关系,如碳排放量与气候变暖之间的关系、某一商品广告投入量与该商品销售量之间的关系等,这种分析不同变量之间存在关系的研究叫回归分析,刻画不同变量之间关系的模型被称为回归模型。如果这个模型是线性的,则称为线性回归模型。一旦确定了回归模型,就可以进行预测等分析工作,如从碳排放量预测气候变化程度、从广告投入量预测商品销售量等。
英国著名生物学家兼统计学家高尔顿SirFrancisGalton(1822-1911)
线性回归(linearregression)给出任意一对父母平均身高,则可根据上述方程,计算得到其子女平均身高从父母平均身高来预测其子女平均身高如何求取上述线性方程(预测方程)的参数?
该回归模型中两个参数需要从标注数据中学习得到(监督学习)线性回归(linearregression)
线性回归:参数学习线性回归模型例子
5.18.211.513.915.116.219.623.32.144.628.2411.2413.9916.3319.2328.74线性回归模型例子气温温度取值和受到火灾影响森林面积之间的一元线性回归模型(实线为最佳回归模型)
线性回归:参数学习
线性回归:参数学习
线性回归:参数学习
线性回归:参数学习
线性回归:参数学习
提纲二、线性回归一、机器学习基本概念三、AdaBoosting对于一个复杂的分类任务,可以将其分解为若干子任务,然后将若干子任务完成方法综合,最终完成该复杂任务。将若干个弱分类器(weakclassifiers)组合起来,形成一个强分类器(strongclassifier)。能用众力,则无敌于天下矣;能用众智,则无畏于圣人矣(语出《三国志·吴志·孙权传》)Freund,Yoav;Schapire,RobertE(1997),Adecision-theoreticgeneralizationofon-linelearningandanapplicationtoboosting,JournalofComputerandSystemSciences(originalpaperofYoavFreundandRobertE.SchapirewhereAdaBoostisfirstintroduced.)Boosting(adaptiveboosting,自适应提升)计算学习理论(ComputationalLearningTheory)可计算:什么任务是可以计算的?图灵可停机可学习:什么任务是可以被学习的、从而被学习模型来完成?LeslieValiant(2010年图灵奖获得者)和其学生MichaelKearns两位学者提出了这个问题并进行了有益探索,逐渐完善了计算学习理论。计算学习理论:霍夫丁不等式(Hoeffding’sinequality)
对于统计电视节目收视率这样的任务,可以通过不同的采样方法(即不同模型)来计算收视率。每个模型会产生不同的误差。问题:如果得到完成该任务的若干“弱模型”,是否可以将这些弱模型组合起来,形成一个“强模型”。该“强模型”产生误差很小呢?这就是概率近似正确(PAC)要回答的问题。计算学习理论:概率近似正确(probablyapproximatelycorrect,PAC)
强可学习(stronglylearnable)学习模型能够以较高精度对绝大多数样本完成识别分类任务弱可学习(weaklylearnable)学习模型仅能完成若干部分样本识别与分类,其精度略高于随机猜测。强可学习和弱可学习是等价的,也就是说,如果已经发现了“弱学习算法”,可将其提升(boosting)为“强学习算法”。AdaBoosting算法就是这样的方法。具体而言,AdaBoosting将一系列弱分类器组合起来,构成一个强分类器。计算学习理论:概率近似正确(probablyapproximatelycorrect,PAC)
在概率近似正确背景下,有“强可学习模型”和“弱可学习模型”AdaBoosting:思路描述
AdaBoosting算法中两个核心问题:在每个弱分类器学习过程中,如何改变训练数据的权重:提高在上一轮中分类错误样本的权重。如何将一系列弱分类器组合成强分类器:通过加权多数表决方法来提高分类误差小的弱分类器的权重,让其在最终分类中起到更大作用。同时减少分类误差大的弱分类器的权重,让其在最终分类中仅起到较小作用。AdaBoosting:算法描述---数据样本权重初始化
AdaBoosting:算法描述---弱分类器组合成强分类器AdaBoosting:算法解释
AdaBoosting:算法解释
AdaBoosting:算法解释
AdaBoosting:算法解释
AdaBoosting:回看霍夫丁不等式
AdaBoosting:优化目标
回
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 沈阳体育学院《劳动经济学》2025-2026学年期末试卷
- 苏州城市学院《流通概论》2025-2026学年期末试卷
- 上海建设管理职业技术学院《文献学摘要》2025-2026学年期末试卷
- 上海纽约大学《会计信息系统》2025-2026学年期末试卷
- 沈阳药科大学《物流管理学》2025-2026学年期末试卷
- 上海现代化工职业学院《进出口贸易实务》2025-2026学年期末试卷
- 上海音乐学院《中级微观经济学》2025-2026学年期末试卷
- Butylcyclohexane-n-Butylcyclohexane-生命科学试剂-MCE
- Boc-NH-PEG2-CH2COOH-dicyclohexylamine-生命科学试剂-MCE
- 修鞋工安全行为考核试卷含答案
- 九江课件教学课件
- 辅导员技能大赛试题
- 化工培训课件
- 外墙蜘蛛人吊绳施工方案
- 输变电工程建设现行主要质量管理制度、施工与验收质量标准目录-2026年2月版-
- 工业机器人维护和保养课件
- 《数据标注实训(初级)》中职全套教学课件
- 医院放射科竞聘演讲
- 2026版高中汉水丑生生物-第一章第一节分离定律
- 傣族服饰课件
- 卵巢肿瘤教学查房的课件
评论
0/150
提交评论