人工智能创新实验教程 课件 第3章 机器学习基础_第1页
已阅读1页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

宁夏大学

第三章机器学习基础www.islide.cc2目录

CONTENT01引言02机器学习的三要素03评估方法04本章小结01引言引言

通俗地讲,机器学习(MachineLearning,ML)就是让计算机从数据中进行自动学习,得到某种知识(或规律)。作为一门学科,机器学习通常指一类问题以及解决这类问题的方法,即如何从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测.在早期的工程领域,机器学习也经常称为模式识别(PatternRecognition,PR),但模式识别更偏向于具体的应用任务,比如光学字符识别、语音识别、人脸识别等。这些任务的特点是,对于我们人类而言,这些任务很容易完成,但我们不知道自己是如何做到的,因此也很难人工设计一个计算机程序来解决这些任务。一个可行的方法是设计一个算法可以让计算机自己从有标注的样本上学习其中的规律,并用来完成各种识别任务。随着机器学习技术的应用越来越广,现在机器学习的概念逐渐替代模式识别,成为这一类问题及其解决方法的统称。02机器学习的三要素1模型

1模型

1模型

以上提到了很多种当前热门的机器学习模型,在后面的文章都会详细介绍。判别模型和生成模型,两者的差别就在于是否先对联合概率P(y|x)建模。学术界对两种模型各自都有不同的声音,主要是针对条件概率P(y|x)的方法应该直接建模还是用P(y|x)间接建模有分歧:SVM之父Vapnik的观点是生成模型的第一步是先对联合概率P(y|x)建模,这个做法没必要,对P(y|x)直接进行建模就行了,事实上这学术界主流认识;而AndrewNg为生成模型发声,他认为对P(y|x)进行建模从而达到判别的目的也有它自身的一些优势:虽然生成模型的渐进误差(Asymptoticerror)确实是比判别模型的大,但随着训练集增加后,生成模型会比判别模型更快得达到渐进误差(收敛速度更快)。2学习策略

在模型部分,机器学习的学习目标是获得假设空间(模型)的一个最优解,那么如何评判优还是不优?策略部分就是评判“最优模型”(最优参数的模型)的准则或方法。了解机器学习的策略,最关键是掌握10个名词:欠拟合(Underfitting)、过拟合(Overfitting)、经验风险(Empiricalrisk)、经验风险最小化(Empiricalriskminimization,ERM)、结构风险(Structuralrisk)、结构风险最小化(Structuralriskminimization,SRM)、损失函数(Lossfunction)、代价函数(Costfunction)、目标函数(Objectfunction)、正则化(Regularization)。

为了理解这些名词,我们从一个例子开始说起,如图所示:2学习策略

2学习策略

3优化准则

通常来说,最小值必然是极值点,而连续函数的极值点可以通过求一阶导数并令导数等于0,最后找到值最小的极值点,就是最小值点。而在机器学习中,由于目标函数的复杂性,普通解法绝大多数情况行不通,这个时候需要一些别的算法。机器学习求解目标函数常用的算法有最小二乘法、梯度下降法(属于迭代法的一种),最小二乘法针对线性模型,而梯度下降法适用于任意模型,适用最为广泛。3优化准则

3优化准则

3优化准则

下面给出梯度下降图以便于直观理解3优化准则

梯度下降法由于可对任意函数求最优解,故在机器学习中广泛使用;但GD也有如下明显的缺点:

1.从上面迭代公式可以看到,GD是线性收敛,所以收敛速度较慢;

2.当目标为非凸函数时,GD求得的解不保证是全局最优解。

根据梯度下降算法进而衍生的有:

批量梯度下降法,是梯度下降法最常用的形式,具体做法也就是在更新参数时使用所有的样本来进行更新。

随机梯度下降法,其实和批量梯度下降法原理类似,区别在与求梯度时没有用所有的m个样本的数据,而是仅仅选取一个样本j来求梯度。

小批量梯度下降法是批量梯度下降法和随机梯度下降法的折衷,也就是对于m个样本,我们采用x个样子来迭代,1<x<m。一般可以取x=10,当然根据样本的数据,可以调整这个x的值。03评估方法1评估方法

机器学习的目的是使学得的模型能很好的适用于“新样本”,即使得模型具有泛化能力。但太好的模型可能因为学习器学习能力过于强大,进而把训练样本本身的特有性质当做所有潜在样本都会具有的一般性质,进而导致泛化能力减小,出现“过拟合”的情况。“欠拟合”是由于学习器没有通过训练样本学习到一般性质。

P问题:在多项式时间内可解的问题;有效的学习算法必须是p问题,即在多项式时间内可以运行完成。np难问题:不知道这个问题是不是存在多项式时间内的算法。可选学习算法很多,在模型选择时,训练误差由于过拟合的存在不适合作为评价标准,泛化误差无法直接获得。所以“训练数据”的存在就有了必要,通常选择训练误差较小的模型。2数据集划分方法

3性能度量

3性能度量

3性能度量两学习器性能的比较

1)c曲线被ab曲线包住,ab优于c学习器;

2)寻找平衡点,如图中的红点,当查准率=查全率时,数值越高,对应的学习器往往越优秀。3性能度量

与P-R曲线类似,我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别作为横、纵坐标做图。

ROC曲线的的横轴为:假正例率FP

ROC曲线的的横轴为:真正例率TP3性能度量

给定一个学习系统,如果更多的正样本被识别为正样本,那么也就意味着更多的负样本被识别成了正样本。图中的对角线对应于“随机猜测”模型。

1)ROC即为绿线。视情况而定,如果面部识别开锁系统的话,观察假正率为零时,真正率的高度,越高越好;

2)AUC即为蓝色面积。面积越大越好

3)EER等错误率即为绿色原点.在该点处假正率FP和假错率FN相等,该点值越小越好。04本章小结本章小节

本章介绍了机器学习相关基础知识,通过对本章的学习,读者应该了解了机器学习中的三大要素:模型、学习策略、优化准则的基本概念以及其在机器学习中的作用。在学习策略中用应着重掌握欠拟合(Underfitting)、过拟合(Overfitting)、损失函数(Lossfunction)、代价函数(Costfunction)、目标函数(Objectfunction)的基本概念。在此之后简要介绍了实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论