




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
单元1机器学习导引机器学习电气与信息工程系CONTENTS
目录01020304机器学习概述机器学习的发展历程与趋势机器学习的分类模型训练与评估方法PART01机器学习概述01机器学习概述什么是机器学习?从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
01机器学习概述机器学习(MachineLearning)是一门多领域交叉学科,它是人工智能的核心,是使计算机具有智能的根本途径。其包含大量的学习算法。不同的学习算法在不同的行业及应用中能够表现出不同的性能和优势。PART02机器学习的发展历程与分类02机器学习发展历程智能集合体02机器学习发展历程A.知识推理期B.知识工程期C.浅层学习D深度学习(1)机器学习经历了哪几个发展阶段?(2)机器学习是一门()的学科?A.人工智能B.计算机C.网格D.统计学PART03机器学习的分类02机器学习分类学习目标分类判别式模型,又称非概率模型,是指通过学习输入和输出之间的映射关系来建立模型y=f(x),然后利用该模型来预测新的输出。判别式模型的典型代表是支持向量机模型,该模型通过学习输入和输出之间的映射关系来建立分类模型,然后利用该模型来预测新的分类结果。
生成式模型,又称概率模型,是指通过学习数据的分布来建立模型P(y|x),然后利用该模型来生成新的数据。生成式模型的典型代表是朴素贝叶斯模型,该模型通过学习数据的分布来建立概率模型,然后利用该模型来生成新的数据。
02机器学习分类生成式模型是所有变量的全概率模型,而判别模型是在给定观测变量值的前提下目标变量的条件概率模型。因此,生成式模型能够用于模拟(即生成)模型中任意变量的分布情况,而判别模型只能根据观测变量得到目标变量的采样值。判别模型不对观测变量的分布建模。因此,它不能表达观测变量与目标变量之间更复杂的关系。生成式模型更普适;判别式模型更直接,目标性更强。生成式模型关注数据是如何产生的,寻找的是数据分布模型;判别式模型关注数据的差异性,寻找的是分类面,由生成式模型可以产生判别式模型,但是由判别式模型没法产生生成式模型。判别式模型和生成式模型的区别02机器学习分类①对条件概率进行建模,学习不同类别之间的最佳边界。②捕捉不同类别特征的差异信息,不学习本身分布信息,无法反映数据本身的特性。③学习成本较低,需要的计算资源较少。④需要的样本数可以较少,少样本也能很好地学习。⑤预测时拥有较好性能。⑥无法转换成生成式。①对联合概率进行建模,学习所有分类数据的分布。②学习到的数据本身的信息更多,能反应数据本身的特性。③学习成本较高,需要更多的计算资源。④需要的样本数更多,当样本较少时,学习效果较差。⑤推断时性能较差。02机器学习分类学习方法分类监督学习、无监督学习、半监督学习、强化学习、对抗学习5种。
监督学习是机器学习中的一种训练方式/学习方式。它是通过机器学习中大量带有标签的样本数据,训练出一个模型,并使该模型可以根据输入得到相应输出的过程。监督学习02机器学习分类常见的监督学习有分类和回归。分类(Classification)是将一些实例数据分到合适的类别中,它的预测结果是离散的。回归(Regression)是将数据归到一条“线”上,即离散数据生成拟合曲线,因此其预测结果是连续的。02机器学习分类无监督学习无监督学习表示机器学习的数据是没有标记的。机器从无标记的数据中探索并推断出潜在数据之间的联系。聚类降维(手写数字28*28)异常点检测02机器学习分类半监督学习
半监督学习是模式识别和机器学习领域研究的重点,是监督学习与无监督学习相结合的一种学习方法。标记软件02机器学习分类对抗学习对抗学习实现的方法是让两个网络相互竞争对抗。其中一个是生成器网络,它不断捕捉训练库里真实数据的概率分布,将输入的随机噪声转变成新的样本(即假数据);另一个是判别器网络,它可以同时观察真实和假造的数据,判断这个数据到底是不是真的。通过反复对抗,生成器和判别器的能力都会不断增强,直到达成一种平衡,最后生成器可生成高质量的、以假乱真的数据。02机器学习分类应用方向分类分类、聚类、回归、排序和序列标注5种。分类是一个有监督的学习过程,目标数据库中有些类别是已知的,分类过程需要做的就是把每条记录归到对应的类别之中。由于必须事先知道各个类别的信息,并且所有待分类的数据条目都默认有对应的类别,因此分类算法也有其局限性,当上述条件无法满足时,我们就需要尝试使用聚类分析。聚类试图将数据集中的样本划分为若干通常不相交的子集,每个子集称为一个簇(Cluster)。每个簇可能对应一些潜在的概念,这些概念对聚类算法而言,事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。回归从一组数据出发,确定某些变量之间的定量关系式,也就是建立数学模型并估计未知参数。回归的目的是预测数值型的目标值,它的目标是接收连续数据,寻找最适合数据的方程,并能对特定的值进行预测。其中,所寻求的方程叫作回归方程。02机器学习分类排序以特征和数据为输入,通过机器学习或者神经网络,输出对于某个查询,每个数据的相关度分数,进而实现对数据的排序。应用方向分类序列标注指给定一个序列,找出序列中每个元素对应标签的问题。其中,标签所有可能的取值集合称为标注集。它可用于解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等。02机器学习分类(3)下列说法中正确的是()生成式模型是所有变量的全概率模型可用于模拟(即生成)模型中任意变量的分布情况B.判别模型是在给定观测变量值的前提下目标变量的条件概率模型,只能根据观测变量得到目标变量的采样值。C.判别模型不对观测变量的分布建模。因此,它不能表达观测变量与目标变量之间更复杂的关系D.生成式模型关注数据是如何产生的,寻找的是数据分布模型E.判别式模型关注数据的差异性,寻找的是分类面,由生成式模型可以产生判别式模型,但是由判别式模型没法产生生成式模型。02机器学习分类(4)关于监督学习,下列说法中正确的是()监督学习的数据是不带标记的分类将实例数据分到合适的类别中,其预测结果是离散的回归其预测结果是连续的监督学习过程能一次性生成鲁棒的预测模型(5)按照应用方向,机器学习可以分为哪几类?()分类聚类回归排序序列标注02机器学习分类(6)机器学习的核心要素包括()数据操作人员算法算力(7)数据分类是一个两阶段过程,包括()和分类阶段分析阶段学习阶段预测阶段实验阶段PART04模型训练与评估方法04模型训练(1)模型训练数据集、探索性数据分析(EDA)、数据预处理、数据分割、模型建立5个过程。04模型训练1.数据集数据集本质上是一个M×N矩阵,其中,M代表列(特征),N代表行(样本)。列可以分解为X和Y,其中,X是几个术语[如特征(Feature)、独立变量(IndependentVariable)和输入变量(InputVariable)]的同义词;Y也是几个术语[如类标签(ClassLabel)、因变量(DependentVariable)和输出变量(OutputVariable)]的同义词。04模型训练2.探索性数据分析进行探索性数据分析是为了获得对数据的初步了解。常用的探索性数据分析方法如下:描述性统计:统计平均数、中位数、模式、标准差。数据可视化:辨别特征内部相关性的热图,体现可视化群体差异的箱形图,体现可视化特征之间相关性的散点图,可视化数据集中呈现的聚类分布的主成分分析图等。其中,箱型图如图1-6所示,主成分分析图如图1-7所示。数据整形:对数据进行透视、分组、过滤等。3.数据预处理数据预处理又称数据清理、数据整理或数据处理,是指对数据进行各种检查和审查的过程,具有纠正缺失值、拼写错误(使数值正常化/标准化,以使其具有可比性)、转换数据(如对数转换)等作用。04模型训练4.数据分割①数据集训练-测试分割②数据集训练-验证-测试分割训练集用于训练模型,验证集用于选择最佳的超参数和评估模型的性能,测试集用于评估模型的泛化性能。04模型训练③CV(交叉验证)最常用的交叉验证是
k折交叉验证(k-foldcross-validation),其中k是由用户指定的数字,通常取5或10。5折交叉验证:
1、将数据划分为(大致)相等的5部分,每一部分叫作折(fold)
2、训练一系列模型,每折轮流作为测试集评估精度,其他作为训练集训练模型04模型训练5.模型建立使用准备的数据来建立模型。我们要根据目标变量(通常称为Y变量)的数据类型(定性或定量),建立一个分类(如果Y是定性的)模型或回归(如果Y是定量的)模型。1.参数调优超参数本质上是机器学习算法的参数,直接影响学习过程和预测性能。由于没有“一刀切”的超参数设置来普遍适用于所有数据集,因此需要进行超参数优化(也称为超参数调整或模型调整)。(2)学习算法优化04模型训练
(3)模型评估2.特征选择特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。针对分类、排序、回归、序列预测等不同类型的机器学习问题,评估指标的选择也有所不同。1.评估指标分类分类模型的常用评估指标有准确率、精确率、召回率、F1—Score、ROC曲线等。04模型训练
TP就是样本是正例的且用学习器分类出来也是正例的
FN就是样本是正例的但学习器分类出来是反例的
FP是在样本是反例的但学习器分类出来是正例的
TN是在样本是反例的且学习器分类出来是反例的混淆矩阵混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目;每一列中的数值表示真实数据被预测为该类的数目。04模型训练①准确率。准确率是指正确分类的样本数占总样本数的比例,其计算公式为②
精确率。精确率是指预测为正例的样本数中真实正例的样本数所占的比例,其计算公式为③召回率。召回率是指真实正例的样本数中预测为正例的样本数所占的比例,其计算公式为04模型训练④P-R(Precision-Recall)曲线。P-R曲线的横坐标是召回率,纵坐标是精确率。对一个排序模型来说,其P-R曲线上的一个点代表在某一阈值下,模型将大于该阈值的结果判定为正样本,将小于该阈值的结果判定为负样本,此时返回结果对应的召回率和精确率。04模型训练⑤F1分数(F1Score),是统计学中用来衡量二分类(或多任务二分类)模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F1分数可以看作是模型准确率和召回率的一种加权平均,它的最大值是1,最小值是0,值越大意味着模型越好⑥ROC曲线。ROC曲线即曲线下面积(AreaUndertheCurve,AUC),是评估二元分类器的重要指标之一。ROC曲线的横坐标是假正例率(FPR),纵坐标是真正例率(TPR)。TPR和FPR的计算公式如下:04模型训练2.回归问题由于回归模型的输出值为连续值,其模型的评估与分类模型评估有所差异,一般采用平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)等。①平均绝对误差(MAE)。MAE被称为L1,其计算公式为②均方误差(MSE)。MSE被称为L2,其计算公式为04模型训练③均方根误差(RMSE)。RMSE能很好地反映回归模型预测值与真实值的偏离程度。但在实际问题中,如果存在个别偏移程度非常大的离群点,即使离群点的数量非常少,也会让RMSE指标变得很差。02机器学习分类(8)模型训练主要包括哪几个过程?()数据集探索性数据分析数据分割模型建立数据预处理(9)关于模型评估,下列说法中正确的是()所有机器学习模型使用的评估方法是相同的模型评估主要分为离线评估和在线评估两个阶段准确率是分类问题中最简单也最直观的评估指标,但其存在明显的缺陷只用某个点对应的准确率和召回率不能全面地衡量模型的性能02机器学习分类(1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学生热爱运动保证书3篇
- 幼儿园与供货商合同3篇
- 2024年长沙市雨花区东塘街道社区卫生服务中心招聘考试真题
- 2024年西安市西北工业大学教务部实验教学岗招聘考试真题
- 高中教师学期教学总结(4篇)
- 2024年丽水市云和县工投经济开发有限公司招聘考试真题
- 南宁上林县白圩镇中心卫生院招聘笔试真题2024
- 2024年呼和浩特市回民区海西路办事处社区卫生服务中心招聘考试真题
- 终末期患者的生命意义探索考核试卷
- 法律在我身边主题精彩演讲稿(4篇)
- 《始得西山宴游记》名师课件1
- MOOC 知识创新与学术规范-南京大学 中国大学慕课答案
- 《诗意中国》朗诵稿
- 卷烟厂电气专业笔试题
- 小学劳动课《劳动安全教育》
- 畸形舌侧沟临床对策培训课件
- 标准变压器用电负荷计算表
- DB12∕T 822-2018 路用高粘结力环氧乳化沥青技术要求
- “两票三制”专项整治工作方案(含检查表)
- JIS G3507-1-2021 冷镦用碳素钢.第1部分:线材
- 授居家二众三皈、五戒仪规
评论
0/150
提交评论