版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主要内容1引言监督学习非监督学习强化学习*1引言
Introduction2.1引言3机器学习的由来机器学习的定义和基本概念机器学习与人工智能的关系机器学习的分类机器学习的发展历程机器学习的应用4机器学习的由来人工智能的发展时期推理期
知识期
学习期技术和方法的发展逻辑推理
知识工程
机器学习机器学习知识表示很难
让机器能学
利用经验改善系统自身的能力经验:以数据形式出现
数据分析
方法:机器学习5机器学习的定义从人类学写作、学车与机器学车说起共同关键词:学习资料、训练、经验、系统和性能6机器学习的定义机器学习的定义:通过计算手段,利用经验改善计算机系统自身的性能。它是基于数据驱动的计算方法,用于决策推理和预测的方法。经验:数据和常识;系统:模型或算法;性能:准确率或精度等。楼盘面积房价1#1301582#861143#1341374#205172………98#……99#……100#200?7机器学习与人工智能的关系8机器学习的分类监督学习无监督学习强化学习机器学习监督学习分类回归无监督学习聚类降维强化学习9分类问题CIFAR-10数据集10回归问题11聚类问题
聚类算法12降维问题13机器学习的发展历程14机器学习的应用2监督学习
SupervisedLearning162.2监督学习常见监督学习算法或模型K近邻算法决策树支持向量机人工神经网络(部分)17K-近邻算法最简单的机器学习分类算法计算待预测样本与训练样本集合所有样本距离取前k个最相似训练样本,统计其类标将占比最多的类标赋给待预测样本近朱者赤近墨者黑K的选择K值太小
K值适中K值太大18距离度量选择欧氏距离曼哈顿距离余弦相似度K-近邻算法191981年生物学家格若根(W.Grogan)和维什(W.Wirth)发现了两类蚊子(或飞蠓midges).他们测量了这两类15只蚊子的翼长和触角长,数据如下:翼长触角长类别
1.641.38Af1.821.38Af1.901.38Af1.701.40Af1.821.48Af1.821.54Af2.081.56Af翼长触角长类别1.781.14Apf1.961.18Apf1.861.20Apf1.721.24Af2.001.26Apf2.001.28Apf1.961.30Apf1.741.36Af问:如果抓到三只新的蚊子,它们的触角长和翼长分别为:#1:1.90,1.25;#2:1.82,1.50;#3:1.96,1.43;问它们应分别属于哪一个种类?
KNN分类实例-蚊子分类20翼长触角长类别#1距离#2距离#3距离1.781.1410.160.360.341.961.1810.090.350.251.861.210.060.300.251.721.2400.180.280.3121.2610.100.300.1721.2810.100.280.161.961.310.080.240.131.741.3600.190.160.231.641.3800.290.220.321.821.3800.150.120.151.91.3800.130.140.081.71.400.250.160.261.821.4800.240.020.151.821.5400.300.040.182.081.5600.360.270.18当K=3时:#1:为1类Apf;#2:为0类Af;#3:为0类Af;若K=5时,结果是否发生改变?
结果21决策树决策树的决策过程
从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,此时每个子节点对应着该特征的一个取值,如此递归的对实例进行测试并分配,直到到达叶节点,最后将实例分到叶节点的类中。If-then规则测试节点叶节点模糊清晰稍糊好瓜坏瓜好瓜好瓜坏瓜硬滑软粘蜷缩稍蜷好瓜坏瓜硬滑软粘纹理=?根蒂=?触感=?硬挺色泽=?触感=?好瓜坏瓜青绿乌黑浅白22决策树的生成过程第一步:决策树的生成从根结点的选择开始,即从所有待选西瓜属性中选择最好的属性作为该结点。即决策后下级的各个结点的“纯度”越高越好。一个集合的纯度用信息熵计算:根节点集合信息熵为:编号色泽根蒂敲声纹理脐部触感好瓜1青绿蜷缩浊响清晰凹陷硬滑是2乌黑蜷缩沉闷清晰凹陷硬滑是3乌黑蜷缩浊响清晰凹陷硬滑是4青绿蜷缩沉闷清晰凹陷硬滑是5浅白蜷缩浊响清晰凹陷硬滑是6青绿稍缩浊响清晰稍凹软粘是7乌黑稍缩浊响稍糊稍凹软粘是8乌黑稍缩浊响清晰稍凹硬滑是9乌黑稍缩沉闷稍糊稍凹硬滑否10青绿硬挺清脆清晰平坦硬滑否11浅白硬挺清脆模糊平坦软粘否12浅白蜷缩浊响模糊平坦硬滑否13青绿稍缩浊响稍糊凹陷软粘否14浅白稍缩沉闷稍糊凹陷硬滑否15乌黑稍缩浊响清晰稍凹软粘否16浅白蜷缩浊响模糊平坦硬滑否17青绿蜷缩沉闷稍糊稍凹硬滑否西瓜数据集决策树23计算各个属性的信息增益衡量纯度提升:编号色泽根蒂敲声纹理脐部触感好瓜1青绿蜷缩浊响清晰凹陷硬滑是2乌黑蜷缩沉闷清晰凹陷硬滑是3乌黑蜷缩浊响清晰凹陷硬滑是4青绿蜷缩沉闷清晰凹陷硬滑是5浅白蜷缩浊响清晰凹陷硬滑是6青绿稍缩浊响清晰稍凹软粘是7乌黑稍缩浊响稍糊稍凹软粘是8乌黑稍缩浊响清晰稍凹硬滑是9乌黑稍缩沉闷稍糊稍凹硬滑否10青绿硬挺清脆清晰平坦硬滑否11浅白硬挺清脆模糊平坦软粘否12浅白蜷缩浊响模糊平坦硬滑否13青绿稍缩浊响稍糊凹陷软粘否14浅白稍缩沉闷稍糊凹陷硬滑否15乌黑稍缩浊响清晰稍凹软粘否16浅白蜷缩浊响模糊平坦硬滑否17青绿蜷缩沉闷稍糊稍凹硬滑否下面以色泽为例,计算其信息增益。色泽有三种值:青绿、乌黑和浅白,将其作为色泽结点的三个分支,可以将17个西瓜分为三个集合,属于青绿分支下级集合的西瓜编号是{1,4,6,10,13,17},属乌黑分支下级集合的西瓜编号是{2,3,7,8,9,1},属于浅白分支下级集合的西瓜编号是{5,11,12,14,16}。根据信息增益公式(2.6),可以计算出集合的信息熵为:
另外两个集合的信息熵分别为0.918和0.722决策树色泽的信息增益:24采用相同的计算方法可以计算出其他属性的信息增益:
根蒂:0.143,敲声:0.141,纹理:0.381,脐部:0.289,触感:0.006;则选择纹理为根节点。第二步:然后,对纹理的三个分支的集合分别采用前述相同方法确定该结点的属性,纹理不作为候选属性。逐级采用这样的方法于是构造出前述决策树。第三步:为防止决策树过拟合,需要对决策树进行剪枝。即从已经生成的树上裁掉些子树或叶结点并将其根结点或父结点作为新的叶结点,从而提高决策树模型的泛化能力。清晰稍糊纹理=?模糊{1,2,3,4,5,6,8,10,15}
{7,9,13,14,17}
{11,12,16}
决策树25支持向量机(supportvectormachines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;当训练样本线性不可分时,通过核技巧和软间隔最大化,学习一个非线性支持向量机;支持向量机核方法扩展低维特征到高维:
Φ(x):x(1,x,x2)Φ(x)TΦ(y)常用核函数:
多项式核、sigmoid核、
径向基核支持向量机27迁移学习度量相似程度任务相关,且足够相似状态-动作空间相似环境动态相似子任务/学习的技能相似……源任务目标任务弱监督学习3非监督学习
UnsupervisedLearning292.3非监督学习常见非监督学习算法或模型K均值聚类层次聚类基于密度的聚类自编码30聚类问题请对下面图形进行分类?无监督学习K=3颜色K=4形状K=2大小K=3顶点数聚类算法聚类在同一个类中,数据对象是相似的不同类之间的对象是不相似的聚类算法根据给定的相似性评价标准,将一个数据集合分组成几个聚类一个好的聚类算法–聚类有效性聚类内部高相似性聚类之间低相似性36K均值聚类K-Means算法的思想:对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽可能紧密的连在一起,而让簇间的距离尽量的大。37K均值聚类的过程演示K均值聚类38层次聚类算法不同于传统的K-Means聚类算法,它在初始K值和初始聚类中心点的选择上没有预设要求,并且可以将数据间的相似关系以树形结构显示,具有独特优势。层次聚类算法根据层次分解的顺序分为:自底向上和自顶向下。自底向上的层次聚类示意图层次聚类算法39举例现采集到7种不同植物的侧面高度和宽度数据,现利用自底而上层次聚类算法进行聚类。编号0123456高度(米)13411.532.5宽度(米)2242.2
335第一步:计算7个样本之间的欧氏距离,将距离最近的样本两两分到一起;第二步:计算四个类的中心(除4号样本外),计算四个类中心的两两距离,将最近的A1和A4集聚成新类B1;第三步:计算新类B1的中心,计算A2、A3和B1类中心的两两距离,将最近的A2和B1类集聚成新类C1;第四步:最后将剩下的C1和A3类集聚成一个整体类。层次聚类算法40基于密度的聚类是根据样本的密度分布来进行聚类。通常情况下,密度聚类从样本密度的角度出来,来考查样本之间的可连接性,并基于可连接样本不断扩展聚类簇,以获得最终的聚类结果。密度可达示意图密度相连示意图基于密度的聚类算法(DBSCAN)41主要应用:特征表达和图像去噪自编码器4强化学习
ReinforcementLearn
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年坐位体前屈柔韧素质训练方法
- 2026年老年人冬季防流感保健手册
- 2026年人工智能教育应用的数据隐私保护
- 病毒检测技术改进
- 上海立达学院《安全人机工程学》2025-2026学年第一学期期末试卷(B卷)
- 上海立达学院《Android 系统与开发》2025-2026学年第一学期期末试卷(A卷)
- 上海立信会计金融学院《安全技术》2025-2026学年第一学期期末试卷(A卷)
- 2026年加油站突发环境事件(油品泄漏)应急预案
- 2026年钣金工技能等级评定标准
- 2026年加气站安全隐患排查奖惩制度
- 广西环保产业投资集团有限公司招聘笔试题库2026
- 2025年高级会计实务真题及答案解析
- 楼梯平台施工方案
- 高级经济师历年真题 + 押题模拟卷及答案(全专业适配)
- 蘑菇中毒突发群体事件应急预案演练脚本
- 2026年山东青岛市中考语文考试真题带答案
- 设备安装验收移交规范
- 2026年中国联通黑龙江省分公司校园招聘笔试备考题库及答案解析
- 2026年长沙民政职业技术学院单招职业倾向性测试题库含答案详解(能力提升)
- 博物馆陈列展览工程造价指南
- 代理记账投诉管理办法
评论
0/150
提交评论