人工智能kNN和KmeansPPT_第1页
人工智能kNN和KmeansPPT_第2页
人工智能kNN和KmeansPPT_第3页
人工智能kNN和KmeansPPT_第4页
人工智能kNN和KmeansPPT_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习简介(AQUICKLOOKATMACHINELEARNING)fuzhan713,1,2,3,4,PARTONE,PARTTWO,PARTTHREE,PARTFOUR,机器学习及其重要性,特征向量,监督学习,非监督学习,目录,机器学习是人工智能的核心研究领域之一任何一个没有学习能力的系统都很难被认为是一个真正的智能系统经典定义:利用经验改善系统自身的性能随着该领域的发展,主要做智能数据分析并已成为智能数据分析技术的源泉之一典型任务:预测(例如:天气预报),机器学习,生物信息学,计算金融学,分子生物学,行星地质学,工业过程控制,机器人,遥感信息处理,信息安全,机器学习,机器学习的重要性,生物信息学,计算金融学,分子生物学,行星地质学,工业过程控制,机器人,遥感信息处理,信息安全,机器学习,通常来说,机器学习会观察一组实例,它们会包含某些统计信息的不完整信息,然后试着推测生成这些实例的过程,这组实例通常被称为训练数据。举例来说,假设下面有两组人:举例来说,假设下面有两组人,训练数据,特征向量,信噪比(signal-to-noiseratio,SNR)这个概念经常出现在工程学和科学中。准确的定义根据应用场景不同而不同,但是核心思想非常简单,可以把它看成有用输入和无用输入的比例。如果我想要预测哪些学生会在编程中表现突出,那之前的编程经验和数学天分就是信号的一部分,但是性别是噪声。想要从噪声中分离信号并不是一件简单的事情,如果做不好的话,噪声就会掩盖住信号的内容。,特征提取,特征提取的目的是从现有数据的噪声中提取出和信号有关的特征。如果做不好的话会出现两类问题:无关特征会影响模型质量,当数据维度(不同特征的数量)和实例数量高度相关时,影响尤其严重。无关特征会影响学习速度。机器学习算法通常时学习密集型的,复杂度会随着实例数量和特征数量的增加而增加。特征提取的就是要减少实例中需要归纳的信息量,找出有用的特征,进而提高算法模型的准确性。,思考:特征向量和标签(是否是爬行动物),巨蚺是否是爬行动物?,新规则:短吻鳄,在上表中,使用4个二元特征和1个整数特征来描述动物。假如说用这些特征评估两个动物的相似度,比如说判断巨蚺更新响尾蛇还是箭毒蛙,应该如何做?首先把每个动物的特征转换成一个数字序列。如果把True看成1,把False看作0,就可得到下面的特征向量:响尾蛇:1,1,1,1,0巨蚺:0,1,0,1,0箭毒蛙:1,0,1,0,4,距离度量,闵可夫斯基距离,比较数字向量的相似度有许多中不同的方法,最常用的是一种基于闵可夫斯基距离。,图1闵可夫斯基距离示例,闵可夫斯基距离实现,图2闵可夫斯基距离的一种实现,计算动物之间的相似度,运行下面的代码,生成一张表格,短吻鳄,在末尾添加下面的代码,生成一张表格,问题的根源是:不同的特征有不同的取值范围。腿的取值范围是0至4,但是其他的数值是0或1。这意味着计算欧式距离时,腿的权重数量更大。,特征向量的权重,现实时间中有很多种机器学习的方法,但是它门的目的都是找到一个可以归纳所有实例的模型,这些方法通常有三个部分组成:模型的具体描述对模型评估的目标函数一种优化方法,可以最小话或者最大化目标函数的值。机器学习算法可以分为有监督学习和无监督学习。,机器学习的目的,监督学习(supervisedlearning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做一个好的预测。输出的结果可以是一个连续的值(称为回归),或是预测一个分类标签(称为分类)。监督学习的特点是输入的数据有标签(label),就是已知要预测的结果。形式化描述,监督学习,KNN是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。,KNN(K-近邻算法),下面通过一个简单的例子说明一下:如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。,KNN(例子),接下来对KNN算法的思想总结一下:就是在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:1)计算测试数据与各个训练数据之间的距离;2)按照距离的递增关系进行排序;3)选取距离最小的K个点;4)确定前K个点所在类别的出现频率;5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。,KNN(K-近邻算法),KNN(示例-1),KNN(示例-2),课后练习,项目案例1:优化约会网站的配对效果完成代码地址:,项目案例2:手写数字识别系统完成代码地址:,在无监督学习中,我们基本上不知道结果会是什么样子,但我们可以通过聚类的方式从数据中提取一个特殊的结构。在无监督学习中给定的数据是和监督学习中给定的数据是不一样的。在无监督学习中给定的数据没有任何标签或者说只有同一种标签。)。,无监督学习,如下图所示,在无监督学习中,我们只是给定了一组数据,我们的目标是发现这组数据中的特殊结构。例如我们使用无监督学习算法会将这组数据分成两个不同的簇,,这样的算法就叫聚类算法。,聚类,聚类的基本思想是将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个”簇”(cluster)。划分后,每个簇可能有相同对应的概念(性质)。K-均值算法就是一个使用很广泛的聚类算法,其中的K就表示簇的数量,K-means简单的说就是通过质心来将样本划分成K个不同的簇。,K-means聚类算法,K-means算法举例,K-means聚类算法工作流程,工作流程:(1)事先选定K个聚类中心(2)计算待测样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论