机器学习导论-第2章-KNN_第1页
机器学习导论-第2章-KNN_第2页
机器学习导论-第2章-KNN_第3页
机器学习导论-第2章-KNN_第4页
机器学习导论-第2章-KNN_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MACHINELEARNING机器学习第2章KNN2.1

KNN算法的原理介绍2.2

机器学习步骤2.3判断机器学习算法的性能of4122.4超参数和模型参数2.5数据归一化第2章KNNof413思想极度简单应用数学知识少效果好可以解释机器学习算法使用过程中的很多细节问题完整的刻画机器学习应用的流程2.1KNN算法的原理介绍KNN的优点第2章KNNof414效率低下如果训练集有m个样本,n个特征,则预测每一个新的数据,需要O(m*n)2.1KNN算法的原理介绍KNN的缺点第2章KNNof4152.1KNN算法的原理介绍KNN原理第2章KNNof416设计一个程序判断一个新的肿瘤病人是良性肿瘤还是恶性肿瘤。先基于原有的肿瘤病人的发现时间和肿瘤大小(特征)对应的良性/恶性(值)建立了一张散点图,横坐标是肿瘤大小,纵坐标是发现时间,红色代表良性,蓝色代表恶性,现在要预测的病人的颜色为绿色。首先需要取一个k值(这个k值的取法后面会介绍),然后找到距离要预测的病人的点(绿点)距离最近的k个点。然后用第一步中取到的三个点进行投票,比如本例中投票结果就是蓝:红=3:0

,3>0,所以判断这个新病人幻的事恶性肿瘤。2.1KNN算法的原理介绍KNN原理第2章KNNof417如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。2.1KNN算法的原理介绍KNN的本质第2章KNNof418KNN是一个不需要训练过程的算法k近邻算法是非常特殊的,可以被认为是没有模型的算法为了和其他算法统一,可以认为训练数据集就是模型。2.2机器学习步骤第2章KNNof419训练得到的模型直接在真是环境下使用,模型如果质量较差,应用无法使用。2.3判断机器学习算法的性能第2章KNNof4110通过测试数据直接判断模型好坏,在模型使用前改进模型2.3判断机器学习算法的性能第2章KNNof4111超参数在模型构建时需要确定的参数模型参数在模型训练的过程中,逐渐确定的参数KNN中没有模型参数,KNN中的K是经典的超参数如何寻找合适的超参数领域知识经验实验搜索2.4超参数和模型参数第2章KNNof41122.4超参数和模型参数距离的权重超参数:P第2章KNNof4113可选择的距离欧拉距离曼哈顿距离明克夫斯基距离2.4超参数和模型参数距离的权重超参数:P第2章KNNof4114预测一个人的职业KNN在计算距离时,由于工资的影响远大于工作年限,所以预测相当于只采用了一个特征数据归一化就是将所有的数据映射到同一尺度,即让每一个特征数据的影响力是相同的2.5数据归一化为什么要进行数据归一化第2章KNNof41152.5数据归一化第2章KNNof4116把所有数据映射到0-1之间,最小值映射成0,最大值映射成1,中间的值映射到对应位置。2.5数据归一化最值归一化(Normalization)第2章KNNof41172.5数据归一化最值归一化(Normalization)第2章KNNof4118均值方差归一化,也称为标准化。英文也叫作Z-scoreNormalization,它是把所有数据归到均值为0,方差为1的分布中。即确保最终得到的数据均值为0,方差为1。其中x为要归一化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论