版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课前视频学习任务5.1问题描述与解题思路.mp45.2全局变量与代码整体框架.mp45.3数据读入与簇群初始化.mp45.4Kmeans核心算法实现.mp4课前实践任务掌握KMeans算法求解鸢尾花分类问题(无监督学习)调研一种有监督学习方法求解鸢尾花分类预测问题课堂测试(5分钟)课堂讨论(35分钟)课堂讨论1、K-Means聚类算法原理。问题分析鸢尾花的4个参数:花萼长度花萼宽度花瓣长度花瓣宽度注:这个项目中,鸢尾花的种类这一维度的参数没有使用。设计一种鸢尾花快速分类方法样本训练分类算法挖掘内在规律
聚类算法(K-Means)山鸢尾花irisSetosa变色鸢尾花irisVersicolor维吉尼亚鸢尾花irisVirginicaKmeans算法(K均值算法)—图解步骤Kmeans算法—核心思想(1)从样本集中随机选取K个样本作为簇中心,也就是选取K个质心;(2)计算所有样本与这K个质心的距离;(3)依据距离最近原则,将每一个样本划分到与其距离最近的质心所在的簇群中;(4)对于新簇群计算各个簇群的新“簇中心”,也就是新的质心。(5)如果新质心和老质心相同,也就是质心没有发生变化,那么聚类结束;否则就需要回到第(2)步,重新计算点到质心的聚类,确定每个点所属的簇群,再根据新簇群计算新质心。Kmeans算法—计算样本点到质心的距离
Kmeans算法—重新计算质心如果新划分的簇群中有m个向量:
新划分簇群的质心向量的每一个维度计算公式为:
如果计算出的新质心与原质心不同,则表示需要按新质心重新划分簇群;如果质心不再发生变化,簇群划分完毕,算法结束。算法步骤迭代终止条件:所有质心不再发生变化;迭代次数达到上限。Kmeans代码分析3课堂讨论问题2:如何评估K-Means聚类算法的效果(K-Means聚类算法评估指标)。标准:高内聚、低耦合
对于每个点i(已聚类数据中的样本)1、bi为i点到其他簇群所有样本点距离的最小值2、ai为i点到本簇群所有样本点距离的平均值3、最后计算出所有样本点轮廓系数的平均值-1=<SCi<=1SCi
越接近1越好课堂讨论问题3:什么是有监督学习,什么是无监督学习,分析两种学习方法的适用场景。无监督学习:输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。无监督学习目标不是告诉计算机怎么做,而是让它(计算机)自己去学习怎样做事情。例如:聚类、主成分分析方法PCA课堂讨论有监督学习:从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和聚类区分)问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优表示某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统(模型)。例如:KNN(K近邻)、朴素贝叶斯分类、支持向量机课堂讨论问题3:阐述一种有监督学习算法原理;参考:本题自由回答,根据调研阐述不同算法的原理。参考方法——K最邻近分类算法(KNN)K最邻近(KNN,K-NearestNeighbor)分类算法思路在分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别,算法流程如下:(1)数据预处理,例如数据集打乱、种类维度的数据变换。(2)将数据集分训练集和测试集。(3)计算测试样本点即待分类点到训练接中每个样本点的距离。说明:使用前4个维度采用欧式距离计算两个样本点的距离。(4)对每个距离进行排序,选择出与测试样本点距离最小的K(超参,预先设定)个点。(5)排序后对距离最小的K个点所属的类别进行统计,根据少数服从多数的原则,将测试样本点归入在K个点中类比占比最高的那一类。(6)最后计算测试样本被分类的准确度。使用以下公式计算分类的准确度:
准确率=(预测准确的个数/总测试样本数)。参考方法——K最邻近分类算法(KNN)花萼长度(单位:cm)花萼宽度(单位:cm)花瓣长度(单位:cm)花瓣宽度(单位:cm)类别5.13.51.40.2Iris-setosa4.93.01.40.2Iris-setosa6.12.84.01.3Iris-versicolor6.32.54.91.5Iris-versicolor6.33.45.62.4Iris-virginica6.43.15.51.8Iris-virginica参考方法——K最邻近分类算法(KNN)花萼长度(单位:cm)花萼宽度(单位:cm)花瓣长度(单位:cm)花瓣宽度(单位:cm
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026春部编版(五四制)小学语文四年级下册第18课《文言文二则》课堂笔记
- 消防水池和泵房外墙脚手架专项工程施工方案
- 植树节活动日记500字
- 监狱物业物业管理规章制度
- 常用建筑材料行业市场分析
- 国泰海通香江策论之港股IPO、再融资及解禁对港股行情的影响-顺势而为基本面为王
- 2026《护理交接班制度》考试试题(附答案)
- 2026年高考地理新课标二卷考试全国模拟试卷
- 2025年辽宁省鞍山中小学教师招聘考试试卷及答案
- 第11课教学设计小学信息技术人教版一 二年级起点四年级下册-人教版(一、二年级起点)
- 可口可乐乐购世界杯执行方案
- JB T 7689-2012悬挂式电磁除铁器
- 团队沟通与协作培训
- 财务管理现值及终值系数表
- 流体力学实验报告二
- 地理信息系统概论课后习题全部答案-黄杏元著
- 学校教师粉笔字培训课件(粉笔字教学课件)
- 《CPA长期股权投资》课件
- GB/T 8014.2-2005铝及铝合金阳极氧化氧化膜厚度的测量方法第2部分:质量损失法
- GB/T 31711-2015卫生杀虫剂现场药效测定与评价杀蚊幼剂
- 演讲与口才(全)课件
评论
0/150
提交评论