版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
KNN:K最近邻分类算法K-NearestNeighborClassificationKNN算法怎么来的?KNN算法是怎么来的电影名称打斗次数接吻次数电影类型CaliforniaMan
3104RomanceHe’sNotReallyintoDudes
2100RomanceBeautifulWoman
181RomanceKevinLongblade
10110ActionRoboSlayer3000
995ActionAmpedII
982Action未知1890Unknown猜猜看:最后一行未知电影属于什么类型的电影。KNN算法是怎么来的点X坐标Y坐标点类型A点
3104RomanceB点
2100RomanceC点
181RomanceD点
10110ActionE点
995ActionF点
982ActionG点1890Unknown猜猜看:最后一行未知点属于什么类型的点。KNN算法是怎么来的想一想:下面图片中只有三种豆,有三个豆是未知的种类,如何判定他们的种类?1968年,Cover和Hart提出了最初的近邻法。最近邻算法
提供一种思路,即:未知的豆离哪种豆最近就认为未知豆和该豆是同一种类。由此,我们引出最近邻算法的定义:为了判定未知样本的类别,以全部训练样本作为代表点,计算未知样本与所有训练样本的距离,并以最近邻者的类别作为决策未知样本类别的唯一依据。但是,最近邻算法明显是存在缺陷的,我们来看一个例子。KNN算法是怎么来的问题:有一个未知形状X(图中绿色的圆点),如何判断X是什么形状?K-最近邻算法
显然,通过上面的例子我们可以明显发现最近邻算法的缺陷——对噪声数据过于敏感,为了解决这个问题,我们可以可以把位置样本周边的多个最近样本计算在内,扩大参与决策的样本量,以避免个别数据直接决定决策结果。由此,我们引进K-最近邻算法。
KNN算法是用来干什么的
K-最近邻算法是最近邻算法的一个延伸。基本思路是:选择未知样本一定范围内确定个数的K个样本,该K个样本大多数属于某一类型,则未知样本判定为该类型。
下面借助图形解释一下。KNN算法的实现步骤算法步骤:step.1---初始化距离为最大值step.2---计算未知样本和每个训练样本的距离diststep.3---得到目前K个最临近样本中的最大距离maxdiststep.4---如果dist小于maxdist,则将该训练样本作为K-最近
邻样本step.5---重复步骤2、3、4,直到未知样本和所有训练样本的
距离都算完step.6---统计K个最近邻样本中每个类别出现的次数step.7---选择出现频率最大的类别作为未知样本的类别KNN算法的缺陷
观察下面的例子,我们看到,对于位置样本X,通过KNN算法,我们显然可以得到X应属于红点,但对于位置样本Y,通过KNN算法我们似乎得到了Y应属于蓝点的结论,而这个结论直观来看并没有说服力。KNN算法的具体实现
由上面的例子可见:该算法在分类时有个重要的不足是,当样本不平衡时,即:一个类的样本容量很大,而其他类样本数量很小时,很有可能导致当输入一个未知样本时,该样本的K个邻居中大数量类的样本占多数。但是这类样本并不接近目标样本,而数量小的这类样本很靠近目标样本。这个时候,我们有理由认为该位置样本属于数量小的样本所属的一类,但是,KNN却不关心这个问题,它只关心哪类样本的数量最多,而不去把距离远近考虑在内,因此,我们可以采用权值的方法来改进。和该样本距离小的邻居权值大,和该样本距离大的邻居权值则相对较小,由此,将距离远近的因素也考虑在内,避免因一个样本过大导致误判的情况。KNN算法的缺陷
从算法实现的过程大家可以发现,该算法存两个严重的问题,第一个是需要存储全部的训练样本,第二个是需要进行繁重的距离计算量。对此,提出以下应对策略。
KNN算法的改进:分组快速搜索近邻法
其基本思想是:将样本集按近邻关系分解成组,给出每组质心的位置,以质心作为代表点,和未知样本计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【苏教版】-小学一年级数学下册-第1课时 数数、数的组成
- 25年春【大象版】小学2年级科学上册【二上4单元《力和形变》教材编写思路与教学建议·杨春生】
- 铜陵市护士招聘笔试题及答案
- 铁岭市教师招聘考试题库及答案
- 2026春苏科版(新教材)小学信息技术四年级下册《保护好自己的数据》同步练习及答案
- 烹饪西点蛋糕裱花技巧题目及答案
- 设计师排版题库及答案
- 十堰市教师招聘笔试题及答案
- 深圳市专职消防员招聘面试题及答案
- 26年鼻咽癌精准医疗质控要点梳理
- 2025年中国冶金地质总局三局校园招聘48人笔试历年参考题库附带答案详解
- 2026年园林绿化高大树木修剪与高空作业车使用测试
- (2025年)电气工程概论课后思考题参考答案
- 2026中国电气装备储能科技有限公司社会招聘笔试历年参考题库附带答案详解
- (2026版)贪污贿赂司法解释(二)-面向国家工作人员培训
- GB/T 30341-2013机动车驾驶员培训教练场技术要求
- GB/T 1095-2003平键键槽的剖面尺寸
- 施工扬尘治理六个百分百检查表格
- 32课件 国家电网公司电力安全工作规程线路部分
- 护士压力情绪管理课件
- 桥梁隧道施工监理控制要点课件
评论
0/150
提交评论