版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类---K近邻王秋月中国人民大学信息学院什么是分类?一家花店想根据某顾客最近买花的情况,来预测某种新来的花是否会被该顾客购买?什么是分类??什么是分类??什么是分类??什么是分类?分类需要什么?数据:将对象表示为量化的一组特征给定类别标签对象间相似性的度量060SurvivedDidnot
survive40Age2010
20Number
of
Malignant
NodesK近邻(KNN)分类06040Age2010
20Number
of
Malignant
Nodes预测K近邻(KNN)分类近邻数目(K=
1):0106040Age2010
20Number
of
Malignant
Nodes预测K近邻(KNN)分类06040Age2010
20Number
of
Malignant
NodesK近邻(KNN)分类近邻数目(K=
2):11预测06040Age2010
20Number
of
Malignant
NodesK近邻(KNN)分类近邻数目(K=
3):21预测06040Age2010
20Number
of
Malignant
NodesK近邻(KNN)分类近邻数目(K=
4):31预测0正确的“K”值如何度量相邻两点之间的相似性/距离?60402010
20Number
of
Malignant
NodesK近邻模型需要选择40AgeK值的选择K
=
106040Age2010
20Number
of
Malignant
NodesK近邻模型的判定边界K=
All010
20Number
of
Malignant
Nodes6040Age20K近邻模型的判定边界010 20Number
of
Malignant
Nodes6040200K=160402010 20Number
of
Malignant
NodesK=AllK值的大小会影响判定边界决定最佳K的方法将在下节课讨论距离的度量06040Age2010
20Number
of
Malignant
NodesK近邻模型中的距离测度06040Age2010
20Number
of
Malignant
NodesK近邻模型中的距离测度06040Age2010
20Number
of
Malignant
Nodes欧几里得距离0Age60402010
20Number
of
Malignant
Nodes𝑑=
∆𝑁𝑜𝑑𝑒𝑠2+∆𝐴𝑔𝑒2∆
Aged∆
Nodes欧几里得距离(L2距离)0Age60402010
20Number
of
Malignant
Nodes∆
Age∆
Nodes𝑑=
∆𝑁𝑜𝑑𝑒𝑠+∆𝐴𝑔𝑒曼哈顿距离(L1或街区距离)数据缩放12345Numberof
Surgeries6040Age20缩放比例对计算距离非常重要12345Numberof
SurgeriesAge60402024222018缩放比例对计算距离非常重要Age6040202422201812345Numberof
SurgeriesNearestNeighbors!缩放比例对计算距离非常重要"特征缩放"1506040Age202 3 4Numberof
Surgeries缩放比例对计算距离非常重要"特征缩放"1506040Age202 3 4Numberof
Surgeries缩放比例对计算距离非常重要"特征缩放"1506040Age202 3 4Numberof
SurgeriesNearestNeighbors!缩放比例对计算距离非常重要StandardScaler:即标准化,尽量将数据转化为均值为0,方差为1的数据,形如标准正态分布(高斯分布)。Minimum-MaximumScaler:将数据缩放到某一给定范围(通常是[0,1])。MaximumAbsoluteValueScaler:通过除以最大绝对值,将数据缩放到[-1,1]。使各特征的数值都处于同一数量级上。特征缩放的不同方法导入包含缩放方法的类:
fromsklearn.preprocessingimport
StandardScaler创建该类的一个对象:
StdSc=
StandardScaler()拟合缩放的参数,然后对数据做转换:
StdSc=
StdSc.fit(X_data)X_scaled=
StdSc.transform(X_data)或者X_scaled=
StdSc.fit_transform(X_data)特征缩放的语法导入包含缩放方法的类:
fromsklearn.preprocessingimport
StandardScaler创建该类的一个对象:
StdSc=
StandardScaler()拟合缩放的参数,然后对数据做转换:
StdSc=
StdSc.fit(X_data)X_scaled=
StdSc.transform(X_data)特征缩放的语法其他缩放方法:MinMaxScaler,MaxAbsScaler.KNN多分类、KNN回归K
=
5FullremissionPartial
remission06040AgeDidnot
survive2010
20Number
of
Malignant
NodesK近邻多分类的判定边界投票决定:少数服从多数,近邻中哪个类别的点最多就分为该类。
加权投票法:根据距离的远近,对近邻的投票进行加权,距离越近则权重越大(权重为距离平方的倒数)K=
1K=
3K=
20K近邻回归KNN模型特点及语法建模快,因为它只是简单地存储数据运行速度慢,因为需要计算很多的距离占用内存多,如果数据集大的话K近邻模型的特点导入包含分类方法的类:
fromsklearn.neighborsimportKNeighborsClassifier创建该类的一个对象:
KNN=KNeighborsClassifier(n_neighbors=3)拟合数据集,即训练KNN模型,并用训练好的模型预测数据的标签:KNN=KNN.fit(X_data,y_data)y_predict=KNN.predict(X_data)K近邻模型的语法/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html导入包含分类方法的类:
fromsklearn.neighborsimportKNeighborsClassifier创建该类的一个对象:
KNN=KNeighborsClassifier(n_neighbors=3)拟合数据集,即训练KNN模型,并用训练好的模型预测数据的标签:KNN=KNN.fit(X_data,y_data)y_predict=KNN.predict(X_data)K近邻模型的语法这种fit和
predict/transform语法会贯穿整个课程导入包含分类方法的类:
fromsklearn.neighborsimportKNeighborsClassifier创建该类的一个对象:
KNN=KNeighborsClassifier(n_neighbors=3)拟合数据集,即训练KNN模型,并用训练好的模型预测数据的标签:KNN=KNN.fit(X_data,y_data)y_predict=KNN.predict(X_data)K近邻模型的语法回归使用KNe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 豆科岩黄耆属:系统发育解析与生物地理探究
- 调和数的p - adic赋值:理论、方法与应用研究
- 2026西藏自治区高层次人才引进496人笔试备考题库及答案详解
- 语篇分析赋能大学英语精读教学:理论、实践与成效探究
- 语法辅助词块法在高中英语写作教学中的应用:理论、实践与成效探究
- 语境信息对大学生CET-6写作质量的影响:基于实证与文本分析
- 语义场理论赋能初中英语词汇教学:策略与成效探究
- 词块法赋能:专科生英语阅读能力进阶的实证探究
- 2026四川乐山市市场监督管理局下属事业单位考核招聘2人考试模拟试题及答案详解
- 2026江苏南通市通州区招聘通州湾示范区安全生产专属网格员40人笔试备考题库及答案详解
- 2026全国一卷语文真题 (回忆版)
- 冶金行业班组安全管理制度培训
- 2026广东广州市人力资源和社会保障局系统事业单位招聘事业编制人员166人(第一次)考试备考试题及答案解析
- 2025年贵州省黔南州事业单位遴选笔试真题及参考答案
- 2026年河南六级下半2026年考试试题及答案
- 安徽省皖江名校联盟2026年5月高三最后一卷地理+答案
- 2025湖南省长沙市中考英语真题(解析版)
- 2026年企业并购重组中的人力资源整合
- 2026-2030中国止血药市场应用趋势调研及投资前景展望研究报告
- 辽宁省沈阳126中学2026届初中英语毕业考试模拟冲刺卷含答案
- 中建三局新员工转正考核
评论
0/150
提交评论