人工智能与机器学习04-K近邻_第1页
人工智能与机器学习04-K近邻_第2页
人工智能与机器学习04-K近邻_第3页
人工智能与机器学习04-K近邻_第4页
人工智能与机器学习04-K近邻_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类---K近邻王秋月中国人民大学信息学院什么是分类?一家花店想根据某顾客最近买花的情况,来预测某种新来的花是否会被该顾客购买?什么是分类??什么是分类??什么是分类??什么是分类?分类需要什么?数据:将对象表示为量化的一组特征给定类别标签对象间相似性的度量060SurvivedDidnot

survive40Age2010

20Number

of

Malignant

NodesK近邻(KNN)分类06040Age2010

20Number

of

Malignant

Nodes预测K近邻(KNN)分类近邻数目(K=

1):0106040Age2010

20Number

of

Malignant

Nodes预测K近邻(KNN)分类06040Age2010

20Number

of

Malignant

NodesK近邻(KNN)分类近邻数目(K=

2):11预测06040Age2010

20Number

of

Malignant

NodesK近邻(KNN)分类近邻数目(K=

3):21预测06040Age2010

20Number

of

Malignant

NodesK近邻(KNN)分类近邻数目(K=

4):31预测0正确的“K”值如何度量相邻两点之间的相似性/距离?60402010

20Number

of

Malignant

NodesK近邻模型需要选择40AgeK值的选择K

=

106040Age2010

20Number

of

Malignant

NodesK近邻模型的判定边界K=

All010

20Number

of

Malignant

Nodes6040Age20K近邻模型的判定边界010 20Number

of

Malignant

Nodes6040200K=160402010 20Number

of

Malignant

NodesK=AllK值的大小会影响判定边界决定最佳K的方法将在下节课讨论距离的度量06040Age2010

20Number

of

Malignant

NodesK近邻模型中的距离测度06040Age2010

20Number

of

Malignant

NodesK近邻模型中的距离测度06040Age2010

20Number

of

Malignant

Nodes欧几里得距离0Age60402010

20Number

of

Malignant

Nodes𝑑=

∆𝑁𝑜𝑑𝑒𝑠2+∆𝐴𝑔𝑒2∆

Aged∆

Nodes欧几里得距离(L2距离)0Age60402010

20Number

of

Malignant

Nodes∆

Age∆

Nodes𝑑=

∆𝑁𝑜𝑑𝑒𝑠+∆𝐴𝑔𝑒曼哈顿距离(L1或街区距离)数据缩放12345Numberof

Surgeries6040Age20缩放比例对计算距离非常重要12345Numberof

SurgeriesAge60402024222018缩放比例对计算距离非常重要Age6040202422201812345Numberof

SurgeriesNearestNeighbors!缩放比例对计算距离非常重要"特征缩放"1506040Age202 3 4Numberof

Surgeries缩放比例对计算距离非常重要"特征缩放"1506040Age202 3 4Numberof

Surgeries缩放比例对计算距离非常重要"特征缩放"1506040Age202 3 4Numberof

SurgeriesNearestNeighbors!缩放比例对计算距离非常重要StandardScaler:即标准化,尽量将数据转化为均值为0,方差为1的数据,形如标准正态分布(高斯分布)。Minimum-MaximumScaler:将数据缩放到某一给定范围(通常是[0,1])。MaximumAbsoluteValueScaler:通过除以最大绝对值,将数据缩放到[-1,1]。使各特征的数值都处于同一数量级上。特征缩放的不同方法导入包含缩放方法的类:

fromsklearn.preprocessingimport

StandardScaler创建该类的一个对象:

StdSc=

StandardScaler()拟合缩放的参数,然后对数据做转换:

StdSc=

StdSc.fit(X_data)X_scaled=

StdSc.transform(X_data)或者X_scaled=

StdSc.fit_transform(X_data)特征缩放的语法导入包含缩放方法的类:

fromsklearn.preprocessingimport

StandardScaler创建该类的一个对象:

StdSc=

StandardScaler()拟合缩放的参数,然后对数据做转换:

StdSc=

StdSc.fit(X_data)X_scaled=

StdSc.transform(X_data)特征缩放的语法其他缩放方法:MinMaxScaler,MaxAbsScaler.KNN多分类、KNN回归K

=

5FullremissionPartial

remission06040AgeDidnot

survive2010

20Number

of

Malignant

NodesK近邻多分类的判定边界投票决定:少数服从多数,近邻中哪个类别的点最多就分为该类。

加权投票法:根据距离的远近,对近邻的投票进行加权,距离越近则权重越大(权重为距离平方的倒数)K=

1K=

3K=

20K近邻回归KNN模型特点及语法建模快,因为它只是简单地存储数据运行速度慢,因为需要计算很多的距离占用内存多,如果数据集大的话K近邻模型的特点导入包含分类方法的类:

fromsklearn.neighborsimportKNeighborsClassifier创建该类的一个对象:

KNN=KNeighborsClassifier(n_neighbors=3)拟合数据集,即训练KNN模型,并用训练好的模型预测数据的标签:KNN=KNN.fit(X_data,y_data)y_predict=KNN.predict(X_data)K近邻模型的语法/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html导入包含分类方法的类:

fromsklearn.neighborsimportKNeighborsClassifier创建该类的一个对象:

KNN=KNeighborsClassifier(n_neighbors=3)拟合数据集,即训练KNN模型,并用训练好的模型预测数据的标签:KNN=KNN.fit(X_data,y_data)y_predict=KNN.predict(X_data)K近邻模型的语法这种fit和

predict/transform语法会贯穿整个课程导入包含分类方法的类:

fromsklearn.neighborsimportKNeighborsClassifier创建该类的一个对象:

KNN=KNeighborsClassifier(n_neighbors=3)拟合数据集,即训练KNN模型,并用训练好的模型预测数据的标签:KNN=KNN.fit(X_data,y_data)y_predict=KNN.predict(X_data)K近邻模型的语法回归使用KNe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论