信息技术课件人工智能无师自通分门别类_第1页
信息技术课件人工智能无师自通分门别类_第2页
信息技术课件人工智能无师自通分门别类_第3页
信息技术课件人工智能无师自通分门别类_第4页
信息技术课件人工智能无师自通分门别类_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息技术课件

人工智能

无师自通

分门别类6.1当人工智能未曾听说花的名字6.2物以类聚:鸢尾花的K均值聚类6.3人以群分:相册中的人脸聚类6.4层次聚类与生物聚类6.5本章小结6.1当人工智能未曾听说花的名字监督学习需要训练数据的标注信息的学习过程无监督学习没有标注信息的学习过程为鸢尾花分类6.1当人工智能未曾听说花的名字监督学习无监督学习在类别信息的指导下,我们很容易找到一条最优的直线,将特征空间一分为二,使变色鸢尾和山鸢尾各居一隅。没有类别信息的指导,我们很难判断哪一些鸢尾花是相同品种,哪一些鸢尾花是不同品种,更别提使用一条直线为鸢尾花分类了。6.1当人工智能未曾听说花的名字在无监督学习的情况下如何为鸢尾花分类?已知,同一品种的鸢尾花,花瓣宽度与花瓣长度相近。特征空间里相近的两个样本点,很可能是同一种鸢尾花。特征空间里的鸢尾花大概聚集成了两簇,分别记为A类鸢尾花与B类鸢尾花。根据鸢尾花在特征空间的聚集情况进行分类6.1当人工智能未曾听说花的名字聚类(clustering)通过分析数据在特征空间的聚集情况,将一组数据分成不同的类。聚类旨在把一群样本分为多个集合,使得同一集合内的元素尽量“相似”或“相近”。聚类的一个重要假设,就是特征空间里相近的两个样本,很可能属于同一个类别,这一假设不一定在所有数据中都成立。聚类作为一种无监督学习过程,不需要数据的类别标注,甚至不需要预先定义类别。6.2物以类聚:鸢尾花的K均值聚类

先从任意一组划分出发,通过调整,逐步达成上述目标。6.2物以类聚:鸢尾花的K均值聚类对于如图所示划分方式,计算每一类鸢尾花花瓣的平均宽度与平均长度,得到每一类鸢尾花的聚类中心(图中红色记号)。由于聚类中心是由一类鸢尾花的平均特征决定的,它可以作为该类鸢尾花的代表。一株鸢尾花到某一类鸢尾花中心点的距离越小,就标识它与该类鸢尾花越相似,越可能属于该类鸢尾花。①每一类鸢尾花的聚类中心6.2物以类聚:鸢尾花的K均值聚类发现A类鸢尾花γ与B类的聚类中心更接近,说明它与B类鸢尾花更为相似。将鸢尾花γ归入B类。②矛盾的样本γ6.2物以类聚:鸢尾花的K均值聚类③矛盾的样本ω由于划分方式的变化,类别的聚类中心改变了,重新计算聚类中心。然而在新的划分方式中,发现A类鸢尾花ω更接近B类鸢尾花的聚类中心。为进一步改善划分结果,将鸢尾花ω归入B类。6.2物以类聚:鸢尾花的K均值聚类④K均值聚类结果经过多次修正,终于得到一个令人满意的划分方式,所有的鸢尾花都满足聚类目标。6.2物以类聚:鸢尾花的K均值聚类K均值聚类算法(K-meansclustering)在K均值聚类算法中,已知样本的划分方式,可以计算每一类样本的聚类中心。反之,已知聚类中心,也可以得到一个更好的划分方式。通过循环地改善中心点与划分方式,可以得到越来越好的聚类结果,指导聚类中心与划分方式不再发生变化。6.2物以类聚:鸢尾花的K均值聚类最初的聚类中心如何获得?首先,决定聚类的类别数K,再在所有样本中随机选取K个样本作为聚类中心,就完成聚类中心的初始化了。6.2物以类聚:鸢尾花的K均值聚类第一步:随机地从所有样本中选取K个样本,作为每一个类别的初始聚类中心。第二步:将每一个样本划分给距离最近的聚类中心对应的类别,得到新的划分方式。第三步:重新计算每类样本的聚类中心。重复第二、三步骤,直到聚类中心与划分方式不再发生变化。完整的K均值聚类算法:6.2物以类聚:鸢尾花的K均值聚类K=3(山鸢尾、变色鸢尾、弗吉尼亚鸢尾)K均值聚类的收敛过程K均值聚类结果的组成成分分析6.3人以群分:相册中的人脸聚类相册人脸

检测人脸

转正特征

提取人脸

聚类聚类

结果6.3人以群分:相册中的人脸聚类相册人脸

检测人脸

转正特征

提取人脸

聚类聚类

结果6.3人以群分:相册中的人脸聚类相册人脸

检测人脸

转正特征

提取人脸

聚类聚类

结果6.3人以群分:相册中的人脸聚类相册人脸

检测人脸

转正特征

提取人脸

聚类聚类

结果6.3人以群分:相册中的人脸聚类相册人脸

检测人脸

转正特征

提取人脸

聚类聚类

结果6.3人以群分:相册中的人脸聚类相册人脸

检测人脸

转正特征

提取人脸

聚类聚类

结果6.3人以群分:相册中的人脸聚类在相册的人脸聚类中,往往不知道数据应该分为几类,尤其是在难以直接观测和统计的高位数据空间中。那么如何确定K的大小?使用不同的K进行K均值聚类,统计K取不同值的时候每一个样本和对应聚类中心的平均距离。样本到对应聚类中心的平均距离一定程度上可以衡量聚类的效果。手肘法(elbowmethod)6.3人以群分:相册中的人脸聚类手肘法的核心指标是SSE(sumofthesquarederrors,误差平方和)其中,Ci是第i个簇,p是Ci中的样本点,mi是Ci的质心(Ci中所有样本的均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏。手肘法的核心思想是:随着聚类数k的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和SSE自然会逐渐变小。并且,当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓,也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数。当然,这也是该方法被称为手肘法的原因。手肘法(elbowmethod)6.4层次聚类与生物聚类层次聚类层次聚类首先将每个样本都单独当成一类,而后重复地合并最相似的两个类。当所有的类别间的距离都超过一个预设的截止距离时,层次聚类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论