2. 基本概念及k Means算法ppt课件

上传人：简*** IP属地：湖北上传时间：2020-04-13 格式：PPT 页数：29 大小：778KB 积分：9.6 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘王成副教授华侨大学计算机科学与技术学院主要内容实例特征及特征向量差异度度量k 均值算法实例输入数据集中的每一条数据都是一个样本 example 而我们通常用更专业的术语实例 instance 来表示例如下表中一共有6个实例注各个数字代表喜欢的程度范围是0 10 0表示不喜欢 10表示非常喜欢特征及特征向量特征 feature 也称作属性 attribute 每一个单一的独立的实例是由一组固定的和预先定义的特征或属性作为输入提供给机器学习的实例就好比是数据库表中的行而属性是列特征及特征向量学生B的特征是学生B 4 8 0 1 对零食喜欢程度对韩剧喜欢程度对篮球喜欢程度对游戏喜欢程度特征值学生B的特征向量 4维特征向量特征值的类型数值 numeric 属性实数或整数值例如前面学生成绩例子中的学生成绩属性即是一个数值属性分类 categorical 属性从一个预先定义的有限的可能值的集合中取值有时也称作名目 norminal 属性枚举 enumerated 属性或离散 discrete 属性这类属性值是一些独特的符号作为标签或名字使用例如天气属性是一个分类属性它的值只能是晴多云雨等布尔 boolean 属性分类属性的一个特例只有true和false 或yes和no两个可选值如何让程序自动对学生分组如果两个学生的爱好比较类似例如都喜欢运动可以分为一组如果有一种方式来度量两个学生的爱好差异程度那我们可以将差异小的学生分为同一组而将差异大的分为不同组主要内容实例特征及特征向量差异度度量k 均值算法如何度量各个学生的差异程度考虑二维的情况 D 0 2 B 4 8 C 0 0 A 8 8 E 1 0 F 6 1 B和D的差异可以用BD之间的距离来表示如何度量N维特征向量之间的差异欧氏距离欧氏距离欧几里得距离 Euclideandistance N维空间内任意两点x x1 xn 和y y1 yn 之间的距离为欧氏距离 d A B d A D d C E 小练习欧氏距离为什么可以使用欧氏距离来体现学生之间的差异用于体现学生数据之间的差异的距离公式需要满足如下条件 1 计算得到的距离不能为负数2 学生特征数据差异越大距离也要越大反之差异越小距离也要越小3 当且仅当学生特征数据相同时距离才为0 否则大于04 学生A和学生B的距离应等于学生B和学生A的距离对称性还有其它度量相异度的方法吗曼哈顿距离闵可夫斯基距离欧氏距离和曼哈顿距离可以看做是闵可夫斯基距离在p 2和p 1下的特例主要内容实例特征及特征向量差异度度量k 均值算法 k 均值算法 k Means C4 5 k Means SVM Apriori EM PageRank AdaBoost kNN Na veBayes CART 十大数据挖掘算法之一一种聚类算法属无监督学习 k 均值算法 k Means 聚类算法将数据点分为多个簇 cluster k menas算法中簇的中心叫做簇质心或中心点 centroid 质心不一定是一个真实存在的数据点把每个簇想像成一块有质量的物体质心即这块物体的质量中心k means要求事先指定数据要分为几组例如可指定分为3组这里的3即算法名称中k的含义此时k 3 图 4个簇及其质心 k 均值算法 k Means 1 随机挑选3个点作为初始簇质心 centroid 指定k 3 即要将数据点分成3组 2 遍历所有点各自加入距离最近的簇 3 调整各个簇的的质心 4 回到第2步中止条件簇不再发生变化第2步如何找到最近的簇遍历各簇质心计算欧氏距离距离最小的即最近的第3步如何调整质心取簇中各点的算术平均值作为新质心的坐标即可 1 4 6 0 3 2 0 8 6 4 8 4 1 8 8 7 6 8 7 9 7 8 1 25 5 5 6 67 2 67 5 75 2 5 0 67 6 67 如何评价聚类结果的质量好的聚类结果的簇内数据点比较紧凑簇间相距大即簇内中各数据点离质心的距离都比较小可使用误差平方和 SSE SumofSquaredErrors 准则函数来评价一个簇的误差平方和即簇内各点到质心欧式距离的平方和其中p表示簇中的点 X是簇内点的集合 distance p centroid 即点p到簇质心的距离聚类结果的SSE即各个簇的SSE之和其值越小表示聚类质量越好改进1 归一化结果被工资主导了考虑对如下学生兴趣数据进行聚类改进1 归一化为什么结果被工资主导了例如x2 y2的差值很大而x1 y1等差异很小则计算得到的欧氏距离几乎就约等于解决方案归一化 v为原特征值 v 为归一化后的值 vmin为样本最小值 vmax为样本最大值改进1 归一化归一化 k 均值算法性能分析主要优点是解决聚类问题的经典算法简单快速结果簇比较密集簇间区别明显时效果较好主要缺点对初始值比较敏感不同的初始值可能会导致不同的结果对噪声和孤立点数据敏感少量的该类数据能对平均值产生极大的影响在簇的平均值被定义的情况下才能使用对分类属性不适用必须事先给出k值初始值选择的改进如何初始值选的是这两个点会怎么样 k means 基本思路初始的聚类中心之间的相互距离要尽可能的远算法思想 1 随机选择第一个簇质心2 对于数据集中每一个点x 计算它与最近质心的距离D x 3 选择一个新数据点作为新簇质心选择原则是 D x 较大的点被选取作为聚类中心的概率较大4 重复2和3直到k个簇质心被选出来5 利用这k个初始的簇质心来运行标准的k Means算法请课后查阅相关资料了解算法细节处理孤立点 k 中心点算法 k medoids 不是简单像k means算法采用均值计算法每次迭代后的质心都是从簇的样本点中选取而选取的标准就是当该样本点成为新的质点后能提高簇的聚类质量使得类簇更紧凑算法使用SSE来定义一个簇的紧凑程度算法步骤 1 随机选择k个对象作为初始的中心点 2 重复 3 指派每个剩余的样本点给最近的中心点所代表的簇 4 随意地选择一个非中心点Orandom 5 计算用Orandom代替原中心点的总代价S 6 如果S 0 更紧凑了则用Orandom替换原中心点 7 直到不发生变化其中S为替换原中心点后的SSE减去替换前的SSE S 0表示替换后SSE变小了即聚类质量更好了请课后查阅相关资料了解算法细节总结样本实例特征特征向量的概念样本差异度的度量欧氏距离k 均值算法k 均值算

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2. 基本概念及k Means算法ppt课件

文档简介

温馨提示

最新文档

评论

2. 基本概念及k Means算法ppt课件

文档简介

温馨提示

最新文档

评论

相关文档