相似性度量 微课_第1页
相似性度量 微课_第2页
相似性度量 微课_第3页
相似性度量 微课_第4页
相似性度量 微课_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术与应用1概述2相似性度量3

K-Means4K-Medoids目录5层次聚类变量大致可以分为两类:定量变量,也就是通常所说的连续变量。定性变量,这些量并非真有数量上的变化,而只有性质上的差异。这些量可以分为两种,一种是有序变量,另一种是名义变量。相似性度量相似度如何衡量:距离典型的距离定义相似性度量连续型变量距离两个仅包含二元属性的对象之间的相似性度量也称相似系数两个对象的比较有四种情况:f00=x取0并且y取0的属性个数;f01=x取0并且y取1的属性个数;f10=x取1并且y取0的属性个数;f11=x取1并且y取1的属性个数简单匹配系数:SMC=值匹配的属性个数/属性个数

=(f11+f00)/(f01+f10+f11+f00)Jaccard(杰卡德)系数:J=匹配的个数/不涉及0-0匹配的属性个数

=(f11)/(f01+f10+f11)相似性度量相似系数两个二元向量:x=(1,0,0,0,0,0,0,0,0,0)y=(0,0,0,0,0,0,1,0,0,1)f00=7(x取0并且y取0的属性个数)f01=2(x取0并且y取1的属性个数)f10=1(x取1并且y取0的属性个数)f11=0(x取1并且y取1的属性个数)简单匹配系数:SMC=(f11+f00)/(f01+f10+f11+f00)=(0+7)/(2+1+0+7)=0.7Jaccard系数:J=(f11)/(f01+f10+f11)=0/2+1+0=0相似性度量相似系数余弦相似系数(如计算两文档间相似系数):

cos(x1,x2)=(x1x2)/||x1||||x2||,其中表示向量的点积(内积),||x||表示向量的范数。例向量:x1=(3,2,0,5,0,0,0,2,0,0) x2=(1,0,0,0,0,0,0,1,0,2)则余弦相似系数为:cos(x1,x2)=5/(6.481*2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论