版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
相似度计算方法《机器学习算法思想与实践》目录030102匹配测度距离测度相似测度
相似度有两种基本类别:客观相似度和主观相似度。本章关注客观相似度,客观相似度衡量两个对象客观上的相近程度,是对象的多维特征之间的某种函数关系,以下介绍常用的相似度计算方法。
理解相似度的基本概念。
掌握距离测度的计算方法。
掌握相似测度的计算方法。学习目标:距离测度01闵氏距离Hausdorff距离巴氏距离距离测度闵氏距离
曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果,也被称为绝对值距离(街坊距离或Manhattan距离),用于多维数据空间距离的测度,曼哈顿距离计算公式见公式曼哈顿距离
其中,d(x,y)的取值范围是[0,1],同欧式距离一致,值越小,说明距离越近,相似度越大。闵氏距离闵氏距离曼哈顿距离案例2-1:有四只股票:股票A、股票B、股票C、股票D,四只股票从2024-1-1至2024-1-5的收盘价如表2-1所示,请基于曼哈顿距离计算股票之间的相似度。案例
假设X、Y是n维空间的两个点,它们之间的欧氏距离(Eucliddistance)是:欧氏距离
由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。闵氏距离欧氏距离闵氏距离欧氏距离案例2-2:使用案例2-1的数据,基于欧氏距离计算股票之间的相似度。由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关,请看案例2-3。案例闵氏距离欧氏距离案例2-3:已知6人的身高和体重数据如表2-2所示,使用欧式距离计算a与b、c的体型差距。由欧氏距离计算可得a与c的体型较为相近,但根据常识可知a与b体型较为相似,和c的体型差距较大,得到这种结果是因为欧式距离受特征分量的量纲影响较大,马氏距离力图解决这个问题。案例
马氏距离(Mahalanobisdistance)是旋转变换缩放之后的欧氏距离,可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题。马氏距离定义如下:马氏距离闵氏距离闵氏距离马氏距离案例闵氏距离马氏距离案例闵氏距离马氏距离案例闵氏距离马氏距离案例闵氏距离马氏距离案例闵氏距离马氏距离案例计算得到样本a到样本c的马氏距离为2.9670。从案例2-4和案例2-5可知,无论用kg或是用g作为体重单位计算,样本a与整个数据集的马氏距离结果是一样,马氏距离不受变量单位的影响。马氏距离闵氏距离
马氏距离多用在异常点检测中,(a)数据呈椭圆分布,中心点为O,现在需要判断A点和B点哪个是离群点,哪个是正常点。若使用欧式距离来检测异常点如图(b),则会错误地将点A视为异常点,因为单纯的欧式距离无法反映块数据的分布,使用马氏距离检测异常点如图(c),会准确找出异常点B,图(d)为数据旋转变换之后的数据分布。马氏距离等效于数据经过旋转变换后的欧式距离。
切氏距离(Chebyshevdistance)也被称为棋盘距离/切比雪夫距离,起源于国际象棋中国王的走法,国王每次只能往周围的8格中走一步,那么从棋盘中A(x1,y1)走到B(x2,y2)最少需要走几步?在二维空间内,两个点之间的切比雪夫距离为它们横坐标之差的绝对值与纵坐标之差的绝对值的最大值。设点A(x1,y1),B(x2,y2),则A,B之间的切比雪夫距离用公式可以表示为:切氏距离闵氏距离闵氏距离切氏距离在一个10x10的棋盘上,点A(2,4),点B(6,9),可知在水平方向上,点A到点B需要移动4个,在垂直方向上,点A到点B需要移动5个单位,则点A与点B的切氏距离为5,如图2-2所示。案例Hausdorff距离(Hausdorffdistance,HD)测量两个点集之间的距离,它将度量空间的非空紧凑子集的集合转换为本身的度量空间,是描述两组点集之间的相似程度的一种量度。
存在集合X和集合Y,其中,X={x1,x2,...xn},Y={y1,y2,...yn},若X和Y不相交,遍历X集合上所有点x1,x2,...,xn,这些点到Y存在一系列最短路径,d1,d2,...,dn,那么,d(max)=max(d1,d2,...,dN)就是集合X到集合Y的Hausdorff距离。Hausdorff距离Hausdorff距离Hausdorff距离案例Hausdorff距离Hausdorff距离案例Hausdorff距离Hausdorff距离步骤3:计算Hausdorff距离案例Hausdorff距离Hausdorff距离案例
巴氏距离(Bhattacharyyadistance)是一种用于衡量两个概率分布之间相似性的距离度量,给定两个概率分布P和Q,巴氏距离定义如下:
其中BC(P,Q)称为Bhattacharyya系数,其取值在0~1之间,越靠近1表示两个统计样本之间相似度越高。
巴氏系数定义如下:巴氏距离巴氏距离巴氏距离案例相似测度02余弦相似度皮尔逊相关系数Tanimoto系数斯皮尔曼等级相关系数KendallRank相关系数Jaccard系数Dice系数余弦相似度通过计算两个向量的夹角余弦值来衡量相似度,常用于文本挖掘和信息检索。余弦相似度定义皮尔逊相关系数用于衡量两个变量之间的线性相关程度,适用于线性关系的变量。皮尔逊相关系数斯皮尔曼等级相关系数用于衡量两个变量之间的单调关系,适用于非线性关系的变量。斯皮尔曼等级相关系数KendallRank相关系数用于衡量两个变量之间的等级相关性,适用于小样本数据。KendallRank相关系数相似测度Dice系数用于度量两个集合的相似性,适用于二值特征向量的相似性计算。01Tanimoto系数用于计算两个集合之间的相似度,适用于布尔向量或文档数据的相似度计算。02Jaccard系数用于计算两个集合之间的相似度,适用于符号度量或布尔值度量的个体相似度计算。03Tanimoto系数Jaccard系数Dice系数相似测度余弦相似度余弦相似度案例皮尔逊相关系数皮尔逊相关系数皮尔逊相关系数案例皮尔逊相关系数案例皮尔逊相关系数案例皮尔逊系数适用于:两个变量之间是线性关系,都是连续数据;两个变量的总体是正态分布,或接近正态的单峰分布;两个变量的观测值是成对的,每对观测值之间互相独立。斯皮尔曼等级相关系数斯皮尔曼等级相关系数案例案例2-10:计算表2-4中元素排行,当变量的两个值相同时其排行是通过对它们的位置进行平均得到的。KendallRank相关系数KendallRank相关系数KendallRank相关系数KendallRank相关系数案例KendallRank相关系数案例
用KendallRank相关系数来分析用户年龄与该养生相关视频的播放情况是否相关。对于样本3和样本4它们的年龄序号是[3,4]播放序号是[2,4]虽然序号不同,但是变化趋势是相同的,因此它们是一致的;对于样本2和样本3它们的年龄序号是[2,3]播放序号是[5,2]它们的变化趋势是相反的,因此它们是分歧的,分别计算每个样本的一致对数和分歧对数。计算得C=40,D=5,由于用户年龄与播放完成度集合中不存在相同元素的情况,使用公式2-21计算KendallRank相关系数的值:计算得KendallRank相关系数为0.778,用户年龄与播放养生相关视频的时长呈现强相关性,基于这个分析可以尝试对更多年龄大一些的用户推送此视频。Tanimoto系数Tanimoto系数案例案例2-12:有两个文档A和B,文档A的关键词集合为{apple,banana,orange,pear},文档B的关键词集合为{apple,banana,grape,watermelon}。它们分别表示两篇文章的关键词集合,使用Tanimoto系数来进行计算这两篇文章之间的相似度。计算两个集合的交集,即{apple,banana},交集的元素个数为2。计算两个集合的并集,即{apple,banana,orange,pear,grape,watermelon},并集的元素个数为6。最后,我们使用Tanimoto系数的公式计算相似度:
根据Tanimoto系数的计算结果,文档A和文档B的相似度为0.33,表示它们之间的相似度较低。Jaccard系数Jaccard系数案例案例2-13:假设我们有两个集合,分别表示两个人的兴趣爱好:A={篮球,
游泳,
读书},B={读书,
跑步,
绘画},现在我们想要计算这两个人的兴趣爱好的
Jaccard相似系数。首先,找出两个集合的交集和并集:A∩B={读书},A∪B={篮球,
游泳,
读书,
跑步,
绘画}。然后,计算
Jaccard相似系数:意味着这两个人的兴趣爱好的Jaccard相似系数为0.2,说明它们在兴趣爱好上的相似性相对较低。Dice系数Dice系数案例匹配测度03Rao测度简单匹配系数Kulzinsky系数
RAO测度用于衡量两个集合X和Y之间的相似性,常用于比较两个集合的二元特征匹配情况。Rao测度定义Rao测度RAO测度的取值范围在0到1之间,越接近1表示两个集合越相似,RAO测度的优势之一是它对于不同类别的误差给予了相等的权重。Rao测度案例案例2-15:假设有两个集合:
X={1,0,1,1,0},Y={1,1,0,1,0},这里的1表示存在,0表示不存在,使用RAO测度来计算这两个集合之间的相似性。首先,我们需要计算一些值:a:X和Y中(1-1)匹配的特征数目,即X与Y都有的元素个数。在这个例子中,a=2(索引0和
3的元素匹配)。b:X有而Y没有的元素个数,即(0-1)匹配的特征数目。在这个例子中,b=1(索引1的元素只在X中存在)。c:Y有而X没有的元素个数,即(1-0)匹配的特征数目。在这个例子中,c=1(没有这样的元素)。e:X与Y都没有的元素个数,即(0-0)匹配的特征数目。在这个例子中,e=1(索引4的元素在两个集合中都是0)。n:向量的维数,即集合中元素的个数。在这个例子中,n=5。Rao测度案例
匹配系数(simplematchingcoefficient)是一种用于度量两个二值向量相似性的方法,考虑了所有匹配的特征数目,包括相同的特征和不同的特征,通常表示为smc(X,Y)。在给定两个二值特征向量X和Y的情况下,smc(X,Y)的计算方式如下:简单匹配系数其中,a
表示(1-1)匹配的特征数目,e
表示(0-0)匹配的特征数目,n是标准化因子,即:n=||x||(向量x中1的个数)。简单匹配系数的取值范围在0到1之间,0表示两个向量无共同特征,1表示两个向量完全相同。简单匹配系数案例案例2-16:假设有两个学生的二值特征向量,表示是否喜欢某门课程。特征向量中的每个元素代表一个学生,元素的取值为1表示喜欢,取值为0表示不喜欢,计算这两个学生之间的简单匹配系数(SMC)。设学生
A的特征向量为x=[1,0,1,1],学生B的特征向量为y=[1,1,0,1]。计算得到:a=2(有两个位置同时为1,即(1-1)匹配的特征数目),e=0(有一个位置同时为0,即(0-0)匹配的特征数目),n=3(学生A的特征向量中有三个1)。将这些值代入计算公
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年厦门清大海峡私募基金管理有限公司人员招聘备考题库及答案详解(易错题)
- 钒铁熔化还原工6S执行考核试卷含答案
- 润滑脂装置操作工安全检查考核试卷含答案
- 炭黑生产工复测水平考核试卷含答案
- 液压支架工操作水平强化考核试卷含答案
- 2025年滨海镇实验幼儿园保育员招聘备考题库及答案详解(夺冠系列)
- 2025年复旦大学经济学院招聘经济学院院务办公室行政秘书岗位1名备考题库及参考答案详解一套
- 2025年工业AI质量成本控制模型题库
- 2025年光纤传感器封装技术试卷
- 2025年贵州省黔西南州崇文高级中学招聘数学、英语、化学等紧缺专业教师8人备考题库及答案详解(夺冠系列)
- 住房按揭借款合同
- 四年级四年级下册阅读理解20篇(附带答案解析)经典
- GB/T 17846-2024小艇电动舱底泵
- 2024年江苏信息职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 板材行业销售渠道分析
- 2024地面用晶体硅光伏组件环境适应性测试要求第1部分:一般气候条件
- 洼田饮水试验评定量表
- 《煤气安全作业》培训教材
- 概率论与数理统计期末考试卷附答案
- 穴位注射水针专题宣讲
- 《髋臼骨缺损分型》
评论
0/150
提交评论