向量的相似度计算常用方法个_第1页
向量的相似度计算常用方法个_第2页
向量的相似度计算常用方法个_第3页
向量的相似度计算常用方法个_第4页
向量的相似度计算常用方法个_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、向量的相似度计算常用方法相似度的计算简介关于相似度的计算,现有的几种基本方法都是基于向量(Vector )的,其实也就是计算两个向量的距离,距离越近相似度越大。 在推荐的场景中,在用户-物品偏好的二维矩阵中, 我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。下面我们详细介绍几种常用的相似度计算方法。共8种。每人选择一个。第 9题为选做。编写程序实现(这是第一个小练习,希望大家自己动手, 似性:java实现)。计算两个向量的相向量1 ( 0.15, 0.45, 0.168, 0.563, 0.2543, 0.

2、3465, 0.6598, 0.5402, 0.002向量2( 0.81, 0.34, 0.166, 0.356, 0.283, 0.655, 0.4398, 0.4302, 0.054021、皮尔逊相关系数(P earson Correlation Coefficient皮尔逊相关系数一般用于计算两个 定距变量间联系的紧密程度,它的取值在-1,+1之间。5 -1曲尼 讦一(2:劝械 K 一 (J厅Sx, Sy是x和y的样品标准偏差。类名:P ears on Correlati on Similarity原理:用来反映两个变量线性相关程度的统计量范围:-1,1,绝对值越大,说明相关性越强,负相

3、关对于推荐的意义小。说明:1、不考虑重叠的数量;2、如果只有一项重叠,无法计算相似性(计算过程被除数 有n-1); 3、如果重叠的值都相等,也无法计算相似性(标准差为0,做除数)。精选范本该相似度并不是最好的选择,也不是最坏的选择,只是因为其容易理解,在早期研究中经常被提起。使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内必须是等间距的数据。Mahout中,为皮尔森相关计算提供了一个扩展,通过增加一个枚举类型(Weighting )的参数来使得重叠数也成为计算相似度的影响因子。2、欧几里德距离(Euclidean Distance )最初用于计算欧

4、几里德空间中两个点的距离,假设 X, y是n维空间的两 个点,它们之间的欧几里德距离是:(匸 T)= J(Y(r-yy)可以看出,当n=2时,欧几里德距离就是平面上两个点的距离。当用欧几 里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。类名 原理 范围 说明g沪IT耐Euclidea nDista nceSimilarity利用欧式距离d定义的相似度s,s=1 / (1+d)。0,1,值越大,说明d越小,也就是距离越近,则相似度越大。同皮尔森相似度一样,该相似度也没有考虑重叠数对结果的影响,同样地,Mahout通过增加一个枚举类型(Weighting )的参数来使得重叠数也

5、成为计算相 似度的影响因子。3、Cosine 相似度(Cosine Similarity )类名 原理 范围 说明Cosine相似度被广泛应用于计算文档数据的相似度:Uncen teredCosi neSimilarity多维空间两点与所设定的点形成夹角的余弦值。-1,1,值越大,说明夹角越大,两点相距就越远,相似度就越小。在数学表达中,如果对两个项的属性进行了数据中心化, 计算出来的余弦 相似度和皮尔森相似度是一样的, 在mahout中,实现了数据中心化的过 程,所以皮尔森相似度值也是数据中心化后的余弦相似度。 另外在新版本中,Mahout提供了 UncenteredCosineSimila

6、rity类作为计算非中心化数据的余弦相似度。4、Tanimoto 系数(Tanimoto Coefficient )Tanimoto系数也称为Jaccard系数,是Cosine相似度的扩展,也多用于 计算文档数据的相似度:rCv.r) =.Tyx|+ b一 X y 匹卅+任异-Z兀P类名 原理 范围 说明曼哈顿距离公式为应Sl,其中.X, -(z.p和,eJTanim otoCoefficie ntSimilarity又名广义Jaccard系数,是对Jaccard系数的扩展,等式为0,1,完全重叠时为1,无重叠项时为0,越接近1说明越相似。 处理无打分的偏好数据。5、曼哈顿距离类名:CityB

7、lockSimilarity原理:曼哈顿距离的实现,同欧式距离相似,都是用于多维数据空间距离的测度 范围:0,1,同欧式距离一致,值越小,说明距离值越大,相似度越大。说明:比欧式距离计算量少,性能相对高。曼哈顿距离公式:(1)曼哈顿CManhattan)距离心-(工冲兀0屯为rt维曼哈顿空间R”中的两个对象.曼哈顿距离在有些文献中也称绝对(值)距离。6、马氏距离(4)马氏 CMahalanobis)距离马 氏距离 公式为d(石尸-Si(凤巧),其 中,兀,兀-U冲勺”,)丁为冲维空间/r中的两个对象口卩丄亍何宀,4)河宀,,5)为对彖兀和百之间的协方差阵,为可逆矩阵, 17、兰氏距离公式(5)

8、兰氏(Lance WiHistrng)距离兰氏距离公式为攻冷眄)-出 f I,其中兀-(和,艰,屯r ra忍+和天j *=(勺庄和卩为料维空间疋中的两个对線”8切比雪夫距离公式(6)切比雪夫(Chebyshev)距离 切比雪夫距离公式为乳Xi,XJ =maxlrt 曲k Lxl irvX - Um工心工押广为齐维空间/T屮的两个对象.*其中,H -(气“阳、,孔y,第9题为选做题。感兴趣的就做,不感兴趣可以不做。9、 Hausdorff dista neeThe Hausdorff dista nee measures the dista nee betwee n sets of poin t

9、s. It cap tures the dista nee of a point in a set to the n earest point in the other set.”maInput:B2 = I|8U8|,9J7M1O,16|,(11JS1|Definition 2: The HaHssdoyff 就bra翼川丹 is defined in three steps. First, the distance beneei two base pairs (?, /) e 折 and (/,/) e R?話 defined asrf (djh(r j)二 max.We next for mil late the distance bcnvecii a base pMr and a set:心(亿/)2)= inin /(a J,亿/(心)W场Iben, rhe asymmetric distance h betwe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论