




免费预览已结束,剩余50页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 相似度文献总结相似度有两种基本类别:( 1)客观相似度,即对象之间的相似度是对象的多维特征之间的某种函数关系,比如对象之间的欧氏距离; ( 2 )主观相似度, 即相似度是人对研究对象的认知关系,换句话说, 相似度是主观认知的结果,它取决于人及其所处的环境,主观相似度符合人眼视觉需求,带有一定的模糊性13 。1.1 客观相似度客观相似度可分为距离测度 、相似测度 、匹配测度 。它们都是衡量两对象客观上的相近程度。客观相似度满足下面的公理,假设对象a 与 b 的相似度判别为( a, b) ,有 :(1) 自相似度是一个常量:所有对象的自相似度是一个常数,通常为1,即( a, a)(b, b)1(2) 极大性:所有对象的自相似度均大于它与其他对象间的相似度,即( a, b)( a, a)和( a, b)( b, b) 。(3) 对称性:两个对象间的相似度是对称的,即( a, b)(b, a) 。(4) 唯一性:( a, b)1,当且仅当ab 。1.1.1 距离测度这类测度以两个矢量矢端的距离为基础,因此距离测度值是两矢量各相应分量之差的函精品资料数。设x x1, x2 , xn, yy1, y2 , yn表示两个矢量,计算二者之间距离测度的具体方式有多种,最常用的有:1.1.1.1 欧氏距离: euclidean distance-based similarity最初用于计算欧几里德空间中两个点的距离,假设x, y 是 n 维空间的两个点,它们之间的欧几里德距离是:d( x, y)xyni( xii 1y ) 21/ 2(1.1 )当 x, y 是两个直方图时,该方法可称为直方图匹配法。可以看出,当n=2时,欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。( 1.2 )范围: 0,1 ,值越大,说明d 越小,也就是距离越近,则相似度越大。说明: 由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差 异的分析。优点:简单,应用广泛缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果1.1.1.2 曼哈顿距离,绝对值距离(街坊距离或manhattan距离):原理: 曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果。同欧式距离相似,都是用于多维数据空间距离的测度范围: 0,1 ,同欧式距离一致,值越小,说明距离值越大,相似度越大。说明:比欧式距离计算量少,性能相对高。d( x, y)nxiyii 1( 1.3 )1.1.1.3 切氏(chebyshev) 距离(棋盘距离 /切比雪夫距离):切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那么从棋盘中a 格( x1, y1 )走到 b 格( x2 ,y2 )最少需要走几步?d(x, y)max xiyii( 1.3 )1.1.1.4 明氏(minkowski) 距离/闵可夫斯基距离:nd(x, y)( xiy )m1/ m(1.4 )ii 1可以看出, (1.1) 、 (1.2) 、(1.3) 式实际上是 (1.4) 式当 m2,1,的特殊情况。在实际中较多地使用欧氏距离。显然,在观测量的量纲取定的条件下,两个矢量越相似,距离d( ) 就 越小,反之亦然。 值得注意的是,在使用上述距离测度描述具体对象时,量纲选取不同会改变 某特征的判断依据,即改变该特征对判断贡献的大小,严重的可造成错误分类。这是因为改变特征矢量某分量的量纲,进行比较的两个矢量的相应的两个分量的数值也将改变。若变小, 则其相应的特征在距离测度中“影响作用比重”将变小,即根据其判断分类的作用变小,反之将增大,这样便不能很好地反映事实。马氏(mahalanobis)距离是不受量纲影响的。1.1.1.5 马氏距离 (mahalanobis) :马氏距离定义如下:设 n 维矢量xi 和x j 是矢量集x1, x2 , xn中的两个矢量,它们的马氏距离d 定义为ijid 2 ( x , x )( xy )v1( xyi )( 1.5 )ii1n1n式中, v( xix)( xix) , xxi。v 的含义是这个矢量集的协方差矩阵的n1 i 1n i 1统计量。 适用场合:1) 度量两个服从同一分布并且协方差矩阵为c 的随机变量x 与y的差异程度2) 度量 x 与某一类的均值向量的差异程度,判别样本的归属,此时y 为类均值向量。优点:1) 独立于分量量纲2) 排除了样本之间的相关性影响缺点:不同的特征不能差别对待,可能夸大弱特征1.1.1.6 汉明距离( hamming distance)在信息论中, 两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另一个字符串所需要替换的字符个数。例如:1011101与 1001001之间的汉明距离是2。2143896与 2233796之间的汉明距离是3。“toned ”与r“oses ”之间的汉明距离是3。1.1.1.7 巴氏距离( bhattacharyya )巴氏距离常用于计算直方图 间相似度,定义如下:d bhattacharyya x, ynxiyii 1(1.6)其中, x、y 为归一化数据向量。bhattacharyya系数取值在01 之间,越靠近1 ,表示两个模型之间相似度越高。如果,x、y 向量未归一化,则巴氏系数的计算定义为:dbhattacharyyan(x, y)1xiyi( 1.7 )nni 1xiyii 1i 11.1.1.8 hausdorff距离:hausdorff距离 (hausdorff distance ,hd)是一种定义于两个点集上的最大最小距离,是描述两组点集之间的相似程度的一种量度,x、 y 之间的 hausdorff距离定义为:h ( x, y)max( h( x, y), h( y, x)( 1.8 )式中, h( x, y)max minxiy j为 x 到 y 的有向 hausdorff距离;xih( y, x)max minx yjyxi y j为 y 到 x 的有向 hausdorff距离;为某种定义在点集x、yy j yxi x上的距离范数。常用的是欧几里得范数。如果定义 dminyi , dminxi(表示空间中的任意点) 则 hausdorffyiyxi x距离可定义为h (x, y)max(max dx ,max d yi ) ,这里称 d, d分别为点集y 和点集 x 在空xi xiyi y间中的变化距离。由于 hausdorff距离是度量两个点集之间最不匹配点的距离,因此它对远离中心的噪声、漏检点都非常敏感,而这一点, 在提取图像特征点集特征时使不可避免的。为了克服这个缺点,需要对hausdorff距离的定义进行扩展。1.1.1.9 改进的部分 hausdorff距离:为获得准确的匹配结果,sim 提出了改进的部分hausdorff距离( lts-hd ),它是用距离序列的线性组合来定义的:1khlts ( x, y)minxy (i )( 1.9 )k i 1式中,kf1p,p 为 x 内点的个数,f1 为一个属于 0,1 的百分数。把点集x 中的所有点到点集 y 的距离按由小到大的顺序排列,将序号为 1k 的 k 个距离求和,再求平均。所以,该匹配方法不仅能消除远离中心的错误匹配点的影响, 而且对零均值高斯噪声的消除能力明显。因袭,采用 lts-hd 用于图像特征点集的匹配,力求在所有可能的变换空间中寻找图像特征点集之间的最优变换,以便通过使 lts-hd 最小化来获得最优匹配结果。设 g 为变换空间t(通常由旋转矩阵r、平移变换向量t、尺度 c 等变换组成)中的一个变换,则最优匹配变换g0 满足0m g ( x, y)min h ( x, gy)g t(1.10)1.1.1.10 相关度距离常用于计算 直方图 间相似度,定义如下:dcorrel( x, y)nxiyii 1nx 2y 2( 1.8 )iii 11.1.1.11 卡方系数常用于计算 直方图 间相似度,定义如下:iidchi square( x, y)n( xy ) 2( 1.9 )i 1xiyi(备注:引自基于混合图结构的图像相似度的研究_庄小芳, 2013 年福建师范大学硕士学位论文第一章,2.2 节)1.1.1.12 (未命名)常用于计算 直方图 间相似度,定义如下:( 1.11 ) 其中 ,n 表示图像颜色样点空间, 比起前面几个计算公式, 该式在给出图像相似度的计算中更为直接 ,操作也更加简便。(备注:引自基于混合图结构的图像相似度的研究_庄小芳, 2013 年福建师范大学硕士学位论文第一章,2.2 节)1.1.1.13 直方图相交距离直方图相交距离是常用于颜色特征相似性度量的一种方法,常用于计算 直方图 间相似度。如果有两幅图像x 和y,则它们的相交距离定义式如下:s( x , y )nmin(i 1nfi ( x ),f i (y )f i (y )( 1.12 )i 11.1.2 相似测度这类测度是以两矢量的方向是否相近作为考虑的基础,矢量长度并不重要,同样设xx1, x2 , xn, yy1, y2 , yn。1.1.2.1 角度相似系数 (夹角余弦 )原理:多维空间两点与所设定的点形成夹角的余弦值。范围: -1,1 ,值越大,说明夹角越大,两点相距就越远,相似度就越小。说明: 在数学表达中, 如果对两个项的属性进行了数据中心化,计算出来的余弦相似度和皮尔森相似度是一样的,所以皮尔森相似度值也是数据中心化后的余弦相似度。定义:矢量之间的相似度可用它们的夹角余弦来度量。两个矢量x 和 y 的夹角余弦定义如下:cos( x, y)x yx y( 1.6 )xy( x x)( y y)1/ 2与欧几里德距离类似,基于余弦相似度的计算方法也是把特征点作为n- 维坐标系中的一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个特征点之间的相似度值就是两条直线 (向量) 间夹角的余弦值。因为连接代表特征点与原点的直线都会相交于原 点,夹角越小代表两个特征越相似,夹角越大代表两个特征的相似度越小。同时在三角系数中,角的余弦值是在-1, 1 之间的, 0 度角的余弦值是1 ,180 角的余弦值是-1 。借助三维坐标系来看下欧氏距离和余弦相似度的区别:从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的数值)直接相关; 而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上的差异,而不是位置。如果保持a 点的位置不变,b 点朝原方向远离坐标轴原点,那么这个时候余弦相似度cos 是保持不变的,因为夹角不变,而a、b 两点的距离显然在发生改变,这就是欧氏距离和余弦相似度的不同之处。应用: cosine相似度被广泛应用于计算文档数据的相似度及数据挖掘类工作:特点:余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量, 余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。它对于坐标系的旋转和尺度的缩放是不变的(因矢量的长度已规格化),但对一般的线性变换和坐标 系的平移不具有不变性。1.1.2.2 调整余弦相似度 adjusted cosine similarity在余弦相似度的介绍中说到:余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。因此没法衡量每个维数值的差异,会导致这样一个情况:比如用户对内容评分,5分制, x 和 y 两个用户对两个内容的评分分别为(1,2) 和(4,5) ,使用余弦相似度得出的结果是 0.98 ,两者极为相似,但从评分上看x 似乎不喜欢这两个内容,而y 比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如 x 和 y 的评分均值都是3 ,那么调整后为(-2,-1) 和(1,2) ,再用余弦相似度计算,得到-0.8 ,相似度为负值并且差异不小,但显然更加符合现实。应用: 调整余弦相似度和弦相似度,皮尔逊相关系数在推荐系统中应用较多。在基于项目的推荐中grouplens有篇论文结果表明调整余弦相似度性能要由于余弦相似度和皮尔逊相关系数。1.1.2.3 相关系数它实际上是数据中心化后的矢量夹角余弦。( xx) ( yy)r ( x, y)( xx) ( xx)( yy) ( yy)1/ 2( 1.7 )此处将x,y 视作两个数据集的样本,x 和y分别是这两个数据集的平均矢量。相关系数对于坐标系的平移、旋转和尺度缩放是不变的。(备注 :该节引自项德良【 sar图像相似度评估技术研究】,2012 年国防科大硕士论文 1.2 节。)1.1.2.4 指数相似系数指数相似系数定义如下:1n3 ( xy )2e( x, y)expiin42( 1.8 )i 1i式中,2i为相应分量的方差,n 为矢量维数。它不受量纲变化的影响。从函数的构造上看属于距离方式(类似于马氏距离),但从测度值和相似关系看属于相似测度。(备注 :该节引自项德良【 sar图像相似度评估技术研究】,2012 年国防科大硕士论文 1.2 节。)1.1.2.5 对数似然相似度ted dunning在 1993 年提出一种对数似然比的概念,主要应用于自然文本语言库中两 个词的搭配关系问题。 它是基于这样一种思想,即统计假设可以确定一个空间的很多子空间, 而这个空间是被统计模型的位置参数所描述。似然比检验假设模型是已知的,但是模型的参数是未知的。二项分布的对数似然比对于二项分布的情况,似然函数为kkknkn1knkn2h ( p , p ; k, n ,k, n )p 1 (1p ) 11p2 (1p ) 22( 1.1 )121122111212式中: h 的统计模型,k1,n1, k2, n2 试验结果的参数。p1,p2 给定模型的参数。假设二项分布有相同的基本参数集合( p1 , p2 ) p1p2,那么对数似然比就是maxp h ( p , p ; k1, n1 ,k2, n2 )( 1.2 )12max p , ph ( p1, p2 ; k1 ,n1, k2 ,n2 )式中: max p h 当 p 取得某值时,统计模型h 的最大值。当 pk1 , pk2时,分母取得最大值。当pk1k2时,分子取得最大值。12n1n2n1n2所以对数似然比简化为max p12maxp , pl( p, k1 ,n1 ) l( p,k2 , n2 )l( p1 ,k1, n1 )l( p2 , k2 , n2 )( 1.3 )式中: l 二项分布,n 实验重复的次数,p 某事发生的概率,k 该事件发生的次数,l ( p,k, n)pk (1p)n k 。两边取对数可以将对数似然比的公式变形为:2log2logl( p1, k1, n1)log l( p2 ,k2 ,n2 )logl( p, k1, n1 )logl( p, k2 , n2 )( 1.4 ) 由于二项分布的对数似然比能够合理的描述两个事物的相似模型,所以常用对数似然比来计算两个事物 (用户或物品) 的相似度。 对数似然相似度基于两个用户共同评估过的物品数目,但在给定物品总数和每个用户评价的情况下,其最终结果衡量的是两个用户有这么多共同物品的“不可能性”,它是一种不考虑具体偏好值的方法。比如在用户 物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。备注 :引自张明敏,张功萱对数似然相似度算法的mapreduce并行化实现 计算机工程与设计 2015,36卷,第 5 期。1.1.2.6 levenshtein距离,又称编辑距离两个字符串(链)的相似度可以用levenshtein距离( levenshtein distance)表示, 该距离定义为将一个串变为另一个串所需的最小操作步数,可能的操作有删除、插入、 替换schlesinger and hlavac ,2002。还可以给字符串元素变换赋一个变换代价,从而使计算得到的相似度(距离)更灵活,更敏感。同样的原理也可以用在图相似度的计算上。下定义可能的结点和弧的变换(删除、 插入、替换、重新标注) 集合, 再给每种变换赋一个变换代价。任一变换序列的代价用单个步骤代价的组合表示(类似代价步骤的和)。将一个图变为另一个图的所有变换集合中具有最小代价值的那个集合就定义了这两幅图间的距离niemann,1990。用途:常用于字符串距离,类似可用于计算图的距离备注:引用于图像处理、分析与机器视觉(第三版)milan sonka ,vaclav hlavac, roger boyle著,艾海舟,苏延超译p298 , 9.5.2图的相似度1.1.2.7 统计相关系数 -皮尔逊相关系数( pearson correlation coefficient )皮尔逊相关也称积差相关(积矩相关),即相关分析中的相关系数r ,分别对x 与y 基于自身总体标准化后计算余弦向量的标准夹角。是英国统计学家皮尔逊于 20 世纪提出的一种计算直线相关的方法。 皮尔逊相关系数一般用来反映两个变量线性相关程度, 它的取值在-1 , +1 之间。相关系数的绝对值越大,相关性越强。假设有两个变量x,y ,那么;两个变量间的皮尔逊相关系数可以通过以下公式计算:公式一:cov( x ,y)e( xx )(yy )e( xy)e( x ) e(y)x ,yxyxye( x 2 )e2 ( x )e(y 2 )e2 (y)公式二:nxyxyx ,ynx 2(2x )ny 2(2y)公式三:x ,y( x( xx )(yy )x )2 (yy )2公式四:xyxynx ,y2x2(x )ny2(y )n2以上列出四个公式等价,其中e 是数学期望, cov 表示方差, n 表示变量取值的个数。适用范围:当两个变量对的标准差都不为0 时,相关系数才有定义,皮尔逊系数适用于:( 1)两个变量之间是线性关系,都是连续数据( 2)两个变量的总体是正态分布,或接近正态的单峰分布( 3)两个变量的观测值是成对的,每对观测值之间互相独立特点:( 1)当两个变量的线性关系增强时,相关系数趋于1 或-1 ;( 2)当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于 0 ;( 3)如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于 0 ;( 4)如果相关系数等于0 ,表明它们之间不存在线性相关关系。1.1.2.8 统计相关系数 -斯皮尔曼相关( spearman秩相关)系数-spearman correlation(1) )简介在统计学中, 斯皮尔曼等级相关系数以 charles spearman 命名, 并经常用希腊字母表示其值。斯皮尔曼等级相关系数用来估计两个变量 x、y 之间的相关性,其中变量间的相关性可以用单调函数来描述。如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时 (即两个变量的变化趋势相同),两个变量之间的 可以达到 +1 或-1 。假设两个随机变量分别为x、y (也可以看做是两个集合),它们的元素个数均为n ,两个随机变量取的第i 个值分别用xi 、yi 表示。对x、y 进行排序(同为升序或降序),得到两个元素排行集合x、y ,其中元素xi、 yi 分别为xi 在 x 中的排行以及yi 在y 中的排行。1540.2451.33( 2+3 ) /2=2.51.32( 2+3 ) /2=2.51011将集合 x、y 中的元素对应相减得到一个排行差分集合d, 其中 dixiyi , 1in 。随机变量 x、y 之间的斯皮尔曼等级相关系数可由x、y 或 d 计算得到,其计算方式如下:公式一:由排行差分集合d 计算而得() :n6d2i1i 1n (n 21)公式二:由排行集合x、y 计算而得(斯皮尔曼等级相关系数同时也被认为是经过排行的两个随机变量的皮尔逊相关系数,以下实际是计算x、y 的皮尔逊相关系数) :n( xix )( yiy)i 1nn( xix )2( yy)2ii 1i 1以下是一个计算集合中元素排行的例子(仅适用于斯皮尔曼等级相关系数的计算)变量 x i元素的位置(依降序排列)变量的排行(xi )这里需要注意:当变量的两个值相同时,它们的排行是通过对它们的位置进行平均得到的。(2) )适用范围斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的整体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。原理: spearman秩相关系数通常被认为是排列后的变量之间的pearson线性相关系数。(3 )取值范围:-1.0,1.0 ,当一致时为1.0 ,不一致时为-1.0 。(4) )说明:计算非常慢,有大量排序。针对推荐系统中的数据集来讲,用spearman秩相关系数作为相似度量是不合适的。一般用于学术研究或者是小规模的计算。(5) ) spearman相关系数的特点:spearman相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法 ”1 ,spearman相关系数对原始变量的分布不做要求,属于非参数统计方法。因此 它的 适用范围 比 pearson相关系数要广的多。即使原始数据是等级资料也可以计算 spearman相关系数。对于服从pearson相关系数的数据也可以计算spearman相关系数,2 ,统计效能 比 pearson相关系数要低一些(不容易检测出两者事实上存在的相关关系)。3 ,spearman只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。注: spearman与 pearson :1. 连续数据, 正态分布, 线性关系, 用 pearson相关系数是最恰当,当然用 spearman相关系数也可以,就是效率没有pearson相关系数高。2. 上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。3. 两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。4 . 只要在 x 和 y 具有单调的函数关系的关系,那么 x 和 y 就是完全 spearman相关的, 这与 pearson相关性不同,后者只有在变量之间具有线性关系时才是完全相关的。1.1.2.9 统计相关系数 -kendall rank(肯德尔等级 )相关系数(1) )简介在统计学中, 肯德尔相关系数是以maurice kendall命名的,并经常用希腊字母( tau ) 表示其值。 肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。一个肯德尔检验是一个无参假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-1 到 1 之间,当为 1 时,表示两个随机变量拥有一致的等级相关性,当为-1 时,表示两个随机变量拥有完全相反的等级相关性,当为 0 时,表示两个随机变量是相互独立的。假设两个随机变量分别为x、y (也可以看做是两个集合),它们的元素个数均为n ,两个随机变量取的第i 个值分别用xi 、yi 表示。 x、y 中的对应元素组成一个元素对集合xy ,其包含的元素为( x i ,yi ) 。当集合xy 中任意两个元素( x i ,yi ) 与 ( x j ,yj ) 的排行相同时(也就是说当出现情况1 或 2 时;情况 1:xix j 且yiyj ,情况 2 :x ix j且yiyj ),这两个元素就被认为是一致的。当出现情况3 或 4 时(情况3:xix j 且yiyj , 情况 4 :xix j 且yiyj ),这两个元素就被认为是不一致的。当出现情况5 或 6 时(情况5:xix j,情况 6: yiyj ),这两个元素既不是一致也不是不一致的。这里有三个公式计算肯德尔相关系数的值:公式一:acd1 n( n1)2其中 c 表示 xy 中拥有一致性的元素对数(两个元素为一对), d 表示 xy 中拥有不一致性的元素对数。注意:这一公式仅适用于集合x 与 y 中不存在相同元素的情况(集合中各个元素唯一)公式二:b( n 3cd n 1)( n 3n 2)注意:这一公式适用于集合x 或 y 中存在相同元素的情况(当然,如果x 或 y 中均不存在相同的元素时,公式二便等同于公式一)。其中 c 、d 与公式一相同;n 312n (n1); n 1s1i 1 2u i (u i1); n 2s1i 1 2vi (vi1)n1 、n2 分别是针对集合x、y 计算的,现在以计算n1 为例,给出n1 的由来( n2 的计算可以类推) :将 x 中的相同元素分别组合成小集合,s 表示集合x 中拥有的小集合数(例如x 包含元素: 1 2 3 4 3 3 2 ,那么这里得到的s 则为 2,因为只有2 、3 有相同的元素) , u i 表示第i 个小集合所包含的元素数。n2 在集合 y 的基础上计算而得。公式三:ccd1 n 2 m12 m注意:这一公式中没有再考虑集合x 、或者 y 中存在相同元素给最后的统计值带来的影响。公式三的这一计算形式仅适用于用表格表示的随机变量x 、y 之间相关系数的计算 (下面会介绍),参数 m 稍后会做介绍。以上都是围绕用集合表示的随机变量而计算肯德尔相关系数的,下面所讲的则是围绕用表格表示的随机变量而计算肯德尔相关系数的。通常人们会将两个随机变量的取值制作成一个表格,例如有10 个样本,对每个样本进行两项指标些事x、y (指标 x、y 的取值均为1 到 3 )。根据样本的x、y 指标取值,得到以下二维表格(表1 ):x123sum由表 1 可以得到x 及y 的可以以集合的形式表示为:x 1,1,2,2,2,2,2,3,3,3;y1,2,1,1,2,2,3,2,3,3;表 1y112032121430123sum25310得到 x、y 的集合形式后就可以使用以上的公式一或公式二计算x、y 的肯德尔相关系数了(注意公式一、公式二的适用条件)当然如果给定x、y 的集合形式,那么也是很容易得到它们的表格形式的。这里需要注意的是: 公式二也可以用来计算表格形式表示的二维变量的肯德尔相关系是, 不过它一般用来计算由正方形表格表示的二维变量的肯德尔相关系数,公式三则只是用来计算由长方形表格表示的二维变量的kendall 相关系数。这里给出公式三种字母m 的含义,m 表示长方形表格中行数与列数中较小的一个。表1 的行数及列数均为三。(2) )适用范围肯德尔相关系数与斯皮尔曼相关系数对数据的条件要求相同。1.1.2.10 tanimoto系数( tanimoto coefficient)tanimoto系数也称为广义 jaccard系数,是 cosine相似度的扩展, 通常应用于x 、y 为布尔向量,即各分量只取0 或 1 的时候,此时表示的是x 、 y 的公共特征占x 、 y 具有的所有特征的比例。其实质就是集合交集与并集的比。也多用于计算文档数据的相似度,或两个集合之间的相似程度。范围: 0,1 ,越接近1 说明越相似。1.1.2.11 jaccard系数jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以jaccard系数只关心个体间共同具有的特征是否一致这个问题。如果比较x与y的 jaccard相似系数,只比较xi和yi中相同的个数,公式如下:也就是关联的交集除以关联的并集。范围:其值介于0, 1 之间,如果两个个体间的特征完全相同,交集等于并集,值为1;如果没有任何关联,交集为空,值为0。1.1.3 匹配测度(备注 :该节引自项德良【 sar图像相似度评估技术研究】,2012 年国防科大硕士论文 1.2 节。)这种测度常用于医学和生物的分类中。在有些情况下, 特征只有两个状态,对象或具有此特征或不具有此特征。此时, 若对象具有此特征,则相应分量定义为1 ,而相应分量为0表示对象无此特征,这就是所谓的二值特征。对于给定的二值特征矢量x 和 y 中的某两个相应分量xi 和yi ,若 xi1和 yi1 ,则称xi 和yi 是( 1-1 )匹配,若xi1 和 yi0 ,则称 xi 和yi 是(1-0 )匹配;若 xi0 和 yi1 ,则称xi 和yi 是( 0-1 )匹配;若 yi0和xi0 ,则称 xi 和 yi 是( 0-0 )匹配,令a xi yiib yi (1ixi )c xi (1iyi )d (1ixi )(1yi )( 1.9 )则 a 等于两矢量 x 和 y 的(1-1) 匹配的特征的数目, b 等于 x 和 y 的(0-1) 匹配的特征的数目, c 等于 x 和 y 的(1-0) 匹配的特征的数目, e 等于 x 和 y 的(0-0) 匹配的特征的数目。 对于二值 n 维特征矢量可定义如下相似性测度:1.1.3.1 tanimoto测度s( x, y)ax yabcx xy yx y( 1.10 )可以看出,s ( x , y ) 等 于 x 和 y都具有的特征的数目与x 和 y 分别具有的特征种类总数之比。这里只考虑(1-1) 匹配而不考虑(0-0) 匹配。1.1.3.2 rao测度s( x, y)ax yabcen( 1.11 )上式等于 (1-1) 匹配特征数目和所选用的特征数目之比。1.1.3.3 简单匹配系数m( x,y)ae n( 1.12 )上式表明,这时匹配系数分子为(1-1) 匹配特征数目与(0-0) 匹配特征数目之和,分母为所选用的特征数目。1.1.3.4 dice系数m( x, y)2a2 x y( 1.13 )2abcx xy y分子、分母无 (0-0) 匹配,对 (1-1) 匹配加权。1.1.3.5 kulzinsky系数m( x, y)ax ybcx xy y2x y( 1.14 )上式分子为 (1-1) 匹配特征数目,分母为(1-0) 和(0-0) 匹配特征数目之和。1.2 主观相似度1.2.1 结构相似度( ssim,structural similarity (ssim) index measurement)(备注 :该节引自项德良【 sar图像相似度评估技术研究】, 2012 年国防科大硕士论文1.2 节。)结构相似性理论认为,自然图像信号是高度结构化的,即像素间有很强的相关性,特别是空域中最接近的像素,这种相关性蕴含着视觉场景中物体结构的重要信息;hvs 的主要功能是从视野中提取结构信息,可以用对结构信息的度量作为图像感知质量的近似。结构相似性理论是一种不同于以往模拟 hvs 低阶的组成结构的全新思想,与基于hvs 特性的方法相比, 最大的区别是自顶向下与自底向上的区别。这一新思想的关键是从对感知误差度量 到对感知结构失真度量的转变。它没有试图通过累加与心理物理学简单认知模式有关的误差来估计图像质量,而是直接估计两个复杂结构信号的结构改变,从而在某种程度上绕开了自然图像内容复杂性及多通道去相关的问题.作为结构相似性理论的实现,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。(from internet)zhou wang在 2004年提出一种结构相似度准则ssim(structuralsimilarity index measurement)来衡量光学图像相似度。该准则分析了人眼视觉特性和图像结构之间的关系,从图像空间、 人眼视觉和图像结构等方面对ssim 进行了研究, 在光学图像的配准、目标识和图像质量评估方面得到了有效验证16 。ssim 准则侧重人眼的主观感受,它是从图像的客观信息出发,通过建立模型从而得到的符合人眼视觉的准则。结构相似度 定义如下:l ( x, y)2uxuyc122( 1.2.1 )uxuyc1l ( x, y) 为亮度相似度函数,其中ux1nxi , uy1nyi , c1 为当ux 、 u y 为零时定ni 1n i 1义的常量。对比度相似度 函数定义如下:2xyc2c( x, y)c22xy2( 1.16 )1n2 1/ 21n2 1/ 2其中x(xiux ) ),y( yiuy ) )。 c2 也为一个常量。n1 i 1n1 i 1结构相似度函数定义如下:s( x, y)x yc3 xyc3( 1.17 )其中xy1nn1 i 1( xiux )( yiuy )。综上, 结构相似度指数(ssim) 定义 如下:ssim( x, y)l ( x, y)c( x, y)s( x, y)( 1.18 )其中、均大于0,为控制三个分量相似度权重的参数。ssim ( x , y )越接近于1 ,则表明x 与 y 越相似,否则越不相似。近年来基于语义测度的主观相似度准则得到越来越多学者的关注。该方法一般在图像分割的基础上, 通过构建图像区域子块与语义元数据之间的统计映射关系,实现图像内容的统计语义描述, 建立图像之间、 图像与语义类别、语义类别之间的分层语义相似测度23-26 。该方法充分考虑人眼视觉的语义层面,在图像检索等应用中得到有效验证。1.3 基于像素差值编码的相似度1.3.1 像素差值编码规则给定一幅sar图像 g( jk ) ,j 和 k为图像高度和宽度。g ( x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 羊肉行业小知识培训内容课件
- 持久性中心静脉导管的留置与维护
- 2026年高考试题汇编英语专题09特殊句式和情景交际(原卷版)
- 马克吐温简介课件
- 香肠的鉴定课件
- 儿童游乐园运动场施工重点和难点及保证措施
- 河道清淤施工安全注意事项与防范措施
- 借租民族服装合同协议书
- 勘察增项目补充协议合同
- 房屋改造预征收合同范本
- 北海蓝莓加工项目可行性研究报告
- Axure RP 互联网产品原型设计课件 第11章 设计制作网页原型
- 2025至2030对位芳纶行业应用趋势分析与发展前景展望报告
- 机械租赁投标文件
- T-CACM 1212-2019 中医妇科临床诊疗指南 产后小便不通
- 2025年高考化学总复习《同分异构体的书写及数目判断》专项测试卷(带答案)
- 装修公司工长管理制度
- 云南省怒江傈僳族自治州本年度(2025)小学一年级数学部编版质量测试(下学期)试卷及答案
- CJJ1-2025城镇道路工程施工与质量验收规范
- 2024年中国电信国际有限公司招聘笔试真题
- 纪委执纪场所审查谈话系统解决方案
评论
0/150
提交评论