温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
2023
相似
测度
总结
汇总
相似度测度总结汇总
1相似度文献总结
相似度有两种根本类别:
(1)客观相似度,即对象之间的相似度是对象的多维特征之间的某种函数关系,比方对象之间的欧氏距离;(2)主观相似度,即相似度是人对研究对象的认知关系,换句话说,相似度是主观认知的结果,它取决于人及其所处的环境,主观相似度符合人眼视觉需求,带有一定的模糊性[13]。
1.1客观相似度
客观相似度可分为距离测度、相似测度、匹配测度。它们都是衡量两对象客观上的相近程度。客观相似度满足下面的公理,假设对象a与b的相似度判别为。(a,b),有:
(1)自相似度是一个常量:所有对象的自相似度是一个常数,通常为1,即
。(a,a)。。(b,b)。1
(2)极大性:所有对象的自相似度均大于它与其他对象间的相似度,即
。(a,b)。。(a,a)和。(a,b)。。(b,b)。
(3)对称性:两个对象间的相似度是对称的,即。(a,b)。。(b,a)。(4)唯一性:。(a,b)。1,当且仅当a。b。
1.1.1距离测度
这类测度以两个矢量矢端的距离为根底,因此距离测度值是两矢量各相应分量之差的函数。设x。。x1,x2,。,xn。,y。。y1,y2,。,yn。表示两个矢量,计算二者之间距离测度的具体方式有多种,最常用的有:
''1.1.1.1欧氏距离:euclideandistance-basedsimilarity
最初用于计算欧几里德空间中两个点的距离,假设x,y是n维空间的两个点,它们之间的欧几里德距离是:
。n。d(x,y)。x。y。。。(xi。yi)2。。i。1。1/2(1.1)
当x,y是两个直方图时,该方法可称为直方图匹配法。
可以看出,当n=2时,欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。
(1.2)
范围。[0,1],值越大,说明d越小,也就是距离越近,那么相似度越大。
说明。由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。欧氏距离能够表达个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中表达差异的分析。
优点:简单,应用广泛
缺点:没有考虑分量之间的相关性,表达单一特征的多个分量会干扰结果
1.1.1.2曼哈顿距离,绝对值距离(街坊距离或manhattan距离):
原理。曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果。同欧式距离相似,都是用于多维数据空间距离的测度
范围:[0,1],同欧式距离一致,值越小,说明距离值越大,相似度越大。说明:比欧式距离计算量少,性能相对高。
d(x,y)。。xi。yi(1.3)
i。1n1.1.1.3切氏(chebyshev)距离(棋盘距离/切比雪夫距离):
切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那么从棋盘中a格(x1,y1)走到b格(x2,y2)最少需要走几步。
d(x,y)。maxxi。yi(1.3)
i1.1.1.4明氏(minkowski)距离/闵可夫斯基距离:
。n。d(x,y)。。。(xi。yi)m。。i。1。1/m
(1.4)
可以看出,(1.1)、(1.2)、(1.3)式实际上是(1.4)式当m。2,1,。的特殊情况。在实际中较多地使用欧氏距离。显然,在观测量的量纲取定的条件下,两个矢量越相似,距离d(。)就越小,反之亦然。值得注意的是,在使用上述距离测度描述具体对象时,量纲选取不同会改变某特
征的判断依据,即改变该特征对判断奉献的大小,严重的可造成错误分类。这是因为改变特征矢量某分量的量纲,进行比较的两个矢量的相应的两个分量的数值也将改变。假设变小,那么其相应的特征在距离测度中“影响作用比重〞将变小,即根据其判断分类的作用变小,反之将增大,这样便不能很好地反映事实。马氏(mahalanobis)距离是不受量纲影响的。
1.1.1.5马氏距离(mahalanobis):
马氏距离定义如下:
设n维矢量xi和xj是矢量集。x1,x2,。,xn。中的两个矢量,它们的马氏距离d定义为
d2(xi,xj)。(xi。yi)'v。1(xi。yi)(1.5)
1n1n'式中,v。(xi。x)(xi。x),x。。xi。v的含义是这个矢量集的协方差矩阵的。n。1i。1ni。1统计量。适用场合:
1)度量两个服从同一分布并且协方差矩阵为c的随机变量x与y的差异程度
2)度量x与某一类的均值向量的差异程度,判别样本的归属,此时y为类均值向量。优点:
1)独立于分量量纲
2)排除了样本之间的相关性影响
缺点:不同的特征不能差异对待,可能夸大弱特征
1.1.1.6汉明距离(hammingdistance)
在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另一个字符串所需要替换的字符个数。例如:
20231120231与20230202301之间的汉明距离是2。2143896与2233796之间的汉明距离是3。“toned〞与“roses〞之间的汉明距离是3。
1.1.1.7巴氏距离(bhattacharyya)
巴氏距离常用于计算直方图间相似度,定义如下:
dbhattacharyya[x,y]。。xi。yi(1.6)
i。1n其中,x、y为归一化数据向量。bhattacharyya系数取值在0~1之间,越靠近1,表示两个模型之间相似度越高。如果,x、y向量未归一化,那么巴氏系数的计算定义为:
dbhattacharyya(x,y)。1。。i。1nxi。yi。x。。yii。1i。1nn(1.7)
i1.1.1.8hausdorff距离:
hausdorff距离(hausdorffdistance,hd)是一种定义于两个点集上的最大最小距离,是描述两组点集之间的相似程度的一种量度,x、y之间的hausdorff距离定义为:
h(x,y)。max(h(x,y),h(y,x))(1.8)
式中,h(x,y)。maxminxi。yj为x到y的有向hausdorff距离;
xi。xyj。yh(y,x)。maxminxi。yj为y到x的有向hausdorff距离;。为某种定义在点集x、y上
yj。yxi。x的距离范数。常用的是欧几里得范数。
如果定义d。。min。。yi,d。。min。。xi(。表示空间中的任意点)那么hausdorff
yi。yxi。x^^距离可定义为h(x,y)。max(maxdxi,maxdyi),这里称d。,d。分别为点集y和点集x在空
xi。xyi。y^间中的变化距离。
由于hausdorff距离是度量两个点集之间最不匹配点的距离,因此它对远离中心的噪声、漏检点都非常敏感,而这一点,在提取图像特征点集特征时使不可防止的。为了克服这个缺点,需要对hausdorff距离的定义进行扩展。
1.1.1.9改进的局部hausdorff距离:
为获得准确的匹配结果,sim提出了改进的局部hausdorff距离(lts-hd),它是用距离序列的线性组合来定义的:
1khlts(x,y)。。minx。y(i)(1.9)
ki。1式中,k。。。f1。p。。,p为x内点的个数,f1为一个属于[0,1]的百分数。把点集x中的所有
点到点集y的距离按由小到大的顺序排列,将序号为1~k的k个距离求和,再求平均。所以,该匹配方法不仅能消除远离中心的错误匹配点的影响,而且对零均值高斯噪声的消除能力明显。因袭,采用lts-hd用于图像特征点集的匹配,力求在所有可能的变换空间中寻找图像特征点集之间的最优变换,以便通过使lts-hd最小化来获得最优匹配结果。设g为变换空间t(通常由旋转矩阵r、平移变换向量t、尺度c等变换组成)中的一个变换,那么最优匹配变换g0满足
mg0(x,y)。minh(x,gy)(1.2023)
g。t1.1.1.2023相关度距离
常用于计算直方图间相似度,定义如下:
dcorrel(x,y)。。x。yii。1nni(1.8)
2i。xi。1。yi21.1.1.11卡方系数
常用于计算直方图间相似度,定义如下:
(xi。yi)2(1.9)dchi。square(x,y)。。x。yi。1iin(备注:引自基于混合图结构的图像相似度的研究_庄小芳,2023年福建师范大学硕士
学位论文第一章,
2.2节)
1.1.1.12(未命名)
常用于计算直方图间相似度,定义如下:
(1.11)
其中,n表示图像颜色样点空间,比起前面几个计算公式,该式在给出图像相似度的计算中更为直接,操作也更加简便。
(备注:引自基于混合图结构的图像相似度的研究_庄小芳,2023年福建师范大学硕士学位论文第一章,
2.2节)
1.1.1.13直方图相交距离
直方图相交距离是常用于颜色特征相似性度量的一种方法,常用于计算直方图间相似度。如果有两幅图像x和y,那么它们的相交距离定义式如下:
s(x,y)。。min(f(x),f(y))iii。1n。f(y)ii。1n(1.12)
1.1.2相似测度
这类测度是以两矢量的方向是否相近作为考虑的根底,矢量长度并不重要,同样设
x。。x1,x2,。,xn。,y。。y1,y2,。,yn。。
''1.1.2.1角度相似系数(夹角余弦)
原理。多维空间两点与所设定的点形成夹角的余弦值。
范围。[-1,1],值越大,说明夹角越大,两点相距就越远,相似度就越小。
说明:在数学表达中,如果对两个项的属性进行了数据中心化,计算出来的余弦相似度和皮
尔森相似度是一样的,所以皮尔森相似度值也是数据中心化后的余弦相似度。定义:矢量之间的相似度可用它们的夹角余弦来度量。两个矢量x和y的夹角余弦定义如下:
x'yx'ycos(x,y)。。1/2(1.6)''x。y。。(xx)(yy)。。与欧几里德距离类似,基于余弦相似度的计算方法也是把特征点作为n-维坐标系中的
一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个特征点之间的相似度值就是两条直线(向量)间夹角的余弦值。因为连接代表特征点与原点的直线都会相交于原点,夹角越小代表两个特征越相似,夹角越大代表两个特征的相似度越小。同时在三角系数中,角的余弦值是在[-1,1]之间的,0度角的余弦值是1,180角的余弦值是-1。借助三维坐标系来看下欧氏距离和余弦相似度的区别:
从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是表达在方向上的差异,而不是位置。如果保持a点的位置不变,b点朝原方向远离坐标轴原点,那么这个时候余弦相似度