字符串相似性的几种度量方法

发布时间：2021-01-07 17:29:51 所属栏目：大数据来源：网络整理

导读：副标题#e# 无论是做科学研究，还是工程项目，我们总是会碰上要比较字符串的相似性，比如拼写纠错、文本去重、上下文相似性等。度量的方法有很多，到底使用哪一种方法来计算相似性，这就需要我们根据情况选择合适的方法来计算。这里把几种常用到的度量字符串

副标题[/!--empirenews.page--]

无论是做科学研究，还是工程项目，我们总是会碰上要比较字符串的相似性，比如拼写纠错、文本去重、上下文相似性等。度量的方法有很多，到底使用哪一种方法来计算相似性，这就需要我们根据情况选择合适的方法来计算。这里把几种常用到的度量字符串相似性的方法罗列一下，仅供参考，欢迎大家补充指正。

1、余弦相似性（cosine similarity）
余弦相似性大家都非常熟悉，它是定义在向量空间模型（VSM）中的。它的定义如下：

其中，A,B为向量中间中的两个向量。
在使用它来做字符串相似性度量的时候，需要先将字符串向量化，通常使用词袋模型（BOW）来向量化。举个例子如下：

String1 = “apple”
String2 = “app”

则词包为｛’a’,’e’,’l’,’p’｝，若使用0,1判断元素是否在词包中，字符串1、2可以转化为：

StringA = [1111]
StringB = [1001]

那么，根据余弦公式，可以计算字符串相似性为：0.707。

2、欧氏距离（Euclidean distance）
欧氏距离大家非常熟悉，定义在向量空间模型中，计算使用欧氏距离公式：

3、编辑距离（edit distance）
编辑距离，有的地方也会称为Levenshtein距离，表示从一个字符串转化为另一个字符串所需要的最少编辑次数，这里的编辑是指将字符串中的一个字符替换成另一个字符，或者插入删除字符。例如上例String1通过删除’l’与’e’转化为String2，所以其最小编辑次数为2。
编辑距离的核心就是如何计算出一对字符串间的最小编辑次数，考虑到问题的特点，我们可以使用动态规划的思想来计算其最小编辑次数，根据维基百科：两个字符串 a=a1a2?an，b=b1b2?bm 的编辑距离递归计算公式如下：

其中，w表示增删改三种操作的权重，一般定义为：

w={1,0,若有操作无作

di0=i 表示从 b′=b1?bi 删除为空的编辑次数； d0j=j 表示从空插入成 a′=a1?aj 所需的编辑次数； dij 则是对动态规划中分解子问题的过程。
仍以（1）中的两个字符串为例：
则编辑距离 d53=min???d43+5d52+3d42+0,删除操作,插入操,替换操作，继续通过不断递归可以得出其编辑距离。

4、海明距离（hamming distance）
海明距离用于表示两个等长字符串对应位置不同字符的总个数，也即把一个字符串换成另一个字符串所需要的替换操作次数。根据定义，可以把海明距离理解为编辑距离的一种特殊情况，即只计算等长情况下替换操作的编辑次数。举个例子来讲，字符串“bob”与“pom”的海明距离为2，因为需要至少两次的替换操作两个字符串才能一致。海明距离较常用与二进制串上的操作，如对编码进行检错与纠错。在计算长字符串的相似性时可以通过hash函数将字符串映射成定长二进制串再利用海明距离来计算相似性。
海明距离的计算比较简单，通过一个循环来比较对应位置的字符是否相同即可。

5、Dice 距离
Dice距离用于度量两个集合的相似性，因为可以把字符串理解为一种集合，因此Dice距离也会用于度量字符串的相似性。此外，Dice系数的一个非常著名的使用即实验性能评测的F1值。Dice系数定义如下：

其中，X,Y表示两个集合，分子表示两个集合的相交操作后的长度，分母表示两个集合长度之和。以（1）中的例子来讲的话， dice12=2×35+3=0.75 。若集合表示成向量的话，计算可以定义为：

其中，A,B表示两个向量。

6、Jaccard distance
杰卡德系数的定义如下，

可以看出与Dice系数的定义比较相似，分子部分是个两倍关系，Dice系数的分母比Jaccard系数的分母多减去了一项分子，即 |A∩B| 。
Jaccard与Dice之间具有一种转化关系：

J=D2?D ，

或：

D=2J1+J

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

绕过使用大数据的保护	用Elastic Block Stor
技术迷途者指南我有问	转向未来的AI自动化测