字符串相似性的几种度量方法
发布时间:2021-01-07 17:29:51 所属栏目:大数据 来源:网络整理
导读:副标题#e# 无论是做科学研究,还是工程项目,我们总是会碰上要比较字符串的相似性,比如拼写纠错、文本去重、上下文相似性等。度量的方法有很多,到底使用哪一种方法来计算相似性,这就需要我们根据情况选择合适的方法来计算。这里把几种常用到的度量字符串
7、J-W距离(Jaro–Winkler distance) 其中,m是两个字符串匹配上的字符数目,t是字符中换位数目的一半,即若在字符串的第i位出现了a,b,在第j位又出现了b,a,则表示两者出现了换位。举个例子来讲: 则 代入公式可得: 有了Jaro distance,我们定义J-W距离: 其中, 仍以上面的两个字符串为例, (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |