文本相似度余弦值相似度算法 VS L氏編輯距離（動(dòng)態(tài)規(guī)劃）

fxp 發(fā)布于2019-06-28 11:05 / 2009人閱讀

摘要：本文對(duì)兩種文本相似度算法進(jìn)行比較。余弦值相似度算法最小編輯距離法氏編輯距離基于詞條空間編輯距離，又稱距離，是指兩個(gè)字串之間，由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。但是同時(shí)也可以看出余弦相似度得到的結(jié)果相對(duì)比較高一些。

本文由作者祝娜授權(quán)網(wǎng)易云社區(qū)發(fā)布。

本文對(duì)兩種文本相似度算法進(jìn)行比較。余弦值相似度算法 VS 最小編輯距離法
1、L氏編輯距離（基于詞條空間）
編輯距離（Edit Distance），又稱Levenshtein距離，是指兩個(gè)字串之間，由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符，插入一個(gè)字符，刪除一個(gè)字符。

算法實(shí)現(xiàn)步驟:

1 設(shè)置n為字符串s的長(zhǎng)度。("我是個(gè)小仙女")
設(shè)置m為字符串t的長(zhǎng)度。("我不是個(gè)小仙女")
如果n等于0，返回m并退出。
如果m等于0，返回n并退出。
構(gòu)造兩個(gè)向量v0[m+1] 和v1[m+1]，串聯(lián)0..m之間所有的元素。
2 初始化 v0 to 0..m。
3 檢查 s (i from 1 to n) 中的每個(gè)字符。
4 檢查 t (j from 1 to m) 中的每個(gè)字符
5 如果 s[i] 等于 t[j]，則編輯代價(jià)cost為 0；
如果 s[i] 不等于 t[j]，則編輯代價(jià)cost為1。
6 設(shè)置單元v1[j]為下面的最小值之一：
a、緊鄰該單元上方+1：v1[j-1] + 1
b、緊鄰該單元左側(cè)+1：v0[j] + 1
c、該單元對(duì)角線上方和左側(cè)+cost：v0[j-1] + cost
7 在完成迭代 (3, 4, 5, 6) 之后，v1[m]便是編輯距離的值。

我們得到最小編輯距離為1那么它們的相似度為 (1-ld/(double)Math.max(str1.length(), str2.length()));

1 - 1/8=7/8.

其算法實(shí)現(xiàn)（java）：

public static float levenshtein(String str1,String str2) {  
    //計(jì)算兩個(gè)字符串的長(zhǎng)度。  
    int len1 = str1.length();  
    int len2 = str2.length();  
    //建立上面說的數(shù)組，比字符長(zhǎng)度大一個(gè)空間  
    int[][] dif = new int[len1 + 1][len2 + 1];  
    //賦初值，步驟B。  
    for (int a = 0; a <= len1; a++) {  
        dif[a][0] = a;  
    }  
    for (int a = 0; a <= len2; a++) {  
        dif[0][a] = a;  
    }  
    //計(jì)算兩個(gè)字符是否一樣，計(jì)算左上的值  
    int temp;  
    for (int i = 1; i <= len1; i++) {  
        for (int j = 1; j <= len2; j++) {  
            if (str1.charAt(i - 1) == str2.charAt(j - 1)) {  
                temp = 0;  
            } else {  
                temp = 1;  
            }  
            //取三個(gè)值中最小的  
            dif[i][j] = min(dif[i - 1][j - 1] + temp, dif[i][j - 1] + 1,  
                    dif[i - 1][j] + 1);  
        }  
    }  

    float similarity =1 - (float) dif[len1][len2] / Math.max(str1.length(), str2.length());  
    return similarity;
}

2、余弦值（基于權(quán)值空間）

關(guān)于余弦相似度可以參照百度詞條余弦相似度

通過測(cè)量?jī)蓚€(gè)向量之間的角的余弦值來度量它們之間的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1;并且其最小值是-1。從而兩個(gè)向量之間的角度的余弦值確定兩個(gè)向量是否大致指向相同的方向。所以，它通常用于文件比較。

算法步驟
預(yù)處理→文本特征項(xiàng)選擇→加權(quán)→生成向量空間模型后計(jì)算余弦。

具體步驟見附件：余弦相似度算法步驟解釋.docx
其算法實(shí)現(xiàn)（java）:

public static double getSimilarity(String doc1, String doc2) { if (doc1 != null && doc1.trim().length() > 0 && doc2 != null && doc2.trim().length() > 0) {

        MapAlgorithmMap = new HashMap();            // 將兩個(gè)字符串中的中文字符以及出現(xiàn)的總數(shù)封裝到，AlgorithmMap中
        for (int i = 0; i < doc1.length(); i++) {                char d1 = doc1.charAt(i);                if (isHanZi(d1)) {                    int charIndex = getGB2312Id(d1);                    if (charIndex != -1) {                        int[] fq = AlgorithmMap.get(charIndex);                        if (fq != null && fq.length == 2) {
                        fq[0]++;
                    } else {
                        fq = new int[2];
                        fq[0] = 1;
                        fq[1] = 0;
                        AlgorithmMap.put(charIndex, fq);
                    }
                }
            }
        }            for (int i = 0; i < doc2.length(); i++) {                char d2 = doc2.charAt(i);                if (isHanZi(d2)) {                    int charIndex = getGB2312Id(d2);                    if (charIndex != -1) {                        int[] fq = AlgorithmMap.get(charIndex);                        if (fq != null && fq.length == 2) {
                        fq[1]++;
                    } else {
                        fq = new int[2];
                        fq[0] = 0;
                        fq[1] = 1;
                        AlgorithmMap.put(charIndex, fq);
                    }
                }
            }
        }

        Iteratoriterator = AlgorithmMap.keySet().iterator();            double sqdoc1 = 0;            double sqdoc2 = 0;            double denominator = 0;            while (iterator.hasNext()) {                int[] c = AlgorithmMap.get(iterator.next());
            denominator += c[0] * c[1];
            sqdoc1 += c[0] * c[0];
            sqdoc2 += c[1] * c[1];
        }            double origin = denominator / Math.sqrt(sqdoc1 * sqdoc2);            if (String.valueOf(origin).equals("NaN")) {                return Double.valueOf("0");
        }
        BigDecimal bg = new BigDecimal(origin);            double f1 = bg.setScale(2, BigDecimal.ROUND_HALF_UP).doubleValue();            return f1;
    } else {            throw new NullPointerException(" the Document is null or have not cahrs!!");
    }
}    public static boolean isHanZi(char ch) {        // 判斷是否漢字
    return (ch >= 0x4E00 && ch <= 0x9FA5);

}    /**
 * 根據(jù)輸入的Unicode字符，獲取它的GB2312編碼或者ascii編碼，
 *
 * @param ch
 *            輸入的GB2312中文字符或者ASCII字符(128個(gè))
 * @return ch在GB2312中的位置，-1表示該字符不認(rèn)識(shí)
 */
public static short getGB2312Id(char ch) {        try {            byte[] buffer = Character.toString(ch).getBytes("GB2312");            if (buffer.length != 2) {                // 正常情況下buffer應(yīng)該是兩個(gè)字節(jié)，否則說明ch不屬于GB2312編碼，故返回"?"，此時(shí)說明不認(rèn)識(shí)該字符
            return -1;
        }            int b0 = (buffer[0] & 0x0FF) - 161; // 編碼從A1開始，因此減去0xA1=161
        int b1 = (buffer[1] & 0x0FF) - 161; // 第一個(gè)字符和最后一個(gè)字符沒有漢字，因此每個(gè)區(qū)只收16*6-2=94個(gè)漢字
        return (short) (b0 * 94 + b1);
    } catch (UnsupportedEncodingException e) {
        e.printStackTrace();
    }        return -1;
}

現(xiàn)在對(duì)兩種計(jì)算相似度的算法進(jìn)行比較：

編輯距離相似度運(yùn)行結(jié)果：

"第六章字符編碼" 與 "第一章設(shè)計(jì)模式" 的相似度為:0.07159507274627686

"第六章字符編碼" 與 "第二章 python學(xué)習(xí)" 的相似度為:0.06676656007766724

"第六章字符編碼" 與 "第三章 python簡(jiǎn)介" 的相似度為:0.08275055885314941

"第六章字符編碼" 與 "第四章輸入輸出" 的相似度為:0.1878122091293335

"第六章字符編碼" 與 "第五章數(shù)據(jù)類型和變量" 的相似度為:0.20358151197433472

"第六章字符編碼" 與 "第六章字符編碼" 的相似度為:1.0

"第六章字符編碼" 與 "第七章 list" 的相似度為:0.20995670557022095

runtime:989毫秒

L編輯距離的時(shí)間算法采用矩陣的方式，計(jì)算兩個(gè)字符串之間的變化步驟，會(huì)遍歷兩個(gè)文本中的每一個(gè)字符兩兩比較，可以推斷出時(shí)間復(fù)雜度至少為 document1.length × document2.length

cos相似度運(yùn)行結(jié)果:

"第六章字符編碼" 與 "第一章設(shè)計(jì)模式" 的相似度為:0.5

"第六章字符編碼" 與 "第二章 python學(xué)習(xí)" 的相似度為:0.59

"第六章字符編碼" 與 "第三章 python簡(jiǎn)介" 的相似度為:0.68

"第六章字符編碼" 與 "第四章輸入輸出" 的相似度為:0.62

"第六章字符編碼" 與 "第五章數(shù)據(jù)類型和變量" 的相似度為:0.72

"第六章字符編碼" 與 "第六章字符編碼" 的相似度為:1.0

"第六章字符編碼" 與 "第七章 list" 的相似度為:0.59

runtime:400毫秒

使用余弦定理計(jì)算文本效率相對(duì)比較高：其算法復(fù)雜度大致為：document1.length + document2.length。

但是同時(shí)也可以看出余弦相似度得到的結(jié)果相對(duì)比較高一些。使用分詞或者過濾掉一些常用詞會(huì)對(duì)結(jié)果的準(zhǔn)確性更有利。

使用分詞的方法在本文中沒有展開。但是如果去掉文章里的“的、了、吧，呢、啊”等可以提高結(jié)果的準(zhǔn)確率。當(dāng)然同時(shí)也可以提高判斷的閥值。

運(yùn)行結(jié)果：

"第六章字符編碼" 與 "第一章設(shè)計(jì)模式" 的相似度為:0.37

"第六章字符編碼" 與 "第二章 python學(xué)習(xí)" 的相似度為:0.48

"第六章字符編碼" 與 "第三章 python簡(jiǎn)介" 的相似度為:0.57

"第六章字符編碼" 與 "第四章輸入輸出" 的相似度為:0.56

"第六章字符編碼" 與 "第五章數(shù)據(jù)類型和變量" 的相似度為:0.67

"第六章字符編碼" 與 "第六章字符編碼" 的相似度為:1.0

"第六章字符編碼" 與 "第七章 list" 的相似度為:0.48

runtime:519毫秒

看以看出準(zhǔn)確度有了一定的提高。

番外：

L編輯距離動(dòng)態(tài)計(jì)算法，調(diào)用python腳本實(shí)現(xiàn)，腳本文件

author = "victor"

-- coding:utf-8 --

import sys

import Levenshtein

if name == "__main__":

if(len(sys.argv) < 3):

    print("Usage: python myratiodetect.py str1 str2")

    exit(-1)

str1 = sys.argv[1]

str2 = sys.argv[2]

r = Levenshtein.ratio(str1, str2)

print(r)

exit(0)

本地運(yùn)行的前提為：已經(jīng)適應(yīng)pip安裝了：python_Levenshtein，所以其對(duì)服務(wù)器的依賴比較大，如果工程環(huán)境遷移了的話，會(huì)比較受影響。

程序的運(yùn)行結(jié)果：

"第六章字符編碼" 與 "第一章設(shè)計(jì)模式" 的相似度為:0.157063851181

"第六章字符編碼" 與 "第二章 python學(xué)習(xí)" 的相似度為:0.165801038753

"第六章字符編碼" 與 "第三章 python簡(jiǎn)介" 的相似度為:0.194563908481

"第六章字符編碼" 與 "第四章輸入輸出" 的相似度為:0.268671351528

"第六章字符編碼" 與 "第五章數(shù)據(jù)類型和變量" 的相似度為:0.300997688969

"第六章字符編碼" 與 "第六章字符編碼" 的相似度為:1.0

"第六章字符編碼" 與 "第七章 list" 的相似度為:0.296406739228

runtime:2247毫秒

運(yùn)行速度.....比較慢..2333

參考：

https://www.2cto.com/kf/20140...

http://wdhdmx.iteye.com/blog/...

http://blog.sina.com.cn/s/blo...

更多網(wǎng)易技術(shù)、產(chǎn)品、運(yùn)營(yíng)經(jīng)驗(yàn)分享請(qǐng)?jiān)L問網(wǎng)易云社區(qū)。
文章來源：網(wǎng)易云社區(qū)

GPU云服務(wù)器云服務(wù)器最好的文本相似度算法余弦相似度c語言人臉相似度比對(duì)算法字符串相似度算法

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/25320.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

fxp

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

《黑馬（三）》常用網(wǎng)頁開發(fā)工具和骨架標(biāo)簽新增代碼

閱讀 3407·2021-11-22 09:34
SpringCloud升級(jí)之路2020.0.x版-37. 實(shí)現(xiàn)異步的客戶端封裝配置管理的意義與設(shè)計(jì)

閱讀 674·2021-11-19 11:29
Element中的Cascader（級(jí)聯(lián)列表）動(dòng)態(tài)加載?。校瘏^(qū)數(shù)據(jù)

閱讀 1380·2019-08-30 15:43
關(guān)于CSS你應(yīng)該知道的基礎(chǔ)知識(shí) - 樣式應(yīng)用篇

閱讀 2257·2019-08-30 14:24
【每日一包0025】events

閱讀 1895·2019-08-29 17:31
【每日一包0009】group-array

閱讀 1251·2019-08-29 17:17
CSS中的一些小細(xì)節(jié)

閱讀 2639·2019-08-29 15:38
Vue+webpack+Element 兼容問題總結(jié)

閱讀 2776·2019-08-26 12:10

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

文本相似度余弦值相似度算法 VS L氏編輯距離（動(dòng)態(tài)規(guī)劃）

相關(guān)文章

推薦系統(tǒng)01--余弦相似度

Move Mirror：使用 TensorFlow.js 在瀏覽器中預(yù)測(cè)姿勢(shì)之 AI 實(shí)驗(yàn)

基于TensorFlow理解三大降維技術(shù)：PCA、t-SNE 和自編碼器

自然語言處理真實(shí)項(xiàng)目實(shí)戰(zhàn)

[論文簡(jiǎn)讀] Web Content Extraction Using Clustering

發(fā)表評(píng)論

0條評(píng)論

fxp

男|高級(jí)講師

TA的文章

《黑馬（三）》常用網(wǎng)頁開發(fā)工具和骨架標(biāo)簽新增代碼

SpringCloud升級(jí)之路2020.0.x版-37. 實(shí)現(xiàn)異步的客戶端封裝配置管理的意義與設(shè)計(jì)

Element中的Cascader（級(jí)聯(lián)列表）動(dòng)態(tài)加載?。校瘏^(qū)數(shù)據(jù)

關(guān)于CSS你應(yīng)該知道的基礎(chǔ)知識(shí) - 樣式應(yīng)用篇

【每日一包0025】events

【每日一包0009】group-array

CSS中的一些小細(xì)節(jié)

Vue+webpack+Element 兼容問題總結(jié)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

文本相似度 余弦值相似度算法 VS L氏編輯距離（動(dòng)態(tài)規(guī)劃）

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

文本相似度余弦值相似度算法 VS L氏編輯距離（動(dòng)態(tài)規(guī)劃）