成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

文本相似度的計算

shleyZ / 3720人閱讀

摘要:文本相似度的計算方法有很多,這里簡單記錄一下傳統(tǒng)的模型計算文本相似度的時候主要是使用來協(xié)助生成文檔向量整個文檔集合有多少詞,就是多少維度每個文檔中的詞用來生成權(quán)重,用權(quán)重來表示文檔的向量生成向量后,就可以計算相似度了,用夾角余弦當(dāng)然這里詞的

文本相似度的計算方法有很多,這里簡單記錄一下

傳統(tǒng)的VSM模型:

計算文本相似度的時候主要是使用tfidf來協(xié)助生成文檔向量
整個文檔集合有多少詞,就是多少維度
每個文檔中的詞用tfidf來生成權(quán)重,用權(quán)重來表示文檔的向量
生成向量后,就可以計算相似度了,用夾角余弦
當(dāng)然這里詞的權(quán)重的生成方式還有很多,也可以用其他的

LSI(Latent semantic indexing) 的方式

這個的方式也比較簡單,主要是先生成文檔 - 詞矩陣
矩陣中的內(nèi)容就是文檔中出現(xiàn)該詞的頻數(shù)
然后用svd分解矩陣得到三個矩陣
C = USV
然后每個文檔向量分別和USV相乘得到向量
文本相似度計算還是夾角余弦
至于降低維度,就要對S進(jìn)行奇異值削減了

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37891.html

相關(guān)文章

  • 推薦系統(tǒng)01--余弦相似

    摘要:在近鄰?fù)扑]中,最常用的相似度是余弦相似度。這就是由于余弦相似度被向量長度歸一化后的結(jié)果。用余弦相似度計算出來,兩個用戶的相似度達(dá)到。余弦相似度適用于評分?jǐn)?shù)據(jù),杰卡德相似度適合用于隱式反饋數(shù)據(jù)。 今天,我們來聊聊協(xié)同過濾中的相似度計算方法有哪些。相似度的本質(zhì)推薦系統(tǒng)中,推薦算法分為兩個門派,一個是機(jī)器學(xué)習(xí)派,另一個就是相似度門派。機(jī)器學(xué)習(xí)派是后起之秀,而相似度派則是泰山北斗,以致?lián)纹饋硗?..

    cncoder 評論0 收藏0
  • simhash+漢明距離計算文本相似

    摘要:由于最近需要做大規(guī)模的文本相似度的計算,所以用到了漢明距離來快速計算文本的相似度。的原理如下圖其中的采用的是的的結(jié)果。附上的源代碼對列表進(jìn)行降維海明距離判定距離是否相似 ****由于最近需要做大規(guī)模的文本相似度的計算,所以用到了simhash+漢明距離來快速計算文本的相似度。** **simhash的原理如下圖:其中的weight采用的是jieba的tf-idf的結(jié)果。**** sh...

    lx1036 評論0 收藏0
  • 敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實踐【智能聊天機(jī)器人篇】

    摘要:本篇為場景中的智能聊天機(jī)器人篇,敬請收看作者井玉欣。今天要介紹的是如何利用技術(shù)以及智能聊天機(jī)器人來解決組織內(nèi)部面臨的大量的每日業(yè)務(wù)咨詢問題。圖對于現(xiàn)代企業(yè)來說,智能聊天機(jī)器人有著非常廣泛的業(yè)務(wù)需求。 寫在前面:在背景篇《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實踐【背景篇】》中,我們大概了解了NLP技術(shù)的發(fā)展情況,接下來,我們會向大家介紹NLP技術(shù)在宜信應(yīng)用的高級場景。本篇為場景中的智能...

    jeffrey_up 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<