摘要:余弦相似度觀點(diǎn)等價(jià)于夾角遞減排序區(qū)間內(nèi),是單調(diào)遞減函數(shù)。長(zhǎng)度歸一化后余弦相似度計(jì)算舉例詞項(xiàng)頻率詞項(xiàng)頻率取對(duì)數(shù)長(zhǎng)度歸一化計(jì)算文檔詞項(xiàng)頻率關(guān)聯(lián)表如下文檔把表加入上述表之中,分別計(jì)算和其他文檔的值,那么就能得出,其他文檔與的相關(guān)度
提示:
信息檢索:文檔評(píng)分-詞項(xiàng)權(quán)重計(jì)算-向量空間模型
?第四部分:向量空間模型
二值關(guān)聯(lián)矩陣:詞項(xiàng)-文檔
詞頻矩陣:詞頻-文檔
權(quán)重是前面的tf-idf權(quán)重:
|V|維向量空間,每一維都對(duì)應(yīng)詞項(xiàng),文檔是空間的點(diǎn)或向量。
維度相當(dāng)大,對(duì)于互聯(lián)網(wǎng)來(lái)說(shuō),甚至達(dá)到千萬(wàn)維或更高。
向量空間非常稀疏,幾乎都是0.
■關(guān)鍵思路1:對(duì)于查詢做同樣的處理,即將查詢表示成同一高維空間的向量
■關(guān)鍵思路2:在向量空間內(nèi)根據(jù)queries與文檔向量間的距離來(lái)排序
計(jì)算兩個(gè)向量終點(diǎn)之間的距離:
不能采用歐氏距離,從上圖分析,歐氏空間對(duì)距離十分敏感,q與d2歐氏距離很遠(yuǎn),但它們實(shí)際分布很接近。
就是把文檔向量,變成單位向量唄,長(zhǎng)度就不會(huì)影響相關(guān)性比較了,上面的文檔d和d‘就相等了。同一個(gè)向量表示就可以了
L2范數(shù):
向量除以L2范數(shù)就是長(zhǎng)度歸一化。
文檔長(zhǎng)度差異就不會(huì)影響到相關(guān)性的比較了。
觀點(diǎn)等價(jià)于夾角遞減排序
[0,180]區(qū)間內(nèi),cosine是單調(diào)遞減函數(shù)。
cos(q,d) q,d的余弦相關(guān)性等價(jià)于q,d夾角余弦值。
長(zhǎng)度歸一化后:
詞項(xiàng)頻率tf—>詞項(xiàng)頻率tf取對(duì)數(shù)—>長(zhǎng)度歸一化—>計(jì)算
文檔-詞項(xiàng)頻率tf關(guān)聯(lián)表如下:文檔(sas,pap,wh)
把query表加入上述表之中,分別計(jì)算query和其他文檔的cosine值,那么就能得出,其他文檔與query的相關(guān)度
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/125633.html
摘要:在近鄰?fù)扑]中,最常用的相似度是余弦相似度。這就是由于余弦相似度被向量長(zhǎng)度歸一化后的結(jié)果。用余弦相似度計(jì)算出來(lái),兩個(gè)用戶的相似度達(dá)到。余弦相似度適用于評(píng)分?jǐn)?shù)據(jù),杰卡德相似度適合用于隱式反饋數(shù)據(jù)。 今天,我們來(lái)聊聊協(xié)同過(guò)濾中的相似度計(jì)算方法有哪些。相似度的本質(zhì)推薦系統(tǒng)中,推薦算法分為兩個(gè)門派,一個(gè)是機(jī)器學(xué)習(xí)派,另一個(gè)就是相似度門派。機(jī)器學(xué)習(xí)派是后起之秀,而相似度派則是泰山北斗,以致?lián)纹饋?lái)推...
摘要:在自然語(yǔ)言處理中,一個(gè)很重要的技術(shù)手段就是將文檔轉(zhuǎn)換為一個(gè)矢量,這個(gè)過(guò)程一般是使用這個(gè)庫(kù)進(jìn)行處理的。自然語(yǔ)言處理中,一般來(lái)說(shuō),代表詞。自然語(yǔ)言預(yù)處理中,一個(gè)很重要的步驟就是將你收集的句子進(jìn)行分詞,將一個(gè)句子分解成詞的列表。 前言 本文根據(jù)實(shí)際項(xiàng)目撰寫,由于項(xiàng)目保密要求,源代碼將進(jìn)行一定程度的刪減。本文撰寫的目的是進(jìn)行公司培訓(xùn),請(qǐng)勿以任何形式進(jìn)行轉(zhuǎn)載。由于是日語(yǔ)項(xiàng)目,用到的分詞軟件等,在...
摘要:文和,創(chuàng)意實(shí)驗(yàn)室創(chuàng)意技術(shù)專家在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域,姿勢(shì)預(yù)測(cè)或根據(jù)圖像數(shù)據(jù)探測(cè)人體及其姿勢(shì)的能力,堪稱最令人興奮而又最棘手的一個(gè)話題。使用,用戶可以直接在瀏覽器中運(yùn)行機(jī)器學(xué)習(xí)模型,無(wú)需服務(wù)器。 文 / ?Jane Friedhoff 和 Irene Alvarado,Google 創(chuàng)意實(shí)驗(yàn)室創(chuàng)意技術(shù)專家在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域,姿勢(shì)預(yù)測(cè)或根據(jù)圖像數(shù)據(jù)探測(cè)人體及其姿勢(shì)的能力,堪稱最令人興...
摘要:實(shí)現(xiàn)參考鏈接計(jì)算各類距離關(guān)于機(jī)器學(xué)習(xí)距離的理解機(jī)器學(xué)習(xí)中的相似性度量如何通俗易懂地理解皮爾遜相關(guān)系數(shù)數(shù)學(xué)應(yīng)用 8種相似度度量方式的原理及實(shí)現(xiàn) 歐氏距離(Euclidean Distance) 歐氏距離(也稱歐幾里得度量)指在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長(zhǎng)度(即該點(diǎn)到原點(diǎn)的距離) showImg(https://raw.githubusercontent.com/ele...
閱讀 3668·2023-01-11 11:02
閱讀 4210·2023-01-11 11:02
閱讀 3008·2023-01-11 11:02
閱讀 5148·2023-01-11 11:02
閱讀 4702·2023-01-11 11:02
閱讀 5486·2023-01-11 11:02
閱讀 5236·2023-01-11 11:02
閱讀 3865·2023-01-11 11:02