摘要:提示信息檢索文檔評(píng)分詞項(xiàng)權(quán)重計(jì)算向量空間模型第三部分權(quán)重計(jì)算文章目錄權(quán)重計(jì)算權(quán)重文檔頻率計(jì)算舉例權(quán)重權(quán)重計(jì)算在進(jìn)行排序時(shí),除了詞項(xiàng)頻率之外,我們通常還需要詞項(xiàng)在整個(gè)文檔集中的頻率和評(píng)分。那么我們就希望給它更高的權(quán)重。
提示:
信息檢索:文檔評(píng)分-詞項(xiàng)權(quán)重計(jì)算-向量空間模型
?第三部分:tf-idf權(quán)重計(jì)算
在進(jìn)行排序時(shí),除了詞項(xiàng)頻率tf之外,我們通常還需要詞項(xiàng)在整個(gè)文檔集中的頻率和評(píng)分。
原因,當(dāng)詞項(xiàng)A和詞項(xiàng)B在文檔1中tf相同時(shí),但詞項(xiàng)B在文檔集中每個(gè)文檔中都有,而詞項(xiàng)A只存在于文檔1中,那么A和B需要有一個(gè)重要性的排序。
罕見詞項(xiàng)要比常見詞項(xiàng)蘊(yùn)含的信息要多很多,它出現(xiàn)的頻率越低,那么出現(xiàn)它的文檔就顯得相關(guān)性更高。那么我們就希望給它更高的權(quán)重。
那么對(duì)于常見詞而言,相對(duì)蘊(yùn)含信息就相對(duì)偏少,給一個(gè)低的權(quán)重即可。
出現(xiàn)詞項(xiàng)的文檔數(shù)目
idft是反映信息量的一個(gè)指標(biāo)。
用log10(N/dft)來限制N/dft的作用
N=1000000
vs | |
---|---|
文檔集頻率cf | t在整個(gè)文檔集中出現(xiàn)的次數(shù) |
文檔頻率df | 包含t的文檔數(shù)目 |
哪一個(gè)更適合查詢?即賦予更高的權(quán)重?
通過上圖,df(idf)的更適合做查詢
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/125634.html
摘要:在自然語(yǔ)言處理中,一個(gè)很重要的技術(shù)手段就是將文檔轉(zhuǎn)換為一個(gè)矢量,這個(gè)過程一般是使用這個(gè)庫(kù)進(jìn)行處理的。自然語(yǔ)言處理中,一般來說,代表詞。自然語(yǔ)言預(yù)處理中,一個(gè)很重要的步驟就是將你收集的句子進(jìn)行分詞,將一個(gè)句子分解成詞的列表。 前言 本文根據(jù)實(shí)際項(xiàng)目撰寫,由于項(xiàng)目保密要求,源代碼將進(jìn)行一定程度的刪減。本文撰寫的目的是進(jìn)行公司培訓(xùn),請(qǐng)勿以任何形式進(jìn)行轉(zhuǎn)載。由于是日語(yǔ)項(xiàng)目,用到的分詞軟件等,在...
閱讀 3668·2023-01-11 11:02
閱讀 4210·2023-01-11 11:02
閱讀 3008·2023-01-11 11:02
閱讀 5148·2023-01-11 11:02
閱讀 4702·2023-01-11 11:02
閱讀 5486·2023-01-11 11:02
閱讀 5236·2023-01-11 11:02
閱讀 3865·2023-01-11 11:02