TF-IDF、詞袋模型與特征工程

xialong 發(fā)布于2019-07-30 14:47 / 3614人閱讀

摘要：如標(biāo)題，與詞集詞袋模型都是數(shù)據(jù)預(yù)處理中常用的算法，這里展示一下這兩種算法的聯(lián)合應(yīng)用。我們?cè)倩剡^(guò)頭來(lái)看看的缺陷，其中的第二點(diǎn)和第三點(diǎn)以相反角度來(lái)看都有助于我們對(duì)詞袋模型中特征向量的優(yōu)化這個(gè)需要各位好好理解一下。

如標(biāo)題，TF-IDF與詞集詞袋模型都是數(shù)據(jù)預(yù)處理中常用的算法，這里展示一下這兩種算法的聯(lián)合應(yīng)用。

一. 詞集與詞袋模型

這個(gè)算法的主要作用也就是對(duì)文本做單詞切分，有點(diǎn)從一篇文章里提取關(guān)鍵詞這種意思，旨在用向量來(lái)描述文本的主要內(nèi)容，其中包含了詞集與詞袋兩種。

詞集模型：?jiǎn)卧~構(gòu)成的集合，集合中每個(gè)元素只有一個(gè)，即詞集中的每個(gè)單詞都只有一個(gè)。

詞袋模型：如果一個(gè)單詞在文檔中出現(xiàn)不止一次，就統(tǒng)計(jì)其出現(xiàn)的次數(shù)，詞袋在詞集的基礎(chǔ)上加入了頻率這個(gè)維度，使統(tǒng)計(jì)擁有更好的效果，通常我們?cè)趹?yīng)用中都選用詞袋模型。

python代碼示例

使用xss攻擊語(yǔ)句來(lái)測(cè)試詞袋模型的效果

from sklearn.feature_extraction.text import CountVectorizer
#詞袋模型，這里的min_df取值為3，即該向量在整個(gè)payload中至少出現(xiàn)了三次
vec=CountVectorizer(min_df=3,ngram_range=(1,1))
content=[
    "alert(1)X",
    "">

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

TF-IDF、詞袋模型與特征工程

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

TF-IDF、詞袋模型與特征工程

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！