成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

TF-IDF、詞袋模型與特征工程

xialong / 3614人閱讀

摘要:如標(biāo)題,與詞集詞袋模型都是數(shù)據(jù)預(yù)處理中常用的算法,這里展示一下這兩種算法的聯(lián)合應(yīng)用。我們?cè)倩剡^(guò)頭來(lái)看看的缺陷,其中的第二點(diǎn)和第三點(diǎn)以相反角度來(lái)看都有助于我們對(duì)詞袋模型中特征向量的優(yōu)化這個(gè)需要各位好好理解一下。

如標(biāo)題,TF-IDF與詞集詞袋模型都是數(shù)據(jù)預(yù)處理中常用的算法,這里展示一下這兩種算法的聯(lián)合應(yīng)用。

一. 詞集與詞袋模型

這個(gè)算法的主要作用也就是對(duì)文本做單詞切分,有點(diǎn)從一篇文章里提取關(guān)鍵詞這種意思,旨在用向量來(lái)描述文本的主要內(nèi)容,其中包含了詞集與詞袋兩種。

詞集模型:?jiǎn)卧~構(gòu)成的集合,集合中每個(gè)元素只有一個(gè),即詞集中的每個(gè)單詞都只有一個(gè)。

詞袋模型:如果一個(gè)單詞在文檔中出現(xiàn)不止一次,就統(tǒng)計(jì)其出現(xiàn)的次數(shù),詞袋在詞集的基礎(chǔ)上加入了頻率這個(gè)維度,使統(tǒng)計(jì)擁有更好的效果,通常我們?cè)趹?yīng)用中都選用詞袋模型。

python代碼示例

使用xss攻擊語(yǔ)句來(lái)測(cè)試詞袋模型的效果

from sklearn.feature_extraction.text import CountVectorizer
#詞袋模型,這里的min_df取值為3,即該向量在整個(gè)payload中至少出現(xiàn)了三次
vec=CountVectorizer(min_df=3,ngram_range=(1,1))
content=[
    "alert(1)X",
    "">