摘要:如標(biāo)題,與詞集詞袋模型都是數(shù)據(jù)預(yù)處理中常用的算法,這里展示一下這兩種算法的聯(lián)合應(yīng)用。我們?cè)倩剡^(guò)頭來(lái)看看的缺陷,其中的第二點(diǎn)和第三點(diǎn)以相反角度來(lái)看都有助于我們對(duì)詞袋模型中特征向量的優(yōu)化這個(gè)需要各位好好理解一下。
如標(biāo)題,TF-IDF與詞集詞袋模型都是數(shù)據(jù)預(yù)處理中常用的算法,這里展示一下這兩種算法的聯(lián)合應(yīng)用。
一. 詞集與詞袋模型這個(gè)算法的主要作用也就是對(duì)文本做單詞切分,有點(diǎn)從一篇文章里提取關(guān)鍵詞這種意思,旨在用向量來(lái)描述文本的主要內(nèi)容,其中包含了詞集與詞袋兩種。
詞集模型:?jiǎn)卧~構(gòu)成的集合,集合中每個(gè)元素只有一個(gè),即詞集中的每個(gè)單詞都只有一個(gè)。
詞袋模型:如果一個(gè)單詞在文檔中出現(xiàn)不止一次,就統(tǒng)計(jì)其出現(xiàn)的次數(shù),詞袋在詞集的基礎(chǔ)上加入了頻率這個(gè)維度,使統(tǒng)計(jì)擁有更好的效果,通常我們?cè)趹?yīng)用中都選用詞袋模型。
python代碼示例使用xss攻擊語(yǔ)句來(lái)測(cè)試詞袋模型的效果
from sklearn.feature_extraction.text import CountVectorizer #詞袋模型,這里的min_df取值為3,即該向量在整個(gè)payload中至少出現(xiàn)了三次 vec=CountVectorizer(min_df=3,ngram_range=(1,1)) content=[ "alert(1)X", "">
可以看到,我們得到了詞袋模型中詞匯的tf-idf值,值越高說(shuō)明該詞區(qū)分每條語(yǔ)句的效果越好。
但我們做特征工程追求的是泛化能力,即尋找能更好的概括整體文本的特征的詞匯,與tf-idf追求的結(jié)果恰恰相反,所以我們可以看到像alert、script這種在安全從業(yè)者看來(lái)明顯的攻擊特征在上面結(jié)果中的權(quán)值反而很低。
我們?cè)倩剡^(guò)頭來(lái)看看tf-idf的缺陷,其中的第二點(diǎn)和第三點(diǎn)以相反角度來(lái)看都有助于我們對(duì)詞袋模型中特征向量的優(yōu)化(這個(gè)需要各位好好理解一下)。
那么我們正好可以利用這個(gè)特征來(lái)判斷詞袋模型中向量的泛化效果
即:tf-idf值越高其泛化能力越低,也就越不適合作為我們的特征向量。
從上面的結(jié)果中我們可以看出來(lái),script、alert這兩個(gè)向量相比于其它能更好的反映出我們整體攻擊語(yǔ)句的特征,符合我們?nèi)斯づ袛嗟慕Y(jié)果。而在script和alert兩者中alert顯然泛化效果又更加的優(yōu)秀。
兩者結(jié)合使用,我們就可以自動(dòng)化的從大文本中提取優(yōu)質(zhì)的特征向量,以減少人工干預(yù),大大降低特征工程中的成本。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/40920.html
摘要:詞袋模型詞袋模型簡(jiǎn)稱,所謂的詞袋模型是一種用機(jī)器學(xué)習(xí)算法對(duì)文本進(jìn)行建模時(shí)表示文本數(shù)據(jù)的方法。再進(jìn)行一些其他的特征工程后,就可以將數(shù)據(jù)帶入機(jī)器學(xué)習(xí)算法進(jìn)行分類聚類了??偨Y(jié)下詞袋模型的三部曲分詞,統(tǒng)計(jì)修訂詞特征值與標(biāo)準(zhǔn)化。 詞袋模型 詞袋模型(Bag of Words,簡(jiǎn)稱BoW),所謂的詞袋模型是一種用機(jī)器學(xué)習(xí)算法對(duì)文本進(jìn)行建模時(shí)表示文本數(shù)據(jù)的方法。 詞袋模型假設(shè)我們不考慮文本中詞與詞之...
摘要:在自然語(yǔ)言處理詞袋模型與向量化中我們講到在文本挖掘的預(yù)處理中,向量化之后一般都伴隨著的處理,那么什么是,為什么一般我們要加這一步預(yù)處理呢這里就對(duì)的原理做一個(gè)總結(jié)。 TF-IDF 在自然語(yǔ)言處理——詞袋模型與向量化中我們講到在文本挖掘的預(yù)處理中,向量化之后一般都伴隨著TF-IDF的處理,那么什么是TF-IDF,為什么一般我們要加這一步預(yù)處理呢?這里就對(duì)TF-IDF的原理做一個(gè)總結(jié)。 文本...
摘要:全棧數(shù)據(jù)之門前言自強(qiáng)不息,厚德載物,自由之光,你是我的眼基礎(chǔ),從零開始之門文件操作權(quán)限管理軟件安裝實(shí)戰(zhàn)經(jīng)驗(yàn)與,文本處理文本工具的使用家族的使用綜合案例數(shù)據(jù)工程,必備分析文件探索內(nèi)容探索交差并補(bǔ)其他常用的命令批量操作結(jié)語(yǔ)快捷鍵,之門提高效率光 showImg(https://segmentfault.com/img/bVK0aK?w=350&h=350); 全棧數(shù)據(jù)之門 前言 自強(qiáng)不息,...
閱讀 3484·2021-11-19 09:40
閱讀 1502·2021-10-13 09:41
閱讀 2677·2021-09-29 09:35
閱讀 2723·2021-09-23 11:21
閱讀 1716·2021-09-09 11:56
閱讀 845·2019-08-30 15:53
閱讀 853·2019-08-30 15:52
閱讀 606·2019-08-30 12:47