成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

【學(xué)習(xí)摘錄】機(jī)器學(xué)習(xí)特征選擇

lyning / 2993人閱讀

摘要:應(yīng)用過機(jī)器學(xué)習(xí)進(jìn)行數(shù)據(jù)挖掘的同學(xué)應(yīng)該都知道特征選擇對(duì)模型表現(xiàn)的重要性。本文基于網(wǎng)上經(jīng)典特征選擇相關(guān)文章整理出干貨常用方法分類以及調(diào)包俠該如何用快速上手,供大家參考。

應(yīng)用過機(jī)器學(xué)習(xí)進(jìn)行數(shù)據(jù)挖掘的同學(xué)應(yīng)該都知道特征選擇對(duì)模型表現(xiàn)的重要性。本文基于網(wǎng)上經(jīng)典特征選擇相關(guān)文章整理出干貨:常用方法分類以及調(diào)包俠該如何用sklearn快速上手,供大家參考。 (一)預(yù)處理: 1 無量綱化:
1.1 區(qū)間縮放
from sklearn.preprocessing 
import MinMaxScaler #區(qū)間縮放,返回值為縮放到[0, 1]區(qū)間的數(shù)據(jù)
MinMaxScaler().fit_transform(iris.data)
1.2 標(biāo)準(zhǔn)化(特征值服需從正態(tài)分布)
from sklearn.preprocessing import StandardScaler #標(biāo)準(zhǔn)化,返回值為標(biāo)準(zhǔn)化后的數(shù)據(jù)
StandardScaler().fit_transform(iris.data)
2 特征二值化:定量特征二值化的核心在于設(shè)定一個(gè)閾值,大于閾值的賦值為1,小于等于閾值的賦值為0 3 特征啞變量 4 缺失值計(jì)算:一般以均值填充 5 數(shù)據(jù)變換:常見的數(shù)據(jù)變換有基于多項(xiàng)式的、基于指數(shù)函數(shù)的、基于對(duì)數(shù)函數(shù)的 (二)特征選擇 1 過濾
1.1 基于方差
from sklearn.feature_selection
import VarianceThreshold
#方差選擇法,返回值為特征選擇后的數(shù)據(jù) #參數(shù)threshold為方差的閾值
VarianceThreshold(threshold=3).fit_transform(iris.data)
1.2 相關(guān)系數(shù)
from sklearn.feature_selection 
import SelectKBest
from scipy.stats import pearsonr
SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)
1.3 卡方檢驗(yàn)
from sklearn.feature_selection
import SelectKBest
from sklearn.feature_selection import chi2#選擇K個(gè)最好的特征,返回選擇特征后的數(shù)據(jù)
SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)
1.4 互信息
2 遞歸特征消除:遞歸消除特征法使用一個(gè)基模型來進(jìn)行多輪訓(xùn)練,每輪訓(xùn)練后,消除若干權(quán)值系數(shù)的特征,再基于新的特征集進(jìn)行下一輪訓(xùn)練 3 嵌入法
3.1 基于懲罰項(xiàng)的特征選擇法
3.2 樹模型中GBDT也可用來作為基模型進(jìn)行特征選擇,使用feature_selection庫的SelectFromModel類結(jié)合GBDT模型,來選擇特征的代碼如下:
from sklearn.feature_selection 
import SelectFromModel
from sklearn.ensemble import GradientBoostingClassifier  
SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)
(四)降維 1 主成分分析
from sklearn.decomposition 
import PCA2 3 #主成分分析法,返回降維后的數(shù)據(jù) #參數(shù)n_components為主成分?jǐn)?shù)目 PCA(n_components=2).fit_transform(iris.data)
2 線性判別分析
from sklearn.lda 
import LDA2 3 #線性判別分析法,返回降維后的數(shù)據(jù) #參數(shù)n_components為降維后的維數(shù) LDA(n_components=2).fit_transform(iris.data, iris.target)

參考:

http://note.youdao.com/notesh...(收藏自公眾號(hào)數(shù)據(jù)挖掘入門與實(shí)戰(zhàn))

https://www.zhihu.com/questio...

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/38502.html

相關(guān)文章

  • arXiv上五篇頂尖深度學(xué)習(xí)論文都講了些什么?

    摘要:自從年深秋,他開始在上撰寫并公開分享他感興趣的機(jī)器學(xué)習(xí)論文。本文選取了上篇閱讀注釋的機(jī)器學(xué)習(xí)論文筆記。希望知名專家注釋的深度學(xué)習(xí)論文能使一些很復(fù)雜的概念更易于理解。主要講述的是奧德賽因?yàn)榧づ撕I癫ㄙ惗喽兄聻?zāi)禍。 Hugo Larochelle博士是一名謝布克大學(xué)機(jī)器學(xué)習(xí)的教授,社交媒體研究科學(xué)家、知名的神經(jīng)網(wǎng)絡(luò)研究人員以及深度學(xué)習(xí)狂熱愛好者。自從2015年深秋,他開始在arXiv上撰寫并...

    WilsonLiu95 評(píng)論0 收藏0
  • 原創(chuàng)翻譯 | 10個(gè)音頻處理任務(wù)讓你開始使用深度學(xué)習(xí)應(yīng)用

    摘要:這是機(jī)器學(xué)習(xí)課程中的一個(gè)典型例子,他把演講者的聲音和背景音樂分開。雖然用于啟動(dòng)檢測(cè)的技術(shù)主要依賴于音頻特征工程和機(jī)器學(xué)習(xí),但在這里可以很容易地使用深度學(xué)習(xí)來優(yōu)化結(jié)果。 介紹 想象一個(gè)能理解你想要什么,且當(dāng)你打電話給客戶服務(wù)中心時(shí)能理解你的感受的機(jī)器--如果你對(duì)某件事感到不高興,你可以很快地和一個(gè)人交談。如果您正在尋找特定的信息,您可能不需要與某人交談(除非您愿意!)。 ...

    notebin 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<