摘要:應(yīng)用過機(jī)器學(xué)習(xí)進(jìn)行數(shù)據(jù)挖掘的同學(xué)應(yīng)該都知道特征選擇對(duì)模型表現(xiàn)的重要性。本文基于網(wǎng)上經(jīng)典特征選擇相關(guān)文章整理出干貨常用方法分類以及調(diào)包俠該如何用快速上手,供大家參考。
應(yīng)用過機(jī)器學(xué)習(xí)進(jìn)行數(shù)據(jù)挖掘的同學(xué)應(yīng)該都知道特征選擇對(duì)模型表現(xiàn)的重要性。本文基于網(wǎng)上經(jīng)典特征選擇相關(guān)文章整理出干貨:常用方法分類以及調(diào)包俠該如何用sklearn快速上手,供大家參考。 (一)預(yù)處理: 1 無量綱化:
from sklearn.preprocessing import MinMaxScaler #區(qū)間縮放,返回值為縮放到[0, 1]區(qū)間的數(shù)據(jù) MinMaxScaler().fit_transform(iris.data)
from sklearn.preprocessing import StandardScaler #標(biāo)準(zhǔn)化,返回值為標(biāo)準(zhǔn)化后的數(shù)據(jù) StandardScaler().fit_transform(iris.data)2 特征二值化:定量特征二值化的核心在于設(shè)定一個(gè)閾值,大于閾值的賦值為1,小于等于閾值的賦值為0 3 特征啞變量 4 缺失值計(jì)算:一般以均值填充 5 數(shù)據(jù)變換:常見的數(shù)據(jù)變換有基于多項(xiàng)式的、基于指數(shù)函數(shù)的、基于對(duì)數(shù)函數(shù)的 (二)特征選擇 1 過濾
from sklearn.feature_selection import VarianceThreshold #方差選擇法,返回值為特征選擇后的數(shù)據(jù) #參數(shù)threshold為方差的閾值 VarianceThreshold(threshold=3).fit_transform(iris.data)
from sklearn.feature_selection import SelectKBest from scipy.stats import pearsonr SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)
from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2#選擇K個(gè)最好的特征,返回選擇特征后的數(shù)據(jù) SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)
from sklearn.feature_selection import SelectFromModel from sklearn.ensemble import GradientBoostingClassifier SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)(四)降維 1 主成分分析
from sklearn.decomposition import PCA2 3 #主成分分析法,返回降維后的數(shù)據(jù) #參數(shù)n_components為主成分?jǐn)?shù)目 PCA(n_components=2).fit_transform(iris.data)2 線性判別分析
from sklearn.lda import LDA2 3 #線性判別分析法,返回降維后的數(shù)據(jù) #參數(shù)n_components為降維后的維數(shù) LDA(n_components=2).fit_transform(iris.data, iris.target)
參考:
http://note.youdao.com/notesh...(收藏自公眾號(hào)數(shù)據(jù)挖掘入門與實(shí)戰(zhàn))
https://www.zhihu.com/questio...
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/38502.html
摘要:自從年深秋,他開始在上撰寫并公開分享他感興趣的機(jī)器學(xué)習(xí)論文。本文選取了上篇閱讀注釋的機(jī)器學(xué)習(xí)論文筆記。希望知名專家注釋的深度學(xué)習(xí)論文能使一些很復(fù)雜的概念更易于理解。主要講述的是奧德賽因?yàn)榧づ撕I癫ㄙ惗喽兄聻?zāi)禍。 Hugo Larochelle博士是一名謝布克大學(xué)機(jī)器學(xué)習(xí)的教授,社交媒體研究科學(xué)家、知名的神經(jīng)網(wǎng)絡(luò)研究人員以及深度學(xué)習(xí)狂熱愛好者。自從2015年深秋,他開始在arXiv上撰寫并...
摘要:這是機(jī)器學(xué)習(xí)課程中的一個(gè)典型例子,他把演講者的聲音和背景音樂分開。雖然用于啟動(dòng)檢測(cè)的技術(shù)主要依賴于音頻特征工程和機(jī)器學(xué)習(xí),但在這里可以很容易地使用深度學(xué)習(xí)來優(yōu)化結(jié)果。 介紹 想象一個(gè)能理解你想要什么,且當(dāng)你打電話給客戶服務(wù)中心時(shí)能理解你的感受的機(jī)器--如果你對(duì)某件事感到不高興,你可以很快地和一個(gè)人交談。如果您正在尋找特定的信息,您可能不需要與某人交談(除非您愿意!)。 ...
閱讀 1718·2021-10-28 09:32
閱讀 617·2021-09-24 09:47
閱讀 2941·2021-09-02 15:11
閱讀 2745·2021-08-09 13:46
閱讀 2896·2019-08-30 15:55
閱讀 1081·2019-08-30 15:54
閱讀 3315·2019-08-29 14:12
閱讀 818·2019-08-26 13:40