特征工程 vs. 特征提取

Tecode 發(fā)布于2019-04-25 18:00 / 3406人閱讀

摘要：特征工程與圖像處理信息檢索以及表達(dá)譜等大不相同。以這種方式使用通常被稱為特征提取。在這一問(wèn)題的范圍內(nèi)，它們的直覺(jué)應(yīng)該驅(qū)動(dòng)特征工程處理。此外，細(xì)胞核的大小與細(xì)胞整體大小相關(guān)等等。

“特征工程”這個(gè)華麗的術(shù)語(yǔ)，它以盡可能容易地使模型達(dá)到良好性能的方式，來(lái)確保你的預(yù)測(cè)因子被編碼到模型中。例如，如果你有一個(gè)日期字段作為一個(gè)預(yù)測(cè)因子，并且它在周末與平日的響應(yīng)上有著很大的不同，那么以這種方式編碼日期，它更容易取得好的效果。

但是，這取決于許多方面。

首先，它是依賴模型的。例如，如果類邊界是一個(gè)對(duì)角線，那么樹可能會(huì)在分類數(shù)據(jù)集上遇到麻煩，因?yàn)榉诸愡吔缡褂玫氖菙?shù)據(jù)的正交分解（斜樹除外）。

其次，預(yù)測(cè)編碼過(guò)程從問(wèn)題的特定學(xué)科知識(shí)中受益較大。在我剛才列舉的例子中，你需要了解數(shù)據(jù)模式，然后改善預(yù)測(cè)因子的格式。特征工程與圖像處理、信息檢索以及RNA表達(dá)譜等大不相同。你需要了解關(guān)于這個(gè)問(wèn)題的一些信息，并且用你的特定數(shù)據(jù)集來(lái)做好特征工作。

下面是一些訓(xùn)練集的數(shù)據(jù)，使用兩個(gè)預(yù)測(cè)因子來(lái)建立一個(gè)二分類系統(tǒng)模型（我會(huì)在后面揭曉數(shù)據(jù)來(lái)源）：

這里還有我們將在下面使用到的相關(guān)測(cè)試集。

我們可以得到以下結(jié)論：

這些數(shù)據(jù)是高度相關(guān)的（相關(guān)系數(shù)=0.85）。

每個(gè)預(yù)測(cè)因子似乎是向右傾斜的。

它們似乎是多信息的，從某種意義上來(lái)說(shuō)，你或許可以畫出一條對(duì)角線來(lái)區(qū)分類別。

取決于我們選擇使用的模型，兩個(gè)預(yù)測(cè)因子的相關(guān)性可能會(huì)困擾我們。同樣，我們應(yīng)該檢查單個(gè)預(yù)測(cè)因子是否重要。為了衡量這一點(diǎn)，我們將直接使用在預(yù)測(cè)數(shù)據(jù)上的ROC曲線下方的面積。

下面是每一個(gè)預(yù)測(cè)因子的單變量盒圖（在對(duì)數(shù)尺度上）：

這兩個(gè)類之間有一些細(xì)微的差別，但是有很多重疊部分。預(yù)測(cè)模型A和B的ROC曲線面積分別是0.61和0.59。這個(gè)結(jié)果并不好。

那我們能做什么？主成分分析（PCA）是一種預(yù)處理的方法，它以創(chuàng)建新的綜合預(yù)測(cè)因子（即主要成分或PC"s）的方式旋轉(zhuǎn)預(yù)測(cè)數(shù)據(jù)。它通過(guò)這樣的方式分析：第一個(gè)成分占預(yù)測(cè)數(shù)據(jù)中大多數(shù)（線性）變量或信息的比重。在提取第一個(gè)成分之后，第二個(gè)成分以同樣的方式來(lái)處理剩下的數(shù)據(jù)，并且依次下去。對(duì)于這些數(shù)據(jù)，有兩種可能的組成部分（因?yàn)橹挥袃蓚€(gè)預(yù)測(cè)因子）。以這種方式使用PCA通常被稱為特征提取。

我們來(lái)計(jì)算下這些成分：

> library(caret)

> head(example_train)

? ?PredictorA PredictorB Class

2 ? ?3278.726 ?154.89876 ? One

3 ? ?1727.410 ? 84.56460 ? Two

4 ? ?1194.932 ?101.09107 ? One

12 ? 1027.222 ? 68.71062 ? Two

15 ? 1035.608 ? 73.40559 ? One

16 ? 1433.918 ? 79.47569 ? One

> pca_pp <- preProcess(example_train[, 1:2],

+ ? ? ? ? ? ? ? ? ? ? ?method = c("center", "scale", "pca"))

+ pca_pp

Call:

preProcess.default(x = example_train[, 1:2], method = c("center",

?"scale", "pca"))

Created from 1009 samples and 2 variables

Pre-processing: centered, scaled, principal component signal extraction?

PCA needed 2 components to capture 95 percent of the variance

> train_pc <- predict(pca_pp, example_train[, 1:2])

> test_pc <- predict(pca_pp, example_test[, 1:2])

> head(test_pc, 4)

? ? ? ? PC1 ? ? ? ? PC2

1 0.8420447 ?0.07284802

5 0.2189168 ?0.04568417

6 1.2074404 -0.21040558

7 1.1794578 -0.20980371

請(qǐng)注意，我們?cè)谟?xùn)練集上計(jì)算了所有的必要信息，并且將這些計(jì)算應(yīng)用到測(cè)試集。那么測(cè)試集是什么樣的呢？

這是測(cè)試集預(yù)測(cè)因子簡(jiǎn)單的旋轉(zhuǎn)。

PCA是非監(jiān)督式的，這意味著當(dāng)計(jì)算結(jié)束時(shí)，不需要考慮輸出類。在這里，ROC曲線的下方部分，用第一個(gè)成分得到的面積是0.5，第二個(gè)成分得到的面積是0.81。這些結(jié)果與上面的點(diǎn)混在一起；第一個(gè)成分在類中具有隨機(jī)混合的特性，而第二個(gè)成分似乎可以很好地分離類。兩種成分的盒圖反映了同樣的情況：

在第二個(gè)成分中，兩個(gè)類的分離度更高。

這很有趣。首先，盡管PCA是非監(jiān)督式的，它還是成功地找到了一個(gè)新的預(yù)測(cè)因子來(lái)劃分類別。其次，這些成分對(duì)于這些類別是最終要的，但對(duì)于預(yù)測(cè)器而言則沒(méi)那么重要。通常PCA并不會(huì)保證任何成分會(huì)給出準(zhǔn)確預(yù)測(cè)。但在這里，我們很幸運(yùn)，它得到一個(gè)不錯(cuò)的預(yù)測(cè)結(jié)果。

但是，試想如果有上百個(gè)預(yù)測(cè)因子。我們可能只需要使用前X個(gè)成分來(lái)獲取預(yù)測(cè)因子中絕大部分的信息，然后丟棄其他的成分。在這個(gè)例子中，第一個(gè)成分占據(jù)預(yù)測(cè)器變量的92.4%，同樣的方法可能會(huì)丟棄最有效的預(yù)測(cè)因子。

特征工程的想法是怎么出現(xiàn)的呢？給定這兩種預(yù)測(cè)因子，我們可以得到下面所示的散點(diǎn)圖，我首先想到的事情是“有兩個(gè)相關(guān)聯(lián)的，正相關(guān)并且斜交的預(yù)測(cè)因子，一前一后地進(jìn)行分類”。其次我想到的是“利用比例”。那么數(shù)據(jù)是什么樣的呢？

ROC曲線下方的相應(yīng)面積是0.8，它跟第二個(gè)成分的結(jié)果很相近。一個(gè)基于數(shù)據(jù)視覺(jué)化探索的簡(jiǎn)單轉(zhuǎn)換可能會(huì)與沒(méi)有偏差的經(jīng)驗(yàn)算法效果相當(dāng)。

這些數(shù)據(jù)來(lái)自于Hill等人的細(xì)胞分割實(shí)驗(yàn)，預(yù)測(cè)因子A是“由旋轉(zhuǎn)得到的等效圓直徑的球體表面”（標(biāo)記為EqSphereAreaCh1），預(yù)測(cè)因子B是細(xì)胞核的周長(zhǎng)（PerimCh1）。一個(gè)高內(nèi)涵篩選的專家，可能會(huì)自然而然的采用這兩種細(xì)胞特征的比率，因?yàn)樗鼤?huì)帶來(lái)科學(xué)意義上良好的效果（我并不是那個(gè)人）。在這一問(wèn)題的范圍內(nèi)，它們的直覺(jué)應(yīng)該驅(qū)動(dòng)特征工程處理。

然而，在保證諸如PCA算法效能時(shí)，機(jī)器會(huì)因此受益。總的來(lái)說(shuō)，這些數(shù)據(jù)中有近60個(gè)預(yù)測(cè)因子，它們的特征和EqSphereAreaCh1相近。我的個(gè)人愛(ài)好是“基于共生矩陣像素空間排列的Haralick 結(jié)構(gòu)測(cè)量”。為此研究了一段時(shí)間。問(wèn)題的關(guān)鍵是，經(jīng)常有太多的特征需要設(shè)計(jì)，而且它們很可能在一開(kāi)始就很不直觀。

特征提取的另一方面關(guān)系到相關(guān)性。在特定數(shù)據(jù)集上的預(yù)測(cè)因子之間往往有著高度相關(guān)性，這是很好理解的。比如，有不同的方法來(lái)量化細(xì)胞的離心率（比如拉伸程度）。此外，細(xì)胞核的大小與細(xì)胞整體大小相關(guān)等等。PCA可以顯著地緩解相關(guān)性的效果。手動(dòng)采用多預(yù)測(cè)因子比例的做法似乎可能不太有效，而且會(huì)花費(fèi)更多的時(shí)間。

去年，在我支持的一個(gè)R&D小組中，專注于偏差分析（即建立我們預(yù)先知道的模型）和專注于非偏差分析（即讓機(jī)器去尋找最優(yōu)模型）的科學(xué)家之間存在著爭(zhēng)議。我的觀點(diǎn)處于這兩者之間，認(rèn)為它們之間存在一些交集。一旦挖掘完畢，機(jī)器可以將新的、有趣的特征打上“已知事物”的標(biāo)簽，并把它們作為知識(shí)來(lái)使用。

云服務(wù)器 GPU云服務(wù)器特征提取人臉特征提取圖像識(shí)別特征提取人臉特征提取接口API

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/4328.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Tecode

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow指定cpu

閱讀 3539·2023-04-25 20:09
香港云服務(wù)器這幾天網(wǎng)絡(luò)有沒(méi)有丟包嚴(yán)重

閱讀 3740·2022-06-28 19:00
EPC單機(jī)掛載UHOST-RSSD高速磁盤

閱讀 3061·2022-06-28 19:00
GPU活動(dòng)使用TIPS

閱讀 3082·2022-06-28 19:00
為科研量身定制，UCloud推出“云極”高性能計(jì)算EPC

閱讀 3176·2022-06-28 19:00
UCloud 2021年終特惠已開(kāi)啟，快杰O型ARM服務(wù)器上海節(jié)點(diǎn)重磅上線！

閱讀 2881·2022-06-28 19:00
“懂運(yùn)維、精運(yùn)營(yíng)、重服務(wù)” UCloud發(fā)布混合云多云管理平臺(tái)UCMP

閱讀 3049·2022-06-28 19:00
軟件定義存儲(chǔ) ，UCloudStor存儲(chǔ)?體機(jī)強(qiáng)勢(shì)登場(chǎng)

閱讀 2638·2022-06-28 19:00

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

特征工程 vs. 特征提取

相關(guān)文章

SegmentFault 技術(shù)周刊 Vol.30 - 學(xué)習(xí) Python 來(lái)做一些神奇好玩的事情吧

發(fā)表評(píng)論

0條評(píng)論

Tecode

男|高級(jí)講師

TA的文章

tensorflow指定cpu

香港云服務(wù)器這幾天網(wǎng)絡(luò)有沒(méi)有丟包嚴(yán)重

EPC單機(jī)掛載UHOST-RSSD高速磁盤

GPU活動(dòng)使用TIPS

為科研量身定制，UCloud推出“云極”高性能計(jì)算EPC

UCloud 2021年終特惠已開(kāi)啟，快杰O型ARM服務(wù)器上海節(jié)點(diǎn)重磅上線！

“懂運(yùn)維、精運(yùn)營(yíng)、重服務(wù)” UCloud發(fā)布混合云多云管理平臺(tái)UCMP

軟件定義存儲(chǔ) ，UCloudStor存儲(chǔ)?體機(jī)強(qiáng)勢(shì)登場(chǎng)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

特征工程 vs. 特征提取

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！