成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

特征工程&&清洗數(shù)據(jù)

1fe1se / 2700人閱讀

摘要:得分與距離均值的標(biāo)準(zhǔn)偏差數(shù)相關(guān)。不過(guò),在我們的模型中將表示為浮點(diǎn)特征將其看為一個(gè)浮點(diǎn)數(shù),以它的數(shù)值大小為特征沒(méi)有意義。清查截至目前,我們假定用于訓(xùn)練和測(cè)試的所有數(shù)據(jù)都是值得信賴(lài)的。良好的機(jī)器學(xué)習(xí)依賴(lài)于良好的數(shù)據(jù)。

特征工程
將原始數(shù)據(jù)映射到特征

我們?cè)谶M(jìn)行機(jī)器學(xué)習(xí)的時(shí)候,采用的數(shù)據(jù)樣本往往是矢量(特征矢量),而我們的原始數(shù)據(jù)并不是以矢量的形式呈現(xiàn)給我們的,這是便需要將數(shù)據(jù)映射到特征

整數(shù)和浮點(diǎn)數(shù)映射

直接映射便ok(雖然機(jī)器學(xué)習(xí)是根據(jù)浮點(diǎn)值進(jìn)行的訓(xùn)練,但是不需要將整數(shù)6轉(zhuǎn)換為6.0,這個(gè)過(guò)程是默認(rèn)的)

字符串映射

好多時(shí)候,有的特征是字符串,比如此前訓(xùn)練的加利福尼亞房產(chǎn)數(shù)據(jù)集中的街區(qū)名稱(chēng),機(jī)器學(xué)習(xí)是無(wú)法根據(jù)字符串來(lái)學(xué)習(xí)規(guī)律的,所以需要轉(zhuǎn)換。但是存在一個(gè)問(wèn)題,如果字符特征是""一環(huán)"" ""二環(huán)"" ""三環(huán)""...(代表某個(gè)城市的地理位置),那么對(duì)其進(jìn)行數(shù)值轉(zhuǎn)換的時(shí)候,是不可以編碼為形如1,2,3,4...這樣的數(shù)據(jù)的,因?yàn)槠浯嬖跀?shù)據(jù)大小的問(wèn)題,學(xué)習(xí)模型會(huì)把他們的大小關(guān)系作為特征而學(xué)習(xí),所以我們需要引入獨(dú)熱編碼,(具體解釋見(jiàn)鏈接,解釋的很好)

尋找良好特征(的特點(diǎn))

當(dāng)?shù)玫教卣髦?,還是要進(jìn)行篩選的,因?yàn)橛械奶卣鳑](méi)有參考價(jià)值,就像我們的在做合成特征的時(shí)候,正常的特征數(shù)據(jù)是人均幾間房間,而有的人是幾十間,這明顯沒(méi)有參考價(jià)值
良好特征的幾點(diǎn)原則

避免很少使用的離散特征值:如果只是出現(xiàn)了一兩次的特征幾乎是沒(méi)有意義的

最好具有清晰明確的含義:特征的含義不僅僅是讓機(jī)器學(xué)習(xí)的模型學(xué)習(xí)的,人也要知道其具體的含義,不然不利于分析數(shù)據(jù)(最好將數(shù)值很大的秒轉(zhuǎn)換為天數(shù),或者年,讓人看起來(lái)直觀一些)

將“神奇”的值與實(shí)際數(shù)據(jù)混為一談:有些特征中會(huì)出現(xiàn)一些"神奇的數(shù)據(jù)",當(dāng)然這些數(shù)據(jù)并不是很少的特征,而是超出范圍的異常值,比如特征應(yīng)該是介于0——1之間的,但是因?yàn)檫@個(gè)數(shù)據(jù)是空缺的,而采用的默認(rèn)數(shù)值-1,那么這樣的數(shù)值就是"神奇",解決辦法是,將該特征轉(zhuǎn)換為兩個(gè)特征:

一個(gè)特征只存儲(chǔ)質(zhì)正常范圍的值,不含神奇值。

一個(gè)特征存儲(chǔ)布爾值,表示的信息為是否為空

考慮上游不穩(wěn)定性:由經(jīng)驗(yàn)可知,特征的定義不應(yīng)隨時(shí)間發(fā)生變化,代表城市名稱(chēng)的話(huà),那么特征值始終都該是城市的名稱(chēng),但是有的時(shí)候,上游模型將特征值處理完畢后,返還給下游模型的卻變成了數(shù)值,這樣是不好的,因?yàn)檫@種表示在未來(lái)運(yùn)行其他模型時(shí)可能輕易發(fā)生變化,那么特征就亂套了

清理數(shù)據(jù)(整理數(shù)據(jù))

清理數(shù)據(jù),顧名思義,就是將數(shù)據(jù)清理(整理一下).....好像是廢話(huà)。
在上一步后,我們現(xiàn)在得到的數(shù)據(jù)已經(jīng)全部是數(shù)值化的特征了,(這里肯定有但是的),但是,這樣的數(shù)據(jù)直接拿過(guò)來(lái)訓(xùn)練效果還是會(huì)很糟糕,因?yàn)槠渲写嬖谠S許多多的壞數(shù)據(jù),就是一些值不是那么正常的數(shù)據(jù),像之前說(shuō)的那種數(shù)值特別大的就屬于這一種,當(dāng)然除了數(shù)值異常的還有許許多多種的壞數(shù)據(jù),下面就來(lái)看一看有哪些方法對(duì)付這些妖艷賤貨

縮放特征值

縮放是指將浮點(diǎn)特征值從自然范圍(例如 100 到 900)轉(zhuǎn)換為標(biāo)準(zhǔn)范圍(例如 0 到 1 或 -1 到 +1)。如果某個(gè)特征集只包含一個(gè)特征,則縮放可以提供的實(shí)際好處微乎其微或根本沒(méi)有。不過(guò),如果特征集包含多個(gè)特征,則縮放特征可以帶來(lái)以下優(yōu)勢(shì):

幫助梯度下降法更快速地收斂(各個(gè)特征數(shù)值小,這樣算的跨的步子大呀)。

幫助避免“NaN 陷阱”。當(dāng)某個(gè)值在訓(xùn)練期間超出浮點(diǎn)精確率限制時(shí),數(shù)值會(huì)變成NaN,并且模型中的所有其他數(shù)值最終也會(huì)因數(shù)學(xué)運(yùn)算而變成 NaN。( NaN)

_NaN_,是Not a Number的縮寫(xiě),在IEEE浮點(diǎn)數(shù)算術(shù)標(biāo)準(zhǔn)(IEEE 754)中定義,表示一些特殊數(shù)值(無(wú)窮與非數(shù)值(_NaN_)),為許多CPU與浮點(diǎn)運(yùn)算器所采用。

幫助模型為每個(gè)特征確定合適的權(quán)重。如果沒(méi)有進(jìn)行特征縮放,則模型會(huì)對(duì)范圍較大的特征投入過(guò)多精力。(因?yàn)槿绻渌奶卣鞣秶^(guò)大,模型在訓(xùn)練的時(shí)候會(huì)認(rèn)為此種模型的權(quán)值大,進(jìn)而影響模型的判斷)

由上可知,我們并不需要對(duì)每個(gè)浮點(diǎn)特征進(jìn)行完全相同的縮放。即使特征 A 的范圍是 -1 到 +1,同時(shí)特征 B 的范圍是 -3 到 +3,也不會(huì)產(chǎn)生什么惡劣的影響。不過(guò),如果特征 B 的范圍是 5000 到 100000,您的模型會(huì)出現(xiàn)糟糕的響應(yīng)。

要縮放數(shù)字?jǐn)?shù)據(jù),一種顯而易見(jiàn)的方法是將 [最小值,最大值] 以線性方式映射到較小的范圍,例如 [-1,+1]。
另一種熱門(mén)的縮放策略是計(jì)算每個(gè)值的 Z 得分。Z 得分與距離均值的標(biāo)準(zhǔn)偏差數(shù)相關(guān)。換而言之:
scaledvalue=(value?mean)/stddev.
例如,給定以下條件:
*   均值 = 100
*   標(biāo)準(zhǔn)偏差 = 20
*   原始值 = 130
則:
  scaled_value = (130 - 100) / 20
  scaled_value = 1.5
使用 Z 得分進(jìn)行縮放意味著,大多數(shù)縮放后的值將介于 -3 和 +3 之間,而少量值將略高于或低于該范圍。

處理極端離群值

還是舉加利福尼亞州住房數(shù)據(jù)集中的人均住房數(shù)的例子,有的極端值達(dá)到了50
對(duì)于這些極端值其實(shí)很好處理,無(wú)非幾個(gè)辦法

對(duì)數(shù)縮放

特征值限制到 某個(gè)上限或者下限

分箱

分箱其實(shí)是一個(gè)形象化的說(shuō)法,就是把數(shù)據(jù)分開(kāi)來(lái),裝在一個(gè)個(gè)箱子里,這樣一個(gè)箱子里的數(shù)據(jù)就是一家人了。
那有什么用呢?下面就舉個(gè)栗子!

在數(shù)據(jù)集中,latitude 是一個(gè)浮點(diǎn)值(因?yàn)槭前凑找黄瑓^(qū)域統(tǒng)計(jì)的,所以緯度肯的增長(zhǎng)肯定是線性的了)。不過(guò),在我們的模型中將 latitude 表示為浮點(diǎn)特征(將其看為一個(gè)浮點(diǎn)數(shù),以它的數(shù)值大小為特征)沒(méi)有意義。這是因?yàn)榫暥群头课輧r(jià)值之間不存在線性關(guān)系(并不是那種緯度高房?jī)r(jià)就高)。例如,緯度 35 處的房屋并不比緯度 34 處的房屋貴 35/34(或更便宜)。但是,緯度或許能很好地預(yù)測(cè)房屋價(jià)值(在訓(xùn)練之前,我們也不知道能不能呢,但是從之前的散點(diǎn)圖可以看出來(lái),房?jī)r(jià)和位置的分布好像是有關(guān)系的,所以我們把緯度也作為特征),因?yàn)椴皇浅示€性的關(guān)系了,所以把它作為分類(lèi)特征會(huì)更好。(如果無(wú)法理解的話(huà),就好好想想模型會(huì)怎么處理數(shù)值數(shù)據(jù)和分類(lèi)數(shù)據(jù)),所以接下來(lái)我們將其分箱處理,如下圖。

我們現(xiàn)在擁有 11 個(gè)不同的布爾值特征(LatitudeBin1、LatitudeBin2、…、LatitudeBin11),而不是一個(gè)浮點(diǎn)特征。擁有 11 個(gè)不同的特征有點(diǎn)不方便,因此我們將它們統(tǒng)一成一個(gè) 11 元素矢量。這樣做之后,我們可以將緯度 37.4 表示為:

[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]

分箱之后,我們的模型現(xiàn)在可以為每個(gè)緯度學(xué)習(xí)完全不同的權(quán)重。(是不是覺(jué)得有點(diǎn)像獨(dú)熱編碼,沒(méi)錯(cuò),就是的)

為了簡(jiǎn)單起見(jiàn),我們?cè)诰暥葮颖局惺褂谜麛?shù)作為分箱邊界。如果我們需要更精細(xì)的解決方案,我們可以每隔 1/10 個(gè)緯度拆分一次分箱邊界。添加更多箱可讓模型從緯度 37.4 處學(xué)習(xí)和維度 37.5 處不一樣的行為,但前提是每 1/10 個(gè)緯度均有充足的樣本可供學(xué)習(xí)。

另一種方法是按分位數(shù)分箱,這種方法可以確保每個(gè)桶內(nèi)的樣本數(shù)量是相等的。按分位數(shù)分箱完全無(wú)需擔(dān)心離群值。

清查

截至目前,我們假定用于訓(xùn)練和測(cè)試的所有數(shù)據(jù)都是值得信賴(lài)的。在現(xiàn)實(shí)生活中,數(shù)據(jù)集中的很多樣本是不可靠的,原因有以下一種或多種:

遺漏值。 例如,有人忘記為某個(gè)房屋的年齡輸入值。(值會(huì)為-1,所以要分為兩個(gè)特征,忘了的看上面)

重復(fù)樣本。 例如,服務(wù)器錯(cuò)誤地將同一條記錄上傳了兩次。

不良標(biāo)簽。 例如,有人錯(cuò)誤地將一顆橡樹(shù)的圖片標(biāo)記為楓樹(shù)。

不良特征值。 例如,有人輸入了多余的位數(shù),或者溫度計(jì)被遺落在太陽(yáng)底下。

一旦檢測(cè)到存在這些問(wèn)題,通常需要將相應(yīng)樣本從數(shù)據(jù)集中移除,從而“修正”不良樣本。要檢測(cè)遺漏值或重復(fù)樣本,可以編寫(xiě)一個(gè)簡(jiǎn)單的程序。檢測(cè)不良特征值或標(biāo)簽可能會(huì)比較棘手。

除了檢測(cè)各個(gè)不良樣本之外,還必須檢測(cè)集合中的不良數(shù)據(jù)。直方圖是一種用于可視化集合中數(shù)據(jù)的很好機(jī)制。此外,收集如下統(tǒng)計(jì)信息也會(huì)有所幫助:

最大值和最小值

均值和中間值

標(biāo)準(zhǔn)偏差

考慮生成離散特征的最常見(jiàn)值列表,靠常識(shí)來(lái)判斷是否合理,是否適合自己觀察數(shù)據(jù)

了解數(shù)據(jù)

遵循以下規(guī)則:

記住您預(yù)期的數(shù)據(jù)狀態(tài)。

確認(rèn)數(shù)據(jù)是否滿(mǎn)足這些預(yù)期(或者您可以解釋為何數(shù)據(jù)不滿(mǎn)足預(yù)期)。

仔細(xì)檢查訓(xùn)練數(shù)據(jù)是否與其他來(lái)源(例如信息中心)的數(shù)據(jù)一致。

像處理任何任務(wù)關(guān)鍵型代碼一樣謹(jǐn)慎處理您的數(shù)據(jù)。良好的機(jī)器學(xué)習(xí)依賴(lài)于良好的數(shù)據(jù)。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/44676.html

相關(guān)文章

  • Python辦公系統(tǒng)批量編輯文檔完成實(shí)例

      此篇文章主要是給大家介紹了Python辦公系統(tǒng)批量編輯文檔完成實(shí)例詳細(xì)說(shuō)明,感興趣的小伙伴可以參考借鑒一下,希望可以有一定的幫助,祝愿大家多多的發(fā)展,盡早工作上得到晉升。  前言  說(shuō)起在工作上最讓人頭大的便是用這樣的方法解決一大堆文件夾中文檔,這其實(shí)并不難,但是卻繁。因此當(dāng)遇到腳踏式的操作過(guò)程中一定要注意應(yīng)用Python來(lái)有效懶惰!這次我會(huì)以解決微博熱搜榜數(shù)據(jù)信息來(lái)實(shí)例怎么使用Python批...

    89542767 評(píng)論0 收藏0
  • Python Sklearn中19個(gè)實(shí)用隱藏功能詳解

      小編寫(xiě)這篇文章的主要目的,主要是用來(lái)給大家解釋?zhuān)琍ython Sklearn當(dāng)中,一些實(shí)用的隱藏功能,大概有19條,這些實(shí)用的隱藏技能,會(huì)給我們的工作和生活帶來(lái)很大的便利性,具體下文就給大家詳細(xì)的介紹一下。  今天跟大家介紹19個(gè)Sklearn中超級(jí)實(shí)用的隱藏的功能,這些功能雖然不常見(jiàn),但非常實(shí)用,它們可以直接優(yōu)雅地替代手動(dòng)執(zhí)行的常見(jiàn)操作。接下來(lái)我們就一個(gè)一個(gè)介紹這些功能,希望對(duì)大家有所幫助!...

    89542767 評(píng)論0 收藏0
  • CUBECLOUD:6周年&新品發(fā)布,5折優(yōu)惠,洛杉磯強(qiáng)制三網(wǎng)ASCU4837回程,

    摘要:經(jīng)過(guò)長(zhǎng)久的內(nèi)部測(cè)試,現(xiàn)已經(jīng)上線洛杉磯的第二個(gè)云基礎(chǔ)設(shè)施可用區(qū),洛杉磯標(biāo)簽線路下的日志線路,與洛杉磯第一個(gè)可用區(qū)一樣,增加了硬件設(shè)備清洗,且基礎(chǔ)版清洗服務(wù)默認(rèn)開(kāi)通,供您免費(fèi)使用。CUBECLOUD怎么樣,CUBECLOUD好不好,CUBECLOUD(魔方云)成立于2016年,亞太互聯(lián)網(wǎng)絡(luò)信息中心(APNIC)會(huì)員,全線產(chǎn)品均為完全自營(yíng),專(zhuān)業(yè)數(shù)據(jù)災(zāi)備冗余,全部產(chǎn)品均為SSD陣列,精品網(wǎng)絡(luò)CN2(...

    lordharrd 評(píng)論0 收藏0
  • UDDoS高防-棗莊正式上線

    摘要:為了滿(mǎn)足越來(lái)越多防護(hù)業(yè)務(wù)量的需求,因此內(nèi)地高防在棗莊擴(kuò)增了一個(gè)高防機(jī)房,現(xiàn)棗莊高防機(jī)房已上線使用,可以用于為大陸地區(qū)提供業(yè)務(wù)覆蓋的用戶(hù)保駕護(hù)航。產(chǎn)品特點(diǎn)棗莊高防即為我們的內(nèi)地高防產(chǎn)品,功能和性能和內(nèi)地高防保持一致。為了滿(mǎn)足越來(lái)越多DDoS防護(hù)業(yè)務(wù)量的需求,因此內(nèi)地高防在棗莊擴(kuò)增了一個(gè)高防機(jī)房,現(xiàn)棗莊高防機(jī)房已上線使用,可以用于為大陸地區(qū)提供業(yè)務(wù)覆蓋的用戶(hù)保駕護(hù)航?!井a(chǎn)品特點(diǎn)】棗莊高防即為我們...

    ernest.wang 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<