數(shù)據(jù)預(yù)處理代碼分享——機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘

XFLY 發(fā)布于2019-07-30 17:49 / 2011人閱讀

摘要：數(shù)據(jù)預(yù)處理分為步第步導(dǎo)入和庫。數(shù)據(jù)可能因?yàn)楦鞣N原因丟失，為了不降低機(jī)器學(xué)習(xí)模型的性能，需要處理數(shù)據(jù)。代碼如下視頻教學(xué)群導(dǎo)入類庫導(dǎo)入數(shù)據(jù)集處理缺失的數(shù)據(jù)編碼分類數(shù)據(jù)切分?jǐn)?shù)據(jù)集成訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)特征縮放

數(shù)據(jù)預(yù)處理分為6步：

第1步：導(dǎo)入NumPy和Pandas庫。NumPy和Pandas是每次都要導(dǎo)入的庫，其中Numpy包含了數(shù)學(xué)計(jì)算函數(shù)，Pnadas是一個(gè)用于導(dǎo)入和管理數(shù)據(jù)集(Data Sets)的類庫。

第2步：導(dǎo)入數(shù)據(jù)集。數(shù)據(jù)集一般都是.csv格式，csv文件以文本形式存儲(chǔ)數(shù)據(jù)。每一行數(shù)據(jù)是一條記錄。我們使用pandas類庫的read_csv方法讀取本地的csv文件作為一個(gè)dataframe。然后從datafram中分別創(chuàng)建自變量和因變量的矩陣和向量。

第3步：處理缺失的數(shù)據(jù)。我們得到的數(shù)據(jù)很少是完整的。數(shù)據(jù)可能因?yàn)楦鞣N原因丟失，為了不降低機(jī)器學(xué)習(xí)模型的性能，需要處理數(shù)據(jù)。我們可以用整列的平均值或者中間值替換丟失的數(shù)據(jù)。我們用sklearn.preprocessing庫中的Inputer類完成這項(xiàng)任務(wù)。

第4步：對(duì)分類數(shù)據(jù)進(jìn)行編碼。分類數(shù)據(jù)指的是含有標(biāo)簽值而不是數(shù)字值得變量。取值范圍通常是固定的。例如“YES”和“NO”不能用于模型的數(shù)學(xué)計(jì)算，所以需要編碼成數(shù)字。為數(shù)顯這一功能，我們從sklearn.preprocessing庫中導(dǎo)入LabelEncoder類。

第5步：拆分?jǐn)?shù)據(jù)集為測(cè)試集合和訓(xùn)練集合。把數(shù)據(jù)集拆分成兩個(gè)，一個(gè)是用來訓(xùn)練模型的訓(xùn)練集合，另一個(gè)是用來驗(yàn)證模型的測(cè)試集合。兩種比例一般是80:20。我們導(dǎo)入sklearn.crossvalidation庫中的train_test_split()方法。

第6步：特征縮放。大部分模型算法使用兩點(diǎn)間的歐式近距離表示，但此特征在幅度、單位和范圍姿態(tài)問題上變化很大。在距離計(jì)算中，高幅度的特征比低幅度特征權(quán)重大?？捎锰卣鳂?biāo)準(zhǔn)化或Z值歸一化解決。導(dǎo)入sklearn.preprocessing庫的StandardScalar類。

代碼如下： 視頻教學(xué)QQ群 519970686

1 Step 1: 導(dǎo)入類庫
2
3 import numpy as np
4 import pandas as pd
5
6 Step 2: 導(dǎo)入數(shù)據(jù)集
7 dataset = pd.read_csv("Data.csv")
8 X = dataset.iloc[ : , :-1].values
9 Y = dataset.iloc[ : , 3].values
10
11 Step 3: 處理缺失的數(shù)據(jù)
12 from sklearn.preprocessing import Imputer
13 imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
14 imputer = imputer.fit(X[ : , 1:3])
15 X[ : , 1:3] = imputer.transform(X[ : , 1:3])
16
17 Step 4:編碼分類數(shù)據(jù)
18 from sklearn.preprocessing import LabelEncoder, OneHotEncoder
19 labelencoder_X = LabelEncoder()
20 X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])
21 Creating a dummy variable
22
23 onehotencoder = OneHotEncoder(categorical_features = [0])
24 X = onehotencoder.fit_transform(X).toarray()
25 labelencoder_Y = LabelEncoder()
26 Y = labelencoder_Y.fit_transform(Y)
27
28 Step 5: 切分?jǐn)?shù)據(jù)集成訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)
29 from sklearn.cross_validation import train_test_split
30 X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)
31
32 Step 6: 特征縮放
33 from sklearn.preprocessing import StandardScaler
34 sc_X = StandardScaler()
35 X_train = sc_X.fit_transform(X_train)
36 X_test = sc_X.fit_transform(X_test)

GPU云服務(wù)器云服務(wù)器機(jī)器學(xué)習(xí)數(shù)據(jù)預(yù)處理機(jī)器學(xué)習(xí)與數(shù)據(jù) 數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/42445.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

XFLY

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Linux環(huán)境基礎(chǔ)開發(fā)工具的使用

閱讀 1311·2021-11-22 09:34
SpinServers：美國(guó)服務(wù)器75折優(yōu)惠 $126/月起，圣何塞機(jī)房，亞洲優(yōu)化線路，10Gbps

閱讀 2173·2021-10-08 10:18
Python 常用小妙招（一）

閱讀 1736·2021-09-29 09:35
數(shù)據(jù)可視化之clay:設(shè)計(jì)思想和建立初衷

閱讀 2467·2019-08-29 17:20
webpack4.0打包總結(jié)

閱讀 2148·2019-08-29 15:36
CSS居中對(duì)齊

閱讀 3410·2019-08-29 13:52
Angular2入門系列（二）————環(huán)境搭建

閱讀 788·2019-08-29 12:29
CSS:hover選擇器

閱讀 1192·2019-08-28 18:10

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

數(shù)據(jù)預(yù)處理代碼分享——機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘

相關(guān)文章

**在開始第一個(gè)機(jī)器學(xué)習(xí)項(xiàng)目之前就了解的那些事兒**

**我是如何入門機(jī)器學(xué)習(xí)的呢**

發(fā)表評(píng)論

0條評(píng)論

XFLY

男|高級(jí)講師

TA的文章

Linux環(huán)境基礎(chǔ)開發(fā)工具的使用

SpinServers：美國(guó)服務(wù)器75折優(yōu)惠 $126/月起，圣何塞機(jī)房，亞洲優(yōu)化線路，10Gbps

Python 常用小妙招（一）

數(shù)據(jù)可視化之clay:設(shè)計(jì)思想和建立初衷

webpack4.0打包總結(jié)

CSS居中對(duì)齊

Angular2入門系列（二）————環(huán)境搭建

CSS:hover選擇器

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

數(shù)據(jù)預(yù)處理代碼分享——機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！