Day 1_Data PreProcessing

Kylin_Mountain 發(fā)布于2019-07-30 17:34 / 2307人閱讀

Data PreProcessing

As shown in the infograph we will break down data preprocessing in 6 essential steps.
Get the dataset from here that is used in this example

Step 1: Importing the libraries

import numpy as np
import pandas as pd

Step 2: Importing dataset

dataset = pd.read_csv("Data.csv")
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 3].values

Step 3: Handling the missing data

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

Step 4: Encoding categorical data

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

Creating a dummy variable

onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)

Step 5: Splitting the datasets into training sets and Test sets

from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

Step 6: Feature Scaling

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)

Done

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/42285.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Kylin_Mountain

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

linux系統(tǒng)之centos7系統(tǒng)重啟/查看/自動(dòng)啟動(dòng)SSH等操作命令

閱讀 2338·2021-09-26 10:21
一起用Python做個(gè)自動(dòng)化彈鋼琴腳本，我竟然彈出了《天空之城》！

閱讀 2824·2021-09-08 09:36
vue+elementUi 實(shí)現(xiàn)密碼顯示/隱藏+小圖標(biāo)變化（js一共三行代碼，其中一行為了美觀）

閱讀 3077·2019-08-30 15:56
FlexBox彈性盒子計(jì)算規(guī)則

閱讀 969·2019-08-30 12:57
小而美的顏色選擇器：xy-color-picker

閱讀 950·2019-08-26 10:39
POST 請(qǐng)求的三種常見數(shù)據(jù)提交格式

閱讀 3572·2019-08-23 18:11
3d中獲取對(duì)象包圍盒位置的常用方法

閱讀 3096·2019-08-23 17:12
騰訊地圖WebService API 和 CORB誤會(huì)

閱讀 1098·2019-08-23 12:18

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

Day 1_Data PreProcessing

相關(guān)文章

聚類分析——Kmeans

**100天搞定機(jī)器學(xué)習(xí)|Day1數(shù)據(jù)預(yù)處理**

機(jī)器學(xué)習(xí)之?dāng)?shù)據(jù)歸一化

發(fā)表評(píng)論

0條評(píng)論

Kylin_Mountain

男|高級(jí)講師

TA的文章

linux系統(tǒng)之centos7系統(tǒng)重啟/查看/自動(dòng)啟動(dòng)SSH等操作命令

一起用Python做個(gè)自動(dòng)化彈鋼琴腳本，我竟然彈出了《天空之城》！

vue+elementUi 實(shí)現(xiàn)密碼顯示/隱藏+小圖標(biāo)變化（js一共三行代碼，其中一行為了美觀）

FlexBox彈性盒子計(jì)算規(guī)則

小而美的顏色選擇器：xy-color-picker

POST 請(qǐng)求的三種常見數(shù)據(jù)提交格式

3d中獲取對(duì)象包圍盒位置的常用方法

騰訊地圖WebService API 和 CORB誤會(huì)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

Day 1_Data PreProcessing

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！