對pandas進(jìn)行數(shù)據(jù)預(yù)處理的實(shí)例講解

psychola 發(fā)布于2019-07-31 10:09 / 1319人閱讀

摘要：引入包和加載數(shù)據(jù)清洗數(shù)據(jù)查看數(shù)據(jù)維度以及類型缺失值處理查看數(shù)據(jù)統(tǒng)計(jì)信息數(shù)值屬性離散化計(jì)算特征與屬性之間關(guān)系查看數(shù)據(jù)維度以及類型查看前五條數(shù)據(jù)查看每列數(shù)據(jù)類型以及情況獲得所有屬性查看數(shù)據(jù)統(tǒng)計(jì)信息查看連續(xù)數(shù)值屬性基本統(tǒng)計(jì)情況查看屬性數(shù)據(jù)統(tǒng)計(jì)情況

引入包和加載數(shù)據(jù)

1
2
3
4
5
import pandas as pd
import numpy as np
train_df =pd.read_csv("../datas/train.csv") # train set
test_df = pd.read_csv("../datas/test.csv") # test set
combine = [train_df, test_df]

清洗數(shù)據(jù)

查看數(shù)據(jù)維度以及類型
缺失值處理
查看object數(shù)據(jù)統(tǒng)計(jì)信息
數(shù)值屬性離散化
計(jì)算特征與target屬性之間關(guān)系

查看數(shù)據(jù)維度以及類型

1
2
3
4
5
6

查看前五條數(shù)據(jù)

print train_df.head(5)

查看每列數(shù)據(jù)類型以及nan情況

print train_df.info()

獲得所有object屬性

print train_data.describe(include=["O"]).columns
查看object數(shù)據(jù)統(tǒng)計(jì)信息
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98

查看連續(xù)數(shù)值屬性基本統(tǒng)計(jì)情況

print train_df.describe()

查看object屬性數(shù)據(jù)統(tǒng)計(jì)情況

print train_df.describe(include=["O"])

統(tǒng)計(jì)Title單列各個(gè)元素對應(yīng)的個(gè)數(shù)

print train_df["Title"].value_counts()

屬性列刪除

train_df = train_df.drop(["Name", "PassengerId"], axis=1)
缺失值處理

直接丟棄缺失數(shù)據(jù)列的行

print df4.dropna(axis=0,subset=["col1"]) # 丟棄nan的行,subset指定查看哪幾列
print df4.dropna(axis=1) # 丟棄nan的列

采用其他值填充

dataset["Cabin"] = dataset["Cabin"].fillna("U")
dataset["Title"] = dataset["Title"].fillna(0)

采用出現(xiàn)最頻繁的值填充

freq_port = train_df.Embarked.dropna().mode()[0]
dataset["Embarked"] = dataset["Embarked"].fillna(freq_port)

采用中位數(shù)或者平均數(shù)填充

test_df["Fare"].fillna(test_df["Fare"].dropna().median(), inplace=True)
test_df["Fare"].fillna(test_df["Fare"].dropna().mean(), inplace=True)
數(shù)值屬性離散化，object屬性數(shù)值化

創(chuàng)造一個(gè)新列，F(xiàn)areBand，將連續(xù)屬性Fare切分成四份

train_df["FareBand"] = pd.qcut(train_df["Fare"], 4)

查看切分后的屬性與target屬性Survive的關(guān)系

train_df[["FareBand", "Survived"]].groupby(["FareBand"], as_index=False).mean().sort_values(by="FareBand", ascending=True)

建立object屬性映射字典

title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Royalty":5, "Officer": 6}
dataset["Title"] = dataset["Title"].map(title_mapping)
計(jì)算特征與target屬性之間關(guān)系
object與連續(xù)target屬性之間，可以groupby均值
object與離散target屬性之間，先將target數(shù)值化，然后groupby均值，或者分別條形統(tǒng)計(jì)圖
連續(xù)屬性需要先切割然后再進(jìn)行g(shù)roupby計(jì)算，或者pearson相關(guān)系數(shù)
print train_df[["AgeBand", "Survived"]].groupby(["AgeBand"], as_index=False).mean().sort_values(by="AgeBand", ascending=True)
總結(jié)pandas基本操作
”"
創(chuàng)建df對象
””"
s1 = pd.Series([1,2,3,np.nan,4,5])
s2 = pd.Series([np.nan,1,2,3,4,5])
print s1
dates = pd.date_range(“20130101”,periods=6)
print dates
df = pd.DataFrame(np.random.rand(6,4),index=dates,columns=list(“ABCD”))

print df

df2 = pd.DataFrame({“A”:1,
‘B":pd.Timestamp(‘20130102"),
‘C":pd.Series(1,index=list(range(4)),dtype="float32"),
‘D":np.array([3]*4,dtype=np.int32),
‘E":pd.Categorical([‘test","train","test","train"]),
‘F":"foo"
})

print df2.dtypes

df3 = pd.DataFrame({"col1":s1,

 "col2":s2

})
print df3
"""
2.查看df數(shù)據(jù)
"""
print df3.head(2) #查看頭幾條
print df3.tail(3) #查看尾幾條
print df.index #查看索引
print df.info() #查看非non數(shù)據(jù)條數(shù)
print type(df.values) #返回二元數(shù)組

print df3.values

print df.describe() #對每列數(shù)據(jù)進(jìn)行初步的統(tǒng)計(jì)
print df3
print df3.sort_values(by=["col1"],axis=0,ascending=True) #按照哪幾列排序
"""
3.選擇數(shù)據(jù)
"""
ser_1 = df3["col1"]
print type(ser_1) #pandas.core.series.Series
print df3[0:2] #前三行
print df3.loc[df3.index[0]] #通過index來訪問
print df3.loc[df3.index[0],["col2"]] #通過行index，和列名來唯一確定一個(gè)位置
print df3.iloc[1] #通過位置來訪問
print df3.iloc[[1,2],1:2] #通過位置來訪問
print "==="
print df3.loc[:,["col1","col2"]].as_matrix() # 返回nunpy二元數(shù)組
print type(df3.loc[:,["col1","col2"]].as_matrix())
"""
4.布爾索引，過濾數(shù)據(jù)
"""
print df3[df3.col1 >2]
df4 = df3.copy()
df4["col3"]=pd.Series(["one","two","two","three","one","two"])
print df4
print df4[df4["col3"].isin(["one","two"])]
df4.loc[:,"col3"]="five"
print df4
"""
5.缺失值處理，pandas將缺失值用nan代替
"""
print pd.isnull(df4)
print df4.dropna(axis=0,subset=["col1"]) # 丟棄nan的行,subset指定查看哪幾列
print df4.dropna(axis=1) # 丟棄nan的列

GPU云服務(wù)器云服務(wù)器 js對json數(shù)據(jù)的處理對數(shù)據(jù)進(jìn)行分析對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)排行如何對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/43330.html

發(fā)表評論

登陸后可評論

0條評論

psychola

男|高級講師

我要關(guān)注我要私信

TA的文章

關(guān)于 RocketMQ ClientID 相同引發(fā)的消息堆積的問題

閱讀 1202·2021-11-24 09:38
RackNerd：美國vps，洛杉磯紐約機(jī)房，4核/8GB/100G SSD/5TB流量，$89/年

閱讀 2608·2021-09-27 14:00
針對前端在百度瀏覽器總的固定定位的問題

閱讀 1166·2019-08-30 15:55
編寫靈活、穩(wěn)定、高質(zhì)量的CSS代碼的規(guī)范

閱讀 1344·2019-08-30 14:16
前端培訓(xùn)-初級階段-場景實(shí)戰(zhàn)（2019-05-23）-移動(dòng)端適配bug

閱讀 1495·2019-08-30 10:54
css3 背景漸變

閱讀 2869·2019-08-28 17:58
自己動(dòng)手實(shí)現(xiàn)一個(gè)前端路由

閱讀 762·2019-08-26 13:22
JavaScript-簡單及復(fù)雜數(shù)據(jù)類型詳解

閱讀 1238·2019-08-26 12:01

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

對pandas進(jìn)行數(shù)據(jù)預(yù)處理的實(shí)例講解

相關(guān)文章

我是如何入門機(jī)器學(xué)習(xí)的呢

**Python Pandas中l(wèi)oc和iloc函數(shù)的基本用法講解**

發(fā)表評論

0條評論

psychola

男|高級講師

TA的文章

關(guān)于 RocketMQ ClientID 相同引發(fā)的消息堆積的問題

RackNerd：美國vps，洛杉磯紐約機(jī)房，4核/8GB/100G SSD/5TB流量，$89/年

針對前端在百度瀏覽器總的固定定位的問題

編寫靈活、穩(wěn)定、高質(zhì)量的CSS代碼的規(guī)范

前端培訓(xùn)-初級階段-場景實(shí)戰(zhàn)（2019-05-23）-移動(dòng)端適配bug

css3 背景漸變

自己動(dòng)手實(shí)現(xiàn)一個(gè)前端路由

JavaScript-簡單及復(fù)雜數(shù)據(jù)類型詳解

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

對pandas進(jìn)行數(shù)據(jù)預(yù)處理的實(shí)例講解

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！