PYTHON PANDAS之數(shù)據(jù)重塑（Data Reshaping)

stefan 發(fā)布于2019-07-30 15:43 / 1500人閱讀

摘要：實際遇到的問題在文件當中或者數(shù)據(jù)庫當?shù)臄?shù)據(jù)通常以長格式或者堆疊格式存儲，特別是金融數(shù)據(jù)中出現(xiàn)的時間序列數(shù)據(jù)，例如那怎么才能變成以作為列名，同時日期為索引的呢特別需要對同時進行時間序列分析時，這個需求特別強烈。

實際遇到的問題：

在CSV文件當中或者數(shù)據(jù)庫當?shù)臄?shù)據(jù)通常以長格式或者（stacked)堆疊格式存儲，特別是金融數(shù)據(jù)中出現(xiàn)的時間序列數(shù)據(jù)，例如：

In [1]: df
Out[1]: 
         date variable     value
0  2000-01-03        A  0.469112
1  2000-01-04        A -0.282863
2  2000-01-05        A -1.509059
3  2000-01-03        B -1.135632
4  2000-01-04        B  1.212112
5  2000-01-05        B -0.173215
6  2000-01-03        C  0.119209
7  2000-01-04        C -1.044236
8  2000-01-05        C -0.861849
9  2000-01-03        D -2.104569
10 2000-01-04        D -0.494929
11 2000-01-05        D  1.071804

那怎么才能變成以A,B,C,D作為列名，同時日期為索引的dataframe呢？特別需要對A,B,C,D同時進行時間序列分析時，這個需求特別強烈。

解決方案：
這里引出一個重要的概念，data reshaping,即數(shù)據(jù)重塑，

選出變量A的所有數(shù)據(jù)我們只需要如下操作，然后分別選出B,C,D，然后再再水平方向進行concat操作，這樣當然也可以得到指定的數(shù)據(jù)框，但這樣無疑編寫、執(zhí)行效率都有點低：

In [2]: df[df["variable"] == "A"]
Out[2]: 
        date variable     value
0 2000-01-03        A  0.469112
1 2000-01-04        A -0.282863
2 2000-01-05        A -1.509059

但是如果我們希望對變量進行時間序列操作，那么我們可能將需要將每個變量多帶帶作為一列來表示，因此需要使用pivot()函數(shù)對數(shù)據(jù)進行reshape操作：

In [3]: df.pivot(index="date", columns="variable", values="value")
Out[3]: 
variable           A         B         C         D
date                                              
2000-01-03  0.469112 -1.135632  0.119209 -2.104569
2000-01-04 -0.282863  1.212112 -1.044236 -0.494929
2000-01-05 -1.509059 -0.173215 -0.861849  1.071804

如果上述函數(shù)當中的values參數(shù)被省略，得到的dataframe就會有帶有層次化的列，列的頂層是帶每個值列的列名，假如我們現(xiàn)在有value1,value2兩列：

In [4]: df["value2"] = df["value"] * 2

In [5]: pivoted = df.pivot("date", "variable")

In [6]: pivoted
Out[6]: 
               value                                  value2            
variable           A         B         C         D         A         B   
date                                                                     
2000-01-03  0.469112 -1.135632  0.119209 -2.104569  0.938225 -2.271265   
2000-01-04 -0.282863  1.212112 -1.044236 -0.494929 -0.565727  2.424224   
2000-01-05 -1.509059 -0.173215 -0.861849  1.071804 -3.018117 -0.346429   

                                
variable           C         D  
date                            
2000-01-03  0.238417 -4.209138  
2000-01-04 -2.088472 -0.989859  
2000-01-05 -1.723698  2.143608

對于以上多層次列數(shù)據(jù)框，此時也可以只顯示value2這一列:

In [7]: pivoted["value2"]
Out[7]: 
variable           A         B         C         D
date                                              
2000-01-03  0.938225 -2.271265  0.238417 -4.209138
2000-01-04 -0.565727  2.424224 -2.088472 -0.989859
2000-01-05 -3.018117 -0.346429 -1.723698  2.143608

可見pivot()函數(shù)是一個非常實用的，用來實現(xiàn)數(shù)據(jù)重塑的方法。

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/41429.html

發(fā)表評論

登陸后可評論

0條評論

stefan

男|高級講師

我要關(guān)注我要私信

TA的文章

#yyds干貨盤點#vspherer快照導致磁盤文件丟失，通過快照文件恢復(fù)

閱讀 1840·2021-11-25 09:43
開課吧Python全棧工程師培養(yǎng)計劃

閱讀 1354·2021-11-22 15:08
Windows環(huán)境下使用Python設(shè)計應(yīng)用軟件——【6】pyqt通過勾選框選擇對TableWidg

閱讀 3765·2021-11-22 09:34
進入阿里做測試員遙不可及？這里或許有你想要的答案

閱讀 3240·2021-09-04 16:40
深度學習、機器學習畢業(yè)設(shè)計 - 選題建議

閱讀 3054·2021-09-04 16:40
【學習筆記】CSS深入理解之margin

閱讀 556·2019-08-30 15:54
WebSocket網(wǎng)絡(luò)通信協(xié)議

閱讀 1346·2019-08-29 17:19
純CSS實現(xiàn)頁簽切換效果

閱讀 1765·2019-08-28 18:13

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

PYTHON PANDAS之數(shù)據(jù)重塑（Data Reshaping)

相關(guān)文章

**【數(shù)據(jù)科學系統(tǒng)學習】Python # 數(shù)據(jù)分析基本操作[四] 數(shù)據(jù)規(guī)整化和數(shù)據(jù)聚合與分組運算**

Python 數(shù)據(jù)分析之 pandas 進階(二)

Pandas庫基礎(chǔ)分析——數(shù)據(jù)規(guī)整化處理

【數(shù)據(jù)科學系統(tǒng)學習】Python # 數(shù)據(jù)分析基本操作[二] pandas

Python 實現(xiàn)最小二乘法擬合直線

發(fā)表評論

0條評論

stefan

男|高級講師

TA的文章

#yyds干貨盤點#vspherer快照導致磁盤文件丟失，通過快照文件恢復(fù)

開課吧Python全棧工程師培養(yǎng)計劃

Windows環(huán)境下使用Python設(shè)計應(yīng)用軟件——【6】pyqt通過勾選框選擇對TableWidg

進入阿里做測試員遙不可及？這里或許有你想要的答案

深度學習、機器學習畢業(yè)設(shè)計 - 選題建議

【學習筆記】CSS深入理解之margin

WebSocket網(wǎng)絡(luò)通信協(xié)議

純CSS實現(xiàn)頁簽切換效果

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

PYTHON PANDAS之數(shù)據(jù)重塑（Data Reshaping)

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！