摘要:最近在學(xué)習(xí)用處理數(shù)據(jù),的易用性真的讓人很爽,想找點數(shù)據(jù)玩一下,同事說上的數(shù)據(jù)很多,值得玩耍。初步分析排除數(shù)值列,對字符串列進(jìn)行分析,可以知道數(shù)據(jù)值類型數(shù)量最多類型。如果想更精細(xì)的控制圖的顯示,建議直接使用,當(dāng)然的函數(shù)最終也是直接調(diào)用。
最近在學(xué)習(xí)用pandas處理數(shù)據(jù),pandas的易用性真的讓人很爽,想找點數(shù)據(jù)玩一下,同事說kaggle上的數(shù)據(jù)很多,值得玩耍。
數(shù)據(jù)我處理的數(shù)據(jù)是從kaggle數(shù)據(jù)分析競賽網(wǎng)站下載的舊金山的分類犯罪數(shù)據(jù)-點此下載。
如下圖所示,數(shù)據(jù)共有九列,X、Y是GPS坐標(biāo),其它都是字符串,沒法用describe直接看概要。
排除數(shù)值列,對字符串列進(jìn)行descirbe分析,可以知道 數(shù)據(jù)值類型、數(shù)量最多類型。
PdDistrict Category DayOfWeek Resolution count 878049 878049 878049 878049 unique 10 39 7 17 top SOUTHERN LARCENY/THEFT Friday NONE freq 157182 174900 133734 526790
其后逐列按類型查看類型對應(yīng)數(shù)量。
如按警區(qū)查看 print(df["PdDistrict"].value_counts())
SOUTHERN 157182 MISSION 119908 NORTHERN 105296 BAYVIEW 89431 CENTRAL 85460 TENDERLOIN 81809 INGLESIDE 78845 TARAVAL 65596 PARK 49313 RICHMOND 45209 Name: PdDistrict, dtype: int64可視化
很多人對數(shù)字并不敏感,有圖會提高對數(shù)據(jù)對理解。pandas自帶的plot函數(shù)可以快速的將dataframe圖形化。
默認(rèn)是線狀走勢圖,下面是按類型對警情進(jìn)行分析。
不夠直觀,并且橫坐標(biāo)有重復(fù),使用直方圖形式,以橫向的方式將類型顯示完全。在控制坐標(biāo)旋轉(zhuǎn)的時候,我發(fā)現(xiàn)這個plot函數(shù)有不少bug,控制起來也很不方便。如果想更精細(xì)的控制圖的顯示,建議直接使用matplotlib,當(dāng)然dataframe的plot函數(shù)最終也是直接調(diào)用matplotlib。
category.plot(figsize=(26, 10), title=u"犯罪類型統(tǒng)計", rot=0, kind="barh", legend=True)
由于我是用pycharm來玩的,所以如果我不加plt.show,plot顯示不出來。所以我最終還是得導(dǎo)入matplotlib。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37751.html
摘要:按類型去分析數(shù)據(jù)并沒有得到規(guī)律性的東西。我們再來看看元數(shù)據(jù)。按年月日格式化時間,按進(jìn)行分類,我們得到每日發(fā)生的案件統(tǒng)計走勢圖。按警區(qū)劃分案件,然后統(tǒng)計每個警區(qū)的案件走勢。如類型但案件時逐年降低的。 還是有點懶,本應(yīng)早點寫第二集。按類型去分析數(shù)據(jù)并沒有得到規(guī)律性的東西。我們再來看看元數(shù)據(jù)。Dates是案件發(fā)生的時間,案件是否具有時間規(guī)律,隨著時間在增長或者減少呢?showImg(http...
摘要:訓(xùn)練集是用來訓(xùn)練你的機(jī)器學(xué)習(xí)模型的。但機(jī)器學(xué)習(xí),你也要教它一些事實,比如長得像圖片的就是狗,長得像圖片的就是貓。好了,這樣我們整體的一個機(jī)器學(xué)習(xí)的簡單項目就完成,但我們還是要看一下效果。 最近寫了Kaggle的一個playground項目——預(yù)測科比投籃是否命中https://www.kaggle.com/c/kobe...,主要使用python的pandas和sklearn包。 這里...
摘要:去吧,參加一個在上正在舉辦的實時比賽吧試試你所學(xué)到的全部知識微軟雅黑深度學(xué)習(xí)終于看到這個,興奮吧現(xiàn)在,你已經(jīng)學(xué)到了絕大多數(shù)關(guān)于機(jī)器學(xué)習(xí)的技術(shù),是時候試試深度學(xué)習(xí)了。微軟雅黑對于深度學(xué)習(xí),我也是個新手,就請把這些建議當(dāng)作參考吧。 如果你想做一個數(shù)據(jù)科學(xué)家,或者作為一個數(shù)據(jù)科學(xué)家你想擴(kuò)展自己的工具和知識庫,那么,你來對地方了。這篇文章的目的,是給剛開始使用Python進(jìn)行數(shù)據(jù)分析的人,指明一條全...
showImg(https://segmentfault.com/img/bVbkB4E?w=800&h=400); 背景 關(guān)于 Kaggle https://www.kaggle.com/ 這是一個為你提供完美數(shù)據(jù),為你提供實際應(yīng)用場景,可以與小伙伴在數(shù)據(jù)挖掘領(lǐng)域 high 的不要不要的的地方?。。?! Kaggle 是一個用來學(xué)習(xí)、分享和競賽的線上數(shù)據(jù)實驗平臺,有點類似 KDD—CUP(國際...
閱讀 3397·2023-04-25 14:07
閱讀 3466·2021-09-28 09:35
閱讀 2097·2019-08-30 15:55
閱讀 1412·2019-08-30 13:48
閱讀 2505·2019-08-30 13:16
閱讀 3206·2019-08-30 12:54
閱讀 3241·2019-08-30 11:19
閱讀 1881·2019-08-29 17:17