{eval=Array;=+count(Array);}
工具方面,seaborn是matplotlib的擴展和二次封裝,個人認為日常數(shù)據(jù)分析matplotlib完夠用了。
一般臟數(shù)據(jù)分析可以分為以下幾個步驟:
一.數(shù)據(jù)讀取:根據(jù)數(shù)據(jù)源文件的文件類型,可以使用pandas的read_csv、read_table、read_excel、read_sql、read_json、read_html、DataFrame來讀取。
二.查看數(shù)據(jù)信息:主要使用describe、info這兩個方法,也可以直接用pandas的繪圖功能可視化顯示數(shù)據(jù)。
三.處理異常和缺失的數(shù)據(jù):用到的方法主要有dropna、fillna,處理完異常和缺失數(shù)據(jù)后再可視化顯示出處理完的數(shù)據(jù)
四.如果是做機器學習或深度學習,還要再做一下歸一化處理。
五.數(shù)據(jù)處理完后再寫入到文件中,以備調(diào)用,我一般用to_csv方法來保存。
以下是我這自己處理的一段實例代碼:
0
回答0
回答0
回答0
回答0
回答2
回答0
回答0
回答0
回答0
回答