成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

使用pandas玩kaggle數據(二)

Chiclaim / 2314人閱讀

摘要:按類型去分析數據并沒有得到規(guī)律性的東西。我們再來看看元數據。按年月日格式化時間,按進行分類,我們得到每日發(fā)生的案件統(tǒng)計走勢圖。按警區(qū)劃分案件,然后統(tǒng)計每個警區(qū)的案件走勢。如類型但案件時逐年降低的。

還是有點懶,本應早點寫第二集。按類型去分析數據并沒有得到規(guī)律性的東西。我們再來看看元數據。
Dates是案件發(fā)生的時間,案件是否具有時間規(guī)律,隨著時間在增長或者減少呢?

時間序列

基于這個思路,創(chuàng)建以時間為index的DataFrame,其中index選用數據中的"Dates"列作為index,為方便按時間操作,將"Dates"列轉換為DatetimeIndex類型。
按年月日格式化時間key,按key進行分類,我們得到每日發(fā)生的案件統(tǒng)計走勢圖。

# -*- coding: utf-8 -*-
__author__ = "longtaiye"


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#讀取數據
df = pd.read_csv("/Users/longtaiye/Documents/ml-learn/train.csv")

#設置pandas打印格式
pd.set_option("display.width", 300)

#以日期為index創(chuàng)建新的DataFrame
dateDF = pd.DataFrame(np.asarray(df), index=pd.to_datetime(df["Dates"]), columns=df.columns)

#按年月日統(tǒng)計案件發(fā)生規(guī)律
key1 = lambda x:x.strftime("%Y-%m-%d")
dateDF["Category"].groupby(key1).count().plot(figsize=(26, 10))

plt.show()

依照相同的方法可以得到時走勢、日走勢、月走勢、年走勢圖,從圖上看并沒有什么規(guī)律性。

時走勢圖

日走勢圖

月走勢圖

年走勢圖

和其它列結合分析

上面的分析表明,單純的時間趨勢并不存在,那么在限定其它因素情況下的時間走勢關系是否存在呢?
我們先從警區(qū)入手。按警區(qū)劃分案件,然后統(tǒng)計每個警區(qū)的案件走勢。

# -*- coding: utf-8 -*-
__author__ = "longtaiye"


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


df = pd.read_csv("/Users/longtaiye/Documents/ml-learn/train.csv")
pd.set_option("display.width", 300)

dateDF = pd.DataFrame(np.asarray(df), index=pd.to_datetime(df["Dates"]), columns=df.columns)

#按警區(qū)劃分
groups = dateDF.groupby("PdDistrict")

ii = 1
key = lambda x:x.strftime("%Y")
plt.figure(figsize=(20, 12))
for name, group in groups:
    subplot = plt.subplot(4, 4, ii)
    subplot.plot(group.groupby(key).count())
    plt.title(name)

    ii+=1

plt.show()

按警區(qū)按年的案件走勢

按星期幾按年的案件走勢

這兩張圖也并沒有太多的規(guī)律,但下面這張圖讓我們看到了一絲希望。如BAD CHECK類型但案件時逐年降低的。

按類型按年的案件走勢

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://systransis.cn/yun/37773.html

相關文章

  • 使用pandaskaggle數據(一)

    摘要:最近在學習用處理數據,的易用性真的讓人很爽,想找點數據玩一下,同事說上的數據很多,值得玩耍。初步分析排除數值列,對字符串列進行分析,可以知道數據值類型數量最多類型。如果想更精細的控制圖的顯示,建議直接使用,當然的函數最終也是直接調用。 最近在學習用pandas處理數據,pandas的易用性真的讓人很爽,想找點數據玩一下,同事說kaggle上的數據很多,值得玩耍。 數據 我處理的數據是從...

    tinylcy 評論0 收藏0
  • Kaggle案例——用python從進網站到獲得評測結果

    摘要:訓練集是用來訓練你的機器學習模型的。但機器學習,你也要教它一些事實,比如長得像圖片的就是狗,長得像圖片的就是貓。好了,這樣我們整體的一個機器學習的簡單項目就完成,但我們還是要看一下效果。 最近寫了Kaggle的一個playground項目——預測科比投籃是否命中https://www.kaggle.com/c/kobe...,主要使用python的pandas和sklearn包。 這里...

    Crazy_Coder 評論0 收藏0
  • 8步從Python白板到專家,從基礎到深度學習

    摘要:去吧,參加一個在上正在舉辦的實時比賽吧試試你所學到的全部知識微軟雅黑深度學習終于看到這個,興奮吧現在,你已經學到了絕大多數關于機器學習的技術,是時候試試深度學習了。微軟雅黑對于深度學習,我也是個新手,就請把這些建議當作參考吧。 如果你想做一個數據科學家,或者作為一個數據科學家你想擴展自己的工具和知識庫,那么,你來對地方了。這篇文章的目的,是給剛開始使用Python進行數據分析的人,指明一條全...

    Zachary 評論0 收藏0
  • 人工智障也刷題!Kaggle 入門之實戰(zhàn)泰坦尼克號

    showImg(https://segmentfault.com/img/bVbkB4E?w=800&h=400); 背景 關于 Kaggle https://www.kaggle.com/ 這是一個為你提供完美數據,為你提供實際應用場景,可以與小伙伴在數據挖掘領域 high 的不要不要的的地方?。。?! Kaggle 是一個用來學習、分享和競賽的線上數據實驗平臺,有點類似 KDD—CUP(國際...

    bergwhite 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<