成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

如何使用python抓取issues.apache.org上的bug列表

jerryloveemily / 891人閱讀

摘要:問題描述開源在的項(xiàng)目中,通常我們會(huì)關(guān)心我們開源的項(xiàng)目中每天的數(shù)量最新的條問題,統(tǒng)計(jì)各模塊的數(shù)量,按照人名統(tǒng)計(jì)等工作。于是我想到用一個(gè)腳本每天定時(shí)運(yùn)行來解決數(shù)據(jù)的問題。

問題描述
開源在Apache的項(xiàng)目中,通常我們會(huì)關(guān)心我們開源的項(xiàng)目中每天bug的數(shù)量、最新的10條問題,統(tǒng)計(jì)各模塊的bug數(shù)量,按照人名統(tǒng)計(jì)等工作。但這些數(shù)據(jù)都在apache網(wǎng)站上,存在兩個(gè)問題,一個(gè)是國內(nèi)平常訪問Apache如果不走代理就會(huì)比較慢;二是數(shù)據(jù)沒辦法供內(nèi)部系統(tǒng)使用。

于是我想到用一個(gè)腳本每天定時(shí)運(yùn)行來解決數(shù)據(jù)的問題。通過腳本從Apache上把數(shù)據(jù)拉下來存儲(chǔ)在自己內(nèi)部數(shù)據(jù)庫中,基于本地?cái)?shù)據(jù)庫運(yùn)行的內(nèi)部系統(tǒng)可以完成各種圖表展示和數(shù)據(jù)統(tǒng)計(jì)的工作,這樣即提高了數(shù)據(jù)訪問的效率,也可以很好的和內(nèi)部系統(tǒng)結(jié)合完成自動(dòng)化的問題跟蹤和解決。同時(shí)還可以將外部系統(tǒng)和內(nèi)部bug跟蹤系統(tǒng)進(jìn)行對(duì)比,將重復(fù)的問題自動(dòng)化的補(bǔ)充答案。等等,優(yōu)點(diǎn)多多。

歡迎大家打開腦洞提出更多的方案!

1.使用說明
腳本依賴:

此腳本依賴于requests,各位點(diǎn)擊連接自取,安裝requests可能會(huì)依賴于pip,大家可以把python升級(jí)到2.7以上安裝pip,2.7以下用網(wǎng)上教程會(huì)報(bào)錯(cuò)。

腳本使用說明:

python SCRIPT_NAME FILE_NAME
SCRIPT_NAME:下面這段代碼所在的文件名
FILE_NAME: 將數(shù)據(jù)導(dǎo)入到的目標(biāo)文件名,后綴默認(rèn)為csv

示例:

python jira.py ~/dataFile

2.分享完整代碼

打開python的文件jira.py,內(nèi)容如下:

import requests
import sys
reload(sys)
##設(shè)置系統(tǒng)編碼,如果不是utf-8會(huì)有錯(cuò)誤
sys.setdefaultencoding("utf-8")

dataFileName=sys.argv[1]
jiraFileName=dataFileName+".csv"
print "Load from JIRA -------------------"
##load from JIRA
url = "https://issues.apache.org/jira/sr/jira.issueviews:searchrequest-csv-all-fields/temp/SearchRequest.csv?jqlQuery=project+%3D+TRAFODION+AND+resolution+%3D+Unresolved+ORDER+BY+priority+DESC%2C+updated+DESC"
r = requests.get(url)
with open(jiraFileName, "w") as f:
    f.write(r.text)
3.遇到的問題總結(jié)
1)操作系統(tǒng)中最初用的是python2.6的環(huán)境,結(jié)果安裝pip一直報(bào)錯(cuò),先是報(bào)沒有權(quán)限,這個(gè)只要用sudo可以解決;接下來是報(bào)一些語法錯(cuò)誤,如下圖:

2)系統(tǒng)編碼問題,不設(shè)置sys.setdefaultencoding("utf-8"),python腳本就會(huì)暴出編碼問題。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/42319.html

相關(guān)文章

  • 如何Python抓抖音上的小姐姐

    摘要:比如分鐘破譯朋友圈測試小游戲文章里用的方法但有些根本就沒有提供網(wǎng)頁端,比如今年火得不行的抖音。所以常用的方式就是通過在電腦上裝一些抓包軟件,將手機(jī)上的網(wǎng)絡(luò)請(qǐng)求全部顯示出來??偨Y(jié)下,重點(diǎn)是的抓取,關(guān)鍵是配置代理證書,難點(diǎn)是對(duì)請(qǐng)求的分析。 爬蟲的案例我們已講得太多。不過幾乎都是 網(wǎng)頁爬蟲 。即使有些手機(jī)才能訪問的網(wǎng)站,我們也可以通過 Chrome 開發(fā)者工具 的 手機(jī)模擬 功能來訪問,以便...

    FingerLiu 評(píng)論0 收藏0
  • 編寫爬蟲的一些感想(就是高興)

    摘要:如果有人有興趣的話,可以編寫則個(gè)下面,我會(huì)說明在編寫爬蟲過程中的所思所想。文章讀取完畢最后,還要再編寫一個(gè)語句,判斷是運(yùn)行還是導(dǎo)入。文章結(jié)束前的一些話嗯,本文到這里就結(jié)束了。 今天,根據(jù)網(wǎng)頁的結(jié)構(gòu),嘗試了下如何抓取煎蛋首頁上的文章。目標(biāo)很簡單: 根據(jù)首頁上面的文章鏈接,載入文章,而后將文章的標(biāo)題和正文(不帶圖片)抓取下來。 抓取首頁上面文章的鏈接,標(biāo)題,作者和所屬標(biāo)簽。 按標(biāo)題將文章...

    inapt 評(píng)論0 收藏0
  • 一鍵下載:將知乎專欄導(dǎo)出成電子書

    摘要:在知乎上,你一定關(guān)注了一些不錯(cuò)的專欄比如的編程教室。有需要的請(qǐng)?jiān)诠娞?hào)里回復(fù)爬蟲實(shí)戰(zhàn)源碼下載獲取知乎專欄下載器源碼,請(qǐng)?jiān)诠娞?hào)的編程教室里回復(fù)關(guān)鍵字知乎除了代碼外,本專欄打包好的也一并奉上,歡迎閱讀與分享。 老是有同學(xué)問,學(xué)了 Python 基礎(chǔ)后不知道可以做點(diǎn)什么來提高。今天就再用個(gè)小例子,給大家講講,通過 Python 和 爬蟲 ,可以完成怎樣的小工具。 在知乎上,你一定關(guān)注了...

    ivyzhang 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<