成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

python爬蟲爬取github所有follwers初級版

stormgens / 2280人閱讀

摘要:按照同樣的方式扒取所有的自己的用戶。但是為了尊重人家隱私權,好吧,就這樣吧,我也不能做啥。

這幾天我很焦慮,受不了那些先follow我,等我follow回去后又unfollow的人,因為是他們先follow我的,我出于人道主義想著互粉一下的,結果這么對我,太不厚道了。github又不像微博那樣有互粉標志,這真的整得我很心煩,于是想著寫一個爬蟲,把這些“壞人”揪出來~
第一步,當然是放出代碼啦,代碼放在我的github上,歡迎給star:

https://github.com/laurel-he/...

我是一個python初學者,完全小白,所以只能用比較蠢的方法來扒,以下是我的步驟:
1 扒取整個頁面

# -*- coding:UTF-8 -*-
import requests
if __name__ == "__main__":
target = "https://github.com/laurel-he?tab=followers"
req = requests.get(url=target)
fo = open("1.txt", "ab+")        
fo.write((req.text).encode("UTF-8"))  
fo.close()    

以上代碼可以將整個文件的html扒取下來,接下來找到用戶,在follower里面隨便找到一個用戶,在剛才生成的txt文件中搜索,然后就可以得到如下匹配:

data-octo-dimensions="link_type:self".href="/(.?)"

可以直接匹配出用戶名。
2 根據正則獲取匹配的用戶
剛才已經把整個頁面扒取下來了,代碼放在spider/follwers/url.py,txt文件效果如下:

但是我想要獲取的是所有follwer,之前已經得到了對應的正則表達式,那么得到所有的follwer很容易,最終代碼如下:

# -*- coding:UTF-8 -*-
import requests
import re
if __name__ == "__main__":
target = "https://github.com/laurel-he?tab=followers"
req = requests.get(url=target)
context = req.text
patt = re.compile(r"data-octo-dimensions="link_type:self".*href="/(.*?)"")
ch = patt.findall(req.text)
fo = open("flower.txt","ab+")
for i in ch:
    line = str(i) + "
"
    fo.write((line).encode("UTF-8")+b"
")
fo.close

以上代碼可以直接扒取所有follwers,但是出現了兩遍,因為我這個表達式每個名字會匹配到兩次,下一版本會更換正則表達式,先將就用吧,然后如法炮制扒取第二頁第三頁,只需要更改鏈接地址,加上page就可以,同時也可以把文件寫入方式變成追加方式,或者干脆每次都新建一個文件,無所謂,總之最終將所有用戶扒取下來。按照同樣的方式扒取所有的自己follwing的用戶。
這里注意的是,代碼里一定要加上換行!換行符不加就是一團亂麻,啥也看不清。
換行符添加后不成功的話試試加上"r",也許就能成功了;
還是不成功的話看看報錯是不是這個樣子滴:

是的話加上b方法,轉化成byte~
3 接下來是最傻最騷的操作-對比
想要找出來那個沒有follow自己的人,只能進行對比,我目前用了一個很傻的辦法就是新建一個excel文件,按照列粘貼所有數據,然后按照升序或降序排行(兩列排列方式要一樣),然后肉眼來對比?。?!

其實我還是覺得我要瞎了,但是真的比起一個個看好多了,以后繼續(xù)想更好的辦法,總之我是揪出來那個壞人了。。。但是為了尊重人家隱私權,好吧,就這樣吧,我也不能做啥。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://systransis.cn/yun/41911.html

相關文章

  • 爬蟲初級操作(二)

    摘要:本篇內容為網絡爬蟲初級操作的簡單介紹,內容主要有以下部分解析網頁數據庫解析網頁一般來說,解析網頁有三種方式正則表達式。關于,我們最后再來看一個實戰(zhàn)項目爬取北京二手房價格。代碼如下第頁這樣就成功爬取了安居客上前頁的北京二手房價格。 本篇內容為 python 網絡爬蟲初級操作的簡單介紹,內容主要有以下 2 部分: 解析網頁 數據庫 解析網頁 一般來說,解析網頁有三種方式:正則表達式、...

    崔曉明 評論0 收藏0
  • 爬蟲初級操作(二)

    摘要:本篇內容為網絡爬蟲初級操作的簡單介紹,內容主要有以下部分解析網頁數據庫解析網頁一般來說,解析網頁有三種方式正則表達式。關于,我們最后再來看一個實戰(zhàn)項目爬取北京二手房價格。代碼如下第頁這樣就成功爬取了安居客上前頁的北京二手房價格。 本篇內容為 python 網絡爬蟲初級操作的簡單介紹,內容主要有以下 2 部分: 解析網頁 數據庫 解析網頁 一般來說,解析網頁有三種方式:正則表達式、...

    callmewhy 評論0 收藏0
  • python

    Python裝飾器為什么難理解? 無論項目中還是面試都離不開裝飾器話題,裝飾器的強大在于它能夠在不修改原有業(yè)務邏輯的情況下對代碼進行擴展,權限校驗、用戶認證、日志記錄、性能測試、事務處理、緩存等都是裝飾器的絕佳應用場景,它能夠最大程度地對代碼進行復用。 但為什么初學者對裝飾器的理解如此困難,我認為本質上是對Py… Python 實現車牌定位及分割 作者用 Python 實現車牌定位及分割的實踐。 ...

    chenatu 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<