python爬蟲爬取github所有follwers初級版

stormgens 發(fā)布于2019-07-30 16:56 / 2280人閱讀

摘要：按照同樣的方式扒取所有的自己的用戶。但是為了尊重人家隱私權，好吧，就這樣吧，我也不能做啥。

這幾天我很焦慮，受不了那些先follow我，等我follow回去后又unfollow的人，因為是他們先follow我的，我出于人道主義想著互粉一下的，結果這么對我，太不厚道了。github又不像微博那樣有互粉標志，這真的整得我很心煩，于是想著寫一個爬蟲，把這些“壞人”揪出來~
第一步，當然是放出代碼啦，代碼放在我的github上，歡迎給star:

https://github.com/laurel-he/...

我是一個python初學者，完全小白，所以只能用比較蠢的方法來扒，以下是我的步驟：
1 扒取整個頁面

# -*- coding:UTF-8 -*-
import requests
if __name__ == "__main__":
target = "https://github.com/laurel-he?tab=followers"
req = requests.get(url=target)
fo = open("1.txt", "ab+")        
fo.write((req.text).encode("UTF-8"))  
fo.close()

以上代碼可以將整個文件的html扒取下來，接下來找到用戶，在follower里面隨便找到一個用戶，在剛才生成的txt文件中搜索，然后就可以得到如下匹配：

data-octo-dimensions="link_type:self".href="/(.?)"

可以直接匹配出用戶名。
2 根據正則獲取匹配的用戶
剛才已經把整個頁面扒取下來了，代碼放在spider/follwers/url.py，txt文件效果如下：

但是我想要獲取的是所有follwer，之前已經得到了對應的正則表達式，那么得到所有的follwer很容易，最終代碼如下：

# -*- coding:UTF-8 -*-
import requests
import re
if __name__ == "__main__":
target = "https://github.com/laurel-he?tab=followers"
req = requests.get(url=target)
context = req.text
patt = re.compile(r"data-octo-dimensions="link_type:self".*href="/(.*?)"")
ch = patt.findall(req.text)
fo = open("flower.txt","ab+")
for i in ch:
    line = str(i) + "
"
    fo.write((line).encode("UTF-8")+b"
")
fo.close

以上代碼可以直接扒取所有follwers，但是出現了兩遍，因為我這個表達式每個名字會匹配到兩次，下一版本會更換正則表達式，先將就用吧，然后如法炮制扒取第二頁第三頁，只需要更改鏈接地址，加上page就可以，同時也可以把文件寫入方式變成追加方式，或者干脆每次都新建一個文件，無所謂，總之最終將所有用戶扒取下來。按照同樣的方式扒取所有的自己follwing的用戶。
這里注意的是，代碼里一定要加上換行！換行符不加就是一團亂麻，啥也看不清。
換行符添加后不成功的話試試加上"r"，也許就能成功了；
還是不成功的話看看報錯是不是這個樣子滴：

是的話加上b方法，轉化成byte~
3 接下來是最傻最騷的操作-對比
想要找出來那個沒有follow自己的人，只能進行對比，我目前用了一個很傻的辦法就是新建一個excel文件，按照列粘貼所有數據，然后按照升序或降序排行（兩列排列方式要一樣），然后肉眼來對比?。?！

其實我還是覺得我要瞎了，但是真的比起一個個看好多了，以后繼續(xù)想更好的辦法，總之我是揪出來那個壞人了。。。但是為了尊重人家隱私權，好吧，就這樣吧，我也不能做啥。

云服務器 GPU云服務器爬蟲初級教程爬蟲爬取數據 java爬蟲爬取數據 github企業(yè)版

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規(guī)行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://systransis.cn/yun/41911.html

爬蟲初級操作（二）

摘要：本篇內容為網絡爬蟲初級操作的簡單介紹，內容主要有以下部分解析網頁數據庫解析網頁一般來說，解析網頁有三種方式正則表達式。關于，我們最后再來看一個實戰(zhàn)項目爬取北京二手房價格。代碼如下第頁這樣就成功爬取了安居客上前頁的北京二手房價格。本篇內容為 python 網絡爬蟲初級操作的簡單介紹，內容主要有以下 2 部分：解析網頁數據庫解析網頁一般來說，解析網頁有三種方式：正則表達式、...

崔曉明 2019-07-30 17:04 評論0 收藏0
爬蟲初級操作（二）

摘要：本篇內容為網絡爬蟲初級操作的簡單介紹，內容主要有以下部分解析網頁數據庫解析網頁一般來說，解析網頁有三種方式正則表達式。關于，我們最后再來看一個實戰(zhàn)項目爬取北京二手房價格。代碼如下第頁這樣就成功爬取了安居客上前頁的北京二手房價格。本篇內容為 python 網絡爬蟲初級操作的簡單介紹，內容主要有以下 2 部分：解析網頁數據庫解析網頁一般來說，解析網頁有三種方式：正則表達式、...

callmewhy 2019-06-26 17:44 評論0 收藏0
python

Python裝飾器為什么難理解？無論項目中還是面試都離不開裝飾器話題，裝飾器的強大在于它能夠在不修改原有業(yè)務邏輯的情況下對代碼進行擴展，權限校驗、用戶認證、日志記錄、性能測試、事務處理、緩存等都是裝飾器的絕佳應用場景，它能夠最大程度地對代碼進行復用。但為什么初學者對裝飾器的理解如此困難，我認為本質上是對Py… Python 實現車牌定位及分割作者用 Python 實現車牌定位及分割的實踐。 ...

chenatu 2019-07-30 15:35 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

stormgens

男|高級講師

我要關注我要私信

TA的文章

慘遭 GitHub 直接封殺的阿里 P8 手敲出來這份 565 頁鳳凰架構分布式手冊，有何神奇之處

閱讀 2919·2021-11-24 09:39
DogYun：11.11促銷，動態(tài)云主機6折，經典云8折，充110送10元

閱讀 1176·2021-11-02 14:38
如何選擇優(yōu)質的香港物理服務器?香港物理機價格多少錢一個月?

閱讀 4177·2021-09-10 11:26
AkkoCloud：圣何塞CN2 GIA/德國CN2 GIA年付299元起,300-500Mbps帶

閱讀 2764·2021-08-25 09:40
cssModules從計劃使用到放棄

閱讀 2320·2019-08-30 15:54
接了個新項目

閱讀 492·2019-08-30 10:56
用css動態(tài)實現圓環(huán)百分比分配——初探css3動畫

閱讀 2758·2019-08-26 12:14
html、css、js分工，內核，html頭，html表單

閱讀 3228·2019-08-26 12:13

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python爬蟲爬取github所有follwers初級版

相關文章

爬蟲初級操作（二）

爬蟲初級操作（二）

python

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

發(fā)表評論

0條評論

stormgens

男|高級講師

TA的文章

慘遭 GitHub 直接封殺的阿里 P8 手敲出來這份 565 頁鳳凰架構分布式手冊，有何神奇之處

DogYun：11.11促銷，動態(tài)云主機6折，經典云8折，充110送10元

如何選擇優(yōu)質的香港物理服務器?香港物理機價格多少錢一個月?

AkkoCloud：圣何塞CN2 GIA/德國CN2 GIA年付299元起,300-500Mbps帶

cssModules從計劃使用到放棄

接了個新項目

用css動態(tài)實現圓環(huán)百分比分配——初探css3動畫

html、css、js分工，內核，html頭，html表單

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python爬蟲爬取github所有follwers初級版

相關文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！