從0開始寫一個多線程爬蟲（1）

imccl 發(fā)布于2019-07-30 17:36 / 1425人閱讀

摘要：最近發(fā)現(xiàn)有個電影下載網(wǎng)站叫做比特大雄，下了幾部電影之后，打算寫個爬蟲把網(wǎng)站的電影信息都爬取下來。結(jié)果我就發(fā)現(xiàn)，速度太慢了因為決定將其改成多線程爬蟲，歡迎繼續(xù)閱讀后續(xù)的此系列文章。

最近發(fā)現(xiàn)有個電影下載網(wǎng)站叫做比特大雄，下了幾部電影之后，打算寫個爬蟲把網(wǎng)站的電影信息都爬取下來。

一開始思路是這樣的，從首頁開始，解析首頁的所有鏈接，如果這個鏈接是電影詳情頁的鏈接，就將其html解析成想要的電影信息，如果不是電影詳情頁的鏈接，就將其加入到待爬取的URL list里，等待后續(xù)繼續(xù)從這個url的頁面爬取更多的鏈接。

爬蟲代碼Version 1

直接給出代碼如下（含注釋）：

import requests
import re
import time



# 網(wǎng)站首頁
base_url = r"https://www.btdx8.com/"

# 爬取到的新url會繼續(xù)加入到這個list里
total_url_list = [base_url]
# 存放已經(jīng)爬取過的url
used_url_list = []
# 存放是電影詳情頁的url
movie_url_list = []

# 從html文本中抓取url的正則表達式
url_reg = "href="(https://.*?)""
# 判斷url是不是電影詳情頁url的正則表達式
movie_url_reg = "https://www.btdx8.com/torrent/.*?html"

while 1:
    # 取出url list中的第一個url
    url = total_url_list.pop(0)
    print("Current Url:", url)
    print()
    try:
        # 獲取url的html
        text = requests.get(url).text
        # 從html中找到所有的url鏈接
        new_urls = re.findall(url_reg, text)
        # 如果是之前沒出現(xiàn)過的url，將其放入到total_url_list用于后續(xù)繼續(xù)爬取
        for n in new_urls:
            if n not in total_url_list + used_url_list + movie_url_list:
                total_url_list.append(n)
        used_url_list.append(url)
        # 如果當前url是電影詳情頁的鏈接，將其存入movie_url_list
        if re.match(movie_url_reg, url):
            movie_url_list.append(url)
        print("Current url succeed")
        time.sleep(0.1)
    except:
        print("Current url failed")
    print("Total: %s, Used: %s, Movie: %s" % (len(total_url_list), len(used_url_list), len(movie_url_list)))
    # 如果total_url_list已經(jīng)為空了就停止循環(huán)
    if len(total_url_list) == 0:
        break
# 打印所有的movie url
print(movie_url_list)

這個代碼肯定是有些問題的，比如total_url_list可能永遠都不為空，循環(huán)無法停止，不過可以先跑一跑看看情況。結(jié)果我就發(fā)現(xiàn)，速度太慢了！因為決定將其改成多線程爬蟲，歡迎繼續(xù)閱讀后續(xù)的此系列文章。

GPU云服務(wù)器云服務(wù)器從0開始到1千萬用戶 php從0開始從0開始學(xué)習(xí)php 匯編語言從0開始

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/42298.html

發(fā)表評論

登陸后可評論

0條評論

imccl

男|高級講師

我要關(guān)注我要私信

TA的文章

藍牙“BrakTooth”漏洞可能會影響數(shù)十億臺設(shè)備

閱讀 3333·2021-09-08 09:45
flex布局實戰(zhàn)

閱讀 1264·2019-08-30 15:53
input 彈起數(shù)字鍵盤的那些坑

閱讀 1542·2019-08-30 14:12
web前端學(xué)習(xí)方案

閱讀 990·2019-08-29 17:01
Flex入坑指南

閱讀 2583·2019-08-29 15:35
?? 基于 vue2 + vuex + vue-router 構(gòu)建的移動端微應(yīng)用

閱讀 407·2019-08-29 13:09
Angular2入門系列（四）————ngModel和表單元素name屬性

閱讀 1984·2019-08-29 12:32
代碼質(zhì)量把控和項目進度之間的平衡

閱讀 3096·2019-08-26 18:37

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從0開始寫一個多線程爬蟲（1）

相關(guān)文章

從0開始寫一個多線程爬蟲（2）

Python

Python協(xié)程（真才實學(xué)，想學(xué)的進來）

關(guān)于Python爬蟲種類、法律、輪子的一二三

優(yōu)雅的使用WebMagic框架寫Java爬蟲

發(fā)表評論

0條評論

imccl

男|高級講師

TA的文章

藍牙“BrakTooth”漏洞可能會影響數(shù)十億臺設(shè)備

flex布局實戰(zhàn)

input 彈起數(shù)字鍵盤的那些坑

web前端學(xué)習(xí)方案

Flex入坑指南

?? 基于 vue2 + vuex + vue-router 構(gòu)建的移動端微應(yīng)用

Angular2入門系列（四）————ngModel和表單元素name屬性

代碼質(zhì)量把控和項目進度之間的平衡

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從0開始寫一個多線程爬蟲（1）

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！