爬蟲學習之一個簡單的網(wǎng)絡(luò)爬蟲

Anleb 發(fā)布于2019-07-25 10:37 / 3544人閱讀

摘要：概述這是一個網(wǎng)絡(luò)爬蟲學習的技術(shù)分享，主要通過一些實際的案例對爬蟲的原理進行分析，達到對爬蟲有個基本的認識，并且能夠根據(jù)自己的需要爬到想要的數(shù)據(jù)。

概述

這是一個網(wǎng)絡(luò)爬蟲學習的技術(shù)分享，主要通過一些實際的案例對爬蟲的原理進行分析，達到對爬蟲有個基本的認識，并且能夠根據(jù)自己的需要爬到想要的數(shù)據(jù)。有了數(shù)據(jù)后可以做數(shù)據(jù)分析或者通過其他方式重新結(jié)構(gòu)化展示。

什么是網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁蜘蛛，網(wǎng)絡(luò)機器人，在FOAF社區(qū)中間，更經(jīng)常的稱為網(wǎng)頁追逐者），是一種按照一定的規(guī)則，自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。via?百度百科網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)蜘蛛（Web spider）也叫網(wǎng)絡(luò)爬蟲（Web crawler），螞蟻（ant），自動檢索工具（automatic indexer），或者（在FOAF軟件概念中）網(wǎng)絡(luò)疾走（WEB scutter），是一種“自動化瀏覽網(wǎng)絡(luò)”的程序，或者說是一種網(wǎng)絡(luò)機器人。它們被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站，以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式。它們可以自動采集所有其能夠訪問到的頁面內(nèi)容，以供搜索引擎做進一步處理（分檢整理下載的頁面），而使得用戶能更快的檢索到他們需要的信息。via?維基百科網(wǎng)絡(luò)蜘蛛

以上是百度百科和維基百科對網(wǎng)絡(luò)爬蟲的定義，簡單來說爬蟲就是抓取目標網(wǎng)站內(nèi)容的工具，一般是根據(jù)定義的行為自動進行抓取，更智能的爬蟲會自動分析目標網(wǎng)站結(jié)構(gòu)類似與搜索引擎的爬蟲，我們這里只討論基本的爬蟲原理。

爬蟲工作原理

網(wǎng)絡(luò)爬蟲框架主要由控制器、解析器和索引庫三大部分組成，而爬蟲工作原理主要是解析器這個環(huán)節(jié)，解析器的主要工作是下載網(wǎng)頁，進行頁面的處理，主要是將一些JS腳本標簽、CSS代碼內(nèi)容、空格字符、HTML標簽等內(nèi)容處理掉，爬蟲的基本工作是由解析器完成。所以解析器的具體流程是：

入口訪問->下載內(nèi)容->分析結(jié)構(gòu)->提取內(nèi)容

分析爬蟲目標結(jié)構(gòu)

這里我們通過分析一個網(wǎng)站[落網(wǎng)：http://luoo.net] 對網(wǎng)站內(nèi)容進行提取來進一步了解！

第一步確定目的
抓取目標網(wǎng)站的某一期所有音樂

第二步分析頁面結(jié)構(gòu)
訪問落網(wǎng)的某一期刊，通過Chrome的開發(fā)者模式查看播放列表中的歌曲，右側(cè)用紅色框線圈出來的是一些需要特別注意的語義結(jié)構(gòu)，見下圖所示：

以上紅色框線圈出的地方主要有歌曲名稱，歌曲的編號等，這里并沒有看到歌曲的實際文件地址，所以我們繼續(xù)查看，點擊某一個歌曲就會立即在瀏覽器中播放，這時我們可以看到在Chrome的開發(fā)者模式的Network中看到實際請求的播放文件，如下圖所示：

根據(jù)以上分析我們可以得到播放清單的位置和音樂文件的路徑，接下來我們通過Python來實現(xiàn)這個目的。

實現(xiàn)爬蟲

Python環(huán)境安裝請自行Google

主要依賴第三方庫

Requests（http://www.python-requests.org）用來發(fā)起請求

BeautifulSoup（bs4）用來解析HTML結(jié)構(gòu)并提取內(nèi)容

faker（http://fake-factory.readthedocs.io/en/stable/）用來模擬請求UA（User-Agent）

主要思路是分成兩部分，第一部分用來發(fā)起請求分析出播放列表然后丟到隊列中，第二部分在隊列中逐條下載文件到本地，一般分析列表速度更快，下載速度比較慢可以借助多線程同時進行下載。

主要代碼如下：

#-*- coding: utf-8 -*-
"""by sudo rm -rf  http://imchenkun.com"""
import os
import requests
from bs4 import BeautifulSoup
import random
from faker import Factory
import Queue
import threading

fake = Factory.create()
luoo_site = "http://www.luoo.net/music/"
luoo_site_mp3 = "http://luoo-mp3.kssws.ks-cdn.com/low/luoo/radio%s/%s.mp3"

proxy_ips = [    "27.15.236.236"    ] # 替換自己的代理IP
headers = {
    "Connection": "keep-alive",
    "User-Agent": fake.user_agent()
    }

def random_proxies():
    ip_index = random.randint(0, len(proxy_ips)-1)
    res = { "http": proxy_ips[ip_index] }
    return res

def fix_characters(s):
    for c in ["<", ">", ":", """, "/", "", "|", "?", "*"]:
        s = s.replace(c, "")
    return s


class LuooSpider(threading.Thread):
    def __init__(self, url, vols, queue=None):
        threading.Thread.__init__(self)
        print "[luoo spider]"
        print "=" * 20
        self.url = url
        self.queue = queue
        self.vol = "1"
        self.vols = vols

    def run(self):
        for vol in self.vols:
            self.spider(vol)
        print "
crawl end

"
        def spider(self, vol):
        url = luoo_site + vol
        print "crawling: " + url + "
"
        res = requests.get(url, proxies=random_proxies())
                soup = BeautifulSoup(res.content, "html.parser")
        title = soup.find("span", attrs={"class": "vol-title"}).text
        cover = soup.find("img", attrs={"class": "vol-cover"})["src"]
        desc = soup.find("div", attrs={"class": "vol-desc"})
        track_names = soup.find_all("a", attrs={"class": "trackname"})
        track_count = len(track_names)
        tracks = []
        for track in track_names:
            _id = str(int(track.text[:2])) if (int(vol) < 12) else track.text[:2]  # 12期前的音樂編號1~9是1位（如：1~9），之后的都是2位 1~9會在左邊墊0（如：01~09）
            _name = fix_characters(track.text[4:])
            tracks.append({"id": _id, "name": _name})
            phases = {
                "phase": vol,                         # 期刊編號
                "title": title,                       # 期刊標題
                 "cover": cover,                      # 期刊封面
                 "desc": desc,                        # 期刊描述
                 "track_count": track_count,          # 節(jié)目數(shù)
                 "tracks": tracks                     # 節(jié)目清單(節(jié)目編號，節(jié)目名稱)
            }
            self.queue.put(phases)


class LuooDownloader(threading.Thread):
    def __init__(self, url, dist, queue=None):
        threading.Thread.__init__(self)
        self.url = url
        self.queue = queue
        self.dist = dist
        self.__counter = 0       

     def run(self):
        while True:
            if self.queue.qsize() <= 0:
                pass
            else:
                phases = self.queue.get()
                self.download(phases)

    def download(self, phases):
        for track in phases["tracks"]:
            file_url = self.url % (phases["phase"], track["id"])

            local_file_dict = "%s/%s" % (self.dist, phases["phase"])
            if not os.path.exists(local_file_dict):
                os.makedirs(local_file_dict)              

            local_file = "%s/%s.%s.mp3" % (local_file_dict, track["id"], track["name"])
            if not os.path.isfile(local_file):
                print "downloading: " + track["name"]
                res = requests.get(file_url, proxies=random_proxies(), headers=headers)
                with open(local_file, "wb") as f:
                    f.write(res.content)
                    f.close()
                print "done.
"
            else:
                print "break: " + track["name"]


if __name__ == "__main__":
    spider_queue = Queue.Queue()

    luoo = LuooSpider(luoo_site, vols=["680", "721", "725", "720"],queue=spider_queue)
    luoo.setDaemon(True)
    luoo.start()

    downloader_count = 5
    for i in range(downloader_count):
        luoo_download = LuooDownloader(luoo_site_mp3, "D:/luoo", queue=spider_queue)
        luoo_download.setDaemon(True)
        luoo_download.start()

以上代碼執(zhí)行后結(jié)果如下圖所示

Github地址：https://github.com/imchenkun/ick-spider/blob/master/luoospider.py

總結(jié)

通過本文我們基本了解了網(wǎng)絡(luò)爬蟲的知識，對網(wǎng)絡(luò)爬蟲工作原理認識的同時我們實現(xiàn)了一個真實的案例場景，這里主要是使用一些基礎(chǔ)的第三方Python庫來幫助我們實現(xiàn)爬蟲，基本上演示了網(wǎng)絡(luò)爬蟲框架中基本的核心概念。通常工作中我們會使用一些比較優(yōu)秀的爬蟲框架來快速的實現(xiàn)需求，比如 scrapy框架，接下來我會通過使用Scrapy這類爬蟲框架來實現(xiàn)一個新的爬蟲來加深對網(wǎng)絡(luò)爬蟲的理解！

特別申明：本文所提到的落網(wǎng)是我本人特別喜歡的一個音樂網(wǎng)站，本文只是拿來進行爬蟲的技術(shù)交流學習，讀者涉及到的所有侵權(quán)問題都與本人無關(guān)

本文首發(fā)在sudo rm -rf 采用署名(BY)-非商業(yè)性使用(NC)-禁止演繹(ND) 轉(zhuǎn)載請注明原作者

--EOF--

云服務(wù)器 GPU云服務(wù)器簡單的爬蟲簡單的爬蟲程序最簡單的爬蟲 python簡單的爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/38063.html

發(fā)表評論

登陸后可評論

0條評論

Anleb

男|高級講師

我要關(guān)注我要私信

TA的文章

Linux系統(tǒng)賬號安全和登錄控制（一切為了安全）

閱讀 1179·2021-11-25 09:43
2018.12.23 無障礙學習小計

閱讀 3004·2019-08-30 15:54
【學習筆記】CSS深入理解之a(chǎn)bsolute

閱讀 3377·2019-08-30 15:54
偽元素的content屬性使用中文字符集可能會出現(xiàn)亂碼情況

閱讀 3032·2019-08-30 15:44
LeetCode 290 單詞模式 JS實現(xiàn)

閱讀 1674·2019-08-26 12:18
JavaScript疑難雜癥系列-事件

閱讀 2279·2019-08-26 11:42
JavaScript作用域

閱讀 897·2019-08-26 11:35
vue中keepAlive的使用

閱讀 3316·2019-08-23 18:22

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

爬蟲學習之一個簡單的網(wǎng)絡(luò)爬蟲

相關(guān)文章

**爬蟲學習之基于Scrapy的網(wǎng)絡(luò)爬蟲**

爬蟲學習之基于 Scrapy 的爬蟲自動登錄

后端文章 - 收藏集 - 掘金

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

發(fā)表評論

0條評論

Anleb

男|高級講師

TA的文章

Linux系統(tǒng)賬號安全和登錄控制（一切為了安全）

2018.12.23 無障礙學習小計

【學習筆記】CSS深入理解之a(chǎn)bsolute

偽元素的content屬性使用中文字符集可能會出現(xiàn)亂碼情況

LeetCode 290 單詞模式 JS實現(xiàn)

JavaScript疑難雜癥系列-事件

JavaScript作用域

vue中keepAlive的使用

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

爬蟲學習之一個簡單的網(wǎng)絡(luò)爬蟲

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！