爬蟲學習之基于 Scrapy 的爬蟲自動登錄

Panda 發(fā)布于2019-07-25 10:37 / 1474人閱讀

摘要：概述在前面兩篇爬蟲學習之基于的網(wǎng)絡(luò)爬蟲和爬蟲學習之簡單的網(wǎng)絡(luò)爬蟲文章中我們通過兩個實際的案例，采用不同的方式進行了內(nèi)容提取。

概述

在前面兩篇（爬蟲學習之基于Scrapy的網(wǎng)絡(luò)爬蟲和爬蟲學習之簡單的網(wǎng)絡(luò)爬蟲）文章中我們通過兩個實際的案例，采用不同的方式進行了內(nèi)容提取。我們對網(wǎng)絡(luò)爬蟲有了一個比較初級的認識，只要發(fā)起請求獲取響應的網(wǎng)頁內(nèi)容，然后對內(nèi)容進行格式化存儲。很多時候我們抓取到的內(nèi)容可能會發(fā)生重復，也有可能是需要計算或者組織過的全新的內(nèi)容甚至是需要登錄后才能訪問的內(nèi)容，那么這一篇我們來學習一下Scrapy的Item部分以及了解如何使用Scrapy來進行自動登錄。

起步

首先我們使用Scrapy的命令行創(chuàng)建一個新的項目

scrapy startproject douban

運行后，我們就有了下面這樣的目錄結(jié)構(gòu)

+ douban                               # 根目錄
    |- douban                          # Python的項目目錄
        |- spiders                     # 爬蟲Spider部分，用于提取網(wǎng)頁內(nèi)容
            |- __init__.py
        |- __init__.py
        |- items.py                    # 爬蟲item， 用于定義數(shù)據(jù)結(jié)構(gòu)
        |- pipelines.py                # 爬蟲pipeline，用于處理提取的結(jié)構(gòu)，比如清洗數(shù)據(jù)、去重等
        |- settings.py                 # Scrapy框架參數(shù)項目參數(shù)設(shè)置
    |- scrapy.cfg                      # 爬蟲部署相關(guān)設(shè)置

Scrapy為我們生成了已經(jīng)組織好的目錄結(jié)構(gòu)，上面的注釋部分解釋了每個文件及目錄的作用。

建立目標

本篇我們來建立兩個目標，這兩個目標都是基于豆瓣網(wǎng)：

目標一：抓取豆瓣TOP250的圖書信息并保存成csv文件

目標二：抓取我的第一頁豆郵標題（需要登錄），并保存成csv文件

分析目標一

目標一是豆瓣的TOP250圖書信息，首先我們進入到TOP250的列表(https://book.douban.com/top250) ，我用圖示圈出我們這次要爬取的內(nèi)容，具體請看圖示：

從圖上的框線中我們主要圈出了書名、價格、出版年份、出版社、評分，其中出版年份，出版社以及價格是在一行中，這個我們需要進一步處理。

分頁的處理：總記錄是250條，每頁是25條圖書信息，共分了10頁。

實現(xiàn)目標一

需要用到的概念：

Item

Item Pipeline

首先建立Scrapy的Item， Scrapy的Item就是我們需要存儲的數(shù)據(jù)結(jié)構(gòu)，先修改items, 然后在spiders目錄中新建一個名為bookspider.py的Python文件，由于我們需要在一堆字符串中提取出出版社和價格等信息所以我們這里需要對抓取的內(nèi)容進一步處理，在這之前還需要修改settings.py文件：

加入faker的模擬USER_AGENT數(shù)據(jù)防止被豆瓣屏蔽，

也可以設(shè)置DEFAULT_REQUEST_HEADERS參數(shù)。

修改ITEM_PIPELINES

代碼如下所示：

items.py

# -*- coding: utf-8 -*-
"""by sudo rm -rf http://imchenkun.com"""
import scrapy


class DoubanBookItem(scrapy.Item):
    name = scrapy.Field()            # 書名
    price = scrapy.Field()           # 價格
    edition_year = scrapy.Field()    # 出版年份
    publisher = scrapy.Field()       # 出版社
    ratings = scrapy.Field()         # 評分

bookspider.py

# -*- coding:utf-8 -*-
"""by sudo rm -rf http://imchenkun.com"""
import scrapy
from douban.items import DoubanBookItem


class BookSpider(scrapy.Spider):
    name = "douban-book"
    allowed_domains = ["douban.com"]
    start_urls = [
        "https://book.douban.com/top250"
    ]

    def parse(self, response):
        # 請求第一頁
        yield scrapy.Request(response.url, callback=self.parse_next)

        # 請求其它頁
        for page in response.xpath("http://div[@class="paginator"]/a"):
            link = page.xpath("@href").extract()[0]
            yield scrapy.Request(link, callback=self.parse_next)

    def parse_next(self, response):
        for item in response.xpath("http://tr[@class="item"]"):
            book = DoubanBookItem()
            book["name"] = item.xpath("td[2]/div[1]/a/@title").extract()[0]
            book["price"] = item.xpath("td[2]/p/text()").extract()[0]
            book["ratings"] = item.xpath("td[2]/div[2]/span[2]/text()").extract()[0]
            yield book

pipelines.py

# -*- coding: utf-8 -*-
"""by sudo rm -rf http://imchenkun.com"""


class DoubanBookPipeline(object):
    def process_item(self, item, spider):
        info = item["price"].split(" / ")  # [法] 圣埃克蘇佩里 / 馬振聘 / 人民文學出版社 / 2003-8 / 22.00元
        item["name"] = item["name"]
        item["price"] = info[-1]
        item["edition_year"] = info[-2]
        item["publisher"] = info[-3]
        return item

最后我們到douban的根目錄中執(zhí)行以下命令來運行爬蟲來執(zhí)行并導出數(shù)據(jù)到csv文件

scrapy crawl douban-book -o douban_book_top250.csv

csv文件截圖如下：

分析目標二

目標二是建立在理解了目標一的基礎(chǔ)上進行的，因為豆瓣登錄次數(shù)過多會有驗證碼出現(xiàn)，這里提供一種手工填寫驗證碼的方式，暫時不討論如何去識別驗證碼，目標二的核心概念是如何提交POST表單和登錄成功后帶Cookie的請求。首先我們可以看到頁面結(jié)構(gòu)如下圖所示：

實現(xiàn)目標二

定義Item

# -*- coding: utf-8 -*-import scrapy
"""by sudo rm -rf  http://imchenkun.com"""


class DoubanMailItem(scrapy.Item):
    sender_time = scrapy.Field()     # 發(fā)送時間
    sender_from = scrapy.Field()     # 發(fā)送人
    url = scrapy.Field()             # 豆郵詳細地址
    title = scrapy.Field()           # 豆郵標題

定義doumailspider

# -*- coding:utf-8 -*-
"""by sudo rm -rf  http://imchenkun.com"""
import scrapy
from faker import Factory
from douban.items import DoubanMailItem
import urlparse

f = Factory.create()


class MailSpider(scrapy.Spider):
    name = "douban-mail"
    allowed_domains = ["accounts.douban.com", "douban.com"]
    start_urls = [
        "https://www.douban.com/"
    ]
    headers = {
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
        "Accept-Encoding": "gzip, deflate, br",
        "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
        "Connection": "keep-alive",
        "Host": "accounts.douban.com",
        "User-Agent": f.user_agent()
    }

    formdata = {
        "form_email": "您的賬號",
        "form_password": "您的密碼",
        # "captcha-solution": "",
        # "captcha-id": "",
        "login": "登錄",
        "redir": "https://www.douban.com/",
        "source": "None"
    }

    def start_requests(self):
        return [scrapy.Request(url="https://www.douban.com/accounts/login",
                               headers=self.headers,
                               meta={"cookiejar": 1},
                               callback=self.parse_login)]

    def parse_login(self, response):
        # 如果有驗證碼要人為處理
        if "captcha_image" in response.body:
            print "Copy the link:"
            link = response.xpath("http://img[@class="captcha_image"]/@src").extract()[0]
            print link
            captcha_solution = raw_input("captcha-solution:")
            captcha_id = urlparse.parse_qs(urlparse.urlparse(link).query, True)["id"]
            self.formdata["captcha-solution"] = captcha_solution
            self.formdata["captcha-id"] = captcha_id
        return [scrapy.FormRequest.from_response(response,
                                                 formdata=self.formdata,
                                                 headers=self.headers,
                                                 meta={"cookiejar": response.meta["cookiejar"]},
                                                 callback=self.after_login
                                                 )]

    def after_login(self, response):
        print response.status
        self.headers["Host"] = "www.douban.com"
        return scrapy.Request(url="https://www.douban.com/doumail/",
                              meta={"cookiejar": response.meta["cookiejar"]},
                              headers=self.headers,
                              callback=self.parse_mail)

    def parse_mail(self, response):
        print response.status
        for item in response.xpath("http://div[@class="doumail-list"]/ul/li"):
            mail = DoubanMailItem()
            mail["sender_time"] = item.xpath("div[2]/div/span[1]/text()").extract()[0]
            mail["sender_from"] = item.xpath("div[2]/div/span[2]/text()").extract()[0]
            mail["url"] = item.xpath("div[2]/p/a/@href").extract()[0]
            mail["title"] = item.xpath("div[2]/p/a/text()").extract()[0]
            print mail
            yield mail

這里需要注意的有三個地方：

第一個是meta中的cookiejar
Scrapy 通過使用 cookiejar Request meta key來支持單spider追蹤多cookie session。默認情況下其使用一個cookie jar(session)，不過您可以傳遞一個標示符來使用多個。

start_requests 我們這里重寫了爬蟲爬取得第一個頁面，這里一開始就進去到登錄頁面

當執(zhí)行爬蟲的時候，我們需要把打印出來的驗證碼地址粘貼到瀏覽器中，手動輸入到控制上完成驗證。

同目標一一樣需要設(shè)置settings中的相關(guān)參數(shù)，唯一不同的是ITEM_PIPELINES。

最后我們使用以下命令來啟動爬蟲

scrapy crawl douban-mail -o douban_mail_page1.csv

csv文件截圖如下：

Github地址：https://github.com/imchenkun/ick-spider/tree/master/douban

總結(jié)

本篇我們學習了如果定義Item以及如何對Item進行進一步處理(Item Pipeline)，還通過登錄豆瓣的案例來了解了如果使用Scrapy進行表單提交和Cookie追蹤，也了解了對于有驗證碼的情況該如何處理，當然我們這里暫時還不討論如何識別驗證碼。關(guān)于Scrapy的更高級的一些用法和特性可以進一步閱讀Scrapy官網(wǎng)的文檔。

特別申明：本文所提到的豆瓣網(wǎng)只是拿來進行爬蟲的技術(shù)交流學習，讀者涉及到的所有侵權(quán)問題都與本人無關(guān)，也希望大家在學習實戰(zhàn)的過程中不要大量的爬取內(nèi)容對服務(wù)器造成負擔

本文首發(fā)在sudo rm -rf 采用署名(BY)-非商業(yè)性使用(NC)-禁止演繹(ND) 轉(zhuǎn)載請注明原作者

--EOF--

GPU云服務(wù)器云服務(wù)器 scrapy登錄爬蟲 scrapy 爬蟲爬蟲scrapy scrapy爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/38070.html

發(fā)表評論

登陸后可評論

0條評論

Panda

男|高級講師

我要關(guān)注我要私信

TA的文章

云主機有什么用-云主機有什么好處？

閱讀 1845·2021-09-22 15:23
第2期ARM裸機篇：【1】開發(fā)環(huán)境搭建8_MobaXterm軟件安裝和使用

閱讀 3278·2021-09-04 16:45
Ubuntu系統(tǒng)安裝Fail2ban防止SSH端口被暴力破解

閱讀 1901·2021-07-29 14:49
記錄下css的小知識，不時更新

閱讀 2779·2019-08-30 15:44
瀏覽器如何解析html、css、js

閱讀 1529·2019-08-29 16:36
帶你玩轉(zhuǎn)css3的3D！

閱讀 1048·2019-08-29 11:03
CSS自定義屬性+CSS Grid網(wǎng)格實現(xiàn)超級的布局能力

閱讀 1520·2019-08-26 13:53
5分鐘實現(xiàn)一個Koa

閱讀 516·2019-08-26 11:57

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

爬蟲學習之基于 Scrapy 的爬蟲自動登錄

相關(guān)文章

**爬蟲學習之基于Scrapy的網(wǎng)絡(luò)爬蟲**

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

零基礎(chǔ)如何學爬蟲技術(shù)

爬蟲爬 JSON HTML 數(shù)據(jù)

爬蟲爬 JSON HTML 數(shù)據(jù)

發(fā)表評論

0條評論

Panda

男|高級講師

TA的文章

云主機有什么用-云主機有什么好處？

第2期ARM裸機篇：【1】開發(fā)環(huán)境搭建8_MobaXterm軟件安裝和使用

Ubuntu系統(tǒng)安裝Fail2ban防止SSH端口被暴力破解

記錄下css的小知識，不時更新

瀏覽器如何解析html、css、js

帶你玩轉(zhuǎn)css3的3D！

CSS自定義屬性+CSS Grid網(wǎng)格實現(xiàn)超級的布局能力

5分鐘實現(xiàn)一個Koa

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

爬蟲學習之基于 Scrapy 的爬蟲自動登錄

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！