成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python scrapy框架用21行代碼寫出一個(gè)爬蟲

CODING / 2826人閱讀

摘要:開(kāi)發(fā)環(huán)境目前最新開(kāi)發(fā)框架目前最新目標(biāo)爬取線報(bào)網(wǎng)站并把內(nèi)容保存到里頁(yè)面分析根據(jù)上圖我們可以發(fā)現(xiàn)內(nèi)容都在類為這個(gè)里下面放出的代碼月日月日淘金幣淘里程領(lǐng)取京東簽到月日淘金幣淘里程領(lǐng)取京東簽到已結(jié)束發(fā)布日期分類虛擬幣瀏覽淘金幣一

開(kāi)發(fā)環(huán)境:Pycharm 2017.1(目前最新)
開(kāi)發(fā)框架: Scrapy 1.3.3(目前最新)

目標(biāo)

爬取線報(bào)網(wǎng)站,并把內(nèi)容保存到items.json里

頁(yè)面分析


根據(jù)上圖我們可以發(fā)現(xiàn)內(nèi)容都在類為post這個(gè)div
下面放出post的代碼

04月07日

4月7日 淘金幣淘里程領(lǐng)取京東簽到已結(jié)束

發(fā)布日期: 2017-04-07 | 分類: 虛擬幣 | 瀏覽:125177

淘金幣一鍵領(lǐng)取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【電腦端30金幣】 https://taojinbi.taobao.com/inde ... auto_take=true 【手機(jī)端30金幣】 http://h5.m.taobao...


實(shí)現(xiàn)方法

1.定義items

class DemoItem(scrapy.Item):
    id = scrapy.Field()
    title = scrapy.Field()
    href = scrapy.Field()
    content = scrapy.Field()

2.新建一個(gè)爬蟲名為test

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request

class TestSpider(scrapy.Spider):
    #定義爬蟲的名字和需要爬取的網(wǎng)址
    name = "test"
    allowed_domains = ["www.abckg.com"]
    start_urls = ["http://www.abckg.com/"]

    def parse(self, response):
        for resp in response.css(".post"):
            #實(shí)例化item
            item = DemoItem()
            #把獲取到的內(nèi)容保存到item內(nèi)
            item["href"] = resp.css("h2 a::attr(href)").extract()
            item["title"] = resp.css("h2 a::text").extract()
            item["content"] = resp.css(".intro p::text").extract()
            yield item
            
        #下面是多頁(yè)面的爬取方法
        urls = response.css(".pageinfo a::attr(href)").extract()
        for url in urls:
            yield Request(url, callback=self.parse)
        categorys = response.css(".menu li a::attr(href)").extract()
        for ct in categorys:
            yield Request(ct, callback=self.parse)

3.修改settings.py,添加以下代碼

FEED_EXPORT_ENCODING = "utf-8"
運(yùn)行

打開(kāi)cmd輸入

scrapy crawl test -o items.json

已知bug

如果多次運(yùn)行該爬蟲,不會(huì)覆蓋原有的內(nèi)容,而是追加數(shù)據(jù)(好像是scrapybug)

可拓展內(nèi)容

1.定時(shí)運(yùn)行爬蟲,當(dāng)檢查到網(wǎng)站更新時(shí)獲取新數(shù)據(jù)并發(fā)郵件通知
2.檢測(cè)數(shù)據(jù)是否重復(fù)


文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/38611.html

相關(guān)文章

  • 首次公開(kāi),整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評(píng)論0 收藏0
  • Python爬蟲框架Scrapy實(shí)戰(zhàn) - 抓取BOSS直聘招聘信息

    原文地址: http://www.jtahstu.com/blog/s... Python爬蟲框架Scrapy實(shí)戰(zhàn) - 抓取BOSS直聘招聘信息 零、開(kāi)發(fā)環(huán)境 MacBook Pro (13-inch, 2016, Two Thunderbolt 3 ports) CPU : 2 GHz Intel Core i5 RAM : 8 GB 1867 MHz LPDDR3 Python 版本: v3...

    caohaoyu 評(píng)論0 收藏0
  • Python爬蟲框架Scrapy實(shí)戰(zhàn) - 抓取BOSS直聘招聘信息

    原文地址: http://www.jtahstu.com/blog/s... Python爬蟲框架Scrapy實(shí)戰(zhàn) - 抓取BOSS直聘招聘信息 零、開(kāi)發(fā)環(huán)境 MacBook Pro (13-inch, 2016, Two Thunderbolt 3 ports) CPU : 2 GHz Intel Core i5 RAM : 8 GB 1867 MHz LPDDR3 Python 版本: v3...

    zero 評(píng)論0 收藏0
  • Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---10、爬蟲框架的安裝:PySpider、Scrapy

    摘要:所以如果對(duì)爬蟲有一定基礎(chǔ),上手框架是一種好的選擇。缺少包,使用安裝即可缺少包,使用安裝即可上一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)爬取相關(guān)庫(kù)的安裝的安裝下一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)爬蟲框架的安裝 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---9、APP爬取相關(guān)庫(kù)的安裝:Appium的安裝下一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---11、爬蟲框架的安裝:ScrapySplash、ScrapyRedis 我們直接...

    張憲坤 評(píng)論0 收藏0
  • Python 爬蟲面試題 170 道:2019 版

    摘要:下面代碼會(huì)存在什么問(wèn)題,如何改進(jìn)一行代碼輸出之間的所有偶數(shù)。簡(jiǎn)述進(jìn)程之間如何通信多路復(fù)用的作用模型的區(qū)別什么是并發(fā)和并行解釋什么是異步非阻塞的作用面試題說(shuō)說(shuō)你知道的命令如何查看某次提交修改的內(nèi)容答案掃碼下面的二維碼訂閱即可獲取。 引言 最近在刷面試題,所以需要看大量的 Python 相關(guān)的面試題,從大量的題目中總結(jié)了很多的知識(shí),同時(shí)也對(duì)一些題目進(jìn)行拓展了,但是在看了網(wǎng)上的大部分面試題不...

    trigkit4 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<