爬蟲框架Scrapy實(shí)戰(zhàn)一——股票數(shù)據(jù)爬取

Ilikewhite 發(fā)布于2019-06-28 13:21 / 2401人閱讀

摘要：技術(shù)路線爬蟲框架語言由于在上一篇博客中已經(jīng)介紹了股票信息爬取的原理，在這里不再進(jìn)行過多介紹，如需了解可以參考博客鏈接描述，在本篇文章中主要講解該項(xiàng)目在框架中如何實(shí)現(xiàn)。

簡介

目標(biāo)： 獲取上交所和深交所所有股票的名稱和交易信息。
輸出： 保存到文件中。
技術(shù)路線：Scrapy爬蟲框架
語言： python3.5
由于在上一篇博客中已經(jīng)介紹了股票信息爬取的原理，在這里不再進(jìn)行過多介紹，如需了解可以參考博客：鏈接描述，在本篇文章中主要講解該項(xiàng)目在Scrapy框架中如何實(shí)現(xiàn)。

原理分析

Scrapy框架如下圖所示：

我們主要進(jìn)行兩步操作：
（1）首先需要在框架中編寫一個(gè)爬蟲程序spider,用于鏈接爬取和頁面解析；
（2）編寫pipelines，用于處理解析后的股票數(shù)據(jù)并將這些數(shù)據(jù)存儲(chǔ)到文件中。

代碼編寫

步驟：
（1）建立一個(gè)工程生成Spider模板
打開cmd命令行，定位到項(xiàng)目所放的路徑，輸入：scrapy startproject BaiduStocks，此時(shí)會(huì)在目錄中新建一個(gè)名字為BaiduStocks的工程。再輸入：cd BaiduStocks進(jìn)入目錄，接著輸入：scrapy genspider stocks baidu.com生成一個(gè)爬蟲。之后我們可以在spiders/目錄下看到一個(gè)stocks.py文件，如下圖所示：

（2）編寫Spider：配置stocks.py文件，修改返回頁面的處理，修改對(duì)新增URL爬取請(qǐng)求的處理
打開stocks.py文件，代碼如下所示：

# -*- coding: utf-8 -*-
import scrapy


class StocksSpider(scrapy.Spider):
    name = "stocks"
    allowed_domains = ["baidu.com"]
    start_urls = ["http://baidu.com/"]

    def parse(self, response):
        pass

將上述代碼修改如下：

# -*- coding: utf-8 -*-
import scrapy
import re
 
 
class StocksSpider(scrapy.Spider):
    name = "stocks"
    start_urls = ["http://quote.eastmoney.com/stocklist.html"]
 
    def parse(self, response):
        for href in response.css("a::attr(href)").extract():
            try:
                stock = re.findall(r"[s][hz]d{6}", href)[0]
                url = "https://gupiao.baidu.com/stock/" + stock + ".html"
                yield scrapy.Request(url, callback=self.parse_stock)
            except:
                continue
 
    def parse_stock(self, response):
        infoDict = {}
        stockInfo = response.css(".stock-bets")
        name = stockInfo.css(".bets-name").extract()[0]
        keyList = stockInfo.css("dt").extract()
        valueList = stockInfo.css("dd").extract()
        for i in range(len(keyList)):
            key = re.findall(r">.*", keyList[i])[0][1:-5]
            try:
                val = re.findall(r"d+.?.*", valueList[i])[0][0:-5]
            except:
                val = "--"
            infoDict[key]=val
 
        infoDict.update(
            {"股票名稱": re.findall("s.*(",name)[0].split()[0] + 
             re.findall(">.*<", name)[0][1:-1]})
        yield infoDict

（3）配置pipelines.py文件,定義爬取項(xiàng)（Scraped Item）的處理類
打開pipelinse.py文件，如下圖所示：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don"t forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html


class BaidustocksPipeline(object):
    def process_item(self, item, spider):
        return item

對(duì)上述代碼修改如下：

# -*- coding: utf-8 -*-
 
# Define your item pipelines here
#
# Don"t forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
 
 
class BaidustocksPipeline(object):
    def process_item(self, item, spider):
        return item

#每個(gè)pipelines類中有三個(gè)方法
class BaidustocksInfoPipeline(object):
    #當(dāng)一個(gè)爬蟲被調(diào)用時(shí)，對(duì)應(yīng)的pipelines啟動(dòng)的方法
    def open_spider(self, spider):
        self.f = open("BaiduStockInfo.txt", "w")
    #一個(gè)爬蟲關(guān)閉或結(jié)束時(shí)的pipelines對(duì)應(yīng)的方法
    def close_spider(self, spider):
        self.f.close()
    #對(duì)每一個(gè)Item項(xiàng)進(jìn)行處理時(shí)所對(duì)應(yīng)的方法，也是pipelines中最主體的函數(shù)
    def process_item(self, item, spider):
        try:
            line = str(dict(item)) + "
"
            self.f.write(line)
        except:
            pass
        return item

（4）修改settings.py，是框架找到我們?cè)?b>pipelinse.py中寫的類
在settings.py中加入：

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    "BaiduStocks.pipelines.BaidustocksInfoPipeline": 300,
}

到這里，程序就完成了。

（4）執(zhí)行程序
在命令行中輸入：scrapy crawl stocks

GPU云服務(wù)器云服務(wù)器 scrapy爬蟲實(shí)戰(zhàn) 爬蟲框架scrapy scrapy框架編寫爬蟲 python爬蟲框架scrapy

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/25596.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Ilikewhite

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

【送書啦】Python操作Mysql（連接、數(shù)據(jù)探查、寫Excel）

閱讀 951·2021-09-29 09:35
程序員工具網(wǎng)站（比較有意思）

閱讀 1282·2021-09-28 09:36
CYUN：全場VPS八折,老用戶限量5折,香港VPS月付14.5元起

閱讀 1577·2021-09-24 10:38
Hostdare：搬瓦工同機(jī)房，CN2 GIA線路，9折優(yōu)惠中，年付$44.99起

閱讀 1115·2021-09-10 11:18
前端每日實(shí)戰(zhàn)：73# 視頻演示如何用純 CSS 創(chuàng)作一只卡通狐貍

閱讀 665·2019-08-30 15:54
強(qiáng)大的hexo--如何利用hexo平臺(tái)搭建個(gè)人博客

閱讀 2527·2019-08-30 13:22
css實(shí)現(xiàn)水平/垂直居中效果

閱讀 1993·2019-08-30 11:14
利用 Css 制作精美的卡片UI

閱讀 729·2019-08-29 12:35

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

爬蟲框架Scrapy實(shí)戰(zhàn)一——股票數(shù)據(jù)爬取

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

23個(gè)Python爬蟲開源項(xiàng)目代碼，包含微信、淘寶、豆瓣、知乎、微博等

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---10、爬蟲框架的安裝：PySpider、Scrapy

發(fā)表評(píng)論

0條評(píng)論

Ilikewhite

男|高級(jí)講師

TA的文章

【送書啦】Python操作Mysql（連接、數(shù)據(jù)探查、寫Excel）

程序員工具網(wǎng)站（比較有意思）

CYUN：全場VPS八折,老用戶限量5折,香港VPS月付14.5元起

Hostdare：搬瓦工同機(jī)房，CN2 GIA線路，9折優(yōu)惠中，年付$44.99起

前端每日實(shí)戰(zhàn)：73# 視頻演示如何用純 CSS 創(chuàng)作一只卡通狐貍

強(qiáng)大的hexo--如何利用hexo平臺(tái)搭建個(gè)人博客

css實(shí)現(xiàn)水平/垂直居中效果

利用 Css 制作精美的卡片UI

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

爬蟲框架Scrapy實(shí)戰(zhàn)一——股票數(shù)據(jù)爬取

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！