摘要:沒有做具體數(shù)據(jù)處理了直接把他們保存為數(shù)據(jù)了很長(zhǎng)很長(zhǎng)一段眼花下一篇是如何去保存在數(shù)據(jù)庫中
在上篇中沒有說到啟動(dòng)如何去啟動(dòng),scrapy是使用cmd命令行去啟動(dòng)的
咱們用scrapy的cmdline去啟動(dòng)
命名point.py
# 導(dǎo)入cmdline 中的execute用來執(zhí)行cmd命令 from scrapy.cmdline import execute # 執(zhí)行cmd命令參數(shù)為[ scrapy, 爬蟲, 爬蟲名稱] execute(["scrapy", "crawl", "AiquerSpider"])
這個(gè)文件放在項(xiàng)目根目錄下
如圖:
如果各位同學(xué)按照我的前面幾篇的步驟寫完的話可以用這個(gè)去測(cè)試一下(把部分代碼注釋去了),你會(huì)發(fā)現(xiàn)有好多神秘的藍(lán)色鏈接,哇啊啊啊啊!!!!!我的右手在燃燒!!!!!!!
先在咱們?nèi)ケ4鏀?shù)據(jù)吧!我這幾天寫項(xiàng)目需求寫到崩潰就不去做具體數(shù)據(jù)處理了,直接貼代碼
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don"t forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html import json class AiquerPipeline(object): def __init__(self): # 打開文件 self.file = open("data.json", "w", encoding="utf-8") def process_item(self, item, spider): # 讀取item中的數(shù)據(jù) line = json.dumps(dict(item), ensure_ascii=False) + " " # 寫入文件 self.file.write(line) # 返回item return item # 該方法在spider被開啟時(shí)被調(diào)用。 def open_spider(self, spider): pass # 該方法在spider被關(guān)閉時(shí)被調(diào)用。 def close_spider(self, spider): pass
在運(yùn)行這個(gè)東西之前是要注冊(cè)的,回到settings.py里面找到Configure item pipelines,將下面的注釋去掉就行了,咱們沒有具體需求所以不用改優(yōu)先級(jí)別
# Configure item pipelines # See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = { "AiQuer.pipelines.AiquerPipeline": 300, }
AiQuer.pipelines.AiquerPipeline是為你要注冊(cè)的類,右側(cè)的’300’為該P(yáng)ipeline的優(yōu)先級(jí),范圍1~1000,越小越先執(zhí)行。
沒有做具體數(shù)據(jù)處理了,直接把他們保存為json數(shù)據(jù)了,很長(zhǎng)很長(zhǎng)一段眼花
下一篇是如何去保存在數(shù)據(jù)庫中
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/41140.html
摘要:快速入門首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲。然后把結(jié)果加入到一個(gè)隊(duì)列中。既然是入門,我們肯定是先關(guān)心我們需要的。 因?yàn)楣卷?xiàng)目需求,需要做一個(gè)爬蟲。所以我一個(gè)python小白就被拉去做了爬蟲?;藘芍軙r(shí)間,拼拼湊湊總算趕出來了。所以寫個(gè)blog做個(gè)記錄。 快速入門 首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲。 配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過...
摘要:如果想先學(xué)習(xí)的話推薦看下基礎(chǔ)教學(xué)菜鳥教程這個(gè)網(wǎng)站的教程里面的內(nèi)容還是挺不錯(cuò)的非常適合小白學(xué)習(xí)好了廢話不多說開始學(xué)習(xí)如何安裝吧安裝我上篇小白爬蟲篇簡(jiǎn)介下面的鏈接安裝包后在或者在中輸入命令過程中可能會(huì)問你是否安裝其他擴(kuò)展包選按回車就好了安裝完成 如果想先學(xué)習(xí)python的話推薦看下Python基礎(chǔ)教學(xué)|菜鳥教程這個(gè)網(wǎng)站的教程,里面的內(nèi)容還是挺不錯(cuò)的非常適合小白學(xué)習(xí)好了廢話不多說開始學(xué)習(xí)如何...
摘要:創(chuàng)建爬蟲項(xiàng)目我創(chuàng)建的項(xiàng)目名稱為用打開項(xiàng)目可以看到目錄結(jié)構(gòu)如下根目錄有個(gè)是他的配置文件用來存放你的爬蟲文件我就不做解釋了存放集合中間件用來自定義插件在這里咱們用不到這玩意用來存儲(chǔ)數(shù)據(jù)這個(gè)還用解釋嗎你可以在中看到這個(gè)他們的具體介紹就去看入門到奔 創(chuàng)建爬蟲項(xiàng)目 scrapy startproject (projectName) 我創(chuàng)建的項(xiàng)目名稱為AIQuery scrapy startpro...
摘要:基于的樹狀結(jié)構(gòu),提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點(diǎn)的能力。起初的提出的初衷是將其作為一個(gè)通用的介于與間的語法模型。 在你的spiders目錄下創(chuàng)建自己第一個(gè)爬蟲項(xiàng)目,我我這兒命名為AiquerSpider.py然后編輯文件 # !/usr/bin/python # -*- coding: UTF-8 -*- import scrapy from scrapy.http import Reque...
閱讀 1899·2021-11-11 16:55
閱讀 2112·2021-10-08 10:13
閱讀 757·2019-08-30 11:01
閱讀 2171·2019-08-29 13:19
閱讀 3296·2019-08-28 18:18
閱讀 2633·2019-08-26 13:26
閱讀 590·2019-08-26 11:40
閱讀 1882·2019-08-23 17:17