scrapy的應用需要掌握的知識點

DangoSky 發(fā)布于2019-07-31 10:55 / 2499人閱讀

摘要：最近一個項目需要做。確定要獲取的字段在里面，定義好要獲取的字段，例如我需要獲取的網(wǎng)站標題和首頁內(nèi)容。這里是為了測試匹配數(shù)據(jù)的，需要掌握的知識點為獲取辦法和選擇器獲取辦法。

最近一個項目需要做spider。就開始找資料，分析幾個工具后，得到最成熟穩(wěn)定的應該首推Scrapy。第一次使用Scrapy，寫篇文章記錄一下。

Scrapy的安裝我就不復述了。網(wǎng)上一大把的資料。安裝好環(huán)境后，就開始以下工作了。
大概操作步驟如下：

創(chuàng)建項目

創(chuàng)建spider

確定要獲取的字段

確定正則匹配的字段

保存入庫

創(chuàng)建項目

scrapy startproject projectName【項目名】
cd projectName

在命令行中進行以上操作。

創(chuàng)建spider

事先把要獲取的網(wǎng)址準備好 eg: https://segmentfault.com

scrapy genspider spiderName "https://segmentfault.com"

生成成功后，會在spider目錄下生成一個名叫：spiderName.py文件。獲取規(guī)則就需要書寫在這里面。

確定要獲取的字段

在item.py里面，定義好要獲取的字段，例如我需要獲取sf.gg的網(wǎng)站標題和首頁內(nèi)容。就需要定義兩個字段，title,content。想獲取的信息越細越好

class articleItem(Scrapy.Item):
     # 獲取網(wǎng)站標題
     title = Scrapy.Field()
     # 獲取網(wǎng)站內(nèi)容
     content = Scrpay.Field()

確定正則匹配字段內(nèi)容

要注冊獲取數(shù)據(jù)的內(nèi)容是本身在HTML里面的，還是ajax獲取渲染的，如果是ajax渲染的數(shù)據(jù)，使用傳統(tǒng)的獲取不到數(shù)據(jù)。
這里是為了測試匹配數(shù)據(jù)的，需要掌握的知識點為xpath獲取辦法和css選擇器獲取辦法。其中css類似jquery的選擇器。

scrapy shell "https://segmentfault.com"

確定入庫

保存形式有多種，json或數(shù)據(jù)庫

最好的學習資料，永遠都是代碼+說明文檔：
http://scrapy-chs.readthedocs...

云服務器 GPU云服務器大家需要掌握的深度學習需要掌握的前端需要掌握的技術大數(shù)據(jù)需要掌握的技術

文章版權歸作者所有，未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://systransis.cn/yun/44338.html

Python爬蟲之Scrapy學習（基礎篇）

摘要：下載器下載器負責獲取頁面數(shù)據(jù)并提供給引擎，而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子，處理傳遞給引擎的。一旦頁面下載完畢，下載器生成一個該頁面的，并將其通過下載中間件返回方向發(fā)送給引擎。作者：xiaoyu微信公眾號：Python數(shù)據(jù)科學知乎：Python數(shù)據(jù)分析師在爬蟲的路上，學習scrapy是一個必不可少的環(huán)節(jié)。也許有好多朋友此時此刻也正在接觸并學習sc...

pkhope 2019-07-31 11:05 評論0 收藏0
python scrapy 代理中間件，爬蟲必掌握的內(nèi)容之一

摘要：使用中間件本次的測試站點依舊使用，通過訪問可以獲取當前請求的地址。中間件默認是開啟的，可以查看其源碼重點為方法。修改代理的方式非常簡單，只需要在請求創(chuàng)建的時候，增加參數(shù)即可。接下來將可用的代理保存到文件中。同步修改文件中的代碼。 ...

binta 2021-11-15 11:39 評論0 收藏0
非計算機專業(yè)小白自學爬蟲全指南（附資源）

摘要：爬蟲是我接觸計算機編程的入門。練練練本文推薦的資源就是以項目練習帶動爬蟲學習，囊括了大部分爬蟲工程師要求的知識點。拓展閱讀一文了解爬蟲與反爬蟲最后，請注意，爬蟲的工作機會相對較少。爬蟲是我接觸計算機編程的入門。哥當年寫第一行代碼的時候別提有多痛苦。本文旨在用一篇文章說透爬蟲如何自學可以達到找工作的要求。爬蟲的學習就是跟著實際項目去學，每個項目會涉及到不同的知識點，項目做多了，自然...

CarlBenjamin 2019-07-30 17:36 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

DangoSky

男|高級講師

我要關注我要私信

TA的文章

騰訊云操作系統(tǒng)和阿里云服務器系統(tǒng)如何選擇?

閱讀 1019·2021-09-30 09:58
糖果主機：秋季促銷,香港/美國/德國虛擬主機新購,可享六折;云服務器/云VPS新購可享五折

閱讀 2852·2021-09-09 11:55
sparkedhost：自帶100G高防，$10/月，邁阿密AMD高性能VPS，2G內(nèi)存/1核/25

閱讀 2016·2021-09-01 11:41
一篇文章帶拿下盒模型BFC渲染機制

閱讀 1005·2019-08-30 15:55
CSScomb的安裝和參數(shù)配置以及消除空行

閱讀 3366·2019-08-30 12:50
切換頁面主題樣式研究及l(fā)ess教程

閱讀 3511·2019-08-29 18:37
mui上拉加載更多的使用

閱讀 3313·2019-08-29 16:37
ANIMATION經(jīng)典小車動畫

閱讀 2024·2019-08-29 13:00

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

scrapy的應用需要掌握的知識點

相關文章

**Python爬蟲之Scrapy學習（基礎篇）**

**python scrapy 代理中間件，爬蟲必掌握的內(nèi)容之一**

非計算機專業(yè)小白自學爬蟲全指南（附資源）

發(fā)表評論

0條評論

DangoSky

男|高級講師

TA的文章

騰訊云操作系統(tǒng)和阿里云服務器系統(tǒng)如何選擇?

糖果主機：秋季促銷,香港/美國/德國虛擬主機新購,可享六折;云服務器/云VPS新購可享五折

sparkedhost：自帶100G高防，$10/月，邁阿密AMD高性能VPS，2G內(nèi)存/1核/25

一篇文章帶拿下盒模型BFC渲染機制

CSScomb的安裝和參數(shù)配置以及消除空行

切換頁面主題樣式研究及l(fā)ess教程

mui上拉加載更多的使用

ANIMATION經(jīng)典小車動畫

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

scrapy的應用需要掌握的知識點

相關文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！