python的scrapy框架爬取懶人聽書網(wǎng)站

CoffeX 發(fā)布于2019-07-31 10:21 / 2298人閱讀

摘要：爬蟲項(xiàng)目的管道文件，用來對中的數(shù)據(jù)進(jìn)行進(jìn)一步的加工處理。根據(jù)傳入的正則表達(dá)式對數(shù)據(jù)進(jìn)行提取，返回字符串列表。的作用函數(shù)可創(chuàng)建一個(gè)整數(shù)列表，一般用在循環(huán)中。

項(xiàng)目地址：https://github.com/gejinnvshe...
微信公眾號(hào)：天字一等

爬取懶人聽書平臺(tái)書籍的書名、作者名、分類，后續(xù)還會(huì)增加爬取音頻

爬蟲用到的框架：scrapy Anaconda是專注于數(shù)據(jù)分析的Python發(fā)行版本

scrapy簡單入門及實(shí)例講解：https://www.cnblogs.com/kongz... scrapy進(jìn)階實(shí)例：https://blog.csdn.net/z564359...

scrapy框架知識(shí)點(diǎn)

1、ROBOTSTXT_OBEY = False 粗解
https://www.jianshu.com/p/19c1ea0d59c2
2、爬蟲-User-Agent和代理池
https://www.cnblogs.com/sunxiuwen/p/10112057.html
3、
scrapy項(xiàng)目配置文件：
scrapy.cfg：爬蟲項(xiàng)目的配置文件。
__init__.py：爬蟲項(xiàng)目的初始化文件，用來對項(xiàng)目做初始化工作。
items.py：爬蟲項(xiàng)目的數(shù)據(jù)容器文件，用來定義要獲取的數(shù)據(jù)。
1、pipelines.py：爬蟲項(xiàng)目的管道文件，用來對items中的數(shù)據(jù)進(jìn)行進(jìn)一步的加工處理。 2、scrapy的pipeline是一個(gè)非常重要的模塊，主要作用是將return的items寫入到數(shù)據(jù)庫、文件等持久化模塊
settings.py：爬蟲項(xiàng)目的設(shè)置文件，包含了爬蟲項(xiàng)目的設(shè)置信息。
middlewares.py：爬蟲項(xiàng)目的中間件文件，
4
使用anaconda prompt運(yùn)行.py文件，執(zhí)行scrapy crwal xx指令時(shí)，xx是.py文件中給name賦的值
使用anaconda prompt運(yùn)行.py文件，執(zhí)行scrapy crwal xx指令時(shí)，如果報(bào)錯(cuò)說少了yy modules，直接輸入pip install yy執(zhí)行安裝包，不用在進(jìn)入對應(yīng)的項(xiàng)目目錄下
5、 https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html?highlight=extract

xpath(): 傳入xpath表達(dá)式，返回該表達(dá)式所對應(yīng)的所有節(jié)點(diǎn)的selector list列表。

css(): 傳入CSS表達(dá)式，返回該表達(dá)式所對應(yīng)的所有節(jié)點(diǎn)的selector list列表.

extract(): 序列化該節(jié)點(diǎn)為unicode字符串并返回list。

re(): 根據(jù)傳入的正則表達(dá)式對數(shù)據(jù)進(jìn)行提取，返回unicode字符串list列表。

6、elastisearch查詢語句
https://segmentfault.com/q/1010000017553309/
7、傳入xpath表達(dá)式，返回該表達(dá)式所對應(yīng)的所有節(jié)點(diǎn)的selector list列表
extract(): 返回被選擇元素的unicode字符串
8、yield
yield的作用這里是在爬取完一頁的信息后，我們在當(dāng)前頁面獲取到了下一頁的鏈接，然后通過 yield 發(fā)起請求，

            # 并且將 parse 自己作為回調(diào)函數(shù)來處理下一頁的響應(yīng)
            #  https://www.jianshu.com/p/7c1a084853d8
            yield Request(self.lrtsUrl + next_link, callback=self.parse, headers=headers)  #獲取下一頁，parse是回調(diào)函數(shù)來處理下一頁的響應(yīng)

9、meta scrapy的request的meta參數(shù)是什么意思？
https://blog.csdn.net/master_ning/article/details/80558985

python基礎(chǔ)知識(shí)點(diǎn)：

class:#創(chuàng)建類類就是一個(gè)模板，模板里可以包含多個(gè)函數(shù)，函數(shù)里實(shí)現(xiàn)一些功能
def:#創(chuàng)建類中函數(shù)
pass:pass 不做任何事情，一般用做占位語句。
if name == "__main__":的作用
https://www.cnblogs.com/kex1n/p/5975575.html
5、python range() 函數(shù)可創(chuàng)建一個(gè)整數(shù)列表，一般用在 for 循環(huán)中。
函數(shù)語法
range(start, stop[, step])
6、Python len() 方法返回對象（字符、列表、元組等）長度或項(xiàng)目個(gè)數(shù)。
語法
len()方法語法：
len( s )

GPU云服務(wù)器云服務(wù)器 python爬蟲框架scrapy scrapy爬取實(shí)例爬蟲框架scrapy scrapy框架編寫爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/43676.html

發(fā)表評論

登陸后可評論

0條評論

CoffeX

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

新智能硬件創(chuàng)新沙龍&大賽

閱讀 1898·2021-11-17 09:33
華納云(hncloud)，美國云服務(wù)器測評，CN2+OpenStack云平臺(tái)，默認(rèn)送10G DDOS

閱讀 6497·2021-10-12 10:20
怎么連接云主機(jī)-云主機(jī)怎么使用？

閱讀 2313·2021-09-22 15:50
主機(jī)帶寬怎么選-選購新睿云云主機(jī)帶寬怎么選？

閱讀 1802·2021-09-22 15:10
英偉達(dá)：已完成對高清地圖創(chuàng)企 DeepMap 的收購

閱讀 636·2021-09-10 10:51
基于STM32f103c8t6和L292N驅(qū)動(dòng)設(shè)計(jì)避障小車（核心函數(shù)的建立為自己所寫）

閱讀 640·2021-09-10 10:50
DMIT，LAX.Pro系列VPS進(jìn)行免費(fèi)的流量升級(jí)，加量不加價(jià)，SHAREv2由1.0T升級(jí)為1.

閱讀 3070·2021-08-11 11:19
小程序瀑布流效果，解決左右兩邊高度差距過大的問題

閱讀 1792·2019-08-30 15:55

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

python的scrapy框架爬取懶人聽書網(wǎng)站

相關(guān)文章

Python爬蟲之Scrapy學(xué)習(xí)（基礎(chǔ)篇）

Scrapy 框架入門簡介

Python3 爬蟲 scrapy框架爬取小說網(wǎng)站數(shù)據(jù)

爬蟲入門

爬蟲入門

發(fā)表評論

0條評論

CoffeX

男|高級(jí)講師

TA的文章

新智能硬件創(chuàng)新沙龍&大賽

華納云(hncloud)，美國云服務(wù)器測評，CN2+OpenStack云平臺(tái)，默認(rèn)送10G DDOS

怎么連接云主機(jī)-云主機(jī)怎么使用？

主機(jī)帶寬怎么選-選購新睿云云主機(jī)帶寬怎么選？

英偉達(dá)：已完成對高清地圖創(chuàng)企 DeepMap 的收購

基于STM32f103c8t6和L292N驅(qū)動(dòng)設(shè)計(jì)避障小車（核心函數(shù)的建立為自己所寫）

DMIT，LAX.Pro系列VPS進(jìn)行免費(fèi)的流量升級(jí)，加量不加價(jià)，SHAREv2由1.0T升級(jí)為1.

小程序瀑布流效果，解決左右兩邊高度差距過大的問題

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

python的scrapy框架爬取懶人聽書網(wǎng)站

相關(guān)文章

發(fā)表評論

0條評論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！