18、 Python快速開發(fā)分布式搜索引擎Scrapy精講—Scrapy啟動(dòng)文件的配置—xpath表

rubyshen 發(fā)布于2019-07-31 11:25 / 1150人閱讀

摘要：百度云搜索，搜各種資料搜網(wǎng)盤，搜各種資料我們自定義一個(gè)來(lái)作為啟動(dòng)文件導(dǎo)入執(zhí)行命令方法給解釋器，添加模塊新路徑將文件所在目錄添加到解釋器執(zhí)行命令爬蟲文件表達(dá)式基本使用設(shè)置爬蟲起始域名設(shè)置爬蟲起始地址默認(rèn)爬蟲回調(diào)函數(shù)，返

【百度云搜索，搜各種資料:http://www.bdyss.cn】 【搜網(wǎng)盤，搜各種資料:http://www.swpan.cn】

我們自定義一個(gè)main.py來(lái)作為啟動(dòng)文件

main.py

#!/usr/bin/env?python
#?-*-?coding:utf8?-*-

from?scrapy.cmdline?import?execute??#導(dǎo)入執(zhí)行scrapy命令方法
import?sys
import?os

sys.path.append(os.path.join(os.getcwd()))?#給Python解釋器，添加模塊新路徑?,將main.py文件所在目錄添加到Python解釋器

execute(["scrapy",?"crawl",?"pach",?"--nolog"])??#執(zhí)行scrapy命令

爬蟲文件

#?-*-?coding:?utf-8?-*-
import?scrapy
from?scrapy.http?import?Request
import?urllib.response
from?lxml?import?etree
import?re

class?PachSpider(scrapy.Spider):
????name?=?"pach"
????allowed_domains?=?["blog.jobbole.com"]
????start_urls?=?["http://blog.jobbole.com/all-posts/"]

????def?parse(self,?response):
????????pass

xpath表達(dá)式

1、

2、

3、

基本使用

allowed_domains設(shè)置爬蟲起始域名
start_urls設(shè)置爬蟲起始url地址
parse(response)默認(rèn)爬蟲回調(diào)函數(shù)，response返回的是爬蟲獲取到的html信息對(duì)象，里面封裝了一些關(guān)于htnl信息的方法和屬性

responsehtml信息對(duì)象下的方法和屬性
response.url獲取抓取的rul
response.body獲取網(wǎng)頁(yè)內(nèi)容
response.body_as_unicode()獲取網(wǎng)站內(nèi)容unicode編碼
xpath()方法，用xpath表達(dá)式過(guò)濾節(jié)點(diǎn)
extract()方法，獲取過(guò)濾后的數(shù)據(jù)，返回列表

#?-*-?coding:?utf-8?-*-
import?scrapy

class?PachSpider(scrapy.Spider):
????name?=?"pach"
????allowed_domains?=?["blog.jobbole.com"]
????start_urls?=?["http://blog.jobbole.com/all-posts/"]

????def?parse(self,?response):
????????leir?=?response.xpath("http://a[@class="archive-title"]/text()").extract()??#獲取指定標(biāo)題
????????leir2?=?response.xpath("http://a[@class="archive-title"]/@href?").extract()?#獲取指定url

????????print(response.url)????#獲取抓取的rul
????????print(response.body)???#獲取網(wǎng)頁(yè)內(nèi)容
????????print(response.body_as_unicode())??#獲取網(wǎng)站內(nèi)容unicode編碼

????????for?i?in?leir:
????????????print(i)
????????for?i?in?leir2:
????????????print(i)

?
【轉(zhuǎn)載自：http://www.lqkweb.com】

GPU云服務(wù)器云服務(wù)器 scrapy啟動(dòng)爬蟲 scrapy啟動(dòng)爬蟲命令 scrapy分布式爬蟲 scrapy分布式爬蟲實(shí)例

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/45080.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

rubyshen

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

spinservers：圣何塞10Gbps帶寬服務(wù)器$109/月起,達(dá)拉斯10Gbps服務(wù)器$89/

閱讀 3848·2021-09-27 13:56
大一總結(jié)錄

閱讀 887·2021-09-08 09:36
【每日一包0026】delegates

閱讀 775·2019-08-30 15:54
11月百度面試題（社招）

閱讀 618·2019-08-29 17:29
svg和css3創(chuàng)建環(huán)形漸變進(jìn)度條

閱讀 938·2019-08-29 17:21
css中g(shù)rid屬性的使用

閱讀 1692·2019-08-29 16:59
寫網(wǎng)頁(yè)時(shí)拿起就用的小技巧

閱讀 2770·2019-08-29 13:03
如何成為一名優(yōu)秀的web前端工程師（前端攻城師）？

閱讀 2972·2019-08-29 12:47

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

18、 Python快速開發(fā)分布式搜索引擎Scrapy精講—Scrapy啟動(dòng)文件的配置—xpath表

相關(guān)文章

**23、 Python快速開發(fā)分布式搜索引擎Scrapy精講—craw scrapy item lo**

**25、Python快速開發(fā)分布式搜索引擎Scrapy精講—Requests請(qǐng)求和Response響應(yīng)**

**22、Python快速開發(fā)分布式搜索引擎Scrapy精講—scrapy模擬登陸和知乎倒立文字驗(yàn)證碼識(shí)**

**20、 Python快速開發(fā)分布式搜索引擎Scrapy精講—編寫spiders爬蟲文件循環(huán)抓取內(nèi)容**

**21、 Python快速開發(fā)分布式搜索引擎Scrapy精講—爬蟲數(shù)據(jù)保存**

發(fā)表評(píng)論

0條評(píng)論

rubyshen

男|高級(jí)講師

TA的文章

spinservers：圣何塞10Gbps帶寬服務(wù)器$109/月起,達(dá)拉斯10Gbps服務(wù)器$89/

大一總結(jié)錄

【每日一包0026】delegates

11月百度面試題（社招）

svg和css3創(chuàng)建環(huán)形漸變進(jìn)度條

css中g(shù)rid屬性的使用

寫網(wǎng)頁(yè)時(shí)拿起就用的小技巧

如何成為一名優(yōu)秀的web前端工程師（前端攻城師）？

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

18、 Python快速開發(fā)分布式搜索引擎Scrapy精講—Scrapy啟動(dòng)文件的配置—xpath表

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

18、 Python快速開發(fā)分布式搜索引擎Scrapy精講—Scrapy啟動(dòng)文件的配置—xpath表