scrapy的學(xué)習(xí)之路1(簡單的例子)

guqiu 發(fā)布于2019-07-31 11:00 / 2806人閱讀

摘要：的安裝環(huán)境是后面創(chuàng)建用來運(yùn)行的名網(wǎng)站域名在創(chuàng)建可以通過此文件運(yùn)行本文件名父文件名路徑和父文件名設(shè)置環(huán)境，必須以上運(yùn)行可能在下會(huì)報(bào)錯(cuò)準(zhǔn)備工作完在下獲取列表頁每一個(gè)的把獲取到的交給

scrapy的安裝 環(huán)境:python3.6 1

    pip install -i https://pypi.douban.com/simple/  scrapy

    scrapy startproject ArticleSpider

main.py是后面創(chuàng)建用來運(yùn)行scrapy的

cd ArticleSpider

scrapy genspider jobbole blog.jobbole.com
                 ------- ----------------
                 spider名    網(wǎng)站域名

在ArticleSpider創(chuàng)建main.py,可以通過此文件運(yùn)行scrapy

from scrapy.cmdline import execute
import sys
import os


# print(__file__) #本文件名
# print(os.path.dirname(__file__)) #父文件名
# print(os.path.abspath(os.path.dirname(__file__))) #路徑和父文件名

sys.path.append(os.path.dirname(os.path.abspath(__file__))) #設(shè)置環(huán)境，必須

execute(["scrapy", "crawl", "jobbole"])

以上運(yùn)行可能在win下會(huì)報(bào)錯(cuò)

settings.py

準(zhǔn)備工作完

在jobbole.py下

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
import re
from urllib import parse


class JobboleSpider(scrapy.Spider):
    name = "jobbole"
    allowed_domains = ["blog.jobbole.com"]
    start_urls = ["http://blog.jobbole.com/all-posts/"]
    
    def parse(self, response):
        # 獲取列表頁每一個(gè)item的url
        post_urls = response.css("#archive .floated-thumb .post-thumb a::attr(href)").extract()
        for post_url in post_urls:
            print(post_url)
            yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_info)  # 把獲取到的url交給詳情頁的方法處理
        # 獲取下一頁的url
        next_url = response.css(".next.page-numbers::attr(href)").extract_first()
        if next_url:
            yield Request(url=parse.urljoin(response.url, next_url), callback=self.parse)  # 把獲取到的下一頁的url交給自己的方法處理
    
    """獲取詳情頁的信息"""
    def parse_info(self, response):
        # 以下都是獲取詳情頁信息
        res_title = response.xpath("http://div[@class="entry-header"]/h1/text()").extract_first()
        res_date = response.xpath("http://p[@class="entry-meta-hide-on-mobile"]/text()").extract_first().strip().replace("·", "").strip()
        res_zhan = response.xpath("http://span[contains(@class, "vote-post-up")]/h10/text()").extract_first()
        res_content = response.xpath("http://div[@class="entry"]/p/text()").extract_first()

        res_cate_a = response.xpath("http://p[@class="entry-meta-hide-on-mobile"]/a/text()").extract_first()
        res_cate_b = [i.strip() for i in res_cate_a if not i.strip().endswith("評(píng)論")]
        res_cate_c = ",".join(res_cate_b)

        res_shoucang = response.xpath("http://div[@class="post-adds"]/span[2]/text()").extract_first().strip()
        match_obj1 = re.match(".*(d+).*", res_shoucang)
        if match_obj1:
            res_shoucang = match_obj1.group(1)
        else:
            res_shoucang = 0

        res_comment = response.xpath("http://div[@class="post-adds"]/a/span/text()").extract_first().strip()
        match_obj2 = re.match(".*(d+).*", res_comment)
        if match_obj2:
            res_comment = match_obj2.group(1)
        else:
            res_comment = 0

GPU云服務(wù)器云服務(wù)器簡單的python例子機(jī)器學(xué)習(xí)的例子簡單的深度學(xué)習(xí) 最簡單的深度學(xué)習(xí)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/44481.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

guqiu

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

jsp代碼實(shí)例第102課

閱讀 2601·2021-11-23 09:51
一周的前端面試

閱讀 3140·2019-08-30 15:54
使用 CSS 計(jì)數(shù)器

閱讀 1094·2019-08-30 14:14
absolute和relative的位置關(guān)系與偽元素

閱讀 3568·2019-08-30 13:59
火狐使用阿里云OOS上傳圖片報(bào)錯(cuò)：“XML 解析錯(cuò)誤：找不到根元素”

閱讀 1444·2019-08-29 17:09
瀏覽器和兼容問題

閱讀 1488·2019-08-29 16:24
小豬喬治和border-radius

閱讀 2873·2019-08-29 15:43
重拾css(5)——瀏覽器默認(rèn)樣式

閱讀 940·2019-08-29 12:45

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

scrapy的學(xué)習(xí)之路1(簡單的例子)

相關(guān)文章

scrapy學(xué)習(xí)之路2(圖片下載與下載的路徑獲取)

scrapy 學(xué)習(xí)之路上的那些坑

scrapy學(xué)習(xí)之路5(selenium集成到scrapy下(crawspider未測(cè)試))

scrapy學(xué)習(xí)之路1.1(正則表達(dá)式)

scrapy學(xué)習(xí)之路3(爬取的數(shù)據(jù)保存本地文件或MYSQL)

發(fā)表評(píng)論

0條評(píng)論

guqiu

男|高級(jí)講師

TA的文章

jsp代碼實(shí)例第102課

一周的前端面試

使用 CSS 計(jì)數(shù)器

absolute和relative的位置關(guān)系與偽元素

火狐使用阿里云OOS上傳圖片報(bào)錯(cuò)：“XML 解析錯(cuò)誤：找不到根元素”

瀏覽器和兼容問題

小豬喬治和border-radius

重拾css(5)——瀏覽器默認(rèn)樣式

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

scrapy的學(xué)習(xí)之路1(簡單的例子)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！