scrapy簡單學(xué)習(xí)3—簡單爬取中文網(wǎng)站（仿寫向）

王陸寬發(fā)布于2019-07-31 10:49 / 809人閱讀

摘要：仿寫原創(chuàng)單頁面爬取爬取網(wǎng)站聯(lián)合早報網(wǎng)左側(cè)的標題，連接，內(nèi)容定義爬取內(nèi)容文件編寫保存文件命令備注打開出現(xiàn)亂碼，用記事本轉(zhuǎn)換成編碼，打開中文可正常。

仿寫原創(chuàng)——單頁面爬取
爬取網(wǎng)站：聯(lián)合早報網(wǎng)左側(cè)的標題，連接，內(nèi)容
1.item.py定義爬取內(nèi)容

import scrapy


class MaiziItem(scrapy.Item):
    title = scrapy.Field()
    link=scrapy.Field()
    desc =scrapy.Field()

2.spider文件編寫

# -*- coding: utf-8 -*-
#encoding=utf-8
import scrapy
from LianHeZaoBao.items import LianhezaobaoItem
reload(__import__("sys")).setdefaultencoding("utf-8") 

class MaimaiSpider(scrapy.Spider):
    name = "lianhe"
    allowed_domains = ["http://www.zaobao.com/news/china//"]
    start_urls = (
        "http://www.zaobao.com/news/china//",
    )

    def parse(self, response):
        
        for li in response.xpath("http://*[@id="l_title"]/ul/li"):
            item = LianhezaobaoItem()
            item["title"] = li.xpath("a[1]/p/text()").extract()
            item["link"]=li.xpath("a[1]/@href").extract()
            item["desc"] = li.xpath("a[2]/p/text()").extract()
            
            yield item

3.保存文件:命令scrapy crawl lianhe -o lianhe.csv
備注：excel打開出現(xiàn)亂碼，用記事本轉(zhuǎn)換成ANSI編碼，excel打開中文可正常。
4.完成樣式：

云服務(wù)器 GPU云服務(wù)器深度學(xué)習(xí)簡單學(xué)習(xí) 深度學(xué)習(xí)簡單簡單深度學(xué)習(xí) 簡單機器學(xué)習(xí)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/44164.html

發(fā)表評論

登陸后可評論

0條評論

王陸寬

男|高級講師

我要關(guān)注我要私信

TA的文章

青果云：香港CN2 GIA主機，簡單測評

閱讀 657·2021-10-27 14:15
hostyun，美國Cera vps，85折優(yōu)惠，回程三網(wǎng)AS4837聯(lián)通CU，去程163高防

閱讀 1186·2021-10-15 09:42
JQ實現(xiàn)發(fā)送短信驗證碼/倒計時60S~

閱讀 2748·2019-08-30 15:53
HTML5原生拖放事件的學(xué)習(xí)與實踐

閱讀 1290·2019-08-23 17:02
小程序遇到的坑

閱讀 2966·2019-08-23 16:23
JavaScript寫一個簡單的Ps濾鏡效果

閱讀 3184·2019-08-23 15:57
react-redux-antd項目搭建

閱讀 3465·2019-08-23 14:39
Javascript 函數(shù)和變量提升

閱讀 518·2019-08-23 14:35

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

scrapy簡單學(xué)習(xí)3—簡單爬取中文網(wǎng)站（仿寫向）

相關(guān)文章

scrapy簡單學(xué)習(xí)6—爬取百度貼吧圖片（仿寫向）

**Python爬蟲之Scrapy學(xué)習(xí)（基礎(chǔ)篇）**

Python Scrapy爬蟲框架學(xué)習(xí)

Scrapy 實戰(zhàn)之爬取妹子圖

發(fā)表評論

0條評論

王陸寬

男|高級講師

TA的文章

青果云：香港CN2 GIA主機，簡單測評

hostyun，美國Cera vps，85折優(yōu)惠，回程三網(wǎng)AS4837聯(lián)通CU，去程163高防

JQ實現(xiàn)發(fā)送短信驗證碼/倒計時60S~

HTML5原生拖放事件的學(xué)習(xí)與實踐

小程序遇到的坑

JavaScript寫一個簡單的Ps濾鏡效果

react-redux-antd項目搭建

Javascript 函數(shù)和變量提升

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

scrapy簡單學(xué)習(xí)3—簡單爬取中文網(wǎng)站（仿寫向）

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！