成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

scrapy簡單學(xué)習(xí)3—簡單爬取中文網(wǎng)站(仿寫向)

王陸寬 / 809人閱讀

摘要:仿寫原創(chuàng)單頁面爬取爬取網(wǎng)站聯(lián)合早報網(wǎng)左側(cè)的標題,連接,內(nèi)容定義爬取內(nèi)容文件編寫保存文件命令備注打開出現(xiàn)亂碼,用記事本轉(zhuǎn)換成編碼,打開中文可正常。

仿寫原創(chuàng)——單頁面爬取
爬取網(wǎng)站:聯(lián)合早報網(wǎng)左側(cè)的標題,連接,內(nèi)容
1.item.py定義爬取內(nèi)容

import scrapy


class MaiziItem(scrapy.Item):
    title = scrapy.Field()
    link=scrapy.Field()
    desc =scrapy.Field()

2.spider文件編寫

# -*- coding: utf-8 -*-
#encoding=utf-8
import scrapy
from LianHeZaoBao.items import LianhezaobaoItem
reload(__import__("sys")).setdefaultencoding("utf-8") 

class MaimaiSpider(scrapy.Spider):
    name = "lianhe"
    allowed_domains = ["http://www.zaobao.com/news/china//"]
    start_urls = (
        "http://www.zaobao.com/news/china//",
    )

    def parse(self, response):
        
        for li in response.xpath("http://*[@id="l_title"]/ul/li"):
            item = LianhezaobaoItem()
            item["title"] = li.xpath("a[1]/p/text()").extract()
            item["link"]=li.xpath("a[1]/@href").extract()
            item["desc"] = li.xpath("a[2]/p/text()").extract()
            
            yield item

3.保存文件:命令scrapy crawl lianhe -o lianhe.csv
備注:excel打開出現(xiàn)亂碼,用記事本轉(zhuǎn)換成ANSI編碼,excel打開中文可正常。
4.完成樣式:

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/44164.html

相關(guān)文章

  • scrapy簡單學(xué)習(xí)6—爬取百度貼吧圖片(仿寫向

    摘要:主要是對上一篇文章的簡單仿寫,大家以后想批量下載什么圖片照格式仿寫就好。 主要是對上一篇文章的簡單仿寫,大家以后想批量下載什么圖片照格式仿寫就好。由于本人是tfboys的粉絲,所以平常沒事愛逛貼吧欣賞我家三小只的美圖,所以這次就以貼吧[小王的討論樓]為例,批量爬取該樓的圖片[1] itme.py編寫 import scrapy class WangyuantuItem(scrapy...

    trigkit4 評論0 收藏0
  • Python爬蟲之Scrapy學(xué)習(xí)(基礎(chǔ)篇)

    摘要:下載器下載器負責(zé)獲取頁面數(shù)據(jù)并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎的。一旦頁面下載完畢,下載器生成一個該頁面的,并將其通過下載中間件返回方向發(fā)送給引擎。 作者:xiaoyu微信公眾號:Python數(shù)據(jù)科學(xué)知乎:Python數(shù)據(jù)分析師 在爬蟲的路上,學(xué)習(xí)scrapy是一個必不可少的環(huán)節(jié)。也許有好多朋友此時此刻也正在接觸并學(xué)習(xí)sc...

    pkhope 評論0 收藏0
  • Python Scrapy爬蟲框架學(xué)習(xí)

    摘要:組件引擎負責(zé)控制數(shù)據(jù)流在系統(tǒng)中所有組件中流動,并在相應(yīng)動作發(fā)生時觸發(fā)事件。下載器下載器負責(zé)獲取頁面數(shù)據(jù)并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎的。 Scrapy 是用Python實現(xiàn)一個為爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。 一、Scrapy框架簡介 Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。 ...

    harriszh 評論0 收藏0
  • Scrapy 實戰(zhàn)之爬取妹子圖

    摘要:很多人學(xué)習(xí)爬蟲的第一驅(qū)動力就是爬取各大網(wǎng)站的妹子圖片,比如比較有名的。最后我們只需要運行程序,即可執(zhí)行爬取,程序運行命名如下完整代碼我已上傳到微信公眾號后臺,在癡海公眾號后臺回復(fù)即可獲取。本文首發(fā)于公眾號癡海,后臺回復(fù)即可獲取最新編程資源。 showImg(https://segmentfault.com/img/remote/1460000016780800); 閱讀文本大概需要 1...

    Achilles 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<