成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python爬蟲實戰(zhàn)(2):爬取京東商品列表

shevy / 2376人閱讀

摘要:,源代碼爬取京東商品列表,以手機商品列表為例示例網(wǎng)址版本京東手機列表源代碼下載位置請看文章末尾的源。,抓取結(jié)果運行上面的代碼,就會爬取京東手機品類頁面的所有手機型號價格等信息,并保存到本地文件京東手機列表中。

1,引言

在上一篇《python爬蟲實戰(zhàn):爬取Drupal論壇帖子列表》,爬取了一個用Drupal做的論壇,是靜態(tài)頁面,抓取比較容易,即使直接解析html源文件都可以抓取到需要的內(nèi)容。相反,JavaScript實現(xiàn)的動態(tài)網(wǎng)頁內(nèi)容,無法從html源代碼抓取需要的內(nèi)容,必須先執(zhí)行JavaScript。

我們在《Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態(tài)HTML內(nèi)容》一文已經(jīng)成功檢驗了動態(tài)網(wǎng)頁內(nèi)容的抓取方法,本文將實驗程序進行改寫,使用開源Python爬蟲規(guī)定的標準python內(nèi)容提取器,把代碼變得非常簡潔。

2,技術(shù)要點

我們在多個文章說過本開源爬蟲的目的:節(jié)省程序員的時間。關(guān)鍵是省去編寫提取規(guī)則的時間,尤其調(diào)試規(guī)則很花時間,節(jié)省時間問題在《1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt》一文已經(jīng)有了解決方案,本文我們用京東網(wǎng)站作為測試目標,而電商網(wǎng)站都有很多動態(tài)內(nèi)容,比如,產(chǎn)品價格和評論數(shù)等等,往往采用后加載的方式,在html源文檔加載完成以后再執(zhí)行javascript代碼把動態(tài)內(nèi)容填寫上,所以,本案例主要驗證動態(tài)內(nèi)容的抓取。

另外,本文案例沒有使用GooSeeker爬蟲API,而是把MS謀數(shù)臺生成的xslt腳本程序保存在本地文件中,在程序運行的時候把文件讀出來注入到gsExtractor提取器。后續(xù)會有專門的案例演示 API的使用方法。

總之,本示例兩個技術(shù)要點總結(jié)如下:
從本地文件讀取xlst程序
把xlst注入到提取器gsExtractor中,利用xslt從網(wǎng)頁上一次提取性多個字段內(nèi)容。

3,python源代碼
# -*- coding:utf-8 -*- 
# 爬取京東商品列表, 以手機商品列表為例
# 示例網(wǎng)址:http://list.jd.com/list.html?cat=9987,653,655&page=1&JL=6_0_0&ms=5
# crawler_jd_list.py
# 版本: V1.0

from urllib import request
from lxml import etree
from selenium import webdriver
from gooseeker import gsExtractor
import time

class Spider:
    def __init__(self):
        self.scrollpages = 0
        self.waittime = 3
        self.phantomjsPath = "C:phantomjs-2.1.1-windowsinphantomjs.exe"

    def getContent(self, url):
        browser = webdriver.PhantomJS( executable_path = self.phantomjsPath )
        browser.get(url)
        time.sleep(self.waittime)
        html = browser.execute_script("return document.documentElement.outerHTML")
        doc = etree.HTML(html)
        jdlistExtra = gsExtractor()
        jdlistExtra.setXsltFromFile("jd_list.xml")
        output = jdlistExtra.extract(doc)
        return output

    def saveContent(self, filepath, content):
        file_obj = open(filepath, "w", encoding="UTF-8")
        file_obj.write(content)
        file_obj.close()

url = "http://list.jd.com/list.html?cat=9987,653,655&page=1&JL=6_0_0&ms=5"
jdspider = Spider()
result = jdspider.getContent(url)
jdspider.saveContent("京東手機列表_1.xml", str(result))

源代碼下載位置請看文章末尾的GitHub源。

4,抓取結(jié)果

運行上面的代碼,就會爬取京東手機品類頁面的所有手機型號、價格等信息,并保存到本地文件“京東手機列表_1.xml”中。我們用瀏覽器打開這個結(jié)果文件,會看到如下的內(nèi)容

5,相關(guān)文檔

1, Python即時網(wǎng)絡爬蟲項目: 內(nèi)容提取器的定義

6,集搜客GooSeeker開源代碼下載源

1, GooSeeker開源Python網(wǎng)絡爬蟲GitHub源

7,文檔修改歷史

1,2016-06-08:V1.0

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/45476.html

相關(guān)文章

  • Python: xml轉(zhuǎn)json

    摘要:,實驗用的文件我們使用爬蟲實戰(zhàn)爬取京東商品列表一文的結(jié)果文件,爬蟲爬取的結(jié)果保存在京東手機列表文件中。,相關(guān)文檔,即時網(wǎng)絡爬蟲項目內(nèi)容提取器的定義,爬蟲實戰(zhàn)爬取京東商品列表,集搜客開源代碼下載源,開源網(wǎng)絡爬蟲源,文檔修改歷史,首次發(fā)布 showImg(https://segmentfault.com/img/bVyf6R); 1,引言 GooSeeker早在9年前就開始了Semanti...

    _Suqin 評論0 收藏0
  • Python: xml轉(zhuǎn)json

    摘要:,實驗用的文件我們使用爬蟲實戰(zhàn)爬取京東商品列表一文的結(jié)果文件,爬蟲爬取的結(jié)果保存在京東手機列表文件中。,相關(guān)文檔,即時網(wǎng)絡爬蟲項目內(nèi)容提取器的定義,爬蟲實戰(zhàn)爬取京東商品列表,集搜客開源代碼下載源,開源網(wǎng)絡爬蟲源,文檔修改歷史,首次發(fā)布 showImg(https://segmentfault.com/img/bVyf6R); 1,引言 GooSeeker早在9年前就開始了Semanti...

    sourcenode 評論0 收藏0
  • 手把手教你寫電商爬蟲-第五課 京東商品評論爬蟲 一起來對付反爬蟲

    摘要:和前面幾節(jié)課類似的分析這節(jié)課就不做了,對于分頁,請求什么的,大家可以直接參考前面的四節(jié)課,這一刻主要特別的是,我們在采集商品的同時,會將京東的商品評價采集下來。 系列教程: 手把手教你寫電商爬蟲-第一課 找個軟柿子捏捏 手把手教你寫電商爬蟲-第二課 實戰(zhàn)尚妝網(wǎng)分頁商品采集爬蟲 手把手教你寫電商爬蟲-第三課 實戰(zhàn)尚妝網(wǎng)AJAX請求處理和內(nèi)容提取 手把手教你寫電商爬蟲-第四課 淘寶網(wǎng)商品爬...

    jsummer 評論0 收藏0
  • 手把手教你寫電商爬蟲-第五課 京東商品評論爬蟲 一起來對付反爬蟲

    摘要:和前面幾節(jié)課類似的分析這節(jié)課就不做了,對于分頁,請求什么的,大家可以直接參考前面的四節(jié)課,這一刻主要特別的是,我們在采集商品的同時,會將京東的商品評價采集下來。 系列教程: 手把手教你寫電商爬蟲-第一課 找個軟柿子捏捏 手把手教你寫電商爬蟲-第二課 實戰(zhàn)尚妝網(wǎng)分頁商品采集爬蟲 手把手教你寫電商爬蟲-第三課 實戰(zhàn)尚妝網(wǎng)AJAX請求處理和內(nèi)容提取 手把手教你寫電商爬蟲-第四課 淘寶網(wǎng)商品爬...

    forsigner 評論0 收藏0

發(fā)表評論

0條評論

shevy

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<