成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

手把手教你寫電商爬蟲-第一課 找個軟柿子捏捏

springDevBird / 1061人閱讀

摘要:找小弟也要有找小弟的辦法,我們就去橘子上看看有沒有什么新的電商公司試試,找了一圈,就相中了這個切糕王子,名字霸氣,內(nèi)容簡單,非常適合我們這種新手練手,掌握一下基本技能。

話說現(xiàn)在基本上大家都在網(wǎng)上買東西,國家經(jīng)濟數(shù)據(jù)已經(jīng)可以在網(wǎng)絡購物的數(shù)據(jù)中略微窺見一二,再加上目前B2B行業(yè)的持續(xù)火爆,大有把所有交易搬到網(wǎng)上來的趨勢,這個系列教程就來講講如果爬取這些大量的電商交易的數(shù)據(jù)。

工具要求:教程中主要使用到了 1、神箭手云爬蟲框架 這個是爬蟲的基礎,2、Chrome瀏覽器和Chrome的插件XpathHelper 這個用來測試Xpath寫的是否正確
基礎知識:本教程中主要用到了一些基礎的js和xpath語法,如果對這兩種語言不熟悉,可以提前先學習下,都很簡單

教程正式開始,現(xiàn)在電商網(wǎng)站很多,牛逼哄哄的淘寶京東,新晉貴族唯品會聚美優(yōu)品 海淘的美麗說higo網(wǎng)易惠惠等等,作為新手,上來打boss的結果必定是灰屏回家,所以 我們現(xiàn)在新手村附近找個小弟練練級吧。

找小弟也要有找小弟的辦法,我們就去it橘子上看看有沒有什么新的電商公司試試,找了一圈,就相中了這個切糕王子,名字霸氣,內(nèi)容簡單,非常適合我們這種新手練手,掌握一下基本技能。

那我們就正式開始,首先,我們打開切糕王子的商品列表頁

http://www.qiegaowz.com/product/Default.html

只有5款商品,果然是互聯(lián)網(wǎng)思維,爆品邏輯。頓時讓我們有種用大炮大蚊子的趕腳,寫個爬蟲的時間,不如手動復制了。不過,誰讓我們是程序員呢?手動復制這么low的事情說出去都丟不起這個人。

開始前先給大家普及一下爬蟲的基本步驟:

1.選定入口url,也叫種子url,就是讓爬蟲從哪個頁面開始爬
2.區(qū)分哪些是內(nèi)容頁面,也就是我們需要抽取數(shù)據(jù)的頁面,哪些是中間頁,就是連接其他頁面,沒有我們需要的數(shù)據(jù)的頁面
3.對內(nèi)容頁寫抽取規(guī)則
4.開始爬蟲

好了,那我們就開始了

第一步來:這個網(wǎng)站的入口url很簡單,就一個頁面

http://www.qiegaowz.com/product/Default.html 

就是他了,也沒別人

第二步:內(nèi)容頁面就是那5個商品的頁面

http://www.qiegaowz.com/product/5ee97997-1700-4d19-b93a-6bd7c930fefe.html
http://www.qiegaowz.com/product/ccdf1d03-58da-48a9-bfd2-d9c403b56c98.html
http://www.qiegaowz.com/product/1f44feec-751a-4656-9e42-ec1cb7d8dee6.html
http://www.qiegaowz.com/product/83106246-d38e-42da-a0a4-2289f699b066.html
http://www.qiegaowz.com/product/a723b3cc-91f0-495f-b7b8-792b4470a6e6.html

神箭手框架里是將內(nèi)容頁用正則表達式來限制的,那沒這幾個頁面統(tǒng)一一個正則的話就是

http://www.qiegaowz.com/product/[0-9a-z]{8}-[0-9a-z]{4}-[0-9a-z]{4}-[0-9a-z]{4}-[0-9a-z]{12}.html

什么?有人覺得這個太難了,那我們可以再簡單一點:

http://www.qiegaowz.com/product/.{36}.html

特別提醒,在正則表達式中,"."和"?"這個字符是需要轉義的,這些千萬不能寫錯了。

中間頁的話,就是http://www.qiegaowz.com/product/Default.html,轉換成正則的格式:

http://www.qiegaowz.com/product/Default.html

第三步:我們打開其中一個商品的頁面

發(fā)現(xiàn)整個頁面沒啥內(nèi)容,我們就勉強來分成三個部分吧,分別是 縮略圖,商品名稱,內(nèi)容

先看縮略圖:我們用chrome打開,并打開開發(fā)者工具:

根據(jù)html的層級結構,主要找class和ID的節(jié)點,我們可以看到我們這個圖片的自己的標簽是img標簽,沒有什么特別的屬性,那沒看他的父標簽,

我們來查一下發(fā)現(xiàn)這個showpic再整個頁面里面出現(xiàn)了1次,那么用這個showpic的class就可以直接定位到這個圖片,xpath的寫法就是:

//div[contains(@class,"showpic")]/img/@src

簡單解釋下xpath,開始的兩個//代表著從根目錄開始不確定過了多少級,如果是單/則代表是一級層級關系,class屬性的選擇我們通常使用contains是為了防止一個標簽有多個class,最后因為我們要獲取的是圖片的地址,所以最終我們要選取到src屬性,好了 我們寫完之后 用xpathhelper檢測一下對不對

沒問題,另外兩個抽取項在這里就不詳細解釋了,方式大同小異,直接放結果:

//div[contains(@class,"showpic")]/img/@src
//div[contains(@class,"showproduct")]/h1
//div[contains(@class,"shownewdes")]

OK,那么到這里,我們爬蟲的準備工作已經(jīng)做完了,根據(jù)神箭手框架的文檔,我們將我們的準備好的代碼組裝一下如下,

var configs = {  
    domains: ["www.qiegaowz.com"],  
    scanUrls: ["http://www.qiegaowz.com/product/Default.html"],  
    contentUrlRegexes: ["http://www.qiegaowz.com/product/.{36}.html"],  
    helpUrlRegexes:["http://www.qiegaowz.com/product/Default.html"],  
    fields: [  
        {  
            // 商品縮略圖  
            name: "thumbnail",  
            selector: "http://div[contains(@class,"showpic")]/img/@src",  
        },  
        {  
            // 商品標題  
            name: "title",  
            selector: "http://div[contains(@class,"showproduct")]/h1",  
        },  
        {  
            // 商品內(nèi)容  
            name: "content",  
            selector: "http://div[contains(@class,"shownewdes")]",  
        }  
    ]  
};  
  
start(configs);  

到這里就大功告成了,我們將代碼復制神箭手后臺代碼中,保存并測試下,順利爬到數(shù)據(jù)。

不過還有一些遺留問題,如商品內(nèi)容中有一些我們不需要的內(nèi)容,如何去掉,這個我們可以在后面的教程中詳細解釋。

文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://systransis.cn/yun/79427.html

相關文章

  • 把手你寫電商爬蟲-一課 個軟柿子捏捏

    摘要:找小弟也要有找小弟的辦法,我們就去橘子上看看有沒有什么新的電商公司試試,找了一圈,就相中了這個切糕王子,名字霸氣,內(nèi)容簡單,非常適合我們這種新手練手,掌握一下基本技能。 話說現(xiàn)在基本上大家都在網(wǎng)上買東西,國家經(jīng)濟數(shù)據(jù)已經(jīng)可以在網(wǎng)絡購物的數(shù)據(jù)中略微窺見一二,再加上目前B2B行業(yè)的持續(xù)火爆,大有把所有交易搬到網(wǎng)上來的趨勢,這個系列教程就來講講如果爬取這些大量的電商交易的數(shù)據(jù)。 工具要求:教...

    source 評論0 收藏0
  • 互聯(lián)網(wǎng)金融爬蟲怎么寫-一課 p2p網(wǎng)貸爬蟲(XPath入門)

    摘要:之前寫了一個電商爬蟲系列的文章,簡單的給大家展示了一下爬蟲從入門到進階的路徑,但是作為一個永遠走在時代前沿的科技工作者,我們從來都不能停止。金融數(shù)據(jù)實在是價值大,維度多,來源廣。由于也是一種,因此通常來說,在中抽取某個元素是通過來做的。 相關教程: 手把手教你寫電商爬蟲-第一課 找個軟柿子捏捏 手把手教你寫電商爬蟲-第二課 實戰(zhàn)尚妝網(wǎng)分頁商品采集爬蟲 手把手教你寫電商爬蟲-第三課 實戰(zhàn)...

    kk_miles 評論0 收藏0
  • 互聯(lián)網(wǎng)金融爬蟲怎么寫-一課 p2p網(wǎng)貸爬蟲(XPath入門)

    摘要:之前寫了一個電商爬蟲系列的文章,簡單的給大家展示了一下爬蟲從入門到進階的路徑,但是作為一個永遠走在時代前沿的科技工作者,我們從來都不能停止。金融數(shù)據(jù)實在是價值大,維度多,來源廣。由于也是一種,因此通常來說,在中抽取某個元素是通過來做的。 相關教程: 手把手教你寫電商爬蟲-第一課 找個軟柿子捏捏 手把手教你寫電商爬蟲-第二課 實戰(zhàn)尚妝網(wǎng)分頁商品采集爬蟲 手把手教你寫電商爬蟲-第三課 實戰(zhàn)...

    jlanglang 評論0 收藏0
  • 把手你寫電商爬蟲-第二課 實戰(zhàn)尚妝網(wǎng)分頁商品采集爬蟲

    摘要:剩下的同學,我們繼續(xù)了可以看出,作為一個完善的電商網(wǎng)站,尚妝網(wǎng)有著普通電商網(wǎng)站所擁有的主要的元素,包括分類,分頁,主題等等。 系列教程 手把手教你寫電商爬蟲-第一課 找個軟柿子捏捏 如果沒有看過第一課的朋友,請先移步第一課,第一課講了一些基礎性的東西,通過軟柿子切糕王子這個電商網(wǎng)站好好的練了一次手,相信大家都應該對寫爬蟲的流程有了一個大概的了解,那么這課咱們就話不多說,正式上戰(zhàn)場,對壘...

    junfeng777 評論0 收藏0
  • 把手你寫電商爬蟲-第二課 實戰(zhàn)尚妝網(wǎng)分頁商品采集爬蟲

    摘要:剩下的同學,我們繼續(xù)了可以看出,作為一個完善的電商網(wǎng)站,尚妝網(wǎng)有著普通電商網(wǎng)站所擁有的主要的元素,包括分類,分頁,主題等等。 系列教程 手把手教你寫電商爬蟲-第一課 找個軟柿子捏捏 如果沒有看過第一課的朋友,請先移步第一課,第一課講了一些基礎性的東西,通過軟柿子切糕王子這個電商網(wǎng)站好好的練了一次手,相信大家都應該對寫爬蟲的流程有了一個大概的了解,那么這課咱們就話不多說,正式上戰(zhàn)場,對壘...

    objc94 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<