摘要:找小弟也要有找小弟的辦法,我們就去橘子上看看有沒(méi)有什么新的電商公司試試,找了一圈,就相中了這個(gè)切糕王子,名字霸氣,內(nèi)容簡(jiǎn)單,非常適合我們這種新手練手,掌握一下基本技能。
話說(shuō)現(xiàn)在基本上大家都在網(wǎng)上買東西,國(guó)家經(jīng)濟(jì)數(shù)據(jù)已經(jīng)可以在網(wǎng)絡(luò)購(gòu)物的數(shù)據(jù)中略微窺見(jiàn)一二,再加上目前B2B行業(yè)的持續(xù)火爆,大有把所有交易搬到網(wǎng)上來(lái)的趨勢(shì),這個(gè)系列教程就來(lái)講講如果爬取這些大量的電商交易的數(shù)據(jù)。
工具要求:教程中主要使用到了 1、神箭手云爬蟲框架 這個(gè)是爬蟲的基礎(chǔ),2、Chrome瀏覽器和Chrome的插件XpathHelper 這個(gè)用來(lái)測(cè)試Xpath寫的是否正確
基礎(chǔ)知識(shí):本教程中主要用到了一些基礎(chǔ)的js和xpath語(yǔ)法,如果對(duì)這兩種語(yǔ)言不熟悉,可以提前先學(xué)習(xí)下,都很簡(jiǎn)單
教程正式開(kāi)始,現(xiàn)在電商網(wǎng)站很多,牛逼哄哄的淘寶京東,新晉貴族唯品會(huì)聚美優(yōu)品 海淘的美麗說(shuō)higo網(wǎng)易惠惠等等,作為新手,上來(lái)打boss的結(jié)果必定是灰屏回家,所以 我們現(xiàn)在新手村附近找個(gè)小弟練練級(jí)吧。
找小弟也要有找小弟的辦法,我們就去it橘子上看看有沒(méi)有什么新的電商公司試試,找了一圈,就相中了這個(gè)切糕王子,名字霸氣,內(nèi)容簡(jiǎn)單,非常適合我們這種新手練手,掌握一下基本技能。
那我們就正式開(kāi)始,首先,我們打開(kāi)切糕王子的商品列表頁(yè)
http://www.qiegaowz.com/product/Default.html
只有5款商品,果然是互聯(lián)網(wǎng)思維,爆品邏輯。頓時(shí)讓我們有種用大炮大蚊子的趕腳,寫個(gè)爬蟲的時(shí)間,不如手動(dòng)復(fù)制了。不過(guò),誰(shuí)讓我們是程序員呢?手動(dòng)復(fù)制這么low的事情說(shuō)出去都丟不起這個(gè)人。
開(kāi)始前先給大家普及一下爬蟲的基本步驟:
1.選定入口url,也叫種子url,就是讓爬蟲從哪個(gè)頁(yè)面開(kāi)始爬
2.區(qū)分哪些是內(nèi)容頁(yè)面,也就是我們需要抽取數(shù)據(jù)的頁(yè)面,哪些是中間頁(yè),就是連接其他頁(yè)面,沒(méi)有我們需要的數(shù)據(jù)的頁(yè)面
3.對(duì)內(nèi)容頁(yè)寫抽取規(guī)則
4.開(kāi)始爬蟲
好了,那我們就開(kāi)始了
第一步來(lái):這個(gè)網(wǎng)站的入口url很簡(jiǎn)單,就一個(gè)頁(yè)面
http://www.qiegaowz.com/product/Default.html
就是他了,也沒(méi)別人
第二步:內(nèi)容頁(yè)面就是那5個(gè)商品的頁(yè)面
http://www.qiegaowz.com/product/5ee97997-1700-4d19-b93a-6bd7c930fefe.html http://www.qiegaowz.com/product/ccdf1d03-58da-48a9-bfd2-d9c403b56c98.html http://www.qiegaowz.com/product/1f44feec-751a-4656-9e42-ec1cb7d8dee6.html http://www.qiegaowz.com/product/83106246-d38e-42da-a0a4-2289f699b066.html http://www.qiegaowz.com/product/a723b3cc-91f0-495f-b7b8-792b4470a6e6.html
神箭手框架里是將內(nèi)容頁(yè)用正則表達(dá)式來(lái)限制的,那沒(méi)這幾個(gè)頁(yè)面統(tǒng)一一個(gè)正則的話就是
http://www.qiegaowz.com/product/[0-9a-z]{8}-[0-9a-z]{4}-[0-9a-z]{4}-[0-9a-z]{4}-[0-9a-z]{12}.html
什么?有人覺(jué)得這個(gè)太難了,那我們可以再簡(jiǎn)單一點(diǎn):
http://www.qiegaowz.com/product/.{36}.html
特別提醒,在正則表達(dá)式中,"."和"?"這個(gè)字符是需要轉(zhuǎn)義的,這些千萬(wàn)不能寫錯(cuò)了。
中間頁(yè)的話,就是http://www.qiegaowz.com/product/Default.html,轉(zhuǎn)換成正則的格式:
http://www.qiegaowz.com/product/Default.html
第三步:我們打開(kāi)其中一個(gè)商品的頁(yè)面
發(fā)現(xiàn)整個(gè)頁(yè)面沒(méi)啥內(nèi)容,我們就勉強(qiáng)來(lái)分成三個(gè)部分吧,分別是 縮略圖,商品名稱,內(nèi)容
先看縮略圖:我們用chrome打開(kāi),并打開(kāi)開(kāi)發(fā)者工具:
根據(jù)html的層級(jí)結(jié)構(gòu),主要找class和ID的節(jié)點(diǎn),我們可以看到我們這個(gè)圖片的自己的標(biāo)簽是img標(biāo)簽,沒(méi)有什么特別的屬性,那沒(méi)看他的父標(biāo)簽,
是 簡(jiǎn)單解釋下xpath,開(kāi)始的兩個(gè)//代表著從根目錄開(kāi)始不確定過(guò)了多少級(jí),如果是單/則代表是一級(jí)層級(jí)關(guān)系,class屬性的選擇我們通常使用contains是為了防止一個(gè)標(biāo)簽有多個(gè)class,最后因?yàn)槲覀円@取的是圖片的地址,所以最終我們要選取到src屬性,好了 我們寫完之后 用xpathhelper檢測(cè)一下對(duì)不對(duì) 沒(méi)問(wèn)題,另外兩個(gè)抽取項(xiàng)在這里就不詳細(xì)解釋了,方式大同小異,直接放結(jié)果: OK,那么到這里,我們爬蟲的準(zhǔn)備工作已經(jīng)做完了,根據(jù)神箭手框架的文檔,我們將我們的準(zhǔn)備好的代碼組裝一下如下, 到這里就大功告成了,我們將代碼復(fù)制神箭手后臺(tái)代碼中,保存并測(cè)試下,順利爬到數(shù)據(jù)。 不過(guò)還有一些遺留問(wèn)題,如商品內(nèi)容中有一些我們不需要的內(nèi)容,如何去掉,這個(gè)我們可以在后面的教程中詳細(xì)解釋。 文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。 轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/37923.html//div[contains(@class,"showpic")]/img/@src
//div[contains(@class,"showpic")]/img/@src
//div[contains(@class,"showproduct")]/h1
//div[contains(@class,"shownewdes")]
var configs = {
domains: ["www.qiegaowz.com"],
scanUrls: ["http://www.qiegaowz.com/product/Default.html"],
contentUrlRegexes: ["http://www.qiegaowz.com/product/.{36}.html"],
helpUrlRegexes:["http://www.qiegaowz.com/product/Default.html"],
fields: [
{
// 商品縮略圖
name: "thumbnail",
selector: "http://div[contains(@class,"showpic")]/img/@src",
},
{
// 商品標(biāo)題
name: "title",
selector: "http://div[contains(@class,"showproduct")]/h1",
},
{
// 商品內(nèi)容
name: "content",
selector: "http://div[contains(@class,"shownewdes")]",
}
]
};
start(configs);
摘要:找小弟也要有找小弟的辦法,我們就去橘子上看看有沒(méi)有什么新的電商公司試試,找了一圈,就相中了這個(gè)切糕王子,名字霸氣,內(nèi)容簡(jiǎn)單,非常適合我們這種新手練手,掌握一下基本技能。 話說(shuō)現(xiàn)在基本上大家都在網(wǎng)上買東西,國(guó)家經(jīng)濟(jì)數(shù)據(jù)已經(jīng)可以在網(wǎng)絡(luò)購(gòu)物的數(shù)據(jù)中略微窺見(jiàn)一二,再加上目前B2B行業(yè)的持續(xù)火爆,大有把所有交易搬到網(wǎng)上來(lái)的趨勢(shì),這個(gè)系列教程就來(lái)講講如果爬取這些大量的電商交易的數(shù)據(jù)。 工具要求:教...
摘要:之前寫了一個(gè)電商爬蟲系列的文章,簡(jiǎn)單的給大家展示了一下爬蟲從入門到進(jìn)階的路徑,但是作為一個(gè)永遠(yuǎn)走在時(shí)代前沿的科技工作者,我們從來(lái)都不能停止。金融數(shù)據(jù)實(shí)在是價(jià)值大,維度多,來(lái)源廣。由于也是一種,因此通常來(lái)說(shuō),在中抽取某個(gè)元素是通過(guò)來(lái)做的。 相關(guān)教程: 手把手教你寫電商爬蟲-第一課 找個(gè)軟柿子捏捏 手把手教你寫電商爬蟲-第二課 實(shí)戰(zhàn)尚妝網(wǎng)分頁(yè)商品采集爬蟲 手把手教你寫電商爬蟲-第三課 實(shí)戰(zhàn)...
摘要:之前寫了一個(gè)電商爬蟲系列的文章,簡(jiǎn)單的給大家展示了一下爬蟲從入門到進(jìn)階的路徑,但是作為一個(gè)永遠(yuǎn)走在時(shí)代前沿的科技工作者,我們從來(lái)都不能停止。金融數(shù)據(jù)實(shí)在是價(jià)值大,維度多,來(lái)源廣。由于也是一種,因此通常來(lái)說(shuō),在中抽取某個(gè)元素是通過(guò)來(lái)做的。 相關(guān)教程: 手把手教你寫電商爬蟲-第一課 找個(gè)軟柿子捏捏 手把手教你寫電商爬蟲-第二課 實(shí)戰(zhàn)尚妝網(wǎng)分頁(yè)商品采集爬蟲 手把手教你寫電商爬蟲-第三課 實(shí)戰(zhàn)...
摘要:剩下的同學(xué),我們繼續(xù)了可以看出,作為一個(gè)完善的電商網(wǎng)站,尚妝網(wǎng)有著普通電商網(wǎng)站所擁有的主要的元素,包括分類,分頁(yè),主題等等。 系列教程 手把手教你寫電商爬蟲-第一課 找個(gè)軟柿子捏捏 如果沒(méi)有看過(guò)第一課的朋友,請(qǐng)先移步第一課,第一課講了一些基礎(chǔ)性的東西,通過(guò)軟柿子切糕王子這個(gè)電商網(wǎng)站好好的練了一次手,相信大家都應(yīng)該對(duì)寫爬蟲的流程有了一個(gè)大概的了解,那么這課咱們就話不多說(shuō),正式上戰(zhàn)場(chǎng),對(duì)壘...
摘要:剩下的同學(xué),我們繼續(xù)了可以看出,作為一個(gè)完善的電商網(wǎng)站,尚妝網(wǎng)有著普通電商網(wǎng)站所擁有的主要的元素,包括分類,分頁(yè),主題等等。 系列教程 手把手教你寫電商爬蟲-第一課 找個(gè)軟柿子捏捏 如果沒(méi)有看過(guò)第一課的朋友,請(qǐng)先移步第一課,第一課講了一些基礎(chǔ)性的東西,通過(guò)軟柿子切糕王子這個(gè)電商網(wǎng)站好好的練了一次手,相信大家都應(yīng)該對(duì)寫爬蟲的流程有了一個(gè)大概的了解,那么這課咱們就話不多說(shuō),正式上戰(zhàn)場(chǎng),對(duì)壘...
閱讀 1014·2023-04-25 15:42
閱讀 3608·2021-11-02 14:38
閱讀 2900·2021-09-30 09:48
閱讀 1441·2021-09-23 11:22
閱讀 3404·2021-09-06 15:02
閱讀 3199·2021-09-04 16:41
閱讀 617·2021-09-02 15:41
閱讀 2026·2021-08-26 14:13