摘要:為完成一個(gè)小型爬蟲項(xiàng)目,在并未使用該平臺(tái)提供的情況下,細(xì)致分析了國內(nèi)某著名電商網(wǎng)站商品屬性的獲取思路和方法,茲此記錄分享,學(xué)習(xí)交流。動(dòng)態(tài)內(nèi)容部分該網(wǎng)站大部分商品屬性都是通過動(dòng)態(tài)獲取的。其余不能通過靜態(tài)內(nèi)容獲取的屬性均可類比分析嘗試獲得。
為完成一個(gè)小型爬蟲項(xiàng)目,在并未使用該平臺(tái)提供的API情況下,細(xì)致分析了國內(nèi)某著名電商網(wǎng)站商品屬性的獲取思路和方法,茲此記錄分享,學(xué)習(xí)交流。
靜態(tài)頁面部分為了獲取靜態(tài)頁面部分的內(nèi)容,需要使用firefox的開發(fā)者功能禁用javascript,如圖
勾選"Disable JavaScript"。刷新頁面后可見。通過靜態(tài)頁面可獲取標(biāo)題,商品ID,分類號(hào),商品URL,圖片url等內(nèi)容??芍苯邮褂谜齽t表達(dá)式或xpath等工具分析獲得,這里不再贅述。
該網(wǎng)站大部分商品屬性都是通過ajax動(dòng)態(tài)獲取的。還是通過瀏覽器來分析。取消勾選"Disable JavaScript"后,使用"Network"工具可對(duì)服務(wù)器響應(yīng)的包進(jìn)行抓包和分類。為避免反復(fù)重新加載頁面時(shí)緩存的影響,勾選"Disable Cache"選項(xiàng)。先打開"Network"界面,然后刷新頁面,可獲得加載過程的抓包內(nèi)容。ajax請求返回的數(shù)據(jù)為json或js類型。例如:
某json數(shù)據(jù)
url為
http://p.3.cn/prices/get?callback=cnp&type=1&area=1_72_4137&pdtk=&pduid=1516989398&pdpin=&pdbp=0&skuid=J_1743187
可在network工具箱內(nèi)查看其response內(nèi)容為
對(duì)照頁面內(nèi)容后發(fā)現(xiàn)其中p字段正是商品價(jià)格數(shù)據(jù)!
通過直接打開鏈接得到j(luò)son串為
cnp([{"id":"J_1743187","p":"499.00","m":"549.00"}]);
此response中帶有回調(diào)函數(shù)名"cnp",觀察在url中也有一個(gè)相同字段。遂嘗試在url中去掉該字段,重新請求后
http://p.3.cn/prices/get?type=1&area=1_72_4137&pduid=1516989398&pdbp=0&skuid=J_1743187
獲得json:
[{"id":"J_1743187","p":"499.00","m":"549.00"}]
繼續(xù)嘗試刪除請求中的get參數(shù),最終發(fā)現(xiàn)可用
http://p.3.cn/prices/mgets?skuids=J_1743187
正常獲取到相同的數(shù)據(jù)。
python解析代碼:
import urllib2 import json p=urllib2.urlopen("http://p.3.cn/prices/get?type=1&area=1_72_4137&pduid=1516989398&pdbp=0&skuid=J_1743187").read() p_json=json.loads(p) price=p_json["p"]
獲取到價(jià)格數(shù)據(jù),方便了自動(dòng)化生成。其余不能通過靜態(tài)內(nèi)容獲取的屬性均可類比分析嘗試獲得。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37700.html
摘要:在這些系統(tǒng)中,單個(gè)店鋪維護(hù)他們各自的庫存,然后在某個(gè)特定的時(shí)間間隔之后通常是晚上將數(shù)據(jù)返回關(guān)系型數(shù)據(jù)庫管理系統(tǒng)中心。接著,關(guān)系型數(shù)據(jù)庫管理系統(tǒng)將當(dāng)天接收到的所有數(shù)據(jù)整合和分類之后,用于分析報(bào)表等操作,并且將其提供給外部及內(nèi)部應(yīng)用。 本文源地址:http://www.mongoing.com/blog/retail-reference-architecture-part-2-appr.....
摘要:在這些系統(tǒng)中,單個(gè)店鋪維護(hù)他們各自的庫存,然后在某個(gè)特定的時(shí)間間隔之后通常是晚上將數(shù)據(jù)返回關(guān)系型數(shù)據(jù)庫管理系統(tǒng)中心。接著,關(guān)系型數(shù)據(jù)庫管理系統(tǒng)將當(dāng)天接收到的所有數(shù)據(jù)整合和分類之后,用于分析報(bào)表等操作,并且將其提供給外部及內(nèi)部應(yīng)用。 本文源地址:http://www.mongoing.com/blog/retail-reference-architecture-part-2-appr.....
摘要:驗(yàn)證碼安全參考信息重放登錄注冊找密等入口,可能通過短信驗(yàn)證碼郵箱驗(yàn)證碼之類的進(jìn)行確認(rèn)操作,如果末對(duì)操作進(jìn)行次數(shù)及頻率上的限制,則會(huì)產(chǎn)生大量的重放攻擊。高并發(fā)缺陷交易類重放攻擊,高并發(fā)的情況下末對(duì)用戶操作行為加鎖,導(dǎo)致購買限制的繞過。 showImg(https://segmentfault.com/img/bVBVVR); 業(yè)務(wù)安全從流程設(shè)計(jì)維度可劃分為賬戶體系安全、交易體系安全、支付...
摘要:當(dāng)前,很多學(xué)者和研究機(jī)構(gòu)都嘗試基于深度學(xué)習(xí)進(jìn)行服裝檢索技術(shù)的探究與創(chuàng)新。下文將回顧三篇基于深度學(xué)習(xí)來解決跨域服裝檢索問題的文章。總的來說,以上深度學(xué)習(xí)方法的探索與創(chuàng)新都將為商品檢索技術(shù)趨 摘要商品檢索是一門綜合了物體檢測、 圖像分類以及特征學(xué)習(xí)的技術(shù)。 近期, 很多研究者成功地將深度學(xué)習(xí)方法應(yīng)用到這個(gè)領(lǐng)域。 本文對(duì)這些方法進(jìn)行了總結(jié), 然后概括地提出了商品特征學(xué)習(xí)框架以及垂類數(shù)據(jù)挖掘方式, ...
閱讀 1806·2021-11-15 11:37
閱讀 3122·2021-11-04 16:05
閱讀 1940·2021-10-27 14:18
閱讀 2773·2021-08-12 13:30
閱讀 2511·2019-08-29 14:18
閱讀 2106·2019-08-29 13:07
閱讀 2056·2019-08-27 10:54
閱讀 2747·2019-08-26 12:15