成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

某電商商品屬性獲取分析

taoszu / 1117人閱讀

摘要:為完成一個(gè)小型爬蟲項(xiàng)目,在并未使用該平臺(tái)提供的情況下,細(xì)致分析了國內(nèi)某著名電商網(wǎng)站商品屬性的獲取思路和方法,茲此記錄分享,學(xué)習(xí)交流。動(dòng)態(tài)內(nèi)容部分該網(wǎng)站大部分商品屬性都是通過動(dòng)態(tài)獲取的。其余不能通過靜態(tài)內(nèi)容獲取的屬性均可類比分析嘗試獲得。

為完成一個(gè)小型爬蟲項(xiàng)目,在并未使用該平臺(tái)提供的API情況下,細(xì)致分析了國內(nèi)某著名電商網(wǎng)站商品屬性的獲取思路和方法,茲此記錄分享,學(xué)習(xí)交流。

靜態(tài)頁面部分

為了獲取靜態(tài)頁面部分的內(nèi)容,需要使用firefox的開發(fā)者功能禁用javascript,如圖

勾選"Disable JavaScript"。刷新頁面后可見。通過靜態(tài)頁面可獲取標(biāo)題,商品ID,分類號(hào),商品URL,圖片url等內(nèi)容??芍苯邮褂谜齽t表達(dá)式或xpath等工具分析獲得,這里不再贅述。

動(dòng)態(tài)內(nèi)容部分

該網(wǎng)站大部分商品屬性都是通過ajax動(dòng)態(tài)獲取的。還是通過瀏覽器來分析。取消勾選"Disable JavaScript"后,使用"Network"工具可對(duì)服務(wù)器響應(yīng)的包進(jìn)行抓包和分類。為避免反復(fù)重新加載頁面時(shí)緩存的影響,勾選"Disable Cache"選項(xiàng)。先打開"Network"界面,然后刷新頁面,可獲得加載過程的抓包內(nèi)容。ajax請求返回的數(shù)據(jù)為json或js類型。例如:
某json數(shù)據(jù)
url為

http://p.3.cn/prices/get?callback=cnp&type=1&area=1_72_4137&pdtk=&pduid=1516989398&pdpin=&pdbp=0&skuid=J_1743187

可在network工具箱內(nèi)查看其response內(nèi)容為

對(duì)照頁面內(nèi)容后發(fā)現(xiàn)其中p字段正是商品價(jià)格數(shù)據(jù)!
通過直接打開鏈接得到j(luò)son串為

cnp([{"id":"J_1743187","p":"499.00","m":"549.00"}]);

此response中帶有回調(diào)函數(shù)名"cnp",觀察在url中也有一個(gè)相同字段。遂嘗試在url中去掉該字段,重新請求后

http://p.3.cn/prices/get?type=1&area=1_72_4137&pduid=1516989398&pdbp=0&skuid=J_1743187

獲得json:

[{"id":"J_1743187","p":"499.00","m":"549.00"}]

繼續(xù)嘗試刪除請求中的get參數(shù),最終發(fā)現(xiàn)可用

http://p.3.cn/prices/mgets?skuids=J_1743187

正常獲取到相同的數(shù)據(jù)。
python解析代碼:

import urllib2
import json

p=urllib2.urlopen("http://p.3.cn/prices/get?type=1&area=1_72_4137&pduid=1516989398&pdbp=0&skuid=J_1743187").read()
p_json=json.loads(p)
price=p_json["p"]

獲取到價(jià)格數(shù)據(jù),方便了自動(dòng)化生成。其余不能通過靜態(tài)內(nèi)容獲取的屬性均可類比分析嘗試獲得。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37700.html

相關(guān)文章

  • 電商參考架構(gòu)第二部分:庫存優(yōu)化方法

    摘要:在這些系統(tǒng)中,單個(gè)店鋪維護(hù)他們各自的庫存,然后在某個(gè)特定的時(shí)間間隔之后通常是晚上將數(shù)據(jù)返回關(guān)系型數(shù)據(jù)庫管理系統(tǒng)中心。接著,關(guān)系型數(shù)據(jù)庫管理系統(tǒng)將當(dāng)天接收到的所有數(shù)據(jù)整合和分類之后,用于分析報(bào)表等操作,并且將其提供給外部及內(nèi)部應(yīng)用。 本文源地址:http://www.mongoing.com/blog/retail-reference-architecture-part-2-appr.....

    Near_Li 評(píng)論0 收藏0
  • 電商參考架構(gòu)第二部分:庫存優(yōu)化方法

    摘要:在這些系統(tǒng)中,單個(gè)店鋪維護(hù)他們各自的庫存,然后在某個(gè)特定的時(shí)間間隔之后通常是晚上將數(shù)據(jù)返回關(guān)系型數(shù)據(jù)庫管理系統(tǒng)中心。接著,關(guān)系型數(shù)據(jù)庫管理系統(tǒng)將當(dāng)天接收到的所有數(shù)據(jù)整合和分類之后,用于分析報(bào)表等操作,并且將其提供給外部及內(nèi)部應(yīng)用。 本文源地址:http://www.mongoing.com/blog/retail-reference-architecture-part-2-appr.....

    zr_hebo 評(píng)論0 收藏0
  • 互聯(lián)網(wǎng)業(yè)務(wù)安全之通用安全風(fēng)險(xiǎn)模型

    摘要:驗(yàn)證碼安全參考信息重放登錄注冊找密等入口,可能通過短信驗(yàn)證碼郵箱驗(yàn)證碼之類的進(jìn)行確認(rèn)操作,如果末對(duì)操作進(jìn)行次數(shù)及頻率上的限制,則會(huì)產(chǎn)生大量的重放攻擊。高并發(fā)缺陷交易類重放攻擊,高并發(fā)的情況下末對(duì)用戶操作行為加鎖,導(dǎo)致購買限制的繞過。 showImg(https://segmentfault.com/img/bVBVVR); 業(yè)務(wù)安全從流程設(shè)計(jì)維度可劃分為賬戶體系安全、交易體系安全、支付...

    liaorio 評(píng)論0 收藏0
  • 基于深度學(xué)習(xí)的商品檢索技術(shù)

    摘要:當(dāng)前,很多學(xué)者和研究機(jī)構(gòu)都嘗試基于深度學(xué)習(xí)進(jìn)行服裝檢索技術(shù)的探究與創(chuàng)新。下文將回顧三篇基于深度學(xué)習(xí)來解決跨域服裝檢索問題的文章。總的來說,以上深度學(xué)習(xí)方法的探索與創(chuàng)新都將為商品檢索技術(shù)趨 摘要商品檢索是一門綜合了物體檢測、 圖像分類以及特征學(xué)習(xí)的技術(shù)。 近期, 很多研究者成功地將深度學(xué)習(xí)方法應(yīng)用到這個(gè)領(lǐng)域。 本文對(duì)這些方法進(jìn)行了總結(jié), 然后概括地提出了商品特征學(xué)習(xí)框架以及垂類數(shù)據(jù)挖掘方式, ...

    Half 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<