摘要:剛下載時(shí)項(xiàng)目中使用后得不到某寶的數(shù)據(jù),因?yàn)閿?shù)據(jù)是動(dòng)態(tài)生成的。使用去獲取數(shù)據(jù)某寶的取不到用某度的首頁(yè)試了下是可以的。我是根據(jù)店鋪名稱賣家地區(qū)中包含特定關(guān)鍵字來(lái)過(guò)濾的。把寶貝列表的做為輸入循環(huán)寶貝列表并進(jìn)入抓取交易量數(shù)據(jù)并保存。
項(xiàng)目背景
因前段時(shí)間公司有需求,想得到我們公司所在地區(qū)(四線城市)的電商企業(yè)的銷售額排名情況,時(shí)間緊急,調(diào)研無(wú) 果,花費(fèi)RMB若干買(mǎi)了某工具的數(shù)據(jù)服務(wù)(避免打廣告的嫌疑,就不提該工具的名稱了,網(wǎng)頁(yè)版的),勉強(qiáng)得到些數(shù) 據(jù),在我看來(lái)效果并不理想。恰逢近期公司想做大數(shù)據(jù)項(xiàng)目,需要用到爬蟲(chóng),所以趁此機(jī)會(huì)研究一下怎么抓取到這個(gè) 數(shù)據(jù)。踩坑過(guò)程
最先使用的是火車(頭)采集器,配置過(guò)程不算很麻煩,只是效果實(shí)在不敢恭維,穩(wěn)定性很差,同一個(gè)鏈接地址,一會(huì)兒能采集到數(shù)據(jù),一會(huì)兒采集不到,完全摸不到套路,果斷棄坑。
然后使用的是八爪魚(yú)采集器,配置不很復(fù)雜,網(wǎng)上有不少配置教程,也有些簡(jiǎn)易的模板可直接使用,功能比較強(qiáng)大,自帶瀏覽器功能,只要是頁(yè)面上能看到的內(nèi)容基本上都能抓取到。就是數(shù)據(jù)抓取后導(dǎo)出時(shí)需要付費(fèi)(以積分形式,注冊(cè)賬號(hào)給2000,之后花RMB購(gòu)買(mǎi))。還有就是在操作的過(guò)程中延時(shí)不能很好地控制(也許是我不會(huì)配置這個(gè)),造成觸發(fā)了某寶的反爬機(jī)制,彈出了登錄驗(yàn)證,再之后就不知道怎么配置去繞過(guò)這個(gè)驗(yàn)證了,不得已棄坑。
最后接收到領(lǐng)導(dǎo)的要求和客觀事實(shí)的存在,研究怎么自己開(kāi)發(fā)實(shí)現(xiàn)這樣的功能。經(jīng)過(guò)將近一周的努力,現(xiàn)在基本可以通過(guò)指定的驗(yàn)證,進(jìn)行數(shù)據(jù)的抓取。
(聲明一下,最初是從網(wǎng)上找了個(gè)項(xiàng)目MyCrawler,現(xiàn)在的功能是在該項(xiàng)目的基礎(chǔ)上實(shí)現(xiàn)的,只是使用到了項(xiàng)目包結(jié)構(gòu),沒(méi)有使用內(nèi)部代碼,實(shí)在是懶得自己建項(xiàng)目,弄結(jié)構(gòu)了。
原項(xiàng)目地址:https://www.cnblogs.com/sanmu...。
如果原作者介意的話,請(qǐng)聯(lián)系我刪除不相關(guān)代碼,聯(lián)系方式我會(huì)放在文末,謝謝。)
1)剛下載時(shí)項(xiàng)目中使用后得不到某寶的數(shù)據(jù),因?yàn)閿?shù)據(jù)是動(dòng)態(tài)生成的。 2)在項(xiàng)目中使用Jsoup去獲取數(shù)據(jù),也是獲取不到動(dòng)態(tài)生成的數(shù)據(jù)。 3)使用HttpUnit去獲取數(shù)據(jù),某寶的取不到,用某度的首頁(yè)試了下,是可以的。原因沒(méi)找到,也不知道該怎么去找, 反正就是response里空的,啥都沒(méi)有,很崩潰地棄坑了。 4)終于說(shuō)到今天的主角了,在網(wǎng)上找了N久,最后找到了Selenium。順便說(shuō)下,在此之前還找到了JxBrowser,不 過(guò)用不明白,果斷就算了。話說(shuō)后來(lái)他們客服還打電話詢問(wèn)情況來(lái)著。。。開(kāi)發(fā)過(guò)程
開(kāi)發(fā)環(huán)境
1)Win 10專業(yè)版 64位 2)JDK 1.8 3)Intellij IDEA Ultimate 2016.3 4)Maven用的IDEA自帶的Bundled (Maven 3) 5)Firefox 61 中文版 6)Selenium 3.11.0 7)geckodriver 0.20.0
開(kāi)發(fā)思路
由于反爬機(jī)制的存在,為避免數(shù)據(jù)抓到到一部分,被迫中斷,所以采取分步抓取的方式。 1)打開(kāi)某寶首頁(yè),搜索店鋪,關(guān)鍵字為想要數(shù)據(jù)的地區(qū)(至于我用的哪個(gè)地區(qū),代碼里有的),抓取并保存 店鋪列表。需要過(guò)濾,因?yàn)樗阉鹘Y(jié)果中會(huì)包含不相關(guān)的店鋪。我是根據(jù)店鋪名稱、賣家、地區(qū)中包含特定關(guān)鍵 字來(lái)過(guò)濾的。 2)把店鋪列表的url做為輸入,循環(huán)店鋪列表url并進(jìn)入,為方便操作,這一步要拼接部分地址,進(jìn)入的是該店鋪 所有寶貝列表頁(yè)面,而且是按銷量排序后的。抓取并保存寶貝列表。 3)把寶貝列表的url做為輸入,循環(huán)寶貝列表url并進(jìn)入,抓取交易量數(shù)據(jù)并保存。
開(kāi)發(fā)進(jìn)度
目前開(kāi)發(fā)出來(lái)的是開(kāi)發(fā)思路中的步驟1)和2),其中步驟1)不會(huì)出現(xiàn)登錄驗(yàn)證,步驟2)會(huì)出現(xiàn)。目前代碼 中包含登錄驗(yàn)證部分。后續(xù)的部分會(huì)繼續(xù)開(kāi)發(fā)。目前代碼運(yùn)行中,在抓取寶貝列表的數(shù)據(jù),400多個(gè)店鋪要抓 取還是需要不少時(shí)間的,為減少登錄驗(yàn)證彈出的可能,設(shè)定了寶貝翻頁(yè)間隔30秒。 有需求代碼的同學(xué)可在評(píng)論中留下郵箱,我看到了會(huì)打包郵寄的。聯(lián)系方式
郵箱:[email protected] 也可以加QQ交流。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/71489.html
摘要:中大多數(shù)的輸入框都是標(biāo)簽,但是由于業(yè)務(wù)中前端有使用到基于實(shí)現(xiàn)的富文本編輯器,在實(shí)現(xiàn)自動(dòng)化測(cè)試編寫(xiě)時(shí)自然會(huì)涉及到對(duì)富文本器進(jìn)行操作處理檢查該編輯器的元素,可以看到和正常的不同,該結(jié)構(gòu)為一個(gè)里面裹了個(gè)而在其中輸入文字,則是在改變中的如果有換行的 web中大多數(shù)的輸入框都是標(biāo)簽,但是由于業(yè)務(wù)中前端有使用到基于REACT實(shí)現(xiàn)的富文本編輯器,在實(shí)現(xiàn)自動(dòng)化測(cè)試編寫(xiě)時(shí)自然會(huì)涉及到對(duì)富文本器進(jìn)行操作處...
摘要:一通過(guò)定位下拉框先導(dǎo)入的模塊,在使用方法進(jìn)行操作方法一定位不等于不等于如果選項(xiàng)值不是固定的,直接將固定值替換成變量即可下面是的具體方法通過(guò)索引定位通過(guò)值定位通過(guò)文本值定位取消所有選項(xiàng)取消對(duì)應(yīng)選項(xiàng)取消對(duì)應(yīng)選項(xiàng)取消對(duì)應(yīng)文本選項(xiàng)返回第一個(gè)選 showImg(https://segmentfault.com/img/bVbk4IA);一、通過(guò)select定位下拉框先導(dǎo)入Select的模塊,在使...
摘要:訂單號(hào)用戶商品標(biāo)題商品價(jià)格商品封面圖商品其他屬性小明愛(ài)瘋手機(jī)其他屬性像上表中設(shè)計(jì),有人會(huì)問(wèn)了那關(guān)聯(lián)的意義何在呢我的回答是保持?jǐn)?shù)據(jù)關(guān)聯(lián),雖然商戶有可能改變商品屬性,但作為一名程序員,應(yīng)該盡可能的記錄用戶所有的動(dòng)作。 showImg(https://segmentfault.com/img/bVbdtuc?w=1824&h=1028); 電商大伙每天都在用,類似某貓,某狗等。電商系統(tǒng)設(shè)計(jì)看...
摘要:知識(shí)圖譜經(jīng)過(guò)幾年的發(fā)展已經(jīng)得到廣泛的應(yīng)用。例如,某地區(qū)某行業(yè)連續(xù)出現(xiàn)了多筆逾期貸款,通過(guò)對(duì)行業(yè)和客戶的知識(shí)圖譜進(jìn)行分析,可以及時(shí)發(fā)現(xiàn)該地區(qū)相關(guān)行業(yè)存在潛在風(fēng)險(xiǎn)的客戶。 知識(shí)圖譜經(jīng)過(guò)幾年的發(fā)展已經(jīng)得到廣泛的應(yīng)用。當(dāng)知識(shí)圖譜遇上人工智能,更加突顯出了它的優(yōu)勢(shì)和價(jià)值。 最先應(yīng)用于搜索 ![用Google搜索泰姬陵]() 最典型的就是在谷歌搜索引擎里面應(yīng)用。谷歌是在2012年率先提出來(lái)知識(shí)圖...
閱讀 2480·2021-11-22 15:35
閱讀 3773·2021-11-04 16:14
閱讀 2699·2021-10-20 13:47
閱讀 2510·2021-10-13 09:49
閱讀 2079·2019-08-30 14:09
閱讀 2380·2019-08-26 13:49
閱讀 893·2019-08-26 10:45
閱讀 2785·2019-08-23 17:54