成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Selenuim Java 借用某寶某地區(qū)的電商數(shù)據(jù)

Arno / 1105人閱讀

摘要:剛下載時(shí)項(xiàng)目中使用后得不到某寶的數(shù)據(jù),因?yàn)閿?shù)據(jù)是動(dòng)態(tài)生成的。使用去獲取數(shù)據(jù)某寶的取不到用某度的首頁(yè)試了下是可以的。我是根據(jù)店鋪名稱賣家地區(qū)中包含特定關(guān)鍵字來(lái)過(guò)濾的。把寶貝列表的做為輸入循環(huán)寶貝列表并進(jìn)入抓取交易量數(shù)據(jù)并保存。

項(xiàng)目背景
  因前段時(shí)間公司有需求,想得到我們公司所在地區(qū)(四線城市)的電商企業(yè)的銷售額排名情況,時(shí)間緊急,調(diào)研無(wú)
  果,花費(fèi)RMB若干買(mǎi)了某工具的數(shù)據(jù)服務(wù)(避免打廣告的嫌疑,就不提該工具的名稱了,網(wǎng)頁(yè)版的),勉強(qiáng)得到些數(shù)
  據(jù),在我看來(lái)效果并不理想。恰逢近期公司想做大數(shù)據(jù)項(xiàng)目,需要用到爬蟲(chóng),所以趁此機(jī)會(huì)研究一下怎么抓取到這個(gè)
  數(shù)據(jù)。
踩坑過(guò)程

最先使用的是火車(頭)采集器,配置過(guò)程不算很麻煩,只是效果實(shí)在不敢恭維,穩(wěn)定性很差,同一個(gè)鏈接地址,一會(huì)兒能采集到數(shù)據(jù),一會(huì)兒采集不到,完全摸不到套路,果斷棄坑。

然后使用的是八爪魚(yú)采集器,配置不很復(fù)雜,網(wǎng)上有不少配置教程,也有些簡(jiǎn)易的模板可直接使用,功能比較強(qiáng)大,自帶瀏覽器功能,只要是頁(yè)面上能看到的內(nèi)容基本上都能抓取到。就是數(shù)據(jù)抓取后導(dǎo)出時(shí)需要付費(fèi)(以積分形式,注冊(cè)賬號(hào)給2000,之后花RMB購(gòu)買(mǎi))。還有就是在操作的過(guò)程中延時(shí)不能很好地控制(也許是我不會(huì)配置這個(gè)),造成觸發(fā)了某寶的反爬機(jī)制,彈出了登錄驗(yàn)證,再之后就不知道怎么配置去繞過(guò)這個(gè)驗(yàn)證了,不得已棄坑。

最后接收到領(lǐng)導(dǎo)的要求和客觀事實(shí)的存在,研究怎么自己開(kāi)發(fā)實(shí)現(xiàn)這樣的功能。經(jīng)過(guò)將近一周的努力,現(xiàn)在基本可以通過(guò)指定的驗(yàn)證,進(jìn)行數(shù)據(jù)的抓取。
(聲明一下,最初是從網(wǎng)上找了個(gè)項(xiàng)目MyCrawler,現(xiàn)在的功能是在該項(xiàng)目的基礎(chǔ)上實(shí)現(xiàn)的,只是使用到了項(xiàng)目包結(jié)構(gòu),沒(méi)有使用內(nèi)部代碼,實(shí)在是懶得自己建項(xiàng)目,弄結(jié)構(gòu)了。
原項(xiàng)目地址:https://www.cnblogs.com/sanmu...。
如果原作者介意的話,請(qǐng)聯(lián)系我刪除不相關(guān)代碼,聯(lián)系方式我會(huì)放在文末,謝謝。)

    1)剛下載時(shí)項(xiàng)目中使用后得不到某寶的數(shù)據(jù),因?yàn)閿?shù)據(jù)是動(dòng)態(tài)生成的。
    2)在項(xiàng)目中使用Jsoup去獲取數(shù)據(jù),也是獲取不到動(dòng)態(tài)生成的數(shù)據(jù)。
    3)使用HttpUnit去獲取數(shù)據(jù),某寶的取不到,用某度的首頁(yè)試了下,是可以的。原因沒(méi)找到,也不知道該怎么去找,
    反正就是response里空的,啥都沒(méi)有,很崩潰地棄坑了。
    4)終于說(shuō)到今天的主角了,在網(wǎng)上找了N久,最后找到了Selenium。順便說(shuō)下,在此之前還找到了JxBrowser,不
    過(guò)用不明白,果斷就算了。話說(shuō)后來(lái)他們客服還打電話詢問(wèn)情況來(lái)著。。。

開(kāi)發(fā)過(guò)程

開(kāi)發(fā)環(huán)境

1)Win 10專業(yè)版 64位
2)JDK 1.8
3)Intellij IDEA Ultimate 2016.3
4)Maven用的IDEA自帶的Bundled (Maven 3)
5)Firefox 61 中文版
6)Selenium 3.11.0
7)geckodriver 0.20.0

開(kāi)發(fā)思路

 由于反爬機(jī)制的存在,為避免數(shù)據(jù)抓到到一部分,被迫中斷,所以采取分步抓取的方式。
 1)打開(kāi)某寶首頁(yè),搜索店鋪,關(guān)鍵字為想要數(shù)據(jù)的地區(qū)(至于我用的哪個(gè)地區(qū),代碼里有的),抓取并保存
 店鋪列表。需要過(guò)濾,因?yàn)樗阉鹘Y(jié)果中會(huì)包含不相關(guān)的店鋪。我是根據(jù)店鋪名稱、賣家、地區(qū)中包含特定關(guān)鍵
 字來(lái)過(guò)濾的。
 2)把店鋪列表的url做為輸入,循環(huán)店鋪列表url并進(jìn)入,為方便操作,這一步要拼接部分地址,進(jìn)入的是該店鋪
 所有寶貝列表頁(yè)面,而且是按銷量排序后的。抓取并保存寶貝列表。
 3)把寶貝列表的url做為輸入,循環(huán)寶貝列表url并進(jìn)入,抓取交易量數(shù)據(jù)并保存。

開(kāi)發(fā)進(jìn)度

 目前開(kāi)發(fā)出來(lái)的是開(kāi)發(fā)思路中的步驟1)和2),其中步驟1)不會(huì)出現(xiàn)登錄驗(yàn)證,步驟2)會(huì)出現(xiàn)。目前代碼
 中包含登錄驗(yàn)證部分。后續(xù)的部分會(huì)繼續(xù)開(kāi)發(fā)。目前代碼運(yùn)行中,在抓取寶貝列表的數(shù)據(jù),400多個(gè)店鋪要抓
 取還是需要不少時(shí)間的,為減少登錄驗(yàn)證彈出的可能,設(shè)定了寶貝翻頁(yè)間隔30秒。
 有需求代碼的同學(xué)可在評(píng)論中留下郵箱,我看到了會(huì)打包郵寄的。

聯(lián)系方式
郵箱:[email protected]
也可以加QQ交流。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/71489.html

相關(guān)文章

  • selenuim操作基于REACT實(shí)現(xiàn)的富文本編輯器1

    摘要:中大多數(shù)的輸入框都是標(biāo)簽,但是由于業(yè)務(wù)中前端有使用到基于實(shí)現(xiàn)的富文本編輯器,在實(shí)現(xiàn)自動(dòng)化測(cè)試編寫(xiě)時(shí)自然會(huì)涉及到對(duì)富文本器進(jìn)行操作處理檢查該編輯器的元素,可以看到和正常的不同,該結(jié)構(gòu)為一個(gè)里面裹了個(gè)而在其中輸入文字,則是在改變中的如果有換行的 web中大多數(shù)的輸入框都是標(biāo)簽,但是由于業(yè)務(wù)中前端有使用到基于REACT實(shí)現(xiàn)的富文本編輯器,在實(shí)現(xiàn)自動(dòng)化測(cè)試編寫(xiě)時(shí)自然會(huì)涉及到對(duì)富文本器進(jìn)行操作處...

    since1986 評(píng)論0 收藏0
  • selenuim-下拉框(單選)-python

    摘要:一通過(guò)定位下拉框先導(dǎo)入的模塊,在使用方法進(jìn)行操作方法一定位不等于不等于如果選項(xiàng)值不是固定的,直接將固定值替換成變量即可下面是的具體方法通過(guò)索引定位通過(guò)值定位通過(guò)文本值定位取消所有選項(xiàng)取消對(duì)應(yīng)選項(xiàng)取消對(duì)應(yīng)選項(xiàng)取消對(duì)應(yīng)文本選項(xiàng)返回第一個(gè)選 showImg(https://segmentfault.com/img/bVbk4IA);一、通過(guò)select定位下拉框先導(dǎo)入Select的模塊,在使...

    KevinYan 評(píng)論0 收藏0
  • 電商系統(tǒng)設(shè)計(jì)之商品 (下)

    摘要:訂單號(hào)用戶商品標(biāo)題商品價(jià)格商品封面圖商品其他屬性小明愛(ài)瘋手機(jī)其他屬性像上表中設(shè)計(jì),有人會(huì)問(wèn)了那關(guān)聯(lián)的意義何在呢我的回答是保持?jǐn)?shù)據(jù)關(guān)聯(lián),雖然商戶有可能改變商品屬性,但作為一名程序員,應(yīng)該盡可能的記錄用戶所有的動(dòng)作。 showImg(https://segmentfault.com/img/bVbdtuc?w=1824&h=1028); 電商大伙每天都在用,類似某貓,某狗等。電商系統(tǒng)設(shè)計(jì)看...

    shiguibiao 評(píng)論0 收藏0
  • 1.2-知識(shí)圖譜有什么用?

    摘要:知識(shí)圖譜經(jīng)過(guò)幾年的發(fā)展已經(jīng)得到廣泛的應(yīng)用。例如,某地區(qū)某行業(yè)連續(xù)出現(xiàn)了多筆逾期貸款,通過(guò)對(duì)行業(yè)和客戶的知識(shí)圖譜進(jìn)行分析,可以及時(shí)發(fā)現(xiàn)該地區(qū)相關(guān)行業(yè)存在潛在風(fēng)險(xiǎn)的客戶。 知識(shí)圖譜經(jīng)過(guò)幾年的發(fā)展已經(jīng)得到廣泛的應(yīng)用。當(dāng)知識(shí)圖譜遇上人工智能,更加突顯出了它的優(yōu)勢(shì)和價(jià)值。 最先應(yīng)用于搜索 ![用Google搜索泰姬陵]() 最典型的就是在谷歌搜索引擎里面應(yīng)用。谷歌是在2012年率先提出來(lái)知識(shí)圖...

    bergwhite 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<