一個(gè)簡(jiǎn)單拉鉤網(wǎng)python爬蟲

xumenger 發(fā)布于2019-07-25 11:32 / 3445人閱讀

摘要：如果想這樣解析頁面獲取數(shù)據(jù)有以下幾個(gè)問題職位列表最多只有頁職位關(guān)鍵信息獲取不全比如一個(gè)職位的地點(diǎn)應(yīng)該屬于市區(qū)商區(qū)樓，這種信息只靠解析頁面是獲取不全的。

前期準(zhǔn)備

Don"t be evil！

主要就是分析需要抓取的頁面，或許會(huì)有意外驚喜，直接找到獲取數(shù)據(jù)的接口。

首選打開拉鉤網(wǎng)首頁，發(fā)現(xiàn)一個(gè)職位至少有一個(gè)一級(jí)分類、二級(jí)分類和一個(gè)標(biāo)簽。比如需要點(diǎn)擊查找Java相關(guān)的職位，需要找到技術(shù)、后端開發(fā)，然后點(diǎn)擊Java，才能獲取Java相關(guān)的職位列表。

職位列表就可以得到很多的關(guān)于職位的信息了，如職位名稱、公司名稱、公司logo、所屬行政區(qū)、商區(qū)等信息，但是需要提取這些信息的時(shí)候，xpath會(huì)讓人寫的很頭疼。

如果想這樣解析頁面獲取數(shù)據(jù)有以下幾個(gè)問題：

職位列表最多只有30頁

職位關(guān)鍵信息獲取不全

比如一個(gè)職位的地點(diǎn)應(yīng)該屬于XX市XX區(qū)XX商區(qū)XX樓，這種信息只靠解析頁面是獲取不全的。不過當(dāng)點(diǎn)擊城市的時(shí)候，查看發(fā)送的網(wǎng)絡(luò)請(qǐng)求，可以發(fā)現(xiàn)一個(gè)可喜的接口，這個(gè)接口將會(huì)返回一個(gè)職位列表的json數(shù)據(jù)。

但是因?yàn)闉榱朔乐古老x調(diào)用這個(gè)接口，使用接口的時(shí)候必須要帶上cookie。訪問首頁的時(shí)候，會(huì)獲取部分cookie值，但是唯獨(dú)沒有SEARCH_ID這個(gè)值。

但是這個(gè)cookie不是平白無辜的產(chǎn)生的，想想調(diào)用這個(gè)接口的頁面入口，觀察response的header，會(huì)發(fā)現(xiàn)有Set-Cookie:SEARCH_ID=7587e152a3b14eec8bb0f29e774e4094; Version=1; Max-Age=86400; Expires=Sun, 26-Feb-2017 17:16:05 GMT; Path=/。

這樣前期的準(zhǔn)備工作就完成了，可以開始編碼了。

開始編碼

通過前期分析，可以發(fā)現(xiàn)需要做這么幾項(xiàng)工作：

訪問首頁和職位過濾頁面獲取cookie

帶上cookie調(diào)用接口

具體的流程：

訪問首頁，獲取所有職位的標(biāo)簽

按城市調(diào)用接口，同時(shí)獲取所有cookie

保存數(shù)據(jù)

所以需要一些工具。

動(dòng)態(tài)加載頁面和獲取cookie：

Selenium with Python

PhantomJS

帶上cookie調(diào)用接口：

Requests: HTTP for Humans

源碼

結(jié)果

抓取的總量（已經(jīng)將數(shù)據(jù)保存在mongodb中了）：

GPU云服務(wù)器云服務(wù)器簡(jiǎn)單python爬蟲 python爬蟲簡(jiǎn)單 python簡(jiǎn)單爬蟲簡(jiǎn)單python爬蟲程序

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/38454.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

xumenger

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

微軟云服務(wù)器怎么樣?微軟Azure與阿里云的比較?

閱讀 4012·2021-11-18 13:22
斷網(wǎng)支付開閘，知位停車發(fā)布多項(xiàng)物聯(lián)網(wǎng)停車新技術(shù)

閱讀 1829·2021-11-17 09:33
如何在EXCEL中練習(xí)VBA？

閱讀 2886·2021-09-26 09:46
pacificrack，美國(guó)洛杉磯VPS促銷，5T流量，3個(gè)IPv4，60$/年，2核/8G內(nèi)存/

閱讀 1220·2021-08-21 14:11
webpack+vue+koa+mongoDB,從零開始搭建一個(gè)網(wǎng)站

閱讀 2896·2019-08-30 15:53
css block多列同高

閱讀 2717·2019-08-30 15:52
13個(gè)幫你提高開發(fā)效率的現(xiàn)代CSS框架

閱讀 1914·2019-08-30 10:52
JS基礎(chǔ)入門篇（十四）—運(yùn)動(dòng)

閱讀 1528·2019-08-29 15:30

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

一個(gè)簡(jiǎn)單拉鉤網(wǎng)python爬蟲

相關(guān)文章

爬蟲的一些知識(shí)羅列

Python爬蟲學(xué)習(xí)：微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法

**cockroach 爬蟲：又一個(gè) java 爬蟲實(shí)現(xiàn)**

node.js 爬取招聘信息分析各職業(yè)錢途（爬蟲+動(dòng)態(tài)IP代理+數(shù)據(jù)可視化分析）

puppeteer爬蟲

發(fā)表評(píng)論

0條評(píng)論

xumenger

男|高級(jí)講師

TA的文章

微軟云服務(wù)器怎么樣?微軟Azure與阿里云的比較?

斷網(wǎng)支付開閘，知位停車發(fā)布多項(xiàng)物聯(lián)網(wǎng)停車新技術(shù)

如何在EXCEL中練習(xí)VBA？

pacificrack，美國(guó)洛杉磯VPS促銷，5T流量，3個(gè)IPv4，60$/年，2核/8G內(nèi)存/

webpack+vue+koa+mongoDB,從零開始搭建一個(gè)網(wǎng)站

css block多列同高

13個(gè)幫你提高開發(fā)效率的現(xiàn)代CSS框架

JS基礎(chǔ)入門篇（十四）—運(yùn)動(dòng)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

一個(gè)簡(jiǎn)單拉鉤網(wǎng)python爬蟲

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！