摘要:年月日爬取,爬蟲代碼不知道是否失效文章目錄爬蟲目標(biāo)具體過程源碼爬蟲目標(biāo)要求搜索大數(shù)據(jù)專業(yè),爬相關(guān)公司的招聘信息。
2021年10月7日爬取,爬蟲代碼不知道是否失效
要求:搜索“大數(shù)據(jù)”專業(yè),爬相關(guān)公司的招聘信息。列數(shù)不少于10列,行數(shù)不少于3000 。
目標(biāo):搜索“大數(shù)據(jù)”,爬取智聯(lián)招聘 北京上海廣州深圳天津武漢西安 職位名稱,企業(yè)名稱,薪資,什么市(區(qū)),學(xué)歷要求,經(jīng)驗(yàn)要求,公司規(guī)模,公司性質(zhì),工作類型,詳情頁鏈接https
登錄網(wǎng)站,搜索大數(shù)據(jù),右鍵查看網(wǎng)頁源代碼
Ctrl+F搜索大數(shù)據(jù)工程師,發(fā)現(xiàn)數(shù)據(jù)都在網(wǎng)頁源代碼中
基本思路有了,可用正則直接在源碼里匹配得到數(shù)據(jù),也可以打開開發(fā)者工具抓包分析接口用scrapy爬。這篇博客用正則表達(dá)式匹配。
pycharm響應(yīng)成功。
然后用正則寫代碼就行了。
import reimport requestsimport timeheaders = {"User-Agent": "登陸后自己的user-agent", "Cookie":"登陸后自己的cookie" }for page in range(1,28): #北京上海廣州深圳天津武漢西安的url url=f"https://sou.zhaopin.com/?jl=854&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&p={page}" time.sleep(5) #停頓5秒 response = requests.get(url, headers=headers).text for i in range(30): #每頁有最多30條數(shù)據(jù) name = re.findall(r""matchInfo":.*?"name":"(.*?)"", response)[i] #工作名稱 companyName = re.findall(r""companyName":"(.*?)"", response)[i] cityDistrict=re.findall(r""cityDistrict":"(.*?)"",response)[i] education=re.findall(r""education":"(.*?)"",response)[i] #學(xué)歷 salary60=re.findall(r""salary60":"(.*?)"",response)[i] #薪資 workingExp=re.findall(r""workingExp":"(.*?)"",response)[i] #經(jīng)驗(yàn)要求 property=re.findall(r""property":"(.*?)"",response)[i] #公司性質(zhì) companySize=re.findall(r""companySize":"(.*?)"",response)[i] #公司規(guī)模 workType = re.findall(r""workType":"(.*?)"", response)[i] #工作類型 positionURL=re.findall(r""positionURL":"(.*?)"",response)[i]#詳情頁鏈接 f = open("zhilian.csv", "a", encoding="utf8") f.write("{},{},{},{},{},{},{},{},{},{}/n".format(name, companyName, cityDistrict,education,salary60,workingExp,property,companySize,workType,positionURL)) f.close()
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/124522.html
摘要:智聯(lián)其實(shí)一共寫了兩次,有興趣的可以在源碼看看,第一版的是回調(diào)版,只能一次一頁的爬取。 寫在前面的話, .......還是不寫了,直接上效果圖。附上源碼地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
摘要:日前,簡歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。買賣簡歷,直接違法。三人累計販賣個人簡歷萬余份,智聯(lián)招聘由此蒙受損失近 日前,簡歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。到底發(fā)生了什么??一 、為什么公司全員被抓?3月14日團(tuán)隊(duì)被警方帶走,有HR等非核心成員回家,但核心高管依然失...
摘要:網(wǎng)頁源碼解析智聯(lián)招聘搜索列表一開始必須要解析智聯(lián)招聘搜索列表頁,從這里更方便實(shí)現(xiàn)各種深層級數(shù)據(jù)抓取。顯示不同源碼也不同,盡量選列表模式,源碼更好解析。 網(wǎng)頁源碼解析 - 智聯(lián)招聘搜索列表 一開始必須要解析智聯(lián)招聘搜索列表頁,從這里更方便實(shí)現(xiàn)各種深層級數(shù)據(jù)抓取。網(wǎng)頁地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索參數(shù) 智聯(lián)招聘的服務(wù)...
摘要:日前,簡歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。買賣簡歷,直接違法。三人累計販賣個人簡歷萬余份,智聯(lián)招聘由此蒙受損失近日前,簡歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。到底發(fā)生了什么? ?一 、為什么公司全員被抓? 3月14日團(tuán)隊(duì)被警方帶走,有HR等非核心成員回家,但核心高管依然失聯(lián)中。3月25日,一位巧達(dá)科技前員工告訴燃財經(jīng)。 在天眼查中北京...
閱讀 2699·2023-04-25 17:21
閱讀 2563·2021-11-23 09:51
閱讀 2856·2021-09-24 10:32
閱讀 3781·2021-09-23 11:33
閱讀 1981·2019-08-30 15:44
閱讀 3460·2019-08-30 11:18
閱讀 3534·2019-08-30 10:53
閱讀 632·2019-08-26 13:25