摘要:本文代碼地址爬取豆瓣電影爬取拉勾網(wǎng)職位信息模擬登陸知乎為什么沒人給我點贊。職位名職位信息運行結(jié)果模擬登錄知乎通過開發(fā)者工具,獲取的數(shù)據(jù)。
我開通了公眾號【智能制造專欄】,以后技術(shù)類文章會發(fā)在專欄。
用Python寫爬蟲是很方便的,最近看了xlzd.me的文章,他的文章寫的很到位,提供了很好的思路。因為他的文章部分代碼省略了。下面是基于他的文章的三個代碼片段:
基于Python3,Python2的話需要修改下input輸入函數(shù)和print的用法。本文github代碼地址
爬取豆瓣電影top250
爬取拉勾網(wǎng)職位信息
模擬登陸知乎
為什么沒人給我點贊。?!
有些代碼做了更改。其中把獲取的數(shù)據(jù)存儲到excel中。關(guān)于存取數(shù)據(jù)到excel可以看我的另一篇文章:。
用到的庫
requests
Beautiful Soup
openpyxl
1. 爬取豆瓣電影top250,存到excel表格中#!/usr/bin/env python # encoding=utf-8 import requests,re import codecs from bs4 import BeautifulSoup from openpyxl import Workbook wb = Workbook() dest_filename = "電影.xlsx" ws1 = wb.active ws1.title = "電影top250" DOWNLOAD_URL = "http://movie.douban.com/top250/" def download_page(url): """獲取url地址頁面內(nèi)容""" headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36" } data = requests.get(url, headers=headers).content return data def get_li(doc): soup = BeautifulSoup(doc, "html.parser") ol = soup.find("ol", class_="grid_view") name = [] #名字 star_con = [] #評價人數(shù) score = [] #評分 info_list = [] #短評 for i in ol.find_all("li"): detail = i.find("div", attrs={"class": "hd"}) movie_name = detail.find("span", attrs={"class": "title"}).get_text() #電影名字 level_star = i.find("span",attrs={"class":"rating_num"}).get_text() #評分 star = i.find("div",attrs={"class":"star"}) star_num = star.find(text=re.compile("評價")) #評價 info = i.find("span",attrs={"class":"inq"}) #短評 if info: #判斷是否有短評 info_list.append(info.get_text()) else: info_list.append("無") score.append(level_star) name.append(movie_name) star_con.append(star_num) page = soup.find("span", attrs={"class": "next"}).find("a") #獲取下一頁 if page: return name,star_con,score,info_list,DOWNLOAD_URL + page["href"] return name,star_con,score,info_list,None def main(): url = DOWNLOAD_URL name = [] star_con=[] score = [] info = [] while url: doc = download_page(url) movie,star,level_num,info_list,url = get_li(doc) name = name + movie star_con = star_con + star score = score+level_num info = info+ info_list for (i,m,o,p) in zip(name,star_con,score,info): col_A = "A%s"%(name.index(i)+1) col_B = "B%s"%(name.index(i)+1) col_C = "C%s"%(name.index(i)+1) col_D = "D%s"%(name.index(i)+1) ws1[col_A]=i ws1[col_B] = m ws1[col_C] = o ws1[col_D] = p wb.save(filename=dest_filename) if __name__ == "__main__": main()
結(jié)果如下:
2. 爬取拉勾網(wǎng)Python職位信息職位信息存儲在json中,獲取到j(luò)son對象,再從中遍歷出公司名、地址、待遇等信息。
import requests from openpyxl import Workbook def get_json(url, page, lang_name): data = {"first": "true", "pn": page, "kd": lang_name} json = requests.post(url, data).json() list_con = json["content"]["positionResult"]["result"] info_list = [] for i in list_con: info = [] info.append(i["companyShortName"]) info.append(i["companyName"]) info.append(i["salary"]) info.append(i["city"]) info.append(i["education"]) info_list.append(info) return info_list def main(): lang_name = input("職位名:") page = 1 url = "http://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false" info_result = [] while page < 31: info = get_json(url, page, lang_name) info_result = info_result + info page += 1 wb = Workbook() ws1 = wb.active ws1.title = lang_name for row in info_result: ws1.append(row) wb.save("職位信息.xlsx") if __name__ == "__main__": main()
運行結(jié)果:
3. 模擬登錄知乎通過開發(fā)者工具,獲取post的數(shù)據(jù)。
import requests,time from bs4 import BeautifulSoup def get_captcha(data): with open("captcha.gif","wb") as fp: fp.write(data) return input("輸入驗證碼:") def login(username,password,oncaptcha): sessiona = requests.Session() headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0"} _xsrf = BeautifulSoup(sessiona.get("https://www.zhihu.com/#signin",headers=headers).content,"html.parser").find("input",attrs={"name":"_xsrf"}).get("value") captcha_content = sessiona.get("https://www.zhihu.com/captcha.gif?r=%d&type=login"%(time.time()*1000),headers=headers).content data = { "_xsrf":_xsrf, "email":username, "password":password, "remember_me":True, "captcha":oncaptcha(captcha_content) } resp = sessiona.post("https://www.zhihu.com/login/email",data,headers=headers).content print(resp) return resp if __name__ == "__main__": login("your_email","your_password",get_captcha)
運行后會在運行目錄下得到驗證碼圖片:
輸入驗證碼后得到如下響應(yīng)結(jié)果表明登錄成功。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/38007.html
摘要:前言之前斷斷續(xù)續(xù)學(xué)習(xí)了,今天就拿拉勾網(wǎng)練練手,順便通過數(shù)據(jù)了解了解最近的招聘行情哈方面算是萌新一個吧,希望可以和大家共同學(xué)習(xí)和進(jìn)步。 前言 之前斷斷續(xù)續(xù)學(xué)習(xí)了node.js,今天就拿拉勾網(wǎng)練練手,順便通過數(shù)據(jù)了解了解最近的招聘行情哈!node方面算是萌新一個吧,希望可以和大家共同學(xué)習(xí)和進(jìn)步。 一、概要 我們首先需要明確具體的需求: 可以通過node index 城市 職位來爬取相關(guān)信...
摘要:拉勾網(wǎng)的爬蟲還是有一定的難度的所以我們今天就爬取試一下其實并沒有太大的難度只要我們用好分析一下請求就會其實沒有什么難度上代碼親測可用拉鉤代碼 拉勾網(wǎng)的爬蟲還是有一定的難度的 所以我們今天就爬取試一下 其實并沒有太大的難度 只要我們用好network 分析一下請求 就會其實沒有什么難度 上代碼 2019-05-22 親測可用 拉鉤代碼
摘要:最近在研究區(qū)塊鏈,閑來無事抓取了拉勾網(wǎng)上條區(qū)塊鏈相關(guān)的招聘信息。拉勾網(wǎng)的反爬蟲做的還是比較好的,畢竟自己也知道這種做招聘信息聚合的網(wǎng)站很容易被爬,而且比起妹子圖這種網(wǎng)站,開發(fā)的技術(shù)水平應(yīng)該高不少。 最近在研究區(qū)塊鏈,閑來無事抓取了拉勾網(wǎng)上450條區(qū)塊鏈相關(guān)的招聘信息。過程及結(jié)果如下。 拉勾網(wǎng)爬取 首先是從拉勾網(wǎng)爬取數(shù)據(jù),用的requests庫。拉勾網(wǎng)的反爬蟲做的還是比較好的,畢竟自己也...
摘要:官方解釋如下提供一些簡單的式的函數(shù)用來處理導(dǎo)航搜索修改分析樹等功能。廢話不多說,我們來試一下吧安裝目前已經(jīng)停止開發(fā),推薦在現(xiàn)在的項目中使用,不過它已經(jīng)被移植到了,也就是說導(dǎo)入時我們需要。 上一節(jié)我們介紹了正則表達(dá)式,它的內(nèi)容其實還是蠻多的,如果一個正則匹配稍有差池,那可能程序就處在永久的循環(huán)之中,而且有的小伙伴們也對寫正則表達(dá)式的寫法用得不熟練,沒關(guān)系,我們還有一個更強大的工具,叫Be...
摘要:然后準(zhǔn)備再去抓下拉勾網(wǎng)的招聘數(shù)據(jù),這也是個相對優(yōu)秀的專業(yè)招聘網(wǎng)站了,數(shù)據(jù)也相當(dāng)多,想當(dāng)初找實習(xí)找正式工作,都是在這兩個上找的,其他的網(wǎng)站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗 零、致謝 感謝BOSS直聘相對權(quán)威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續(xù)...
閱讀 3127·2023-04-25 15:02
閱讀 2835·2021-11-23 09:51
閱讀 2045·2021-09-27 13:47
閱讀 2003·2021-09-13 10:33
閱讀 986·2019-08-30 15:54
閱讀 2651·2019-08-30 15:53
閱讀 2868·2019-08-29 13:58
閱讀 901·2019-08-29 13:54