摘要:在和偉鋒探討的時候,我突然想到了可以用爬蟲的手段,來將數(shù)據(jù)中心的數(shù)據(jù)全部爬取出來。這里做一個技術(shù)記錄,中間涉及到的知識點包括如何通過中的,以及維持登陸狀態(tài),以爬取不同的需要登陸以后才能查看的網(wǎng)頁。
前言說明:
公司在2017年3月的時候開發(fā)過一個「數(shù)據(jù)中心」,是將有贊的用戶和訂單信息通過API拉取到自己開發(fā)的網(wǎng)站上,再結(jié)合我們自己和用戶溝通的信息,組成一個簡單的用戶管理中心。數(shù)據(jù)中心雖然簡單,但對我們意義非常大,它的出現(xiàn)標志著我們想要定位一個用戶的時候告別了“辦公室吼一吼”的純?nèi)巳夥椒ā?/p>
不過隨著時間的推移,數(shù)據(jù)中心跟不上我們的業(yè)務(wù)發(fā)展,我們想在近期將其重新做一遍,進行一系列大的功能升級。別的都好說,唯一的問題是在過去一年半中,我們在數(shù)據(jù)中心添加了大量的信息,比如同學的微信號、昵稱、他家長的信息、他的訂單備注信息等等。隨著遠良的離職,后來的人已經(jīng)很難從數(shù)據(jù)庫中找出這些數(shù)據(jù)。在和偉鋒探討CRM的時候,我突然想到了可以用爬蟲的手段,來將數(shù)據(jù)中心的數(shù)據(jù)全部爬取出來。于是便有了下面的代碼,經(jīng)過斷斷續(xù)續(xù)兩三天的研究,我終于搞定了代碼,順利爬取了我們所有超過1萬條的用戶數(shù)據(jù)。
這里做一個技術(shù)記錄,中間涉及到的知識點包括:
如何通過Network中的authorization,以及requests.session()維持登陸狀態(tài),以爬取不同的需要登陸以后才能查看的網(wǎng)頁。這里面有個坑,就是我先用了session的方法來試圖解決問題,但是怎么試都總是失敗,反復(fù)查詢后發(fā)現(xiàn)發(fā)現(xiàn)數(shù)據(jù)中心是用node.js來寫的,而這樣的網(wǎng)頁用的是token來驗證身份,session()那套行不通。最后我在頭信息中發(fā)現(xiàn)authorization,直接粘到headers的信息才解決問題的;
查看網(wǎng)頁源代碼,如果你需要的信息不在源代碼中,那就說明要找的內(nèi)容在JS文件中,在開發(fā)者模式下找到Network中的XHR或者JS,里面一般都會有某個JS文件包含你要的信息(header包含頭信息,preview包含要爬取的信息,最上面的request URL則是要爬取內(nèi)容所需要的網(wǎng)址信息)。
復(fù)習了json的使用方法。另外,不管是python還是json,爬取的關(guān)鍵都是找到循環(huán)點,因為循環(huán)點意味著有規(guī)律循環(huán)的開始;
復(fù)習了在python中打開、寫入csv文件的方式;
復(fù)習了在python中連接數(shù)據(jù)庫的知識;Python3 MySQL 數(shù)據(jù)庫連接 - PyMySQL 驅(qū)動
學習了try...except的用法:將可能出現(xiàn)bug的代碼寫入try的部分,然后在except那里寫入報錯類型和報錯的提示。報錯提示可以根據(jù)需要自定義。這樣的好處是程序出現(xiàn)bug的時候不會報錯終止,而是會給出報錯提示以后繼續(xù)后面的運行,直到結(jié)束。(Python)異常處理try...except、raise
復(fù)習列表構(gòu)造的知識;
簡單學習了SQL的基本操作語句 SQL基本語法
import requests import json import csv import pymysql import time # 從數(shù)據(jù)庫中獲取所有的用戶ID yz_uids = [] db = pymysql.connect("192.168.31.24","root","root","danci_tddc") # 連接數(shù)據(jù)庫 cursor = db.cursor() # 用cursor 方法獲取操作游標 sql = "SELECT * FROM td_crm_customers" # 寫sql語句 cursor.execute(sql) # 執(zhí)行sql語句 data = cursor.fetchall() # 獲取數(shù)據(jù) for row in data: yz_uid = row[0] yz_uids.append(yz_uid) db.close() # 關(guān)閉數(shù)據(jù)庫連接 login_url = "http://data.testdaily.cn/#!/login" headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36", "Referer": "http://data.testdaily.cn/", "Cookie": "Hm_lvt_fc5a4042b4f7e4c87111dce89bb04bea=1539932447,1540895924", "Authorization": "Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJfaWQiOiI1OGI3ZWU4ZmI2NmVmZjEwMWM5NGVjODgiLCJ1c2VybmFtZSI6Inplbmd5aWNoYW8iLCJleHAiOjE1NDIxODA5OTksImlhdCI6MTU0MTU3NjE5OX0.dl7o4lnPZnfw7e606sVOrW4dYCKOmQJzSsMBHCFPAc4" } # 打開存儲的csv文檔 f = open("/Users/damo/Desktop/4.csv", "w+") writer = csv.writer(f) writer.writerow(["user_id", "wechat", "nickname", "majia", "phone", "address", "name", "tag", "parentInfo", "remark", "update_time","trade_history"]) # 獲取單個頁面的數(shù)據(jù) def get_info(url): try: # 讀取客戶詳情頁面并獲取json數(shù)據(jù) res = requests.get(url,headers = headers) json_data = json.loads(res.text) user_id = json_data["user_id"] wechat = json_data["wechat"] if "nickname" in json_data.keys(): nickname = json_data["nickname"] else: nickname = "" majia = json_data["tdAlias"] phone = json_data["mobile"] address = json_data["address"] name = json_data["name"] tag = json_data["tags"] if "parentsInfo" in json_data.keys(): parentInfo = json_data["parentsInfo"] else: parentInfo = "" if "remark" in json_data.keys(): remark = json_data["remark"] else: remark = "" update_time = json_data["update_time"] trade_history = json_data["trades"] writer.writerow([user_id,wechat,nickname,majia,phone,address,name,tag,parentInfo,remark,update_time,trade_history]) # 將數(shù)據(jù)寫入csv文件 except TypeError: print(url + "有問題") if __name__ == "__main__": urls = ["http://data.testdaily.cn/api/customers/{}".format(i) for i in yz_uids] # 構(gòu)造列表表達式 for url in urls: get_info(url)
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/44974.html
摘要:用將倒放這次讓我們一個用做一個小工具將動態(tài)圖片倒序播放發(fā)現(xiàn)引力波的機構(gòu)使用的包美國科學家日宣布,他們?nèi)ツ暝率状翁綔y到引力波。宣布這一發(fā)現(xiàn)的,是激光干涉引力波天文臺的負責人。這個機構(gòu)誕生于上世紀年代,進行引力波觀測已經(jīng)有近年。 那些年我們寫過的爬蟲 從寫 nodejs 的第一個爬蟲開始陸陸續(xù)續(xù)寫了好幾個爬蟲,從爬拉勾網(wǎng)上的職位信息到爬豆瓣上的租房帖子,再到去爬知乎上的妹子照片什么的,爬蟲...
摘要:之前在學校曾經(jīng)用過的方法做過一些爬蟲腳本來玩,從正式轉(zhuǎn)前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐。爬蟲腳本通常會很頻繁的進行網(wǎng)絡(luò)請求,比如要爬取豆瓣排行榜的電影,就會連續(xù)發(fā)送個網(wǎng)絡(luò)請求。 之前在學校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉(zhuǎn)前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐...
摘要:之前在學校曾經(jīng)用過的方法做過一些爬蟲腳本來玩,從正式轉(zhuǎn)前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐。爬蟲腳本通常會很頻繁的進行網(wǎng)絡(luò)請求,比如要爬取豆瓣排行榜的電影,就會連續(xù)發(fā)送個網(wǎng)絡(luò)請求。 之前在學校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉(zhuǎn)前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐...
摘要:月日,助力在北京舉辦全球最盛大的年度聚會,國內(nèi)外頂尖的工程師做了很精彩的分享和互動,現(xiàn)場多名愛好者參與了此次技術(shù)主題盛宴。后續(xù)會有更多現(xiàn)場照片持續(xù)更新 11月15日,SegmentFault 助力PyCon China 在北京舉辦全球 Pythoneer 最盛大的年度聚會,國內(nèi)外頂尖的Python 工程師做了很精彩的分享和互動,現(xiàn)場300多名python愛好者參與了此次技術(shù)主題盛宴。 ...
摘要:主要特性前一陣重新組織了一下代碼加了命令行信息用起來更方便了一些初步實現(xiàn)了豆瓣小組及用戶相關(guān)的爬蟲和請求基于和沒有用高階的諸如之類的爬蟲工具所有的命令行輸出都是標準的格式可以使用操作安裝僅支持使用兩種命令模式客戶端接口調(diào)用和豆瓣模塊接口 主要特性 前一陣重新組織了一下代碼, 加了命令行help信息, 用起來更方便了一些 初步實現(xiàn)了豆瓣小組及用戶相關(guān)的API爬蟲和請求 基于reques...
閱讀 1641·2021-09-02 09:55
閱讀 1115·2019-08-30 13:19
閱讀 1403·2019-08-26 13:51
閱讀 1453·2019-08-26 13:49
閱讀 2383·2019-08-26 12:13
閱讀 463·2019-08-26 11:52
閱讀 1910·2019-08-26 10:58
閱讀 3090·2019-08-26 10:19