成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

WechatScraper ——基于搜狗搜索的微信公眾號(hào)爬蟲

wemallshop / 2844人閱讀

摘要:最近公司有這方面需求,在網(wǎng)上找了一些爬蟲,使用了一段時(shí)間之后發(fā)現(xiàn)很多沒(méi)解決驗(yàn)證碼和這兩個(gè)很頭疼的問(wèn)題。于是想到了和,瀏覽器,雖然看不到顯示界面,但其實(shí)就是在一個(gè)瀏覽器內(nèi)核中運(yùn)行,這免去了很多麻煩事。

最近公司有這方面需求,在網(wǎng)上找了一些爬蟲,使用了一段時(shí)間之后發(fā)現(xiàn)很多沒(méi)解決驗(yàn)證碼和cookie這兩個(gè)很頭疼的問(wèn)題。

于是想到了PhantomJS和webdriver,Headless瀏覽器,雖然PhantomJS看不到顯示界面,但其實(shí)就是在一個(gè)瀏覽器內(nèi)核中運(yùn)行,這免去了很多麻煩事。

最初試了Firefox,驗(yàn)證碼出現(xiàn)的幾率幾乎降到了0,文章列表基本上跟真瀏覽器訪問(wèn)無(wú)差,后來(lái)移植到centos上,但因?yàn)閏entos上裝firefox還是比較麻煩,于是改用了PhantomJS,但測(cè)試發(fā)現(xiàn)PhantomJS的抓取效果很一般,經(jīng)常關(guān)鍵詞抓錯(cuò),暫時(shí)不知道原因,但效果類似于將中文字符去掉,英文關(guān)鍵詞抓取是沒(méi)有問(wèn)題的,還望有經(jīng)驗(yàn)的人士解答。

本著方便的原則,簡(jiǎn)單封裝了幾個(gè)操作MySQL方法,可以直接將數(shù)據(jù)存到MySQL里面,sql文件夾下面的兩個(gè)文件分別是文章和公眾號(hào)的表格創(chuàng)建文件,連接MySQL之后直接輸入source,然后把文件拖到命令行就行了。

配置文件可以自己修改,也可以自己在創(chuàng)建實(shí)例的時(shí)候輸入config。

暫時(shí)使用的PhantomJS,需要安裝不少東西,有時(shí)間寫個(gè)安裝教程。

main.py是測(cè)試文件,里面寫了兩個(gè)測(cè)試用例,可以在安裝好東西之后運(yùn)行一下。

項(xiàng)目地址是WickedDogg/WecharScraper,歡迎提issue,fork和star。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/40698.html

相關(guān)文章

  • 23個(gè)Python爬蟲開(kāi)源項(xiàng)目代碼,包含微信、淘寶、豆瓣、知乎、微博等

    摘要:今天為大家整理了個(gè)爬蟲項(xiàng)目。地址新浪微博爬蟲主要爬取新浪微博用戶的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

    jlanglang 評(píng)論0 收藏0
  • Evil Python

    摘要:用將倒放這次讓我們一個(gè)用做一個(gè)小工具將動(dòng)態(tài)圖片倒序播放發(fā)現(xiàn)引力波的機(jī)構(gòu)使用的包美國(guó)科學(xué)家日宣布,他們?nèi)ツ暝率状翁綔y(cè)到引力波。宣布這一發(fā)現(xiàn)的,是激光干涉引力波天文臺(tái)的負(fù)責(zé)人。這個(gè)機(jī)構(gòu)誕生于上世紀(jì)年代,進(jìn)行引力波觀測(cè)已經(jīng)有近年。 那些年我們寫過(guò)的爬蟲 從寫 nodejs 的第一個(gè)爬蟲開(kāi)始陸陸續(xù)續(xù)寫了好幾個(gè)爬蟲,從爬拉勾網(wǎng)上的職位信息到爬豆瓣上的租房帖子,再到去爬知乎上的妹子照片什么的,爬蟲...

    Turbo 評(píng)論0 收藏0
  • 一步一步教你用 Vue.js + Vuex 制作專門收藏微信公眾號(hào)的 app

    摘要:箭頭表示數(shù)據(jù)的流動(dòng),負(fù)責(zé)儲(chǔ)存收藏夾的內(nèi)容,方便下一次打開(kāi)應(yīng)用的時(shí)候內(nèi)容不會(huì)丟失,服務(wù)器負(fù)責(zé)根據(jù)關(guān)鍵字爬取搜狗提供的數(shù)據(jù)。 只看不贊,或者只收藏不贊的都是耍流氓,放學(xué)別走,我找我哥收拾你們。 項(xiàng)目地址:https://github.com/jrainlau/wechat-subscriptor showImg(https://segmentfault.com/img/bVyFVF); s...

    aboutU 評(píng)論0 收藏0
  • 9、web爬蟲講解2—urllib庫(kù)爬蟲—實(shí)戰(zhàn)爬取搜狗微信公眾號(hào)—抓包軟件安裝Fiddler4講解

    摘要:隨后,為了保險(xiǎn),重啟,火狐瀏覽器也重啟一下,然后開(kāi)始抓的包,此時(shí)你會(huì)發(fā)現(xiàn)你的連接并不安全等類似提示已經(jīng)消失,并且已經(jīng)能夠抓包了。 【百度云搜索,搜各種資料:http://www.bdyss.com】 【搜網(wǎng)盤,搜各種資料:http://www.swpan.cn】 封裝模塊 #!/usr/bin/env?python #?-*-?coding:?utf-8?-*- import?urll...

    go4it 評(píng)論0 收藏0
  • 如何實(shí)現(xiàn)一個(gè)基本微信文章分類器

    摘要:本文源地址,轉(zhuǎn)發(fā)請(qǐng)注明該地址或地址,謝謝微信公眾號(hào)發(fā)布的文章和一般門戶網(wǎng)站的新聞文本類型有所不同,通常不能用現(xiàn)有的文本分類器直接對(duì)這些文章進(jìn)行分類,不過(guò)文本分類的原理是相通的,本文以微信公眾號(hào)文章為對(duì)象,介紹樸素貝葉斯分類器的實(shí)現(xiàn)過(guò)程。 本文源地址:http://www.fullstackyang.com/...,轉(zhuǎn)發(fā)請(qǐng)注明該地址或segmentfault地址,謝謝! 微信公眾號(hào)發(fā)布的...

    dackel 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<