在《?UI自動化工具輕松實(shí)現(xiàn)微信消息收發(fā)?朋友圈爬取??》文末給童鞋們布置了一個作業(yè),批量朋友圈爬取,不知道大伙們是否還有映像。
看到很多小伙伴們踴躍報名參與,不禁要給你們點(diǎn)個贊??紤]到很多小伙伴想做卻做出來,這…貼心的我這不就來給你們公布參考答案啦?
對相關(guān)基礎(chǔ)還不了解的童鞋請參考前文:
首先我們開始爬取朋友圈:
去外面轉(zhuǎn)了一圈,再回來發(fā)現(xiàn)10分鐘之內(nèi)就爬完了一周的朋友圈:
當(dāng)然這是因?yàn)槲业奈⑿藕糜烟?,一周總共也只發(fā)了不到1000條消息。
晚上重新爬了一下,爬到8月21號直到朋友圈的數(shù)據(jù)無法繼續(xù)拉取,始終都是這個狀態(tài)說明已經(jīng)無法拉取再早的朋友圈數(shù)據(jù):
共爬到1186條朋友圈動態(tài)數(shù)據(jù),耗時12分鐘:
打開Excel簡單的美化一下格式就得到如下結(jié)果:
篩選了有點(diǎn)贊和評論的數(shù)據(jù)。
同時對于每一條存在圖片或視頻的朋友圈,都會在本地存儲一張截圖:
可以看到在這近1200條朋友圈中有725條數(shù)據(jù)觸發(fā)的圖片或視頻關(guān)鍵字產(chǎn)生截圖:
讀取數(shù)據(jù):
import pandas as pddf = pd.read_excel("朋友圈.xlsx")df = df.convert_dtypes()
我的好友給誰的點(diǎn)贊最多呢?
t = df.groupby("昵稱").agg( 點(diǎn)贊總?cè)藬?shù)=("點(diǎn)贊人數(shù)", "sum"), 評論總條數(shù)=("評論條數(shù)", "sum"), 發(fā)朋友圈條數(shù)=("序號", "count"))display(t.sort_values("點(diǎn)贊總?cè)藬?shù)", ascending=False).head(10))
原來我的好友中,大家最喜歡給這些數(shù)據(jù)分析相關(guān)的好友點(diǎn)贊:
排除點(diǎn)只發(fā)一條朋友圈的平均點(diǎn)贊比例最高的依然是數(shù)據(jù)分析相關(guān)的:
秘密1:我的朋友圈中,數(shù)據(jù)分析相關(guān)的好友的朋友最容易被點(diǎn)贊。
t[t.發(fā)朋友圈條數(shù) > 10].shape[0]
一周發(fā)朋友圈超過10條的話癆有21人。
t.發(fā)朋友圈條數(shù).value_counts()
1 882 533 295 194 176 1110 67 68 512 4Name: 發(fā)朋友圈條數(shù), dtype: int64
秘密2:我的好友中發(fā)過朋友圈的好友更傾向于一周只發(fā)一條朋友圈。
秘密3:幾個培訓(xùn)機(jī)構(gòu)的營銷號發(fā)朋友圈最頻率,現(xiàn)在就把你們刪掉。
點(diǎn)贊數(shù)排名前7的朋友圈:
評論數(shù)排名前7的朋友圈:
篩選出有時間信息的朋友圈統(tǒng)計大家的發(fā)朋友圈時間傾向:
秘密4:好友們最傾向在中午12點(diǎn)和晚上7點(diǎn)發(fā)朋友圈。
朋友圈內(nèi)容詞云圖:
import jiebaimport stylecloudfrom IPython.display import Imagewords = df.內(nèi)容.apply(jieba.lcut).explode()words = words[words.apply(len) > 1]words = words[~words.isin(["包含", "圖片", "視頻", "天前", "小時", "昨天", "自己"])]stylecloud.gen_stylecloud(text=" ".join(words), max_words=500, collocations=False, font_path=r"C:/Windows/Fonts/msyhbd.ttc", icon_name="fas fa-square", size=653, output_name="tmp.png")Image(filename="tmp.png")
評論區(qū)內(nèi)容詞云圖:
import jiebaimport stylecloudfrom IPython.display import Imagewords = df.評論列表.dropna().apply(jieba.lcut).explode()words = words[words.apply(len) > 1]words = words[~words.isin(["回復(fù)", "免費(fèi)", "欄目", "一個", "包含", "其他"])]stylecloud.gen_stylecloud(text=" ".join(words), max_words=500, collocations=False, font_path=r"C:/Windows/Fonts/msyhbd.ttc", icon_name="fas fa-thumbs-up", size=653, output_name="tmp.png")Image(filename="tmp.png")
從詞云圖看來,我的朋友圈都愛數(shù)據(jù)愛技術(shù)愛學(xué)習(xí)愛知識,這真是驚人的密碼…
保證節(jié)點(diǎn)在可視范圍內(nèi)能夠被完整截圖:
節(jié)點(diǎn)的底部位置比顯示界面更大時表示在外面,按一下向下的方向鍵。
解析節(jié)點(diǎn)的數(shù)據(jù):
對內(nèi)容數(shù)據(jù)直接取父節(jié)點(diǎn)的Name,獲取完整的全部文本,解析字符串即可得到昵稱、發(fā)布時間等信息。
第一麻煩點(diǎn)是解析出點(diǎn)贊和評論,上述代碼之所以那么復(fù)雜是因?yàn)榇嬖谥挥悬c(diǎn)贊、只有評論、既有點(diǎn)贊又有評論,點(diǎn)贊和評論都沒有四種情況。為了能夠同時適配這四種情況,經(jīng)過反復(fù)測試最終編寫出上述代碼。上述代碼基于必定存在的評論按鈕為基準(zhǔn)點(diǎn)進(jìn)行查找。
第二個麻煩點(diǎn)是想精準(zhǔn)只截圖片、視頻或視頻號,需要非常多的異常檢測代碼,每種情況變化都非常大,很難通用。最終我直接放棄,選擇直接對整個節(jié)點(diǎn)包含昵稱一起截圖。對一個節(jié)點(diǎn)是否進(jìn)行截圖,取決于這個節(jié)點(diǎn)的文本是否包含視頻或圖片關(guān)鍵字。
注意:截屏調(diào)用節(jié)點(diǎn)的CaptureToImage方法即可對指定節(jié)點(diǎn)的范圍截圖保存到指定文件。
批量爬取代碼:
注意上述代碼處理翻頁時的異常情況,當(dāng)節(jié)點(diǎn)不存在任何文本內(nèi)容時,說明定位到了一個加載數(shù)據(jù)的節(jié)點(diǎn),我們可以先按一次向上方向鍵回退之后,再按一下向下的方向鍵,即可定位到剛加載的新節(jié)點(diǎn)。如果回退再向下之后,名稱依然是空,說明已經(jīng)將朋友圈能夠拉取到的數(shù)據(jù)都加載完了,可以結(jié)束程序。
??說明:本文作為第一節(jié)的參考答案并不會提供可以直接復(fù)制粘貼的代碼,還需要各位童鞋們自己獨(dú)立完成作業(yè)。不需要寫到我這么復(fù)雜,根據(jù)實(shí)際需求簡化代碼編寫即可。
完整代碼已經(jīng)零碎的全部給到大家,剩下的可以根據(jù)理解,自己取敲即可。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/118784.html
??前幾天有個粉絲瘋狂私信我問:博主,博主,有沒有什么辦法能將我夜里看的小視頻/愛情動作小說給藏起來,藏的越隱蔽越好,我怕我女朋友發(fā)現(xiàn)了揍我?。牶笪抑睒泛?,可見這是位名副其實(shí)的妻管嚴(yán)哦~)? ??一開始我是拒絕的,畢竟——我可是個正經(jīng)人!但是他又是加我VX,又是關(guān)注我公眾號(看看我主頁左側(cè)有二維碼哦?。┻€說我發(fā)的博文他幾乎都第一時間點(diǎn)贊,評論,收藏支持。瞬間就打動了我,于是我決定幫他一把(咳咳,...
上次給大家分享了一個springboot+vue的校園招聘系統(tǒng),視頻教程加項(xiàng)目源碼,都是開源的,應(yīng)該說很香了,今天再給大家分享一個不錯的springboot的項(xiàng)目。 老規(guī)矩,開源,開源,開源?。。? 金九銀十來了,小伙伴們,沖?。∏懊嬉呀?jīng)整理了很多的面試題,拿去學(xué)習(xí)吧! 1,??爆肝!整理了一周的Spring面試大全【含答案】,吊打Java面試官【建議收藏】!?? 2,??肝完了,一天掌握數(shù)據(jù)...
摘要:文件指針此函數(shù)用于關(guān)閉文件。完工被逮了也別說是我教的哈我怕被打可能某些小白沒有環(huán)境,也急需此方法,所以本博主直接將我的文件分享給大家下載下面這張圖,操作我相信你肯定會的如果你從本文中學(xué)到了知識,喜歡它,那么我很榮幸。 ...
今年國慶七天和以往就不一樣了,過去都是學(xué)生時代的國慶,大學(xué)時光以前在家有家人的陪伴,在大學(xué)階段也基本沒回過家。 這里說明一下不怎么回家的原因吧,因?yàn)槲依霞以谵r(nóng)村里,國慶階段是收集油茶樹果實(shí)的好時光,就從網(wǎng)上拿了一張圖,大概就是如下樣子,碩果累累(說不定有些小伙伴還不知道這啥,因?yàn)槲覇柫艘恍┡笥讯颊f不知道這回事,農(nóng)村里的小伙伴可能會知道)。 往年的國慶 還記得初中那會還和家里人一起上山采摘過,不過...
閱讀 2322·2023-04-26 00:01
閱讀 809·2021-10-27 14:13
閱讀 1840·2021-09-02 15:11
閱讀 3392·2019-08-29 12:52
閱讀 542·2019-08-26 12:00
閱讀 2574·2019-08-26 10:57
閱讀 3416·2019-08-26 10:32
閱讀 2858·2019-08-23 18:29