成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

??在爬完一周的朋友圈后,我發(fā)現(xiàn)了.......驚人??秘密

Cympros / 1839人閱讀

各位童鞋,大家好,我是?

在《?UI自動化工具輕松實(shí)現(xiàn)微信消息收發(fā)?朋友圈爬取??》文末給童鞋們布置了一個作業(yè),批量朋友圈爬取,不知道大伙們是否還有映像。

看到很多小伙伴們踴躍報名參與,不禁要給你們點(diǎn)個贊??紤]到很多小伙伴想做卻做出來,這…貼心的我這不就來給你們公布參考答案啦?

對相關(guān)基礎(chǔ)還不了解的童鞋請參考前文:

首先我們開始爬取朋友圈:

?朋友圈數(shù)據(jù)爬取?

去外面轉(zhuǎn)了一圈,再回來發(fā)現(xiàn)10分鐘之內(nèi)就爬完了一周的朋友圈:

當(dāng)然這是因?yàn)槲业奈⑿藕糜烟?,一周總共也只發(fā)了不到1000條消息。

晚上重新爬了一下,爬到8月21號直到朋友圈的數(shù)據(jù)無法繼續(xù)拉取,始終都是這個狀態(tài)說明已經(jīng)無法拉取再早的朋友圈數(shù)據(jù):

共爬到1186條朋友圈動態(tài)數(shù)據(jù),耗時12分鐘:

打開Excel簡單的美化一下格式就得到如下結(jié)果:

篩選了有點(diǎn)贊和評論的數(shù)據(jù)。

同時對于每一條存在圖片或視頻的朋友圈,都會在本地存儲一張截圖:

可以看到在這近1200條朋友圈中有725條數(shù)據(jù)觸發(fā)的圖片或視頻關(guān)鍵字產(chǎn)生截圖:

?好友朋友圈數(shù)據(jù)分析?

讀取數(shù)據(jù):

import pandas as pddf = pd.read_excel("朋友圈.xlsx")df = df.convert_dtypes()

我的好友給誰的點(diǎn)贊最多呢?

t = df.groupby("昵稱").agg(    點(diǎn)贊總?cè)藬?shù)=("點(diǎn)贊人數(shù)", "sum"),    評論總條數(shù)=("評論條數(shù)", "sum"),    發(fā)朋友圈條數(shù)=("序號", "count"))display(t.sort_values("點(diǎn)贊總?cè)藬?shù)", ascending=False).head(10))

原來我的好友中,大家最喜歡給這些數(shù)據(jù)分析相關(guān)的好友點(diǎn)贊:

排除點(diǎn)只發(fā)一條朋友圈的平均點(diǎn)贊比例最高的依然是數(shù)據(jù)分析相關(guān)的:

秘密1:我的朋友圈中,數(shù)據(jù)分析相關(guān)的好友的朋友最容易被點(diǎn)贊。

t[t.發(fā)朋友圈條數(shù) > 10].shape[0]

一周發(fā)朋友圈超過10條的話癆有21人。

t.發(fā)朋友圈條數(shù).value_counts()
1     882     533     295     194     176     1110     67      68      512     4Name: 發(fā)朋友圈條數(shù), dtype: int64

秘密2:我的好友中發(fā)過朋友圈的好友更傾向于一周只發(fā)一條朋友圈。

秘密3:幾個培訓(xùn)機(jī)構(gòu)的營銷號發(fā)朋友圈最頻率,現(xiàn)在就把你們刪掉。

點(diǎn)贊數(shù)排名前7的朋友圈:

評論數(shù)排名前7的朋友圈:

篩選出有時間信息的朋友圈統(tǒng)計大家的發(fā)朋友圈時間傾向:

秘密4:好友們最傾向在中午12點(diǎn)和晚上7點(diǎn)發(fā)朋友圈。

朋友圈內(nèi)容詞云圖:

import jiebaimport stylecloudfrom IPython.display import Imagewords = df.內(nèi)容.apply(jieba.lcut).explode()words = words[words.apply(len) > 1]words = words[~words.isin(["包含", "圖片", "視頻", "天前", "小時", "昨天", "自己"])]stylecloud.gen_stylecloud(text=" ".join(words), max_words=500,                          collocations=False,                          font_path=r"C:/Windows/Fonts/msyhbd.ttc",                          icon_name="fas fa-square",                          size=653,                          output_name="tmp.png")Image(filename="tmp.png")

評論區(qū)內(nèi)容詞云圖:

import jiebaimport stylecloudfrom IPython.display import Imagewords = df.評論列表.dropna().apply(jieba.lcut).explode()words = words[words.apply(len) > 1]words = words[~words.isin(["回復(fù)", "免費(fèi)", "欄目", "一個", "包含", "其他"])]stylecloud.gen_stylecloud(text=" ".join(words), max_words=500,                          collocations=False,                          font_path=r"C:/Windows/Fonts/msyhbd.ttc",                          icon_name="fas fa-thumbs-up",                          size=653,                          output_name="tmp.png")Image(filename="tmp.png")

從詞云圖看來,我的朋友圈都愛數(shù)據(jù)愛技術(shù)愛學(xué)習(xí)愛知識,這真是驚人的密碼…

??PC端朋友圈爬取代碼與難點(diǎn)?

保證節(jié)點(diǎn)在可視范圍內(nèi)能夠被完整截圖:

節(jié)點(diǎn)的底部位置比顯示界面更大時表示在外面,按一下向下的方向鍵。

解析節(jié)點(diǎn)的數(shù)據(jù):

對內(nèi)容數(shù)據(jù)直接取父節(jié)點(diǎn)的Name,獲取完整的全部文本,解析字符串即可得到昵稱、發(fā)布時間等信息。

第一麻煩點(diǎn)是解析出點(diǎn)贊和評論,上述代碼之所以那么復(fù)雜是因?yàn)榇嬖谥挥悬c(diǎn)贊、只有評論、既有點(diǎn)贊又有評論,點(diǎn)贊和評論都沒有四種情況。為了能夠同時適配這四種情況,經(jīng)過反復(fù)測試最終編寫出上述代碼。上述代碼基于必定存在的評論按鈕為基準(zhǔn)點(diǎn)進(jìn)行查找。

第二個麻煩點(diǎn)是想精準(zhǔn)只截圖片、視頻或視頻號,需要非常多的異常檢測代碼,每種情況變化都非常大,很難通用。最終我直接放棄,選擇直接對整個節(jié)點(diǎn)包含昵稱一起截圖。對一個節(jié)點(diǎn)是否進(jìn)行截圖,取決于這個節(jié)點(diǎn)的文本是否包含視頻或圖片關(guān)鍵字。

注意:截屏調(diào)用節(jié)點(diǎn)的CaptureToImage方法即可對指定節(jié)點(diǎn)的范圍截圖保存到指定文件。

批量爬取代碼:

注意上述代碼處理翻頁時的異常情況,當(dāng)節(jié)點(diǎn)不存在任何文本內(nèi)容時,說明定位到了一個加載數(shù)據(jù)的節(jié)點(diǎn),我們可以先按一次向上方向鍵回退之后,再按一下向下的方向鍵,即可定位到剛加載的新節(jié)點(diǎn)。如果回退再向下之后,名稱依然是空,說明已經(jīng)將朋友圈能夠拉取到的數(shù)據(jù)都加載完了,可以結(jié)束程序。

??說明:本文作為第一節(jié)的參考答案并不會提供可以直接復(fù)制粘貼的代碼,還需要各位童鞋們自己獨(dú)立完成作業(yè)。不需要寫到我這么復(fù)雜,根據(jù)實(shí)際需求簡化代碼編寫即可。

完整代碼已經(jīng)零碎的全部給到大家,剩下的可以根據(jù)理解,自己取敲即可。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/118784.html

相關(guān)文章

  • 自制圖片文件合成器【??男孩子們再也不用怕你的資源沒地方藏??

    ??前幾天有個粉絲瘋狂私信我問:博主,博主,有沒有什么辦法能將我夜里看的小視頻/愛情動作小說給藏起來,藏的越隱蔽越好,我怕我女朋友發(fā)現(xiàn)了揍我?。牶笪抑睒泛?,可見這是位名副其實(shí)的妻管嚴(yán)哦~)? ??一開始我是拒絕的,畢竟——我可是個正經(jīng)人!但是他又是加我VX,又是關(guān)注我公眾號(看看我主頁左側(cè)有二維碼哦?。┻€說我發(fā)的博文他幾乎都第一時間點(diǎn)贊,評論,收藏支持。瞬間就打動了我,于是我決定幫他一把(咳咳,...

    zhangqh 評論0 收藏0
  • ??擼完這個springboot項(xiàng)目,對boot輕車熟路!【源碼+視頻都開源】【強(qiáng)烈建議收藏】??

    上次給大家分享了一個springboot+vue的校園招聘系統(tǒng),視頻教程加項(xiàng)目源碼,都是開源的,應(yīng)該說很香了,今天再給大家分享一個不錯的springboot的項(xiàng)目。 老規(guī)矩,開源,開源,開源?。。? 金九銀十來了,小伙伴們,沖?。∏懊嬉呀?jīng)整理了很多的面試題,拿去學(xué)習(xí)吧! 1,??爆肝!整理了一周的Spring面試大全【含答案】,吊打Java面試官【建議收藏】!?? 2,??肝完了,一天掌握數(shù)據(jù)...

    AZmake 評論0 收藏0
  • C語言實(shí)現(xiàn)自制圖片文件合成器【男孩子們再也不用擔(dān)心你的學(xué)習(xí)資料沒地方藏~】

    摘要:文件指針此函數(shù)用于關(guān)閉文件。完工被逮了也別說是我教的哈我怕被打可能某些小白沒有環(huán)境,也急需此方法,所以本博主直接將我的文件分享給大家下載下面這張圖,操作我相信你肯定會的如果你從本文中學(xué)到了知識,喜歡它,那么我很榮幸。 ...

    zzir 評論0 收藏0
  • ??國慶七天的總結(jié)

    今年國慶七天和以往就不一樣了,過去都是學(xué)生時代的國慶,大學(xué)時光以前在家有家人的陪伴,在大學(xué)階段也基本沒回過家。 這里說明一下不怎么回家的原因吧,因?yàn)槲依霞以谵r(nóng)村里,國慶階段是收集油茶樹果實(shí)的好時光,就從網(wǎng)上拿了一張圖,大概就是如下樣子,碩果累累(說不定有些小伙伴還不知道這啥,因?yàn)槲覇柫艘恍┡笥讯颊f不知道這回事,農(nóng)村里的小伙伴可能會知道)。 往年的國慶 還記得初中那會還和家里人一起上山采摘過,不過...

    0xE7A38A 評論0 收藏0

發(fā)表評論

0條評論

Cympros

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<