摘要:以大量微博用戶數(shù)據(jù)為基礎(chǔ)可建立數(shù)據(jù)模型。當(dāng)前微博除了用戶自己,其他人是不能查看該用戶所有粉絲數(shù)據(jù)的。
項目地址:
https://github.com/daweilang/...
開始抓取微博數(shù)據(jù)的時候,只是想獲得一條熱門微博下的所有評論,因為里面有不少圖片廣告,所以想試試能不能分析出熱門微博評論里的異常用戶。
使用PHP的Laravel框架后,通過隊列、命令等各種功能,最后構(gòu)架了一套完整的微博用戶數(shù)據(jù)抓取平臺,經(jīng)過一段時間的運行積累了大量數(shù)據(jù),那么使用這些數(shù)據(jù)能做什么呢?
微博數(shù)據(jù)分析很早就有人在做了,網(wǎng)上采集分析工具貌似有很多,搜索一下想找一些微博數(shù)據(jù)分析的具體方案。世事變幻,發(fā)現(xiàn)很多幾年前的微博數(shù)據(jù)分析平臺都不能用了,可能微博數(shù)據(jù)分析和微博一樣在商業(yè)上還是沒有什么更好的盈利模式。。。
根據(jù)之前網(wǎng)上微博數(shù)據(jù)分析的方案,微博傳播力是數(shù)據(jù)分析的一個方向,熱門微博轉(zhuǎn)發(fā)傳播可以用于廣告營銷分析,這個數(shù)據(jù)基礎(chǔ)是采集微博內(nèi)容和傳播路徑,和我的數(shù)據(jù)獲取方式并不相同。
沒有找到用戶數(shù)據(jù)分析的解決方案,也沒有數(shù)據(jù)挖掘相關(guān)知識的基礎(chǔ),所以還是以一個程序員的角度說說微博用戶數(shù)據(jù)使用的設(shè)想吧。
使用Laravel框架搭建的平臺是以微博用戶為基礎(chǔ)的數(shù)據(jù)抓取模式,可以獲得某條微博下的所有評論、轉(zhuǎn)發(fā)和贊。進(jìn)一步深入,獲得一個微博用戶的所有微博后,即可以獲得該用戶所發(fā)微博,包括其評論、轉(zhuǎn)發(fā)和贊的所有數(shù)據(jù)。
微博用戶的完整數(shù)據(jù)中能夠得到什么? 一、通過微博贊積累微博用戶微博不能重復(fù)點贊,所以一條有百萬個贊的微博就能獲得百萬用戶基礎(chǔ)信息,這是積累微博用戶池效率比較高的方式,不過隨著累積量增加,重復(fù)數(shù)據(jù)變多,效率會降低。同樣評論和轉(zhuǎn)發(fā)也可以積累用戶信息,不過重復(fù)性使得獲取數(shù)據(jù)效率不高。
二、通過數(shù)據(jù)建立關(guān)于用戶的數(shù)學(xué)模型早就把數(shù)學(xué)模型還給大學(xué)老師了,當(dāng)年這東西也沒好好學(xué)。不過還是明白一點,一個用戶,其粉絲量、微博數(shù)和轉(zhuǎn)發(fā)、評論、贊應(yīng)該有一定的數(shù)學(xué)模型關(guān)系。
具體來說,百萬級的微博用戶,其微博的平均轉(zhuǎn)發(fā)、評論、贊,應(yīng)該在一定的范圍內(nèi)。以大量微博用戶數(shù)據(jù)為基礎(chǔ)可建立數(shù)據(jù)模型。這種模型可以用來評估一個微博用戶的健康性。
三、通過數(shù)據(jù)獲得用戶的活躍粉絲一個微博用戶的完整數(shù)據(jù),通過交叉對比可以獲得粉絲的活躍度。
當(dāng)前微博除了用戶自己,其他人是不能查看該用戶所有粉絲數(shù)據(jù)的。但是通過“共同關(guān)注”關(guān)系,可以判斷出是否是用戶粉絲。
理論上說如果有全部幾十億微博用戶數(shù)據(jù),逐個對比,是可以獲取某用戶所有粉絲的,但這只是理論方案。
通過用戶微博下的轉(zhuǎn)發(fā)、評論、贊可縮小對比范圍,雖然不能得到用戶的所有粉絲,但能分析出和微博用戶有過互動的所有粉絲,這些粉絲的占比可以評估出微博用戶粉絲的質(zhì)量。
以上就是通過微博用戶數(shù)據(jù)抓取平臺獲得的數(shù)據(jù)后在使用方面的一些設(shè)想。
作為一個程序員,還是不適合寫這種理論性的東西,自己都看不懂,還是好好寫程序去吧。。。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/22670.html
摘要:模擬登錄新浪微博的核心,也是與模擬登錄最大的不同,密碼加密。已經(jīng)實現(xiàn)模擬新浪微博登錄的功能,之后不再更新。 參考資料: http://www.csuldw.com/2016/11/10/2016-11-10-simulate-sina-login/ http://blog.csdn.net/fly_leopard/article/details/51148904 http://www....
摘要:本文經(jīng)授權(quán)轉(zhuǎn)自社區(qū),后續(xù)更新將以帖子內(nèi)容和內(nèi)容為準(zhǔn)。說明另一個令人喜歡的地方,是擁有活躍的開發(fā)者社區(qū),而活躍的開發(fā)者社區(qū)帶來的,是繁華的擴(kuò)展包生態(tài)。本文對上打了標(biāo)簽的擴(kuò)展包進(jìn)行整理,截止到現(xiàn)在年月號,有超過個擴(kuò)展包,以下是下載量最大的個。 本文經(jīng)授權(quán)轉(zhuǎn)自 PHPHub 社區(qū),后續(xù)更新將以 PHPHub 帖子內(nèi)容 和 GitHub 內(nèi)容 為準(zhǔn)。 說明 Laravel 另一個令人喜歡的地方...
摘要:目前支持的認(rèn)證有。英文不好的同學(xué)比如我,下面是中文文檔通過擴(kuò)展的,實現(xiàn)了很多第三方認(rèn)證。國內(nèi)的有微博微信豆瓣。至于和的具體值,這個是由新浪微博分發(fā)給你的,在新浪微博的授權(quán)回調(diào)頁中填寫。 前言 第三方登錄認(rèn)證能簡化用戶登錄/注冊的操作,降低用戶登錄/注冊的門檻,對提高應(yīng)用的用戶轉(zhuǎn)化率很有幫助。 Socialite Laravel 為我們提供了簡單、易用的方式,使用 Laravel Soc...
摘要:你能找到你所需要的數(shù)量和質(zhì)量的開發(fā)者嗎很顯然我們都特別關(guān)注這一條調(diào)查結(jié)果,對于那些正在招聘的被調(diào)查者來說,他們中幾乎有一半的人找不到他們所需要的數(shù)量和質(zhì)量的開發(fā)者。 本文來自Laravel News----原文鏈接; 歡迎來和pilishen一起學(xué)習(xí)php&Laravel;學(xué)習(xí)群:1092560502017年9月,Laravel News與LaraJobs一起合作發(fā)起對人們都在使用la...
摘要:微博墻就是這樣的一個工具,這不是一款普通的插件,這是一款搭建在基于的插件。這是一款基于的插件,底層語言開發(fā),性能卓越。 在現(xiàn)在移動互聯(lián)網(wǎng)時代,微博已經(jīng)成為了每個人生活中必不可少的一個社交工具。而WordPress是全世界最為流行的博客系統(tǒng),把你的博客接入新浪微博,借助微博的強(qiáng)大用戶群,不僅能給你的網(wǎng)站提供巨大的流量,而且還能帶來不可估量價值。 WordPress微博墻就是這樣的一個工具...
閱讀 4111·2023-04-26 01:48
閱讀 3278·2021-10-13 09:40
閱讀 1755·2021-09-26 09:55
閱讀 3649·2021-08-12 13:23
閱讀 1810·2021-07-25 21:37
閱讀 3444·2019-08-30 15:53
閱讀 1409·2019-08-29 14:16
閱讀 1408·2019-08-29 12:59