摘要:數(shù)據(jù)庫文件已經(jīng)超過了了。復(fù)聯(lián)從開始便是漫威宇宙各路超級英雄的集結(jié),到現(xiàn)在的第部,更是全英雄的匯聚。所以,滅霸出現(xiàn)的次數(shù)居然高于了鋼鐵俠。情感分析,又稱為意見挖掘傾向性分析等。
作者 | 羅昭成
責(zé)編 | 唐小引
《復(fù)聯(lián) 4》國內(nèi)上映第十天,程序員的江湖里開始流傳這樣一個(gè)故事,即:漫威宇宙,其實(shí)就講了一件事情。整個(gè)宇宙就好比一個(gè)項(xiàng)目組。其中有一群叫作美國隊(duì)長、鋼鐵俠、驚奇隊(duì)長、浩克、索爾等人在維護(hù)這個(gè)項(xiàng)目,兢兢業(yè)業(yè)的維護(hù)整個(gè)項(xiàng)目。
某一天,出現(xiàn)了一個(gè)天才程序員,叫滅霸。當(dāng)他加入到這家公司的時(shí)候,他意識(shí)到,這個(gè)項(xiàng)目已經(jīng)非常龐大,僅僅是編譯,就要幾個(gè)小時(shí)。運(yùn)行起來負(fù)重累累。而服務(wù)器資源又非常的有限,老板又不給預(yù)算買新機(jī)器,如果一直繼續(xù)這么開發(fā)下去,這個(gè)項(xiàng)目遲早要出現(xiàn) P0 事故。于是,他下定決定要把這個(gè)項(xiàng)目全面優(yōu)化,使用用面向?qū)ο笏枷?,提取重?fù)代碼,業(yè)務(wù)拆分,算法優(yōu)化等手段,徹底優(yōu)化,目標(biāo)是代碼量減少 50%。
美國隊(duì)長帶領(lǐng)的項(xiàng)目組叫復(fù)仇者聯(lián)盟,發(fā)現(xiàn)了滅霸程序員的想法后,阻止并警告滅霸說:不要輕易去改老代碼??!很容易出 bug 的,代碼能跑就行?。?/p>
—— 以上來自知乎@郭啟軍那么,作為一個(gè)寫程序員的電影,我們怎么不能用數(shù)據(jù)來分析一下,喜歡漫威宇宙的觀眾對《復(fù)聯(lián) 4》的評價(jià)呢?
01抓取數(shù)據(jù)業(yè)界朋友們,在電影分析中,使用貓眼的數(shù)據(jù)比較多。在本文中,筆者也使用了貓眼的接口來獲取數(shù)據(jù),方便處理,數(shù)據(jù)量也比較多。有關(guān)接口,大家可以自己去貓眼的網(wǎng)站上看,也可以使用如下地址:
在 Python 中,使用 Request 可以很方便地發(fā)送請求,拿到接口返回的 JSON 數(shù)據(jù),來看代碼:
請求返回的是一個(gè) JSON 數(shù)據(jù),拿到我們想要的評論原始數(shù)據(jù),并將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中:
經(jīng)過大概兩個(gè)小時(shí),終于從貓眼爬取了大約 9 萬條數(shù)據(jù)。數(shù)據(jù)庫文件已經(jīng)超過了 100M 了。
02數(shù)據(jù)清洗因?yàn)樵谏厦孀ト∠聛淼臄?shù)據(jù),直接進(jìn)行了原數(shù)據(jù)的存儲(chǔ),沒有進(jìn)行數(shù)據(jù)的解析處理。接口中包含了很多數(shù)據(jù),有用戶信息、評論信息等。本次分析,只使用了部分?jǐn)?shù)據(jù),所以需要將用到的相關(guān)數(shù)據(jù)清洗出來:
通過 JSON 庫將原始數(shù)據(jù)解析出來,將我們需要的信息存儲(chǔ)到新的數(shù)據(jù)表中。
03數(shù)據(jù)分析因?yàn)闆]有任何一個(gè)平臺(tái)能夠拿到用戶的購票數(shù)據(jù),我們只能從評論的數(shù)據(jù)中,以小見大,從這些數(shù)據(jù)中,分析出一些走勢。 在評論數(shù)據(jù)中,我們能看到評論用戶所在的城市。將數(shù)據(jù)所在的位置解析,劃分到各對應(yīng)的行政省,可以看到每個(gè)省評論數(shù)量,見下圖(顏色越紅,用戶評論數(shù)量越多):
城市從圖中可以看到, 上海、廣州、四川用戶的數(shù)量顯然要比其他城市的用戶數(shù)量要多得多。再來看一下代碼:
漫威電影一直深受中國朋友們喜歡的高分電影。豆瓣評分 8.7 分,那我們的評論用戶中,又是一個(gè)什么樣的趨勢呢?見下圖:
評分?jǐn)?shù)從圖中可以看到,評 5 分的數(shù)量遠(yuǎn)高于其他評分,可見中國的觀眾朋友確實(shí)喜歡漫威的科幻電影。復(fù)聯(lián)從 1 開始便是漫威宇宙各路超級英雄的集結(jié),到現(xiàn)在的第 4 部,更是全英雄的匯聚。那么,在這之中,哪位英雄人物更受觀眾歡迎?先看代碼:
運(yùn)行結(jié)果如下圖,可以看到鋼鐵俠鋼鐵俠是實(shí)至名歸的 C 位,不僅電影在電影中是,在評論區(qū)仍然也是實(shí)至名歸的 C 位,甚至于遠(yuǎn)超美隊(duì)、寡姐和雷神:
英雄評論次數(shù)從以上觀眾分布和評分的數(shù)據(jù)可以看到,這一部劇,觀眾朋友還是非常地喜歡。前面,從貓眼拿到了觀眾的評論數(shù)據(jù)?,F(xiàn)在,筆者將通過 Jieba 把評論進(jìn)行分詞,然后通過 Wordcloud 制作詞云,來看看,觀眾朋友們對《復(fù)聯(lián)》的整體評價(jià):
詞云分析可以看到,滅霸和鋼鐵俠出現(xiàn)的詞頻比其他英雄要高很多。這是否表示,這部劇的主角就是他們兩個(gè)呢?細(xì)心的朋友應(yīng)該發(fā)現(xiàn)了,鋼鐵俠、滅霸的數(shù)量在詞云和評論數(shù)量里面不一致。原因在于,評論數(shù)量就按評論條數(shù)來統(tǒng)計(jì)的,而詞云中,使用的是詞頻,同一條評論中,多次出現(xiàn)會(huì)多次統(tǒng)計(jì)。所以,滅霸出現(xiàn)的次數(shù)居然高于了鋼鐵俠。最后,再來分析一下鋼鐵俠與滅霸的情感分析,先上代碼:
此處,使用 SnowNLP 來進(jìn)行情感分析。情感分析,又稱為意見挖掘、傾向性分析等。簡單而言,是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。
鋼鐵俠從圖中看到, 鋼鐵俠的正向情感要比滅霸的正向情感要高,反派角色就是容易被人抗拒。
最最后,從《銀河護(hù)衛(wèi)隊(duì)》時(shí)期穿越而來的滅霸在最后分鐘變成了粉末消散而去,這也給我們程序員一個(gè)警鐘:
重構(gòu)代碼,改善設(shè)計(jì),降低系統(tǒng)復(fù)雜度,這樣做很好。但是,一定要保證系統(tǒng)的穩(wěn)定運(yùn)行,不留安全隱患,不然,早晚會(huì)丟掉自己的工作。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/43734.html
摘要:據(jù)說此部之后,不少影迷熟知的角色演員就要離開漫威世界的熒幕了。換句話說用數(shù)據(jù)說話,誰才是漫威宇宙中著墨最多的人物我之前做了個(gè)小調(diào)查僅就我這邊的采樣來看,鋼鐵俠在國內(nèi)是無法撼動(dòng)的人氣王。 復(fù)聯(lián)4上映了!這次比美國還早了兩天。當(dāng)然,我還沒看,不會(huì)給你們劇透,當(dāng)然也不想不劇透。 這一部不僅是滅霸這一線劇情的結(jié)局,也被認(rèn)為漫威第三階段的收官之作。據(jù)說此部之后,不少影迷熟知的角色(演員)就要離開...
摘要:另外由于豆瓣上一些電影評分?jǐn)?shù)量太少而不顯示,所以這里的電影數(shù)量會(huì)和票房數(shù)量有所差異。月度票房將類型片的票房按月劃分,得到了這張圖。 去年末的時(shí)候,我招收了新的 實(shí)訓(xùn)生 。本文是其中一位 @齊大圣 同學(xué)在實(shí)訓(xùn)兩個(gè)月時(shí)完成的項(xiàng)目案例。(碼上行動(dòng)群里同學(xué)應(yīng)該都看過這個(gè)名字,現(xiàn)在也是助教之一。)項(xiàng)目最初的想法是, 從互聯(lián)網(wǎng)上的公開信息中采集2018年在國內(nèi)上映電影的票房、評分、類型、演員等信息...
摘要:上個(gè)禮拜權(quán)力的游戲第八季放出大結(jié)局,最終的結(jié)果布蘭登上了鐵王座。第二位臨冬城史塔克家族的城堡。第二位是什么都不懂的雪諾。第三位是白手起家最后又被騙的龍媽。 showImg(http://upload-images.jianshu.io/upload_images/13825820-995fbee837346456.jpg?imageMogr2/auto-orient/strip%7Ci...
閱讀 2098·2021-10-08 10:04
閱讀 3135·2021-09-22 10:02
閱讀 2339·2019-08-30 15:56
閱讀 871·2019-08-30 15:54
閱讀 979·2019-08-30 15:54
閱讀 1338·2019-08-30 15:53
閱讀 2559·2019-08-30 11:21
閱讀 3602·2019-08-30 10:56