摘要:據(jù)小編簡(jiǎn)單了解,已知對(duì)工作報(bào)告高頻詞匯進(jìn)行梳理的媒體包括法制日?qǐng)?bào)和新華網(wǎng)。高頻詞詞頻年以來(lái)政府工作報(bào)告中的提及總數(shù)發(fā)展經(jīng)濟(jì)改革建設(shè)社會(huì)推進(jìn)創(chuàng)新政策企業(yè)加強(qiáng)下面是新華網(wǎng)數(shù)據(jù)新聞部統(tǒng)計(jì)的高頻詞匯。
本文首發(fā)于微信公眾號(hào)號(hào)“編程派”。微信搜索“編程派”,獲取更多Python編程一手教程及優(yōu)質(zhì)資源吧。
上周六,總理在大會(huì)堂作政府工作報(bào)告,全球媒體矚目。每年都會(huì)有媒體對(duì)報(bào)告中的高頻詞匯進(jìn)行梳理,我們也可以嘗試?yán)肞ython和分詞jieba來(lái)自己分析一下。
我們首先來(lái)看國(guó)內(nèi)部分媒體的梳理結(jié)果。據(jù)小編簡(jiǎn)單了解,已知對(duì)工作報(bào)告高頻詞匯進(jìn)行梳理的媒體包括法制日?qǐng)?bào)和新華網(wǎng)。
國(guó)內(nèi)媒體梳理的高頻詞下面是法制日?qǐng)?bào)公布的十大高頻詞。
高頻詞 | 詞頻 | 1978年以來(lái)政府工作報(bào)告中的提及總數(shù) |
---|---|---|
發(fā)展 | 151 | 4828 |
經(jīng)濟(jì) | 90 | 4449 |
改革 | 74 | 2758 |
建設(shè) | 71 | 3274 |
社會(huì) | 66 | 3402 |
推進(jìn) | 61 | 1096 |
創(chuàng)新 | 61 | 414 |
政策 | 52 | 1231 |
企業(yè) | 48 | 2304 |
加強(qiáng) | 41 | 2238 |
下面是新華網(wǎng)數(shù)據(jù)新聞部統(tǒng)計(jì)的高頻詞匯。
新華網(wǎng)的信息圖其實(shí)有些含糊不清,有些詞頻不知道到底是2016年還是2015年的,但這里并不是我們關(guān)注的重點(diǎn)。
另外,新華網(wǎng)和法制日?qǐng)?bào)得出的數(shù)據(jù)似乎有些出入,雖然并不大。那么,到底那家的數(shù)據(jù)是準(zhǔn)確的呢?
接下來(lái),我們就自己來(lái)計(jì)算一下報(bào)告中的高頻詞匯吧。
準(zhǔn)備工作我們需要從網(wǎng)上爬取政府報(bào)告的全文,這里小編選擇中國(guó)政府網(wǎng)發(fā)布的報(bào)告頁(yè)面。為此,我們需要安裝requests和BeautifulSoup4這兩個(gè)常用第三方庫(kù)。
pip requests beautifulsoup
獲取了報(bào)告文本之后,接下來(lái)需要對(duì)文本進(jìn)行分詞。我們選擇號(hào)稱(chēng)“做最好的中文分詞組件”的jieba中文分詞庫(kù)。
pip install jieba
這里提示一下,這三個(gè)庫(kù)都支持Python 2和Python 3。但是在Python 2下,很容易就碰到編碼問(wèn)題,最后打印出的中文無(wú)法正常顯示。因此,建議使用Python 3執(zhí)行該腳本。
安裝好依賴(lài)包之后,我們?cè)谀_本analyze_report.py的頂部導(dǎo)入它們。
import jieba import requests from bs4 import BeautifulSoup文本提取
首先,我們從網(wǎng)上抓取政府工作報(bào)告的全文。我將這個(gè)步驟封裝在一個(gè)名叫extract_text的簡(jiǎn)單函數(shù)中,接受url作為參數(shù)。因?yàn)槟繕?biāo)頁(yè)面中報(bào)告的文本在所有的p元素中,所以我們只需要通過(guò)BeautifulSoup選中全部的p元素即可,最后返回一個(gè)包含了報(bào)告正文的字符串,簡(jiǎn)單粗暴!
def extract_text(url): """Extract html content.""" page_source = requests.get(url).content bs_source = BeautifulSoup(page_source) report_text = bs_source.find_all("p") text = "" for p in report_text: text += p.get_text() text += " " return text利用jieba分詞,并計(jì)算詞頻
然后,我們就可以利用jieba進(jìn)行分詞了。這里,我們要選擇全模式分詞。jieba的全模式分詞,即把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非??欤遣荒芙鉀Q歧義。之所以這么做,是因?yàn)槟J(rèn)的精確模式下,返回的詞頻數(shù)據(jù)不準(zhǔn)確。
分詞時(shí),還要注意去除標(biāo)點(diǎn)符號(hào),由于標(biāo)點(diǎn)符號(hào)的長(zhǎng)度都是1,所以我們添加一個(gè)len(word) >= 2的條件即可。
最后,我們就可以利用Counter類(lèi),將分詞后的列表快速地轉(zhuǎn)化為字典,其中的鍵值就是鍵的出現(xiàn)次數(shù),也就是這個(gè)詞在全文中出現(xiàn)的次數(shù)啦。
def word_frequency(text): from collections import Counter words = [word for word in jieba.cut(text, cut_all=True) if len(word) >= 2] c = Counter(words) for word_freq in c.most_common(10): word, freq = word_freq print(word, freq)執(zhí)行腳本
兩個(gè)函數(shù)都寫(xiě)好之后,我們就可以愉快地執(zhí)行啦。
url_2016 = "http://www.gov.cn/guowuyuan/2016-03/05/content_5049372.htm" text_2016 = extract_text(url_2016) word_frequency(text_2016)
最后的結(jié)果如下:
高頻詞 | 次數(shù) |
---|---|
發(fā)展 | 152 |
經(jīng)濟(jì) | 90 |
改革 | 76 |
建設(shè) | 71 |
社會(huì) | 67 |
推進(jìn) | 62 |
創(chuàng)新 | 61 |
政策 | 54 |
企業(yè) | 48 |
服務(wù) | 44 |
## 小結(jié)
從上面的結(jié)果可以看出,新華網(wǎng)發(fā)布的高頻詞統(tǒng)計(jì)數(shù)據(jù)與我們自己的分析最為接近。當(dāng)然,新華網(wǎng)的里面少了一個(gè)高頻詞:推進(jìn)。
如果有朋友想要驗(yàn)證結(jié)果的話(huà),可以自己把報(bào)告全文復(fù)制到word里,然后查詢(xún)下相關(guān)的高頻詞即可,比如下面這樣:
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/37801.html
摘要:而自然語(yǔ)言處理被視為深度學(xué)習(xí)即將攻陷的下一個(gè)技術(shù)領(lǐng)域,在今年全球較高級(jí)的學(xué)術(shù)會(huì)議上,我們也看到大量的在深度學(xué)習(xí)引入方面的探索研究。和也是近幾年暫露頭角的青年學(xué)者,尤其是在將深度學(xué)習(xí)應(yīng)用于領(lǐng)域做了不少創(chuàng)新的研究。 深度學(xué)習(xí)的出現(xiàn)讓很多人工智能相關(guān)技術(shù)取得了大幅度的進(jìn)展,比如語(yǔ)音識(shí)別已經(jīng)逼近臨界點(diǎn),即將達(dá)到Game Changer水平;機(jī)器視覺(jué)也已經(jīng)在安防、機(jī)器人、自動(dòng)駕駛等多個(gè)領(lǐng)域得到應(yīng)用。 ...
摘要:中試牛刀我們這里有一張祖國(guó)地圖,是否可以定制生成一個(gè)祖國(guó)版圖樣式的詞云圖呢答案是肯定的,只因?yàn)樘珡?qiáng)大,實(shí)現(xiàn)思路直接看代碼。 showImg(https://segmentfault.com/img/remote/1460000018757943?w=1280&h=640);Overview:0 引言1 環(huán)境2 模塊準(zhǔn)備3 實(shí)現(xiàn)思路4 小試牛刀5 中試牛刀6 總結(jié) 0 引言 詞云圖,也叫...
摘要:本文轉(zhuǎn)載自微信公眾號(hào)賬號(hào),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開(kāi)發(fā)工程師高顏。文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺(tái)的容器化改造經(jīng)驗(yàn),包括初期技術(shù)架構(gòu)應(yīng)用容器化架構(gòu)遷移持續(xù)發(fā)布與部署。 本文轉(zhuǎn)載自微信公眾號(hào)Docker(賬號(hào):dockerone),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開(kāi)發(fā)工程師高顏。 文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺(tái)的容器化改造經(jīng)驗(yàn),包括初期技術(shù)架構(gòu)、應(yīng)用容器化、架構(gòu)遷...
摘要:表示學(xué)習(xí)和深度學(xué)習(xí)的興起是密切相關(guān)。自然語(yǔ)言處理中的深度學(xué)習(xí)在自然語(yǔ)言的表示學(xué)習(xí)中提及深度學(xué)習(xí)這是因?yàn)樯疃葘W(xué)習(xí)首要的用處就是進(jìn)行自然語(yǔ)言的表示。圖是深度學(xué)習(xí)在自然語(yǔ)言理解中應(yīng)用描述。 本文根據(jù)達(dá)觀數(shù)據(jù)特聘專(zhuān)家復(fù)旦大學(xué)黃萱菁教授在達(dá)觀數(shù)據(jù)舉辦的長(zhǎng)三角人工智能應(yīng)用創(chuàng)新張江峰會(huì)上的演講整理而成,達(dá)觀數(shù)據(jù)副總裁魏芳博士統(tǒng)稿 一、概念 1 什么是自然語(yǔ)言和自然語(yǔ)言理解? 自然語(yǔ)言是指漢語(yǔ)、英語(yǔ)、...
閱讀 952·2021-11-24 09:38
閱讀 1144·2021-10-08 10:05
閱讀 2648·2021-09-10 11:21
閱讀 2846·2019-08-30 15:53
閱讀 1869·2019-08-30 15:52
閱讀 2022·2019-08-29 12:17
閱讀 3467·2019-08-29 11:21
閱讀 1662·2019-08-26 12:17