成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

Python文本分析:2016年政府工作報(bào)告有哪些高頻詞?

CntChen / 2762人閱讀

摘要:據(jù)小編簡(jiǎn)單了解,已知對(duì)工作報(bào)告高頻詞匯進(jìn)行梳理的媒體包括法制日?qǐng)?bào)和新華網(wǎng)。高頻詞詞頻年以來(lái)政府工作報(bào)告中的提及總數(shù)發(fā)展經(jīng)濟(jì)改革建設(shè)社會(huì)推進(jìn)創(chuàng)新政策企業(yè)加強(qiáng)下面是新華網(wǎng)數(shù)據(jù)新聞部統(tǒng)計(jì)的高頻詞匯。

本文首發(fā)于微信公眾號(hào)號(hào)“編程派”。微信搜索“編程派”,獲取更多Python編程一手教程及優(yōu)質(zhì)資源吧。

上周六,總理在大會(huì)堂作政府工作報(bào)告,全球媒體矚目。每年都會(huì)有媒體對(duì)報(bào)告中的高頻詞匯進(jìn)行梳理,我們也可以嘗試?yán)肞ython和分詞jieba來(lái)自己分析一下。


我們首先來(lái)看國(guó)內(nèi)部分媒體的梳理結(jié)果。據(jù)小編簡(jiǎn)單了解,已知對(duì)工作報(bào)告高頻詞匯進(jìn)行梳理的媒體包括法制日?qǐng)?bào)和新華網(wǎng)。

國(guó)內(nèi)媒體梳理的高頻詞

下面是法制日?qǐng)?bào)公布的十大高頻詞。

高頻詞 詞頻 1978年以來(lái)政府工作報(bào)告中的提及總數(shù)
發(fā)展 151 4828
經(jīng)濟(jì) 90 4449
改革 74 2758
建設(shè) 71 3274
社會(huì) 66 3402
推進(jìn) 61 1096
創(chuàng)新 61 414
政策 52 1231
企業(yè) 48 2304
加強(qiáng) 41 2238

下面是新華網(wǎng)數(shù)據(jù)新聞部統(tǒng)計(jì)的高頻詞匯。

新華網(wǎng)的信息圖其實(shí)有些含糊不清,有些詞頻不知道到底是2016年還是2015年的,但這里并不是我們關(guān)注的重點(diǎn)。

另外,新華網(wǎng)和法制日?qǐng)?bào)得出的數(shù)據(jù)似乎有些出入,雖然并不大。那么,到底那家的數(shù)據(jù)是準(zhǔn)確的呢?


接下來(lái),我們就自己來(lái)計(jì)算一下報(bào)告中的高頻詞匯吧。

準(zhǔn)備工作

我們需要從網(wǎng)上爬取政府報(bào)告的全文,這里小編選擇中國(guó)政府網(wǎng)發(fā)布的報(bào)告頁(yè)面。為此,我們需要安裝requests和BeautifulSoup4這兩個(gè)常用第三方庫(kù)。

pip requests beautifulsoup

獲取了報(bào)告文本之后,接下來(lái)需要對(duì)文本進(jìn)行分詞。我們選擇號(hào)稱(chēng)“做最好的中文分詞組件”的jieba中文分詞庫(kù)。

pip install jieba

這里提示一下,這三個(gè)庫(kù)都支持Python 2和Python 3。但是在Python 2下,很容易就碰到編碼問(wèn)題,最后打印出的中文無(wú)法正常顯示。因此,建議使用Python 3執(zhí)行該腳本。

安裝好依賴(lài)包之后,我們?cè)谀_本analyze_report.py的頂部導(dǎo)入它們。

import jieba
import requests
from bs4 import BeautifulSoup
文本提取

首先,我們從網(wǎng)上抓取政府工作報(bào)告的全文。我將這個(gè)步驟封裝在一個(gè)名叫extract_text的簡(jiǎn)單函數(shù)中,接受url作為參數(shù)。因?yàn)槟繕?biāo)頁(yè)面中報(bào)告的文本在所有的p元素中,所以我們只需要通過(guò)BeautifulSoup選中全部的p元素即可,最后返回一個(gè)包含了報(bào)告正文的字符串,簡(jiǎn)單粗暴!

def extract_text(url):
    """Extract html content."""
    page_source = requests.get(url).content
    bs_source = BeautifulSoup(page_source)
    report_text = bs_source.find_all("p")

    text = ""

    for p in report_text:
        text += p.get_text()
        text += "
"

    return text
利用jieba分詞,并計(jì)算詞頻

然后,我們就可以利用jieba進(jìn)行分詞了。這里,我們要選擇全模式分詞。jieba的全模式分詞,即把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非??欤遣荒芙鉀Q歧義。之所以這么做,是因?yàn)槟J(rèn)的精確模式下,返回的詞頻數(shù)據(jù)不準(zhǔn)確。

分詞時(shí),還要注意去除標(biāo)點(diǎn)符號(hào),由于標(biāo)點(diǎn)符號(hào)的長(zhǎng)度都是1,所以我們添加一個(gè)len(word) >= 2的條件即可。

最后,我們就可以利用Counter類(lèi),將分詞后的列表快速地轉(zhuǎn)化為字典,其中的鍵值就是鍵的出現(xiàn)次數(shù),也就是這個(gè)詞在全文中出現(xiàn)的次數(shù)啦。

def word_frequency(text):
    from collections import Counter

    words = [word for word in jieba.cut(text, cut_all=True) if len(word) >= 2]
    c = Counter(words)

    for word_freq in c.most_common(10):
        word, freq = word_freq
        print(word, freq)
執(zhí)行腳本

兩個(gè)函數(shù)都寫(xiě)好之后,我們就可以愉快地執(zhí)行啦。

url_2016 = "http://www.gov.cn/guowuyuan/2016-03/05/content_5049372.htm"
text_2016 = extract_text(url_2016)
word_frequency(text_2016)

最后的結(jié)果如下:

高頻詞 次數(shù)
發(fā)展 152
經(jīng)濟(jì) 90
改革 76
建設(shè) 71
社會(huì) 67
推進(jìn) 62
創(chuàng)新 61
政策 54
企業(yè) 48
服務(wù) 44

## 小結(jié)

從上面的結(jié)果可以看出,新華網(wǎng)發(fā)布的高頻詞統(tǒng)計(jì)數(shù)據(jù)與我們自己的分析最為接近。當(dāng)然,新華網(wǎng)的里面少了一個(gè)高頻詞:推進(jìn)。

如果有朋友想要驗(yàn)證結(jié)果的話(huà),可以自己把報(bào)告全文復(fù)制到word里,然后查詢(xún)下相關(guān)的高頻詞即可,比如下面這樣:

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/37801.html

相關(guān)文章

  • 深度學(xué)習(xí)即將攻陷的下一領(lǐng)域:NLP—ACL2016優(yōu)秀論文解讀上

    摘要:而自然語(yǔ)言處理被視為深度學(xué)習(xí)即將攻陷的下一個(gè)技術(shù)領(lǐng)域,在今年全球較高級(jí)的學(xué)術(shù)會(huì)議上,我們也看到大量的在深度學(xué)習(xí)引入方面的探索研究。和也是近幾年暫露頭角的青年學(xué)者,尤其是在將深度學(xué)習(xí)應(yīng)用于領(lǐng)域做了不少創(chuàng)新的研究。 深度學(xué)習(xí)的出現(xiàn)讓很多人工智能相關(guān)技術(shù)取得了大幅度的進(jìn)展,比如語(yǔ)音識(shí)別已經(jīng)逼近臨界點(diǎn),即將達(dá)到Game Changer水平;機(jī)器視覺(jué)也已經(jīng)在安防、機(jī)器人、自動(dòng)駕駛等多個(gè)領(lǐng)域得到應(yīng)用。 ...

    mengera88 評(píng)論0 收藏0
  • 做大數(shù)據(jù)分析的怎么可以不會(huì)這個(gè)?

    摘要:中試牛刀我們這里有一張祖國(guó)地圖,是否可以定制生成一個(gè)祖國(guó)版圖樣式的詞云圖呢答案是肯定的,只因?yàn)樘珡?qiáng)大,實(shí)現(xiàn)思路直接看代碼。 showImg(https://segmentfault.com/img/remote/1460000018757943?w=1280&h=640);Overview:0 引言1 環(huán)境2 模塊準(zhǔn)備3 實(shí)現(xiàn)思路4 小試牛刀5 中試牛刀6 總結(jié) 0 引言 詞云圖,也叫...

    aristark 評(píng)論0 收藏0
  • 海航生態(tài)科技輿情大數(shù)據(jù)平臺(tái)容器化改造

    摘要:本文轉(zhuǎn)載自微信公眾號(hào)賬號(hào),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開(kāi)發(fā)工程師高顏。文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺(tái)的容器化改造經(jīng)驗(yàn),包括初期技術(shù)架構(gòu)應(yīng)用容器化架構(gòu)遷移持續(xù)發(fā)布與部署。 本文轉(zhuǎn)載自微信公眾號(hào)Docker(賬號(hào):dockerone),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開(kāi)發(fā)工程師高顏。 文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺(tái)的容器化改造經(jīng)驗(yàn),包括初期技術(shù)架構(gòu)、應(yīng)用容器化、架構(gòu)遷...

    idealcn 評(píng)論0 收藏0
  • 達(dá)觀數(shù)據(jù)特聘專(zhuān)家復(fù)旦大學(xué)黃萱菁教授帶你了解自然語(yǔ)言理解中的表示學(xué)習(xí)

    摘要:表示學(xué)習(xí)和深度學(xué)習(xí)的興起是密切相關(guān)。自然語(yǔ)言處理中的深度學(xué)習(xí)在自然語(yǔ)言的表示學(xué)習(xí)中提及深度學(xué)習(xí)這是因?yàn)樯疃葘W(xué)習(xí)首要的用處就是進(jìn)行自然語(yǔ)言的表示。圖是深度學(xué)習(xí)在自然語(yǔ)言理解中應(yīng)用描述。 本文根據(jù)達(dá)觀數(shù)據(jù)特聘專(zhuān)家復(fù)旦大學(xué)黃萱菁教授在達(dá)觀數(shù)據(jù)舉辦的長(zhǎng)三角人工智能應(yīng)用創(chuàng)新張江峰會(huì)上的演講整理而成,達(dá)觀數(shù)據(jù)副總裁魏芳博士統(tǒng)稿 一、概念 1 什么是自然語(yǔ)言和自然語(yǔ)言理解? 自然語(yǔ)言是指漢語(yǔ)、英語(yǔ)、...

    Rocture 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<