python使用jieba進(jìn)行中文分詞wordcloud制作詞云

yvonne 發(fā)布于2019-07-31 10:57 / 2989人閱讀

摘要：準(zhǔn)備工作抓取數(shù)據(jù)存到文檔中，了解問題分詞分的不太準(zhǔn)確，比如機(jī)器學(xué)習(xí)會被切成機(jī)器和學(xué)習(xí)兩個詞，使用自定義詞典，原本的想法是只切出自定義詞典里的詞，但實(shí)際上不行，所以首先根據(jù)分詞結(jié)果提取出高頻詞并自行添加部分詞作為詞典，切詞完畢只統(tǒng)計(jì)自定義詞典

準(zhǔn)備工作

抓取數(shù)據(jù)存到txt文檔中，了解jieba

問題

jieba分詞分的不太準(zhǔn)確，比如機(jī)器學(xué)習(xí)會被切成機(jī)器和學(xué)習(xí)兩個詞，使用自定義詞典，原本的想法是只切出自定義詞典里的詞，但實(shí)際上不行，所以首先根據(jù)jieba分詞結(jié)果提取出高頻詞并自行添加部分詞作為詞典，切詞完畢只統(tǒng)計(jì)自定義詞典里出現(xiàn)過的詞

wordcloud自身不支持中文詞云，需要指定中文字體，并且現(xiàn)在大部分的博客提供的generate_from_frequencies方法的參數(shù)與現(xiàn)在的wordcloud的參數(shù)不同，現(xiàn)在這個方法接收的是dict類型

代碼

# -*- coding: utf-8 -*-
import jieba
import os
import codecs
from scipy.misc import imread
import matplotlib as mpl 
import matplotlib.pyplot as plt 
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

class GetWords(object):
    def __init__(self, dict_name, file_list , dic_list):
        self.dict_name = dict_name
        self.file_list = file_list
        self.dic_list = dic_list
    #獲取自定義詞典
    def get_dic(self):  
        dic = open(self.dict_name, "r")
        while 1:
            line = dic.readline().decode("utf-8").strip()
            self.dic_list.append(line)
            if not line:
                break
            pass
            
    def get_word_to_cloud(self):
        for file in self.file_list:
            with codecs.open("../spider/" + file, "r",encoding="utf-8", errors="ignore") as string:
                string = string.read().upper()
                res = jieba.cut(string, HMM=False)
                reslist = list(res)
                wordDict = {}
                for i in reslist:
                    if i not in self.dic_list:
                        continue
                    if i in wordDict:
                        wordDict[i]=wordDict[i]+1
                    else:
                        wordDict[i] = 1

            coloring = imread("test.jpeg")

            wc = WordCloud(font_path="msyh.ttf",mask=coloring,
                    background_color="white", max_words=50,
                    max_font_size=40, random_state=42)

            wc.generate_from_frequencies(wordDict)

            wc.to_file("%s.png"%(file))

def set_dic():
    _curpath=os.path.normpath( os.path.join( os.getcwd(), os.path.dirname(__file__) ))
    settings_path = os.environ.get("dict.txt")
    if settings_path and os.path.exists(settings_path):
        jieba.set_dictionary(settings_path)
    elif os.path.exists(os.path.join(_curpath, "data/dict.txt.big")):
        jieba.set_dictionary("data/dict.txt.big")
    else:
        print "Using traditional dictionary!"
 
if __name__ == "__main__":
    set_dic()
    file_list = ["data_visualize.txt", "data_dev.txt", "data_mining.txt", "data_arc.txt", "data_analysis.txt"]
    dic_name = "dict.txt"
    dic_list = []
    getwords = GetWords(dic_name, file_list, dic_list)
    getwords.get_dic()
    getwords.get_word_to_cloud()

詞云示例

此圖為爬取拉勾網(wǎng)數(shù)據(jù)挖掘工程師崗位需要制作的詞云

源碼

github

云服務(wù)器 GPU云服務(wù)器 jieba分詞中文分詞 python 詞云 python詞云工具

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/44384.html

發(fā)表評論

登陸后可評論

0條評論

yvonne

男|高級講師

我要關(guān)注我要私信

TA的文章

irreader – 這款難得免費(fèi)網(wǎng)站和RSS訂閱閱讀器客戶端軟件「Win/Mac」

閱讀 3134·2021-09-28 09:42
云主機(jī)怎么裝系統(tǒng)-云主機(jī)要怎么重裝系統(tǒng)？

閱讀 3464·2021-09-22 15:21
Eqservers：$45/月/E3-1230/32GB內(nèi)存/8TB硬盤/30TB流量/1Gbps帶

閱讀 1136·2021-07-29 13:50
你們要的HTML布局技巧：如何規(guī)范搭建網(wǎng)頁架構(gòu)？

閱讀 3589·2019-08-30 15:56
react組件間的信息交流數(shù)據(jù)傳遞圖文講解

閱讀 3378·2019-08-30 15:54
思考 CSS 架構(gòu)

閱讀 1205·2019-08-30 13:12
CSS單位em是相對于父元素還是當(dāng)前元素的字體大小？

閱讀 1188·2019-08-29 17:03
數(shù)組reduce方法的高級技巧

閱讀 1211·2019-08-29 10:59

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python使用jieba進(jìn)行中文分詞wordcloud制作詞云

相關(guān)文章

Python如何生成詞云(詳解)

Python wordcloud庫學(xué)習(xí)小結(jié)

Python pyecharts如何繪制云圖呢？下面就給大家詳解解答

python 生成18年寫過的博客詞云

python爬蟲實(shí)戰(zhàn)一：分析豆瓣中最新電影的影評

發(fā)表評論

0條評論

yvonne

男|高級講師

TA的文章

irreader – 這款難得免費(fèi)網(wǎng)站和RSS訂閱閱讀器客戶端軟件「Win/Mac」

云主機(jī)怎么裝系統(tǒng)-云主機(jī)要怎么重裝系統(tǒng)？

Eqservers：$45/月/E3-1230/32GB內(nèi)存/8TB硬盤/30TB流量/1Gbps帶

你們要的HTML布局技巧：如何規(guī)范搭建網(wǎng)頁架構(gòu)？

react組件間的信息交流數(shù)據(jù)傳遞圖文講解

思考 CSS 架構(gòu)

CSS單位em是相對于父元素還是當(dāng)前元素的字體大小？

數(shù)組reduce方法的高級技巧

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python使用jieba進(jìn)行中文分詞wordcloud制作詞云

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！