成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

Python第三方庫(kù)jieba庫(kù)與中文分詞全面詳解

89542767 / 799人閱讀

  Python在工作中的應(yīng)用還是比較的廣泛的,市場(chǎng)上面對(duì)于這類(lèi)人才開(kāi)出的薪資還是比較的高的。那么,如何使用第三方庫(kù)jieba庫(kù)與中文分詞進(jìn)行一個(gè)分解呢?下面小編就給大家詳細(xì)的做出一個(gè)解答。


  一、什么是jieba庫(kù)


  jieba是優(yōu)秀的中文分詞第三方庫(kù),由于中文文本之間每個(gè)漢字都是連續(xù)書(shū)寫(xiě)的,我們需要通過(guò)特定的手段來(lái)獲得其中的每個(gè)詞組,這種手段叫做分詞,我們可以通過(guò)jieba庫(kù)來(lái)完成這個(gè)過(guò)程。


  二、jieba分詞原理


  jieba庫(kù)的分詞原理是利用了一個(gè)中文詞庫(kù),將待分詞的內(nèi)容與分詞詞庫(kù)對(duì)比,通過(guò)圖結(jié)構(gòu)和動(dòng)態(tài)規(guī)則劃分方法找到最大概率的詞組。除了分詞,jieba還提供增加自定義中文單詞的功能。


  三、jieba庫(kù)支持的三種分詞模式


  1.精確模式


  將句子最精確地分開(kāi),適合文本分析;


  2.全模式


  把句子中所有可以成詞的詞語(yǔ)都掃描出來(lái),速度非???,但是不能解決歧義;


  3.搜索引擎模式


  在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞


  注:對(duì)中文分詞來(lái)說(shuō),jieba庫(kù)只需要一行代碼即可。英文文本不存在分詞問(wèn)題


  四、jieba庫(kù)常用函數(shù)

01.png

  五、jieba實(shí)操


  首先你需要安裝jieba庫(kù)


   pip install jieba

02.png

  練習(xí)一(jieba.lcut)精確模式


  jieba.lcut(s)是最常用的中文分詞函數(shù),用于精確模式,將字符串分割成等量的中文詞組。


  import jieba
  ls=jieba.lcut("我愿意穿過(guò)璀璨繁星")
  print(ls)

03.png

  練習(xí)二(jieba.lcut(s,cut_all=True))全模式


  jieba.lcut(s,cut_all=True)用于全模式,將字符串的所有分詞可能列出來(lái),冗余最大。
  import jieba
  ls=jieba.lcut("人面不知何處去,桃花依舊笑春風(fēng)",cut_all=True)
  print(ls)

04.png

  練習(xí)三(jieba.lcut_for_search)搜索引擎模式


  jieba.lcut_for_search該模式首先執(zhí)行精確模式,然后在對(duì)其中長(zhǎng)詞進(jìn)一步分獲得最終結(jié)果
  import jieba
  ls1=jieba.lcut("仰天大笑出門(mén)去我輩豈是蓬蒿人")
  ls=jieba.lcut_for_search("仰天大笑出門(mén)去我輩豈是蓬蒿人")
  print(ls1)
  print(ls)

05.png

  練習(xí)四(jieba.add_word(w))增加新詞


  import jieba
  ls=jieba.lcut_for_search("仰天大笑出門(mén)去我輩豈是蓬蒿人")
  print(ls)
  jieba.add_word("蓬蒿人")
  ls1=jieba.lcut("仰天大笑出門(mén)去我輩豈是蓬蒿人")
  print(ls1)

06.png

  小結(jié):精確模式因?yàn)椴划a(chǎn)生冗余,最為常用。


  到此為止,這篇文章就給大家介紹到這里了,希望可以給大家?guī)?lái)更多的幫助。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/128245.html

相關(guān)文章

  • Python文本分析:2016年政府工作報(bào)告有哪些高頻詞?

    摘要:據(jù)小編簡(jiǎn)單了解,已知對(duì)工作報(bào)告高頻詞匯進(jìn)行梳理的媒體包括法制日?qǐng)?bào)和新華網(wǎng)。高頻詞詞頻年以來(lái)政府工作報(bào)告中的提及總數(shù)發(fā)展經(jīng)濟(jì)改革建設(shè)社會(huì)推進(jìn)創(chuàng)新政策企業(yè)加強(qiáng)下面是新華網(wǎng)數(shù)據(jù)新聞部統(tǒng)計(jì)的高頻詞匯。 本文首發(fā)于微信公眾號(hào)號(hào)編程派。微信搜索編程派,獲取更多Python編程一手教程及優(yōu)質(zhì)資源吧。 上周六,總理在大會(huì)堂作政府工作報(bào)告,全球媒體矚目。每年都會(huì)有媒體對(duì)報(bào)告中的高頻詞匯進(jìn)行梳理,我們也可...

    CntChen 評(píng)論0 收藏0
  • 前端小白的python實(shí)戰(zhàn): 報(bào)紙分詞排序

    摘要:先看效果環(huán)境位目標(biāo)抓取一篇報(bào)紙,并提取出關(guān)鍵字,然后按照出現(xiàn)次數(shù)排序,用在頁(yè)面上顯示出來(lái)。首先要抓取網(wǎng)頁(yè),但是網(wǎng)頁(yè)在控制臺(tái)輸出的時(shí)候,中文總是亂碼。但是不得不承認(rèn),上有很多非常優(yōu)秀的庫(kù)。例如但是這些包我在上安裝的時(shí)候總是報(bào)錯(cuò)。 先看效果: showImg(https://segmentfault.com/img/bVRLCc?w=612&h=668); 環(huán)境 win7 64位 pyt...

    cncoder 評(píng)論0 收藏0
  • 分詞,難在哪里?科普+解決方案!

    摘要:分詞的算法中文分詞有難度,不過(guò)也有成熟的解決方案。例如通過(guò)人民日?qǐng)?bào)訓(xùn)練的分詞系統(tǒng),在網(wǎng)絡(luò)玄幻小說(shuō)上,分詞的效果就不會(huì)好。三的優(yōu)點(diǎn)是開(kāi)源的,號(hào)稱(chēng)是中,最好的中文分詞組件。 showImg(https://segmentfault.com/img/remote/1460000016359704?w=1350&h=900); 題圖:by Lucas Davies 一、前言 分詞,我想是大多數(shù)...

    Steven 評(píng)論0 收藏0
  • Python如何生成詞云(詳解)

    摘要:前言今天教大家用模塊來(lái)生成詞云,我讀取了一篇小說(shuō)并生成了詞云,先看一下效果圖效果圖一效果圖二根據(jù)效果圖分析的還是比較準(zhǔn)確的,小說(shuō)中的主人公就是程理,所以出現(xiàn)次數(shù)最多。 前言 今天教大家用wrodcloud模塊來(lái)生成詞云,我讀取了一篇小說(shuō)并生成了詞云,先看一下效果圖: 效果圖一: showImg(https://segmentfault.com/img/remote/1460000015...

    Juven 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<